学会ホームページ運営者から見たPDF依存の弊害

学会ホームページ運営者から見たPDF依存の弊害
学会のホームページでは、PDF が多用されます。しかし PDF はスマホでは非常に扱いにくいため、ホームページの利便性を著しく損ねています。また、サイト内検索では特定のキーワードでしか検索できないため、せっかくのデータがゴミ化してしまいます。PDF 化 = 電子化 という迷信から脱却し、使いやいサイトを構築し、同時にPDFにした貴重な論考を未来に遺す方法について考察します。

PDF とは、Portable Document Format の略で、印刷物のデザインをクライアント・デザイナー等が確認するために編み出された形式です。
そのため、デザインが崩れないことが最重要で、データベースに登録して全文検索するという用途は想定されていませんでした。ですから、初期においては Google 検索でも、PDF は検索できませんでした。

PDF の2つの弱点

最近、Google 検索で PDF が検索できるようになったのは、後述するように、Google の努力の賜物であり、けして PDF が進化したからではありません。ですから、Google システムに頼らないサイト内検索では、PDF の全文検索できないのがふつうです。データベースによっては、あらかじめ各 PDF に特定のキーワードを設定している場合もありますが、そのキーワード以外では検索できないわけで、真価が認められないまま、埋もれてゴミファイルになってしまう論文もあり得ます。これが PDF の弱点の一つです。

もう一つは、PDF はスマホやタブレット型端末では扱いにくいということです。
スマホやタブレット型端末では、通常、PDF 閲覧用アプリをインストールしなければ、PDF を閲覧できません。
パソコンの場合は、予めブラウザに PDF 閲覧用プラグインが組み込まれているため、ホームページ上の PDF ファイルを閲覧するのも、PDF からホームページに戻るのもスムーズに切り替えられます。スマホやタブレット型端末の場合は、PDF ファイルをいったんダウンロードし、PDF 閲覧用アプリを起動させて閲覧しなければなりません。しかも PDF はレスポンシブではないので、スマホのような小さな画面では見づらくて仕方ありません。閲覧後元のページに戻るには、ブラウザ画面を探して切り替えなければなりません。また、スマホやタブレット型端末も、パソコンほどには記憶容量がないので、ダウンロードした PDF は用が済んだら、せっせと削除するか、ヨソに移さないと、記憶容量がすぐにいっぱいになってしまいます。スマホやタブレット型端末にとって、PDF はけっこう厄介なのです。

PDF 依存から脱却しよう

まず、何でもかんでも PDF のままホームページに掲載するという悪習を改めましょう。会議の日程など連絡するのが目的のページは HTML(ホームページの形式)にし、論文などじっくり読むものは PDF のままにしておくという区別しましょう。こうすれば、無駄な検索をせずにすみます。
ただし、会議の予定を PDF にしてメールに添付し、情報を伝えるのはいいのです。その PDF をホームページ制作業者に送って、指示を伝えるのも OK。問題は、ホームページ制作業者が手抜きをして PDF にリンクだけ張って終わりにするのを許してしまうことです。PDF の内容を HTML 化し、スマホやタブレットでも読みやすい形にするようホームページ制作業者を指導してください。

検索システムを改修しよう

先述したように、学会のデータベースではよく PDF を検索するために、特定のキーワードを設定するところがあります。
しかしキーワードは時代によって変わってきます。今は見向きもされない言葉が、将来重要なキーワードに化けることもあります。発表当初はあまり評価されなかった論文が、後年再評価される場合もあります。論文に現在の知見から特定のキーワードを与えるだけでは、その論文の真価を見落としてしまう可能性があります。Google のように、論文中のすべての語句を検索対象にする全文検索できるシステムを構築する必要があります。

では、Google はどうやって全文検索しているのでしょうか?
まず、PDF がパスワード保護や暗号化されていないのが前提です。その上で、PDF は作り方によって2種類に分かれます。
一つはテキストが文字コードを利用して書かれているもの。この場合、そのままテキストを読み込み検索対象とします。
もう一つはテキストが画像として埋め込まれているもの。この場合、OCR (Optical Character Recognition/Reader = 光学的文字認識)システムで読み取り、テキスト化します。そしてそのテキスト部分を検索対象とします。

Google ウェブマスター向け公式ブログ
検索結果における PDF ファイルの取り扱いについてのヒント

学会のホームページで、Google のような OCR 機能をゼロから開発する必要はありません。
Google がクラウドサービスの一環として、OCR システムを提供しているので、これを利用すると、素早く機能を実装できます。
実務に関しては、IT エンジニアにご相談ください。
なお、Google 検索をそのまま利用することはお勧めしません。Google 検索とは、Google 内のデータベースに登録されたデータを検索しているわけで、学会のホームページに論文が登録されたら、ただちに Google データベースに反映されるわけではないからです。

まとめ

学会のホームページでは、PDF が多用されます。しかし、PDF はスマホやタブレット型端末では扱いにくく、ホームページの利便性を損ねます。また、PDF はサイト内検索では、通常全文検索できません。
ですから、何でもかんでも PDF のままホームページに掲載するのではなく、連絡するのが目的のようななページは HTML にし、論文などの PDF と、厳正に仕分けましょう。検索できない PDF はゴミファイルになってしまうので、OCR 機能を組み込んだ検索システムを構築することをお勧めします。


コメントを残す


// 記事ページのみに構造化データを出力 //サムネイルを取得 //ここから構造化データの記述