「大量の紙論文を廃棄し、そして、それらをパソコン上で本文検索のできるテキスト付PDF(透明PDF)にする」

http://monomania.sblo.jp/category/34488-1.html


OCRソフトは各社から結構出ています。機能もインターフェースもあまり変わりませんので、基本的にどのメーカーでもいいとは思います。
 とりあえず、購入前に試用してみたソフトですが、乗換版などが安価に買える、 "e.typist v.11.0 、 "読取革命 Ver.10 、 "やさしくPDF OCR v2.0 あたりを使ってみました。
この3者では、「やさしく…」が、認識精度の点でかなり落ちる感じがしました。その大きな原因の1つは、「やさしく…」に見開きページの傾き補正機能がないことです。
 論文集など、分厚い書籍をコピーに取るとき、本の綴じ目を境に左右の画像が傾いてしまうことがよくあります。しかし、e.Typistや読取革命は、画像を左右別々に傾き補正し、これを修正する機能がついています。
 OCRの読み取りは、文字が水平でないと極端に精度が落ちるので、この機能 は必須といえます。 「やさしく」以外は、両者とも、傾き補正機能がついています。両者は、機能的にもほとんど同じで、インターフェースもそっくりです。
 E.typistが、無数の言語に対応している点を除けば、特化されたオリジナルな機能というのはなさそうです。処理速度もかわりません。
 ただ、「画像のゴミ取り」などの使い勝手が若干異なりますので、個人の利用法に合わせて、試用版を試してみるといいと思います。両者とも、機能制限がほとんどない10日前後の試用期間がありますか。
さてさて、肝心のOCRの読み取り精度ですが、(あくまで個人の感想ですが)日本語については読取革命 のほうに分があるという印象です。
 e.Typistは、フォントの大きさのばらつきがあると、レイアウト枠が壊れてしまうことがありました。また、低品質の印字の場合、読取革命より、かなり認識精度が落ちたように感じました。
 英語については、読取革命は水をあけています。松下は、英語のOCRにABBYYのFineReader7.1のエンジンを使っているらしいです。そのためか、かなり補正の精度が良かったです。
ただし、「読取革命」も難はあります。論文の場合、たいてい、日本語表記と英語表記が混在しているわけですが、日本語の縦書き論文における、英語の横書き(縦中横)をきちんと見分けてくれません。
 また、日本語読み取りモードで、英語部分を読み取ると、かなりの確率で認識エラー(アルファベットを日本語として読み取る)してしまいます。    
 自動読み取りモードを使用すると、一括して日本語のOCRがかかってしまいます。英語部分を英語のOCR、日本語の部分を日本語のOCRでという「分業」をしてくれません。  
 したがって、英語のみの論文、日本語の横書き論文については、読取革命 は実用的なレベルにあるといえますが、英語が混在する日本語の縦書き論文についてはいまいちな感じです。
読取革命は、英語の読み取りもそこそこ優秀で、レイアウトを手動設定すれば、最低限の仕事をしてくれます。  
 また、OCRの精度はともかくとして、英語については、レイアウト枠の自動認識機能もいまいちです。文字列を画像と認識してしまったり、文字がある場所がレイアウト枠として認識されなかったりします。したがって、レイアウト枠に関しては、手動でいちいち設定する必要があるのですが、これが大変に面倒くさいです。
読取でOCR化する際、画像をトリミングしたり、傾き補正したり、見開き補正したりする一番の理由は、画像に手を入れないとOCRが正常にかからない。
「読取革命」ですが、英語OCRの性能はともかく、コンシューマ向けの日本語OCRとしては最良の選択肢です。
読取は、見開き画像の中間線がちゃんと把握されないことが多い上、その調整も自動ではほとんど意味のないレベルでしたが、読んDEは、中間線の把握も、傾き補正も、ほぼ完璧にやってくれてました。
ただし、画像の補整が通常画面上で行えない(画像補整ウィンドウを開く必要がある)点がちょっと使いにくいです。また、読取同様か、それ以上に、白黒画像の画像枠認識が甘く、画像が文字フィールドとして認識されてしまうことが多かったです。また、全ての処理が、他のソフトに比べてかなり時間が借ります。
 結論的に言えば、読取の機能と比べた場合、一長一短があります。スキャニングした画像にトリミングなど手を加えるつもりなら、読取革命のほうが便利だと思うし、できるだけ手を加えたくないのなら、読んDEの方が良い印象です。
読取の「傾き補正」・「見開き自動補正」の精度は、他の最新ソフトに比べても、あんまり良くないです。まあ、肝心の文字認識を含めて総合能力は高水準なので、今回の調査の結果、他のOCRソフトに乗り換える必要は感じませんでした。
読んDE!!ココのver.12の15日間の試用版を試しています。以前、画像編集は、「読取」の方が効率がよいと書きましたが、使い込んでみると、読んDE!!も悪くない・・というか、傾き補正の手間を考えると、こちらの方が格段に手間いらず。
 自動レイアウト認識は確実に読んDE!!の方が精度がいいので、これから買う人は、こちらの方が良いかも。





"サーチクロス ver.2.0" (ビレッジセンター) ¥ 2,403

OCRをかけて、テキストデータを付与したわけですから、現在、論文の内容から、文字列を検索できるようになっています。しかし、ウィンドウズの標準の検索機能では、PDF化しファイルから、一つのワードを横断的に検索することはできません。  
例えば、Celtという単語について、どの論文のどこに書かれているかを知りたいと思えば、論文ごと検索(Ctrl+F)をしなければならず、面倒です。そこで、このサーチクロスというソフトが使えます。 これは、指定したフォルダのファイルのインデクスをあらかじめ作っておくことで、ファイル内のテキストの横断検索を可能にするソフトです。