2012年5月28日月曜日

GoogleDrive:PDFのOCR化・テキスト化,紙からテキストへ

うちの業界は,いまだ紙が多いです。

紙で来たものをPDF化するも,どうせならテキスト化までしたい。

ということで,今もっとも簡単で無料のGoogleDriveによるOCR化をします。

やり方は,とても簡単で,アップロードするときに,

アップロードしたPDFや画像ファイルからテキストに変換

をチェックしてアップロードするだけです。

詳しくは,GoogleDocの記事ですが,
ここに参考記事があります。

http://syararin.blog50.fc2.com/blog-entry-2054.html


制限の,2.0MB以下にすることが結構難しいです。
事務所にあった有料のアドバソフトを使えば,簡単にpdf最適化できます。
(保存するときに,最適化を選んでやるのが簡単でしょうか)


90頁ぐらいが3.0MBぐらいまで落ちましたが,まだおおいので,ページを分割してアップロードしました。


FAXみたいなのは,結構,認識率が落ちます。
ま,一から書くよりはいいいかということぐらいでしょうか。


……………………………………………………