2009年11月20日金曜日

OCR

OCR(文字認識してテキストにしてくれるソフト)を探していましたが、いまいちこれといったいいフリーのツールがありませんでした。それでやむなく(^^; MSさんを利用。MS Officeをインストールしていると、Microsoft Office Document Image WriterというプリンタドライバとMicrosoft Office Document Imagingというツールが入っているようです。Office2003からでしょうか? それで次のようにします。まずOCRしたいPDFファイルなどを用意します。最初からTIFなどの画像ファイルなら(1)は不要です。

(1)Microsoft Office Document Image Writer(プリンタドライバ)で、PDFファイルからtifファイルへ変換
(2)スタート→すべてのプログラム→Microsoft Office→Microsoft Officeツール→Microsoft Office Document Imagingで画像ファイルを読み込みOCRする

日本語も英語もそこそこの認識率という気がしました。

0 件のコメント: