前エントリで「DeepLの『画面上のテキスト取り込み』機能によりOCRと機械翻訳をワンストップ化するのが最高効率」と述べたところだが、DeepL有償版(月額1,380円で一番安いindividualというコース)だと、本格的に読書するとすぐに月間上限文字数(30万文字)に到達してしまうことに気付いた(*1)。
なおTeamコース(月額4,500円)にすると月間上限文字数は100万文字、すなわちハヤカワ文庫SF換算で約450ページ分になるがそれでも不足気味だし、少々お高い。Businessコース(月額9,000円)にすると月間上限文字数は無制限になるが、だいぶお高い。
そこでやはりワンストップ化はあきらめてDeepLはなるべく温存し、任意の無料OCRソフト+みらい翻訳(Trial)またはGoogle翻訳またはMicrosoft Bing翻訳を主軸とすることとした。
これまではあまり考えも無くTesseractを使ったりしていたのだが、今夜はGUIの方向で検討し、
①Microsoft PowerToy(*2)のText Extractorという機能
②Capture2Textというフリーソフト
を比較的くっきりした英文――ありていに言うと電子書籍――で試してみた。
結果、①は改行をうまく処理してくれるというアドバンテージはあるが読み取り精度はやや弱く(実用性がないレベルではないがlとかIとか、まあありがちなところで間違いがち。フォントを変えるとある間違いは改善するが他の間違いが生ずるといった感じだ)、②は改行は補正できないが文字そのものの読み取り精度はフォントを問わず高い。
一長一短ではあるが②の方が大体の局面でニーズに適している。なぜならば、DeepL・Google翻訳・Bing翻訳は任意のところに改行コードが混ざった英文でもほぼお構いなしで解釈してくれるので、みらい翻訳を使わないのであれば(そもそもTrialをあまり実用するのは申し訳がない)改行が補正されていなくても問題ないからである。
そういうわけでDRMが掛かった電子書籍をWindows上で無料でOCRして無料で機械翻訳をかけるなら「Capture2Text+Google翻訳またはBing翻訳」が現時点での私の中での暫定最適解である。
開発者様ありがとうございます。
*1 例えば新しめのハヤカワ文庫SFの1ページが約42×18文字=756文字。日本語と英語で同等の内容を記述するのに必要な文字数は経験上おおむね1:2.5。つまりハヤカワ文庫SFの1ページ分の日本語は英語にすると約2,000文字。そうすると英語30万文字はハヤカワ文庫SF換算で150ページ分に過ぎない! 長編小説が1冊読めない。
*2 OCR以外に関しても実に良いツール集だ! むしろWindowsに元から組み込んでおいて欲しかった。