忍者ブログ

プロジェクト・サイラス・スミスBLOG

ホームページ「プロジェクト・サイラス・スミス」http://projcyrussmith.moto-nari.com/ のブログ部分です。メインのコンテンツ(翻訳したSF)自体はホームページ側にあります。ブログ側にはSFのレビューなどを投稿しています。 ※SF翻訳活動は、実用度の高い機械翻訳の台頭により意義を失ったと考えるため、2021年以降はほぼ休止しています(2021/4/14投稿を参照)。 ※ブログ内のエントリ間のハイパーリンクはまれに切れている場合がありえます。お手数ですが検索機能をご活用ください。

国立国会図書館デジタルコレクションで「全文検索」ができる件

私の目があまりにも節穴なためこれまで気づいていなかったのか、あるいは比較的直近に実装されたのか、「国立国会図書館デジタルコレクション」の「個人送信」で「全文検索」ができることを認知した。

これまでは
・希書が読めると言ってもスキャン画像では二流以下の電子化に過ぎない、テキストになっていて検索できて初めて合格点だ
・しかし古い書籍は状態も良くないだろうし、出版社や年代によってフォントも異なるだろうし、OCRは至難の業だろう
と思っていたのだが、問題はクリアされていたあるいはクリアされたようだ。どうやって実現したのかは分からないが実用上充分な精度でテキスト化されているようだし、検索速度も悪くない。

これで読書も研究も格段に捗るぞ!
PR

コメント

プロフィール

HN:
匿名(仮称:プロジェクト・サイラス・スミス管理人)
性別:
非公開

P R