毎日のように新しいサービス、技術をリリースしてくるGoogleだが、、
また新しい技術が公開された!
http://markezine.jp/article/detail/5822
紙の文章をスキャニングしてPDF化した文章(正確には画像)も、OCRで認識し検索可能にする、というモノ。
「そこまでやるか!?」とい気もするが、あらゆる書籍をデータ化しようとしているGoogleなら、そのくらいやっても不思議ではないか。。
OCRというと認識率が課題だったりするが、例えば「O(オー)」なのか「0(ゼロ)」なのかを判別するらしいので、単に一文字一文字を機械的に読むだけでなく、前後の文脈も判断するアルゴリズムが組み込まれている、ということか。
記事を見る限り、さすがにまだ英数字の文章のみのようだが、、これで日本語にも対応したらスゴイですな。
ホームページ制作のこと、ホームページの運営でわからないことや困っていることがありましたら、「株式会社アットライズ」までお気軽にご相談ください。
株式会社アットライズのホームページはこちら