スタッフブログ
BLOG
-
2015.10.09
Googleドライブを使って画像やPDFをOCRにかける方法
「画像やPDFの文章を使いたいけど、手打ちするのが面倒だなあ・・・」
と思うことはないでしょうか?
PDFの場合、テキストデータを抜き出せる場合もありますが、画像はそうもいきません。
OCRソフトがあればスキャンできますが、そんなソフト持ってない!という方はGoogleドライブを試してみてください。
※もちろん無料で使えます!
1. まずはGoogleにログインし、ドライブを開く
2. 設定でアップロードしたファイルをエディタ形式に変換する
右上の歯車マーク→「設定」を選択すると上のような画面が表示されるので、
「全般」タブにある「アップロードしたファイルを変換する」にチェックを入れる。3. スキャンしたい画像やPDFをアップロード
スキャンしたい画像やPDFをアップロードします。
ドラッグでもアップロードが可能です。今回アップロードした画像はこちら↓フォントサイズは20pxです。
上2行:通常の文章
中2行:判別しにくい文章
下4行:読めるけど掛けない漢字 引用元:「読めるけど書けない難しい漢字」の簡単な覚え方まとめ
4. ファイル一覧からアップロードしたファイルをGoogleドキュメントで開く
アップファイル一覧からスキャンしたいファイルを右クリック→「アプリで開く」→「Googleドキュメント」を選択
5. ファイルのスキャンが完了
これでファイルのスキャンが完了です。改行はスペースで出力されます。
上が元の画像、線で区切られた下がスキャンされたテキストです。1つずつ見ていきましょう。
上2行
【原文】
こんにちは。
愛知県岡崎市の株式会社プラスイーです。
今日は、2015年10月9日(金)です。【スキャンされたテキスト】
こんにちは。 愛知県岡崎市の株式会社プラスイーです。 ラ日は、2015年10月9日 (金) です。惜しいです。「今日は」が「ラ日は」になってしまいました。
中2行
【原文】
明日は10月10日(土)
天気予報では晴れの予定です。【スキャンされたテキスト】
明日は10月10日 (土)/天気予報の文章が完全に消えてしまいました・・・。
下4行
【原文】
葡萄
鼠 団欒 薔薇 檸檬
麒麟 挨拶
鷲 林檎【スキャンされたテキスト】
葡萄 鼠 回樂 薔薇 檸檬 麒麟 埃投
驚 林檎こちらも微妙な結果ですが・・・
「葡萄」や「麒麟」のような類似する漢字がない場合はそのままスキャンされていますね。
結果、精度は微妙なところではありますが・・・使えなくもないのでは?と思います。
必要であれば使ってみてください。(OCRのソフト買った方が良いと思いますが!)
関連記事