クライアントから頂いたデータがWordやPowerPoint形式だった、あるいはテキストだと思って頂いたデータが画像文字だったということは残念ながらあるかもしれません。
この記事では、どうすればWordやPowerPoint形式のデータから画像を取り出したり、画像文字をテキストに変換できるかということについて書いています。
WordやPowerPoint形式のデータから画像を取り出す
例えば作業しているPCにWordやPowerPointが入っていないという場合はどうやって画像を取り出せば良いのでしょうか?
実は、それらのファイルの拡張子を .zip に変換してからダブルクリックするだけで画像を取り出すことができます。
※画像は一般的にZIPを展開してできたフォルダー内の[word>media]フォルダー内にあるはずです。
なぜこのようなことができるかというと、.docx や .pptx 型式は「XMLと画像が一緒にZIPで圧縮されたファイル形式」になっているためです。
拡張子が表示されない場合は
Windows 10の場合、エクスプローラーで[表示]タブ内の[ファイル名拡張子]にチェックを入れます。
Macの場合、Finderの環境設定(メニューの[Finder>環境設定])の[詳細]内の[すべてのファイル名拡張子を表示]にチェックを入れます。
画像文字をテキストに変換する
画像文字や手書きの画像をテキストに変換するには、「OCRソフト」などと呼ばれるアプリケーションを使用することが一般的です。
しかし、OCRソフトがインストールされていない場合、Free Online OCR などのWebサービスに画像をアップロードしてテキストにすることができます。
Free Online OCR にアクセスし、[Select file…]をクリックして画像を選択し、[JAPANESE][Text Plain (txt)]を選択し、[CONVERT]をクリックするとテキストに変換されます。
difff というWebサービスを使用し、画像文字にする前のテキストと比較したところ、行末に半角スペースが入っていたことと漢字が1文字違った以外に差はありませんでした。
この方法は、例えばスマートフォンのスクリーンショットからテキストを取り出したいときなどにも使えます。
追記: Googleドライブで画像をテキストに変換する
WebブラウザーなどでGoogleドライブに画像をドラッグ&ドロップしてアップロードします。
画像を右クリックし[アプリで開く>Googleドキュメント]でしばらく待てば、画像の下にテキストが表示されます。