イベントレポート

PFU、網掛けや罫線がある文書もOCRできる技術をデモ

 16日~19日の間、幕張メッセで開催されている「CEATEC JAPAN 2018」。株式会社PFUのブースでは、先日発売された「ScanSnap iX1500」が展示されていた。

 タッチパネルの搭載やPCのソフトウェア面での改善が図られたものになっている。展示ブースでは専用の給紙ガイドを利用してさまざまなサイズの書類の同時にセットしてスキャンしたり、タッチパネルを利用して簡単にスキャンしたりと、実機を使いながらその利便性をアピールしていた。

 「ScanSnap iX1500」の詳細についてはレビュー記事が掲載されているのでそちらも参考にしてほしい。

 また、同ブースではこのほかに興味深い参考出展として、業務用スキャナ向けOCRの技術デモが行なわれていた。

 1つは、網掛けや罫線などの装飾に重なってしまった文字を「二値化技術」によって認識可能にするというもの。デモではOCRする上で障害となる装飾の要素を除去し、文字を抽出している様子を見ることができた。

 なお、このデモで表示されている処理後の画像はデモ用に特別に表示しているもので、実際の製品ではソフトウェア上に表示はされない。

処理前(画面左)と処理後(画面右)。青文字の部分が処理の前後で正しく抽出できている

もう1つは、形式の違う取引帳票のOCRを行なう技術デモ。発行元によってレイアウトが異なる取引帳票をスキャンした場合でも、レイアウトごとにそれぞれの定義を用意することなくOCRが可能。項目に間違いがあった場合でもその都度修正していくことでソフトウエアが学習し、以降は正しくデータを抽出できるという。修正作業も対象個所をマウスで選択して正しい情報を入力すれば完了でシンプルになっている。

注文書を認識している画面。レイアウトが違う注文書も同様に、注文番号や取引先など右側に抽出されていた