ニュース

富士ゼロックス、脳の視覚情報処理の仕組みを利用した文字認識技術

~約3万文字の多言語、手書きに対応

人間の視覚情報処理の仕組みを利用した文字認識技術
4月12日 発表

 富士ゼロックス株式会社は12日、脳における視覚情報処理の仕組みをソフトウェア上で実現した文字認識技術を世界で初めて開発したと発表した。

 人間の脳と同じような構造をソフトウェアに取り入れることで、手書き文字を含めた約3万文字の多言語の文字認識を実現した技術。後述する「方位交差抑制」と呼ばれる働きを世界で初めてソフトウェアに取り入れ、認識精度の向上を図った。

 人間の網膜から入力された視覚情報はまず大脳の第1次視覚野(V1)に伝わり、さまざまな傾きを持つ線分を抽出。次に視覚情報は第2次視覚野(V2)で十字、L字などのような形状に抽出され、さらに複雑な形状を認識。人間の脳はこのような階層的な処理を通して、線分などの形状から文字など複雑な形状を認識していると考えられている。

 そこで本ソフトウェアも、線分や十字などの形状を抽出する「畳み込み演算部」と、抽出された特徴を集約する「サブサンプリング部」の2つに分け、脳のV1/V2に相当する階層処理を行なうことで、文字の特徴を抽出。最後の文字種判定部で文字を判定するようにした。

 また、サブサンプリング部では、単独で刺激を呈示しても応答しないが、ほかの刺激と同時に呈示することで応答に変化を与える「方位交差抑制」に相当する処理を取り入れた。これにより細かな文字の差異を区別し、従来の約10倍の約3万文字の認識を可能にした。

 この技術は人間と同様に文字を学習できる。異なる形状の文字をソフトウェアに登録し学習させることで、活字も手書き文字も区別なく読めるようになる。多言語の文字学習も可能としている。

(劉 尭)