ニュース

GPU不要。国立国会図書館がノートPCで動くOCRソフト公開

 国立国会図書館のNDLラボは2月24日、一般的なノートPCや家庭用PCで、図書や雑誌といった資料のデジタル化画像からテキストデータが作成できるOCRソフト「NDLOCR-Lite」を無償で公開した。公式GitHubからダウンロード可能となっており、CC BY 4.0ライセンスで公開されている。

 国立国会図書館はこれまで「NDLOCR」というOCRソフトを提供していたが、ライブラリとしてCUDA 11.1が使われていて、NVIDIAのGPUが必須だった。NDLOCR-LiteはGPUが不要となったため、一般的なPCで高速に動作するという。Windows 11、macOS 15、Ubuntu 22.04で動作確認済み。

 コマンドライン版(Python 3.10必須)が用意されているほか、マウスで操作できるデスクトップアプリケーションも用意している。デスクトップアプリでは画面キャプチャ機能を搭載し、画像ファイルを介さずにテキスト化できる。

 NDLOCR-Liteでは、NDLOCRが不得意としていた英文や手書き文字などについても実験的に対応できる。一方、くずし字や漢籍の資料も読み取れる場合があるとしているが、本格的なテキスト化は、より読み取り精度が高い「NDL古典籍OCR」「NDL古典籍OCR-Lite」の利用を推奨している。

国立国会図書館総務部 編『国立国会図書館スタッフ・マニュアル』E-2,国立国会図書館,1963.8. 国立国会図書館デジタルコレクションのOCR例。複雑な段組みも対応できる
国立国会図書館総務部総務課 編『国立国会図書館年報』昭和29年度,国立国会図書館,1955. 国立国会図書館デジタルコレクションのOCR例