ニュース

AIで日本史研究者やマニアが狂喜乱舞する「くずし字」の翻訳ツールが開発

くずし字で書かれた古文書を手に持つ情報・システム研究機構 データサイエンス共同利用基盤施設ROIS-DS人文学オープンデータ共同利用センター 特任研究員 および 国立情報学研究所 タリン・カラーヌワット氏

 Googleは都内のオフィスにおいて、「Solve....with AI」というアジア太平洋地域の記者などを集めたイベントを開催し、Google Cloud Platform(GCP、Googleのパブリッククラウドサービス事業)などを通じて提供している各種のAIサービスやTensorFlowなどの機械学習(マシンラーニング)ベースのAIを開発するツールなどのソリューションや、その具体的な利用事例などを紹介した。

 このなかで、情報・システム研究機構 データサイエンス共同利用基盤施設ROIS-DS人文学オープンデータ共同利用センター特任研究員および国立情報学研究所のタリン・カラーヌワット氏は、日本語の古文書で一般的に使われている「くずし字」を自動で読み取って現代文字に翻訳(正確には翻刻)するOCR「KuroNet」を開発し、くずし字の文字認識が可能になるようにしたと説明した。

【お詫びと訂正】本AIの開発にはGoogleの技術も用いられていますが、AI自体をGoogleが開発したと誤解を招く表現がありましたので、お詫びして訂正させていただきます。また、このプロジェクトの作業内容は正確には翻訳ではなく翻刻と呼ぶのが正しいので、その旨付記をいたしました。

百数十年前までは皆が読めていた「くずし字」。今は人口の0.01%以下しか読めないという現実

くずし字と現代語、確かに現代人からすると日本語なのに読めない

 7月10日にGoogleの東京オフィスで行なわれたイベントに登壇した情報・システム研究機構 データサイエンス共同利用基盤施設ROIS-DS人文学オープンデータ共同利用センター 特任研究員 および 国立情報学研究所 タリン・カラーヌワット氏は、「日本では1千年にわたりくずし字という筆記体の文字を使ってきた。しかし、現代の印刷システムではそれを使うことは難しく、20世紀に入って現代語へと変換が進められてきた。その結果、くずし字で書かれた数百万の古文書や古書が現存するが、それらは人口の0.01%以下の人しか読むことができない」という問題を指摘した。

明治時代に印刷システムの要求から筆記体のくずし字から現代語への転換が図られた

 たとえば江戸時代の古典籍はくずし字と呼ばれる筆記体の日本語で書かれている。文法などは現代語と大きな違いはない(厳密に言うと主語が省略されることが多いなど微妙な違いはある)のだが、そもそも文字が識別できないので読めないという問題がある。

数百万のくずし字で書かれた古文書があるのに人口の0.01%以下の人しか読めないという現実

 大学などで専門に歴史を研究している研究者であれば、まずはそのくずし字に関して勉強をして読めるようになる(つまり0.01%以下の1人になる)だろうが、民間の研究者が歴史について学び、研究したいと考えて、1次資料である古文書を読もうとしても、まずはこの「くずし字」が読めないというハードルがある。

東京・神保町の中古書店などでは数千円で多くのくずし字の書籍が販売されている

 また、カラーヌワット氏は、「くずし字の本は東京の神保町などにある中古書店に行けば、数千円から購入することができ、入手は容易だ。しかし、それらも津波や地震などで失われる可能性があるためデジタル化に取り組んでいるが、デジタル化しても読めなければ意味がない。そこで、AIを活用することを考えた」と、プロジェクト開始の経緯を説明した。

【お詫びと訂正】初出時に、「Googleと協力してプロジェクトを開始した」としておりましたが、Googleは本イベントの主催をしただけで、プロジェクトへの協力は行なっておりません。お詫びして訂正させていただきます。

古文書を読むときにAIでなんとかできないかと考えたのスタートだったとのこと

深層学習の手法を活用してKuroNetというAIを活用したOCRツールを開発

くずし字OCRとなるKuroNetとそれをTensorFlow.jsに応用したくずし字キャラクター認識

 カラーヌワット氏によれば、同氏とそのチームは「KuroNet」と読んでいるニューラルネットワークのモデルを作り上げた。ディープラーニング(深層学習)の手法(U-Net)を活用し、国文学研究資料館が持つくずし字のデータ(日本古典籍くずし字データセット)を学習させて、くずし字を現代語に推論できるシステムだ。

【お詫びと訂正】初出時に「国立情報学研究所が持つくずし字のデータ」としておりましたが、正しくは「国文学研究資料館が持つくずし字のデータ」となります。お詫びして訂正させていただきます。

 さらにもう1つの機能として、Googleが提供しているTensorFlow.js(Webブラウザ上で実行可能な機械学習ライブラリ)を利用して1文字ずつくずし字の認識をWeb上でできるようにした。

KuroNetは1ページにつき2秒で翻訳が完了

 KuroNetに関しては、Google翻訳の機能に近いと考えると理解しやすい。スマートフォン用のGoogle翻訳アプリは、撮影した画像にOCRをかけ文字を他言語に置き換える機能がある。KuroNetもそれと同じように撮影したくずし字の古文書などにOCRをかけ、現代文字に置き換える。1ページの置き換えにかかる時間はわずか2秒と高速だ。その結果、ページ数によるものの1冊のくずし字の古文書を1時間で翻訳完了したとのことだ。

1冊の書籍は約1時間で翻訳完了、正確性は85%

 こうした翻訳では重要になってくる正確性はじつに85%とのこと。カラーヌワット氏は、「この85%という数字は16冊の書籍で試した段階のデータ。将来的にはもっとデータが増えて学習が進めば正確性も上がっていくだろう」とのことだ。

TensorFlow.jsのかたちで提供されるWebアプリ
オープンソースで提供

 また、TensorFlow.jsのかたちで提供されるWebアプリでは、くずし字の1文字1文字の文字認識をオンラインで行なうことができる。こうしたツールはオープンソースモデルで誰に対しても公開されており、今後は在野の研究者であってもこうしたツールを利用してくずし字の書籍が読めるようになる可能性がある。くずし字の書籍を研究する人が増えれば、日本史の研究がより進んでいくだろう。

Kaggle上でコンテストも行なっていく

 カラーヌワット氏によれば、情報・システム研究機構 データサイエンス共同利用基盤施設 人文学オープンデータ共同利用センター(CODH)、同機構 国立情報学研究所(NII)、人間文化研究機構 国文学研究資料館が主催する「くずし字認識 : 千年におよぶ日本の文字文化への扉を開く」というKaggle(機械学習を研究している研究者などが参加するコミュニティ)で行なわれるコンペも計画されており、くずし字OCRの認識率を上げるための手法などをグローバルに募集するとのことだ(国立情報学研究所のニュースリリース)。

 コンペは7月中旬に開始され(締め切りは10月)、上位入賞者は11月11日に東京で開催される予定のシンポジウム「日本文化とAI」で表彰される計画だ。