森山和道の「ヒトと機械の境界面」

意味を理解しないAIの可能性と限界。人間とAIの共通弱点は読解力だった

~「ロボットは東大に入れるか」2016 成果報告会

DENSO による代筆ロボット「東ロボ手くん」

 大学入試問題を解くためには、人間なら、まず読んで、問題の意味を理解しなければならない。機械に問題を解かせるためには、問題文を解析させる必要がある。よって、そのための自然言語処理をはじめ、さまざまな技術が求められる統合的な課題となる。なおかつ試験なので、点数と偏差値で、結果を定量的に評価することができるタスクだ。これが客観的なベンチマークとして社会的に受け入れられている理由でもある。

 AIによる東京大学合格を目指すことで、現在の人工知能技術の可能性と限界を見極めるプロジェクト「ロボットは東大に入れるか」2016年の成果報告会が、2016年11月14日、中心機関である大学共同利用機関法人 情報・システム研究機構 国立情報学研究所(NII)にて行なわれた。

NII 新井紀子教授

 既に各メディアでもレポートされている通りで、今年(2016年)の成果発表会では「東ロボくん」の成果や技術的詳細よりも、プロジェクトリーダーであるNII 情報社会相関研究系 教授の新井紀子氏による「(AIは意味を理解していないし現状の技術では限界があるが)では人間は教科書をちゃんと『読めて』いるのか?」、「人間もキーワードマッチのようなやり方で問題を解いているのではないのか?」、そして「(意味を理解していない)人工知能が多くの問題を解ける時代に、それに負けないためにはどうすればいいのか」という問いかけの方に多くのフォーカスが集まる結果となった。それはそれとして、講演の全体を改めてレポートしておきたい。

MARCH、関関同立に合格できるレベルを達成、数学は東大理IIIレベルか

MARCH、関関同立に合格できるレベルに

 2011年から始まったこの研究プロジェクト。センター試験模試へのチャレンジとしては四回目となる今年は、株式会社ベネッセコーポレーションの協力を受け、大学入試センター試験模試の「2016年度進研模試 総合学力マーク模試・6月」、そして学校法人高宮学園 代々木ゼミナールの協力で東京大学第2次学力試験に向けた論述式模試の「2016年度 第1回東大入試プレ」の地理歴史(世界史)と数学(文系)・数学(理系)を受験した。

 結果は、センター試験模試は5教科8科目の合計で525点(全国平均454.8点)を獲得し、偏差値は57.1。これは、私立大学の512大学1,343学部、国公立大学でも23大学30学部において合格可能性80%以上の成績に相当する。この中にはいわゆる「MARCH」、「関関同立」と呼ばれる難関私立大学もふくまれている。今年は特に、物理が62点、偏差値59.0と昨年度(2015年)の成績(42点、偏差値46.5)から大幅に向上した。

 論述式模試の結果は、数学(理系)で偏差値76.2(得点は120点満点中80点)を達成。特に、日本語で書かれた問題文を計算が可能な形式へと変換し、数式処理プログラムを用いて問題を解くまでのプロセスに一切人手を介さず、完全に自動的に解を求める過程の実現に成功し、6問中4問に完答した。

代筆ロボット「東ロボ手くん」登場

【動画】DENSO 「東ロボ手くん」

 また、今年の成果発表会では株式会社デンソーによる解答代筆ロボット「東ロボ手くん」も登場。回答用紙が斜めになっていても画像認識でマス目に収めて文字を書くことができる。実際に世界史の問題を解いた回答をアームを使って書き、代々木ゼミナールの講師による採点が実施された。

 なお、書き順はロボットの腕の軌道に最適化されているため、人間のそれとはまったく違うものになっている。

「東ロボ手くん」。6軸垂直多関節ロボットアームを2つ組み合わせたロボット
側面。肩の自由度を加えて合計14自由度
ボールペンで文字を書く右手側
左手は紙を押さえ、紙の傾き認識用カメラが付いている
片手を上げて紙を裏返すことを要求する「東ロボ手くん」
書き込んだ用紙。几帳面な文字

近未来のAIにはどこまで可能でどこが限界かを見極めるプロジェクト

NII 新井紀子教授

 まず最初に新井紀子教授は、このプロジェクト名について「『か』が付いているところがポイント」と話を始めた。AIの分野では日進月歩の躍進がある。近未来のAIに、何が可能で何が限界になるかをホワイトカラーの一大スクリーニングマシンである大学受験を使って明らかにしようと考えて、2011年にこのプロジェクトをスタートさせたという。

 今、人工知能ブームだが、AIにどこまでできて、どこまでできないかというイメージをはっきり持っている人は少ない。一般人だけの話ではない。プロの中でも意見は分かれている。ディープラーニングでシンボルグラウンディング(記号接地)ができるという人もいるし、シンギュラリティ(技術的特異点)が来るという人もいる。一方、大したことはできないと考えている人もいる。

 そこで、統合的な知的タスク(大学受験)に対して、人間に比べてみることで、どこまで知的タスクを機械が置き換えて、近未来にどのような働き方になるか占いたいと考えたのだという。2013年に、センター模試に挑戦した。当時は「どこかの大学に合格させたい」と考えていたという。2014年には「箱根駅伝に出るような大学に合格したい」と考えた。これらはいずれも目標を達成した。

 2015年には国公立大学に合格することを目指した。国公立大学は5科目を要求している点で私立とは趣が異なる。そして2016年は、MARCH、関関同立に合格したいと考えた。ちなみにこれは2011年の時点から立てていた目標だそうだ。

 新井教授は「ワクワクするよりも恐ろしいと思った」と語った。なぜなら、2020~2030年にはホワイトカラーの仕事の半分は機械に代替されるという予想が現実になるかもしれないからだ。「これからどんな社会にしていけばみんなが幸せになれるか考えるための1つの礎にしていただければ」と新井教授は語った。

問題情報は人手で変換、解答器は問題種ごとに別々

NII 藤田彬氏

 ここでいったん、タスク設定について、NIIの藤田彬氏が確認を行なった。大事な点なので、こちらでも強調しておこう。システムは画像認識して問題を読んでいるわけではない。人間が問題を構造化してマークアップして与えている。「図を見よ」といった問題に関しても、人間が図の内容を書きくだして与えている。

 また、1つにまとまった「東ロボくん」といったシステムがあるわけではない。各教科の各問題ごとにいろいろな解答器があって、それを問題に合わせて解かせている。複数の回答器に問題を解かせて、良い組み合わせを選ぶ場合もある。

 参照データは教科書や辞書、用語集、問題集、Web上の情報、オントロジーである。

「東ロボくん」参加組織
問題は人手でXMLに変換して与えている
画像情報も人手で書き下す
異なる手法の解答器が問題によって使い分けられている

英語 ディープラーニングで挑むも結果は苦戦

NTT コミュニケーション科学基礎研究所 東中竜一郎氏

 英語に関してはNTT コミュニケーション科学基礎研究所 東中竜一郎氏が講演した。英語は一昨年(2014年)は人間の平均点を超えたにもかかわらず、昨年は大幅に低下。偏差値としては48.4になってしまった。そこでなぜ点数が下がってしまったのか分析した。

 英語の問題は「一文問題」という一行だけを読んで答える類の問題と、5文から10文問題を読む「複数文問題」、そして長文問題に分けられる。昨年の成績を見ると、一文問題がより文脈を読む必要があるように難化していたことが分かった。そこで文脈の扱いを強化した。そして複数文問題に対して深層学習を適用して成績向上を狙った。その結果、点数が改善。受験者平均を再び超え、着実に成長したという。

 具体的にはどのように解いているのか。例えば2人の会話があり、その間に空所があり、そこを埋める会話を組み合わせて作るという平叙文完成問題がある。まずシステムは文章をとりあえず作る。その後に大規模テキストデータにその単語の並び方があるかないか検索する。あれば正解だと判断する。

 今回は参照する単語テキストデータを大規模化した。なんと一気に50倍し、500億単語とした。これによって中に固有名詞が入って表現でも照合可能になった。なお1,500億単語まで増やしてみても、あまり成績は変わらなかったという。

平叙文完成問題へのアプローチ
単語テキストデータ大規模化で一文問題は成績が向上

 複数文問題は3種類ある。会話文完成問題、不要文除去問題、意見要旨把握問題である。昨年度はどういうアプローチをしたかというと、コーパスから得られる統計量を経験的に組み合わせるというものだった。対話データに基づいて発話内容の流れと感情の流れをスコア化して、重み付けを取る。もう1つの方法は単語の類似度から探すというもの。だがこれらは一部の特徴しか扱ってない。

 そこで、効果的に複数の特徴のを扱えるように、ディープラーニングの手法を採用した。問題文と選択肢を入力としてニューラルネットワークに入れる。より長い文脈を扱う必要があるので、文脈に強いRNN/LSTM、また抽象化するためのCNNなどを使った。ただし深層学習には大量の事例が必要になる。問題を人手で大量に作るのはコストが高い。そこで今回は機械的に大量の事例を作成した。具体的にはまったくランダムに文章を並べたものを不正解データとした。このように擬似フレームを作ることでチャレンジしたが、どう頑張っても2割3割の正解率しか達成できなかったという。

ディープラーニングを使って複数文に挑んだ
結果は伸び悩んだ

 結果としては、一文問題は大体できるようになったが、複数文問題は伸び悩むという結果に陥った。複数文問題の精度を現在の手法で上げるためには、500億文規模の複数文データが必要だという。また、意見要旨把握についても、最低限100万程度の高品質な事例を適用する必要があり、いずれも機械的に作る文例データではダメで、莫大なコストがかかる。

 またリスニング問題には昨年から取り組み、今年は昨年に比べればよくなったが、なかなか厳しい結果となったという。

複数文問題の精度が上がらなかった理由
リスニングは課題を残す
複数文処理は知的処理の入り口

二段階選抜を使った国語現代文

名古屋大学 木村遼氏

 国語現代文については名古屋大学大学院工学研究科 佐藤・松崎研究室の木村遼氏が解説した。国語の問題は内容の一部に傍線部が引かれていて、その説明について適切なものを選択させるといったものだ。昨年は判定器を使って総当たりで比較を行ない、1位となった選択肢を解答として出力していた。今年は学習に用いる特徴を増やして、やはり総当たりで比較し、上位2つの選択素を選び出し、比較を行ない、最終的な解答を絞り込むという方式で挑んだ。

 具体的には、傍線部周辺を照合領域として抜き出し、要素の一致率を計算する。昨年は特徴を12個だったのを、今年は特徴量を最大249個と多数の特徴を使った。そこからさらに特徴選択して用いる特徴を60個選び出したという。

 結果はどうだったか。特徴を増やしてもあまり成績は変わらなかった。ただし正解選択肢が2位までに入るケースは増えたという。そこでもう一段、異なる学習データを用いた判定器を使うことで、1段だけでは解けなかった問題に解けるようになった。

評論読解問題
特徴の定義
今回は照合領域を多数用意してチャレンジ
2段階の判定器で成績向上

統計的機械翻訳で挑んだ古文

富士通研究所 横野光氏

 国語の古文については株式会社 富士通研究所 横野光氏が解説した。古文については、現代文に訳せれば解けるのではないかと考えて、統計的機械翻訳のテクニックを使ったという。形態素解析で古文の文章を解析して、現代語訳して、それと内容が一番近いものを選ぶといった手法だ。なお、和歌についてはあきらめたとのこと。

 現代語訳問題については、係り結びがうまく解けなかった。意味理解問題については、選択肢のある箇所について、「そのような記述は本文にはない」という不正解選択肢を見つけることが重要になる。「意味とは何かという課題にあたった」と横野氏は述べた。

 なお今後、古文のテキストが新たに生成されることはない。つまり大量のデータを使って取り組むことはできない。そこで今後は、限られたリソースを使ってどうやって精度を上げるかということに焦点をあてて、研究を進めていくという。

古文の解答手法
統計的機械翻訳で古文に挑戦した

新チームで挑んだ物理は好成績を収める

富士通研究所 岩根秀直氏

 物理に関してはまず最初に富士通研究所の岩根秀直氏が全体構成を解説した。「東ロボ」では物理については、ロボットと物理の問題には「実問題を相手にしなければならない」という点では共通点があるという視点で、物理シミュレータを使って問題を解くというアプローチが取られていた。そのためには、問題文の表現から、計算機が自動でシミュレーションモデルを作り、また、必要な値をシミュレータに入力できるかたちに変換してあげる必要がある。

 だが2つの異なるイベントが接続されていることの検出が難しい、シミュレーションの初期条件を人が設定すれば解けるがそこから先は難しいなどの課題にあたり、昨年、NIIのチームはいったんギブアップした。今年からは富士通とサイバネット、それと東大で新たなチームで物理に挑んだ。

 そこで富士通を中心にした新たなチームでは、形式表現とシミュレーション用の表現の間に、新たに中間表現(変換規則を作りやすくするためのしくみ)を導入して変換。目的の異なる表現を繋いだ。そして内部形式から条件式を書いて、それを限量記号消去(QE)という数式の変形を繰り返す技術を使って解いてシミュレーションの初期条件を生成する技術を開発した。また、釣り合いに関する問題を解くためのソルバも追加し、自動化の範囲を広げた。言語処理、画像処理はやっていない。

東ロボくん物理ソルバー2016バージョン
今回物理は優秀な成績を収めた
限量記号消去
物理の問題の状況理解の難しさ
サイバネットシステム株式会社 システムCAE事業部 岩ヶ谷崇氏

 この変換の詳細についてはサイバネットシステム株式会社 岩ヶ谷崇氏が解説した。物理の問題は、問題文の中で暗黙の仮定が多く、問題文には明示されていない要素に適切な値を設定することが重要で、それもまた難しいところだったようだ。文章だけで計算可能にするのは難しいという。

 しかも図自体も曖昧であることが多い。例えば「重力加速度は下向きだ」といった暗黙知が物理の問題の図にはこめられているのだが、それは図の認識だけでは得ることができない。同社では、曖昧さを許容する計算方式の探索を行なうという。

目的の異なる表現を繋ぐために中間表現を導入
形式表現からの変換のフロー
製品開発への適用も考える
課題と今後の可能性
東京大学 五十嵐健夫教授

 図形を理解して数式ソルバで解く方法については今回は東京大学 五十嵐健夫教授がグラフィカルエディタを実装した。五十嵐教授は人と機械との間のコミュニケーション方法に関する研究者で、今回もその文脈から協力したという。図をささっと描くことで機械システムとコミュニケーションできれば便利だ。五十嵐教授は実際にバネ釣り合いの問題を図でさっと描き、それについて必要最低限の情報を与えることで問題を解かせるという実演をやりながら解説した。

 また、物理の問題について過去問を見て、解答器を実装していけば解ける問題は増えるが、それではきりがないことを見を持って実感したという。現在のアプローチでは既知問題なら解けるが、未知の問題は解くことができないからだ。

今回解いた問題の例
グラフィカルエディタを使って解いている様子
実際の処理系への入力と出力
今回実装したもの。だがきりがないことを実感したという。

 富士通研究所 横野光氏は、物理問題の解答システムのための形式表現設計の難しさについて語った。問題文にある冗長さ、ありがちな表現だが例えば「小物体」とはなんなのか、状況に応じて変わる対象物の扱いなど、常識に近い解釈を入れたり、テキストから不要な部分を除去することが重要である困難な点だという。将来的には、自然言語文による入力に対して答えられるシステムの実現に繋げたいと述べた。

富士通研究所 横野光氏
問題文から形式表現にするときの問題点

オントロジーを利用して高得点を安定獲得する世界史

日本ユニシス株式会社 総合技術研究所 星野力氏

 センター世界史への取り組みは日本ユニシス株式会社の星野力氏が解説した。世界史は「東ロボ」チャレンジではかなり優秀で、ソルバは何も変えておらず、得点も正答率おおよそ75%前後と安定しているという。クイズ形式のような問題に対して、教科書とWikipediaをもとに真偽を判定している。

 ただし単純な質問応答や含意関係認識ではない。世界史の問題にはある程度構造の制約があって、テーブル形式で記述できるような構造がある。いつ・どこで・誰が・というセットが大体決まっているため、それらを利用することができる。

安定した点数の理由は構造の発見と組み合わせ

 だがキーワード解析だけだと間違えることがある。そこでほかのモジュールと組み合わせる。単独の手法だけでは65%程度の正解率に留まるが、うまく組み合わせると正解率を向上させることができるという。

課題は読解力
挑戦から感じたこと

進研マーク模試の講評

MARCH/関関同立の合格確率は8割

 ここでいったん、ベネッセコーポレーションの小林一木氏・内山公宏氏から、進研模試 総合学力マーク模試についての講評が行なわれた。今回、「東ロボくん」はほとんどの科目で全国平均を上回った。東大の第一選抜突破は難しいが、私立に関してはMARCH/関関同立の合格確率は8割、とここで発表された。新井教授はこの時点まで結果を耳に入れないようにしていたようで、声をあげて喜びを表していた。

東ロボくん今回の模試成績
全体概況
ベネッセコーポレーション 小林一木氏
ベネッセコーポレーション 内山公宏氏

 国語の課題はやはり読解だと指摘された。数学は良い成績を納めたが具体的な文章題や数列の規則性を見出すことは苦手。英語についてもやはり文章の前後を読んで状況を把握するような問題は不得手であり、目的に応じてさまざまな文章を読むスキルが必要だと指摘された。

各教科の結果まとめ

自動・高速化した数学のソルバー

名古屋大学大学院工学研究科 准教授 松崎拓也氏

 数学も複数の研究者が発表した。こちらも物理と同じような手法が使われている。まず名古屋大学の松崎氏が概要を解説した。数学では自然言語の問題文と数式を言語処理して、曖昧性のない意味表現に変換し、概念定義に基づいた書き換えを行なって、一階術語論理式にする。そして限量記号消去を経て解答を導き出すというのが基本フローだ。

 今年は言語処理部の数式の意味解析、文と文の関係の認識などのモジュールを作り、フロー全体を自動化した。数式処理においては論理式の簡単化によって限量記号消去を高速化した。

数学解答システムの構成
処理フロー
言語理解と推論で解答を導き出すことができる
今年全自動化へ

 数式解析は昨年、今後開発中で比較的容易と考えていたが、実際には意外と難しかったという。松崎拓也准教授は「ようやく5年目にして自動化された」と語った。文章の解釈も「ならば」が含まれているとかなり面倒になるという。条件文そのものに対して命題がどのように付加されているのか判断がむずかしくなるからだ。

 だが苦労もあって、数学の解答器は、理系の試験は、言語処理部が解いた部分は完全に解ききった。今年入れたモジュールについては、数式の意味解析、文章間の関係の認識の誤りなどがあったという。人間ならすぐに排他的であると分かる条件に気づくことができず、矛盾を起こしてしまうことがあったそうだ。

進研マーク模試 数学の結果
代ゼミ東大模試 数学の結果
矛盾を起こしてしまった失敗例

 言語処理部については名古屋大学の伊藤巧氏が補足の説明を行なった。「それ」とか「この」などの指示対象についての処理(照応解析)が重要だったという。今後は言語処理と数式処理の融合を進めて、考えながら読むシステムの実現を目指す。論理式の処理手順も工夫して解ける問題を増やしたいと語った。

名古屋大学大学院工学研究科 佐藤・松崎研究室 伊藤巧氏
照応解析システムの構成

 続けて積分問題について立教大学の外川拓真氏が取り組みを解説した。そのままだと明らかに無駄な場合まで計算してしまったりして計算時間がかかってしまうことがあったため、変数を減らして変数の値を減らして問題を解いたという。だが解けなかった問題もあり、今後は数学的な特徴をどう見るかが課題だとのことだった。

立教大学 理学研究科 数学専攻 外川拓真氏
変数を減らして不要な計算を減らした

 富士通研究所の岩根秀直氏は、適用範囲の広い限量記号消去法(QE)について概説した。東ロボくんでは、数学と物理のソルバとして使われている。東大模試の中では80点中60点はQEで解いているという。

富士通研究所 岩根秀直氏
限量記号消去法
限量記号消去法の適用範囲
東大模試の結果

質問文から論述する東大入試プレ世界史

横浜国立大学/NII 阪本浩太郎氏

 東大入試プレ世界史は、指定語句がある大論述問題、指定語句なしの小論述問題、単語解答の記述問題からなる。まず大論述問題について、横浜国立大学/NIIの阪本浩太郎氏が解説した。

 論述では当然、コンテキストに沿った単語を入れると加点される。知識限としては4つの教科書と用語集が用いられている。まず問題文を入力する。質問文から指定語句や制約を抽出する。指定語句から関連文書を検索する。問題文が非常に抽象で回答を包含するようなかたちで描かれていると推定して、内容の包含部を使ってスゴアリングし、指定語句を含むように文を集めるというのが基本的な仕組みだ。

 今回点数が下がったが、ちょっとしたアップデートで平均点超えを獲得できたという。まず、文頭に主語として見出し語を付けるだけで3点あがったそうだ。年に1回のトライアンドエラーだと気づくのが難しいが、「こういう記述があったら、これをとってくる」という受験生なら当たり前のことができていない点が問題だったと阪本氏は振り返った。歴史なので当然イベントごとの重要性の大小があるが、それがあまり区別されてないからかもしれないという。

大論述問題解答システムの概要
失敗の分析

 続けて小論述の取り組みについて名古屋大学の高田拓真氏が解説した。小論述は表層類似で検索して文章を構成する戦術を採っていた。システムは、抽象的に問われていることが何かということを理解していないので、おかしな出力を出してしまうことがあったという。複数の主題の比較や共通点が問われる問題などが課題だと述べた。

名古屋大学大学院 工学研究科 電子情報システム専攻 高田拓真氏
小論述システム
NII 石下円香氏

 語句問題の解答システムについては、NIIの石下円香氏が解説した。複数の文を読んで問われてる単語を答える。文を解析して関連文書を検索して解答候補を抽出し、もとの文章にキーワードが含まれる度合いを尺度として、スコア付けをして出力する。単語といっても言語、文明、宗教、建造物などいろいろあるので、質問タイプがなんなのかを判断する必要がある。

 今回は昨年に比べて点数が下がってしまったが、それは東ロボくんにとっては難しい問題だったからだという。東ロボくんは参照データに明示されていないことは答えられない。また、教科書や用語集が新しくなっていたのだが、その新しいデータに対応できておらず、答えられなかったというケースもあったそうだ。新しくなったところは出やすいのだという。

問題例
解答システムの概要。このあとスコア付けをする
間違えた問題の例

東大入試プレ講評:ひねりを加えた問題は苦手

 東大入試プレについての講評は、代々木ゼミナールの講師から行なわれた。大西彩虹氏は数学を講評。人間は途中で計算ミスをして失点することがあるが、東ロボくんは、物理や数学などいったん計算できるステップまで辿りつければ、後は計算間違いをしないので強いという。だが確率問題は今回取り組んでいないのでダメだし、遷移図も書けない。また、自分で思考して導き出さないといけない問題は苦手だ。

 世界史について講評した越田大二郎氏は、大論述は「時代や地域があっていてもコンテキストに沿ってないと加点されない」点を改めて指摘した。人間も同じだが、問題の本質的読解ができるかどうかが受験ではポイントになる。また、問題文が短いと、時代や地域もずれてしまうミスがあったという。東ロボくんは若干ひねりを加えた問題に弱いが、それは人間もひっかかりやすいと述べた。

代々木ゼミナール 大西彩虹氏
代々木ゼミナール 越田大二郎氏

中学生・高校生は教科書を「読めて」いるのか

NII 新井紀子教授

 最後にNIIの新井紀子教授が「なぜ高校生は 意味を理解しない AIに敗れたか? リーディングスキルテストの結果から」と題して講演した。

 東ロボくんは平均点以上をバランスよくとれるようになってきた。新井教授は新聞報道などをふまえて「得意/不得意科目があるわけではない」ことを強調した。特定の科目が不得意なのではなく、意味を深く理解しないといけないことを問われる問題はまだ難しい。それは、統計的あるいは論理的に解こうとした時の限界が出てきているわけだ。

 だが、平均点を超えている。親子関係すら分からないAIに8割の高校生が敗れてしまうわけだ。そちらの方が大問題である。もちろん、暗記や計算は計算機なので強い。だが、本当にそれだけが問題なのか。「中高校生も問題文が読めていなかったら?」と問いかけて、15,000人の中高校生を対象に調べた「リーディング・スキル・テスト」の結果を紹介した。日本語の文章を読んで意味が分かっているかどうか、特に係り受けと照応解析ができているかを調べたものだ。

 驚くべきことだが、問題文を読めば、そこに答えが書いてある問題にも、中高校生の6割程度しか正答しないのだという。東ロボくんは係り受け解析にはサポートベクターマシン(機械学習の手法の1つ)を使った「CaboCha(カボチャ)」を用いている。人間にとって難しい問題も比較的解くことができるのだが、少なくない数の子供たちは問題文、ひいては教科書を読めていない可能性がある。

読解テストの例。いずれも問題文に答えが書いてあるが……

 読めていないのにテストを解いているということは、人間もキーワードピックアップのような形で答えているのかもしれないことを示唆する。だが人間は、暗記と計算ではミスをすることがあり、意味をきちんと読解できないとその分、計算機に劣ってしまう。

 また、「東ロボくん」は推論やイメージ同定の問題が苦手だ。数学以外では形式から意味へのマッピングがうまくいっていない。どう意味を扱えばいいのかよく分かっていないからだ。形式と意味が一致するのはごく一部。意味とはなんなのか、数学しか分からない計算機にどのように扱わせればいいのか。今はまだ分かってない。だがこれも人間も同じく得意とは言えないらしい。

推論問題の例と結果
形式から意味へのマッピングが正しくできるかどうかを問うイメージ同定問題の例と結果

 新井教授らの調査によれば、AIができているタスクは人間も比較的容易にでき、AIができないことは正答率が低いという結果になったという。

高校生もAIも読解が苦手という結果
難しいマニュアルは本当に理解されているのか

 新井教授は「近代科学が生まれて資本主義と民主主義が生まれた。資本主義の結果、必然的に生まれる不公平と格差はリテラシーを持つ市民による民主主義で乗り越えられるはずだった。だが読めないことは資本主義の危機、民主主義の危機だ」と続けた。多くのマニュアルや指導書、保険の約款などには、教科書よりもずっと難しいことが書かれている。それを元にして少なからぬ人たちが作業しているわけだが、その中の3割程度は、もしかしたら正しく読めていないのかもしれない。

 新井教授は人工知能よりもまずは中学高校生の読解力を上げることの方が喫緊の課題だと考え、今後、「深く正確に文章の意味を読み取る力」を計測する「リーディングスキルテスト(RST)」を開発するプロジェクトを通して、文章の読解力を診断し、読めない子供たちがなぜ読めないかの解析を進め、教育方法・教材の開発を進める。そして「全ての子供が教科書を読めるようになってから中学校を卒寮する社会を目指す」と語った。

新井教授のメッセージ
RSTプロジェクト

「東ロボくん」各教科の成果は産業応用を目指す

 「東ロボくん」のプロジェクトそのものは「意味を理解しないAIの可能性と限界」は既に示すことができたとし、今後は、センター試験を受けて一斉に全教科の進捗をチェックするというやり方はいったん凍結する。そして現在できていること、あるいは既に見えている部分を伸ばして、各研究者や企業が産業応用を目指す。

 前述のリーディングスキルテストについては、なぜ読解は人間にとっても難しいのか明らかにするための基盤的研究を続けるという。そしてセンター入試ではなくRSTをベンチマークにして言語処理に挑むとのことだ。

 なお昨今、AIブームが起きており、「汎用AIができる」と言っている研究者たちもいる。それに対しては「汎用AIができた暁には東ロボベンチマークへの挑戦をお待ちしています」とのことだ。来年以降も成果発表会は行なわれるという。

今後は産業応用を目指す
汎用AIが東大受験に挑む日は来るか