ニュース

MicrosoftとAlibabaのAIが文章読解力テストで人間を上回る

2018年1月16日 16:56

　Microsoftは15日(米国時間)、同社が開発したAIが、Stanford Question Answering Dataset(SQuAD)を使った文章読解力のテストで、AlibabaのAIとともに人間を超えるスコアを記録したと発表した。

　SQuADは、500以上のWikipediaの項目に対して、大衆が投稿した10万以上の質問と答えからなり、AIはこのなかから1つの短文を“読んで”、“理解”し、いくつかの質問に対して、文章に基づいた答えを導き出す。

　SQuADの難しい点は、AIが同義語や文法的な違いを理解する必要がある点。たとえばAIは「～としても知られる」という短文を理解し、「なんと呼ぶか」という設問に回答する必要がある。

　また、答えを推論するために外部の知識を必要とすることもある。たとえば「欧州連合理事会」という単語が短文のなかに出てきても、それが政府関連の機関である説明がないため、質問で「この役割をする政府の機関をなんというか」という答えを答えるのが難しくなる。

　SQuADでは2つの測定基準を設けて、AIのシステムを評価する。1つは厳密な完全一致による評価で、1つの答えにどれだけマッチングしているか割合を示す。もう1つはより曖昧なF1スコアで、予測と真の答えがどの程度重複しているかを評価する。

　このたび、Microsoftが1月3日に提出したモデルえは、完全一致評価で82.650というスコアを達成した。次いでAlibabaが1月5日に提出したモデルも82.440を達成。いずれのスコアも、人間のスコアである82.304を上回っており、AIは“人間並みの読解力を得た”ことになるという。

　Microsoftは、今後AIによる機械解読で、コンピュータが書籍や書類の情報を素早く解析し、簡単に理解できる方法で必要な情報を人々に提供できるようになると期待している。