ニュース

Microsoftが“麻雀AI”を開発。3カ月でプロプレイヤーの腕前に

 Microsoftは、同社の研究開発機関Microsoft Research Asia(MSRA)が開発した麻雀AI「Microsoft Suphx(Super Phoenix)」がオンライン麻雀対戦プラットフォーム「天鳳」において、AIとして初めて10段の段位を達成したと発表した。

 Suphxは、2019年3月より天鳳に参戦し、5,000回の対局ののち同6月に10段へ到達。同プラットフォーム内における10段という段位は、最高位の天鳳位に次ぐ強さ。参考までに4人麻雀で天鳳位に到達したプレイヤーは13人、過去に10段に到達したことのある(降格したプレイヤーも含む)プレイヤー数は180人ほどだという。

 麻雀はその複雑さゆえにAIが学習を行なう上での課題が多かった。まず、巨大な状況空間を必要とすること。牌の数が136個と多くプレイヤーの順序が変化するため、AIにボードゲームを学習させるさいによく使われる「モンテカルロ木探索」をそのまま適用できない。

 次に、「不完全情報ゲーム」であること。ボード上の情報がすべて見えている「完全情報ゲーム」である碁やチェスなどに対して、麻雀は対戦相手の手牌など見えない情報が多い不完全情報ゲームであるのに加え、ランダム性が高く運の要素が排除できない。

 さらに、報酬メカニズムが複雑であること。天鳳で採用されているルールでは、役がなければ上がれないのに加えて、点数の計算が複雑である。また、1ゲームが8局で構成されるため、意図的に対局を負けることでゲーム全体の得点を引き上げるといった大局的な状況判断が必要となる。

麻雀における Suphx のテクノロジー上の課題

 MSRAではこれらの課題を解決するため、新たなアルゴリズムを開発した。まず、持続的な探索が行なえる新たな探索戦略を採用し、巨大な状況空間の問題に対応。これにより、効率的にリアルタイムな戦略を立てられるようになる。

 次に、自己対戦戦略を取り入れ不完全情報ゲームに対応した。自分が見えない情報をすべて知っていると仮定した上で、Suphx自身の選択が最適であるかを判断する。

 さらに、長期的な報酬予測ネットワークを採用し複雑な報酬メカニズムの問題を解決した。前後のラウンドの予測スコアの差を利用して、各対局の最終得点を適切に予測する。

 不完全情報ゲームはAIにとって解決が困難なゲームである一方、アルゴリズムを開発する環境としては理想的で、金融投資やスマートドライビングなどといった現実世界の複雑な問題へのAIの応用にもつながるとしている。