ニュース

京大、AIの性能を正確に評価する方法を開発

AIの性能評価指標は、ヒートマップとiCDF(逆累積分布関数)を使って検証できる。ACCがAIの性能を過大評価する危険性がある一方、MCCは性能を正確に評価できる厳密な評価指標であることなどが分かる。実験で使うAIを評価する前に、本研究の手法よって指標そのものの特性を十分に吟味すべきとしている

 京都大学は5日、J.B.Brown医学研究科講師が、人工知能(AI)の性能評価指標の有効性を検証し、分野を問わず、正確にAIの性能を評価できる手法を世界で初めて開発したと発表した。

 研究成果は、2018年2月14日付で米科学誌「Molecular Informatics」に掲載されている(論文タイトル: Classifiers and their Metrics Quantified、DOI)

 AIによるビッグデータ解析は、社会のさまざまな分野での活用が広がっており、創薬研究・医療現場のスクリーニング検査においても、AIを使用したコンピューターモデルの二項分類による解析が、主要な研究/検査手法となっている。

 今回の研究は、AIの性能を統計的指標によって正確に評価するというもので、さまざまな指標の特性と有効性を、ヒートマップ(可視化グラフ)とiCDF (Inverse Cumulative Distribution Function: 逆累積分布関数)を使った統計学的な解析によって検証している。京都大学では、創薬スクリーニングやケミカルバイオロジーに限らず、どの分野のAIに対しても適用できる画期的なものとしている。

 そういったAIの社会普及にあたり、AI自体の性能評価も行われてきた。二項分類モデルでは、「はい(陽性・真)」と「いいえ(陰性・偽)」でデータを分類し、TP (True Positive: 正しく陽性と分類)、FN(False Negative: 誤って陰性と分類)、FP (False Positive: 誤って陽性と分類)、TN (True Negative: 正しく陰性と分類)の4種類の結果が得られるため、AIの性能は、データを4種類に正しく分類できた割合によって、TPR (True Positive Rate: 真陽性率)やACC (Accuracy: 正確率)、MCC (Matthews Correlation Coefficient: マシューズ相関係数)をはじめとする指標を用いて評価されている。

 しかし、特定の分子を検出する場合に、実験における検出成功率がコンピューターモデルの事前予測を大きく下回るといった事例がしばしば報告されており、統計的指標がコンピューターモデル(AI)の性能を過大評価している場合があったという。

ACC、MCC、BA (Balanced Accuracy: 平均正解率)、PPV (Positive Predictive Rate: 陽性的中率)、F1値(F1 Score: PPVとTPRの調和平均)、TNR (True Negative Rate: 真陰性率)の6つの評価指標について、バランスの取れたデータ(陽性50%・陰性50%)で作成したヒートマップ。上段は左からMCC、F1値、PPV、下段も同じく左からACC、BA、TNR
6つの評価指標について、バランスの崩れたデータ(陽性10%・陰性90%)で作成したヒートマップ。並びは前図と同じ
6つの評価指標について、iCDFによって解析したグラフ。左がバランスの取れたデータ(陽性50%・陰性50%)の場合、右がバランスの崩れたデータ(陽性10%・陰性90%)の場合。グラフの色はそれぞれ青=MCC、水色=PPV、赤=F1、オレンジ=ACC、緑=BA、紫=TNR。左図ではACCとBAが重なっている

 AIに陽性と陰性のバランスが取れたデータ(陽性50%・陰性50%)と、陽性と陰性のバランスが極端に崩れたデータ(陽性10%・陰性90%)とを与えた場合に、ACCとMCCが下した性能評価についてヒートマップを作成して比較したところ、MCCが陽性と陰性のどちらも正しく判定した場合でなければ0.6以上の高い評価を下さない一方で、ACCは陽性をひとつも正しく分類できないAIに対しても高評価を与えてしまい、MCCがAIの性能を厳密に評価するのに対して、ACCは過大に評価する可能性が高いことがわかったという。

 そのほかの評価指標についても検証を行なっており、その中にはACCのように性能を過大に評価するものがあるため、AIを使ってデータ分類を行う場合には、本研究で行なったように、実験前にヒートマップとiCDFによって評価指標そのものの特性を十分に吟味するべきであるとしている。

 論文の追加データとして、ヒートマップとiCDFを作成するプログラムも公開しており、どのようなデータセットに対しても、実証実験で正確な分類ができる「堅牢なAI」開発への貢献を期待しているとする。