ニュース

富士通研究所、“次元の呪い”回避する世界初のディープラーニング活用技術を開発

図1 : 従来の課題(異常検知の例)
定量的な裏付けのない経験的な手法のため、誤った判定が発生

 株式会社富士通研究所は、“次元の呪い”を回避して高次元データの特徴を正確に獲得する世界初のAI技術「DeepTwin」を開発したと発表した。

 近年、膨大で多様なデータをAIで解析する需要が急増しており、たとえばネットワークで言えば、通信アクセスデータから通常とは異なる挙動の不正アクセスを教師なし学習で自動的に検知する仕組みが求められている。

 数学的な空間の広がりは3次元で示されるが、通信データでは数十次元、画像データでは数百万次元が用いられ、これらの高次元データは、次元数が増えると計算が指数関数的に複雑になることから“次元の呪い”として広く知られている。

 これを回避するものとして、ディープラーニングによる入力データの次元を削減する手法が有望視されているが、これまで削減後のデータ分布や発生確率を考慮せずに削減していたため、データの特徴を忠実に獲得できておらず、AIの認識精度の限界や誤判定が発生するといった問題があった。

 今回、富士通研究所は、長年培ってきた映像圧縮技術の知見を活かし、理論体系に基づいた情報圧縮技術とディープラーニングを融合。高次元データの削除すべき次元数と次元削減後のデータの分布をディープラーニングで最適化し、教師データなしでデータの特徴を正確に捉えるAI技術「DeepTwin」を世界ではじめて開発した。

 画像や音声データの情報圧縮においては、離散コサイン変換などの手法で次元数を削減する方法が確立されており、削減後にデータの分布と発生確率を用いてデータを復元すると、もとの画像/音声と復元後の画像/音声との間の劣化を一定に抑えたときに、圧縮データの情報量をもっとも小さくできることが理論的に証明されている。

 富士通研究所ではここから着想を得て、通信アクセスデータや医療データなど、分布・確率が未知の高次元データに対し、次元をニューラルネットワークの1つであるオートエンコーダで削減、そして復元したときに、もとの高次元データと復元後のデータとの間の劣化を一定値に抑えつつ、次元削減後の情報量を最小化したデータは、もとの高次元データの特徴を正確に捉え、なおかつ次元を最小限に削減できていることを世界で初めて数学的に証明した。

図2 : 情報圧縮技術に着想を得た、データの特徴に忠実な分布・確率の獲得の理論フレームワーク

 一般にディープラーニングは、最小化したい評価項目を定めると、複雑な問題でも評価項目が最小となるパラメータの組合せを求めることが可能で、この特徴を利用して、高次元データの削除すべき次元数と削除後のデータの分布を制御するパラメータを導入し、圧縮後の情報量を評価項目に定め、ディープラーニングで最適化した。

図3 : 次元削減変換および分布・確率を求めるディープラーニング技術

 これにより、図1の数学理論に基づいて、最適化されたときの次元を削減したデータの分布および確率は、データの特徴を正確に捉えることが可能になる。

 この技術をデータマイニングの国際学会「Knowledge Discovery and Data Mining (KDD)」が配布している通信アクセスデータ、カリフォルニア大学アーヴァイン校が配布している甲状腺数値データ、不整脈データといった異なる分野での異常検知のベンチマークで、従来のディープラーニングベースの誤り率と比較して最大で37%改善し、全データで世界最高精度を達成した。

図4 : 異常検知に本技術を適用した場合の誤り率の改善

 今後は、開発した技術の実用化を進め、2021年度中の実用化を目指して、さらに多くのAI技術に適用し、その成果を富士通のAI技術「FUJITSU Human Centric AI Zinrai(ジンライ)」に活用していくとしている。