ニュース
IAに最適化したAIで新薬発見。「TITAN XよりXeonの方が高速」と京大研究者
2017年12月5日 18:56
インテル株式会社は5日、2017年の活動の総括と今後の注力分野などについて報道向けに説明会を開催した。このなかでは、とくにAI(人工知能)への取り組みと解説に時間がさかれ、京都大学研究者が実際に現在行なっている創薬分野でのAI利活用の実態を報告した。
現在、AIについてはビジネス・消費者、あるいは業界を問わず、加熱と言えるほどの注目が集まっている。実際、経営層やテクノロジープロフェッショナルを対象としたアンケートで58%がAIについて調査中と回答。だが、その一方で、まだ黎明期にあるAIの活用方法は試行錯誤の段階で、実際に利用していると答えたのは12%にとどまる。
AIの研究はここ数年で始まったものではない。インテルでも以前より研究開発を行なっている。また、AIという言葉に対して一般消費者が抱く印象はかなり幅が広いが、現在一般的にAIと呼ばれるものの実態は「深層学習(ディープラーニング)」のことを示していることがほとんどだ。
同社アジアパシフィック担当HPCディレクターの根岸史季氏が示した図によると、AIとは「関知、推論、振る舞い、適応を可能にするプログラム」である。それを実現する手法の1つとして「繰り返しデータを取り込むことで性能を向上させるアルゴリズム」としての「機械学習(マシンラーニング)」があり、その機械学習の一部である「大量のデータにより学習するマルチレイヤーニューラルネットワーク」こそが深層学習である。そしてこのマルチレイヤーニューラルネットワークの概念も、以前から存在していた。
ではなぜいま深層学習(AI)が盛り上がりを見せているのかというと、この深層学習がハードウェアの進化により安価に実現できるようになり、そこに実装されたソフトウェアによってさまざまなイノベーションが実現、期待されるからである。
深層学習では、膨大な量のデータを機械に登録し、学習を行なわせる。たとえば、多数の人の写真を「人」というラベルをつけて登録し、人の特徴を学習させる。その学習からモデルに対する重みづけを行ない、最終的にはラベルづけされていない人の写真を見て、それが人であると推論する。
学習段階では、データの用意や、人手によるラベルづけなど時間のかかる工程が少なくないが、昨今のハードウェア進化により、推論部分については、スマートフォンに実装可能なチップ/半導体でも高速に処理できるようになった。インテル自身も、USBに挿して利用する小型の深層学習開発キット「Movidiusニューラル・コンピュート・スティック」を発売している。
また、学習を行なわせるデータセンター向けには、基盤となるXeonプロセッサー・スケーラブル・ファミリー、アクセラレータとなるStratix 10 FPGA、深層学習に特化したNervanaニューラル・ネットワーク・プロセッサーという製品ポートフォリオで広範囲な要求に対応する。
根岸氏によると、ソフトウェアの最適化を行なうことで、Xeon Platinum 8180はXeon E5-2699 v3との比較で、学習は最大113倍、推論は最大138倍の性能を発揮できるという。
直近の機械学習・深層学習の実用化においては、GPUの活用による性能向上が大きな牽引役を果たしてきた。そういったなか、京都大学医学部付属病院先端医療機器開発・臨床研究センターの種石慶氏は、創薬分野でXeon搭載の機械学習システムを構築し、GPUよりも高い性能を発揮したという興味深いデータを提示した。
京都大学医学研究科は理化学研究所(理研)とともに、コンピューティングを活用した創薬、すなわち「計算創薬」の研究、実証を行なっている。理研は、2006年にインテルとともに高速なペプチド凝集シミュレーションに成功し、HPC分野のノーベル賞とも呼ばれるゴードン・ベル賞を受賞した実績も持つ。
創薬においては数万種におよぶ化合物ライブラリと10万種以上の生体内タンパク質を用いる。目的や対象に応じて事前の選別はするが、それでもそれぞれの組み合わせは膨大な数に上る。加えて、できた試薬による前臨床試験にも長い時間や費用がかかる。
現在、1品目当たりの開発には約13年の歳月と1,200億円の費用がかかるまでに至っており、それでもその開発が成功する確率はたったの25,000分の1しかないという。
そこで、種石氏らの研究チームは、機械学習による人物の顔のパターン認識の仕組みを応用し、タンパク質と化合物の結合パターン認識を行ない、疾患原因のタンパク質に結合する化合物の予測を試みた。
スパコンの「京」を使った場合、25万件の学習が精一杯だったものが、Xeonで構築したシステムでは400万件までの学習を達成できた。これは、Xeonが多くのメモリを扱えること、そしてソフトウェアをIA(Intel Architecture)に最適化することで実現できた。さらに、画像認識において、畳み込み表現の対象をピクセルのみでなく、局所的特徴にまで広げることで精度を上げたように、化合物においても、グラフ畳み込み表現で学習できるようにし、予測精度を向上させた。
また、このマルチタスクディープニューラルネットワークとグラフ畳み込みネットワークにおけるベンチマークでは、GeForce GTX TAITAN X(GPU)より、Xeon Platinum 8170(CPU)の方が数割高速な結果を出したという。これも、豊富なシステムメモリと、TensorFlowをIAに最適化したことが寄与している。
なお、このベンチマーク結果については、CPUとGPUを比較するのに当たり、条件が公平ではないのではとの質問が記者からあった。それに対し、種石氏は、TensorFlowはGPUに対しても最適化を行なった状況での比較だと補足した。
また、Xeon Platinum 8170がソケット当たり80万円前後という価格なのに対し、検証で利用したGeForce GTX TITAN Xは25万円前後という点についても、実際にシステムで採用する場合は、80~新バージョン90万円前後のTesla P100になるため、価格面でも実際上は不公平な比較ではないとした。
こういった計算創薬は、すでに創薬現場の各過程で検証や導入も始まっているが、これまで1品目で13年/1,200億円がかかっていたものを9~9.5年/560億円にまで削減し、成功確率も25,000分の1から2,500分の1へと大幅に引き上げられる見込みだという。1年当たりの新薬承認数は平均5品目で、短縮期間の4年を使って20品目分の評価をすると、1.2兆円の削減になる。
さらに種石氏は、今後、標的タンパク質や、疾患を入力して、それに対応する薬候補を機械が設計する「ドラッグデザインを行なう人工知能」へと昇華させていきたいとの意気込みを語った。