ニュース

GPUを活用したCOVID-19創薬やスパコンの画像診断

～AIを活用した新型コロナ研究に関するNVIDIAウェビナーより

森山和道

2020年8月28日 07:00

　エヌビディア合同会社(NVIDIA)は8月26日、「GPU が加速する、COVID-19 創薬、画像診断」と題したウェビナーを開催した。COVID-19(新型コロナウイルス感染症)に関する3回シリーズのウェビナーの2回目で、今回は医療画像ディープラーニングの導入を容易にする無償ソフトウェアツール「Clara Imaging」の紹介のほか、GPUとマシンラーニングを使った創薬、名古屋大学のスパコン「不老」などを活用した画像AIの活用に関する講演が行なわれた。

医療用画像ディープラーニングの導入を容易にする「Clara Imaging」

NVIDIA Clara Imaging

　最初に解説したのはエヌビディア合同会社のColleen Ruan氏。NVIDIAは医療画像解析などを通してヘルスケア業界にも取り組んでいる。「NVIDIA Clara Imaging」は、医用画像処理における AI の開発と導入を加速することを目的としたアプリケーションフレームワーク。ラベルつきデータセットを作成するためのツールや、AIモデルをトレーニングするためのツール、実装ツールなどから構成されている。

　Clara Imagingを用いることで画像データに自動でアノテーションをつけ、モデルをトレーニングすることでファインチューンされたモデルを手に入れることができる。そして推論用にエキスポートして病院内のさまざまな場所で活用できる。想定利用者はデータサイエンティストトと研究者、そしてAIアプリケーションの開発者。NVIDIAの他のソフトウェア群と同様、無償で活用できる。

医療用アプリケーション開発のためのフレームワーク

想定ユーザーはデータサイエンティストト、研究者、AIアプリケーションの開発者

　CT画像などへのアノテーションは通常、1枚ずつ行なわなければならないので、手間がかかる。Clara AIAA(AI-Assisted Annotation)機能を用いれば事前学習済みモデルに基づいて数クリックでアノテーションを済ませることができるという。

　さらにClara Train v3.0以降で活用できる新規機能のインタラクティブなアノテーション機能を用いれば、学習モデルがなくても、これまで分析したことがない画像に対しても、数クリックするだけでアノテーションを自動でつけられるようになった。

　生成画像への修正も容易で、学習済みモデルはNVIDIAが提供したものではなく、自分のモデルを容易に持ち込むこともできる。TensorFlowおよびPyTorchモデルをサポートする。

データアノテーションをAIでサポート、高速化

これまで分析したことがない画像であってもアノテーション可能に

　アノテーションツールはサーバーとクライアントに分かれており、アノテーションは基本的にクライアント側で行なう。一般的によく使われるビューワに統合することもできる。サーバー側はLinux環境が必要だが、クライアント側の環境はWindowsやmacOSでもいい。

サポートしているモデル

各種医療用画像ビューワに統合可能

　教師データを作成したあとは「Clara Training SDK」を用いてモデルをトレーニングする。事前学習済みモデルを使って、転移学習や連合学習、自動マシンラーニングなどの手法を使ってトレーニングを行なうことができる。Ruan氏は連合学習と自動マシンラーニングについて解説した。

　ヘルスケア分野では学習に必要なデータ数が少ない場合が多い。それに対してNVIDIAでは「CLARA Federated Learning (連合学習)」という仕組みを提案している。分散型協調学習の仕組みを用いることでデータを共有することなく、同じモデルのトレーニングに貢献することができる。

　また個人情報を保護するためにデータの一部しか共有しない、モデルから復元させられないようにするといった仕組みを用いている。実際に13拠点で連合学習を行なった結果、数百症例を学習させるとほぼ同等の性能が出せるようになったという。

　AUTOML(自動マシンラーニング)を使うことで、ハイパーパラメータを並列チューニングさせることで高速で最適な組み合わせを見つけて高精度なモデルを作ることもできるようになった。

Claraの学習済みモデル

データを共有せずに学習できるCLARA Federated Learning

プライバシーを保護できる

AUTOML(自動マシンラーニング)によるハイパーパラメータチューニング

　さらに、自動混合精度による高速演算、データの転送待ちを減らしてGPUをフル活用するスマートキャッシュ&トランスフォーム、トレーニングコンピューティング、スケラービリティなどの機能を合わせることによってモデルトレーニングを高速化している。Clara Train 3.0は、既存の方法に比べると最大55倍の高速処理が可能になるという。

最適化のための各種機能

最大55倍の高速処理が可能に

　実際にクリニックに導入するためのデプロイツールは、スマートホスピタル構築を高速化するためのものだ。パイプラインとプラットフォームに分かれている。

　パイプラインでは、たとえば医用画像で用いられるDICOM(Digital Imaging and COmmunications in Medicine)フォーマットの画像を入力後、推論サービスを使ってセグメンテーション、3つに分けて出力するといったことができる。また、入力CT画像データをさまざまな臓器別に自動で分けて、それぞれの臓器において並列セグメンテーション、結果を出力するといったことも可能だ。

　たとえば大腸ガンモデルを使って、がんがない場合は「ない」と出力することができる。最後に全体を再びマージして示すこともできる。このようにマルチパイプラインを同時に実行できる。

Claraデプロイ

マルチ臓器セグメンテーション

　Clara Imagingはアメリカのジョンズホプキンスそのほか有名大学のほか、日本では名古屋大学などがユーザーとなっており、共同研究を行なっている。

最後にRuan氏はClara ImagingのCOVID-19関連の学習済みモデルリストを示した。他社が開発したモデルに比べて特異度が高いのが特徴だという。

Clara Imagingのパートナー

他社モデルに比べて特異度が高い点が特徴とのこと

GPUシミュレーションとマシンラーニングを駆使した創薬

　東京工業大学情報理工学院情報工学系准教授関嶋政和氏は「GPU シミュレーションとマシンラーニングを駆使した創薬 - COVID-19 とさまざまな疾患への挑戦」と題して講演した。

　創薬の観点では、1つの薬の開発に3千億円、時間は12～14年かかるとされており、既存手法では新規の感染症への対応が難しい。そこで「リポジショニング」というすでに承認された薬や化合物を転用する手法が現実的だと考えられており、注目されている。関嶋氏はシミュレーションとマシンラーニングの立場から研究を行なっている。

　COVID-19には引き続き警戒する必要がある。今回の新型コロナウイルスは、以前起きた「SARS」の原因ウイルスと似ている。アミノ酸配列は96%同じで、薬のターゲットとなるリガンド結合サイトは100%同じだ。そのため従来の研究が転用できるのではないかと考えられる。新規感染症に対してすぐに薬を作ることは容易ではない。そこで有効と考えられるのが前述の「ドラッグ・リポジショニング」だ。

新規感染症に対してすぐに薬は作れない

既存の薬から薬剤候補を探索するドラッグリポジショニング

　ドラッグ・リポジショニングは既存の上市薬や治験の一部を通過した薬をベースに薬剤を探索することになるので、安全性の問題をクリアしており、比較的、低コスト・短期間で開発できることが利点だ。標的となるタンパク質に対して、新しい標的タンパク質に対して、薬候補となる化合物は何があるか探索することになる。

　ドラッグ・リポジショニングはインシリコ(コンピュータベースの研究)の視点で見ると「構造ベース」と「リガンドベース」に分けて考えられる。構造ベースはタンパク質・化合物の立体構造を入力、おもな手法としてシミュレーションとして用いる。新規構造は得やすいが、予測精度は下がる。

　一方、リガンドベースは化合物の構造と活性情報を入力として、マシンラーニングを手法として用いる。学習データに引っ張られる欠点はあるが、予測精度は高い。

　関嶋氏は両方の手法で研究を行なっている。リガンドベース手法では「デノイジングオートエンコーダ」を用いて特徴を抽出し確率的行列分解の特徴量に用いる「CoDE-DTI(COllaborative DEep learning-base DTI predictor)」という手法を用いている。これはEコマースサイトで「これを買った人はこれも買っています、いかがですか」と過去の膨大な数の人たちの購買データをもとにリコメンドされるのと同じような仕組みだという。

構造ベースとリガンドベースの違い

　今回の講演ではおもに構造ベースについて解説が行なわれた。「Dockingシミュレーション」という手法だ。標的となるタンパク質の結合部位に対して、結合を行ないたい化合物や承認薬との立体的な配座を発生させる。つまりターゲット部位に結合させて評価関数で評価し、良かったものを選別する手法だ。

構造ベースの手法の1つ「Dockingシミュレーション」

SARS-CoV-2の分子動力学シミュレーション

　実際にわれわれの体のなかで、薬候補となる物質は標的とどう結合しているのだろうか。関嶋氏らは東工大のスパコン「TSUBAME 3」を使って長時間の動力学シミュレータを行なっている。

　SARS-COVと、今回の新型コロナウイルス(SARS-COV-2)を比較すると、実際にリガンドが結合する部分は「ファーマコフォア(医薬品がターゲットに結合するために求められる物理化学的な特徴)」が保存されていることがわかった。

　また、この論文査読の途中で「本当に有用なのか」という質問がきたため医薬品候補であるα-ケトアミド阻害剤に関して適合を検証した結果、やはり結合が阻害された。使用コストが安いので、新しい化合物の探索が行なえるのではないかと考えているという。

　ただ、最近はウェットな実験の論文を見ていると、上市薬を高速アッセイで試しているものが増えており、リポジショニングでCOVID-19の薬候補を探す段階は過ぎているのではないかと考えているという。詳細を詰める研究はあるが、薬化合物探索はじょじょに終わりつつある、だが次のまた新たなウイルス発生に備えて、新薬創出の準備に入ったほうがいいのではないかと関嶋氏は述べた。

SARS-CoV-2とSARS-CoVのファーマコフォア

　Dockingシミュレーションには問題点がある。関嶋氏は過去に製薬会社と一緒に共同研究したときの例を紹介した。

　研究の結果示されたドッキング上位の化合物を実際にアッセイしてもらったのだが、上位100化合物にまったくヒットがなく、申し訳なく感じたという。

　そこで活性のあった化合物となかったものを比較すると評価関数上は良かったが、タンパク質とリガンドの間の結合がかなり違っているものがあった。実際にウェットな実験をしている人の場合は、化合物の良し悪しをドッキングの様式、すなわちどういうふうに結合しているかを見て活性を判断している。

　人の目を入れているわけだが、化合物を数百万から選ぶ作業であり、また属人性が高くなってしまう。実際に相互作用を詳細に見てみると、まったくヒットがない相互作用があることがわかった。それらを排除すると、精度がよりよくなる。

　関嶋氏はタンパク質のアミノ酸残基と化合物間の相互作業エネルギーの値を直接ベクトルとして用いて解析する「SIVE-Score(Similarity of Interaction Enegy Vector-Score、シーブスコア)」という手法を提案している。Dockingシミュレーションを行なって、ヒットするかどうかをランダムフォレストで予測モデルを作成する。そして活性有無を予測して、ありそうなものを実験上位にまわしていく手法だ。この手法を用いることで実際にヒットレートが大きく上がったという。

ドッキングシミュレーションの課題

関嶋氏の提案手法「SIVE-Score」

　また昨今、目視検査にCNN(Convolutional Neural Network)を用いる手法が開発されている。たとえば、コンクリートをいつ修繕するのか、またコードのバグ取りもCNNが使われている。そこで関嶋氏はCNNを用い、創薬化学者が目で見たものをコンピュータに置き換えることはできないかと考えた。

　創薬化学者はそれまでの業務で見てきた化合物のインタラクションを暗黙で学習してきている。それを画像化してCNNで学習することで人の目を代替しようというわけだ。

　実際には360度から見たドッキングの様子をすべて画像化して評価させた。学習済みモデルで未知の活性を評価させたところ、かなりの精度が出たという。

　ただ、ランダムフォレストと異なり、CNNはどこの部分が効いているのか説明がしづらい。そこでGradCam(Gradient-weighted Class Activation Mapping)を用いて、どの部分を見ているのか可視化。説明可能にしようとしている。これらを用いて、Glideというドッキングプログラムに対して高い精度で活性のありなしを予想することができた。

CNNを用いた自動化

GradCamを用いた活性化部分の評価

　関嶋氏は最後に化合物の生成についても研究紹介した。ヒット化合物が得られても、それを最終的には薬にしなければならない。そのためには、より薬らしいヒット化合物を探索する必要がある。そのために、任意の化合物を出発点として、薬剤へたどり着くための化合物生成モデルを開発している。

　化合物の表現方法としてよく使われている「SMILES(Simplified Molecular Input Line Entry System)」を使い、MCTS(Monte Carlo Tree Search)とRNN(Recurrent Neural Network)を組み合わせた誘導体生成モデルを構築した。

　MCTSの次のノードの予測にRNNを用いることで、効率の良い探索が可能になった。結果は、薬らしさを評価する値(QED)が低い化合物から、高い化合物を生成することができた。QEDを上げながら別の要素を考慮したいときにも用いることができるという。

　これからの科学は可能な場所はオープンにして連携していくことが重要だとまとめた。関嶋氏らもシミュレーションの結果などはすべて公開しているという。

生成モデルを用いた化合物の最適化

化合物生成の結果

COVID-19胸部CT像のAI解析

名古屋大学情報基盤センターのスパコン「不老」

　名古屋大学大学院情報学研究科知能システム学専攻教授の森健策氏は、名古屋大学情報基盤センターのスパコン「不老」を用いた医療画像ディープラーニングを紹介した。「不老」は理研の「富嶽」と同じアーキテクチャのスパコンで、884基のNVIDA「V100 32GB」が用いられている。

　森氏は腹部のCT画像から胸部の領域を抽出し、VRによって手術シミュレーションや腹腔鏡手術のナビゲーションを行なうシステムなどの開発を行なっている。また、AIを使った大腸内視鏡検査なども行なっている。

名古屋大学大学院森健策研究室の研究例

AIを使った大腸内視鏡検査

　COVID-19では胸部CT、X線画像などが撮影される。そのコンピュータによる自動解析が重要となる。だがCT像では肺の境界がわかりにくい。重症度診断も難しい。AIを使うには大量の画像データ、教師データ、大量計算も必要だ。日本人のデータベースも不足している。

　今は多くが中国の画像データをベースにしているという。そこでAMED(国立研究開発法人日本医療研究開発機構)では医療ビッグデータプロジェクトが進んでいる。医療ビッグデータ利活用を促進するクラウド基盤・AI画像解析に関する研究は国立情報学研究所(NII)で行なわれている。

胸部CT画像の自動解析に関する研究の概要

医療ビッグデータ利活用を促進するクラウド基盤・AI画像解析に関する研究

　COVID-19に関する解析においては肺領域の自動セグメンテーション、自動分割、そして画像所見の自動推定が必要になる。森氏は順を追って解説した。

　CT撮像範囲はさまざまだ。AI画像診断支援を行なうためには、前処理として肺の領域を自動的にセグメンテーションを行なう必要がある。アノテーションつきの19例を用いて行なったところ、肺野領域と炎症領域の自動抽出ができた。境界が不明瞭な場合でも自動抽出ができた。

肺領域の自動セグメンテーションの仕組み

自動セグメンテーションの結果

　疾患状態の解析には肺の陰影の位置・形状・サイズなどの情報が有用だ。森氏らは肺のなかの状態を正常、すりガラス状陰影、コンソリデーション(浸潤影)などの自動分割する方法を検討した。

　具体的にはパッチベース画像処理とクラスタリングを用いた。CT画像の肺の部分をバッチ画像へ分割し、それをさらに特徴量へ変換する。その結果、正常部位、すりガラス影、コンソリデーションに分けることができた。また、教師なし画像でも肺を自動分割可能であることも示すことができた。

疾患状態の詳細解析のための肺野領域の自動分割

分割結果。教師なし画像で分割可能

　3D CNNを用いた画像所見の自動推定の研究も行なっている。CT像から肺の部分を取り出し、特徴抽出することで、それが典型的な画像かどうかを推定する。多くの肺野形状バリエーション学習のためにはボリューム数が必要だが、3Dの非剛体変形を用いた画像生成とそのままの画像を用いて学習データとした。

　日本国内データをもとに構築した分類結果をクロスバリデーションで評価したところ、分類精度は83.3%。COVID-19かどうかを高精度に発見可能だったという。

3DCNNを用いた画像所見推定

分類精度83.3%を達成

　最後に森氏は、名古屋大学のスパコン「不老」が役に立っていると計算インフラの重要性について強調した。

スパコン「不老」にはNVIDA「V100 32GB」が884基用いられている