後藤弘茂のWeekly海外ニュース
新型コロナウイルス(SARS-CoV-2)と戦う半導体技術(2)
~ディープラーニングの本領が発揮される創薬分野
2020年4月24日 11:00
COVID-19症状を発症しない「不顕性感染」
パンデミックとなり世界中で流行する「新型コロナウイルス(SARS-CoV-2)」。第1回の記事で説明したように、感染症の流行は、疫学の数理モデル「SIR」で解析ができる。流行を終息させはじめるために必要となるのは、集団のなかで免疫を保持する者の比率である「免疫率」だ。
感染症の伝播力の指標となる「基本再生産数(Basic Reproduction Number)」から予想される一定の免疫率に達すると集団免疫となり、感染者の増加カーブは下降しはじめる。感染者が接触する人が、すでに免疫を持っている可能性が高まるからだ。
感染症において、特定の時や条件の下で、1人の感染者が感染させる2次感染者数の平均値は、「実効再生産数(Effective Reproduction Number)」と呼ばれる。通常はRと略される(図中ではREとなっている)。感染者が増えると、治癒して免疫を獲得したか死亡するなどして除外された人数が増えていく。すると、リアルタイムのRが1を下回る「R <1」に達して、感染者数は減少に向かう。また、社会的距離(Social Distancing)政策などで規制された場合も、実効R値は減少する。
では、終息に必要な集団免疫に達するまでどれくらい時間がかかるのか、死者はどれくらいになるのか。各国のR0が計算できれば、予測は簡単にできるように思うかもしれないが、そうでもない。明確になっていない数があるからだ。
根本的な問題として、SARS-CoV-2については、現在の正確な感染者数が、ほとんどの国で、よくわかっていない。一因は、SARS-CoV-2の場合、感染しても新型コロナウイルス感染症(COVID-19)の症状を発症しない「不顕性感染」があるからだ。統計で明確に見えるのは発症(顕性感染)者数で、接触検査でSARS-CoV-2陽性となった不顕性感染者もカウントされているが、全体像は見えない。
不顕性感染については、日本では、「ダイアモンド・プリンセス号」という閉鎖空間でのデータがある。厚生労働省の発表では、同クルーズ船でのPCR検査陽性者は712人で、無症状の不顕性感染者は333人で約47%。逆を言えば、発症率は53%だった。しかし、ダイアモンド・プリンセス号の人口構成は、発症しやすい高年齢に偏っていた。現在は、若年層ほど不顕性になる率が著しく高いことがわかっている。したがって、日本全体の人口構成に当てはめると、不顕性の比率はもっとはるかに高いことが予想できる。また、人種や過去の予防接種などの違いもあるかもしれない。
SARS-CoV-2における不顕性感染の比率は、各研究者によって予想が異なっていて、わかりにくい。より正確な数字は、現在進行しているように、SARS-CoV-2に対する高スループット検査が普及して、ランダム検査が各国で行なわれるようにならないと難しい。ランダムサンプル中の感染率、発症率(顕性率)などが明らかになれば、今後の予測が容易になる。そうした検査を行なうための重要な要素が抗体検査だ。
IgMとIgGの2種類の抗体を検査
脊椎動物の免疫系には自然免疫と獲得免疫がある。獲得免疫は、後天的に得られる免疫で、特定の病原体に対して効果的に対応するシステムとなっている。獲得免疫で重要な役割を果たすのが「抗体(antibody)」だ。
抗体は、体内に侵入したウイルスや細菌などを除去するために、リンパ球のB細胞から産生される。抗体は、ウイルスや細菌などの「抗原(antigen)」を認識して結合する。ウイルスや細菌などを除去すべき対象としてマーキングする役目を果たす。特定の抗原に対しては特定の抗体が対応する。SARS-CoV-2のような新しい病原体に対しては、抗原としてターゲッティングして、対応する抗体が産生される必要がある。
一度感染した病原体に対しては、抗体はしばらく残る上に、対応するB細胞がメモリB細胞として体内に長期間残る。病原体が再侵入した場合は、メモリB細胞が活性化して、対応した抗体がすぐに産生される。そのため、原理的には再度同じ病原体が侵入した場合も抗体によってすぐに対応できる。
ヒトには5つの種類の抗体があり、SARS-CoV-2のような感染症に対しては「IgM(免疫グロブリンM)」と「IgG(免疫グロブリンG)」が増加する。SARS-CoV-2の抗体検査でも、IgMとIgGを検出対象としている。感染の初期には抗原にすばやく反応するIgMが産み出される。そのため、IgMを検出することで、感染初期の段階で感染したかどうかを判断することができる。
一方、感染後しばらくするとIgGが産生されはじめる。一般に、IgMだけ、またはIgMとIgGの両方が検出される時は、その抗体が対応する病原体に感染している(IgMが産出される前に感染している場合もある)。
IgGだけが検出される場合は、多くの場合、感染後に病原体が消えて、抗体のみが残っているケースとなる。
免疫獲得者を識別して社会へと
抗体検査は、今後の新型コロナウイルス感染症(COVID-19)対策で重要な役目を果たす。現在のPCR法検査はウイルス自体を検出する検査で、手間がかかりスループットが低い。より簡便な抗体検査の導入によって検査のスループットが大幅に上がることが期待される。
抗体検査で検査スループットが上がることによる利点は、検査を受けたくても受けることができていない人に検査を提供し、不安を解消することだけではない。すでに述べたように、発症していない不顕性の感染者の比率をより正確に推定することができるようになる。
これによって、その社会でのR0や死亡率をより正確に掴むことができるようになる。正確なR0と感染者数+免疫者数がわかれば、R<1に必要となる集団免疫の達成時期も明確となり、今後の予想もより正確になる。
しかし、それよりも重要な点は、抗体検査によって免疫を獲得した人(IgGを十分な量持っている)を識別できるようになることにある。ヨーロッパや米国では、すでに抗体検査で免疫を獲得していることが明らかになった人に、免疫を持っていることを証明する免疫証明を出すことが検討されていると報道されている。
SARS-CoV-2に対する免疫を獲得している人は、新型コロナウイルス感染症(COVID-19)の流行が終息していない社会でも、安全に活動ができる。そうした、免疫獲得者に対して免疫証明を出して社会活動にフルに復帰させていくことで、社会活動の低下を抑えることができる。このアプローチには、社会が免疫獲得者と非獲得者で二分される危険もはらんでいるが、ワクチンが普及するまでは有用なソリューションとなると期待されている(こうした考え方は以前からあり、2011年のパンデミック映画『コンテイジョン』などでも免疫証明が描かれている)。
ワクチンが開発された後も、ワクチンが必要な人口に行きわたるまで製造が進むのには時間がかかる。そうしたインターバル期間にも、免疫の有無の検査は重要となる。また、COVID-19の治癒後に、SARS-CoV-2に対する抗体がどの程度とどまるかなど、免疫反応の研究にも抗体検査が欠かせない。たとえば、抗体が平均18カ月程度しか保持されない場合は、1年に1回のワクチン接種が必要となる。
ムーアの法則で進化するゲノムシーケンサがウイルスの正体を暴く
前置きが長くなってしまったが、こうしたすべての新型コロナウイルス感染症(COVID-19)対策パイプラインのなかで、半導体技術とコンピュータ技術がどう役に立つのか。
SIRモデルで予想すると、SARS-CoV-2の流行を終息させるために、重要なのは治癒薬とワクチンの開発だ。そのためには、大前提として、SARS-CoV-2の遺伝子と分子構造を明らかにし、その変化をトラックし続ける必要がある。また、治癒薬とワクチンの開発では、通常なら年単位となる開発時間の短縮が必要とされている。
まず、ウイルスの正体をつきとめ、その変異をトラックする部分に、半導体技術が役立っている。SARS-CoV-2のゲノムは、約30,000塩基のプラス鎖のRNAにコーディングされている。今回特筆すべきことは、SARS-CoV-2が登場して、あっと言う間にRNA上の全ゲノムが解析されたことにある。
海外の医学雑誌などでレポートされているが、SARS-CoV-2のゲノム解析では、ゲノムシーケンサ装置が活躍している。ゲノムシーケンサではIlluminaがトップメーカーだが、十数年前に大きな技術革新があり、スループットが劇的に向上した。その結果、SARS-CoV-2の正体は今までにない速さで明らかになった。
その背景にはCMOS半導体技術のシーケンサへの適用がある。ゲノムシーケンサ技術は、半導体の学会でも発表されており、半導体技術とは親和性が高い。じっさい、シーケンス能力はムーアの法則で伸びて来ており、現在は下のスライドのように、約1,000ドルで人間のゲノム解析が可能となっている。ゲノムシーケンサの半導体については、次の記事で説明したい。
シミュレーションでは、SARS-CoV-2のたんぱく質構造の解析が行なわれている。巨大分子であるたんぱく質は、リボソームでRNAから翻訳された状態ではアミノ酸分子の鎖状の結合だが、特定の立体構造へと折りたたまれて、特定の機能を持つようになる。立体構造へのたんぱく質の折りたたみには無数の選択肢があるが、自律的にもっとも安定した構造へと折りたたまれる。しかし、安定した折りたたみ構造は予測できず、構造の探索には膨大な計算能力が必要となる。
そのため、計算リソースを投入して、SARS-CoV-2でのたんぱく質構造を解析しようとする試みが行なわれている。たんぱく質の折りたたみを分子動力学シミュレーションによって解析する分散コンピューティングプラットフォーム「Folding@home」が、すでに複数のSARS-CoV-2プロジェクトをスタートさせている。
さらに、たんぱく質折りたたみは、最適化問題であるため、既存のコンピュータだけでなく、量子アニーリングコンピュータのアプリケーションとしても有望とされている。量子アニーリングコンピュータメーカーD-Waveも、SARS-CoV-2の研究者に自社のマシンの無料アクセスを提供している。
ディープラーニングと創薬
SARS-CoV-2の感染流行状態の解析や予測では、データサイエンスのアプローチが今後は有用となる。すでに、データサイエンティストの最大のオンラインコミュニティKaggleで、まずベースとなるCOVID-19のデータセットの構築と無償公開、そして、データセットを利用した分析モデルの開発のチャレンジが開始されている。
現在のIT技術のSARS-CoV-2対策への適用で、可能性は大きいが未知数な部分もあるのが、ディープラーニングへの創薬への応用だ。生物学や医学の領域では、現実の生体内での研究は「in vivo(インビボ)」、試験管内での研究は「in vitro(インビトロ)」、コンピュータ上でのシミュレーションなどは「in silico(インシリコ)」と呼ぶ。in silicoによる開発の効率化の重要性は増しており、ディープラーニングがそのための切り札になると期待されている。
この分野では、現在ホットな「ドラッグリポジショニング(Drug repositioning)」、つまり、既存の治療薬からCOVID-19への薬効がある薬を見つけることへのディープラーニングの適用が、まず目先にある。しかし、ディープラーニングが適用できる範囲はより広く深いと予想されている。
創薬と医療のエリアでは、以前から画像解析による細胞変化などのグルーピングといった、ディープラーニングの適用の研究が花開いていた。NVIDIAが主催するGPUコンピューティングのカンファレンス「GTC(GPU Technology Conference)」では、毎年この分野の論文が多数出されている。現在は、化合物のスクリーニングなどへの適用が想定されている。
ディープラーニングの本当の沃野は、これまで中心だった「教師あり学習(Supervised Learning)」ではなく、「教師なし学習(Unsupervised Learning)」にあると言われている。
マシンラーニングの研究者として非常に有名なYann LeCun氏(Facebook AI Research and New York University)のよく知られている例えに、「人口知能をケーキとするなら、教師あり学習はケーキの飾り、強化学習(Reinforcement Learning)はケーキ上のチェリーに過ぎず、ケーキの本体は教師なし学習だ」というものがある。ディープラーニングの創薬への応用は、まさしく、教師なし学習が中心のエリアとなる。言い換えれば、ディープラーニングの真価が発揮できるエリアである可能性がある。
概観しても、過去10年程度の半導体技術とIT技術の進歩だけでも、対感染症の面で大きな進歩があることがわかる。ゲノムシーケンシングは、CPUのようなロジック半導体とはまったく異なる側面での半導体の進化を示している。また、ディープラーニングの勃興期にあたっていることも大きい。
次の3本目の記事では、ゲノムシーケンサについて、半導体系の学会での発表などをベースに紹介したい。