ニュース

ゲノムの二次解析をGPUで数十倍高速化。NVIDIAの技術が東大医科研のスパコンに全面導入

宇都宮充

2021年2月25日 14:20

SHIROKANEのGPUノード

　NVIDIAは、東京大学医科学研究所(東大医科研)ヒトゲノム解析センターのスーパーコンピュータ「SHIROKANE」に新たにDGX A100を追加し、一部でGPUノードで運用していたClara Parabricksを全面的に導入すると発表した。3月1日より稼働を開始し、4月1日よりSHIROKANEユーザーに提供する。

　NVIDIAでは、GPUやCUDAをベースに、CGやAI、科学技術計算などさまざまな用途に向けたソフトウェアを提供しており、今回の事例は全ゲノム解析向けのClara Parabricksを活用したものとなる。

　全ゲノム解析では、次世代シーケンサーを利用するが、このとき約30億の塩基対で構成されるDNA全体を100～150塩基対程度に切断して読み出す必要がある。そして得られた断片を本来のDNAの配列にコンピュータ上で復元し、リファレンス配列に対して変異があるかどうかを解析する(二次解析)。この二次解析には膨大な計算が必要となるため、処理に時間を要していた。

　Parabricksは、業界標準とされるソフトウェア「GATK」をGPU向けに実装したもので、二次解析の高速化を実現する。全ゲノム解析の基本となるGermlineパイプラインの場合、ParabricksとNVIDIA A100を8基搭載する「DGX A100」を利用すると、CPUサーバーでは20時間以上必要だった処理を最短25分程度で完了できるとする。精度についてもCPUと99.99%以上の一致率を実現しており、高速化以外にもディープラーニングを活用して変異検出を行なう「DeepVariant」なども実装している。

　より大量の計算が必要となる、がん全ゲノム解析向けのSomaticパイプラインでは、業界で一般的に用いられている数種類のソフトウェアについてGPUを活用した高速化を実現。いずれもCPUと比べて大幅な高速処理が可能となった。加えて、複数のソフトウェアにより結果を複合する「コンセンサス」処理機能も実装を進めている。さらに、RNA解析向けのパイプラインなども用意している。

　そのほか、導入にさいして必要なハードウェアが汎用性の高いGPUのため、ソフトウェアを変えることで特定の用途にかぎらず活用できる点もメリットだとしている。

Germlineパイプライン

Somaticパイプライン

RNA解析向けパイプライン

DGX A100

　東大医科研ヒトゲノム解析センターでは、2019年4月よりSHIROKANEにTesla V100を80基導入し、うち16基にてParabricksの性能やユーザビリティなどの評価を進めてきた。

　その結果、同意の下で患者のゲノム情報をSHIROKANEで解析し、治療に有用な情報を主治医に提供するがん臨床シーケンスのなかで、10時間以上かかっていたデータ解析時間を100分程度にまで短縮できたほか、複数のユーザーが利用した場合でも問題なく動作することが確認できたという。また、需要の高まりで解析のジョブ待ちが発生する場面が増えたことなども受け、既存のものにDGX A100を加えた全88基のGPUにParabricksを導入し、ユーザーへの提供を開始する。