誰もが自分のゲノム情報を利用できる時代、課題は大規模データ解析人材の育成へ

東京大学医科学研究所ヒトゲノム解析センター教授の宮野悟氏

日経テクノロジーオンライン

2014.07.07

東京大学医科学研究所ヒトゲノム解析センター教授の宮野悟氏

[画像のクリックで拡大表示]

　東京大学医科学研究所ヒトゲノム解析センター教授の宮野悟氏は2014年7月7日、「医療ビッグデータ・サミット2014 ～ゲノム解析から予防医療、自動診断まで――ビッグデータがもたらす新産業～」（主催：日経デジタルヘルス）に登壇し、「医療ビッグデータ時代の幕開け～誰もが自分の遺伝情報を利用できる時代が来た～」と題して講演した。

　生物のゲノム情報を読み取る装置はシークエンサー、読み取り作業はシークエンスと呼ばれる。このシークエンサーが近年急速に進歩したおかげで、ヒトゲノムのシークエンスコストは劇的に低下している。2014年現在、そのコストは1000米ドルにまで下がっており、さらにCMOSワンチップのシリコンシークエンサー、DNAをたんぱく質に空けたナノポア（ナノサイズの穴）に通して解読する「ナノポアシークエンサー」の実用化によって、100米ドル前後にまで下がる見通しが立っている。東京大学医科学研究所でもクオンタムバイオシステムズと共同で、臨床への応用が可能な1分子シークエンサーの開発に取り組んでおり、2014年1月27日にはシリコンバレーでプロトタイプとデータを発表している。

　このようにシークエンサーのコストが大幅に下がったことで、今度は「取り出したゲノム情報を解析する人材の育成が緊急の課題となっている」（宮野氏）。例えば、米NIH（national institutes of health）では、ゲノム情報のビッグデータ解析のために「Associate Director for Data Science」を設置。Bioinformatics（生命情報学）の著名な研究者であるThe University California, San DiegoのPhilip E. Borune氏がAssociate Directorに就任して、“Tracking the Big Data Program”に取り組んでいるという。

　さらに、ゲノム情報のビッグデータ解析には、スーパーコンピュータ、大規模ストレージなどのリソースも必要となる。最新のシークエンサーは正常組織から900億文字、がん組織から1200億文字、合計2100億文字のゲノム情報を6～27時間ぐらいで取り出せる（シークエンサー複数台をパラレルに使用するかどうかで異なる）。そこから「親から受け継いだゲノム」「がんを発症する鍵遺伝子の変化」「環境因子による変化を受けたゲノム」などを解析し、最終的に「感染症へのかかりやすさ」「心臓病の発病リスク」「様々な薬の有効性や副作用」といった臨床で役立つ情報を得るためには、大規模データの解析とその結果を再利用可能な形で記録する知識データベースがポイントとなる。

　宮野氏が勤務する東京大学医科学研究所ではインターネットから切り離した「パーソナルゲノム空間」に専用のスーパーコンピュータ領域を設置し、臨床系研究室からはストレージを持たないシンクライアントを使ってVPN経由でアクセスする。こうしたセキュリティ対策を施したうえで、生命倫理チームを加えた遺伝カウンセリングや遺伝子検査体制を整備している。その基本方針は「患者とその家族がゲノム解析の現場を見たときに『気持ちよく協力しよう』と思えること」（宮野氏）だという。

　解析で利用するスーパーコンピュータは、2014年12月までは2万2704コアのCPU、5Pバイトのストレージ（うち3Pバイトは並列ファイルシステム「Lustre File System」で管理）、演算性能225TFLOPSのマシンを利用。2015年からは12Pバイトの高速ディスクアレイ、50Pバイトのニアライン・アーカイブ、演算性能500TFLOPSの「Shirokane 3」が稼働する。さらに2017年以降には、高速ディスクアレイが30Pバイト、ニアライン・アーカイブが100Pバイト、演算性能1PFLOPSの「Shirokane 3＆4」の導入を目指している。

　講演ではこのほか、2014年6月10日～12日に米San Franciscoで開催された「The 3rd Clinical Genome Conference」での発表から、米Mayo Clinicの事例を紹介。米Rochesterに本拠があるMayo Clinicでは5年以内に10万人の全ゲノム情報のデータを取得し、電子カルテとリンクさせる計画を表明。すでに、がんの変異と治療法、治療結果のデータベースを構築して、それに基づく治療を実施しているという。