大規模データベースを構築へ

 医療応用で高いポテンシャルを持つ機械学習だが、課題もある。深層学習のように高度で高精度な予測手法を使うには、数万件といった大規模なデータが必要な点だ。放射線治療に適用しようとすれば「数万の症例を集めなくてはならない」(馬込氏)。

 現状では、放射線治療に関してこれほどの規模のデータベースは整っていないという。大規模データベースを目指し米Johns Hopkins Universityなどが構築中の「Oncospace」でさえ、症例数は頭頸部がんの放射線治療で600、前立腺がんで1300ほど。こうした状況から馬込氏らは、Total Marrow Irradiationと呼ぶ放射線治療について世界14施設によるコンソーシアム「International Consortium of Total Marrow Irradiation」で、大規模データベースを構築していく計画だ。

 こうした試みを含め、今後は「包括的な医療ビッグデータの構築が必要」と馬込氏は話す。その障壁となっているのが「各科の情報が互いにクローズドで、有効活用できていない」(同氏)という院内データベースの現状。これを改善し、各科に存在する「深く詳細なデータを解析することが、集学的治療には欠かせない」(同氏)。

 大規模データベースの作成ではデータ入力の負荷が特に大きいことから、入力補助システムや、電子カルテの情報を自動抽出できるテキストマイニングなどが重要になるとした。データ解析を「各疾患の専門家と一緒に進めることも大切だろう」(馬込氏)。機械学習モデルの中身はブラックボックスであるのが一般的。ところが専門家が解析に加わることで、入力特徴量と出力の間に「生物学的なパスウェイを見いだせる可能性がある」(同氏)からだ。

■変更履歴
記事初出時、サブタイトルで「放射線技師」としていた箇所を、東大病院での馬込氏の役職に即した「医学物理士」に改めました。