膨大な学術情報から有望な成長領域を予測する方法とは？

東京大学工学系研究科教授・TMI専攻長、東京大学政策ビジョン研究センター長、総長特任補佐坂田一郎氏

2016.08.02

──クラスタリング（グループ化）の結果はどのように分かるのですか。

坂田氏：クラスタリングはビジュアル化されます。グループごとに色を自動的に割り振って表示されるのです。同じ色で1つのグループを表します。例えば、太陽電池の学術論文。学術・産業技術俯瞰システムに1959～2009年に発行された学術論文を全て入力し、クラスタリングした結果があります。

　そこでは、黄色で表示されたグループは「色素増感系太陽電池」に関する学術論文を示しています。こうしてグループに分けた上で、各グループの詳細な中身を見ていくことができます。そのグループに属する論文数と、出版されてからの平均年数（平均の出版年）、主なジャーナル、キーワードは何かといった具合です。キーワードは多い順に抽出されます。

　例えば、色素増感系太陽電池の学術論文において平均の出版年を見ると、3.4年しかないことが分かります。平均の出版年が短い（若い）ほど新しい研究分野、すなわちエマージング領域であることを示します。色素増感系太陽電池は、この3.4年で4647件の論文が出ている。つまり、今、成長している領域であることが分かります。

　以上は1回だけのクラスタリングですが、さらにクラスタリングを行えば、どのような色素なのか、そのモデル（構造）まで調べることもできるのです。書籍に例えるなら、クラスタリングを重ねることで「章立て」⇒「節立て」⇒「項立て」のようになるイメージです。いわば、膨大な学術論文のデータから、書籍の目次を自動作成している感じと言えば、イメージが伝わるでしょうか。200項目ぐらいに分類すると、どこが成熟し、どこが伸びているかをより具体的に把握することができます。さらに、その分野で多く引用されている重要な研究者やジャーナル（論文誌）も明らかになります。それらは、企業が、誰と提携し、誰を競合者としてウオッチすべきかなどの戦略を考える際に重要な情報となります。

　学術・産業技術俯瞰システムで、詳しく調べる前の入り口を探す。その後、詳しく学術論文を読む。すなわち、どの領域の学術論文を読むべきか、誰の学術論文を読むべきかが簡単に分かるというわけです。