人気講師に聞く！

膨大な学術情報から有望な成長領域を予測する

坂田一郎氏（東京大学工学系研究科教授・TMI 専攻長、東京大学政策ビジョン研究センター長）

聞き手：近岡裕

2016.08.31

機械学習を活用し、膨大な学術論文から有望な成長領域を特定できる「学術・産業技術俯瞰システム」が開発された。「技術者塾特別編」のセミナー「新事業の創造に効く学術情報・ビッグデータの生かし方」〔2016年10月5日（水）〕に登壇する、東京大学工学系研究科教授の坂田一郎氏に、学術・産業技術俯瞰システムの特徴や利点を聞いた。

──「学術・産業技術俯瞰システム」とは何でしょうか。

坂田氏：学術・産業技術俯瞰システムを一言で説明するなら、膨大な学術論文（以下、論文）から人工知能（AI）の基幹的な技法として現在注目されている機械学習を使って技術経営の意思決定を支援するシステムです。製品開発分野では、イノベーションの創造に役立ちます。斬新なイノベーションの創造に結び付く技術は学術情報から誕生するケースが増えている。そのため、学術情報の重要性は高まる一方です。

　ところが、世界で発表される論文の量は膨大で、人が全てを読むことはとてもできなくなっています。このシステムを使えば、自社が必要とする重要な学術論文を絞り込むことができるのです。

　学術・産業技術俯瞰システムでは、世界中の論文の情報をビッグデータとして入力して分析します。次に、引用の密度が高い論文を、クラスタリング（内容に即したグループ化）と呼ぶ手法でグループ化します。密度が高いとは、内容の類似性が高いという意味です。内容の類似性が高いグループは、大局的に見ても関連性が高いと判断します。現在、企業で使われているのは基本的にこのグループ化です。

　例えば、太陽電池に関連する論文は世界で10万件、ナノカーボンに関する論文は50万件もあります。これらは英語で記述されたものです。企業からも大量の論文が発表されています。

　恐らく、各企業の本業に関係する領域の論文内容は、自社に専門家がいるため理解できるでしょう。しかし、本業から外に出ると専門的な知見がないという場合が多い。すると、大量の情報がある中で探索方法が分からないという事態に見舞われます。

　そこで、学術・産業技術俯瞰システムでは膨大な論文をグループ化して内容を分類していきます。こうして、例えば100グループに分類されたとしたら、その中から関心のあるもの、例えば3グループを選べばよい。そしてさらに、各グループの中で多く引用されている論文を「重要論文」として読めばよいというわけです。ユーザーが手に入れたい情報に応じて細かくグループ化し、各グループの中から重要論文を引っ張ってくる。それが、このシステムではできます。こうすれば、研究者は効率よく重要な論文から読むことができます。