近年、各方面から注目を集めているビッグデータだが、現状はシステム的な側面だけが先行し、企業にとって投資に見合った成果を引き出しているかは疑問である。これは、ビッグデータの解析者である「データサイエンティスト」と呼ばれる人材が育っていないからだと言える。

 ビッグデータのような大量の情報を解析するには、データサイエンスと呼ばれる知識(ベイズ統計学、正則化法やカーネルトリックなど)が必要であるが、その知識を習得するハードルは非常に高い。多数の専門書が出版されてはいるものの、いずれも内容はかなり高度で、初学者の知識とのギャップが大きい。インターネット上にも情報が氾濫しているが、特定の内容に偏ったものが多く、そこから体系的な知識を得ることは難しい。

 そんな中、先進的な企業では大きな成果を挙げつつある。米NEC Laboratories America社の藤巻遼平氏による「異種混合学習による異常検知」(藤巻氏は数多くの学会賞の受賞歴のある若手研究者である)や、米IBM社のThomas J. Watson Research Centerの井手剛氏による「スパース構造学習による異常検知」などは、優秀なデータサイエンティストを擁することが成果につながった典型例といえる*1

*1 このような最新研究から明らかなのは、ビッグデータを活用した品質革新とは、「IoTによる障害予兆検知」によって徹底的にロスを無くしていくことである。これは、ドイツの「Industry4.0」が目指している世界でもある。

 では、どのようにしてデータサイエンスの知識を教育し、データサイエンティストを育てていけばよいのか。以下では筆者が社内で構築したデータサイエンス教育の実例を交えながら、どのような知識が必要なのかについて解説する。