日本発のOSS(オープンソースソフトウエア)が、世界の舞台に飛び立とうとしている。油井誠氏が開発を始めたOSSで、分散データ処理ソフトの「Hadoop」「Spark」用の機械学習ライブラリ「Hivemall」が2016年9月、米Apache Software Foundationの「Incubator(育成)」プロジェクトに認定されたのだ。

 Apache Software Foundation(ASF)は、Webサーバーの「Apache」やJavaアプリケーションサーバーの「Tomcat」、Hadoop、Sparkといった有力OSSの開発の中心となっている非営利組織だ。ASFの正式プロジェクトは、OSSにおける「有力ブランド」であり、HivemallはIncubatorプロジェクトに選ばれることで、その候補入りを果たした。

 プログラミング言語の「Ruby」やデータ収集ソフトの「Fluentd」など、日本で生まれ、世界中で使われているOSSは複数存在する。しかしASFのIncubatorプロジェクトに選ばれた日本発OSSはHivemallが初めて。もし正式プロジェクト入りを果たせれば、日本のOSSコミュニティーにとって「快挙」になりそうだ。

SQLクエリーで機械学習

図●Hivemallのロゴ
図●Hivemallのロゴ
[画像のクリックで拡大表示]

 Hivemallは、Hadoop/Spark上で「SQLクエリー」を使って機械学習を実行するためのソフト()。Hadoop/Spark用のデータウエアハウス(DWH)エンジン「Hive」のUDF(ユーザー定義関数)として実装されている。油井誠氏が産業技術総合研究所(産総研)に所属していた2013年10月にOSSとして公開した。油井氏は現在、日本人エンジニアがシリコンバレーで起業した米Treasure Dataに所属している。

 Hadoop/Spark用の機械学習ライブラリとしては、プログラミング言語の「Python」や「Scala」に対応した「MLlib」や、「Java」に対応した「Mahout」などもある。それらとHivemallの最大の違いは、「機械学習に関する全ての処理をSQLクエリーで実行できるようになること」(油井氏)。「MLlibやMahoutを使っているユーザーも、Hadoopクラスターから機械学習に必要なデータを取り出す『前処理』などに、Hiveを使用しているケースが多い」(油井氏)。Hivemallを使用すれば、複数の言語を使い分ける必要が無くなる。

ASFのプロジェクトは「信頼の証」

 近年の有力OSSは、ソフト開発者や企業が単独で開発するのではなく、ASFや米Linux Foundationなどの非営利組織が開発の中心となるケースが増えている。ASFの正式プロジェクトは、米Googleや米Microsoft、米Facebookなどがスポンサーに名を連ねるASFから、さまざまな支援が受けられる。