2005年のデータを見る限り、政党や党首、政策についての口コミでは、肯定的・否定的意見の割合と得票率にはほとんど関係がなかった。また、口コミと得票率との関係には、地域による特性に大きな差があった。こうした一連の作業から、口コミと得票率と地域の関係をつなぐ法則を発見し、数式化した。具体的には、300小選挙区のそれぞれで複数のパラメーターを重回帰分析し、最適な関係を表す数式モデルを作ったのである。

 このモデルに2009年の総選挙についての口コミ情報を入力することで、今回の総選挙での得票率を算出した。クチコミ@選挙では、ソーシャル・データという鉱山から「選挙結果の予測」という貴重な鉱物を発掘したのだ。

 このソーシャル・データという鉱脈に、ゴールドラッシュさながらに人々が集まりつつある。代表例は、ゴールドラッシュが起きたカリフォルニアに本社を構えるネット検索最大手の米グーグルだろう。

経済活動は予測できるか

 グーグルは、「かぜ」「せき」「熱」などのインフルエンザの流行に関連する検索キーワードでの検索件数と、米疾病対策予防センター(CDC、U.S. Centers for Disease Control and Prevention)によって発表されるインフルエンザ患者の発生情報に相関があることを発見した。全米中のインフルエンザの発生状況を、CDCの発表よりも1~2週間早い段階で把握できるようになったという。

 現在、グーグルはこの技術の成果をネット上で一般公開している(サイトはこちら)。その手法は、科学雑誌「Nature」にも掲載されている。(注:論文の閲覧は有料)

 「検索データのログから現在の経済活動の状況をリアルタイムに予測できる」とも同社は考えているようだ。例えば、ある地域で「新築マンション」という検索キーワードが多く検索されているならば、その後、その地域でのマンション販売額は増加すると考えられるというわけである。こうした例は、不動産に限らず、小売や自動車販売、旅行、金融など、あらゆる分野に応用できそうだ。

 グーグルは、これまでの研究成果を“Predicting the Present with Google Trends”という論文にまとめているので、ご興味のある方は一読されることをお勧めしたい(論文はこちら)。

 この成果は研究にとどまらず,実際のサービスに活用すべく模索しているようだ。