選挙は、人々の総意で決まるものだ。その意見はこれまで、投票やアンケートという形で収集されてきた。ところが、最近では、多くの人々がネット上で自分の考えや体験を公表するようになっている。ブログやSNSのユーザーは日本国内で1500万人を超え、実に国民の10人に1人が利用する時代になった。

 そうなると、選挙の投票に行く前段階で、ブログなどに国民の考えや本音が埋もれていると考えても不自然さはない。その本音を“発掘”することで、選挙結果を予測できるかもしれない。これが「クチコミ@総選挙」の発想の根幹だ。

 では、ネット上の意見という金鉱脈を掘り当てるにはどうすればいいか。これは、実際の採掘過程とほぼ同じである。

 まず、金が含まれると思われる岩石を大量に収集したり、鉱山を手に入れたりしなければならない。この岩石や鉱山に相当するのが、ブログに投稿された記事である。国民の総意を知るためには、日本中のブログ記事を過去のデータだけでなく、新たに投稿されるものも含めて網羅的に収集することが重要だ。今回の取り組みでは、1200万人を超えるブロガーの投稿記事を網羅的に集めた。

 ただし、掘った岩石は金だけでできているわけではない。不純物を取り除き、精錬する作業が必須である。これは、ブログでも同じことが言える。集めた記事には、実際は選挙に関係ないものや、ゴミのような記事(スパム記事)が含まれる。アダルト・暴力系、アフィリエイト(成果報酬広告)系など、プログラムで機械的に投稿された大量のスパム記事を含めてフィルタリング技術で取り除く。この作業が不十分だと、純度の高い成果が得られない。

過去の体験から効率的なモデルを作る

 さらに、金鉱脈を効率的に探す手法も考えなければならない。これには過去の経験をモデル化することが役立つ。いくつかの場所の、いろいろな種類の岩石をサンプル収集し、どんな場所の、どんな色や形の岩石の中に金が多く含まれているのかを探るわけだ。

 総選挙の予測では、前回の衆院選があった2005年のブログの口コミ情報をモデル化した。そのために,口コミの内容と2005年の選挙結果の関係を調べた。人々の投票行為と関係するのは、政党への意見なのか、政策に対する意見なのか。候補者個人に対しての意見や、政党の党首への評価が重要かもしれない。はたまた、その意見は肯定的なのか、否定的なのか、地域差はないのかといったことを多面的に分析した。

 その結果、分かったことがある。