ニフティが公開するWebサービス「Hashれ! β」
ニフティが公開するWebサービス「Hashれ! β」
[画像のクリックで拡大表示]

 インターネット接続事業大手のニフティは,ミニブログ・サービス「Twitter」にユーザーが投稿する「つぶやき(tweet)」の内容を解析し,関連するハッシュタグを自動で推薦する技術を開発した。

 ハッシュタグは,つぶやきの文章の最後などに「#英字列」の文字列を付加することで,投稿をグループ化するTwitterの機能。同じテーマや出来事に関する投稿を検索しやすくなり,同好の士との交流のキッカケづくりなどに利用できる。

 ニフティは今回の技術を公開することで,ソーシャル・メディア関連の利用者増やビジネスでの協業につなげたい考えだ。ここにきて,ネット・テレビの分野ではTwitterをはじめとするソーシャル・メディアをテレビ番組の推薦機能などに利用する動きが活発になっている。今回開発した技術は,そうしたデジタル家電向けのWebサービスにも活用できる可能性がある。

つぶやきとハッシュタグの関連度を重み付け

 ニフティは,2011年2月14日にも,今回の自動推薦技術を使ったWebサービス「Hashれ! β」(はしゅれ β)を公開する。例えば,「大相撲の春場所はやらないらしい」というつぶやきをWebブラウザー上で入力し,「タグを探す」ボタンを押すと,「#sumo」などの関連する複数のハッシュタグを自動で推薦する。ユーザーはそれを選ぶことで,入力したつぶやきにハッシュタグを付加した形でTwitterに投稿できる。これまで,ハッシュタグをキーワードで検索できる技術はあったが,自動で推薦する技術は珍しいという。

 ニフティは,今回の技術をWebサービス向けのAPIとして2011年2月中に公開する計画だ。APIの機能は,140文字以内の文字データを送信すると,その内容に適したハッシュタグの候補群を返すというもの。まずは,パソコンやスマートフォン向けのTwitter関連サービスや応用ソフトウエアで利用を見込む。

 今回の推薦技術の中核部分となる自然言語処理は,富士通研究所と共同開発した。つぶやきの文章データから単語を切り出し,あらかじめ用意したデータベースと参照する。これにより,それぞれの単語に関連の強そうなハッシュタグを選び出す。データベースは,単語とハッシュタグ,それらの関連度などから成る。

 特定の単語が現れたときだけに付加される傾向が強いハッシュタグは,その単語との関連性が高いと判断するなどのルールを使って,単語とハッシュタグの関連度を重み付けする。逆に多くのハッシュタグと結び付いている単語は,つぶやきの内容を代表する言葉ではないと判断するなどの処理を施すことで,つぶやきの内容に関連性が高いハッシュタグを絞り込む仕組みだ。

 データベースは,2010年4月以降の数百万件のつぶやき中から抽出した単語とハッシュタグの関連性を分析することで構築した。つぶやきの取得には,「Streaming API」と呼ばれるTwitterのAPIを使った。このAPIでは,Twitterのすべてのつぶやきから1~5%程度を抽出できるという。現状では,データベース中の単語とハッシュタグの対は800万件以上になっている。今後も,新しいつぶやきを分析することで,データベースを拡充する計画だ。

ソーシャル家電向けの技術開発が広がる

 ニフティと富士通研究所は2010年に,Twitterの投稿内容の分析を基に花粉症の症状の分布を日本地図上に可視化する研究を手掛けた。この取り組みの中で,つぶやきに登場する単語とハッシュタグの関連性が高いことが分かったという。

 両社の調査によれば,2010年4月27日~11月1日にTwitterで投稿された約3734万件のつぶやき(Streaming APIで取得したデータ)に登場したハッシュタグは約269万件で,約7%のつぶやきに付加されていた。ハッシュタグの種類は,約22万種だった。ニフティは,「今回のような技術を活用することで,ハッシュタグのような機能を利用しやすくなり,一般ユーザーにとってのソーシャル・メディアの利便性が高まる」と期待している。

 自然言語処理を使ってTwitterのつぶやきを分析し,テレビなどのデジタル家電向けに活用する技術開発は,国内でもKDDI研究所などが取り組んでいる。同研究所では,「ソーシャルメディア視聴」という技術を開発した。つぶやき中からテレビ番組に関連した発言を選び,それらを年代などの属性別の意見に分けて表示する。属性はTwitterの投稿内容を基に自動で推定しており,検証可能な約1万人のデータで調べた結果,約8割の精度で年代が当てはまったという。

 米国でも「Google TV」などのネット・テレビ向けにソーシャル・メディアの活用が盛り上がっている。今後同様の技術開発が広がりそうだ。