米O’Reilly Media, Inc.が開催した「Web 2.0 Expo」では,携帯電話機関連の話題が注目を集めた。その一つが,米Tellme Networks, Inc.が公開した携帯電話機向けマルチモーダル検索サービス「Tellme by Mobile」(発表資料その1)である。マルチモーダルとは,音声やテキストなど複数の手段を利用するユーザー・インタフェースのこと。Tellme by Mobileの検索サービスは,インターネットにあるテキストの情報の検索に音声認識を利用することで,ユーザーが簡単に操作できるようにする。現在携帯電話でデータ通信サービスを利用していないユーザーに,利用を促す狙いである。これまで同社は,音声認識とインターネット関連の技術を組み合わせて,ユーザーが電話を使って音声で操作し音声で情報を獲得できるシステムを,主に企業向けに開発してきた。

 Tellme by Mobileサービスは現在はβ版。まず,携帯電話機上で動作する約200KバイトのJ2ME対応クライアント・ソフトウエアが,ユーザーが声に出した検索条件を録音する。次に,録音した約2~3Kバイトの音声データをTellme社が運営するサーバーに転送。サーバー側で音声ファイルから検索条件を認識し,実際に検索を実行して,結果をテキスト・データとしてクライアントに戻す。検索結果を,オンラインの地図などの情報と連携させることも可能。Tellme社は,画面が小さい携帯電話機に適した検索結果を得られるアルゴリズムを利用しているという。

 音声とテキストを組み合わせるマルチモーダル技術は,業界では数年前から話題に上っていた。Tellme社,Product Unit ManagerのDavid Mitby氏によると,「我々の技術の音声認識率は向上し続けており,今回のサービスの提供に必要な高い認識率を実現できた」という。

 なお,2007年3月14日に米Microsoft Corp.は,Tellme社を買収する計画を発表した(発表資料その2)。買収額は未公開。「Microsoft社との合併が完了すれば,Microsoftのさまさまな技術を使ってTellme by Mobileのサービスをさらに拡大できると期待している」(Mitby氏)。

Mobile by Tellmeを使って店舗などを検索するときの画面。まず,ユーザーは通話ボタンを押しながら自分がいる町と州の名前を言う。
Mobile by Tellmeを使って店舗などを検索するときの画面。まず,ユーザーは通話ボタンを押しながら自分がいる町と州の名前を言う。
[画像のクリックで拡大表示]
次に,ユーザーは検索条件を言う。
次に,ユーザーは検索条件を言う。
[画像のクリックで拡大表示]
Tellmeサーバーが検索結果を返す。
Tellmeサーバーが検索結果を返す。
[画像のクリックで拡大表示]