音声認識&翻訳のIC化に挑戦

 1990年代、私は日進月歩で進展する半導体集積回路(IC)をヒューマン・インターフェースに活用し、コンピュータの使い勝手を向上させようという構想を持っていた注1)。マルチモーダル・インターフェース(文字、音声、画像を組み合わせたマルチメディア・インタフェース)を検討、中でも音声認識と翻訳に強い興味を持つようになっていった。音声処理を半導体IC化する仕事にはまだ多くの挑戦が残っていると見ていたからである。また自動で音声を認識して翻訳できれば、英会話の苦手な日本人には大いに役に立つのではないかとも考えた注2)。そうして、半導体ICを使った自動の音声認識および翻訳を実現しようと思い立ったのである。

注1)K. Shimohigashi, “An Age of Human Interface,” presented at European Electronics 1998, October, 1998.

注2)1990年代に入ると日本からの海外旅行者数は急速に増加し、1990年代後半には1500万人を超えた。このうち半分に需要があるとすると、携帯翻訳機の市場規模は750万台を超える計算になる。

 しかし、私には音声認識に関する土地勘が全くなかった。そこで、研究所の音声認識グループに教えを請いに出かけた。私にとって幸運だったのは、当時そのグループはその後の研究方針で困っていたことである。それまで彼らは音声に対する認識率の向上に心血を注いでいた。しかし、その頃には認識率は90%後半に到達、それ以上のわずかな認識率向上には多大なマンパワーが必要になっていた。研究効率が逓減(ていげん)しており、新しい研究方向を出さなければならない状況にあった。こうした状況から、グループの中堅エンジニアが、私の音声認識を半導体IC化するという提案に興味を持ってくれ、一緒にやろうということになった。

 音声認識は、大きく分けて単語認識、定型分認識(controlled sentence recognition)、自由会話認識(free speech recognition)という三つがあり、この順に難しくなる。特に自由会話認識は1000MIPS(million instruction per second)を軽く超えるハードウエア性能が必要であり、さらに翻訳についても日本語と英語の構文の差が大きいことから相互変換ソフトウエアもとんでもなく難しいことが分かった注3)。当時は最先端CPUを使っても、その性能は30~60MIPSに過ぎなかった。私は、これではうまく行くか分からないし、まともに取り組もうとするととんでもないマンパワーが必要になると考え、すぐにテーマ化することには躊躇した。それでも、最先端CPUを使ってどこまでできるかを知りたいという気持ちは抑えられなかった。

注3)構文問題は日本語の方により問題が多い。主な例を挙げると、(1)丁寧語と普通語がある(「行く」と「行きます」はいずれも英語では「go」である)、(2)同じ表現で違う意味がある(「すみません」は英語では「I am sorry」、「Excuse me」、「I see」の三つの意味の場合がある)、(3)複数と単数の区別がない、(4)「ね」、「よ」、「な」のような辞書にない会話表現がある、などである。

 そこで少し遊び心を出し、少ない人数で試しにやってみるというアプローチを採った。何か聞かれると「ちょっと遊び心で・・・」と頭をかくことにしたのである。そうこうしながら1年くらい続けていたら、思った以上のシステムが出来上がった。定型分認識で約百文、800語の音声認識と翻訳(日本語と英語)が可能なシステム・ボードが出来たのである。それは、60MIPSのCPUが1個、ROM(read only memory)が2MB、RAM(random access memory)が1MB、A-D変換器、コントローラから構成されていた。

 この結果、半導体ICに音声認識を組み込む足がかりができ、R&Dのテーマとして取り上げられるようになった。最終目標をnomadic language assistance(自由会話、特に日米言語の認識と翻訳ができる携帯端末)とした研究テーマを旗揚げした。遊び心が新しい領域を切り開いたのである。そしてこの仕事はカー・ナビゲーション用の音声認識装置につながっていった。

試してダメなら笑い飛ばして次へ

 少々の遊び心と失敗を笑い飛ばす余裕がないと、人は新しい挑戦をなかなかしない。「破ろう常識、超えよう限界」というスローガンに見られるように、新しさへの挑戦は常識や限界といった固定観念を超えることである。このため、当初は周囲から理解されないことが多く、失敗する可能性も高い。従って、オーソドックスなやり方では、誰も新しいことには挑戦しないだろう。またマネージメントが公然と失敗を認めることも難しいだろう。こう考えると、真剣な遊び心でまずはアイデアを試させ、ダメなら笑い飛ばして次に挑戦させる、“余裕を持ったR&D環境”の構築を真剣に考えるべきではないだろうか。