音声認識「人間の言葉を理解して話す機械」の歴史

はじめに

音声認識と聞いて、SiriやAlexaなどの音声アシスタントを想像するのではないだろうか。どちらもこの10年ぐらいの出来事のように思われているが、それの実現は100年近く続く「人間の言葉を理解して話す機械」への挑戦があってこそである。

 

音声認識の始まり

人間の言葉を喋る機械で一番古い記録として残っているのは、発明家だったエジソンの残した「音声を記録と再生をする装置」である。これ以前にも音声を記録する装置は発明されていたが、再生できる装置は存在していなかった。入力した音声を「認識」する機械の登場は1960年にIBMが開発したShoe boxと呼ばれるコンピューターを搭載した装置の開発を待たなくてはならなかった。これは決まった発音のみであるが人間の声を認識できる初めての機械であった。その後数十年間は技術的なブレークスルーがなく音声認識に大きな進展はなかった。

Shoe box IBM 1970
参照:IBM Shoebox https://www.ibm.com/ibm/history/exhibits/specialprod1/specialprod1_7.html

ブレークスルー

2000年代に入ると、Appleから音声アシスタントのSiriが発表され、立て続けに他のテクノロジー企業から音声アシスタントが発表された。この時期にブレークスルーになった要因が3つある。

1.スマートフォンに代表される十分な処理能力のあるコンシューマー向けデバイスの普及

2.入力した音声を収集・解析的して継続的にアルゴリズムを改善するためのクラウド環境

3.それを繋ぐ高速インターネットの普及

参照:Siri Apple inc.

自動車こそ音声認識

ユーザーが音声認識を使える環境が整ったが、まだまだ生活の必需品にはなっていない。ユーザーへのインタビューでは「音声認識を使う必要性を感じない」が一番の理由として挙げられている。また日本を含めた一部の文化圏では「公共空間で一人で話す」ということへの羞恥心も理由として挙げられている。現在音声認識を利用しているユーザーが一番使っている場所は自動車を運転中に使用しているとの結果がある。

参照:Statista 「Where People Use Voice Assistants from Statista」
https://www.statista.com/chart/7841/where-people-use-voice-assistants/

これは運転中は車の操作で両手を使えないこと、また車内というプライベートな空間で人目を気にしなくてよいことが大きな理由である。そのため、自動車産業は音声認識に巨額の資金を投じて開発を行っている。

関連記事一覧