MITが今日(米国時間2/13)、音声認識チップの開発を発表した。その発表によると、このチップを使うと各種応用製品の音声認識処理の部分の電力消費量が90〜99%節減される。音声技術は今やモバイル製品のほとんどに実装されており、中でもとくに、Siri, Alexa, Google Homeといった音声アシスタントアプリの人気がそのニーズを急増させている。このチップによりそれらの関連回路やソフトウェア部品が大幅に単純化されそうだ。
MITの開発チームは、IoT方面のユースケースをとくに強調している。音声対応を要するそれらのデバイスの電池寿命が、“数日”のレベルから一挙に“数か月”のレベルに向上することが期待される。教授のAnantha Chandrakasanはこう述べている:
ウェアラブルのアプリケーションやインテリジェントなデバイスにおいて、音声入力が自然なインタフェイスになるだろう。それらのデバイスは小型化が求められるから、タッチやキーボードなどとは違うインタフェイスが求められる。音声機能をクラウドではなくデバイス本体に埋め込む必要があるから、低電力消費は絶対的な条件である。
このチップには“音声活動を検出する(voice activity detection)”回路があり、音声と環境ノイズを区別する。そして自分に向けられた音声を認識したら、そのときにのみ、チップ上の音声認識ハードウェアに電源が入る。
チームの一員である院生のMichael Priceが、その音声検出の部分について、やや詳しく語ってくれた:
このチップの継続的な音声認識機能の部分は、隠れマルコフモデル(hidden Markov Models(HMMs))を使っている。それは、任意の長さの音声入力を文に書き起こす。その遷移モデルは、重み付き有限状態変換器(weighted finite-state transducer(WFST))だ。そしてアコースティックモデルはフィードフォワード型のニューラルネットワークだ。従来の、ソフトウェアによる音声認識でも、同様の一般的技術が使われている。
この認識システムのモデルを、オープンソースのツールキットKaldiを使って訓練した。訓練とテストには、複数の異なる音声データ集合を用いた。われわれがテストした最大の認識システムは、語彙が14万5000語で、リアルタイムのオペレーションで7.78mWを必要とした。最小のデジタル認識系(ゼロを”oh”で表す計11語)は172μWを要した。
このチップは、常時onの低電力モードで使われることを想定した設計になっている。音声を検知したときだけ本体部分が動き出すので、音声でコントロールするウェアラブルなどに向いている。一回の充電でスマホなどよりもはるかに長期間使える、という特性も重要だ。