Google、音声認識APIを公開。Nuanceと直接対決へ

shutterstock_98504012

Googleは同社の音声認識APIをサードパーティーデベロッパーに開放し、Nuanceをはじめとする音声認識会社と直接競合しようとしている。デベロッパーを引き込むために、アプリは当初無料で提供され、後日有料になる予定だ。

このサービスについては数週間前から噂されていた。Googleは今日(米国時間3/23)、同社のクラウドユーザーカンファレンス、NEXTで正式に発表した。そこでは機械学習に関する最新状況も発表され、中でも新しい機械学習プラットフォームが注目される。

Google Cloud Speech APIは、80言語以上に対応し、どんなアプリケーションからでもリアルタイムストリーミングあるいはバッチモードで利用可能で、アプリケーションが「見る、聞く、翻訳する」ためのAPI一式を提供する、とGoogleは言っている。これは、Googleアプリの音声検索やGoogleキーボードの音声入力で使用されているものと同じニューラルネットワーク技術に基づいている。他に、騒音環境やリアルタイムで使うための興味深い機能がある。

Googleの一手は業界全体に大きな影響を与えそうだ ― 特にNuance。Nuanceは長年業界最高の音声認識を提供していると考えられており、間違いなくこの種のサービスの中で最大だ。スタートアップ企業を含めNuanceの顧客の中には、Googleに乗り換えるところもでてくるだろう。GoogleのAPIは現行サービスより優れた体験を提供するだけでなく、低価格で提供される。

デベロッパーの関心を早く集めるために、APIは完全無料で提供される。いずれは有償化されるだろうが、低価格の利用プランが用意される可能性は高い。Googleは今後業界を支配する立場に立った後、値上げするかもしれない。

Googleはこれまで自社の音声技術を限定的に提供してきた。例えばデベロッパーはJavaScriptでChrome APIを呼び出すことが可能で、そこから音声認識APIが呼ばれる。Googleは2015年のGoogle I/OVoice Interaction APIを発表しており、Androidデベロッパーはアプリに音声操作を追加することができる。しかし、音声認識APIの直接アクセスを開放したことはなかった。

音声認識APIの公開は、Nuanceやの音声認識プロバイダーに影響を与えるだけでなく、Appleに対する攻撃と見ることもできる。同社のバーチャルアシスタントSiriの音声認識能力は、Google製と比べて影が薄い。デベロッパーがSiriの技術をアプリで使うためのAPIもまだ提供されていない。

Googleが音声技術に大きく力を入れようとしていることを示す兆候は数多く見られる。例えば同社は去る2月に、Googleドキュメントの編集と書式設定を音声で行えるようにしたことを発表した。

イベントで新しい情報が入り次第続報の予定。

[原文へ]

(翻訳:Nob Takahashi / facebook