Googleが今日、Google Cloud上のSpeech-to-TextとText-to-SpeechAPIをアップデートし、主にエンタープライズユーザーにとって関心があると思われるいくつかの新たな機能を導入するとともに、サポートする言語を拡大し、そして料金を下げた。〔正式名は、Cloud Speech-to-Text API、および、Cloud Text-to-Speech API。〕
力点はSpeech-to-Textの方に置かれているが、Text-to-Speechの方も31の新しいWaveNetと24の新しい標準音声が加わるなど、メジャーなアップデートであることに変わりはない。またサポートする言語は、以下の7つが増えた: デンマーク語、ポルトガル語、ロシア語、ポーランド語、スロバキア語、ウクライナ語、そしてノルウェーのブークモール。これらはまだベータだが、これでサポート言語は計21になる。
オーディオの再生をデバイスの特性に合わせて最適化する機能もある。ささいな改良かもしれないが、音声で対話的に応答するコールセンターや、ヘッドセットを使うアプリケーションではありがたいだろう。
Cloud Speech-to-Textの方は、デベロッパーが複数のチャネル上のユーザーをサポートしなければならない状況(電話会議など)向けに、使いやすさが向上した。そのために同社は昨年、マルチチャネルの音声認識をベータで導入、そして今回それが、一般供用となった。
また、ビデオや高性能電話用のプレミアムのAIモデルも昨年ベータでローンチし、主に短いクエリや音声コマンド用のスタンダードモデルよりも書き起こしエラーが少なくなる、と約束された。この高性能AIモデルもやはり今回、一般供用となった。
新しい機能だけでなく、今回のアップデートではSpeech-to-Textの料金が値下げされた。Googleのdata-logging programに参加しているユーザーなら、ビデオを書き起こしするためのスタンダードとプレミアムのモデルの利用料が33%安くなる。ただしこの事業に参加すると、ユーザーデータがGoogleのモデルの訓練のために使われる。そのデータにアクセスするのは特定の社員のみで、プロダクトの訓練や改良以外の目的には使わない、とGoogleは約束しているが、どんなに安く使えてもそんなのは気持ち悪い、と思うユーザーもいるだろう。
でも、通常のプレミアムビデオモデルは、データロギングに参加しなくても今度から25%安くなる。前と同じく、最初の60分はやはり無料だ。