Google CloudのスピーチAPIが安くなりサポート言語も21に増えた

Googleが今日、Google Cloud上のSpeech-to-TextText-to-SpeechAPIをアップデートし、主にエンタープライズユーザーにとって関心があると思われるいくつかの新たな機能を導入するとともに、サポートする言語を拡大し、そして料金を下げた。〔正式名は、Cloud Speech-to-Text API、および、Cloud Text-to-Speech API。〕

力点はSpeech-to-Textの方に置かれているが、Text-to-Speechの方も31の新しいWaveNetと24の新しい標準音声が加わるなど、メジャーなアップデートであることに変わりはない。またサポートする言語は、以下の7つが増えた: デンマーク語、ポルトガル語、ロシア語、ポーランド語、スロバキア語、ウクライナ語、そしてノルウェーのブークモール。これらはまだベータだが、これでサポート言語は計21になる。

オーディオの再生をデバイスの特性に合わせて最適化する機能もある。ささいな改良かもしれないが、音声で対話的に応答するコールセンターや、ヘッドセットを使うアプリケーションではありがたいだろう。

Cloud Speech-to-Textの方は、デベロッパーが複数のチャネル上のユーザーをサポートしなければならない状況(電話会議など)向けに、使いやすさが向上した。そのために同社は昨年、マルチチャネルの音声認識をベータで導入、そして今回それが、一般供用となった。

また、ビデオや高性能電話用のプレミアムのAIモデルも昨年ベータでローンチし、主に短いクエリや音声コマンド用のスタンダードモデルよりも書き起こしエラーが少なくなる、と約束された。この高性能AIモデルもやはり今回、一般供用となった。

新しい機能だけでなく、今回のアップデートではSpeech-to-Textの料金が値下げされた。Googleのdata-logging programに参加しているユーザーなら、ビデオを書き起こしするためのスタンダードとプレミアムのモデルの利用料が33%安くなる。ただしこの事業に参加すると、ユーザーデータがGoogleのモデルの訓練のために使われる。そのデータにアクセスするのは特定の社員のみで、プロダクトの訓練や改良以外の目的には使わない、とGoogleは約束しているが、どんなに安く使えてもそんなのは気持ち悪い、と思うユーザーもいるだろう。

でも、通常のプレミアムビデオモデルは、データロギングに参加しなくても今度から25%安くなる。前と同じく、最初の60分はやはり無料だ。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa

投稿者:

TechCrunch Japan

TechCrunchは2005年にシリコンバレーでスタートし、スタートアップ企業の紹介やインターネットの新しいプロダクトのレビュー、そして業界の重要なニュースを扱うテクノロジーメディアとして成長してきました。現在、米国を始め、欧州、アジア地域のテクノロジー業界の話題をカバーしています。そして、米国では2010年9月に世界的なオンラインメディア企業のAOLの傘下となりその運営が続けられています。 日本では2006年6月から翻訳版となるTechCrunch Japanが産声を上げてスタートしています。その後、日本でのオリジナル記事の投稿やイベントなどを開催しています。なお、TechCrunch Japanも2011年4月1日より米国と同様に米AOLの日本法人AOLオンライン・ジャパンにより運営されています。