GoogleのCloud Speech APIが大幅アップデート、対応言語が増え、言葉にタイムスタンプを付着

2016年にローンチしたGoogleのCloud Speech APIは、話された言葉をテキストに書き起こす。このAPIが今日(米国時間8/14)、大幅にアップデートされた。

中でもいちばんおもしろいのは、これまでの89言語に加えて新たに30の言語が加わったことだろう。ただしこれらの数字には、英語とスペイン語とアラビア語の地域的な変種が複数含まれている。今回新たに加わったのは、ベンガル語、ラトビ(ヴィ)ア語、スワヒリ語などで、Googleによると、それらを話す人は約10億人いる。

重要な新しい機能もいくつか加わった。たとえば、言葉にタイムスタンプが付くこと。これにより元の音声と書き起こしテキストに同じタイムスタンプが付くので、前者から後者、あるいはその逆の、対照ができる。書き起こされたテキストを見た人が、それらの実際の発音を知ることができる。また、このAPIを使って人間が介助する書き起こしや翻訳サービスをしているところは、仕事のスピードアップができる。このAPIを使って1分10セントでインタビューの書き起こしサービスを提供しているHappy Scribeの協同ファウンダーAndré Bastieはこう述べる: “タイムスタンプでオーディオをテキストにマップできるので、書き起こしの校正に要する時間が大幅に短縮できる”。

アップロードできるファイルの大きさは、これまでの80分から3時間になった。もっと長いクォーターも要求できる。

最初の60分は無料、そしてその後は、15秒ごとに0.6セント課金される。

関連記事(未訳)〕

〔新たに加わった言語:

  • Amharic (Ethiopia)
  • Armenian (Armenia)
  • Azerbaijani (Azerbaijani)
  • Bengali (Bangladesh, India)
  • English (Ghana, Kenya, Nigeria, Tanzania)
  • Georgian (Georgia)
  • Gujarati (India)
  • Javanese (Indonesia)
  • Kannada (India)
  • Khmer (Cambodian)
  • Lao (Laos)
  • Latvian (Latvia)
  • Malayalam (India)
  • Marathi (India)
  • Nepali (Nepal)
  • Sinhala (Sri Lanka)
  • Sundanese (Indonesia)
  • Swahili (Tanzania, Kenya)
  • Tamil (India, Singapore, Sri Lanka, Malaysia)
  • Telugu (India)
  • Urdu (Pakistan, India)

[原文へ]
(翻訳:iwatani(a.k.a. hiwa))

投稿者:

TechCrunch Japan

TechCrunchは2005年にシリコンバレーでスタートし、スタートアップ企業の紹介やインターネットの新しいプロダクトのレビュー、そして業界の重要なニュースを扱うテクノロジーメディアとして成長してきました。現在、米国を始め、欧州、アジア地域のテクノロジー業界の話題をカバーしています。そして、米国では2010年9月に世界的なオンラインメディア企業のAOLの傘下となりその運営が続けられています。 日本では2006年6月から翻訳版となるTechCrunch Japanが産声を上げてスタートしています。その後、日本でのオリジナル記事の投稿やイベントなどを開催しています。なお、TechCrunch Japanも2011年4月1日より米国と同様に米AOLの日本法人AOLオンライン・ジャパンにより運営されています。