Google Slidesの解説ナレーションがリアルタイムで自動的に字幕表示される

GoogleのプレゼンテーションツールSlidesに、プレゼン中のリアルタイムの自動字幕というおもしろい機能が加わる。耳の不自由な人や、聴くより読んだ方がよく分かるという人には、とても便利だろう。

この新しい機能は、画面読み上げツールの改良や、Braille、Google Docs/Sheets/Slidesの拡大表示などを作った同社のアクセシビリティーチームの作品だ。この自動化字幕は社内のハッカソンで生まれ、それが今回からは、デフォルトの言語がアメリカ英語である人がChromeブラウザーを使ってる場合に利用できる。対応言語は今後徐々に増やしていく予定だ。

この機能はSlidesのナビゲーションボックスの“CC”ボタンを押すと使えるようになる。あとは、コンピューターのマイクロフォンに向かって、ふつうに話すだけだ。

これはアクセシビリティーの機能であるだけでなく、プレゼンのナレーションの書き起こしを作って、それを後で何かに利用するためにも使える。

なお、最近MicrosoftのTeamsにも、同様の字幕/書き起こし機能が加わった。GoogleとAWSとMicrosoftは、その音声書き起こし技術をAPIとして提供しているので、自分のアプリケーションにこの機能を組み込むデベロッパーも徐々に増えている。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa

GoogleのCloud Speech APIが大幅アップデート、対応言語が増え、言葉にタイムスタンプを付着

2016年にローンチしたGoogleのCloud Speech APIは、話された言葉をテキストに書き起こす。このAPIが今日(米国時間8/14)、大幅にアップデートされた。

中でもいちばんおもしろいのは、これまでの89言語に加えて新たに30の言語が加わったことだろう。ただしこれらの数字には、英語とスペイン語とアラビア語の地域的な変種が複数含まれている。今回新たに加わったのは、ベンガル語、ラトビ(ヴィ)ア語、スワヒリ語などで、Googleによると、それらを話す人は約10億人いる。

重要な新しい機能もいくつか加わった。たとえば、言葉にタイムスタンプが付くこと。これにより元の音声と書き起こしテキストに同じタイムスタンプが付くので、前者から後者、あるいはその逆の、対照ができる。書き起こされたテキストを見た人が、それらの実際の発音を知ることができる。また、このAPIを使って人間が介助する書き起こしや翻訳サービスをしているところは、仕事のスピードアップができる。このAPIを使って1分10セントでインタビューの書き起こしサービスを提供しているHappy Scribeの協同ファウンダーAndré Bastieはこう述べる: “タイムスタンプでオーディオをテキストにマップできるので、書き起こしの校正に要する時間が大幅に短縮できる”。

アップロードできるファイルの大きさは、これまでの80分から3時間になった。もっと長いクォーターも要求できる。

最初の60分は無料、そしてその後は、15秒ごとに0.6セント課金される。

関連記事(未訳)〕

〔新たに加わった言語:

  • Amharic (Ethiopia)
  • Armenian (Armenia)
  • Azerbaijani (Azerbaijani)
  • Bengali (Bangladesh, India)
  • English (Ghana, Kenya, Nigeria, Tanzania)
  • Georgian (Georgia)
  • Gujarati (India)
  • Javanese (Indonesia)
  • Kannada (India)
  • Khmer (Cambodian)
  • Lao (Laos)
  • Latvian (Latvia)
  • Malayalam (India)
  • Marathi (India)
  • Nepali (Nepal)
  • Sinhala (Sri Lanka)
  • Sundanese (Indonesia)
  • Swahili (Tanzania, Kenya)
  • Tamil (India, Singapore, Sri Lanka, Malaysia)
  • Telugu (India)
  • Urdu (Pakistan, India)

[原文へ]
(翻訳:iwatani(a.k.a. hiwa))

マイクロソフトの音声認識技術、「人間並み」に到達

whisper

マイクロソフトリサーチ(Microsoft Research)にとっては、おめでたい日となったことだろう。研究を続けてきた音声認識技術が、ついに人間レベルに到達したのだ。

具体的にいうならば単語誤り率(word error rate)が5.9%となったのだ。これはプロの口述筆記者と同じレベルとなる。すべてを完璧に聞き取るわけではないが、94%の正確性があれば、十分に会話についていくことができるのだ。

「これは20年間続けてきた研究の賜物です」と研究社のひとりであるGeoffrey Zweigはブログ記事の中で述べている。

The team at Microsoft's Speech & Dialog research group.

マイクロソフトのSpeech & Dialog研究グループ

音声認識の分野では、この10年間にわたって多くの技術系の大手企業や研究機関が競い合ってきた。ここ数年は、その実力も大いに向上してきているところだった。そして音声認識に(ご想像通り)ニューラルネットワークと機械学習の技術を組み合わせることで、新たな段階に達することとなったのだ。

「進化をもたらしたのは慎重なエンジニアリングと、Convolutional(畳み込み)とRecurrent(再帰)ニューラルネットワークの最適化である」と論文の中に記されている。「音響モデル(acoustic models)を進化させて、音響コンテクスト(acoustic context)の理解につなげることができたのです」。

認識システムの構築には、マイクロソフトがオープンソースで提供しているComputational Network Toolkitを利用しており、これが存分にその能力を発揮しているのだそうだ。

もちろん、5.9%という単語誤り率は最適な環境で実現されたものだ。ノイズの多い環境などでは、その性能は大きくおちることとなる。またアクセントの変化にも十分に対応することができないようだ。しかし、たとえばアクセントへの対応などは、トレーニング用のデータセットをニューラルネットワークに組み込むことで、比較的容易に対応することができるだろうとのこと。

マイクロソフトリサーチの研究社の方々にはおめでとうを伝えたい。しかしここがゴールというわけではないのだろう。コンピューターは、いくつかの分野では既に人間を上回る能力を示しつつある。きっと音声認識についても同様な成果を達成することとなるのだろう。ちなみに、大きく進化した音声認識ぎじゅつがコンシューマープロダクトに活かされる時期などについては、いまのところはまだ不明であるそうだ。

原文へ

(翻訳:Maeda, H