YouTubeが[笑い]も自動キャプション―機械学習で3種の環境音を認識

YouTubeはずっと前から自動キャプションシステムをサポートしている。 近年目覚ましい進歩を遂げたGoogleの機械学習テクノロジーのおかげで、自然言語の音声認識の精度は非常に高くなった。自動キャプションは驚くほど正確にビデオに発言の字幕を作ってくれる。

Googleの今日の発表によれば、自動キャプションシステムはさらに改良され、環境音を認識して[笑い]、[喝采]、[音楽]( [LAUGHTER]、 [APPLAUSE]、 [MUSIC])と字幕をつけるようになったという。

当面、システムが自動的にキャプション化してくれるのは上に挙げた3種類だ。この点について Googleは「この3種類のサウンドは多くのビデオの制作者がマニュアルでキャプション化しているからだ」と説明している。

Googleのエンジニア、Sourish Chaudhuriは今日の発表でこう説明している。「背景音自体はもちろんきわめて多彩だ。しかし〔新たにサポートされた〕3種類の環境音は文脈的な曖昧さが少ない。これに対しして例えば何かが鳴った場合に[RING]とキャプションすると視聴者はすぐに『何が鳴ったのだろう? ベル? アラーム? 電話?』と疑問を抱いてしまう」。

ただYouTubeにこうして環境音のキャプションシステムが導入されたので、今後Googleが対象となる音の種類を増やすのは比較的簡単だろうと予測される。

システムレベルでみると、YouTubeのサウンド・キャプションはGoogleのディープ・ニューラルネットワークを弱いラベル付けをしたデータで訓練した結果を用いている。新しいビデオがアップロードされるつどYouTubeのシステムはサウンドを認識しようと試みる。このシステムについてさらに詳しく知りたい場合は(Viterbiアルゴリズムを用いているという)、 Googleのブログ記事を参照のこと。

画像:ERIC PIERMONT/Getty Images

[原文へ]

(翻訳:滑川海彦@Facebook Google+