YouTubeが[笑い]も自動キャプション―機械学習で3種の環境音を認識

YouTubeはずっと前から自動キャプションシステムをサポートしている。 近年目覚ましい進歩を遂げたGoogleの機械学習テクノロジーのおかげで、自然言語の音声認識の精度は非常に高くなった。自動キャプションは驚くほど正確にビデオに発言の字幕を作ってくれる。

Googleの今日の発表によれば、自動キャプションシステムはさらに改良され、環境音を認識して[笑い]、[喝采]、[音楽]( [LAUGHTER]、 [APPLAUSE]、 [MUSIC])と字幕をつけるようになったという。

当面、システムが自動的にキャプション化してくれるのは上に挙げた3種類だ。この点について Googleは「この3種類のサウンドは多くのビデオの制作者がマニュアルでキャプション化しているからだ」と説明している。

Googleのエンジニア、Sourish Chaudhuriは今日の発表でこう説明している。「背景音自体はもちろんきわめて多彩だ。しかし〔新たにサポートされた〕3種類の環境音は文脈的な曖昧さが少ない。これに対しして例えば何かが鳴った場合に[RING]とキャプションすると視聴者はすぐに『何が鳴ったのだろう? ベル? アラーム? 電話?』と疑問を抱いてしまう」。

ただYouTubeにこうして環境音のキャプションシステムが導入されたので、今後Googleが対象となる音の種類を増やすのは比較的簡単だろうと予測される。

システムレベルでみると、YouTubeのサウンド・キャプションはGoogleのディープ・ニューラルネットワークを弱いラベル付けをしたデータで訓練した結果を用いている。新しいビデオがアップロードされるつどYouTubeのシステムはサウンドを認識しようと試みる。このシステムについてさらに詳しく知りたい場合は(Viterbiアルゴリズムを用いているという)、 Googleのブログ記事を参照のこと。

画像:ERIC PIERMONT/Getty Images

[原文へ]

(翻訳:滑川海彦@Facebook Google+

投稿者:

TechCrunch Japan

TechCrunchは2005年にシリコンバレーでスタートし、スタートアップ企業の紹介やインターネットの新しいプロダクトのレビュー、そして業界の重要なニュースを扱うテクノロジーメディアとして成長してきました。現在、米国を始め、欧州、アジア地域のテクノロジー業界の話題をカバーしています。そして、米国では2010年9月に世界的なオンラインメディア企業のAOLの傘下となりその運営が続けられています。 日本では2006年6月から翻訳版となるTechCrunch Japanが産声を上げてスタートしています。その後、日本でのオリジナル記事の投稿やイベントなどを開催しています。なお、TechCrunch Japanも2011年4月1日より米国と同様に米AOLの日本法人AOLオンライン・ジャパンにより運営されています。