YouTubeが[笑い]も自動キャプション―機械学習で3種の環境音を認識

YouTubeはずっと前から自動キャプションシステムをサポートしている。 近年目覚ましい進歩を遂げたGoogleの機械学習テクノロジーのおかげで、自然言語の音声認識の精度は非常に高くなった。自動キャプションは驚くほど正確にビデオに発言の字幕を作ってくれる。

Googleの今日の発表によれば、自動キャプションシステムはさらに改良され、環境音を認識して[笑い]、[喝采]、[音楽]( [LAUGHTER]、 [APPLAUSE]、 [MUSIC])と字幕をつけるようになったという。

当面、システムが自動的にキャプション化してくれるのは上に挙げた3種類だ。この点について Googleは「この3種類のサウンドは多くのビデオの制作者がマニュアルでキャプション化しているからだ」と説明している。

Googleのエンジニア、Sourish Chaudhuriは今日の発表でこう説明している。「背景音自体はもちろんきわめて多彩だ。しかし〔新たにサポートされた〕3種類の環境音は文脈的な曖昧さが少ない。これに対しして例えば何かが鳴った場合に[RING]とキャプションすると視聴者はすぐに『何が鳴ったのだろう? ベル? アラーム? 電話?』と疑問を抱いてしまう」。

ただYouTubeにこうして環境音のキャプションシステムが導入されたので、今後Googleが対象となる音の種類を増やすのは比較的簡単だろうと予測される。

システムレベルでみると、YouTubeのサウンド・キャプションはGoogleのディープ・ニューラルネットワークを弱いラベル付けをしたデータで訓練した結果を用いている。新しいビデオがアップロードされるつどYouTubeのシステムはサウンドを認識しようと試みる。このシステムについてさらに詳しく知りたい場合は(Viterbiアルゴリズムを用いているという)、 Googleのブログ記事を参照のこと。

画像:ERIC PIERMONT/Getty Images

[原文へ]

(翻訳:滑川海彦@Facebook Google+

MicrosoftのiOSアプリ“Fetch!”はあなたの犬の(そしてあなた自身の!)犬種を当てる

fetch

【抄訳】
Microsoftの新しい画像認識ソフトですら、私の犬の犬種は分からない。でも、それはしょうがない。しかし、あなたの犬が殺処分施設から救ってきた雑種犬でなければ、最新のMicrosoft Garageプロジェクト: Fetch!を楽しめるかもしれない。このiPhoneアプリは、犬の写真を見てその犬種を当てる。正確に当てられないときは、至近の犬種である確率のパーセンテージを出す。

そう、今あなたが思ったとおり、犬でなくて人間でもよい。

このアプリは、機械学習で何ができるかを、おもしろく見せる、というシリーズのひとつだ。今回のは、画像を見て、その内容に関する何らかの判断をする。人間が自然に行う直感的判断のようなものを、マシンは教えられること(“学習”)によって身に付ける。

[100%の確率でボーダーコリーです]
Screen Shot 2016-02-12 at 10.29.29 AM

 

Fetchでも分かるように、その学習過程は相当難しい。人間はいくつかの断片的な情報から、これまでに知った/学んだことに基づいて、その場で犬種などを当てることができる。しかしマシンは、正しい画像と犬種に関する専門的データとマシンインテリジェンスを組み合わせて、教えてやる必要がある。

このアプリの場合は、ディープニューラルネットワーク(deep neural networks)と呼ばれる機械学習のテクニックを使っている。

“…Microsoftはこのような分野ではとても進んでいる。互いによく似ている犬種でも見分けるし、同じ犬種の色違いにも対応できる。そのほか、犬種ごとの細かい違いが分かるのだ”、と、イギリスケンブリッジのMicrosoft Researchでこの犬種プロジェクトを作ったチームのディレクターMitch Goldbergが説明する。

“ディープニューラルネットワークのいいところは、あとから加えた新しい犬種を、新しい犬種だと理解できることだ。それはとても難しい問題なんだけどね”。〔通常のNNは、すでに学習済みの何かにマッチさせようとする。〕

というかFetchは、機械学習の難しさを一般のユーザーに分かってもらうためにMicrosoftが作った一連のプロジェクトの一つなのだ。

たとえば昨年Microsoftは、人間の写真からその人の年齢を推測するサイトを作った。結果は、Fetchと同じく、当たったり当たらなかったり。

さらに同社は、感情を識別する機械学習ツールに取り組んでいるし、

顔にヒゲをはやして行う資金募集キャンペーン”Movember”を賛助するMyMoustacheプロジェクトも作った。それは、同じような技術で顔面のヒゲ率を判断する。

それに、二人の人間が双子かどうかを判断するサイトも作った。

でも、今回の犬種アプリもおもしろい。うまく当たれば!

 

【中略】

このアプリに友だちの顔を見せると、その人に似た犬種を当てようとする。それらは、けっこう当たってる、と言える!?:

[アイリッシュウォータースパニエル]
1-Fun-Home-Result-1000px

 

ヒラリー・クリントンを、ウェストハイランドホワイトテリヤ、と判断した:

 

【中略】

私自身はマルチーズと判断され、まあそれは許せるけど、わが家の体重49ポンドの雑種犬がチワワはないよねぇ:

[91%の確率でチワワです]
IMG_3021

 

マシンたちよ、もっと勉強しないとダメだぞー。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa