ビデオ中のモノと音の関係を自動的に把握するAIシステム

902d9921-2a12-4436-a2de-9d8950b893d7_1-e69384d6cc1a0a85503d32bf1b2dd7a2

Disney Researchの新研究についての情報が入ってきた。ビデオに登場するさまざまなオブジェクト(牛、車、小さな石など)と、そのオブジェクトが発する音(「モー」とか「ブルンブルンッ」など)を自動的に結びつけるというものだ。目的の音以外はノイズとして無視する。あるオブジェクトが発する特定の音のみを記録して、サウンドエフェクトとしても利用できるようになるわけだ。

このシステムの素晴らしいところは、ビデオを流せば自動でオブジェクト+音の結びつきを把握するところだ。茶色と白の大きなモノが、いつもうめくような音を出していたとしよう。AIがそれを認識して、茶色と白の一定の大きさのオブジェクトは同様な音を発するものであると認識するのだ。

「さまざまな音声入りのビデオから、オブジェクトと音のつながりを学習していくことができるのです」と、Disney Researchでリサーチアソシエイトを務めるJean-Charles Bazinが言っている。「ビデオカメラで映像と音を記録すれば、基本的にはそれらがすべて学習教材として利用できるようになるのです」。

大した技術ではないと思う人もいるかもしれない。しかし実は特定のオブジェクトと音を結びつけて把握するのは、それほど易しいことではないのだ。Disney Researchが開発したシステムではビープ音や動作音、あるいはクラクションのような音を、音を発したオブジェクトと自動的に結びつけて把握するのだ。

「ビデオ映像から流れてくる音を特定の物体と結びつけるのは、かなり難しいことなのです」とDisney ResearchのバイスプレジデントであるMarkus Grossも言っている。「特定の音にのみ注目する仕組みを作り出し、コンピュータービジョンを活用する応用分野に新たな可能性を開いたと言えます」。

「車を扱ったビデオがあり、そこにエンジン音も収められているとしましょう。同じ音がいつも聞こえてくるのなら、システムはその音が車と結びついたものであると判断します」とBazinは説明する。「ビデオには、いつも聞こえてくるわけではない音も収められているでしょう。あるビデオでは聞こえるものの、他では聞こえないような音があった場合、それはノイズであると判断して排除するような判断を行なっているのです」。

このプロジェクトはまだ始まったばかりのものであるとのこと。しかしたとえばビデオに登場するものに自動的にサウンドエフェクトを加えるような仕組みも、間もなく登場してくるのかもしれない。映画スタジオにおいても利用できるようになるかもしれないし、またピクチャーブックなどにも新しい可能性を与えられるかもしれない。Disney Researchの研究レポートはこちらから入手できる。

原文へ

(翻訳:Maeda, H