グーグルやユーチューブで動画を検索するとき、動画の内容ではなく、テキストを基に動画が結果にリストアップされている可能性が高い。当該の検索アルゴリズムは、動画のタイトル、そして、動画をアップロードした人物が入力した説明文およびタグに注目しているのだろう。しかし、動画の注釈もまた、動画が関連する用語やフレーズを特定する上で重要な役割を果たしていると考えられている。
例えば、以下の動画はグーグルの新しいレシピ検索のオプションを告知しており、新しい機能に関する詳細を提供している。しかし、動画に付随するテキストは、加えられた機能の詳細を説明する人物が、グーグルの料理長 スコット・ジアムバスティーニ氏だと言う事実にどれも言及していない。 [Google executive chef]を検索すると、ユーチューブの検索結果にはこの動画は表示されない。しかし、現実には表示してもらいたいところだ。
また、動画が検索結果でランキングされる上で、閲覧数、コメントの本数、そして、評価するの数、プレイリストに加えられる頻度等、その他の要素も鍵を握っているだろう。
動画に関連するテキストのコンテンツのみに依存すると問題が生じる。まず、説明文が、数多くのシーンや様々な内容を含む長い動画をうまく説明することが出来ていない問題が考えられる。また、多数の動画を持つサイトで、クエリに応じて返される結果の数が、多数に上る可能性があることも問題の一つである。
検索エンジンは、最初のフレームから得たスクリーンショットを表示するものの、中心となるフレームや動画の最後のフレームの方が、クエリに最適な動画を特定する上で役に立つ可能性があり、当該のサムネイルが動画のコンテンツを適切に描写しているとは言いきれない。
このような問題は、すべて動画の実際のコンテンツを無視していると言う共通点を持つ。それでは、検索エンジンが実際の音声およびビジュアルコンテンツを使って、関連する検索用語を判断することが出来たとしたらどうだろうか?
検索エンジンが、多数の動画のフレームとフレームに関連するキーワードのキーワードの関連スコアを記録するインデックスを動画から作成してくれたら、動画の内容を容易に理解することが出来るようになるのではないだろうか。
このようなフレームは、それぞれの動画の画像や音声に含まれているアイテムを基にキーワードに関連付けられると考えられる。また、グーグルは、動画の最初、中間、または最後のフレームを選ぶ代わりに、フレームのイメージをサムネイルとして使い、検索結果に表示することもあり得る。
過去にグーグルが公表した特許には、検索エンジンが、動画内の特定のキーワードに関連する画像と音声を特定し、そして、インデックスすることで、動画のインデックスを改善する仕組みが描かれている:
関連性を基にした画像の選択
考案: Gal Chechik、Samy Bengio
委託先: Google
米国特許申請番号 20110047163
付与日: 2011年2月24日
申請日: 2009年8月24日
概要
動画の検索結果をユーザーが入力したキーワードのクエリに応じて表示するシステム、コンピュータが読める記憶媒体、そして、コンピュータ実装メソッド。動画のホスティングシステムは、機械の学習プロセスを用いて、ラベル付きのトレーニングデータセットからメディアコンテンツの特徴をコンテンツのキーワードの記述を関連付ける主要なキーワードのモデルを学ぶ。
このシステムは、学習したモデルを使って、動画で見つかった特徴を基に、キーワードのクエリに関連する動画の検索結果を提供する。さらに、このシステムは、学習したモデルを用いて、動画を表す1つないし複数のサムネイルの画像を特定し、表示する。
グーグルの従業員が綴った複数のホワイトペーパーにも、動画インデックスの今後の展開が示唆されている:
- ランキングを介したイメージの類似性の大規模なオンラインの学習
- 聴覚スパースコードの値を用いた音のランキング
- テキストクエリからの大規模なコンテンツベースの音声検索
- 大規模な画像の注釈付け: 単語-画像結合型の埋め込みを用いて格付けを学習(pdf)
- 潜在的なサブタグを用いたYouTubeの動画での特徴的なタグの学習
特許で描かれているシステムは、動画の注釈インデックスに依存して、検索者が探している動画、もしくはクエリに関連する可能性がある動画の一部を見つける支援を行う。
例えば、海で泳ぐイルカのシーンまたは画像を含む動画は、「イルカ」、「泳ぐ」、「海」等のキーワードで当該の動画の一部にラベルを貼っている可能性がある。
動画の一部をクエリに対して格付けする際に役に立ちそうな方法が多数この特許には掲載されている。
クリックスルーのデータは、キーワードが特定の動画にとって適切かどうかを判断する際に役に立つと考えられている。クエリに対する同じサムネイルの画像が、多くの検索者によって選ばれると言うことは、クエリの用語と動画との関連性の高さを裏付けていると言っても過言ではないだろう。
動画の画像と音声、そして、関連するメタデータを持つストック画像および音声クリップを含む、ラベルが貼られたトレーニングデータセットの間の類似性の検索は、ラベルが貼られていない画像と音声を特定する上で役に立つかもしれない。グーグルによる類似性検索の例は、グーグルの類似イメージ検索で確認することが出来る。
この特許および先程紹介したホワイトペーパーは、動画の画像と音声をキーワードと一致させるために使われるラベルを用いて関連付けを行う類似性検索を支えるテクノロジーをもっと詳しく説明している。
タイトルやデスクリプション等の動画に関連するメタデータが、継続的に検索エンジンに用いられる一方で、動画の内容の付加的なデータが、動画の検索結果を大幅に改善する可能性はある。
また、ユーチューブの動画でグーグルの料理長が特集されている場合、料理長を容易に見つけることが出来るようになるだろう。
この記事は、SEO by the Seaに掲載された「How a Search Engine Might Rank Videos Based Upon Video Content」を翻訳した内容です。