Moderator:Danny Sullivan(Founding Editor, Search Engine Land, @dannysullivan)
Speakers:Behshad Behzadi(Principal Engineer, Google Zurich, @BehshadBehzadi)
イントロダクション
自己紹介
10年間Googleで勤務。当初は検索(ランキング)の担当であったが、今は音声検索やNow on Tapなど、未来型の検索を担当している。Googleが今後検索をどのようにしていくか、本日はお話ししたいと思う。
映画の中のパースナルアシスタント
スタートレックの動画。200年後を描いており、機械に話しかけている。もう一つ、”her(邦題:世界でひとつの彼女)”では、20年後の世界を描いており、オペレーティングシステムに恋愛感情を抱く男性が主人公。
*デモをYouTubeで流した際、CMが流れてしまい、会場が笑いに包まれました。
Googleの進化
過去を見てみよう
1998年のGoogle検索は簡単なロジックであった。周りの人は”Googleって何をやっているの?”という感じだった。その後、検索は進化していく。
2002年の変化
同意語や類義語がクエリ内でどのような意味があるのか、を理解できるように。例えば、”CS”の場合。”phd cs admission in california”の場合は、”computer science”を指しており、”カルフォルニア州のコンピューター・サイエンスの博士号”というクエリになる。他のクエリでは、”central station(中央駅)”や”cerebrospinal(脳脊髄)”と解釈される場合もある。非常に大きな変化だ。
2007年の変化
ユニバーサル検索が登場。異なるタイプ(ファイル)を検索結果に表示するように。
2012年から現在にかけての変化
ナレッジグラフが登場。モノゴトをモノゴトとして理解する。目標はGoogleが実際の世界を理解すること。20億のエンティティ、540億の事実、3万8千のタイプがあり、その数は増え続けている。政治家、音楽アルバム、大学、テレビ俳優など、これらのエンティティが、それぞれ、どのように関連しているのか?
これからの検索
次に起こること
世界は変化し続けている。世界はモバイルになっている。2015年にモバイル検索はデスクトップ検索を上回った。未来にむけて何かを作りたいのであれば、モバイルで何かを作らなければならない。
未来のデバイスはモバイルだ
時計や車などのさまざまなデバイス。Internet of Thingsで、すべての物事が結び付けられる。
モバイルでは音声を使用する
音声入力の方が簡単であり、音声が唯一の入力方法であるという場合もある。現在の音声認識のエラー率は8%。インタラクション(デバイスとの関わり方)の方法を再構築している。運転中、料理中など。また、音声検索は”普通”になっている。昔は機械に向かって話しかけると変に見られていた。
その結果
人々は”検索クエリ”ではなく、”普通の話し言葉”を使うようになっている。”天気 パリ”ではなく、”パリの天気はどう?”といった具合に。”おはよう、今日の天気は?”と機械に向かって話しかけている。
モバイルでは
人々は、アプリとWebの両方で答えを探している。
検索の未来は?
“究極のアシスタント(Ultimate Assistant)”、となること。そのためには、”世界”、”あなたとあなたの周りの世界”、”コンテキスト”、の理解が必要となる。”究極のアシスタント”は、いつでも、どこでも、その場所にいなければならず、あなたが何かを行う手助けをしなければならない。
音声検索のデモ
*ここからはベザディ氏が実際に行った音声検索のデモの一部を紹介します。音声を聞きながらメモしたので、ところどころ不十分なところがあるかもしれませんが、一連の流れは大体お分かりいただけると思います。ベザディ氏が問いかける質問に、スムーズに、正確に答えていました。
世界についての例
・マジックマウンテン(遊園地)のライド(ジェットコースター)のリストをちょうだい。
→スーパーマン(マジックマウンテンのライド)の最高時速は?
・バルセロナの最後のチャンピオンズリーグのスコアは?
アシスタントのデモ
・僕が泊まるホテルの場所は?
→僕の次のフライトはいつ?
→僕の職場の住所は?
・ダニーからのメールを見せて。(Gメールにはありません、という返答で会場が笑いに包まれました。)
→SMXについてのメール見せて。(再度Gメールにはないという返答で、会場大爆笑。)
・僕のイルカの写真を見せて。(自分の携帯でとった写真からイルカの写真が表示)
→ブルファイティングの写真を見せて。
→ギネスの写真を見せて。
アクションのデモ
・カスカールレストランに電話して。(地図と電話番号の検索結果)
→カスカールに金曜日の〇〇時に予約して。(オープンテーブルが開く)
→カスカールまでの経路は?(マップが表示)
アプリのデモ
・ワッツアップ(メッセージアプリ)でメッセージを送りたい。
→これを送る?修正する?(Googleからの返答)
→送って。(メッセージが送信される。)
・”I feel Good”を再生して。
→音楽流すね。
→James Brownの音楽が流れる。
・クジラの写真を見せて(クジラの写真が表示)
→ W・H・A・L・E・Sと一文字毎に発音。(ちゃんとクジラの写真を表示)
会話中のコンテキストのデモ
・ジョニーの写真を見せて。(ジョニーデップの写真が表示)
→SFジャイアンツのロスター、と検索。(選手のリスト、その中にジョニーがいる。)
→ジョニーの写真見せて。(ジャイアンツのジョニーの写真を表示)
・Cuit Towerはどこ?(場所を表示)
→写真が見たい。(写真が表示)
→高さは?(高さを表示)
→誰が作った?(建築者の情報が表示)
→いつ?(建てられた年数を表示)
→営業時間は?(営業時間を表示)
→その辺のレストランを教えて。(レストランの情報を表示)
→イタリアンはどう?(イタリアンレストランのみの検索結果)
→でも、フレンチが好きなんだよね。(フレンチレストランのみの検索結果)
→ふたつ目のとこに電話して。(電話をかける)
Now On Tapのデモ
・Viberの例。
→車など色々なカードが表示。カレンダーにはリマインドが。
→レストランのカードをクリック。オープンテーブルが表示。
→複数の予約時間が表示。一個を選択、そこの画面が表示。
→店内の写真が360度で見られる。ぐるぐる動く。
*チャットの会話の内容を理解しており、質問の内容を理解している。
ロケーションの理解のデモ
→ここで上映されている映画は?(映画館の前で検索)
→メニューを表示して。(とあるレストランの前で検索)
→このビルの建築様式はなに?(とある建物の前で検索)
→ここのホテルのプールを見せて。(とあるホテルの前で検索)
*こちらは、Googleが作成した音声検索のデモ動画の内容です。ハリウッドを旅行している女性が、様々な場所で音声検索を利用するという、内容でした。
まとめと検索の未来
デモのまとめ
- 世界について答える
- あなたの周りの世界について答える
- 検索とアプリの統合
- 物事を実行するアクション
- 音声認識のためのコンテキスト
- 修正する技術
- ”以前発した言葉”、”画面上に映っているもの”、”あなたがいる場所”、のコンテキスト
- NowとNow On Tap
究極のアシスタントは映画の中の世界なのか?
どんどん現実味を帯びてきている。そして、テクノロジーはこの方向に進んでいる。
検索の未来
あなたの日々の生活を手助けする、究極のモバイルアシスタント。これにより、あなたは、自身にとって大事な物事だけに、フォーカスできるようになる。
Q&A
会話はあまりデスクトップでは使われてない。
インタラクションの方法が違うから。デスクトップではテキストがメイン。しかし、検索と答えの提供という形は変わらず、バックエンドのエンジンは一緒。答えの提供能力は変わらない。
パーソナルインフォメーション
アプリの統合。多くのアプリがAppIndexに対応している。どんどん使えるようになっている。より多くのアプリが統合されていくことは間違いない。
デスクトップでは、よりリサーチ的な検索が多い
そのため、音声検索はあまり向いていない。
iPhoneを使用しているユーザーも多い
Apple製の電話は素晴らしい電話だ。我々は全てのユーザーにリーチしたいと思っている。本日紹介したデモの内容の内、80%はiPhoneでも実現できるだろう。
言語による違いは?
なにか新しいテストをする上では、英語が一番わかり易い。しかし言語の依存はない。どの言語でも、同程度のクオリティだと信じている。
音声検索とマネタイズ
検索とセールスとは完全に違うチームなので、僕にはわからない。検索チームの好きなとこは、マネタイズを考えなくてよいところだ。しかし、マネタイズが可能であるものはマネタイズすべきだと思うよ。
Eコマース。ショッピングと音声検索
音声ショッピングにとりかかっている。もうちょっと安いのが買いたい、近くのショップが知りたい、などの機能を追加したい。
音声検索用のWebサイトの最適化について
最適化についてはあまり変更はない。会話のように話しても、それが天気についてということに変わりはない。つまり、良いコンテンツということが最適だ。
評価については変化がある?ベストレストランなど。
ランキングでアルゴリズムがどこがベストかを表示しようとしている。評価は信頼性の獲得のために重要。色々なシグナルがあるけど。