今朝、GoogleはデータビジュアライゼーションツールEmbedding Projectorをオープンソース化すると発表した。このツールは機械学習の研究者がTensorFlowをインストールして走らせなくとも、データを可視化するためのツールだ。
次元やベクトルといった概念は、誰もが簡単に理解できるものではないだろう。問題は私たちが3次元の世界に生きていることだ。私たちは縦、横、高さがあると知っているため、4次元、5次元、6次元がどのようなものか想像するのが難しい。クリストファー・ノーランのインターステラーに登場した多次元の世界が奇妙に思えるのはそのためだ。
次元を私たちがいる世界のことと考えるのではなく、データだけについて考えてみよう。例えば、2つの家を比べると場合を考えてみてほしい。比較するために、それぞれの家の異なる点のリストを作成するだろう。リストには色、広さ、屋根の種類、庭の形の項目があるとする。このデータは4次元モデルで表すことができる。
データを表にすることができるが、絵で表すこともできる。それにはベクトルが必要だ。2つの家を比較するシンプルな4次元モデルなら、PowerPointのX軸Y軸とバブルの大きさ、色を使って作成することができるだろう。
ただ何千と次元のある複雑なモデルでは、既存のツールで描くのは難しい。そこでGoogleのEmbedding Projectorの出番となる。
SpotifyのDiscover Weekly機能を使ったことがあるなら、気づかずにEmbeddingsを体験している。高度な機械学習では、曲の属性をベクトルの地図で表すことができる。すべての楽曲を地図化し、個別リスナーの好みと照らし合わせることで、個人に合わせて正確な楽曲のレコメンドができるのだ。これはさすがにPowerPointではできない。
[原文へ]
(翻訳:Nozomi Okuma /Website)