目の画像だけからVR体験中のユーザーの気分や感情を判断するディープラーニング技術

[↑幸せ: 確率0.90]

目を見れば、それが本当の笑いか分かる、とよく言われる。もちろんその言葉は、私たち人間には、偽(にせ)笑いという、生得ではなく学習によって身につけるスキルがあることを、意味しているにすぎない。でも、人間の眼球に微妙な表現力があることが、役に立つこともある。VRの研究者たちが、目の画像だけから表情全体を推測する技術を編み出したのだ。

Google Researchが発表したその、おもしろい小さなプロジェクトは、VRヘッドセットを装着した人間の目だけを見て、表情を判断する。開かれた目の形、視線の方向、まぶたの状態、目尻の皺(がある人の場合)などなどを総合すると、実は相当大量の情報がそこにはあるのだ。

[↓無感情: 確率0.91]

ディープラーニングのシステムにとっては、いくつかのベーシックな表情と、その程度・度合いを表す測度があれば十分だ。たとえばそこには、“幸せ(Happiness)”や“驚き(Surprise)”があるだろう。ベーシックとは言えない“schadenfreude”(ひとの不幸を喜ぶ)や“mischief”(おちゃめ)などは、もっと学習しないとだめだけど。

もちろん実用化のためには、ヘッドセットの中にアイトラッキングのカメラが必要だ。そうすれば、ユーザーの今の気持ちや感情がリアルタイムで分かるようになる。

この研究を記したペーパーもあるし、それを近く開催されるSIGGRAPHで見ることもできる。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa))

GoogleのAIが初期のCasioのシンセに匹敵する音とメロディーを作り出す

burning-man-piano

それは1989年だった。親たちはベルリンの壁が取り壊されるのを見ていたが、あなたは二階の自分の部屋でCasio SA-1の電池を交換し、コンサートに備えていた。それが叩き出すビートは熱い。あなたはデモ曲“Wake me up before you go-go”聴き、自分もやる気むんむんとなる。100種類ある音色の02番、”HONKY-TONK PIANO”を選ぶ。そのプラスチック製の象牙(鍵盤)をまさぐり、気分は絶好調。さあ、行くぜ!

しかし、ここまで^

悪くないね、そう思わない? でもこいつは、当時7歳の練習熱心な子の迷演ではなくて、人工知能が作ったオリジナル曲だ。そのAIを作ったのはGoogle ResearchというかGoogle Brainの連中。すでに記事のタイトルにあるから、驚かなかったと思うが、タイトルを飛ばしていきなり本文を読んだ人は、どうだったかな? ( )。

これは、“マシンインテリジェンスに音楽やアートの高度な生成能力を持たせるための研究プロジェクト”Magentaの、最初の公開出力だ。プロジェクトのサイエンティストの一人Douglas Eckによると、機械学習は発話認識(speech recognition)のような比較的単純明快なタスクではかなり進歩してきたが、でもそれは、たとえば、音の並びが音楽と呼べるためには何がどうあるべきか、を学習できるだろうか? あるいは、アートとして鑑賞できる色や言葉の並びを? へんてこな詩(PDF)を作ったことは、あったけど。

“発話認識や、翻訳、画像アノテーション〔タグ付けなど〕などでうまくいったやり方を基盤として、アートや音楽を創造できるすばらしいツールを作れる、と信じている”、とEckは書いている。

クリエイティブなワークは何でもそうだが、Magentaもまず必要なのは練習、そしてフィードバックだ。そのためGoogleは、クリエイティブとプログラミングの両方の分野に、コミュニティへの参加を呼びかけている。コードのチェックや、データの供給などのためだ。このプロジェクトはGitHubに置かれ、Google自身のオープンソースの機械学習プラットホームTensorFlowも利用できる。あなた自身の、フォークを作ってみよう。

研究者たちが初めて、コンピューターに作曲をさせてみたのは、もうかなり昔の話だ(数十年前)。でもGoogle Researchの潤沢なリソースと頭脳があれば、Magentaはもう一歩二歩進んだ結果を見せてくれるかもしれない。

このプロジェクトの今後の進捗は、Magentaのブログでチェックできる。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa))

複雑な画像のキャプション(説明文)を自動生成するシステムをGoogleが研究開発中

画像認識技術はここ数年で長足の進歩を遂げ、中でもGoogleはその進歩の成果の一部をエンドユーザーにも提供している。どれぐらい進歩したかを知るためには、たとえばGoogle Photosで自分の画像を検索してみるとよいだろう。でも、物や情景を認識することは、最初の一歩にすぎない。

9月にGoogleは、今や人気のディープラーニング(deep learning, 深い学習)手法を使った同社のやり方が、単一の物の画像を認識するだけでなく、一枚の画像中のさまざまな物(果物籠にいろんな種類の果物がある、など)を分類できることを、みんなに見せた

それができたら次は、画像を自然言語で説明することに挑戦したくなるだろう。Googleはそれを、今トライしている。Google Researchのペーパー(小論文)によると、写真に下の例のようなかなり長い説明文をつけられるように、自分自身を教えるシステムを開発した。今すでにそれは、相当正確だそうだ。

Googleの研究者たちが述べているところによると、この問題への典型的なアプローチはまずコンピュータヴィジョンのアルゴリズムに仕事をさせ、その結果を自然言語処理に渡して説明文を作らせる。それで十分なようだが、しかし研究者たちは、“最新のコンピュータヴィジョン技術と言語モデルを一体化した単一のシステムを訓練して、画像を与えると人間可読な説明文を直接作り出す方がよい”、と言っている。Googleによると、このやり方は二つの再帰型ニューラルネットワーク(recurrent neural network, RNN)を組み合わせた機械翻訳で有効だった。翻訳と写真のキャプション付けはちょっと違うが、基本的なやり方は同じだ。

Googleのやり方が完璧、という意味ではない。機械翻訳のクォリティを人間による翻訳と比較する指数BLEUスコアでは、コンピュータが作ったキャプションは27〜59点ぐらいのあいだだ。人間は69点ぐらいになる。でも、25点に達しないほかのやり方に比べると、大きな進歩だけど。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa))