Computer Vision | SEO-LPO.net

コンピュータービジョンを利用して製品写真を重要な属性へと分解するGlisten

今日この時代になっても、新しい服を探すための最善の方法が、いくつかのチェックボックスをクリックして、果てしなく続く写真をスクロールしていくやり方だというのには驚かされる。どうして「グリーンの模様のスクープネックドレス」と検索して、結果をみることができないのだろうか？ Glistenは、まさにこの課題を解決しようとしているスタートアップだ。その技術はコンピュータービジョンを使用してどんな写真からでも、写っている製品の最も重要な属性を理解して抜き出すことができる。

えっ、そんな機能もうあるのではと思ったかもしれない。ある意味それは正しいが、それほど役に立っているとは言えない。共同創業者のSarah Wooders（サラ・ウッダース）氏は、MITに通い自分のファッション検索プロジェクトに取り組んでいる最中に、この問題に遭遇した。

「オンラインショッピングを先延ばしにしていた私は、そのときVネックのクロップシャツを探していたのですが、まず見つかったのは2着だけでした。しかし、ずっとスクロールしていくと、さらに20着ほど見つかりました」と彼女は言う。「そのとき私は商品が極めて一貫性のない方法でタグ付けされていることに気づきました。消費者が見るデータが非常に煩雑な場合、おそらくその裏側はもっと悪い状況になっています」。

明らかになっているように、コンピュータビジョンシステムは、犬種の識別から表情の認識まで、あらゆる種類の画像の特徴を非常に効果的に識別するように訓練されてきている。ファッションやその他の比較的複雑な製品に関しても、似たようなことを行うことができる。画像を見て、信頼レベルを付加された属性のリストを生成することが可能なのだ。

そのため、特定の画像に対して、次のようなタグリストが生成できる。

想像できるとおり、これは実際とても便利だ。しかし、それはまだ多くの望ましい結果を置き去りにしたままなのだ。システムは「maroon」（栗色）や「sleeve」（袖）が、この画像に存在していることは認識しているが、それが実際に何を意味するのかは理解していない。システムにシャツの色をたずねてみても、人間が属性のリストを手作業で整理して、タグのうち2つは色の名前、これらはスタイルの名前、そしてこちらはスタイルのバリエーションのことといった具合に教えてやらない限り、システムはうまく答えることはできないだろう。

1つの画像だけならそうした作業を手で行うのは難しくないものの、衣料品の小売業者は膨大な製品を扱い、それぞれに複数の写真が関連し、毎週新しいものが入荷してくる状況なのだ。そうしたタグをコピー&ペーストで延々と整理し続けるインターンに、あなたはなりたいだろうか？　そんなことはまっぴらだろうし、実際誰もやろうとはしないだろう。この点こそが、Glistenが解決しようとしている問題だ。コンピュータービジョンエンジンのコンテキスト認識を大幅に向上させて、その出力をはるかに便利にするのだ。

同じ画像をGlistenのシステムで処理すると、以下のような結果になるだろう。

ずいぶん改善されていないだろうか。

「私たちのAPIのレスポンスは実際に、ネックラインはこれ、色はこれ、パターンはこれという形式で返されるのです」とウッダース氏は説明する。

この種の構造化データは、データベースに容易に挿入することができ、高い信頼性とともに問い合わせを行うことができる。ユーザー（ウッダース氏が後ほど説明したように、必ずしも消費者である必要はない）は、「長袖」（long sleeves）と指定すれば、システムが実際に衣服の「袖」（sleeves）を見て、それが「長い」（long）ものを選ぶことを知っているので、組み合わせてマッチングを行うことができるのだ。

今回のシステムは、成長を続ける約1100万種類の製品イメージと、それに対応した説明文ライブラリでトレーニングされた。システムは自然言語処理を使用してそれらの説明文を解析し、何が何を参照しているかを把握する。こうすることで、学習モデルが「formal」を色のことだと思ったり、「cute」が利用されるシーンのことだと思ったりすることを防ぐための、重要なコンテキスト上の手がかりが与えられる。だが、データを単に投入してモデルにそれを判断させれば良いといえるほど、物事は単純ではないのではと考えるあなたは正しい。

以下に示したのは、説明のために理想化されたバージョンの概要だ。

「ファッション用語には多くのあいまいさがあって、それは間違いなく問題です」とウッダーズ氏は認めるものの、それは克服できない種類のものではない。「顧客に出力を提供するときには、各属性にスコアを付けています。そのため、それがクルーネックなのか、それともスクープネックなのかがあいまいな場合には、正しくアルゴリズムが機能している限り、双方にスコアとして大きな重みを付加します。確信が持てない場合には、信頼性スコアが低くなります。私たちのモデルは、現場の人たちがどのように製品にラベル付けしたか、その結果の集合で訓練されていますので、みんなの意見の平均値を得られることになります」。

当初のモデルは、ファッションと衣類全般を対象としていたが、適切なトレーニングデータを使用すれば、他の多くのカテゴリーに適用することもできる。同じアルゴリズムで、自動車や美容製品などの特徴を見つけることができるのだ。例えばシャンプーボトルを探す場合な、袖（sleeves）の代わりに適用シーン、容量、髪質、そしてパラベン（防腐剤であるパラオキシ安息香酸エステル）含有の有無などを指定できる。

普通の買い物客たちは放っておいてもGlistenの技術のメリットを理解してくれるだろうが、同社は自分たちの顧客が、販売の現場の手前にいることに気がづいた。

「時間が経つにつれて私たちが気づいたのは、私たちにとって理想的な顧客とは、乱雑で信頼性の低い製品データを持っていることに、苦痛を感じているような人たちだということでした」とウッダース氏は説明する。「それは主に、小売業者たちと協力しているハイテク企業なのです。実際、私たちの最初の顧客は価格の最適化を行う会社で、また別の顧客はデジタルマーケティング会社でした。これらは、アプリケーションとして当初私たちが考えていたものよりも、かなり外れた場所にある応用なのです」。

ちょっと考えてみれば、その理由が理解できるだろう。製品についてよく知れば知るほど、消費者の行動や傾向などと関連づける必要があるデータが増えていく。単に夏のドレスの売上が戻ってきていることを知っているよりも、七分袖の青と緑の花柄のデザインの売上が戻ってきていることを知っている方が良い。

Glistenの共同創業者サラ・ウッダース氏（左）とAlice Deng（アリス・デング）氏

競争相手は主に、企業内のタギングチーム（私たちが誰もしたくないような手作業のレビューを行う）や、Glistenが生成するような構造化データの生成を行わない汎用コンピュータービジョンアルゴリズムである。

来週行われるY Combinator のデモデー前にも関わらず、同社はすでに月々5桁（数万ドル、数百万円）の定常収益を得ているが、現時点では彼らの販売プロセスは、彼らが役に立つと思った人々への個別のコンタクトに限定されている。「ここ数週間で、非常に多くの売り上げがありました」とウッダーズ氏は語る。

ほどなくGlistenは多くのオンライン製品検索エンジンに組み込まれることになるだろうが、理想的には利用者がそれに直接気がつくことはないだろう。ただ単に探しものがはるかに見つかりやすくなったように思えるようになるだけだ。

関連記事：いまさら聞けないコンピュータービジョン入門

［原文へ］
（翻訳：sako）

Amazonがキャッシャーレス店舗技術を他の小売業者に販売開始

Amazonは3月9日、「Just Walk Out（ジャスト・ウォーク・アウト）」と呼ばれるキャッシャーレス店舗技術を販売すると発表した。この技術はカメラ、センサー、コンピュータービジョン、深層学習を使い、買い物客が支払いの列に並ぶことなく、そのまま店を出られるようにするものだ。現在、キャッシャーレスコンビニのAmazon Goと、シアトルに新しくオープンしたAmazon Go Grocery（食品）ストアでも、同じ技術が使われている。

Amazonの公式発表に先駆けて最初に報道したロイターは、さらにAmazonはJust Walk Outを導入したい最初の顧客と「複数の」契約を交わしたと話していることも伝えている。だが、その顧客が誰なのかは同社は明かしていない。

Amazonはまた、Just Walk Outの仕組みを解説するWebサイトもオープンし、この新事業に関する質問に答えている。

Webサイトでは、この技術には何年も前から他店舗が興味を示していたため、Just Walk Outの販売に踏み切ったと書かれている。Amazonが提供するシステムには「会計不要な買い物を可能にするために必要なあらゆる技術」が含まれるとサイトでは説明されている。つまり、同社はソフトウェア技術の他にも、カメラのハードウェアやセンサー技術も提供するということだ。価格は示されていないが、このシステムには電話と電子メールによる年中無休24時間体制のサポートが付く。

Amazonによると、システムの設置はAmazonが店舗を視察してからわずか数週間以内に完了するという。新店舗の場合は、建設段階からAmazonが参加し、店舗側と協力してJust Walk Outの設置を進めることができる。店舗改装の際にも、同じように対応できる。既存の店舗に設置する場合でも、営業への影響を最小限に抑えつつ、この技術を設置するという。

間違いのないように言っておくが、これはあくまで、客がレジに並ばずに買い物ができるようにするために店舗にその技術を販売するというものだ。その店舗をAmazon Goコンビニエンスストアのフランチャイズにすることは意図していない。

客の側からすれば、キャッシャーレスの店ではレジに並ぶ必要がないため、時間の節約になる。買い物の時間も惜しむ客が利用するコンビニや、カートに商品を山積みにした客が長い列を作る食料品店においてこのシステムは理に適ったものだ。しかし棚に商品を陳列していない、または売り場面積が非常に広い大型のデパートには向かない。

AmazonのJust Walk Outでは、客はクレジットカードを使って入店すると、Amazonのウェブサイトでは説明されている。客はアプリをインストールする必要も、Amazonのアカウントを作る必要もない。店内の客の動きをカメラが追跡し、商品が棚から取られたとき、または棚に戻されたとき、棚のセンサーがリストに記録する。客が商品を手に取ると、それが仮想カートに入れられる。店を出ると、買った品物の代金がその人のクレジットカードに請求される。紙のレシートが欲しい場合は、店内のキオスクで印刷できるとAmazonは話しているが、いずれにせよレシートは自動的にメールで送られてくる。

ただし、このシステムが結果的に店舗側の増収につながるか否かは定かではない。これによって必要経費が削減できたとしても、設置費用と管理費はかかる。当然のことながら、Amazonも店の従業員を減らすための技術として売り込みをかけているわけではない。従業員は、別の仕事に専念できるようにできるとAmazonでは話している。例えば、客をもてなしたり、質問に答えたり、商品を補充したりなどだ。こうした仕事には、通常の店舗ならすでに人が割り当てられているものだが、そうでないケースもある。とりわけ、オンライン販売のハブに移行しつつある店舗がそうだ。

こうしたシステムへの客の反応も、まだ未知数だ。Amazonの店舗はいまだに目新しい存在であり、こんな人を監視するような技術が一般化されるとしたら、または実際にそうなったとき、客は敬遠するかもしれない。

キャッシャーレスシステムを売り出している企業はAmazonだけではない。Amazonはいち早く自社店舗にこの技術を導入した先駆者ではあるが、それ以来、いくつもの技術系スタートアップが同様のシステムの販売を始めている。AiFi、Grabango、Standard Cognition、Zippinなどがそうだ。米セブンイレブンやWalmartのSam’s Clubなど、独自の自動支払い技術やキャッシャーレス技術のテストを開始する小売り店も現れている。

[原文へ]
（翻訳：金井哲夫）

Facebookの3Dフォト機能がシングルカメラスマホユーザーでも利用可能に

Facebook（フェイスブック）は2018年に初めて3Dフォトを公開し、その技術的詳細を共有したが、当時はデュアルカメラを搭載した数少ないスマートフォンがなければ、3Dフォトを自分で作ることはできなかった。しかし、米国時間2月28日のアップデートで、1台のカメラしか搭載していないスマートフォンユーザーでも、3Dフォトが利用できるようになった。

覚えていない人や知らない人のために説明すると、3Dフォトは2D画像を分析し、それをたくさんのレイヤーに分割して、iPhoneを傾けたりスクロールしたりすると個別に動くというものだ。私は3Dの大ファンではないし、Facebookも使っていないが、この機能はとてもクールだ。

問題は、これがデュアルカメラを使用してシステムが距離を判断し、画像を切り分けていることだ。つまり、iPhone SEを含むデュアルカメラでない数多くのスマートフォンでは、この機能は利用できない。

しかしここ数年、フェイスブックのコンピュータービジョンチームは、デュアルカメラを使わずにこれを可能にする手法に取り組んできた。そしてついに彼らは成功。技術的な詳細は、このブログ記事で解説されている。

この進歩により、シングルカメラを搭載した比較的新しいスマートフォンの多くが、この機能を利用できることになる。具体的には、Google（グーグル）のPixelシリーズとiPhone 7以降のシングルカメラ搭載機種がサポートされる。Androidスマートフォンは非常に他機種であるため、どのデバイスがサポートされ、どのデバイスがサポートされないのかを判断するのは難しい。これはスペックシートに記載されていないいくつかの要素によるが、Facebookアプリをアップデートして写真を撮れば、それはわかるだろう。

[原文へ]

（翻訳：塚本直樹 Twitter）

自動運転車からは見えない歩行者を影で予見するシステムをMITが開発

どの点を見ても自動運転車の能力はまだ人間ドライバーを超えてはいない。でも、最終的には自動運転車に搭載された技術が、コーナーの向こう側を見るなど人間には推測すらできないことをやってのけるかもしれない。この件については、何年も前から研究開発が進められているが、MITの最新システムは既存技術を使って低コストで、まるで手品のようなワザをやり遂げる。

Toyota Research Institute（TRI）が支援しているMITの研究プロジェクトが、影の微小な変化からコーナーに何か動くものが入ってくることを予見するシステムを作った。それは自動運転車で使えるだけでなく、同じスペースで人間と一緒に仕事をするロボットにも役に立つ。例えば、病院のお手伝いロボットなどだ。

そのシステムは汎用の学式カメラを使い、コンピュータービジョンの一連のテクニックで光の強さや密度の変化をモニターして、影が動いているものの影か、静的なものの影かを判定する。そして動いているものなら、その道筋を予測する。

これまでのテストでは、この方法はカメラではなくLIDAR（ライダー、レーザーによるセンシング技術）を利用する既存のシステムよりも有能だった。もちろん、LIDARはコーナーの向こう側を予見できない。コーナーの向こう側から何か動くものがやってくることの検出では、このMITのシステムがLIDARを使ったシステムより0.5秒早かった。自動運転車の世界で0.5秒は十分に長い時間だ。事故を起こすと避けるの違いにも結びつくだろう。

目下、この実験は屋内で行われていて、コーナーの向こうからやってくるものの速度はそんなに速くないし、光は都市の本物の屋外のように激しい変化がない。だから実用化までには、研究者たちの課題がまだ山のようにたくさんある。でもうまくいけば未来の自動運転車は、路上の歩行者や自転車やほかの車に、十分敏速に対応できるようになるだろう。

[原文へ]

（翻訳：iwatani、a.k.a. hiwa）

蜘蛛の目の原理を借りて奥行き感知カメラを超小型化へ

ロボットや各種自動化装置の普及とともに、それらに3次元の視力を持たせることがますます必要になってきた。しかし、iPhoneのノッチが示すように奥行きを感知するカメラはどうしてもかさばる。ここでご紹介する蜘蛛が獲物までの距離を検知する仕組みは、この状況を変えるかもしれない。

ハエトリグモの小さな頭には、光を照射する仕組みなどを収めるだけのスペースはない。それでも彼らは、巧妙な捕食動物として獲物を正しく見つけて、そっち方向へ正しく進み、正しく獲物を捕らえる。どうやっているのだろう？節足動物の例に漏れず彼らもまた、非常に不可思議なおもしろい方法でそれをやってのける。

人間などは、複数の目が捉えた画像から立体像を作っているが、蜘蛛の目はひとつひとつが奥行きを感知する。個々の目が多層構造になっていて、透明な網膜がそれぞれの層の、距離によって異なる像のぼけ具合を見分ける。蜘蛛の小さな神経系は複数の目の複数の層を比較して距離を正しく測る。そのとても小さなハードウェアで。

ハーバード大学の研究者たちは、蜘蛛のこのやり方を真似たハイテクのレンズシステムを作り、これまでのような光学系がなくても奥行きを感知できるようになった。

cover1

電気工学のFederico Capasso（フェデリコ・カパソ）教授らが作ったその「メタレンズ」は、蜘蛛の目のように、入力視像をぼけ具合の異なる2つのほぼ同じ像として捕らえる。そして同じく蜘蛛の目のようなアルゴリズムで2つの像を素早く瞬時に比較する。それにより、リアルタイムで像全体の奥行きが計算される。

FlyGif

必要な計算力とそのためのハードウェアが微小である、という意味では効率的な処理だが、それだけでなく視覚系もとってもコンパクトだ。実験に使われたメタレンズは直径がわずか3mmだった。

小さいから、自動運転車や工業用ロボットだけでなく、小さなガジェットやスマートホームのアイテム、それにもちろんスマートフォンなどにも楽に組み込める。Face IDを駆逐することはないだろうが、でもその始まりかもしれない。

このメタレンズシステムを記述している研究論文は、米国時間10月28日に発行される「Proceedings of the National Academy of Sciences」（米国科学アカデミー紀要）に掲載される。

画像クレジット: Harvard SEAS

[原文へ]

（翻訳：iwatani(a.k.a. hiwa）

物の裏側をレーザー光の反射から像として求めるカーネギーメロン大らの研究

未来の自動運転車やそのほかのマシンインテリジェンスシステムは、視線の向かう先には見えないものからでも詳細な画像データを集められるだろう。カーネギーメロン大学（CMU）とトロント大学、およびユニバーシティカレッジロンドンの研究から生まれたテクニックを使うと、ここにいるまま「あの角を曲がった先」を見ることができる。

その方法は、特殊な光源とセンサー、そしてコンピュータービジョンの処理により、ここからは見えない場所の詳細な像を推測したり構築できる。それは、これまで写真や肉眼でしか得られなかった像よりもさらに詳細だ。

ただしこのテクニックには現状でやや制約があり、CMUのロボット研究所のSrinivasa Narasimhan教授によると「比較的狭い範囲内」でないと有効でない。

その制約はこのテクニックを、非視線型(non-line-of-site、NLOS)コンピュータービジョンの分野のテクニックと併用すれば緩和できる。そんなテクニックの一部はすでに商用化されており、たとえばテスラ（Tesla)のAutopilot（オートパイロット）システムは、反射ないし跳ね返ってきたレーダー信号を利用して、テスラ車の前面の、人の視線が届かない部分を見ている。

今回の新しい研究で使われたテクニックは、多くの自動運転車システムが利用しているライダーシステムと似た動作原理だ（ただしテスラはレーザー光線を使う視覚システムを嫌ってることで有名だ）。CMUとそのパートナーの研究機関は超高速のレーザー光線を使い、それの壁からの跳ねっ返りで、角の向こう側に隠れているオブジェクトを照らしている。

センサーが跳ね返ってくる光を捉え、そして反射光が原点に帰還するのに要した時間を計算する。そのほかのさまざまな測度も含め、ターゲットのオブジェクトのジオメトリー（幾何学的形状）の情報も使って、オブジェクトを正確かつ詳細に再構築する。その方法は、紙のような光を遮るものが介在していても有効なので、現実世界の環境センサーとしての有効な利用もありえそうだ。

[原文へ]

（翻訳：iwatani、a.k.a. hiwa）

写真に写ってるものを音声で聞けるマイクロソフトのSeeing AIアプリ

Microsoft（マイクロソフト）のSeeing AIは、目の不自由な人が視覚データをオーディオに変換できるアプリだが、今回、便利な機能がひとつ増えた。ユーザーが、写真の中のオブジェクトや人間をタッチして調べることができるのだ。

それはもちろん、機械学習のオブジェクトや情景の認識機能を利用している。写真を撮ったり、ビューワーの中で開いたりしたら、その上のどこでもいいからタップするだけだ。

「この新しい機能でユーザーは、タッチ画面に表示されている画像を指でタップして、そこに写っているものやそれらの空間的関係の説明を聞くことができる」と、Seeing AIの主席開発者Saqib Shaikh氏がブログ記事でそう述べている。「このアプリは、人の肉体的な外見や彼らの気分も説明できる」。

顔認識機能もあるので、友だちの写真を撮ったら誰がどこで何をしているのか聞くことができる。その写真の中に犬がいることもわかる（こいつは重要だ！）。これは、下図に示すように、全画面的にはすでに実現していた。

でも今度からは、ユーザーがあちこちをタップして、どんなオブジェクトがどこにあるか知ることができる。それは新奇な機能というより、写真を見る際には本来とても重要なことだ。説明書にはないが、もっと細かいこと、たとえば前景に花があるとか、背景に映画のポスターがある、なども分かる。

しかもこのアプリはiPadをサポートするようになったので、アップルのタブレットがいろんなメディアや対話の主要なインタフェイスとして役に立つだろう。今回のアップデートでは、このアプリから好きなものを注文できるようになった。

Seeing AIは無料で、iOSデバイス用にここからダウンロードできる。

画像クレジット: Microsoft

[原文へ]
（翻訳：iwatani、a.k.a. hiwa）

コアラを感知するドローンが絶滅危惧動物の個体数推移の調査に貢献

コアラの個体数を常時調べることはオーストラリアの人たちにとって当然のように重要だが、いつも森の中の木の上にいる連中をどうやって数えるのか？　ドローンとAIを使うのだ、もちろん。

クイーンズランド工科大学（Queensland University of Technology、QUT）の新しいプロジェクトは、前からよく知られているいくつかのテクニックを新しいやり方で組み合わせて、あの有名なふわふわ有袋類の野生状態の個体数を調べる。まず、ドローンに赤外線画像で熱を感知するビデオカメラを乗せる。そして撮影した映像を、コアラのような熱痕跡を見つけるよう訓練されたディープラーニングのモデルに見せる。

QUTは前にも、これと似たやり方で、絶滅危惧種の海牛ジュゴンの個体数を、海岸の航空写真と機械学習で調べたことがある。しかし今回は、それよりずっと難しい。

この研究のペーパーの共著者Grant Hamilton博士が、ニューズリリースで言っている。「ビーチにいるアザラシと木の上にいるコアラでは、違いがとても大きい」。ジュゴンという言葉を避けたのは、知ってる人が少ないからだ。

博士は曰く、「木の上や森の中という複雑性も、今回の研究課題のひとつだった。難しいから、おもしろい。ドローンを飛ばして動物の数を数える、という単純な仕事ではなく、ものすごく複雑な環境で、それをやらなければならなかったのだ」。

チームはドローンを早朝に飛ばして、外気の寒いところと、木の中の、コアラの体温で温かいところとの明瞭なコントラストの撮像を求めた。ドローンは、木の上辺を刈る芝刈り機のような航路で飛行した。そうして、広い範囲のデータを集めた。

赤外線画像（左）と関心領域を高輝度にするニューラルネットワークの出力

その映像を訓練済みのディープラーニングシステムに通すと、コアラの体温で温かくなっているところのサイズや密度を認識し、車やカンガルーなどそのほかの物は無視した。

初期のテストでは、システムの精度をコアラの推測位置や実測による地上データと比較した。そのために調べる参照動物には、GPS装置や電波発信タグをつけた。その結果、この機械学習によるコアラ検知システムは約86%の精度であることがわかり、「コアラを見つける名人たち」の70%という精度を上回った。精度だけでなく仕事も早い。

博士曰く、「人間が1日かけて調べる範囲を、2時間で調べる」。しかし人間のコアラ発見名人や地上チームをリプレースするわけではない。「人が行けない場所もあるし、逆に、ドローンを飛ばせない場所もある。人力とドローンが互いに補完できる最良の方法を、見つける必要がある。コアラは広範囲にわたって絶滅に瀕しているし、そのほかの多くの種もそうだ。彼らを救う魔法のような特効薬はない」。

クイーンズランドの1つの地区でテストしたら、今度はオーストラリア東海岸部の他の地域で試す予定だ。今後は、コアラ以外の危惧種動物の個体数調査に使える、温度のヒートマップ以外の別の識別子も加える計画である。

彼らのペーパーは、今日発行されたNature Scientific Reportsに載っている。

[原文へ]
（翻訳：iwatani、a.k.a. hiwa）

サッカーのゲームをテーブルの上の拡張現実の3D映像で見る

ワールドカップのシーズンなので、機械学習の記事もフットボールを取り上げないわけにはいかない。その見事なゲームへの今日のオマージュは、試合の2Dビデオから3Dのコンテンツを作り、すでに拡張現実のセットアップのある人ならそれをコーヒーテーブルの上でも観戦できるシステムだ。まだそれほど‘リアル’ではないが、テレビよりはおもしろいだろう。

その“Soccer On Your Tabletop”（卓上サッカー）システムは、試合のビデオを入力とし、それを注意深く見ながら各選手の動きを追い、そして選手たちの像を3Dモデルへマップする。それらのモデルは、複数のサッカービデオゲームから抽出された動きを、フィールド上の3D表現に変換したものだ。基本的にそれは、PS4のFIFA 18と現実の映像を組み合わせたもので、一種のミニチュアの現実/人工ハイブリッドを作り出している。

[入力フレーム][選手分析][奥行きの推計]

ソースデータは二次元で解像度が低く、たえず動いているから、そんなものからリアルでほぼ正確な各選手の3D像を再構成するのは、たいへんな作業だ。

目下それは、完全にはほど遠い。これはまだ実用レベルではない、と感じる人もいるだろう。キャラクターの位置は推計だから、ちょっとジャンプするし、ボールはよく見えない。だから全員がフィールドで踊っているように見える。いや、フィールド上の歓喜のダンスも、今後の実装課題に含まれている。

でもそのアイデアはすごいし、まだ制約は大きいけどすでに実動システムだ。今後、複数のアングルから撮ったゲームを入力にすることができたら、それをテレビ放送のライブ中継から得るなどして、試合終了数分後には3Dのリプレイを提供できるだろう。

さらにもっと高度な技術を想像すれば、一箇所の中心的な位置からゲームを複数アングルで撮る/見ることも可能だろう。テレビのスポーツ放送でいちばんつまんないのは、必ず、ワンシーン==ワンアングルであることだ。ひとつのシーンを同時に複数のアングルから自由に見れたら、最高だろうな。

そのためには、完全なホログラムディスプレイが安く入手できるようになり、全アングルバージョンの実況中継が放送されるようになることが、必要だ。

この研究はソルトレイクシティで行われたComputer Vision and Pattern Recognitionカンファレンスでプレゼンされた、FacebookとGoogleとワシントン大学のコラボレーションだ。

[原文へ]
（翻訳：iwatani(a.k.a. hiwa）

即答せよ！このシステムは問題に答える顔を見て人間であることを確認する

ボットとの戦いに終りはない。しかし、誰もが密かに想像しているスカイネットのようなシナリオでは終わらないことを望みたい。ちなみに、今重要なのはスパムを退治することで、組織的殺人を防ぐことではない。それでも、機会はますます賢くなり、単純な顔認識だけでは人間の識別に十分ではないこともある。今や機械は顔を作ることもできる —— しかし、質問に答えるときの顔を作るのは不得意のようだ。

ジョージア工科大学の研究者らは、CAPTCHAタイプのシステムに取り組んでいる。そして人間がありとあらゆる質問にすばやく自信を持って答えられるのに対して、最先端の人工顔アニメーションと音声生成システムを使っても、それらしい返答をコンピューターが生成するのは難しいという事実に着目した。

人間とロボットを区別するテストにはこの種の方法を用いたものがいくつもある。文字や動物や道路標識を認識することから、なんらかのGoogleサービスにログイン中かどうかまで様々だ。しかし理想的には、人間には簡単でロボットには難しいものがいい。

人間には必ず顔がある。しかし、そこそこリアルな顔をレンダリングして修正するのはコンピューターにとって膨大な仕事だ（JPEGに騙されないシステムが前提）。

また、人間は単純な質問に答えるのも得意で、無意味な質問ならなおさらだ。しかしコンピューターは、「犬と猫どっちが好き？」といった質問にもっともらしく答えるのために無駄な時間を消費する。人間であるわれわれは、この質問に正しい答えがないことを知っていて、直ちに答えることができる。コンピューターは問題を理解するためにあらゆる物事を評価して、答えを再確認したうえで解答する顔をレンダリングしなくてはならない。それには時間がかかる。

ジョージア工科大学のErkam Uzun、Wenke Leeらがたどり着いた答えはこれだ。まずログインしようとしているひとをカメラに収め —— これはCAPTCHAでカメラを使うことが許されているとい前提で、それはそれで別の問題がある —— 質問を投げかける。もちろんそこには第二の錯乱要素 —— 歪んだ文字などなど —— もあるかもしれないが、重要なのはコンテンツで、質問は人間がすぐに答えられるくらい簡単であると同時にコンピューターには難題でなくてはならない。

テストの結果、人間は平均して1秒以内に解答したのに対して、最高水準のコンピューターは最短でも6秒、たいていはもっとかかった。これは、システムを破るには何が必要かを知っている強力顔レンダリングエンジンを、スパマーが持っていた場合の話だ。認証システムはタイミングだけではなく、声や顔をユーザーの記録と照らし合わせて確認している。

「私たちはアタッカーのやってきそうなことを知って問題に取り組んだ。画像の質を高めることは一つの可能性だが、まったく新しいゲームを作りたかった」とジョージア工科大学の研究者、Simon Pak Ho Chungは言った。

これは日頃ウェブで見かける単純なCAPTCHAよりずっと複雑なシステムだが、この研究によってソーシャルネットワークなどのログインのセキュリティーを高めることが期待できる。スパマーやハッカーたちが、日々新しいコンピューターや新しい機能を手に入れる今、われわれ人間も得られる限りの助力を必要としている。

[原文へ]

（翻訳：Nob Takahashi / facebook ）

Facebookの全身トラッキングの研究からはAR/VRへの大きな意欲が感じられる

ARとVRのエンターテインメントとコミュニケーションの両方の目的で、Facebookが大きな投資をしていることは、今や誰もが知っている。そしてその新しい研究は、顔を変えたり置き換えたりするだけでなく、全身を対象とするARアプリケーションに同社が取り組んでいることを示唆している。

今日のブログ記事では、 AIカメラのチームが、VRまたはARで全身の置換や追跡を明らかにねらっていると思われる成果を紹介している。

その記事で研究員たちはこう書いている: “われわれは最近、体のポーズを正確に検出し、人と背景を分ける新しい技術を開発した。われわれのモデルは今はまだ研究の段階だが、数メガバイトしか必要とせず、スマートフォン上でリアルタイムで動かせる”。

もちろん、これまでにも同様の研究はある。たとえば骨格トラッキングはいろんな産業でよく使われている。それにこのブログ記事は、大きな進歩を主張するというより、この特定のシステムとそのニューラルネットワーク部位の操作について書かれている。

でもしかし、Facebookは明らかに、モバイルにおける効率的で容易な実用化をねらっている。つまりそれは、センサーのデータ、画像の解像度、リフレッシュレート、処理能力などの点で制約のある環境だ。彼らがMask R-CNNと呼ぶこのテクニックは、その方向での良い前進だ。

これからは、Facebookからこのようなものが、続々と出てくるのだろう。同社は、このような研究に配置する研究インターンまで募集しているのだから。

画像提供: Facebook

[原文へ]
（翻訳：iwatani(a.k.a. hiwa）

ポルノサイトが人工知能でビデオをタグづけ――PornHubのシステムは出演者、場面を認識する

新しいテクノロジーを採用するのが速いのはポルノビジネスだという説がある。PornHub〔閲覧注意〕はこれが必ずしも伝説ではないことを示そうとしている。このサイトではこれまでは人力でビデオの分類、タグづけを行っていた。しかし毎日8000万の訪問者がある巨大サイトにアップされるビデオを手作業でタグづけするのは大変な作業だ。

そこで分類、タグづけのための人員を増やす代わりにPornHubではロボットを採用することにした。

PHubの副社長、Corey Priceは「われわれはファンに対してビデオやモデルに関する情報を迅速、正確に提供することによってユーザー体験を改良し、エンゲージメントをアップさせることを目指している」と語った。,そのためにはプラットフォームを最新のテクノロジーを用いて常にアップデートしていかねばならない。「サイトがナビゲーションしやすくなればユーザーがサイトに戻ってくる可能性が高くなる」という。

PHubが採用したコンピューター・ビジョン・システムは各シーンに登場する出演者を識別できるだけでなく、シーンの…なんというか、属性を認識することができる。このシステムの能力をTechCrunchのような真面目なサイトで具体的に説明するのは困難だが、ともあれシステムはリアルタイムでパフォーマーをタグづけし、パフォーマンスの種類も分類できるという。上のデモではモデルの名前が表示されている。下の画像では斜め横からでも人物を認識し、パフォーマンスの種類を分類している。

「現在われわれは50万本のフィーチャービデオでこのシステムを使っている。これにはユーザーがアップロードしたビデオも含まれる。2018年の初めまでには全ライブラリーをスキャンする予定だ。近くこのシステムはさらに多様な場面を正確に認識し、適切にタグ付けできるようになる」とPrice。

顔認識はかなり以前に開発されたテクノロジーで、現在はモバイル・アプリでも用いられているが、PHubのシステムが「ビデオをスキャンして場面を適切なカテゴリーに分類する」というのは一歩進んだ利用法だ。さて実際にどの程度正確なのだろう？

「非常に正確だ」とPriceは断言した。

[原文へ]

（翻訳：滑川海彦@Facebook Google+）

GoogleがコンピュータービジョンアプリFabbyを作ったAIMatterを買収、広告技術のイノベーションに利用か

【抄訳】
Googleがベラルーシで生まれたコンピュータービジョンのスタートアップAIMatterを買収した。同社は、画像の検出と処理をモバイルデバイスの上で高速に行うニューラルネットワークベースのAIプラットホームおよびSDKと、その技術の概念実証のような写真/ビデオ編集アプリFabbyを作っている。

買収の噂は5月からあったが、公式に完了したのが今日（米国時間8/16）だ。両社は買収を確認し、AIMatterのサイトには声明文がポストされた。

買収の価額等は公表されていないが、すでに200万以上ダウンロードされているFabbyはそのまま操業を続け、AIMatterの社員の多くはGoogleに移籍するようだ。AIMatterの社員たちは、ミンスクとベイエリアとチューリッヒに分散していた。とくにスイスは、コンピュータービジョンの技術が高度に発達している場所として有名だ（本誌関連記事: これ、これ、そしてこれ）。今後彼らがどうなるのか、全員がGoogleに移籍するのか、等については現状では不明だ。

FabbyはこれまでHaxusなどから約200万ドルを調達している。ベンチャーファンドHaxusは主に人工知能のスタートアップを支援している。またAIMatterの協同ファウンダーで会長だったYuri Melnichekは、今では同社の投資者そしてアドバイザーになっている。彼はMaps.meのファウンダーでもあり、元Googleの社員だ。そしてAIMatterのCEO Andrei Kulikも、投資に参加している。

Haxusは、のちにFacebookに買収されたMSQRDにも投資している。またMelnichekのMaps.meにも投資しており、こちらはMail.ruに買収された。そしてあの人気の写真/ビデオ加工アプリPrismaにも、Haxusは投資している。

しかしこれからのコンピュータービジョン技術は、楽しいお遊びアプリに終わることなく、仮想/拡張現実や、自動運転車の技術など、重要な分野で利用されていくだろう。Googleには、次世代型ソーシャルアプリケーションを開発中との噂があり、そこではコンピュータービジョン技術がオーディエンスの獲得だけでなく、広告事業のための新しい技術としても活用されるのだろう。

【後略】

[原文へ]
（翻訳：iwatani(a.k.a. hiwa））

この顔認識システムは、映画の観客が喜んでいるかどうかを追跡する

映画制作がアートと同じくらいサイエンスになってきた今、映画会社は観客の反応を測定するためにかつてない方法を必要としている。喜んでくれたのだろうか？どのくらい…正確には？42分の時点で？カリフォルニア工科大学とDisney Researchは、表情認識ニューラルネットワークを使って、観客の反応を知り、予測しようとしている。次世代のニールセンレーティングの基盤になるかもしれない。

この研究プロジェクトは、ハワイで行われたIEEEコンピュータービジョンおよびパターン認識会議で発表され、劇場での表情を確実かつ比較的簡単にリアルタイムで追跡する新しい方法を演示した。

認識には、factorized variational autoencoderと呼ばれるものを使う。数学的背景は説明しようとも思わないが、動きのある表情のように複雑なものの本質を抽出することに関して、従来の方法よりも優れている。

研究チームは映画（もちろんDisney作品）を見ている観衆を録画することで、大量の表情データを収集した。高解像度赤外線カメラで観客の動きと顔を撮影し、得られたデータ（約1600万個のデータポイント）をニューラルネットワークに送り込む。

システムの訓練が終わったら、映画を見ている観客をリアルタイムで追跡して、様々な時点で見せる表情を予測する。研究チームによると、システムが観衆に慣れるのに10分ほどかかり、その後は笑いや微笑みを確実に予測できるようになるという（泣き顔や恐怖はまだ追えていないようだ）。

もちろんこれは、この種のテクノロジーの応用例の1つにすぎない ―― 群衆の監視や、その他の複雑なデータをリアルタイムで解釈する場面にも適用できるだろう。

「人間の行動を理解することは、行動的社会的に優れた知識を持つAIシステムを開発する上で基礎をなす」と同大学のYisong Yueはニュースリリースで言った。「例えば、高齢者を見守り世話をするAIシステムを開発するには、ボディーランゲージのわずかな動きを捕らえる能力が必要だ。人間は不満足であったり問題を抱えていることを明示的に言うとは限らないのだから」。

[原文へ]

（翻訳：Nob Takahashi / facebook ）

VarCityは、オンラインで集めた画像から都市の3Dマップを作る

今や世界中の主要都市では、いつでもあらゆる角度から写真やビデオが撮影されている。理論的には、十分な数が集まれば道路や建物の配置がわかる ―― 待て、理論的に？いや実際に、だ。VarCityというプロジェクトがスイスのチューリッヒを再現するデモを見せてくれた。

複数年にわたるこの取り組みは、数多くのオンライン資源 ―― ソーシャルメディア、公開ウェブカメラ、車載カメラ、空中写真など ―― から得た画像を収集・分析して都市の3Dマップを作っている。ある意味でGoogleストリートビューの逆だ。地図を写真で図解するのではなく、写真に基づいて地図自体を作る。

このためVarCityのデータは非常に濃密だ。街路を見下ろすウェブカムは交通の流れや人々の歩く時間からいつ照明が消えるかまで時間を追って記録している。同じ建物を異なる角度から撮影した写真からは、大きな窓や壁の表面の正確なサイズを知ることができる。

チューリッヒ工科大学のチームが何年もかけて調整してきたアルゴリズムは、歩道と車道、芝生などの違いを見分けることができる。画像の見た目は粗いが、膨らんだ縁やぼやけた自動車は容易に認識して高精度で再構築することができる。

重要なのは、一連のアルゴリズムを別のデータの山に適用することによって、自分でデータを集めることなく、同じようにリッチな地図データを作れることだ。

「もっと多くの画像やビデオをシステムが分析できるようになればモデルはもっと正確になる」とプロジェクトメンバーで博士研究員のKenneth Vanhoeyがチューリッヒ工科大学のニュースリリースで言う。「プロジェクトの目的は3D都市モデルのアルゴリズムを開発することであり、今後手に入る画像やビデオの量が劇的に増えていくことを前提にしている」。

このプロジェクトからいくつかのスタートアップがすでに生まれている。SpetandoとCasalvaは、バーチャル建築検査と損傷分析を提供している。Parqueryは、都市の3D情報を使って駐車スペースをリアルタイムで監視する。方向はやや異なるが、UniqFEEDは公開ゲームを監視して、フィードに表示された時間を広告主やプレーヤーに知らせるサービスを行っている。

上のビデオは研究内容を要約したもので、データやモデルを詳しく説明した長編のビデオは今週中に公開される予定だ。

[原文へ]

（翻訳：Nob Takahashi / facebook ）

自動運転車を混乱させる“罠”を考えたパフォーマンスアーチストJames Bridle

自動運転車に何ができるか、については、本誌もこれまでさんざん書いてきたけど、ときには、できないことの方がおもしろいこともある。技術というものは、その能力とともに、限界を知ることもきわめて重要だ。というわけで今回は、このパフォーマンスアートから教訓をいただこう。

この“Autonomous trap 001”（自動運転の罠001号）は、とても分かりやすい。自動運転システムが最初に学ぶいちばん重要なことは、路上のマーキングの理解だ。これは車線の端だ、これはカープール専用車線だ、などなど。

アテネに住むイギリス人のJames Bridleが、コンテキスト（文脈、状況知）を欠く知識の限界を例示している。人工“知能”が氾濫する今の時代には、われわれはそんな不具な知識に、至るところでぶつかる。

スーパーで一山いくらで売ってるような人工知能は、路上のいちばん重要なルールは、車から遠い方の側にある点線〔上図で外側〕は絶対に横切ってはならない、だと知っている。しかしもちろん、その点線が近い側なら、横切ってもよい。

なお、この円はわざと塩で描かれている。塩の儀式的な意味は、“神聖な場所なのでそこから先へ行くな”、という意味だ。あるいは、精霊や悪霊を金縛りにするために、灰や塩をお供えした時代もある。人間をその場に金縛りにするために、塩と呪文を併用することもある。

この実験でも、点線という単純なシンボルが、ターゲットを金縛りにした。この‘知能’の作者に、救い出してもらうしかないね。それとも、祈祷師に頼んで点線の呪いを解いてもらうか。人間運転手が中にいるなら、モアベターだけど。

遠い未来には、自動化システムが世界を支配して、それらの内部情報や設計情報はとっくに失われているかもしれない（Horizon: Zero Dawnをプレイしてみよう）。そうすると、システムが、理解できないおかしな振る舞いをしても、われわれの愚かな子孫たちは原因も対策も分からないのだ。今回の実験の、自動運転車の“罠”も、そのひとつだろう。

自動運転車を急に停止させたり、片寄せさせたり、予期せぬ不具合が生じたりする、いろんな“罠”がありうるだろう。それらから、人間を守れるだろうか？　犯罪目的で人工知能騙しをやるなら、それはどんな犯行だろう？　いずれにしても、奇怪な未来が待っているのだ。

とりあえず、BridleのVimeoやブログを今後もウォッチしよう。そのパフォーマンスはつねに、“進化途上”だから。

[原文へ]
（翻訳：iwatani(a.k.a. hiwa））

あの鳥は何だろう？と思ったら写真を撮って鳥認識アプリMerlinに見せよう、数秒で分かる

あれはヒメハジロかな？　それともオオバン？　アビじゃないの？　ではなるべく近くで写真を撮り、鳥の種を確認するアプリMerlinに見せよう。数秒で教えてくれるから、まるでそれは、鳥類学者になりたいきみのためのShazamだね。

もう1年あまり前から、写真を認識する機能はMerlinの大きなエコシステムのごく一部でしかないけど、最近コーネル大学の愛鳥家たちが、モバイルアプリでそれができるようにした。写真を撮ってそれをズームすれば、あとはMerlinのデータベースが仕事をしてくれる。

飛んでいるミサゴをGalaxy S4で撮るのは難しい。接写なら水辺の方がいいね。.

もちろん、スマートフォンの広角カメラでは、小鳥たちの良質な接写は難しい。でもアプリの作者によると、ヘタな写真でも90%は正しく当てるそうだ。確信が持てないときは、いくつかの質問に答えるとよい…どんな鳴き声か、喉に細い帯状の模様があるか、などなど。すると精度は100%に近くなる。オフラインでも利用できるけど、そのためにはあらかじめ、200メガバイトものデータをダウンロードしなければならない。

コーネル大学の協力を得て実際にこのアプリを作ったVisipediaの協同ファウンダーPietro Peronaはこう語る: “このアプリはうちの学生たちの7年間の努力の成果であり、コンピュータービジョンと機械学習の最近の大きな進歩に支えられている”。

もう一人の協同ファウンダー、コーネル大学のSerge Belongie教授は曰く: “今後は鳥だけでなく、蝶や蛙、植物など、いろんなものを視覚的に判定できる、誰もが使えるオープンなプラットホームを作っていきたい”。

アプリはAndroid もiOSも無料だが、データをダウンロードして使うためには、500メガバイトぐらいの空きスペースが必要だ。

[原文へ]
（翻訳：iwatani(a.k.a. hiwa））

GoogleはTensorFlowによる画像キャプションモデルをオープンソースに、物認識から状況認識への進化をねらう

ぼくの世代〔John Mannes, 1995/11生〕は、ほぼ全員がInstagramにはまっている。でもぼくは、2015年にこのプラットホームを去った（ごめんなさい）。理由は単純で、どの写真をポストするか、なかなか決められないこと、そして、簡潔で魅力的なキャプションを考えるのに、いつも苦労するからだ。

画像提供: Google

でも、ぼくと同じ問題を抱えているひま人は、Google TensorFlow〔昨年オープンソース化〕の画像キャプションモデルを利用すれば、そのくだらない第一世界問題に終止符をうてるだろう。ぼくも、それが楽しみだ。右の、“A person on a beach flying a kite.”（ビーチで凧をあげている人）なんか、すごくビューティフルでクリエイティブだよねー。〔皮肉〕

ジョークは置いておくとして、GoogleのBrainチームの研究員社員たちが作ったこの技術は、なかなかのものだ。“Show and Tell”（見せる/教える）というキュートな名前のこのプロジェクトの精度は93.9%だそうだ。精度は、89.6%、91.8%とバージョンを重ねるたびに上がってきた。分類というタスクは、精度が少し上がっただけで有用性が大幅に向上する。

そこまで到達するためにチームは、視覚と言語の両方でニューラルネットワークを訓練してきた。用いた教材は、画像と、それに人間がつけたキャプションだ。そのおかげでこのシステムは、画像中の物（砂、凧、人）を認識するだけでなく、説明的な文章を生成できる。精度の高いモデルを作るための鍵は、物と物の関係、という要素を導入したことだ。たとえば上の写真では、男の上に凧があるのではなくて、男が凧をあげているのだ。

>画像提供: Google

チームは、このモデルは教材中の語句をオウムのように真似しているのではない、と主張する。たとえば左の例では、複数の画像のパターン（左図の左）を合成して、これまで見たことのない画像（左図の右）のためのキャプションをオリジナルに作っている。

この画像キャプションモデルのこれまでのバージョンは、一教材につきNvidia G20の上で3秒の訓練時間を要していた。しかし今日オープンソース化されたバージョンでは、その1/4、0.7秒だ。昨年はMicrosoft COCOと横並びにまでこぎつけたが、今のバージョンはそれよりさらに高性能、ということだろう。

数か月前にラスベガスで行われたComputer Vision and Pattern Recognitio（コンピュータービジョンとパターン認識）カンファレンスでGoogleは、このモデルについて説明し、画像中の物を認識できるだけでなく、人間がキャプションをつけた画像で訓練することにより、画像中のばらばらの要素を組み合わせてキャプションを作れる、と述べた。

物をコンテキスト（それが置かれている文脈、状況）に結びつけることは人工知能の長年の難関だったが、このキャプションモデルはそれの解決に向けての第一歩かもしれない。コンピューターが画像や映像を見て状況を認識できるようになったら、たとえば、警察から逃げようとしている人と、そのおそろしい場面から逃げようとしているたまたま居合わせた人とを、正しく区別できるだろう。

[原文へ]
（翻訳：iwatani(a.k.a. hiwa））

IBMとMIT、視覚と聴覚を人間のように理解するAIを共同研究

人間は何かが起きたのを見たり聞いたりした時、すぐにそれを言葉で表現できる。「青いシャツの女の子が、野球選手の投げたボールをキャッチした」とか「犬が海辺を走っている」とか。私たちにとっては簡単なしごとだが、コンピューターにとっては恐ろしく大変だ ― 幸い、IBMとMITが協力して、それを少しやさしくする方法を検討している。

新設の “IBM-MIT Laboratory for Brain-inspired Multimedia Machine Comprehension” （略してBM3Cと呼ぶことにする）は両組織による複数年にわたる共同プロジェクトで、コンピュータを使った視覚と聴覚の問題を集中して研究する。

チームを率いるのは、MITの脳認知科学科長、Jim DiCarloで、同学科とCSAIL（コンピュータ科学・人工知能研究所）およびIBMのWatsonチームのメンバーが新研究所に参加する。両組織間に金銭の授受はなく、特定の製品開発も行わない。活発で願わくば成果を伴う相互援助が生まれることを目標としている。

視覚情報処理の問題は様々な専門分野にわたるため、様々な方向から取り組む必要がある。例えば、カメラで物体を綿密に追跡できたとしても ― 物体を背景から切り分ける方法を知らなければ役にたたない。それができたとして ― 物体を認識できなかったら？さらには物体同志の関係も確定させなくてはならない…いずれも人間の脳が最も得意とするところだ。

この分野にはGoogleも非常に関心を持っている。これは写真の要素を識別することに関する最近の研究論文だ。

これは研究所の名前に “brain-inspired”［脳からアイデアを得る］が入っている理由でもある。人間の神経回路網の働くしくみをモデルにしたバーチャル神経回路網を使うことによって、研究所ではコンピュータが周囲の世界を解釈する方法について、あらゆる種類の興味深い成果を生み出してきた。

MITとのこの共同研究は、IBMが最近いくつか実施してきたものの一つだ。同社の認知コンピューティング担当VP、Guru Banavarが、ブログに詳細を書いている。他の共同研究には、意志決定のためのAIの研究、サイバーセキュリティー、言語のディープラーニング等がある。IBMは間違いなくAIの基礎研究に多大な投資をしてきており、万全の準備を整えようとするのは当然だ。これらの共同研究全体で、”Cognitive Horizons Network” と呼ばれるグループを構成している。

「現在われわれは、AIシステムの安全で倫理的な運用を支援するための、ベストプラクティス・システムを準備している。そこでは社会の規範や価値との一致も考慮される」とBanavarは書いている。

それがどんなものであるにせよ、社会の規範や価値が変化する速さを踏まえると、10年後の社会がどうなっているかも、どんなAIができているかも予測することは容易ではない。

[原文へ]

（翻訳：Nob Takahashi / facebook）

この検索エンジンは、自分の顔を検索結果と交換する

ウェーブのかかった長い髪の自分を想像したことはあるだろうか。きっと素適だろう。しかし、大枚をはたいてサロンに行ったり、Photoshopに何時間も費やすことなくいろんな髪型を試すにはどうすればいいだろうか。必要なのは自撮り写真とDreambitだけ。顔を交換できる検索エンジンだ。

システムはあなたの顔写真を分析して顔だけをうまく切り取る方法を見つける。次に、検索ワード ― 例えばカーリーヘア ― と一致する画像を検索し、あなたにあった位置に顔のある写真を探す。

ターゲットの画像に対しても同様のプロセスで顔マスクし、あなたの顔で置き換えれば出来あがり！カーリーヘアのあなたを何度でも何度でも試せる。ちょっと「マルコビッチの穴」のシーンを思い出させる。ただし相手の顔や状況によってはいくらでも薄気味悪くなる。その点ケリー・ラッセルはどんなヘアスタイルでも美しく見えることが下の図からわかる。

The process by which faces are detected, masked, and replaced.

交換するのはヘアスタイルに限らない。映画でも場所でも絵画でも、交換できる位置に顔があれば置き換えてくれる。顎ひげのある人等、縁を見つけくい顔はうまくいかないことがあるので、ラスプーチンやガンダルフと入れ替わることはできないかもしれない。

Dreambitを作ったのは、ワシントン大学でコンピュータビジョンを研究するIra Kemelmacher-Shlizermanだ（彼女は顔認識と拡張現実でも興味ある研究をしている）。そしてこのシステムは楽しく遊ぶためだけではなく、もっと本格的な応用の可能性も持っている。

Kemelmacher-Shlizermanは自動エイジ・プログレッションという過去の写真から現在の顔を合成するシステムも作っている。これは行方不明者の捜索に役だつ。

「行方不明の子供たちは、髪を染めたりスタイルを変えることが多く、顔だけのエイジ・プログレッションでは十分ではない」と大学のニュースリリースで彼女は語った。「これは行方不明者の容姿が時間と共にどう変わるかを想像する第一ステップだ」。

Kemelmacher-ShlizermanはTechCrunch宛のメールで、ソフトウェアはまだまだベータ段階でFBIが使うようなものではないと言っている。

Dreambitとその背後で動くプロセスについては来週SIGGRAPHで発表されるが、彼女の論文、“Transfiguring Portraits”は今すぐ読むことができる。

[原文へ]

（翻訳：Nob Takahashi / facebook）