Facebook主催のアイトラッキングコンペで東京のクーガーが世界3位に入賞

Facebookが主催するアイトラッキングの認識精度を競う「OpenEDS(Open Eye Dataset)Challenge」は、世界各国からコンピュータビジョンの研究者が挑戦するコンペティションだ。大学などの研究機関も参加するこのコンペの結果が9月30日に発表された。コンペの2つの課題のうち、2D画像の眼球位置を推定する「Semantic Segmentation Challenge(セマンティックセグメンテーションチャレンジ)」では、東京・渋谷に拠点を置くクーガーのチームが提出したAIモデルが世界3位を獲得している。

VR/AR普及のカギ、視線追跡の「精度」と「軽さ」を競う

VR/ARが注目を集める中で、スマートグラスの装着時に視線や眼球の動きを追跡する「アイトラッキング」の需要は高まっている。深層学習の進歩によりアイトラッキング領域でも成功例は出てきている。ただしCPUの性能にはまだ限界があり、リアルタイムでの精度の高い計算には制限がある。

また安定した効率的な機械学習ソリューションを用意するためには、異なる条件下にある何千人ものユーザーから、大量で正確な学習データを取得する必要がある。しかしコスト面でも正確性の面でも、実際には収集できるトレーニングデータの量と品質には制約がある。

VRデバイス「Oculus Rift」や「Oculus Go」などの製品も持つFacebookが、OpenEDS Challengeを開催し、機械学習やコンピュータビジョンの研究者の参加を求めるのには、こうした背景がある。OpenEDS Challengeでは、2つの課題が提示された。

1つは、2D画像から眼の瞳孔や虹彩、強膜、そしてその他の部分の位置を正確に推定する「セマンティックセグメンテーション」。もう1つは、入手が困難な現実の視線データに代わり、現実的な眼の画像を合成して効率的なデータ学習が行えるようにする「Synthetic Eye Generation(シンセティックアイジェネレーション)」だ。

このうちセマンティックセグメンテーションの課題で、クーガーに所属するDevanathan Sabarinathan氏とDr. Priya Kansal氏によるAIモデルが3位にランクイン。さらにこのモデルの独自性が評価され、11月に韓国・ソウルで行われるコンピュータビジョンのカンファレンス「ICCV」ではこのモデルについての論文が採択され、発表が決定している。

既存手法を活用してコンペ条件をクリア、入賞も果たす

セマンティックセグメンテーションの技術は、VR/ARデバイスなどで視線追跡を行うときに、2D画像の正確な認識、つまり眼の重要な領域(強膜、瞳孔、虹彩)とそれ以外の領域をピクセル単位で区分するために必要なものだ。認識の精度の高さとリソース消費の少なさが求められるため、今回のFacebookのコンペでは「モデルの精度」「モデルサイズの軽量化」の視点で審査が行われた。

クーガーが発表したEyeNetモデルによる認識結果画像

今回クーガーが発表したモデル「EyeNet(アイネット)」は、7月に米国で開催された別のコンピュータビジョンに関するカンファレンス「CVPR」で同社が発表した、骨格認識のモデル「SkeletonNet(スケルトンネット)」をベースに開発された。OpenEDS Challengeでは、高精度を保ちながら、モデルサイズを2MB以下、モデルのパラメータ数(複雑さ)を40万以下に抑えるという条件をクリアしなければならない。結果、クーガーのモデルは提示されたベースラインをクリアしただけでなく、世界3位を獲得することができた。

ベースラインのモデルの数値:
mIoU: 0.89478
Model Complexity: 416,088.00000
Total Score: 0.76240

クーガーのモデルの数値:
mIoU: 0.95112 (6.3%の向上)
Model Complexity: 258,021.00000 (38%の向上)
Total score: 0.97556 (28%の向上)

このコンペティションで上位入賞を果たしたチームは認識精度を上げるうえで、主にデータの前処理での工夫に注力している。クーガーは、インプットデータのどの部分を重視するかを決定する「アテンション機構」の複数使用や、Microsoft Researchが2015年に考案した、高い画像認識能力を持つニューラルネットワークモデル「Residual Network」を組み合わせることなどによって、モデルの精度を向上しながら軽量化も果たしたという。

より自然なコミュニケーションのために人型AIアシスタントを開発

クーガーは2006年の創業。ホンダへのAI学習シミュレータ提供や、Amazonが主催するロボットコンテストAmazon Robotics Challenge(ARC)上位チームへの技術支援、NEDO次世代AIプロジェクトでのクラウドロボティクス開発統括などで知られる。ゲームAI、画像認識AI、ブロックチェーンの分野に強みがあり、現在は人型AIアシスタント「Connectome(コネクトーム)」の開発・提供に力を入れている。

クーガー代表取締役CEOの石井敦氏は「人型AI、バーチャルヒューマンエージェントには、ゲームAIによる生きているように感じるキャラクター性、視覚情報から状況を理解する画像認識能力、情報の信頼性を担保し、安全にデータを扱うブロックチェーン技術の3つすべてが必要」と話す。「当社は3つの分野それぞれで、世界トップクラスの技術を持っている。そのうちの画像認識領域での成果のひとつが、今回のOpenEDS Challengeでの3位入賞だ」(石井氏)

Connectomeは音声認識、映像認識、そして表情やしぐさから感情を認識する機能やジェスチャーを認識する機能を持つ。

コンピュータのモニターやデジタルサイネージで動く「モニターモード」やタブレット、スマホのようなモバイル機器で動く「ARモード」が開発されており、ショッピングセンターやコワーキングスペースなどの施設の案内や利用者とのコミュニケーション、イベント実況などで活用が進められている。

「Siri」や「Googleアシスタント」をはじめ、スマートスピーカーなど音声によるAIアシスタントはある程度、一般化してきたが、わざわざ人間のように振る舞うエージェントを用意するのはまだ、ハードルも高い部分もある。また、中には「機械やキャラクターでも用が足りるのに、必ずしも人型にすることはないのではないか」という論もある。石井氏に人間のようなインターフェースを持つ、バーチャルヒューマンエージェントを開発する意図を聞いてみた。

ロチェスター大学の研究では、バーチャルヒューマンとASD患者の10代の若者たちが会話するプロジェクトで、患者の60%が実際の人間より話しやすいと回答している。また、南カリフォルニア大学の調査では、音声のみでコミュニケーションを取るときと比較して、バーチャルヒューマンを使った場合、応答率は17%増加し、応答時間は19%増えたという結果もあり、人型が相手の方が利用者が出す情報量が増え、共感が生まれることが分かっている。人型AIの方がコミュニケーションがより自然になり、人間の信頼度も上がる。特にヘルスケア領域などでは、キャラクターよりも人のようなもの、より人に近いものと話したい人は多いと考えている」(石井氏)

石井氏は「目線の分析はもはや当然になっていて、より細かな分析へと焦点は移っている」として、バーチャルヒューマンエージェントへの画像認識技術の応用について、こう語った。「クーガーではコンピュータビジョンの分野で強みを持ちながら、バーチャルヒューマンを開発している。またバーチャルヒューマンエージェントのSDKを他社にも提供することで、ユースケースの拡大を図っている。ゆくゆくは今回発表したアイトラッキングの認識技術をSDKにも取り込むつもりだ」(石井氏)

「メルカリ」に写真検索機能が登場、商品名が不明でもAIで探せるように

メルカリは3月18日、フリマアプリ「メルカリ」に「写真検索機能」を追加した。

この機能は商品検索の際、スマートフォンのカメラで撮影した写真から、同じ商品や似ている商品を探し出せるというもの。ブランド名や商品名がわからず、テキスト検索できない商品を、写真を読み込むことで検索できるようにした。

写真の中に写り込んだいろいろなアイテムの中から、検索したいアイテムだけを調整して、枠線内に絞り込む機能も付いている。

写真検索機能は、機械学習、深層学習といったAI技術を活用して実装されている。メルカリでは、サービス開始以来、約5年間で蓄積された、数十億規模の商品情報のデータセットを生かし、精度の高い予測モデルの構築を実現。さらに今後も学習させ続けていくことで、その精度を進化させることができるとしている。

写真検索機能に対応するのは、現在はiOS版のみ。Androidほかの機種には順次追加していく予定という。

スマホで写真を撮るだけでメーター読み取りと台帳記入ができる「hakaru.ai」

GMOインターネットグループのGMOクラウドは1月24日、メーターをスマートフォンで撮影するだけでAIが画像認識で値を読み取り、集計・台帳記入を自動で行う「hakaru.ai byGMO」(以下、hakaru.ai)を提供開始すると発表した。

工場やビル管理などの現場では、作業員がメーターを目視して値を集計するという業務がある。この業務の効率化と、人的ミス防止のために開発されたのがhakaru.aiだ。同サービスの導入は簡単で、メーターに専用のQRコードシールを貼るだけ。あとは、スマートフォンのカメラでメーターの値とQRコードを一緒に写すだけで、Web台帳へとリアルタイムに記帳される。読み取ったデータをグラフ化するなどの作業も簡単にでき、異常発生時には管理者へ自動通知する機能も備えている。hakaru.aiは針で値を示すアナログメーター、デジタルメーター、昔のクルマの走行距離計でおなじみの回転式メーター(5ケタ)に対応している。

これまでにも、メーターの読み取りのためにカメラを設置するなどのサービスは存在していたが、それに比べてhakaru.aiの導入に必要なのはQRコードシールを貼るだけと、導入時のコストや手間は圧倒的に低いことが特徴。

hakaru.aiは2018年7月にベータ版を開始。応募があった53社のうち、これまでにビル管理会社など31社に導入済みだという。

Microsoftが、企業たちに顔認識技術への行動規範を採用するよう呼びかけた

この夏に、MicrosoftのBrad Smith社長は、顔認識技術が世界中でどのように使われているかをよく精査して欲しいと、各国の政府に呼びかけた。そして今週、彼はまた似たようなメッセージと共に再登場した。今回彼は、業界の企業たちに向けて、顔認識技術があまりにも深く浸透してしまう前に、この技術に関連する無数の課題に取り組むように呼びかけている。

既に事態が進展していると指摘することは容易だ。結局のところ、顔認識技術は、FacebookからApple Animojiに至るまで、あらゆる場所に既に普及している。しかし過去1年間が、私たちに教えてくれたことがあるとすれば、それは世界中の政府が、この技術を今にもより広範に取り入れようとしているということだ。そしてそれを喜んで助けるテック企業は沢山ある。

Smithはこの技術がもたらす可能性のある3つの落とし穴について指摘している。バイアスのかかった結果、プライバシーの侵害、そして大規模監視である。ACLU(アメリカ自由人権協会)は、しばしば第1の点に対して警告を発しており、議会に対して監視技術の一時停止を行うよう要求している。このグループは、AmazonのRekognitionソフトウェアが、議会メンバーの東武写真を、犯罪者の写真と混同して関連付ける例を示した。

この新しい呼びかけでMicrosoftは、テック企業たち自身に技術的規制の苦労を押し付けている法的整備の遅れに不満を唱えている。「この競争に対して徹底的に身を守る唯一の手段は、健全な市場競争を支える、責任ある基盤を構築することだけだと考えています」とSmithは書く。「そして堅固な基盤を得るためには、技術やそれを開発し利用する組織が、法律によってきちんと規制される必要があるのです」。

言い換えれば、Smithが言うように「壺から出た魔神をもとに戻すことはできない」のだ。そこでMicrosoftは、独自の規制を採用して、基本的な態度を決めようとしている。来年の第1四半期までに独自のルールを制定する計画だ。

そのルールには、企業たちが、起こり得る厄介な落とし穴を避けるために実施することのできる、多くの安全策や検討事項について詳細に記述される。推奨事項の中には、透明性の確保、第三者テスト、人間による技術レビュー、テクノロジーを適用して良い適切な場所とタイミングといった、極めて常識的なものが含まれている。正直なところ、上に挙げたようなことは、どれも簡単で実施可能なものばかりだ。

Microsoftはこうした提案を、来週にも発表されるより詳細な文書でさらにフォローする。その文書は、他の人びとや団体に対してその適用をどのように広く適用すべきかの助言を求めつつ、計画に対して入念な詳細記述を行うものとなる。

写真クレジット: Frank Graessel / EyeEm

[原文へ]
(翻訳:sako)

マヤの巨大古代都市を発掘したレイダーは考古学を変革するか

考古学は、最新テクノロジーとは縁遠い分野のように思われる。AIやロボットは、実地調査の過酷な現場ではまだ心もとない。しかし、ライダー(Lidar)は画期的な技術であることが実証された。とは言え、数千平方キロメートルにおよぶ古代の数百万都市を、レーザーを使った画像化処理技術でマッピングするという最新の調査で、やはり経験と眼識にとって代わるものはないことを、研究者たちは実感した。

Pecunamライダー・イニシアチブは2年前に発足した。研究者と地元自治体が手を組み、グアテマラで長年研究対象となってきた保護区域での最大級の調査を行うことを目的にしている。この調査では、ペテン県マヤ生物圏保護区の、およそ2144平方キロメートルがスキャンされたが、その周辺の、開発されて人が住んでいる地域や、その他の重要と思われる場所もこれに含まれている。

プロジェクトの成功を示す試験的な画像とデータが、今年の初めに発表されたが、研究者たちはその後、本格的なデータ解析を行い、その広範にわたる結果を要約した論文をScienceに掲載した。

イニシアチブが調査した区域。見てわかるとおり、国の5分の1にも及んでいる。

「これほど広範囲な古代の風景を一度に見ることは、これまで不可能でした。このようなデータセットは存在しなかったのです。2月の段階では解析は、実際の量的な意味において、まだひとつも行われていませんでした」と、共同著者でチューレン大学のFrancisco Estrada-Belliは私に話してくれた。彼は、チューレン大学で、Marcello Canutoを含む他の同僚研究者たちとプロジェクトを進めている。「基本的に私たちは、不規則に広がる巨大な都市圏と、農業に関する広大な地物を発見したと発表しました。それから9カ月におよぶ作業で、そのすべてを数量化し、私たちが得た痕跡の一部を、数値的に確認しました」

「私たちの主張がすべて正しかったと知るのは、嬉しいことです」と彼は言う。「一部には、誇張して伝わっていたようですが」

ライダーのデータは無人運転車両で集められたわけではない。聞いた限りでは、たった1台の車で行われている。ドローンすらなく、普通の飛行機が使われた。非効率なように思われるだろうが、調査区域の広さと地形の事情のために、それ以外の方法はとれなかったのだ。

「ドローンは使い物にならなかったでしょう。あれだけの範囲をドローンでカバーするのは不可能です」とEstrada-Belliは説明する。「私たちは、テキサスから飛んできた双発の飛行機を使いました」

飛行機は、ひとつの「ポリゴン」、つまり、おそらく長さ30キロメートル、幅20キロメートルの区画の上空を何十回と飛行している。機体の下部には「多波長、多チャンネル、多スペクトル、狭パルス幅ライダーシステム、Teledyne Optech Titan製Titan」が装備されている。読んで字の如しの装置で、冷蔵庫ほどもある大型の極めて頑丈な機械だ。森の木々を透かして地面の映像を撮影するには、これだけのシステムが必要になる。

何枚もの重複する画像をつなぎ合わせ、補正して、1枚の驚くほど高精細な地面のデジタル画像が作られた。

「私が、それこそ何百回も歩いていた場所の地物を特定してくれたんです」と彼は笑う。「大きな土手道のようなところで、その上を歩いていたのです。しかし、とてもわかりづらい。大量の下生えやら樹木やらで覆われている。つまりジャングルですよ。あと20年歩いていても、気が付かなかったでしょうね」

しかし、そうした構造物は自動的に発見されるわけではない。3Dモデルを見ただけで「これはピラミッド、これは壁」などと具合に識別できるコンピューター・ラベリング・システムは存在しない。それは、考古学者にのみ可能な作業だ。

「実際には、地表データの手作業から始めます」とEstrada-Belliは言う。「私たちは、自然の地形の地表モデルを作りました。画像の中のピクセルは、基本的に高度情報です。そして、いろいろな方向から光をあてて起伏を強調させる照明をシミュレートするフィルターを何重にもかけて、その画像を半透明にして、いろいろな方法を使ってシャープにしたり強調したりして、つなぎ合わせていきました。長時間コンピューターの画面を見つめるという作業を終えた後、それをデジタイズします」

「最初のステップは、視覚的に地物を特定することです。もちろん、ピラミッドはすぐにわかりますが、微妙な地物もあります。識別できたとしても、それがなんであるか、わからないのです」

ライダーの画像から、たとえば、低い線上構造物が浮かび上がる。それは人工物であるかも知れないし、天然の地形かも知れない。それを見分けるのはとても難しいが、周囲の状況や学者としての知識がそれを補う。

「そして、すべての地物をデジタイズする作業に移りました。全部で6万1000個の構造物があります。すべてを手作業で行わなければなりません」とEstrada-Belli。なぜ9カ月もかかったのかと疑問に思われた方のために、彼はこう説明している。「デジタイズは経験に基づいて行われる作業なので、自動化はできないのです。AIにも期待しました。近い将来、それを利用できるときが来るでしょうが、今は経験を積んだ考古学者の目のほうが、コンピューターよりも確実に地物を見分けることができます」

注釈の密度がマップから見てとれると思う。その地物の多くは、今の時点で現地調査によって確認されたものであることに注目して欲しい。既存の地図を見ながら、人間が実際にその土地に行く。そして、その地物が錯覚であったり、期待の産物であったりしないことを確認する。「すべてはそこに存在していると、私たちは確信を持っています」と彼は言う。

  1. pyramid_lidar

  2. pyramid_uncovered

  3. temple_real

  4. temple_lidar

  5. flightlines

「次のステップは数量化です」と彼は説明を続ける。「長さと面積を測定して、ひとつにまとめます。それを、普通にデータセットの解析を行うときと同じように、解析します。地域ごとの構造物の密度、都市や畑の広がりなどです。さらに、農産物の収穫量を推測する方法も編み出しました」

そこが、画像が単なる点の集まりから学術研究に移行するポイントだ。マヤのこの地域には大きな都市があると広く知られていて、何十年間にもわたり熱心な調査が続けられてきたのだが、Fundación Pacunam(Patrimonio Cultural y Natural Maya:マヤの文化及び自然遺産財団)の研究は、これまで使われてきた従来型の調査方法を進化させるものとなった。

「これは膨大なデータセットです。膨大なマヤの低地の断面図です」ととEstrada-Belliは話す。「今はビッグデータが流行り言葉になっているでしょ? 一度に一箇所を見るだけで、これまで決して見られなかったものが、実際に見えるようになるのです。ライダーがなければ、これだけ膨大なパターンの統合はできなかったでしょう」

「たとえば、私の地域では、47平方キロメートルをマッピングするのに15年かかりました」と彼は少し悔しそうに言った。「それが、ライダーを使えば2週間で308平方キロメートルをマッピングできます。私にはまったく太刀打ちできない精細さでね」

その結果、論文には、非常に多くの新理論や結論が書かれることになった。人口と経済の規模の推測、文化的、工学的な知識、隣国との紛争の時代や内容などだ。

この論文は、単にマヤの文化と技術に関する知識を高めたばかりでなく、考古学という学問そのものを進歩させるものとなった。もちろん、何事もそうだが、こうしたことが繰り返される。Estrada-Belliは、ベリーズとカンボジアで同僚が実行した調査から刺激を受けたと話している。彼らの研究は、広大な領域と膨大なデータセットの新しい処理方法の実例を示すという点で貢献してくれた。

実験と現場の作業を重ねることで、その方法はより確かなものになる。そしてそれが広く受け入れられ、人々が模倣するようになる。彼らはすでに、その方法が有効であることを実証した。この研究は、おそらく、考古学でのライダーの可能性を示す、最良の実例となるだろう。

いまさら聞けないライダー(Lidar)入門

「はっきり言って、これほど強力な技術は見たことがありません。地表にあるものですら、その詳細はまだほとんどわかっていないのです。ライダーは、人工の地物のほとんどを、明瞭に、一貫性をもって、わかりやすく特定してくれます」と、共同著者のStephen Houston(ボストン大学)は電子メールで話してくれた。「AIやパターン認識は、地物の発見の精度を高めてくれるでしょう。ドローンも、こうした技術のコストダウンに役立つと期待しています」

「こうした技術は、発見だけでなく、保護にも役立ちます」と、共同著者でイサカ大学のThomas Garrisonは電子メールで指摘した。「遺跡や人工物を3Dスキャンすれば、詳細な記録が残せます。3Dプリントでレプリカを作ることも可能です」

ライダーの画像処理技術は、略奪の程度を知ることにも役立つと、彼は書いている。文化担当の行政機関も、略奪者より前に、遺品や遺跡の存在を知ることができる。

研究者たちは、すでに次の調査を計画している。最初の実験が成功したことで資金を獲得し、二回目はさらに多くの航空調査を増やす予定だ。おそらく、最初の実作業が終わることには、この数年間に流行ったツールが使えるようになっているだろう。

「今後、飛行機の利用料が安くなるとは思えませんが、機材はもっとパワフルになります」とEstrada-Belliは話す。「もうひとつの方向性としては、プロジェクトをスピードアップできる人工知能の発達があります。少なくとも、調査の必要のない場所を除外して、時間の節約を図ると同時に、もっとも可能性の高い場所に狙いを定めることが可能になるでしょう」

また彼は、そのアイデアをインターネットで公開することにより、アマチュアの市民考古学者たちが一緒に考えてくれるようになることを大いに期待している。「私たちと同じ体験をすることはできないでしょうが、人工知能と同じく、短期間に大量の上質なデータを生み出せることは確実です」と彼は言う。

しかし、彼の同僚たちが指摘するように、この数年間のライダーを使った作業は、下準備に過ぎない。

「これは最初のステップであり、数えきれないほどのアイデアの実験、何十もの博士論文につながるものであることを、強調しなければなりません」とHoustonは書いている。「それでも、地表の下に何があるのかを調べる採掘や、廃墟から明確な年代を推論する作業は必要です」

「社会科学や人文科学など数々の学問分野と同様に、考古学もデジタル技術を採り入れています。レイダーはそのほんの一例に過ぎません」とGarrisonは書いている。「同時に私たちは、デジタル・アーカイブに関する問題(とくに古いファイル形式によるトラブル)を意識する必要があります。そして、テクノロジーは、何世紀にもわたり試され、正しいと証明された情報管理方法に取って代わるのではなく、それを補うものとして使うことが重要です」

彼らの論文は9月28日にScienceに掲載されているので、研究の結果を詳しく知ることができる(考古学者や人類学者なら、いっそう楽しめる内容だ)。Pacunamの今後の活動については、このサイトを見ていただきたい。

[原文]
(翻訳:金井哲夫)

Google Lensが画像検索にやってくる――自分が見ているのが何なのか即座に分かる

今日(米国時間9/24)、Googleがサンフランシスコで開催した小さなプレスイベントで、検索に重要な新機能が準備されていることが判明した。近く画像検索でGoogle Lensがサポートされるという。

念のため復習しておくと、現在はGoogle Lens(Googleフォトの一部、あるいは専用アプリ)をタップするとGoogleのコンピューター画像認識機能が対象画像に関連する詳しい情報を提供してくれる。これによりユーザーは自分が見ている画像が何であるかを知ることができる。

Googleがデモした例でいえば、 育児用品(nursery)で検索するとベビーサークルや乳母車の画像がヒットする。ユーザーは表示された乳母車の一つを買いたいと思うかもしれない。しかし現在の検索インターフェイスではその画像だけを頼りに買おうとするとかなり難しいことになる。「乳母車」プラス、好みの色その他のキーワードを入力して改めて検索する必要がある。

しかしLensボタンが表示されていれば簡単だ。ボタンをクリックするとGoogleはコンピュータービジョン能力を総動員して画像を解析し、それが何であるか突き止めようとする。乳母車ではなく、背景に写っているランプが気に入ったのなら、指でランプを押さえればその部分にフォーカスが移る。

解析可能なのは乳母車や照明器具ばかりではない。写っている犬の種類から名所旧跡、アパレル、自動車、その他さまざまなカテゴリーがカバーされる。十分詳細な画像が得られGoogleの人工知能がそれを認識できる場合、Lensは対象の画像がどこから来たかを遡って調べ、詳しいデータを教えてくれる。

Google画像検索にLensがやってくるのは今週後半になる予定。

原文へ

滑川海彦@Facebook Google+

Google Street ViewのライバルMapilleryは、Amazonと協力して3億5000万枚の画像DBからテキストを読み込んでいる

スウェーデンのスタートアップMapillaryは、クラウドソーシングによるストリート映像を使うことで、Googleやその他の企業たちに世界の地図化で対抗することを狙う企業だ。そのMapillaryがこのたび、そのプラットホームの開発の中で興味深い一歩を踏み出した。同社は現在、Amazonと協力し、特にそのRekognition APIを使って、Mapillaryの3億5000万枚の画像データの中から、テキストを検出し読み込もうとしている。

新機能の最初のアプリケーションは、米国の大都市(まだどの都市かは発表されていない)で使えるもので、路上のパーキングサイン(路上駐車の条件を表す標識)から「読み取れる」情報を用いて、パーキングアプリを開発する予定だ。

 

「路上駐車はとても関心が高く、路上駐車情報はMapillaryを使う人たちがもっとも求めているデータの1つなのです」と語るのはスウェーデンのマルモに拠点を置くMapillaryの、CEO兼共同創業者であるJan Erik Solemだ。彼は、路上駐車アプリは最初のアプリケーションであり、他の都市にも採用されることも期待されるが、やがてMapillaryの画像の中から読み取れるテキストとのマッチングを行う他のアプリケーションが登場するだろうと語った。それによって特定の場所の正確な緯度と経度をピンポイントで指定することが可能になる。「路上駐車は現代の都市における最大の問題の1つですので、私たちは米国のパーキングサインの読み取りから始めました。とはいえテキスト認識は多くの異なるタイプのオブジェクトや画像に適用することが可能です、例えばビルの正面など」。

都市が路上駐車の状況をしっかりと把握していないというのは奇妙に思えるかもしれないが、実際にこれはよくあることなのだ。Solemによれば、多くの都市は路上駐車規制を表すアナログ地図を持つだけのことが一般的で、大部分の都市ではデジタル化されていない。そのことが意味することは、もし都市が新しいサービス(特に路上駐車料金もしくは路上駐車違反の罰金から収益を得るためのサービス)を構築しようとしたり、あるいはもっと沢山の路上駐車スペースが必要か否かを考慮しようとした時に、それを検討するためのデータセットを持っていないということだ。

Mapillaryは、路上駐車問題は米国内の合計で730億ドルのコストがかかっているという調査結果を引用した、おそらくそれは人びとが超過駐車の罰金として払うものだけでなく、駐車場所を探すのに浪費するガソリンなども含んでいる。しかしおそらく超過駐車を誰も気がつかないことによって失われる収益もあるだろう。

注目されるのは、MapillaryがそのRekognition APIの利用を、Amazonとの「コラボレーション」であると表現していることだ。私はこの表現の意味について尋ねたが、彼はこの件に関しては私とはあまり「コラボレーション」してくれなかった。

「Amazonが何をしているのか、何故そうするのかについてのコメントはできません」と彼は言う。「それを発表の一部に取り込むことができれば良かったのですが、今回は見送りになりました」。どうやら両社はここしばらく共同作業をしているようだが、それらは全てNDA(秘密保持契約)の下で行われているらしい。

Amazonは多くのことを地図の世界で行って来ている。しかしそれはサードパーティへのデータ提供か、あるいは自身のサービス向けの用途である。まず第一に、Amazonは強力な物流組織であり、そうである理由の一部はもちろん、マーケットプレイスで売買される商品を、集荷し配送配達するための最適な手段を発見する、インテリジェントな地域経路決定を行うことにある。

しかし、それは地図と場所がAmazonで使われる方法の一部に過ぎない。同社はHereの地図を使用しており、一時はその地図作成会社を買収することに関心があると噂されていた。一方、Amazonは、同社のデバイス向けに位置サービスを利用するアプリを開発したい開発者たちのために、Googleのものに似たマッピングAPIを開発した(その過程では他のマッピング関連特許と技術者の獲得も行われた)。

現時点では、それが主に意味することは、Fireタブレットと急増するEchoデバイスバリエーション向けのアプリを開発することだ。しかしAmazonはまた別の種類のハードウェアにも大いに注力している、例えばコネクテッドカーなどだ。

1月にはトヨタが、Alexaを統合するためにAmazonと協力していることを発表した。それとは別にAmazonは自動運転車のエリアの特許も取得し続けている。

言い換えれば、Google Mapsの実用的な代替物をストリートレベルの画像で提供するMapillaryのような会社に、明らかなチャンスがあると言うことだ。特に周囲の情報をインデックスして提供し、A地点からB地点までのもっとも効率の良い経路を算出するこうしたサービスで、Amazonの強力なパートナーとして働く可能性がある。

そしてこれは補足だが、他の人工知能プラットホーム同様に、Rekognitionもアプリケーションの中で使われるたびに学習を行う。AmazonはMapillaryとの協力を通して、路上の標識から、それは何を言っているのか、それが設置されているのはどこかといった、より詳細なデータを集めることになる。

Mapillary自身については、私自身もずっと興味深いスタートアップだと考えて来た。Solemはコンピュータビジョンの専門家で、以前経営していた顔認識スタートアップのPolar RoseをAppleに売却している。そして彼の現在のベンチャーはこれまでに2450万ドルを調達しているが、投資しているのはSequoiaAtomico、Navinfo、BMWとSamsungなどである。現在は潜在的な顧客たちとの関係を深めている最中だ。

そうした顧客の1つに、AmazonのマッピングプロバイダであるHereも含まれている。その他の企業はNDAのため公表されていない。彼らは一緒に、Mapillaryの画像をそのより広範なデータベースのために投入している最中だ。Solemによれば3億5000万枚の画像の80パーセントはWazeのように個人から投稿された物であると言う。「誰もが何らかの問題を解決したいと思っているか、あるいは世界の地図を修正したいと言う希望を持っているようです」と彼は言った。

テキスト認識とその読み込みは現在Mapillaryが取り組んでいる問題の1つだが、次の段階は、人びとがより多くの画像を、より自動的に取り込む支援を行うことになるだろう。「次の開発サイクルの私たちの製品は、人びとが対象をカバーし尽くす手助けをします」とSolemは語ったが、それ以上の詳細な説明は行わなかった。「私たちが開発しているのは、キャプチャタスクを展開するためのツールです」。

[原文へ]
(翻訳:sako)

画像クレジット: Ken Hawkins / Flickr under a CC BY 2.0 license.

この夏のDIYプロジェクトはAIが落書きを作りだすカメラがいいかも(コードはオープンソースだ)

長い夏の夜は、昔の回路基板などを取り出してきて埃を払い、何かを作り始めるのに適している。でもあまりアイデアが閃かない人は、アーチスト兼エンジニアのDan Macnishが作った、AIと感熱プリンターとRaspberry piと少々のPythonとGoogleのQuick Drawのデータセットを使う落書きカメラはどうだろう。

“ニューラルネットワークにオブジェクトを認識させて遊んでいたとき、これでポラロイドを作ってみたい、と思いついた。その‘ポラロイドふうカメラ’は、撮った画像を自分で解釈して、実物に忠実な写真ではなく漫画をプリントアウトするんだ”、とMacnishはブログに書いている。そのプロジェクトの名は、Draw This(これを描け)だ。

そのためにMacnishは、Googleのオブジェクト認識ニューラルネットワークと、ゲームGoogle Quick, Draw!のために作ったデータセット(落書き集)を利用した。この二つのシステムをPythonのコードで結びつけたMacnishの作品は、現実の画像をAIが認識し、Quick, Draw!のデータセットの中のそれにもっとも合う落書きをプリントアウトする。

しかし、出力の落書きはデータセットに限定されるので、カメラが“見た”ものと、その写真に基づいて生成されるものとの間に、不一致も生ずる。

Macnishは曰く、“写真を撮って、漫画を出力する。それは、カメラが実際に見たものの最良の解釈だ。でもその結果は、いつも意外だ。健康食のサラダの写真が、大きなホットドッグになることもある”。

実際に試してみたい人のために、Macnishはこのプロジェクトをビルドするために必要なコードとインストラクションをGitHubにアップロードしている。

画像クレジット: Dan Macnish

[原文へ]
(翻訳:iwatani(a.k.a. hiwa

顔認識技術のTrueface.aiがIFTTTを統合して多様な実用的利用が可能に

500 Startupsと多くのエンジェル投資家が支援している、まだステルス状態の顔認識スタートアップTrueface.aiが、IFTTTとの統合により、デベロッパーたちが同社の技術をいろいろ試せるようにしている。

CEOのShaun Mooreによると、IFTTTとの統合により初めて、同社の顔認識技術が、複雑なコードを理解する必要なく、多くの人が利用できるようになる、という。

同社は最初、ハードウェアとソフトウェアのベンダーだったが、2017年にハードウェアの取り扱いをやめて、ソフトウェアにフォーカスするようになった。

“われわれ自身がもっと幅広いアプローチを取ることによって、ハードウェアのデベロッパーが自分のやりたいことをできるようになる、と考えた”、とMooreは語る。

Trueface.aiが今集中しているデジタルの認識確認技術は、たとえば誰かが銀行の口座を開こうとするときの本人確認や、公証事務のデジタル化などに応用できる。しかも、“本人性や所有権の確認をリモートでできるようになる”。

その目標は、顔認識技術を誰でも使えるようにすることだ。そしてそのための第一歩が、IFTTTの統合だ。それによってデベロッパーやメイカーたちの知名度を上げることができる、とMooreは考えている。

  1. screen-shot-2018-01-25-at-2-52-47-pm.png

  2. screen-shot-2018-01-25-at-2-53-05-pm.png

  3. screen-shot-2018-01-25-at-2-53-17-pm.png

  4. screen-shot-2018-01-25-at-2-53-24-pm.png

“これ(IFTTTの統合)は、一般的にサードパーティがうちの技術を利用するときの、ひとつの形だと思う。たとえばスマートロックのLockitronがあれば、Truefaceが来客の顔を認識し、その判定に基づいてIFTTTがドアをアンロックする”。

その顔認識に使われる技術は、今やおなじみのディープラーニングだ。ソフトウェア専門で行く、と決める前のTrueface.aiは、本誌TechCrunchのニューヨークオフィスにやってきて、その前身的技術であるChuiをデモしたことがある(下のビデオ)。

その機械学習のモデルは、数百万もの顔の画像で訓練され、そしてユースケースによっては、人間の顔の数学的表現を生成することもできる(これを数学用語で埋め込み(mbedding)と言う)。

埋め込みを保存しておくと、他のモデルが本人性の推断に利用できる。同社のモデルは、生きた本人でなく、本人の顔写真でシステムを騙そうとしても騙せないようにできている。スマホのロック画面なんか、もうだめだからね。

IFTTTの統合とともに同社は、そのIDVerifyプロダクトによって同社の技術にユーザーを慣れさせようとしている。

すでに同社の技術は150か国以上の本人性証明ドキュメントと互換性があり、それらをTrueface.aiのWebアプリケーションやモバイルアプリケーションで利用できる。

Mooreは曰く、“何かを自分で作ることの好きな人たちも、うちの技術の立派なユーザーだ、と考えているよ”。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa

GoogleのAutoMLで誰もが機械学習を利用できる――プログラミング不要、ビジネス利用へも

今日(米国時間1/17)、Googleはいくつかの重要な発表をしたが、 AutoML Visionα版公開もその一つだ。このサービスはML(機械学習)についてまったく経験のない層も含めたデベロッパーに対して、カスタマイズされた画像認識モデルの構築を可能にする。Googleではカスタム機械学習モデルをAutoMLと名付け、画像認識以外の分野に応用を拡大していく計画だ。

現在AutoMLがサポートするのはコンピューター・ビジョン関連だけだが、近い将来Googleは機械学習が用いられる各種の分野(音声認識、翻訳などの自然言語処理、ビデオ処理等)でAutoMLのビルディング・ブロックが使えるようにしていくはずだ。

Googleによれば、AutoMLの基本的なコンセプトは、高度なプログラミングの能力を必要とせず、誰でも画像をアップロードするとGoogleのシステムが自動的に機械学習モデルを作成してくれるというものだ。

Googlによれば、すでにディズニーがこのシステムを利用してオンラインストアにおける検索機能の強化に成功している。ストアの訪問者がたとえば『カーズ』に登場するキャラクター、ライトニング・マックイーンを検索した場合、実際にその名前でタグづけされている商品だけでなく、ストア内のおしゃべりなレーシングカーの画像を横断的にピックアップできる。

このプロセスはデータのアップロードからタグづけ、MLモデルのトレーニングまですべてドラッグアンドドロップのインターフェイスで実行できる。MicrosoftもAzure ML Studioを提供しているが、Googleのサービスはこれとは全く性格が異なる。Azure MLはいまは亡きYahoo Pipesに似たインターフェイスを利用してユーザー自身がモデルを構築、訓練、評価するものだが、Googleの場合はシステム側が面倒な作業をすべて実行する。

最近の機械学習ブームで一般企業が機械学習やデータサイエンスのエキスパートを採用することはほとんど不可能になっている。需要の大きさに人材供給がまったく追いついていないのが実情だ。

GoogleのAI/ML担当チーフ・サイエンティスト、 Fei-Fei Liは今週開かれたプレスイベントで「人工知能、機械学習は依然として参入障壁が高い分野です。企業は専門的能力と大量のリソースを社内に用意する必要があり、これを実現できる企業はほんの一握りです。人工知能を活用できるデータサイエンティストが100万人いたらどんなに役立つでしょう。AIが素晴らしく役立つのに対して、カスタマイズされたモデルを作れる能力を持つ人々の数はあまりに少なく、必要とするリソースは大きいのです」と述べた。

  1. cloud-automl-screenshot-1.png

  2. cloud-automl-screenshot-2.png

  3. cloud-automl-screenshot-3.png

  4. cloud-automl-screenshot-4.png

  5. cloud-automl-screenshot-6.png

  6. cloud-automl-screenshot-7.png

  7. cloud-automl-screenshot-8.png

  8. cloud-automl-screenshot-10.png

  9. cloud-automl-screenshot-11.png

  10. cloud-automl-screenshot-12.png

  11. cloud-automl-screenshot-13.png

  12. cloud-automl-screenshot-14.png

  13. cloud-automl-screenshot-15.png

  14. cloud-automl-screenshot-16.png

GoogleによればAutoMLは市場に公開されたこの種のサービスとして唯一のものだという。正確にいえば Clarif.aiなどのシステムが同様のアプローチを用いているし、MicrosoftのCognitive Servicesもあらかじめ用意されたコンピューター・ビジョン・モデル音声認識意思決定プロセスなどをユーザーがカスタマイズすることができる(ただし現在これらのサービスはプレビュー段階)。

AutoML Visionsの利用にあたっては、デベロッパーはGoogleに申し込みをして招待を待つ必要がある。料金については明らかにされていないが、おそらくモデルのカスタマイズとトレーニングに関する料金とそのモデルにAPIを通じてアクセスする場合の料金に分かれるのだろう。

画像: Getty Images

〔日本版〕コンピューター・ビジョンに関するFei-Fei Li(李飛飛)のTED講演(2015年、日本語字幕つき)

[原文へ]

(翻訳:滑川海彦@Facebook Google+

CES2018:LGがテレビの映像改善にAIを興味深いやりかたで適用

一般的に、CESでもどこでも、ある会社が製品に「AI搭載」と謳(うた)うときは、一種の大言壮語だと思ったほうが良い。そして、今朝行われた、あまりぱっとしなかったLGのプレスカンファレンスでも、確かに大言壮語は行われていた。LGは、AIをこれまでになくスマートなやり方で適用することを発表したのだ。すなわちコンピュータービジョンを用いたインテリジェントな映像の改善である。

誇大広告に騙されやがってと非難される前に言わせて貰うなら、この機能は全く不要な代物で、多くの場合、よろしくないアイデアだ。高品質で正確に較正されたディスプレイパネルは、それだけで素晴らしい画像を見せてくれる。これに対してモーション補間やインテリジェントな細部の改善を加えてもおそらくそれを悪化させるだけのものだからだ。しかし、私はそれはクールなアイデアだと思った。

基本的な課題は以下のものだ:画面上の画像を眺めたとき、それを良く見せるためには様々なことを行わなければならない。例えば、色ムラは目立たないようにスムースにすることができるが、もしその操作がスクリーン全体に適用されてしまうと、重要な詳細が不明瞭になってしまうかもしれない。なので、スムースにするのはスクリーンの一部だけにしたくなるだろう。一方高コントラストの部分は、更に鮮明化したくなるかもしれない。

これは多くの手段によって達成することができるが、その1つの手段は画像の縁(ふち)をインテリジェントに検出するやりかたである。そうしたら、次にそれを断片に分割したり、強調のためにそれらの縁を鮮明化することができる。しかしそのやり方は、例えば建物が地平線と重なっているような場合などには、変な結果になる可能性がある。建物が地面の一部であるかのように、両者に同じ改善処理が施されてしまうからだ。基本的には、画像の異なる部分は異なる操作を必要としていて、それは必ずしも明らかではないのだ。

こうした改善を行わなくても、映像をきれいに見ることはおそらくできるだろう。しかし、画像の魅力をより高めたい場合には、個別に識別したい、別々の操作が必要となるのだ。

LGの最新のTVが実現していること、あるいは彼らが実現していると主張していることは、この問題に対して、実際の物体認識AIを適用することである。これは、特殊な形式ではあるものの、画像の中の顔を識別したり、何かが犬なのかそれとも猫なのかを区別してくれたりするものと、同じようなものだ。

この場合、基本的なオブジェクト認識でさえ、場面をより知的に解析するために使うことができる。例えば地形を建物から区別し、人びとと車を建物から区別し、テーブルの上のものたちをテーブル自身と区別する、といったことだ。

もちろん、全てが一度に手に入るわけではないだろう。LGの、この機能に対するステージ上での軽い扱いや、実際の詳細については言及がなかったことを思えば、この適用プロセスはまだ始まったばかりだということが想像できる。おそらくは現時点では全く機能していない可能性もある。

しかし、これは楽しいアイデアであると同時に、スマートなやりかただ。こうしたものをCESで目にすることは珍しい。このアイデアを賢く適用できたならば、例えばTV画面の中で激しく動く一部のオブジェクトを識別して、そこだけにフレーム補間を行ったり、どの種類の画像や物体に対して、鮮明化、色修正などを適用すべきかをユーザーに選ばせたりすることが可能になる。

私は数年のうちには、オブジェクト識別型の画像改善が、テレビの標準機能になることを期待している(もし今週中に解決しないとすればだが。何しろこれはCESなのだ)。とはいえ、勿論、真に有用で想像力豊かなアプリケーションの登場にはもう少し時間がかかるだろう。

[原文へ]
(翻訳:sako)

画像認識システムを騙して空港の警備をすり抜ける方法…Googleの研究者たちがステッカーで実験

機械学習のシステムは、有能ではあるが必ずしもスマートではない。彼らには、常識がない。そのことにつけこんだ研究者たちが、画像認識システムに対するおもしろい攻撃テクニックを作った。彼らが作った特殊なステッカーは、AIにとって、あまりにもおもしろくて興味深いので、結局そこに何も見いだすことができないのだ。そのステッカーが、アクセサリーとして流行りそうだ、とぼくが感じたのは、どうしてだろう?

コンピュータービジョンはものすごく複雑な問題であり、人間ですら、正しい画像認識のためには、認識の近道を必要とする。だから、コンピューターがそうであっても驚くには当たらない。

これらのシステムが取る近道のひとつが、すべての画素を同等に重要視しないことだ。たとえば、家の画像があって、その背後は青空、前面に草地があるとしよう。いくつかの基本的なルールにより、コンピューターにはこれが–空と草が写っていても–空や草の画像ではないことが分かる。そこでコンピューターはそれらを背景と見なし、中央にある形状の分析に多くのCPUサイクルを費やす。

そこで、Googleの研究者たちは考えた(PDF): もしもその近道が混乱して、コンピューターが家を無視し、なにか別のものに注意を注いだらどうなるか?

対戦相手となるシステムを訓練して、いろんな特徴のある小さな円〔上図左〕を作らせ、ターゲットのシステムを混乱させようとした。円には、いろんな色や、形、サイズがあり、それらのどれが画像認識システムの注意を引くかを見ていく。そのAIは、特定のカーブに着目した、とか、特定の色の組み合わせを背景ではないものと見なした、などなど。

そうやって、右図に示すような、サイケデリックな渦巻きがいろいろ出来上がった。

そしてそれを、システムが知っているもの…たとえばバナナ…の横に置くと〔上図タイトル画像〕、バナナのことは即忘れて、それが渦巻きの画像だと認識する。また、画像の中に名前のあるステッカーを作って既存の画像と合わせると、違った結果になる。

研究者たちはこれを、画像固有ではなくシステム固有を目指して行った。つまり、その画像認識システムに(特定の画像ではなく)これらの不思議な渦巻きのどれを見せても、混乱した結果を出力するように。

これは一体、何のための研究だろう? 具体的にはたとえば、数枚のこんなステッカーを衣服の上につけて空港の監視カメラの前を通ると、画像認識システムはその人が逃走中の強盗犯人であっても、見抜けないだろう(もちろん犯人の顔などは事前に訓練されている)。ただし、このシステム騙しに成功するためには、そのシステムをよく知り、大量のステッカーで事前にテストしなければならないだろうが。

コンピュータービジョンシステムを騙すもう一つのやり方は、画像に何度も小さな変更を加えると、それらのわざと置かれた画素によっては、銃の画像を亀と認識したりする。しかしこれらの、極端に局所化された“動揺と混乱”によって、新たな脅威が作る出されることがありえる。

われわれが実験したシステム攻撃は、現実世界でも有効である。しかも、ステッカーという、一見、人畜無害なものを利用する。これらの結果は、攻撃をオフラインで作っておき、それを広範囲にシェアできる、ということを示している。

人間はこの程度のパッチに気づくことができるが、でもその意図は見抜けずに、アートの一種かと思ったりするだろう。だから、小さな動揺混乱に対する防御策だけでは不十分である。もっと局所的で大きな動揺や混乱が、認識分類システムを無能化することもありえるのだ。

研究者たちはこの実験と結果を、ロングビーチで行われたNeural Information Processing Systemsカンファレンスで発表した。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa

Googleのストリートビューの大量の画像で近隣社会の投票パターンを正確に予想できる

コンピューターによる画像分析がテキストの分析と同じぐらい上手になることの兆候か、スタンフォードの研究者グループが、Googleのストリートビューから集めた数百万の画像に基づいて、近隣社会の投票パターンを正確に予想することができた、とThe New York Timesが報じている。人工知能を利用してGoogleのストリートビューを社会経済学的な目的のために分析する研究プロジェクトは、Streetchangeなど過去にもあったが、今回のプロジェクトは大量の画像をAIのソフトウェアが処理する点が新しい。

研究のリーダーはスタンフォードのコンピュータービジョンのサイエンティストTimnit Gebru、そして研究チームはソフトウェアを使って5000万点の街路画像と位置データを分析した。目標は、ひとつのzipコードで表される地域や、ひとつの街区(有権者人口1000人ぐらい)の住民の、さまざまな特性情報を予想するために使えるデータを見つけることだ。

そしてそれらの画像から彼らが取得できた情報は、約2200万台(アメリカ全体の約8%)の車のメーカーと車種 と年式、3000種のzipコード、そして39000の選挙区だ。それらのデータを、国勢調査や大統領選投票記録など他のソースから得た情報とつき合わせることによって、各近隣社会の平均所得や人種構成、教育、そして投票パターンを正確に予想することができた。

たとえばAIが車の分類をできるようになるために、チームはMechanical Turkなどから集めた数百名の人間と車の専門家を使って、何百万もの画像中の自動車を同定できるよう訓練した。その結果彼らのソフトウェアは、5000万の画像中の車をわずか2週間で分類できたが、Timesの記事によると、それをもし車の専門家である人間がやったら15年はかかるそうだ。

全米科学アカデミーの会報に載った記事によるとチームは、自分たちの技術が毎年2億5000万ドルもかけている国勢調査を補完するものだ、と主張している。国勢調査は調査員の戸別訪問方式で労働集約的であり、人口65000に満たないような小さな地区は見過ごされることも多い。技術の進歩とともに、人口統計はリアルタイムにアップデートされるようになるかもしれないが、しかし研究者たちによると、個人のプライバシーを守るためにはデータの収集はコミュニティのレベルにとどめるべきだ、という。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa

人間に教わらなくても自力で未来を予見でき、正しく行動できるロボットをカ大が研究中

ロボットは通常、リアルタイムで反応する。何かが起きると、それに応える。カリフォルニア大学バークリー校の研究者たちは、ロボットたちに“自分のアクションの未来を想像させる”システムを研究している。つまり、目の前にまだない「もの」や「こと」に対応できるロボットだ。

その技術は予見視覚(visual foresight)と呼ばれ、ロボットが“自分が一連のある特定の動きをしたらそのあと視界(ロボットのカメラ)に何があるか”を予測できるようにする。

研究者たちの言葉で表現すると:

この想像力ロボットはまだかなり単純で、数秒先の未来しか予見できないが、でも数秒あれば、テーブルの上の物を障害物にぶつからずに動かすには十分である。重要なのは、ロボットが人間からの介助なしでこれらの仕事のやり方を学習でき、またそのために、事前に物理や環境、物性等の知識も要らないことだ。なぜならこの想像視覚は完全にスクラッチから学習され、その探究を誰も補助したり監督しない。それでもなおロボットは、テーブルの上のオブジェクトとプレイできる。このプレイの段階でロボットは、世界の予測モデルを作り、そのモデルを使って、前に見たことのないオブジェクトでも操作できるようになる。

バークリー校の電気工学科/コンピューターサイエンス学科のSergey Levine助教授はこう語る: “人間が、自分がどう動けば物がどっちへどれだけ動くかを想像できるように、この方法ではロボットが、自分のいろんな行動がまわりの世界に与える影響を視覚化できる。複雑な現実世界の状況で、柔軟性の幅の大きいスキルの、インテリジェントなプランニング(行動計画)ができるようになるだろう”。

このシステムはたたみ込み型再帰ビデオ予測(convolutional recurrent video prediction)という方法で、“画像中の画素がロボットのアクションで次のフレームではどこへ移動するかを予測する”。それにより、物に触ったりそれを動かしたりする前に、次の行動をプランできるのだ。

Levineの研究室の博士課程の学生で、独自のDNAモデルを作ったこともあるChelsea Finnは、こう言う: “これまでは、ロボットによるスキルの学習は、付き添いの人間がフィードバックを提供することによって進行した。この研究がすごいのは、ロボットが物を操作するスキルを、完全に自力で習得することだ”。

そのロボットには、まわりの環境に関する情報も要らないし、特殊なセンサーも要らない。ただ自分の目(カメラ)に映った画像を分析して、正しく行動しようとする。それは、人間がテーブルの上の物を目で見ながら、落ちたり他の物を壊したりしないよう動かすのと同じだ。

“子どもたちは、おもちゃを動かしたり、握ったり、いろいろ遊びながら世界について学習する。この研究の目的は、ロボットにそれと同じことをやらせることだ。自律的な対話を通じて世界の形や構造を学習する”、とLevineは語る。“まだほとんど多芸ではないが、スキルを完全に自動的に学習することがキモだ。事前に観察した対話(“プレイ”)のパターンに基づいて、前に見たことのないオブジェクトでも、それらとのフィジカルで複雑な対話を予見できるようになる”。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa

AWSがAIを利用する企業顧客へのコンサルティング事業と高度な画像認識機能を発表

例年の大型カンファレンスre:Inventを来週に控えたAmazonのAWSが、人工知能関連の新たな展開を二つ発表した。まず、AWSは、機械学習のラボML Solutions Labを開き、機械学習のエキスパートと、AIによるソリューションを作ろうとしている顧客を結びつける。さらにAWSは、ディープラーニングによる画像認識APIベースAmazon Rekognitionの機能を拡充し、リアルタイムの顔認識と画像中のテキストを認識する機能を新たに加える。

新たなラボと画像認識プラットホームの拡充は、AmazonとAWSのAI推進努力の一環であり、社内利用とB2Bビジネスの成長材料の二面をねらっていると思われる。1か月前にAWSは、デベロッパーが自分のアプリケーションやサービスのために機械学習のモデルを構築し利用するためのディープラーニングライブラリGluonをMicrosoftと共同開発する、と発表した。

Amazonは昨年のre:InventでAWSのAIリソースのデベロッパー向け総合窓口Amazon AIを発表しているが、今年この時期(感謝祭の前日)にこれら二つの発表をしたということは、今年のre:Inventのための足固めか、それとも今年はAIにあまりハイライトを当てないことを意味するのか。

Solutions LabはAWSのBusiness Supportの顧客に提供されるが、これはAIだけでなく企業向けのコンサルティングサービスでもある点が興味深い。IBMのような企業ITの古顔企業では、コンサルティングサービスこそがつねに、ビジネス開拓の鍵を握っている。

Amazon AI担当のVP Swami Sivasubramanianはこう語る: “デベロッパーたちがAmazonのML Solutions Labで機械学習への取り組みを開始するのを、じっと待ってるわけにはいかない。Amazonが抱える機械学習の最良の科学者と実践者の専門的知識技能に、顧客の深いビジネス知識を組み合わせることによってのみ、AmazonのML Solutions Labは顧客元における機械学習の迅速な立ち上げを支援し、彼らの社内における機械学習の実用稼働をスタートできる”。

すでに、Washington Postや、Johnson & Johnsonの製薬部門Janssen、World Bank Groupなどが最初の顧客として確定している。

一方Rekognitionの新しい機能は、コンピュータービジョンにおけるAmazonの継続的進展を示すだけでなく、プロダクトとして外部の顧客が利用でき、Amazonの収益源にもなるという点が、強い姿勢として目立つ。

注目すべきは、Rekognitionの新機能のビッグな顧客のひとつがPinterestであることだ。画像による検索や分類はPinterestの最重要な機能だが、同社はそれを内製せずに外部のサービスやAPIを使おうとしている。

しかしPinterestはAWSにとって長年の顧客であり、AmazonのクラウドストレージS3の上には何百万もの‘Pin’が保存されている。だからAmazonがこのような大型顧客の便宜のために、画像中のテキスト認識機能を開発したとしても、おかしくはない。

PinterestのCTO Vanja Josifovskiがこう言っている: “Pinterestはビジュアル専門のプラットホームだから画像処理のスピードとクォリティーに大きく依存している。でも、画像中のテキストは、それらがコンテキストを提供し、Pinをアクションに誘うために、きわめて重要だ。画像中に興味深いテキストがあれば、われわれの2億あまりの‘Pinner’たちは、それへの何らかの反応を誘われるのだ。これからは、Amazon S3に保存されている数百万のPinsから、リッチなテキストを素早く取り出せることができるようになる。Pinterestのユーザーのユーザー体験とビジネスの高品質化と高速化のためにも、AWSとのパートナーシップをさらに発展させていきたい”。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa

画像認識リアルタイム百科事典Google Lensが今年の終わりごろPixelスマートフォンで実用化

Googleが、Google Assistantに接続する画像認識アプリLensを初めてデモしたのは、5月に行われたデベロッパーカンファレンスGoogle I/Oだった。当時それは、大いに人気を博したが、そのときの発表の多くがそうであったように、リリースの日程などは明らかにされず、“近く”(soon)という言葉だけがあった。それからほぼ5か月になる。

今日(米国時間10/4)のGoogleのハードウェアイベントでは、Lensの最初のプレビューが同社のPixelスマートフォンに今年の終わりごろ登場する、と発表された。あくまでも、プレビューだ。そしてそのほかのデバイスには、“随時”ということだ。

LensはGoogleのさまざまな機械学習サービスを利用している。画像認識の能力にGoogle Translateのリアルタイム翻訳と、Google Assistantを結びつける。たとえば花のスナップと撮ると、Lensが花の名前を教え、そのほかのことも教えてくれる。ランドマークや名所旧跡、それにレストランですら、情報を教える。

I/Oで拍手の音がたぶんいちばん大きかったのは、Wi-FiルーターのSSIDとパスワードを読んで、ユーザーのスマートフォンをそこに自動的に接続するLensの機能だった。



[原文へ]
(翻訳:iwatani(a.k.a. hiwa))

SalesforceのAIがソーシャルメディア上に自社製品が写ってる画像を見つけてくれる

企業が自分の社名やブランド名、製品名などへの言及をソーシャルメディア上に探すことは前から行われているが、画像中にロゴや製品が写っているのを見つけることは、当時はできなかった。しかしSalesforceの人工知能Einsteinは最近、そんな能力を持つに至った。

同社が今日発表したEinsteinのVision for Social Studio機能はマーケターに、言葉を探す場合と同じやり方で、ソーシャルメディア上に製品等の関連画像を探す方法を提供する。そのためにこのプロダクトは、Einsteinのとくに二つのアルゴリズム、画像分類アルゴリズムとオブジェクト検出アルゴリズムを利用する。前者はビジュアルサーチにより、製品やブランド名を画像中に見つける。そして後者は、それらが載っていた品目を同定する(例: 雑誌のページの上)。

最近のAIはとりわけ、感知や認識の能力が優れている。それは、画像の認識能力を訓練するアルゴリズムが進歩したためだ。最近では電子計算機の計算能力のコストは大幅に下がっており、そこに大量の画像をネット経由で放り込んでもそれほどの費用にはならない。そのために、大量の画像データでAIを教育訓練することが、誰にでもできるようになったのだ。

Salesforceのマーケティング担当VP Rob Beggによると、それ(画像認識とそのための訓練)は、人間よりもマシンに適した仕事でもある。“企業のマーケティングという視点から見ると、今のソーシャルメディア上のツイートやポストはものすごく多い。しかしAIは、その大量の情報の中にわれわれが求めるものを見つけることが得意だ”、と彼は語る。

彼によるとたとえば、ネット上に車に関するポストは山ほどあるが、でも今やっている広告キャンペーンと関連性のあるものは、ほんのわずかしかない。AIは、その、わずかしかないものを、簡単に見つけてくれる。

Beggが挙げるユースケースは三つある。まず、自分たちの製品を人びとがどのように使っているかが、分かること。第二に、画像中に隠れている自社製品やブランドを見つけ出すこと。そして三つめは、俳優やスポーツ選手など有名人が自社製品を使っているシーンを見つけること。

EinsteinのVision for Social Studioは、訓練により、今では200万のロゴと、60のシーン(空港など)、200種の食品、そして1000種のオブジェクトを認識できる。どの企業にとっても、はじめはこんなもので十分だ。ユーザーがカスタマイズすることは現状ではできないから、特定のロゴやオブジェクトを認識しないときは、今後の、カスタマイズ可能バージョンを待つべきだ。

Beggによると、Vision for Social Studioはマーケターのような技術者でない者でも容易に利用でき、彼/彼女にビジュアル認識ツールという新しいレパートリーが加わる。この新しい機能は、Salesforce Social Studioのユーザーなら今すぐ利用できる。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa))

次のiPhoneの顔認識機能はAppleのこのパテントに書かれているかもしれない

テクノロジーの大きな問題は、ノスタルジアと無縁であることだ。Nintendoや、もしかしてFujifilmを除けば、かつての快適な製品や機能にこだわる企業はめったにない。そして、それは当然だ!

たとえばApple。私は今でも、自分のiPhoneに正しいヘッドフォンジャックがないことが苦痛だ。ドングルはすぐなくすから、いらつくし、Touch IDのような新しい機能がiPhoneのセキュリティやユーザー体験の抜本的な改良ではないことを、忘れてあげるのはとても難しい。

しかし、栄枯盛衰は世の常である。ヘッドフォンジャックに次いで今度消されるのはTouch IDかもしれない。

今週初めのBloombergの記事によると、AppleはiPhoneに強力な3Dカメラを載せて顔認識機能を実装するらしい。そしてそうなると、Touch IDは要らなくなる、と。

数日前にKGIのアナリストMing-Chi Kuoが、次のiPhoneは全面ディスプレイのデザインになり、顔認識を使う、と書いていた。

これら最新の噂の前には、Touch ID用センサーはスクリーンの下に置かれる、という説もあった。

でもBloomberg/KGIの最新の記事を前提にすると、Appleの新しい特許が気になる存在だ。

そのパテントは、コンピューティングデバイスがスリープモードの間に、ユーザーをカメラで認識する方法を記述している。消費電力はそのとき最小だが、ユーザーがそのコンピューティングデバイスに近づくと自動的に覚醒する。

そのシステムは三つのパラメータ(肌の色、顔、動き)を使って、これからユーザーがデバイスを使おうとしているのか、そのユーザーは本当のユーザーか、を見分けようとする。すべてのパラメータが合えば、デバイスは覚醒してあなたを歓迎する。

この特許文書に使われている画像は、存在認識システムを使っているデスクトップコンピューターだ。iPhoneやiPadのようなモバイルデバイスは静止していないことが多いから、デスクトップ機の方が画像認識の仕事がやりやすいに決まっている。しかし、かといって、この顔認識/存在認識システムがモバイルデバイスでは使われないとは、どこにも書かれていない。

ただしAppleのパテントでよくあるのは、その技術が実際の製品ではまったく使われないことだ。でも、iPhoneの顔認識の噂を聞いた以上は、このパテントがどうしても気になってしまうのだ。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa))

機械学習に“本物の芸術らしさ”を教育訓練できるか?、二人の学部学生がそんなGANに挑戦

Generative Adversarial Net(GAN)の人気は今がピークなのか、よく分からないが、1年前に比べると、これをいじくっている人びとの数が相当増えている。そしてそれは、すごいことだ。ウィリアムズ大学の二人の学部学生が機械学習の初歩を独学し、そして今やほとんどメインストリームの技術であるGANに関する論文を50近く読んでから、ある教授と一緒に美術作品を生成するGANに取り組み、ほぼ1年で完成させた

コンピューターサイエンスの学生だったKenny JonesとDerrick Bonafiliaは今年の初めごろ、Martin ArjovskyのWasserstein GAN(WGAN)に出会った。ベーシックなGANの安定性を高めたWGANは、アートの様式(スタイル)の学習や新しいアートの生成により適していることが明らかになった。

GANの基本構成要素はジェネレーター(generator, 生成部)とディスクリミネーター(discriminator, 差別部)で、両者が敵対的に対話することによって動作する。ジェネレーターは人工的な画像を作り、それをディスクリミネーターに本物と思わせようとする。同時にディスクリミネーターは、偽の画像をできるだけ多く排除しようとする。

ジェネレーターとディスクリミネーターが対決

しかしGANは、不安定なことで悪名高く、まったく使いものにならないこともある。Wassersteinが改良したGANは、アートと分かるようなものを作り出す程度の安定性はある。そこでチームはWikiArtのデータベースからラベル付きの絵画10万点を取り出し、訓練用の素材として使った。

そのモデルの性能を最大化するためにチームは、ディスクリミネーターに新たな部位を加え、絵画のジャンルを予見できるようにした。またモデルが、生成される画像の“本物性”と“偽物性”にこだわりすぎるのを避けるため、予備訓練によりグローバル条件を加えた。これによりディスクリミネーターは、アートの様式の違いに関する理解を、維持できるようになった。

“難しいのは、成功の判定方法だ”、とJonesは語る。“そのための普遍的な測度はあまりない。それはアートに限った問題ではないが、芸術作品は通常の画像認識のように本物偽物の区別が明瞭でないから、判定がものすごく難しい”。

しかしとりあえずそのプロジェクトは成功し、JonesとBonafiliaは秋になったらソフトウェアエンジニアとしてFacebookに就職する予定だ。Bonafiliaの考えでは、もっと強力な計算機資源を使えたらプロジェクトの性能は大きくアップするだろう。Facebookには、強力なコンピューターがふんだんにあるはずだ。

  1. 0ceh4q72pq9mmiucc.png

  2. 0kgzb_heat-qv0skb.png

  3. 0itdky-dc2mclrun8.png

アートは今、機械学習で人気の高い素材だ。Jonesによるとその理由は、ビジュアルでしかも分かりやすいからだ。Facebookは昨年の秋に、モバイル上のリアルタイムのスタイル変換(style transfer)で関心を喚(よ)んだ〔例: 葛飾北斎のスタイルをふつうの写真に移送(transfer)する〕。JonesらGANGoghチームの作品と違ってStyle Transferは、新しいアートを作り出すのではなく、既存のストリームに(別のスタイルで)変更を加える。

スタイル変換は映画で使われている…女優のKristen Stewartは今年の1月に共著したペーパーで、彼女の短編映画Come Swimへの機械学習の応用を説明している。機械が生成した新しい作品が現代美術の美術館に展示されるのはまだ早いと思うが、今後本物のアーチストがモデルづくりに取り組んだそれらを、美術館はどう扱うか。その問題を歴史上初めて指摘した文献がこの記事だぞ、と自慢しておこう。

〔GAN関連日本語訳記事:(1)(2)(3)(4)。〕

[原文へ]
(翻訳:iwatani(a.k.a. hiwa))

AWSのRekognition APIはセレブを認識する――Amazonの機械学習がさらに進歩

Amazon RekognitionはAWSが提供する深層学習を利用した画像認識、分析のサービスだ。今日(米国時間6/8)、Rekongnitionがさらに賢くなった。このサービスは政治、スポーツ、ビジネス、エンタテインメント、メディアなどさまざまな分野の著名人の顔を認識できるようになった。

私はGoogle検索で見つけたいくつかの顔写真(コメディアンのコナン・オブライエン、歌手のジャスティン・ビーバー、知名度さまざまな俳優、女優など)をRekognitionに入力してみたが、すべて認識された。GoogleとMicrosoftが提供している同種のサービスと同様、デベロッパーはAPIを通じてRekognitionを利用するが、AWSのアカウントを持っている読者はこちらでデモを体験できる。

Rekognitionはセレブの顔認識に成功すると、可能な限り、IMDBのページにリンクする(IMDBはAmazonの子会社なので当然だ)。

現在のRekognitionは顔認識だけでなくユーザーが提供するデータに基づいて画像の文脈を認識し、被写体の感情、人口動態的分類ができるが、新機能によってサービスがさらに強化された。

ちなみにGoogleのVision APIには現在まだセレブの顔認識機能はないが、MicrosoftのComputer Vision APIにはある。Microsoftによれば20万人の著名人の顔認識ができるということだ。私がテストしたところでは、Microsoftのサービスの顔認識精度はAmazonとほぼ同様だったが、画面に写っている他の対象についても情報が提供され、これに基づいて写真のキャプションを作ることができた(「スーツにネクタイのジャスティン・ティンバーレイクがカメラに向かって笑っている」など)。

〔日本版〕Rekognitionの画像中の物体の認識、表情分析などの例。MicrosoftのComputer Vison APIはDescriptionで内容に関するキーワードを返してくる。

[原文へ]

(翻訳:滑川海彦@Facebook Google+