コンピュータビジョン

コンピュータビジョンを利用して動画の特定部分のみにエフェクトをかけられるスマホ向け編集アプリ「Vochi」

ベラルーシを拠点とするスタートアップのVochiが、150万ドル（約1億6000万円）のシード資金の調達に成功した。同社は、スマートフォン向けにコンピュータービジョンベースのビデオ編集・エフェクトアプリを開発している。

今回のラウンドは、Genesis Investmentsがリードした。ウクライナ拠点のこのベンチャーキャピタルは、ダイエットアプリなどを開発するBetterMeや、アフリカでオンラインクラシファイド広告サービスを運営するJijiなどに出資している。なお今回の調達は、2019年4月のBulba Venturesからのプレシード時の資金調達に続くものだ。ちなみにVochiの創業者でCEOのIlya Lesun（イリヤ・レスン）氏は、創業以前にBulba Venturesでプロダクトアナリストして働いていた。

TikTokのようなショートムービープラットフォームが急成長している中でレスン氏は、クリエイターが差別化を図るのに役立つ簡単に動画編集ができるモバイルアプリ開発に乗り出した。

Vochiはコンピュータービジョン・テクノロジーをベースにした独自のアルゴリズムでビデオ内の単一の対象を切り出し、その部分だけに各種のエフェクトを適用できる。これによりスタイルやシナオリの組み合わせをリアルタイムで試せるので、ユニークな動画を作るチャンスの幅がかなり拡がる。高度なデスクトップソフトを使って精細度の高い動画処理をするには多くの時間とコンピューティングパワーを必要とする。モバイルデバイスでこの効果が簡単に得られ、公開前にプレビューもできるのはクリエイターにとって非常に有用だ。

レスン氏はTechCrunchの取材に対して「モバイルコンテンツの制作、視聴が拡大するにつれ、作成ツールの需要も高まっている。多様な機能を備えたビデオ編集ツールははプロ、アマ、ホビイストを問わずコンテンツのクリエーターに価値をもたらすことができる。Vochiはユーザーのポケットに収まるコンテンツ編集スタジオだ」と語る。

「Vochiのプロダクトとライバルの最も大きな差は、ビデオ内のオブジェクトに適用するエフェクトやフィルタなどにコンピュータ・ビジョンを使っていることだ。Vochはアルゴリズムによって動画内の特定のオブジェクトに分類できるので、その部分だけを編集できる。1080pのビデオのオブジェクトにリアルタイムでエフェクトを与えることができる」と同氏。

ターゲットに想定しているのはコンテンツクリエイター、つまり動画をスマートフォンに保存して終わりにするのではなく、ソーシャルメディアに頻繁に動画を投稿するユーザーだ。

「ビデオブロガーやインフルエンサーは視聴者の目を引きつけるような意外性のある動画を必要としている。面白い動画を作って友達と共有したいクリエイティブなユーザーもいるだろう。しかしもちろんスマートフォンのユーザーなら誰でも簡単にこのアプリを使うことができる」と同社は説明する。

［原文へ］

（翻訳：滑川海彦@Facebook）

新型コロナ対策として空港の混雑などを監視するZensorsのコンピュータビジョン

新型コロナウイルスの感染が広がる中、商用のコンピュータビジョン技術が人々の行動を観測する有益なツールになりつつある。機械学習でレストランの空き状況や行列などを追跡するスタートアップのZensorsは、感染拡大防止のために測定のシステム化を必要としている空港などで、このプラットフォームを無料で利用できるようにする。

Zensorsが創業したのは2年前の2018年だが、TechCrunchは2016年に防犯カメラの映像などから有用なデータを抽出するコンピュータビジョンのアーリーアダプターの1つとして同社を紹介した。レストランを映すカメラでテーブルの空きを数え、時間の経過に伴うデータの変化を追跡するのは可能で当然のことのように思えるかもしれないが、数年前にはなかなか思いつかないことで、実現も簡単ではなかった。

それ以来Zensorsは、空港、オフィス、小売店などそれぞれの環境に合わせたツールを作ってきた。座席の埋まり具合やゴミ、行列の見込みなどを調べることができる。偶然ではあるが、人と人との距離を注意深く監視する必要がある現在の状況において、このようなデータは空港などの管理者にとってまさに必要なものだ。

Zensorsはカーネギーメロン大学から生まれた企業だ。Zensorsの共同創業者であるAnuraag Jain（アヌラーグ・ジェイン）氏は同大学に対し、Zensorsの技術を公衆衛生に生かしたいと考える空港などから多くの問い合わせを受けたと語っている。

例えば、何人が行列に並んでいるかを数えるソフトウェアを応用すれば、簡単に人々の密集具合を推計し、人が集まり過ぎていたり狭い場所に集中したりしているときにアラートを送信できる。

「これで利益を得るのではなく、無償で支援しようと考えた」とジェイン氏は言う。そこで最短でも今後2カ月間、Zensorsは同社のプラットフォームを「我々のクライアントである空港など、現在の危機に最前線で対応している一部の組織」に対して無償で提供する。

特定のエリアにいる人が多すぎないか、ある場所が最後にいつ清掃されたか、急いで清掃する必要があるか、ある集団の中で何人がマスクをつけているかなど、新型コロナウイルスに関連して知りたい情報を提供する機能がすでに強化されている。

空港ではおそらくこうした情報をすでに追跡しているが、あまり体系化されてはいないだろう。このようなシステムは、清潔な環境を維持しリスクを減らすのに役立つはずだ。Zensorsとしては無償で試用した組織の一部が料金を支払うクライアントになることを期待していると思われる。関心を持った組織は、Zensorsの通常の問い合わせフォームから相談できる。

トップ画像クレジット：Zensors

[原文へ]

（翻訳：Kaori Koyama）

歩行者の動き方にも注目する自動走行車の視覚

自動運転車の技術に関する研究で名高いミシガン大学は、歩行者の動作を予想するための進化したアルゴリズムに取り組んできた。それは、歩行者が何をしているかだけでなく、どのように動いているかにも着目するものだ。人間のボディランゲージは、その人が次に何をするのかを予測する際に、非常に重要な意味を持っている。

歩行者に注意を向け、彼らが何をしようとしているのかを予測することは、すべての自動運転車の視覚システムにとって、大きな比重をしめている。人がいることを認識し、それがどこなのかを理解することは、自動車の運転の仕方に、かなり大きな影響を与える。しかし、人がどこそこの領域にいて、あれこれの状態になっているということを認識してラベル付けできる、と宣伝している会社はあっても、歩行者がどのような姿勢で、どう動いているのかを認識できるとしているものはほとんどない。

（参考記事：WTF is computer vision?）

そのような視覚のアルゴリズムは、まず人間を識別し、それが数フレームの間に何ピクセル移動するかを調べて、そこから推定するといったシンプルなものでもよいかもしれない（今はまだそうではないとしても）。とはいえ、当然ながら人間の動きは、それよりはちょっと複雑なものだ。

ミシガン大学の新しいシステムは、ライダー（訳注：レーザー光を使ったレーダー）とステレオカメラを利用して、人の動きの軌跡だけでなく、その人の姿勢と歩き方も評価する。人の姿勢によって、その人が車の方を向いているのか、車から離れようとしているのかを判断できる。また、杖をついているのか、電話するためにかがんでいるのかなど、歩き方によって、その速度だけでなく意図も判別できるのだ。

振り返って後ろを見ている人がいた場合、その人は体の向きを変えようとしているかもしれない。もしかすると、交通の流れに割り込んでくるかもしれない。腕を突き出している人がいれば、おそらく誰かに、もしかすると車に、止まれと合図を送っているのだろう。こうした付加的なデータは、システムが動きを予測するのに役立ち、より完成度の高い、不測の事態を考慮したナビゲーションのプランを作成することを可能にする。

重要なのは、１歩の歩行や腕の一振りを捉える、わずか数フレームを調べるだけうまくいくということ。それだけで、より単純なモデルよりも、かなり優れた予測をすることができる。これは、予測の性能にとって大きな違いを生む。というのも、歩行者が障害物の間にいる際には、数フレーム後にもまだ見えているとは限らないからだ。

現状では、ノイズも多く、まだ研究も進んでいないデータによってできることは限られている。しかし、そうしたデータを観測し、その目録を作ることは、それが自動運転車の視覚システムにとって不可欠な機能となるための第一歩なのだ。この新しいシステムの全容は、IEEE Robotics and Automation Lettersのサイト、またはArxiv（PDF）で読むことができる。

画像クレジット：University of Michigan

[原文へ]

（翻訳：Fumihiko Shibata）

AmazonのPart Finder機能はネジなどの正しいパーツを画像認識で見つけてくれる

ねじやナット、ボルト、ワッシャー、割りピンなどをネットで買いたいけど、自分が欲しいものをどうやって見つけるべきか？　Amazonはそんなネットショッパーたちのために“Part Finder”（パーツ・ファインダー）というサービスを用意した。モバイルのカメラで目的のネジを撮（うつ）すと、Amazonはそれをスキャンして寸法を測り、まさにその品物のページへあなたを連れて行く。

Amazonはこの機能のローンチをまだ発表していないが、実は数週間前に全ユーザー向けに可利用になったらしい。

この機能は、iPhoneのカメラの被写体の寸法を測る機能を利用している。Amazonアプリを立ち上げたら検索ボックスの横にあるCameraボタンを押すと、“Part Finder”が動き出す。

Amazonは今このような、顧客がテキストを入力しなくても目的のアイテムを見つけられる機能をいろいろ作っている。たとえばバーコードスキャナーがあるし、画像認識による製品探しや、パッケージのX線投射、SmileCodeスキャナー（Amazon独自のQRコード）、ARの利用（AR==拡張現実）、などなど。

Part Finderを使うときは、Amazonのソフトがより正しい仕事をできるために、アイテムを白い紙や布の上に置き、その横に1セント硬貨を置く。Amazonの説明には、そう書いてある。

またスマートフォンの傾け方にもコツがある（これもAmazonの説明を読もう）。カメラのファインダーに十字（’+’)と円が表示されるから、円の中に十字が収まるよう、カメラを（iPhoneを）正しく傾ける。

そうやった正しい画像を送ったら、Amazonがアイテムをスキャンして結果を返す。カメラの傾きのほかに、ピントが合ってることも重要だ。

さらに、次の画面ではアイテムの詳しい情報をAmazonに教える。たとえばネジだったら、ヘッドやねじ山のタイプを教える。こんなのは画像のスキャンで分かりそうなものだが、なにしろAmazonはUI入力による情報も欲しがるのだ。

ネジは、Amazonにとっても易しい方だが、この機能はユーザーにとって、それがなんだか分からないような特殊なパーツを見つけるのに役に立つ。ただしそのレパートリーは、現状ではそれほど網羅的ではない。今後の充実を待ちたい。

ところでPart FinderのAndroidバージョンは、いつだろう？　まだAmazonからの情報は何もない。

Part Finderは、拡張現実ではなくコンピュータービジョンの技術を利用しているそうだ。私のこの記事の最初のバージョンでは、間違ってARと言っていた。

現在この機能が認識できるネジ/ボルト/ピン類のタイプは、100種類あまり。寸法の違いも含めると数千種を認識できる。この技術を開発したPartpicを、Amazonは2016年に買収した。

〔日本の「モノタロウ」は、巨大なカタログをユーザーに送ってくる。そこから、正確な型番等を指定する。〕

[原文へ]
（翻訳：iwatani(a.k.a. hiwa）

作物/農地のスペクトル画像から適切な営農診断をするCeres Imagingが$25Mを調達

アグテック(agtech, 農業+テクノロジー)のスタートアップCeres Imagingは、コンピュータービジョンとスペクトル画像(spectral imaging, 分光イメージング)を利用して、作物に関するインサイトを農家に届ける。同社はこのほど、 Insight Venture Partnersが率い、Romulus Capitalが参加する投資ラウンドにより2500万ドルを調達した。同社の調達総額は、これで3500万ドルになる。

この前のシリーズAの資金調達以来同社は、対象作物をこれまでのブドウ園や果樹園から、大豆や小麦のような列状作物にも広げてきた。これらの作物は単位面積あたりの利益は低いが、同社の業容をスケールアップし、大規模な問題に挑戦する機会を与える。

Ceres ImagingのCEO Ashwin Madgavkarは、こう声明している: “われわれの画像技術により農家は、気候変動や人手不足、市場の低迷などの問題に前向きに対応できるようになる”。

上空からの画像で作況分析を提供するスタートアップは多いが、Ceres Imagingはドローンには固執せず、むしろ同社独自開発の機器を搭載した、人が操縦する航空機を利用して、自動化ではなく手作業的に画像データを集める。

そのようにして撮った画像データは、人間の肉眼に見える像からはほど遠い。それらのスペクトルデータを分析して、作物の水分や栄養分の状態が分かる。そのデータは被害の早期警報にもなり、アメリカとオーストラリアの顧客に、必要な肥料や灌水、農薬などの情報を提供する。

画像クレジット: @SelimAzad

[原文へ]
（翻訳：iwatani(a.k.a. hiwa）

デザインスケッチからコードを起こすAIとコンピュータービジョンのUizardが80万ドルを調達

アプリケーションを作る工程には、誰かが描いたスケッチを見つめながらそれをコードに換えていく、面倒で時間のかかる関門がある。でも実際やってることは毎回同じだから、もっと楽にできるやり方があるはずだ。フロントエンドのデザインからHTMLやCSS、そして実働コードを起こしていくこれまでのソフトウェア開発は、費用も時間もかかり、かったるい反復作業が多い。

そしてこの問題を解決する方法の多くが、むしろかえって複雑だったりする。ワイヤーフレームのようなスケッチを単純にコードに換えてくれて、デベロッパーはアプリケーションのもっと難しい部分に集中できる、というやり方はありえないだろうか？

この課題に挑戦したのが、コペンハーゲンのUizardだ。

Uizardはコンピュータービジョンの技術とAIを利用して、ナプキンの裏に描いたようなラフスケッチのデザインを、バックエンドに挿入できるソースコードに換える。

このほど同社は、ニューヨークのLDV Capitalがリードするプレシードのラウンドで、80万ドルを調達した。このラウンドには、ByFounders, The Nordic Web Ventures, 7percent Ventures, New York Venture Partners, 起業家でDatekの協同ファウンダーPeter Stern、Philipp Moehring、AngelListのAndy Chungらが参加した。得られた資金はチームの増員とプロダクトのベータローンチに充てられる。

同社は2017年6月に最初の研究プロジェクト“pix2code”（画素をコードへ）を発表したとき注目を浴び、そのGitHub上の実装は、Facebook PrepackやGoogle TensorFlowの登場よりも前に、第二回mosttrendingプロジェクト賞を取った。

[原文へ]
（翻訳：iwatani(a.k.a. hiwa）

Mobileyeが事故映像を分析して歩行者検出から衝突まで間が十分あったとUberを非難

自動運転車による歩行者の死亡人身事故は、この技術の関連企業にとって決して良い宣伝にはならないが、話題が冷（さ）めないうちに原因をよく知るべきでもある。そこでMobileyeのCEO兼CTOのAmnon Shashuaは親会社Intelのブログで、同社のコンピュータービジョンソフトウェアが事故時の映像を分析した結果、被害者の人物を衝突の1秒も前に検出した、と述べている。

それは決して、Mobileyeのシステムの優位性を主張しているわけではない。今の自動運転や運転者補助システムは、このような粒子の粗い映像で自分の仕事をしているわけでもない。それはあくまでも、実験や研究のための映像だ。

しかしその映像を見た有能なコンピュータービジョンシステムが、ただちに被害者とその自転車を検出したという事実は、Uberのシステムがそのときに完全に失敗したに違いないことを示している。〔別の記事ではUberのシステムは衝突の0.9秒前に被害者を検出している、とある。〕

そのときMobileyeのオブジェクト検出アルゴリズムが搭載されていたら、被害者を衝突の1秒前に検出している（粒子の粗い映像だったとしても）。そのとき直ちにブレーキが作動したら、車速がわずか10kmh落ちただけでも死亡事故には至らなかったと思われる。しかしUberの車のブレーキが作動したのは衝突の後だ、と言われている。それはまさに、そんなときこそ優秀なセンサーシステムとAIの瞬時の反応が必要な場面ではないか。

そのUberの車はレーダーとライダーと複数の光学カメラを装備し補助ドライバーも乗っていたというが、それらのどれもが被害者を検出できなかったのか。それとも、検出したけど瞬時のアクションができなかったのか。

このたびMobileyeが行った映像検出実験も、まだ情報として十分なものではないが、車が搭載する人工脳の、真にあるべき姿を示していることは事実だ。

[原文へ]
（翻訳：iwatani(a.k.a. hiwa）

SignAllはゆっくりと、しかし着実に手話通訳プラットフォームを構築中

翻訳は難しい作業だ。2つの言語の距離が遠くなるほどそれは難しくなる。フランス語からスペイン語？それほど問題はない。古代ギリシャ語からエスペラント？かなり難しいだろう。しかし、手話は独特だ。そしてその翻訳の難しさも独特である。なぜならそれは話されたり書かれたりしている言語とは、根本的に異なるものだからだ。こうした事情から、SignAllは、アメリカ手話（American Sign Language：ASL）の正確でリアルタイムな機械翻訳を実現するために、何年も努力を重ねてきた。

AIとコンピュータビジョンに現在起きている進歩を考えれば、このような解くのが面白くて有益な問題は、既に一流中の一流どころが一斉に取り組んでいることだろうと想像するかもしれない。シニカルな市場拡大の観点から考えても、手話を理解できるEchoやテレビは何百万人もの新しい（そして感謝を捧げてくれる）顧客を引きつけることだろう。

しかし残念ながら、そうしたことは起こっていないようだ。それがこのブタペストを拠点とする小さな企業であるSignAllのような会社に、不自由な人びとへの利便性を提供するこの難しい仕事が残された理由だ。そして、手話をリアルタイムで翻訳することは、思われていたよりも複雑な作業であることが判明したのである。

CEOのZsolt Robotkaと最高研究開発責任者のMártonKajtárが、今年のCESに出展を行っていた。私はその場で、会社のこと、彼らが挑戦している課題、そしてこの分野がどのように発展していくのかについての話を聞いた（私は彼らが2016年のDisrupt SFにも出展していたことを知って嬉しくなった。残念ながらその時は彼らに会うことはなかったのだが）。

おそらく、このビジネスの中で私にとってもっとも興味深いことは、彼らが解決しようとしている問題がどれほど興味深く、そして複雑なものであるかということだ。

「これはマルチチャネルコミュニケーションなのです。実際に、大切なのは形や手の動きだけではないのです」とRobotkaは説明する。「手話を本当に翻訳したいのならば、上半身の動きと顔の表情をすべて追跡する必要があります。このことはコンピュータービジョンの部分を非常に難しいものにします」。

ちょっと考えただけでも、それは大変な作業である、わずかな動きも追跡することを考えるとそれは膨大な量となるだろう。現在のシステムはKinect 2を中心に置いて、3台のRGBカメラを1〜2フィートの位置に設置している。誰の話し方も少しずつ違っているように、ASLユーザーも少しずつ違った動作を行う。このためシステムは新しいユーザー毎に再調整をする必要がある。

「この複雑な構成設定が必要なのは、こうすることで異なる視点を持つことができ、そのおかげで時間と空間（リフレッシュレートとピクセル数）に対する、解像度の不足を補うことができるからです」とKajtárは語る。「ASLでは非常に複雑な指の動きを行うことができますが、手を骨格として捉える従来の手法は役に立ちません。何故なら指同士が重なるからです。そこで、サイドカメラを使用してこの重なりを解決しています」。

それでは十分でないと言うかのように、顔の表情やジェスチャのわずかな変化も、伝えられていることに加わる。例えば感情の追加や方向の指示などだ。そしてさらに、手話は、英語や他の一般的な話し言葉とは根本的に違っているという事実がある。これは単なる置き換えではなく、完全に翻訳なのだ。

「手話の本質は、連続した身振り（サイン）です。この性質から、いつ1つのサインが終わり、そしていつ次のサインが始まったかを区別することが難しいのです」とRobotkaは語る。「そして、それはまた非常に異質の言語でもあるのです。語彙から拾い上げて、単語単位で翻訳をすることはできません」。

SignAllのシステムは、順番に提示される個々の単語だけではなく、完全な文章を対象に動作を行う。サインを１つずつキャプチャして、翻訳していくシステム（性能が限定的なバージョンは存在している）は、言われていることに対して、間違った解釈や、過度に単純化された表現を生み出しやすい。行く方向を尋ねるような単純なコミュニケーションに対しては十分かもしれないが、本当に意味のあるコミュニケーションは、検知され正確に再現されなければならない、何層にも重なった複雑な階層で構成されているのだ。

これらの2つのコミュニケーションレベルの間のどこかを目指して、SignAllはギャローデット大学で、最初の公開パイロットプロジェクトを行おうとしている。このワシントンDCにある聴覚障害者のための学校は、ビジターセンターのリノベーションを行っている最中だが、SignAllはここに、訪問した健聴者が聴覚障害スタッフと対話できるようにできる翻訳ブースを設置する。

ギャローデット大学のビジターセンターに置かれたAignAll装備デスクの想像図

Robotkaは、これはシステムのテストを行うための良い機会だと語る。通常は情報提供は逆方向で、聴覚障害者の方が健聴者から情報を貰う立場だからだ。手話ができない訪問者は、喋ることもできて、（もしスタッフが読唇術を使えない場合には）その質問はテキストに変換される。そしてスタッフによる手話による応答はテキストに変換され、音声合成が行われる。

これは複雑なやり方に聞こえるし、実際技術的はとても複雑だが、現実的にはどちらの側の人間も普通にやっていること以上のことを行う必要はない。それで相手には理解して貰えるのだ。少し考えてみれば、これがどれほど素晴らしいことかが分かるだろう。

パイロットテストの準備のために、SignAllとギャローデット大学は協力して、現在使われているアプリや、大学固有の状況に関するサインのデータベースを作成している。全ての手話サインを表す包括的な3D表現は存在しない、そのため当面システムは配備された環境に応じて提供される。ドメイン特有のジェスチャーが順次データベースに追加されていくことになる。

ギャローデット大学の学長のRoberta Cordano（中央の灰色のセーターの人物）が、ブダペストのSIgnAllのオフィスを訪問したときの様子。彼女の向かって左後ろに立つのがRobotka、右端に居るのがKajtár。

「これらの3Dデータを収集するのは本当に大変でした。彼らの協力を得て、丁度作業が終わったところです」とRobotkaは語る。「インタビューを行い、そこで発生した会話を集めて、すべての言語要素とサインが集められるようにしました。私たちは、最初の2、3のパイロットプロジェクトで、同じようなカスタマイズ作業を繰り返すことになると考えています」。

この長期間にわたるプロジェクトは、技術の可能性と限界の両方を冷静に思い出させるものだ。もちろん、手話の自動翻訳が、コンピュータビジョン、機械学習、イメージングの進化によって可能になったことは間違いない。しかし、他の多くの翻訳やコンピュータービジョンタスクとは異なり、基本的な正確性を達成するだけでなく、人間中心主義の側面が確実に含まれるようにするために、大量の人間からの入力が必要とされるのだ。

結局のところ、こうした活動は単に私たちが外国のニュース記事を読んだり、海外でコミュニケーションを行う際の利便性に留まる話ではなく、多くの人が対面コミュニケーションとして考えている「会話」という手段から締め出されている人たちの、利便性に関わる話なのだ。彼らの運命を良くして行くことは、待つだけの価値がある。

[原文へ]
（翻訳：sako）

AWSがAIを利用する企業顧客へのコンサルティング事業と高度な画像認識機能を発表

例年の大型カンファレンスre:Inventを来週に控えたAmazonのAWSが、人工知能関連の新たな展開を二つ発表した。まず、AWSは、機械学習のラボML Solutions Labを開き、機械学習のエキスパートと、AIによるソリューションを作ろうとしている顧客を結びつける。さらにAWSは、ディープラーニングによる画像認識APIベースAmazon Rekognitionの機能を拡充し、リアルタイムの顔認識と画像中のテキストを認識する機能を新たに加える。

新たなラボと画像認識プラットホームの拡充は、AmazonとAWSのAI推進努力の一環であり、社内利用とB2Bビジネスの成長材料の二面をねらっていると思われる。1か月前にAWSは、デベロッパーが自分のアプリケーションやサービスのために機械学習のモデルを構築し利用するためのディープラーニングライブラリGluonをMicrosoftと共同開発する、と発表した。

Amazonは昨年のre:InventでAWSのAIリソースのデベロッパー向け総合窓口Amazon AIを発表しているが、今年この時期（感謝祭の前日）にこれら二つの発表をしたということは、今年のre:Inventのための足固めか、それとも今年はAIにあまりハイライトを当てないことを意味するのか。

Solutions LabはAWSのBusiness Supportの顧客に提供されるが、これはAIだけでなく企業向けのコンサルティングサービスでもある点が興味深い。IBMのような企業ITの古顔企業では、コンサルティングサービスこそがつねに、ビジネス開拓の鍵を握っている。

Amazon AI担当のVP Swami Sivasubramanianはこう語る: “デベロッパーたちがAmazonのML Solutions Labで機械学習への取り組みを開始するのを、じっと待ってるわけにはいかない。Amazonが抱える機械学習の最良の科学者と実践者の専門的知識技能に、顧客の深いビジネス知識を組み合わせることによってのみ、AmazonのML Solutions Labは顧客元における機械学習の迅速な立ち上げを支援し、彼らの社内における機械学習の実用稼働をスタートできる”。

すでに、Washington Postや、Johnson & Johnsonの製薬部門Janssen、World Bank Groupなどが最初の顧客として確定している。

一方Rekognitionの新しい機能は、コンピュータービジョンにおけるAmazonの継続的進展を示すだけでなく、プロダクトとして外部の顧客が利用でき、Amazonの収益源にもなるという点が、強い姿勢として目立つ。

注目すべきは、Rekognitionの新機能のビッグな顧客のひとつがPinterestであることだ。画像による検索や分類はPinterestの最重要な機能だが、同社はそれを内製せずに外部のサービスやAPIを使おうとしている。

しかしPinterestはAWSにとって長年の顧客であり、AmazonのクラウドストレージS3の上には何百万もの‘Pin’が保存されている。だからAmazonがこのような大型顧客の便宜のために、画像中のテキスト認識機能を開発したとしても、おかしくはない。

PinterestのCTO Vanja Josifovskiがこう言っている: “Pinterestはビジュアル専門のプラットホームだから画像処理のスピードとクォリティーに大きく依存している。でも、画像中のテキストは、それらがコンテキストを提供し、Pinをアクションに誘うために、きわめて重要だ。画像中に興味深いテキストがあれば、われわれの2億あまりの‘Pinner’たちは、それへの何らかの反応を誘われるのだ。これからは、Amazon S3に保存されている数百万のPinsから、リッチなテキストを素早く取り出せることができるようになる。Pinterestのユーザーのユーザー体験とビジネスの高品質化と高速化のためにも、AWSとのパートナーシップをさらに発展させていきたい”。

[原文へ]
（翻訳：iwatani(a.k.a. hiwa）

GoogleのAVAデータセットはビデオの中の人間のアクションを見つける精度を上げる

今日（米国時間10/19）Googleが、ビデオの中で行われている人間のアクションを集めてそれぞれにラベルをつけたデータセットを発表した。何のことだかよく分からないかもしれないが、実はこれは、コンピュータービジョンの問題解決に今後大きく貢献するデータ集合なのだ。

最近では、人間の第二の目になってくれる製品やサービスが大きく成長している。ビデオの中の特定の映像を見つけるMatroidや、Lighthouseのようなセキュリティシステム、それに自動運転車でさえ、ビデオの中で起きていることが理解できると大いに助かる。そしてその理解は、良質なラベル付きデータによる訓練やテストに負っている。

GoogleのAVAはatomic visual actions（最小単位…不可分…の視覚的アクション集）の頭字語だ。そのほかのデータセットと違ってそれは、アクションデータとして使えるシーンの中に複数の区切りを設けて、それぞれにラベルを付ける。つまりひとつのシーンがマルチラベルだ。これにより複雑なシーンの細部を捕捉でき、機械学習のモデルの精度を上げる。

Googleのブログ記事は、人間のアクションの分類（〜把握理解）が困難である理由を詳細に述べている。アクションは静的オブジェクトではないので、時間の上に繰り広げられる。したがって、不確実性が多くなる。誰かが走っている映像は、さらにその後のフレームを見るとランニングではなくて実はジャンプだったりする。一つのシーンの中に二人の人間のからみがあると、その理解はさらに複雑だ。

AVAには、ビデオの断片が57000あり、人間に付けられたラベルが96000、ラベルの総数は21万になる。ビデオの断片はYouTube上の公開ビデオから取られ、一片の長さが3秒だ。歩く、蹴る、ハグするなどアクションのタイプを80種用意し、手作業でラベルをつけていく。

試してみたい人は、完全なデータセットがここにある。AVAに関するペーパーは最初、5月にarXivに発表され、7月にアップデートされた。そこに紹介されている実験では、Googleのデータセットが既存の分類テクニックにとって極めて難しいことが示されている。下表は、前からあるJHMDBデータセットと、新しいAVAデータセットのパフォーマンスを比較している。

[原文へ]
（翻訳：iwatani(a.k.a. hiwa））

小さな2D画像から3Dオブジェクトを生成する賢いアルゴリズム

世界を観察することで、私たちは知覚に情報を与え続けている。そのことで私たちは片側しか見ることのできない、或いは一瞬しか見ることのできない物体の全体像を想像することを、かなり上手にできるようになる。しかし、コンピュータにとってそれはただ苦手な仕事だ。しかし幸いなことに、バークレーのAI研究者が作成した賢い手法が、その性能を大幅に向上させてくれるかもしれない。

何かを2Dで見て、実際の大きさを正確に推測することができるなら便利だ。それはARやVR、クリエイティブなワークフローなどの中でオブジェクトを追跡することを助ける。だが、それは難しい！

次元を上げるということは、考えなければならないデータが大幅に増えるということだ。各辺が100ピクセルあり、全体で1万ピクセルの画像を考えてみよう。それを正確に再現しようとするならば、高さも100ピクセルになるかもしれない。その場合に必要なボクセルは合計で100万ピクセルになる。これで3Dというわけだ。そしてもう少しだけ正確性を増したいとしよう、例えば各辺128ピクセルとしてみる。すると必要なボクセル数は200万となる。

それぞれのボクセルの中身（すなわち「空」または「充填」のいずれか）は、元の画像を分析することによって計算されなければならず、リアルな忠実度が必要な場合には計算量は急速に増大する。

左の2D画像を、1辺16ボクセル、1辺32ボクセル、などの解像度でレンダリングしたもの。品質は向上するものの、計算コストは急上昇する。

本来なら望ましい筈の、2D画像からの3Dへの外挿が進まないのはそれが原因だ。しかしバークレー人工知能研究所のChristian Häneは、より良いやり方が可能になる道筋を発見した。彼のソリューションは計算上も巧みだが、同時に額を思わず叩く程シンプルなものだ。

彼が気が付いたのは、一般には、実際に100x100x100の全体を計算しようとしているのではなく、オブジェクトの表面を記述しようとしているだけだということだ。その周りの何もない空間や内側は？関係ない。

ということで、彼のシステムはまず非常に低い解像度で2D画像を3Dとして構成する。その段階でも多くのことがわかる、例えば、全体の外側の3分の1は何も無いように見えるといったことなどだ。よし、その部分は捨ててしまおう。

次に、保存した領域に対してより高解像度のレンダリングを行う。ふむ、上と下が空白だが、真ん中はピクセルで一杯のようだ、中心部にある大きな塊を除いては。空白のビットを投げ捨て、きれいにして、繰り返す。

これを数回行うと、高い空間解像度を持つ3Dオブジェクトを実際に得ることができる。意味のある情報を持つ部分だけを計算することで、比較的少量の計算量でこの結果を得ることができる。

得られたモデルたちは、従来の手法で生成されたモデルたちと比較されたが、一般的に生成する計算量は遥かに少ないのに、モデルは同等もしくは良い仕上がりとなった。論文に掲載された例は、このArxivからダウンロードして見ることができる。

これは完璧なソリューションからは程遠く、人間はこの点に関してまだ遥かに優れている。しかしこれは、私たち自身の視覚システムが、自分自身を最適化する方法を実際に模倣する、素晴らしい手法だ。私たち自身の視覚がとてもうまく働く理由の1つは、知覚をスムースに行うためには余分なものと脳が判断したデータを、巧みに捨て去ることができるからだ。ほとんどの場合、こうしたショートカットに気づくことは無いが、時には錯視のような場面で表面化する。

コンピュータが人間のように見ることができるようにするということは、脳の強さを模倣するだけでなく、ときにその弱さをも模倣するということも意味する。これは実際に人間と同じだとはとても言えないものの、近いものにはなっている。そして大事なことは、それは実際に使えるということだ。

[ 原文へ ]
（翻訳：Sako）

GoogleがコンピュータービジョンアプリFabbyを作ったAIMatterを買収、広告技術のイノベーションに利用か

【抄訳】
Googleがベラルーシで生まれたコンピュータービジョンのスタートアップAIMatterを買収した。同社は、画像の検出と処理をモバイルデバイスの上で高速に行うニューラルネットワークベースのAIプラットホームおよびSDKと、その技術の概念実証のような写真/ビデオ編集アプリFabbyを作っている。

買収の噂は5月からあったが、公式に完了したのが今日（米国時間8/16）だ。両社は買収を確認し、AIMatterのサイトには声明文がポストされた。

買収の価額等は公表されていないが、すでに200万以上ダウンロードされているFabbyはそのまま操業を続け、AIMatterの社員の多くはGoogleに移籍するようだ。AIMatterの社員たちは、ミンスクとベイエリアとチューリッヒに分散していた。とくにスイスは、コンピュータービジョンの技術が高度に発達している場所として有名だ（本誌関連記事: これ、これ、そしてこれ）。今後彼らがどうなるのか、全員がGoogleに移籍するのか、等については現状では不明だ。

FabbyはこれまでHaxusなどから約200万ドルを調達している。ベンチャーファンドHaxusは主に人工知能のスタートアップを支援している。またAIMatterの協同ファウンダーで会長だったYuri Melnichekは、今では同社の投資者そしてアドバイザーになっている。彼はMaps.meのファウンダーでもあり、元Googleの社員だ。そしてAIMatterのCEO Andrei Kulikも、投資に参加している。

Haxusは、のちにFacebookに買収されたMSQRDにも投資している。またMelnichekのMaps.meにも投資しており、こちらはMail.ruに買収された。そしてあの人気の写真/ビデオ加工アプリPrismaにも、Haxusは投資している。

しかしこれからのコンピュータービジョン技術は、楽しいお遊びアプリに終わることなく、仮想/拡張現実や、自動運転車の技術など、重要な分野で利用されていくだろう。Googleには、次世代型ソーシャルアプリケーションを開発中との噂があり、そこではコンピュータービジョン技術がオーディエンスの獲得だけでなく、広告事業のための新しい技術としても活用されるのだろう。

【後略】

[原文へ]
（翻訳：iwatani(a.k.a. hiwa））

農薬や化学肥料の濫用を防ぐCeresのハイパースペクトル農地画像分析技術が$5Mの資金を獲得

カリフォルニア州オークランドのCeres Imagingが、Romulus Capital率いるシリーズAの投資ラウンドで500万ドルを調達した。同社は、カメラとセンサーとソフトウェアを使って、農家の農地に作物のストレスを見つけ、そこにタイミング良く除草剤や殺虫殺菌剤、灌水などを投じられるようにする。

Ceresは、最近多い、ドローンの農業利用に着目したスタートアップのひとつだ。しかしCEOでファウンダーのAshwin Madgavkarによると、専業農家の農地面積は数千エーカーもあり広すぎるので、ドローンでは仕事にならない、とすぐに悟ったそうだ。

そこでMadgavkarたちは、セスナのような通常の航空機に搭載する独自のセンサーとカメラを開発した。それを毎日、広大な農地の上空に飛ばすのだ。

同社はさらに、撮影した画像の中に作物のある農地だけを特定できる画像分析ソフトウェアを作った。それにより、裸の土地や影などは分析対象から外す。“農地の画像から読み取れる特殊な“署名”を、そこで起きている事象に翻訳する”、とCEOは語る。同社はカリフォルニア大学デービス校の研究者たちやデータの助けを借りて、分析技術を完成させた。

Romulus CapitalのファウンダーKrishna K. Guptaによると、Ceresがほかのアグテック企業より優れているのは、ハイパースペクトルな〔==可視光以外も含む〕画像分析によって、地上で作物や土壌を実際に調べたときと変わらない洞察を農家に提供できることだ。競合他社の多くは、NDVI(normalized difference vegetation index)に頼って作況の分析をしている。それは一定面積における作物の葉の測度だ。しかし、“Ceresは農家の作況や灌水、土壌栄養などに関してもっと細かい粒度の情報を提供できる”、とKrishnaは語る。

Ceresはすでに、世界最大のナッツとぶどうの栽培農家上位10軒（10社）のうち6社と契約していて、ほとんどの仕事をカリフォルニアとオーストラリアで行っている。同社が画像分析を提供しているアーモンドの樹園面積は、全世界のアーモンド作付面積の10%あまりに相当する。

今回のシリーズAの資金は、社員増と、営業マーケティングの拡大、そして画像分析の対象をコーンや大豆など、中西部のそのほかの商品作物にも広げることだ、とCEOは述べている。

競合他社はTerrAvionやIntelinairなどだが、PrecisionHawkのようにドローンを使っているところもある。

シリーズAの前には、ウォーターテックのアクセラレータImagineH2Oや、Laurene Powell JobsのEmerson Collectiveが支援しているNPO Elemental Exceleratorなどから、100万ドルの非希釈的助成資金を(non-dilutive grant funding)獲得している。

規制はスタートアップの邪魔になることもあるが、Madgavkarによると、Ceresの場合は需要増に貢献している。“農家に対する規制はますます厳しくなって、以前のように化学物質や肥料などを大量に使えなくなっている”、と彼は語る。農地の航空写真を見て、作物がストレスを経験している箇所や、窒素やカリウムが欠乏している農地を素早く特定する同社の技術は、農薬や化学肥料の無差別的な濫用を防いでいる。

[原文へ]
（翻訳：iwatani(a.k.a. hiwa））

混成現実のビデオをもっと自然で親しみやすく見せるGoogleの工夫…ユーザーの顔を画面中に捕捉

一般消費者向けのVRは1年近く前から出回っているが、その回りには山のように大量の疑問があり、業界の最優秀な人たちですら、ためらいを見せている。しかし、それらの疑問の中である程度答が得られたのは、消費者がVRを実際に体験しなくても、VRとはどういうものかを、知る方法だ。

研究者がそのために手早く作り上げたのが、混成現実(mixed reality, MR)という構成だ。背景にグリーンのスクリーンを張り、いろんな技術的工夫を凝らして、ヘッドセットを装着したVRユーザーを仮想環境の中に‘住まわせる’。

YouTubeにはVRのための混成現実スタジオというものがあり、本誌のこの記事中のビデオでは、著名なテレビ司会者Conan O’BrienがVRをプレイしている。それを見ると、混成現実というものが、お分かりいただけるだろう。

ゲームを作っているOwlchemy LabsやRadial Gamesなどは混成現実にもっと深入りしてて、その経験から見つけたことをゲームデベロッパーのコミュニティで共有している。デジタルの世界の中で生きた人間のアバターを見分けることにはいろいろな問題があり、彼らはそのための努力の数々を紹介しているが、しかし今日Googleが発表したブログ記事には、そんなMRビデオをもっとリアルにするための工夫が載っている。それは、ユーザーの実際の顔をビデオの中に入れてしまう、という、ちょっと奇妙なやり方なのだ。

GoogleのMachine Perception（機械知覚）のチームは、フェイシャルキャプチャ(facial capture, 顔だけを捉える)のプログラムと視線追跡とコンピュータービジョンのちょっとしたトリックを使って、改良型のVRのヘッドセットから顔が“透（す）けて見える”ようにし（右図下）、そして目の動きが参加者のアクションに従うようにした。

もちろんこの“ヘッドセットをなくしてしまう”ソリューションは、VRコンテンツの作者や共有者にとって大事件ではないけど、多くの消費者が問題とは思わなかったような問題の解決に、Googleが時間をかけて取り組んだことはクールだ。VRがユーザーの目を取り戻しただけでも、VR特有のよそよそしさがかなり減って、消費者にとって親しめるものになった、と言えるのではないだろうか。

[原文へ]
（翻訳：iwatani(a.k.a. hiwa））

視覚障害者も”見える”ようになるスマートグラス―、オックスフォード大研究者らが開発

世界の人口の1％（約7000万人）が視覚障害に苦しんでいると言われている。

コンシューマー製品が狙う市場規模としては、この数字は大したことがないかもしれないが、視覚障害者をサポートするテクノロジーの少なさを考えると、これは膨大な数だと言える。

昨年オックスフォード大学のプロジェクトから誕生したスタートアップのOxSightが、彼らの生活を変えようとしている。同社は、視覚障害者が身の回りのものを認識し、障害物を避けることを可能にするARスマートグラスを開発し、現在そのテストを行っている。彼らのプロダクトは、言うならば視覚障害者用の補聴器のようなものだ。

OxSightのスマートグラスは、将来的に杖や補助犬の代わりになるかもしれない。杖や補助犬でも近くにある障害物は避けることはできるかもしれないが、自分の周りの環境全体を感じとることまではできないのだ。

OxSightのスマートグラスは、将来的に杖や補助犬の代わりになるかもしれない。

これまでに彼らのプロダクトを試した人のほとんどは、生まれつき全盲ではなく、生活するうちに段々と視力が落ちてきた人たちだった。というのも、OxSightのスマートグラスは、光の認識であれ動きやモノの形の認識であれ、利用者にまだ残されている視力を増強する仕組みになっているからだ。

ユーザーの脳へは何も接続せず、ハードウェアは眼球とも情報のやりとりをしない。その代わりに彼らのスマートグラスには、身の回りの状況を理解するためのAR空間を再現する、透過ディスプレイやカメラシステム、コンピュータビジョンの技術が用いられている。

OxSight layers different Prisma-esc modes and that can be adjusted using hand controls.

OxSightはPrisma風のモードを複数準備しており、ユーザーはコントローラーで見え方を調整できるようになっている。

「視力を失いはじめると、モノの前後関係がつかみづらくなります」とOxSightのファウンダーで、身体制御を専門とする神経科学者のStephen Hicks博士は話す。「別々の場所にあるもののはずなのに、視界がぼやけて一緒に見えてしまいます。しかし私たちのスマートグラスは、モノの位置関係を把握し、それぞれの境目をハッキリ見せることができます。そのため、ほとんどの視覚障害者の目に残っている僅かな視力を使って、彼らはもっと直感的そしてインタラクティブに周りの環境と触れ合えるようになります」

私たちの脳が3次元空間を認識するときのプロセスは、現代のビデオゲームが床やソファー、壁といった要素をマッピングするプロセスと似ている。ゲームのシステムは、大きな物体を認識し、ユーザーとの距離感を測って3次元空間を再現しているのだ。OxSightのスマートグラスは、このコンセプトと私たちの脳の働き方を利用して、マンガのようなレイヤーをユーザーの周りに貼り付けているようなイメージだ。

最小限の視力が残っている人であれば、周りにいる人をスマートグラスが投影したハリボテのような姿で認識することができる。さらにその人の視力に応じて、色やズーム機能を使って見え方をカスタマイズすることも可能だ。視覚障害者といってもひとりひとりの状況は全く違うため、OxSightはユーザーがそれぞれ最適だと思う形で周りを認識できるよう、見え方を調整できるようにした。

A research participant wearing OxSight while bowling.

OxSightのスマートグラスをかけながらボーリングを楽しむ被験者。

「つまり、ユーザーは普通の人のように世界を認識できるようになります。しかしそれはあくまで、なんとなくどんなモノが眼前にあるのかというオーラを感じ取ることができるという程度に過ぎません。一方でこれは、例えば暗い場所で出入り口を見つけたり、障害物などをさけたりする際には大変便利なことです」とHicksは話す。「私たちのスマートグラスはモノの輪郭を目立つように強調するので、ユーザーはすぐに、そして直感的に周りを認識できるようになります。音で空間を認知する手法など、視覚障害者を助けるための手段は色々と考えられてきましたが、どれも習得までに時間がかかる、複雑で難しいものばかりでした」

スマートグラスを初めた試した人のほとんどは、「自由に動き回れる」「心配せずに外出できる」「バーやレストランといった視界の限られる暗い場所にも行ける」といったコメントを残している。さらに被験者の多くは、再び家族の顔を見ながらコミュニケーションがとれることに感動しており、特に二度と家族の顔を見ることができないだろうと考えていた人たちの喜びはひとしおだ。

The attached battery pack can be worn over the shoulder and has hand controls for adjusting to different lighting and settings.

付属のバッテリーパックは肩からかけられるようになっており、明るさなどの設定もバッテリーパック上で調整できる。

これまでこのようなデバイスの販売を試みた企業がないため、どのように市場で販売するかや、それにどのくらいの資金が必要になるかなど、製品化に向けてはわからないことだらけだ。一方でOxSightは政府・民間どちらからも助成金を受けており、慈善心溢れる投資家も見つけることができた。「大金を稼げなくても、OxSightはとても楽しいビジネスです。これから私たちが開発しようと考えているプロダクトはまだまだありますし、それが何かの助けになる人もたくさんいると思います」とHicksは語る。

OxSightが今抱えてている最も大きな問題が、何をMVP（実用最小限の製品）とするか、そしてどのようにプロダクトを市場で販売するかということだ。医療機器に関する規制はたくさん存在し、モノを認識する機能や形状、長持ちするバッテリーなど、コンシューマー向けプロダクトとは違った要件も満たさなければいけない。そこでOxSightは、視覚障害者をサポートすることにフォーカスし、このようなニーズに答えられるようなプラットフォームをつくろうとしている。一方で彼らは、ハードウェアの進歩に連れて、企業としても成長していきたいと考えている。最終的には、スマートグラスの核にあるAR技術と同じものを使って、認知症や自閉症、失読症に苦しむ人たちにも有益なプロダクトが開発できるだろうとHicksは話す。

［原文へ］

（翻訳：Atsushi Yukutake/ Twitter）

Bots_aliveキットは、AIでおもちゃのロボットに、生き物のような可愛らしさを吹き込む

CESではガジェットの数が足りなくて困るということはなかったし、来月の玩具フェアでもガジェットに不足することはないだろう。素晴らしい人工知能を搭載したロボットとガジェットたち。とはいえ実は「人工知能」という意味では不足しているのだ。しかし、実際のAI研究者による、より慎ましやかなアプローチが、生き物のような振舞を生み出す、巧妙な手段を作り出した。既存のロボットを使ったシンプルでエレガントなソリューションによってそれは実現されている。

このキットの名前はbots_aliveというもので、現在Kickstarter上でわずか1万5000ドルを募集中だ。私はCESの会場で、作成者のBrad Knoxと、この技術について話をすることができた。大袈裟に喋って踊るロボットのおもちゃが当たり前とされていた会場の中で、そのシンプルなデザインに強く心惹かれながら私は会場を後にした。

それはこのようなものだ。まず1台のHexbug Spiderを手に入れることから始まる。これは25ドルで購入できるリモコン式の歩行ロボットだ。これは通常は小さな赤外線コントローラーで操作される。そして、このロボットをスマートにするために必要なのは、その頭にマーカーを貼り付けて、キットに付属する赤外線発生デバイスをスマートフォンのヘッドフォンポート（ほら、これが私の懸念していたことだ）に差し込み、アプリを立ち上げることだけだ。

アプリは、コンピュータービジョンを用いて、ロボットならびにキットに含まれているブロックの位置を追跡する。またアプリはロボットの頭脳としても働き、ロボットにどのように動き、どこへ向かうかを指示する。ルールは単純だ：ロボットは、青いブロックを好み、赤いブロックを避ける。これは、それぞれはシンプルな要素が組み合わさって、シンプルではない遊びを生み出す例の1つだ。小さな迷路を作ってその道を歩かせたり、もしロボットを2台持っているなら、相手に向かって戦わせたりすることもできる。

しかし、Knoxのチームが、他の巧妙なプロセスを経て予め与えた生体模倣パターンによって、ロボットの振舞はより複雑で自然なものだ。そしてもちろん、機械学習も使われている。

このロボットのAIを構築するために、長年MITのメディアラボで働いてきたKnoxは、その振舞を実際の動物のものに基づくことを決定した。特に人間の振舞を用いている。チームはコンピュータービジョンシステムに、様々なシナリオで人間が操るロボットを見せた。例えば赤いブロックの向こうに青いブロックがあるシナリオ、赤いブロックが迷路になったシナリオ、等距離にある青いブロックのシナリオなどだ。

移動のためのベクトルデータといったシンプルなものだけではなく、ミスや、躊躇、障害物への衝突、なども同時に記録されている。そして、彼らはこの記録の全てを機械学習システムで処理してモデルを作った。それを使ってロボットを操り、その結果をテストしているが、まだ調整と個性の付与を行っている段階だ。こうしたプロセスについての詳細は、Knoxが今日（米国時間24日）投稿したブログ記事で読むことができる。

結果として得られたのは、不規則に振舞うロボットだ。間違った方向に少し進み、止まっては辺りを見回し、足跡を辿り直す。まあ要するに、小さな本当の生き物の振舞いのように見える。私個人にとってそれはとても魅力的だし、そのちょっとした気まぐれさは、事前に記述された人工的なものには見えない。

それは生命の存在を錯覚させる方法を考えさせる、興味深い事例だ。ヒト型ロボットが、予めキャプチャーされたダンスをきっちりと踊る動きは不快だが、この小さな虫のようなプラスチックのロボットが見せる、ちょっとした振舞は、人の気持を惹きつけることになんとか成功している。

特定の動作による強化を通じて「学習」する能力といった、機能の追加も計画されている。そして将来的には動作に対して、より明示的な制御を行うことができるようになるだろう。

bots_aliveキットはKickstarterの支援者には35ドルで提供される。もしHexbugも一緒に欲しい場合には60ドルだ。クラウドファンディングの終了後は、bots_aliveのサイトをフォローして、キットを購入することができる。

[ 原文へ ]
（翻訳：Sako）

あの鳥は何だろう？と思ったら写真を撮って鳥認識アプリMerlinに見せよう、数秒で分かる

あれはヒメハジロかな？　それともオオバン？　アビじゃないの？　ではなるべく近くで写真を撮り、鳥の種を確認するアプリMerlinに見せよう。数秒で教えてくれるから、まるでそれは、鳥類学者になりたいきみのためのShazamだね。

もう1年あまり前から、写真を認識する機能はMerlinの大きなエコシステムのごく一部でしかないけど、最近コーネル大学の愛鳥家たちが、モバイルアプリでそれができるようにした。写真を撮ってそれをズームすれば、あとはMerlinのデータベースが仕事をしてくれる。

飛んでいるミサゴをGalaxy S4で撮るのは難しい。接写なら水辺の方がいいね。.

もちろん、スマートフォンの広角カメラでは、小鳥たちの良質な接写は難しい。でもアプリの作者によると、ヘタな写真でも90%は正しく当てるそうだ。確信が持てないときは、いくつかの質問に答えるとよい…どんな鳴き声か、喉に細い帯状の模様があるか、などなど。すると精度は100%に近くなる。オフラインでも利用できるけど、そのためにはあらかじめ、200メガバイトものデータをダウンロードしなければならない。

コーネル大学の協力を得て実際にこのアプリを作ったVisipediaの協同ファウンダーPietro Peronaはこう語る: “このアプリはうちの学生たちの7年間の努力の成果であり、コンピュータービジョンと機械学習の最近の大きな進歩に支えられている”。

もう一人の協同ファウンダー、コーネル大学のSerge Belongie教授は曰く: “今後は鳥だけでなく、蝶や蛙、植物など、いろんなものを視覚的に判定できる、誰もが使えるオープンなプラットホームを作っていきたい”。

アプリはAndroid もiOSも無料だが、データをダウンロードして使うためには、500メガバイトぐらいの空きスペースが必要だ。

[原文へ]
（翻訳：iwatani(a.k.a. hiwa））

いまさら聞けないコンピュータービジョン入門

部屋の向こうから誰かがあなたにボールを投げて、あなたがそれをキャッチする。実にシンプルだ。実のところ、これは私たちが理解しようとしてきたプロセスの中でも最も複雑なものの1つだ – ましてや再現は困難だ。私たちが見るように見ることができるマシンを発明することは、見かけ以上に困難な仕事だ、コンピューターにそれをやらせることが難しいというだけでなく、そもそも私たち自身がそれをどのようにやっているのかがはっきりしないからだ。

実際に起こっているのはおおよそこのなようなことだ：ボールのイメージがあなたの目を通過して網膜に映る、そこである程度の基礎的な解析を行い、その結果を脳に送る、そして視覚野がイメージをより徹底的に解析する。そして、その後解析結果は皮質の残りの部分へと送り出される、そこでは既に知っている全てのものと結果が比較され、物体と寸法を分類し、最終的に何を行うかを決定する：腕を上げてボールを掴む（その軌跡を予測しながら）。このプロセスはほんの一瞬で行われて、意識的な努力はほぼ不要だ、そして多くの場合決して失敗しない。だから、人間の視覚を再現することは、単に1つの困難な問題ではないのだ、それは複数の困難な問題の集まりで、お互いが他に依存している。

まあ、これが簡単だろうと言った人はいない。おそらく、AIのパイオニアである、マービン・ミンスキーを除いては。彼は1966年に1人の大学院生にこのような有名な課題を与えた「カメラをコンピューターに接続して、それが見ているものを記述させなさい」。学生に同情を禁じ得ない：50年後、私たちはまだその課題に取り組んでいるのだ。

本格的な研究は、50年代に始まり、3つの異なるラインに沿って進んだ：目を複製する（難しい）。視覚野の複製（非常に難しい）：そして脳の残りの部分の複製（ほぼ間違いなくこれまで試みられたものの中で最も困難）。

見ること

目の再発明は、私たちが最も成功を収めてきた領域だ。過去数十年にわたって、私たちは人間の目の能力に匹敵し、ある部分ではその能力を凌ぐほどの、センサーや画像処理装置を作成してきた。より大きく、より光学的に完璧なレンズと、ナノメートルスケールで製造された半導体サブピクセルのおかげで、現代のカメラの精度と感度は信じられないという他はない。カメラはまた、毎秒数千ものイメージを記録し、高い精度で距離を検出することができる。

An image sensor one might find in a digital camera.

デジタルカメラの中によく見ることができるイメージセンサの1つ

しかし、出力の忠実度は高いにもかかわらず、これらのデバイスは多くの点で、19世紀のピンホールカメラより優れているとは言えない：それらは単に与えられた方向から来る光子の分布を記録しているだけなのだ。これまでに作られた最も優れたカメラセンサーでもボールを認識することはできない — もちろんそれをキャッチするなんて事もできそうもない。

別の言葉で言えば、ハードウェアはソフトウェアが存在しないと極めて機能が限られてしまう — それが解くべき、より重要な問題なのだということが分かったのだ。とはいえ、現代のカメラ技術は、撮影のためにリッチで柔軟なプラットフォームを提供している。

記述すること

ここは、視覚神経解解剖学についての完全なコースを提供する場所ではないが、私たちの脳は、言ってみれば、視覚を意識して、ゼロから構築されているのだと言えば十分だろう。脳の大部分は他のどのようなタスクよりも視覚に割り当てられている、そしてその専門化は細胞に至るまで全部が関連している。数十億のそれらの細胞が一緒に働き、網膜から送られたノイズだらけで無秩序な信号からパターンを抽出する。

もし特定の線上に特定の角度でコントラストがあったり、例えば、ある方向へ急な動きがあった場合に、神経細胞の集合がお互いを刺激する。より高いレベルのネットワークが、これらのパターンをメタパターンへと集約する：上方に移動している円、のように。そこへ別のネットワークが話に加わる：円は白く、線は赤い。また別のネットワーク：そのサイズは成長している。1つの画像が、これらの粗く補完的な記述から現れ始める。

A "histogram of oriented gradients," finding edges and other features using a technique like that found in the brain's visual areas.

「勾配方向ヒストグラム（HOG:histogram of oriented gradients）」が、脳の視覚野に見られるような技術を用いて、エッジや他の特徴を見つける

これらのネットワークを、計り知れない複雑なものと考えた初期のコンピュータービジョンの研究は、違うやり方を採用した：「トップダウン」アプローチだ — 本は/この/ように見えるので、/この/ようなパターンを探せ。もし横置きされていないなら、/この/ように見えるだろう。車は/この/ように見えて、/この/ のように移動する。

私たちは、私たちの心がどのように働いているかに関しての、使える定義をほとんど持っていない。それをシミュレートすることは更に困難だ。

制御された状況下で少数のオブジェクトを扱うなら、このやり方は上手く行った、しかし身の回りの全てオブジェクトを記述しようとすることを想像して欲しい。あらゆる方向から様々な光と動きがやってきて、数百ものその他の要素があるのだ。幼児レベルの認識を達成することでさえ、非現実的に巨大なデータセットを必要とすることが明らかになった。

脳内で発見されたものを模倣する「ボトムアップ」アプローチは、より有望だ。コンピュータはイメージ対して連続した変換を適用し、予測されるオブジェクト、複数の画像が示されたときの遠近や動きなどを発見することができる。このプロセスは、大量の数学と統計計算を伴うが、要するにコンピューターは見たものを、既に認識するように学習していたものとマッチングさせようとしているだけのことだ — 私たちの脳がそうであるように、他の画像で学習したものを使うのだ。

上のようなイメージ（パデュー大学のE-labより）が示しているものは、コンピューターが計算によって、注目したオブジェクトが他の例の中の同じオブジェクトのように見え、似た動きをすることに、ある統計的確信度のレベルまで達したことを表示している。

ボトムアップアーキテクチャの支持者たちは「だからそう言ったじゃないか」と言うだろう。しかし、つい最近まで、人工ニューラルネットワークの構築と運用は非現実的だった、なぜなら必要な計算量が膨大だったからだ。並列コンピューティングの進歩は、これらの障壁を打ち破りつつあり、ここ2、3年は私たちの脳の中を模倣する（もちろんまだ概略レベルだが）システムの、構築と利用の研究が爆発的に増えている。パターン認識のプロセスは桁違いに高速化されていて、私たちは日々進歩を重ねている。

理解すること

もちろん、あなたはあらゆる種類のリンゴを認識するシステムを作ることができる、すべての角度から、どのような状況でも、止まっていても、動いていても、少々齧られていても、どのような場合でも — そして、そのシステムはオレンジを認識することはできない。さらに言えば、そのシステムは、リンゴとは何か、それは食べられるものなのか、どれほど大きなものなのか、あるいは何に使われるものなのかに答えることさえできないのだ。

問題は、良いハードウェアとソフトウェアがあっても、オペレーティングシステムがなければあまり役に立たないということだ。

Artificial intelligence and cybernetics

私たちにとっては、それが私たちの心の残りの部分なのだ：短期並びに長期記憶、私たちの他の器官からの入力、注意と認知、本当に膨大な世界とのインタラクションを通じて学んだ、これまた膨大なレッスン、私たちがかろうじて理解した手法で書かれた、これまで私たちが出会ったどのようなものよりも複雑な相互接続されたニューロンのネットワーク。

コンピュータビジョンの将来は、私たちが開発した、強力なしかし特定の役にしかたたないシステムを、より大きなものと統合するところにある

ここが、コンピュータ科学とより一般的な人工知能のフロンティアが集まる場所だ — そして私たちが大いに空回りをしている場所なのだ。コンピュータ科学者、技術者、心理学者、神経科学者そして哲学者の間で、私たちは、私たちの心がどのように働いているかに関しての、使える定義をほとんど持っていない。それをシミュレートすることは更に困難だ。

とはいえ行き止まりに来たという意味ではない。コンピュータビジョンの将来は、私たちが開発した、強力なしかし特定の役にしかたたないシステムを、捉えることが少し難しい概念（文脈、注意、意図）にフォーカスしたより大きなものと、統合するところにある。

とは言っても、たとえ初期の段階であるとしても、コンピュータビジョンは、非常に有益なものだ。それはカメラの中に入って、顔と笑顔を認識している。それは自動運転車の中に入って、交通標識を読み取り歩行者に気をつけている。そしてそれは工場のロボットの中に入り、問題を監視し、人間の作業者の周りでナビゲーションを行っている。それらが、わたしたちと同じように見ることができるようになるまでには、（もしそれが可能だとしても）なお長い年月が必要だが、現在手にできている仕事の規模を考えると、彼らが見ているということは素晴らしいことだ。

[ 原文へ ]
（翻訳：Sako）

ジュゴンの生息個体数を数える困難な仕事をAIが助ける

上の画像に、群れからはぐれた一頭のジュゴンがいるのが分かるかな？　もっとよく見て…見えない？　この大きな画像はどうかな？　だめかな？　ほら、これだよ。こんなたいへんな発見作業を45000回やれば、それが、この絶滅危惧生物のほぼ全人口なんだ。人間が数えるのはたいへんなら、オーストラリアのマードック大学の研究者たちのように、そのために訓練されたコンピューターにやらせるとよいだろう。

同大クジラ目（もく）研究グループ（Cetacean Research Unit）のAmanda Hodgsonは、長年、無人機を使って海洋動物の画像を撮っているが、そのデータは急速かつ大量にたまりすぎるし、手伝ってくれる学生の数には限りがある。

これはわりと簡単に見つかった。

Hodgsonはクイーンズランド工科大学大学のコンピューター科学者Frederic Maireの協力を求めて、作業を自動化することにした。

彼らは機械学習のシステムを、タグにジュゴンのある画像で教育訓練し、新しい写真でも約80%の精度でジュゴンを見つけられるようにした。精度はもっと高める必要があるが、とりあえず目安としては十分であり、精査すべき画像を選り分けることはできる。

たとえば、下の画像は精査が必要かもしれない。多くの生き物がいるようだし、またシステムは、影も数えてしまうかもしれない。

すこし改良したそのシステムは、クジラやイルカ、ボート、そのほかの、沿岸によくいる生物なども見分けるようになり、個体数の計算に寄与できるようになった。

機械学習とコンピュータービジョンは、こうやって、科学者や、そのほかの人たちも、助けることができるのだね。

[原文へ]
（翻訳：iwatani(a.k.a. hiwa））

初めてのGoogle Tangoプロジェクト実装機、Lenovoの大きなファブレットPhab2 Proがやっと11月に発売

6.4インチである。奥行き（z軸方向）検知カメラという、すごいものがある。実際に来月にも発売されるかもしれない。LenovoのでっかいPhab2 Proは、予定ではこの夏発売だったが、その次に秋という曖昧な言葉になり、GoogleのTangoシステムを初めて搭載したハンドセットは、結局陽の目を見ないのではないか、という憶測も生まれた。

しかし、Googleがハードウェアの新製品を発表した日の翌日である今日（米国時間10/5）、それまで神話の世界に住んでいたそのファブレットに、ややましな日程が与えられた。GoogleのVR担当Clay Bavorが確認したところによると、アーリーアダプター（初物好きの人びと）たちはついに、やっと、11月に、そのLenovoのデバイスを手にすることができる。

ついでだが、このハンドセット（アンロック機）のアメリカでのお値段は499ドル、でっかくて、しかも待望の新しいコンピュータービジョンシステムを初めて搭載した製品のわりには、まあ、リーズナブルな金額かもしれない。これにより、うまくいけば、モバイルの拡張現実が、これからおもしろいことになるかもしれない。

この夏発表されたときに、写真は見た。その試作機には将来性のありそうな新しい機能がいくつかあったけど、今度は、このプラットホームの未来が厳しく問われる番だ。

[原文へ]
（翻訳：iwatani(a.k.a. hiwa））