日産、ドライバーの心を読んで反応時間を短縮する技術を開発

Nissanの最新研究プロジェクト‘brain-to-vehicle’(B2V)は、ドライバーがハンドルをまわそうと思ったり、ブレーキを踏もうと思っただけで行動を予測する技術を開発している。このニューラルインターフェースは、反応時間を短縮するだけでなく、脳の信号に基づいて乗り心地も制御する。同社は今年のCESでこの技術を披露する。

NissanはCESに先立ちこのB2V技術を公開し、反応時間を0.2~0.5秒縮めるところをデモで紹介している。わずかな時間のように感じるかもしれないが、1秒以下の判断が事故の有無を分ける路上の運転では大きな違いになる。

ブレーキ、アクセル、方向変更などを予測することで、ドライバーアシスタンス(ADAS)機能を大幅に改善できる可能性があるほか、運転以外の機能にも役立つ。Nissanは、ドライバーの不快感を検出することで、ドライバーの予測に沿って車を走行させることができると期待している。拡張現実を利用してドライバーの目に見えるものを変化させることで、路上での安全性を高めることも考えられる

NissanはCESでドライビングシミュレーターを使用して様々な機能を披露する予定なので、参加者は現実の動作を見ることができる。SFシリーズの「ブラックミラー」の世界を彷彿させるが、この技術から得られるデータを利用して、ADASが改善され、もっと賢く能力の高い自動運転車への道が開かれることが期待できる。

[原文へ]

(翻訳:Nob Takahashi / facebook

画像認識システムを騙して空港の警備をすり抜ける方法…Googleの研究者たちがステッカーで実験

機械学習のシステムは、有能ではあるが必ずしもスマートではない。彼らには、常識がない。そのことにつけこんだ研究者たちが、画像認識システムに対するおもしろい攻撃テクニックを作った。彼らが作った特殊なステッカーは、AIにとって、あまりにもおもしろくて興味深いので、結局そこに何も見いだすことができないのだ。そのステッカーが、アクセサリーとして流行りそうだ、とぼくが感じたのは、どうしてだろう?

コンピュータービジョンはものすごく複雑な問題であり、人間ですら、正しい画像認識のためには、認識の近道を必要とする。だから、コンピューターがそうであっても驚くには当たらない。

これらのシステムが取る近道のひとつが、すべての画素を同等に重要視しないことだ。たとえば、家の画像があって、その背後は青空、前面に草地があるとしよう。いくつかの基本的なルールにより、コンピューターにはこれが–空と草が写っていても–空や草の画像ではないことが分かる。そこでコンピューターはそれらを背景と見なし、中央にある形状の分析に多くのCPUサイクルを費やす。

そこで、Googleの研究者たちは考えた(PDF): もしもその近道が混乱して、コンピューターが家を無視し、なにか別のものに注意を注いだらどうなるか?

対戦相手となるシステムを訓練して、いろんな特徴のある小さな円〔上図左〕を作らせ、ターゲットのシステムを混乱させようとした。円には、いろんな色や、形、サイズがあり、それらのどれが画像認識システムの注意を引くかを見ていく。そのAIは、特定のカーブに着目した、とか、特定の色の組み合わせを背景ではないものと見なした、などなど。

そうやって、右図に示すような、サイケデリックな渦巻きがいろいろ出来上がった。

そしてそれを、システムが知っているもの…たとえばバナナ…の横に置くと〔上図タイトル画像〕、バナナのことは即忘れて、それが渦巻きの画像だと認識する。また、画像の中に名前のあるステッカーを作って既存の画像と合わせると、違った結果になる。

研究者たちはこれを、画像固有ではなくシステム固有を目指して行った。つまり、その画像認識システムに(特定の画像ではなく)これらの不思議な渦巻きのどれを見せても、混乱した結果を出力するように。

これは一体、何のための研究だろう? 具体的にはたとえば、数枚のこんなステッカーを衣服の上につけて空港の監視カメラの前を通ると、画像認識システムはその人が逃走中の強盗犯人であっても、見抜けないだろう(もちろん犯人の顔などは事前に訓練されている)。ただし、このシステム騙しに成功するためには、そのシステムをよく知り、大量のステッカーで事前にテストしなければならないだろうが。

コンピュータービジョンシステムを騙すもう一つのやり方は、画像に何度も小さな変更を加えると、それらのわざと置かれた画素によっては、銃の画像を亀と認識したりする。しかしこれらの、極端に局所化された“動揺と混乱”によって、新たな脅威が作る出されることがありえる。

われわれが実験したシステム攻撃は、現実世界でも有効である。しかも、ステッカーという、一見、人畜無害なものを利用する。これらの結果は、攻撃をオフラインで作っておき、それを広範囲にシェアできる、ということを示している。

人間はこの程度のパッチに気づくことができるが、でもその意図は見抜けずに、アートの一種かと思ったりするだろう。だから、小さな動揺混乱に対する防御策だけでは不十分である。もっと局所的で大きな動揺や混乱が、認識分類システムを無能化することもありえるのだ。

研究者たちはこの実験と結果を、ロングビーチで行われたNeural Information Processing Systemsカンファレンスで発表した。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa

ホームセキュリティサービスのOomaがAI機能搭載のライブストリーミングビデオカメラButterfleyeを買収

Oomaは、今でもVoPのプラットホームとして知られている企業だと思うが、このほど、AIを利用する家庭と企業用のビデオカメラ、スマートセキュリティカメラを作っているセキュリティプラットホームButterfleyeを買収した。OomaはButterfleyeのカメラを同社のセキュリティソリューションOoma Homeに統合するつもりだが、元のブランドでカメラを売ることも続ける。

両社は、買収の財務的詳細を明かしていない。

OomaのCEO Eric Stangは、今日(米国時間12/20)の発表声明でこう述べている: “Butterfleyeには、すばらしいインテリジェントなセキュリティカメラシステムがあり、その能力を私たちのセキュリティサービスOoma Homeに加えられることはすごく嬉しい。私たちの戦略は、Oomaのスマート通信プラットホームをベースとして、インターネットに接続された高度な家庭向けセキュリティサービスを提供することであり、今回の買収はそのための重要な一歩である”。

2015に創業されたButterfleyeは、そのカメラを2016年にIndiegogoのクラウドファンディングキャンペーンでプレゼンした。同社はその後400万ドル近くを調達したが、業界やメディアのレーダーにはなかなか映らなかった。その機能の中には、顔認識、個人認識、温度・音・動きのセンサー、そしてセキュリティカメラとしての24/7ライブ(リアルタイム)ストリーミングは、どんなデバイスへも送れる。

一見するとButterfleyeは、Amazonで30ドル以下で買える安物のWi-Fiカメラにしか見えないかもしれない。でもそんなカメラと違うのは、インテリジェンス(AI機能)があり、しかも頑丈だ。ただしお値段は、ワイヤレスカメラ1台で199ドル99セント以上、3台パックで499ドル99セントだから、誰もが真剣に対応すべきデバイスだ。名前が知れ渡っているNestの高級カメラも、同じ価格帯だけどね。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa

Googleが音声合成を機械学習で訓練する方法Tacotron 2を発表、システムの調教が楽になる

本物らしい良質な合成音声を作ることは今、ホットな研究開発テーマだが、一歩リードしているのはGoogleだろう。同社は今日、Tacotron 2なるものを発表して、さらにその差を広げたかもしれない。これは人工知能にテキストを読ませてリアルな音声を作り出すための、ニューラルネットワークの新しい訓練方法で、ユーザーには文法知識がなくてもよい。

この新しいテクニックは、Googleのこれまでの音声生成プロジェクトWaveNetと初代Tacotronの良いとこ取りをしている。

WaveNetは、ぼくの感想では“気味が悪いほど本物そっくりの”音声を作り出し、しかも一度に一つずつのオーディオサンプルを作るので、あまり実用向きではない。WaveNetは有能ではあるけど、最初に言語に関する大量のメタデータを必要とする。発音や、言語のさまざまな特徴などだ。

初代Tacotronは、イントネーション(抑揚)や強弱などを含む、より高いレベルの音声合成ができるが、実用的な最終製品を作るのには向いていない。

Tacotron 2は、この両者を利用している。ぼくはこの方面の技術には疎い方だけど、理解できる範囲で言えば、このシステムは、言葉のルールを明示的に教えなくても、テキストの原文とナレーションからそれらのルールを予測推定する。テキスト本体は、Tacotronがリズムや強調を得るために使う“メル尺度スペクトログラム(mel-scale spectrogram)”に変換され、語そのものはWaveNet的なシステムを使って生成される。

これでよく分かるはず!?

そうやって得られた音声は、ここにサンプルがあるが、今世の中にあるものの中では最良ではないだろうか。語りのリズムは自然だが、ちょっと快活すぎるかもしれない。わかりにくい発音のある語ではつまずくが、それらは主に、アメリカ英語に外から輸入された語、たとえば“decorum”をこのシステムは第一音節を強調するし、フランスのワイン用ぶどうの品種“Merlot”は書かれた綴りをそのまま発音するので笑わせる。研究者たちは、“極端なケースでは奇妙なノイズをランダムに生成することもある”、と書いている。

また、音声の口調…元気である、心配しているなど…をコントロールすることはまだできない。アクセントなどは、WaveNetでできたように、できる。

訓練システムの敷居を下げれば、もっと良質な訓練ができるだろう。Googleのこの新しい方式では言葉や話法に関する複雑なルールを、言語や音声スタイルが変わるたびに手作業で教えなくてもよい(ニューラルネットワークを実例で訓練するだけだ)。

研究者たちは結果をIEEEのカンファレンスInternational Conference on Acoustics, Speech and Signal Processingで発表する予定だが、そのためのペーパーはarXivで読める

[原文へ]
(翻訳:iwatani(a.k.a. hiwa

カーネギーメロン大学のAIは不完全情報ゲームに挑戦、ポーカーの最強のプロたちに勝つ

今日(米国時間12/18)発行されたScience誌上の研究論文によると、カーネギーメロン大学コンピューターサイエンス部の研究者たちが開発したAI Libratusが、もっとも難しいポーカーとされる無制限テキサスホールデム(No-limit Texas Hold’em)で、最強のプロたちに勝った。この形のポーカーはとくに2000年代の初期から中期にかけてのバブル期に、全国的に流行った。

このニュース(?)が重要なのは、無制限テキサスホールデムが“不完全情報ゲーム”と呼ばれているからだ。それは、ゲームプレイのすべての要素に関するすべての情報が、終始すべてのプレーヤーにわかっていない(==未知の情報が必ずある)、という意味だ。それは囲碁やチェスなどのゲームとは対照的で、これらのゲームでは盤上のピースとそれらの位置がゲーム情報のすべてなので、両方の対戦者に完全にわかっている。

CMUのチームは今年の1月にLibratusとその初期の成功について詳しいペーパーを発表しているが、今日の完全な科学論文では、その後の進歩を説明し、このきわめて人間的なゲームでどうやって人間に勝てたかを詳しく述べている。

Libratusがとくにおもしろいのは、ポーカーではブラフ(はったり)が勝負の鍵を握っているからだ。いつどんなブラフをかませるかで、プロとアマの違いがわかる。そしてブラフは、それぞれのブラフに明確な意味がないから、不完全情報の典型だ。ブラフの意味は、客観的な情報ではなく、予想や推測という人間の主観に依存している。

しかもポーカーは、多くの手(hands, 持ち札)を経過することによって成立し、最終的に勝つためには途中でわざと負けることもある。これもやはり、コンピューターには苦手(にがて)な複雑性だ。

プロの賭博師たちvs.Libratusの勝負には20日間を要し、手数の総数は12万手、賭け金総額は20万ドルに達した。Libratusが最強のプロたちを打ち負かしたテクニックは、研究者たちの言葉によると、必ずしもポーカーでしか役に立たないテクニックではなく、一般的にそのほかの不完全情報ゲームにも応用できる。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa

Canaryの防犯カメラがやっと人を識別する、ネコやウサギのいる部屋に置いても大丈夫

家庭用セキュリティカメラCanaryの全機種に、やっと待望の、人を識別する機能がついた。しばらくベータでテストしていたその機能は、今後6週間かけて既存の顧客全員に行き渡る。

AIと機械学習を組み合わせたその機能、“Canary Vision”は、人をそのほかの動くものから区別する。ぼくはこれまで、標準のCanaryオールインワンと、ポータブルなFlexの両方を試したことがあるが、対象を区別する能力が皆無なので、相当苛立たしい製品と感じられた。それは、この‘家庭用防犯カメラ’の最大の欠点だ。

Canaryを部屋に置くと、ぼくの部屋にはウサギがいる。10分ぐらいの間隔で彼女が体を動かすたびに、カメラから警報が来る。そう、生き物のいる部屋にCanaryを置いたぼくが悪いのだ。窓から日が射し込んで壁に影ができると、やはり警報が来る。Flexを外に置いた人は、もっとたくさんの誤認警報を受け取ったことだろう。結局ぼくは通知機能をoffにしたが、それではもちろん、防犯カメラを導入した意味がない。

人の識別は当然のようにとても重要な機能だから、早く試してみたい。使われている機械学習のシステムが訓練不足で未熟だったら、この機能によってかえってひどい目に遭うユーザーもいるだろう。早めの成熟を、ぜひお願いしたい。同社は、1月のCESでより詳しい情報を提供する、そして来年はもっと多くのAI機能を搭載する、と約束している。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa

Nvidiaと建設重機大手Komatsuがパートナーして現場の安全性をAIで強化

Nvidiaが、建設や鉱業用重機の世界最大のメーカーのひとつであるKomatsu(小松製作所)と組んで、現場の安全と効率の向上のために、AIを導入していくことになった。

NvidiaのCEO Jensen Huangはこのパートナーシップを今日(米国時間12/13)、GTC Japan(GPU技術のカンファレンス)で発表し、NvidiaのGPUを現場で稼働する重機の仮想的な‘脳’として提供して、その上で、AIに制御されるNvidiaの組み込みプラットホームJetsonが動く、と説明した。

両社の協働関係は、Komatsuが2015年から動かしている、インターネットに接続されたスマートワークサイト事業SMARTCONSTRUCTIONの発展的継続として展開される。これからはNvidiaの技術がKomatsuによる建設現場全体の3D視覚化の構築を助け、現場で仕事をしている人と機械の状況をリアルタイムで把握できるようにする。

視覚化のための画像はSkyCatchのドローンが提供し、Jetsonが画像処理を担当する。そのためのカメラは重機の各所に据え付けられ、それらにより適切なエッジコンピューティングが行われる。

Nvidiaはこれまでも同社の技術が産業用や商用のアプリケーションに数多く利用されており、その経歴も、今回の建設業における安全と効率の向上に寄与貢献するだろう。その成功のためには、十分に広範囲な実装が期待される。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa

Googleが中国にAI研究所をオープン、人材獲得で数多くの中国企業と競うことに

Googleが中国の北京にAIセンターを開くことを、公式に発表した。これまでの数か月、Googleは中国でAI方面の人材を多数雇用していたので、そんな憶測に火がついていた。

Googleの検索エンジンは中国でブロックされているが、それでも中国には数百名のスタッフを抱えていて、同社の国際的なサービスに配備していた。そのワークフォースに関連してAlphabetの会長Eric Schmidtは、“中国を去ったわけではない”と言ったが、今の中国はAI関連の人材の宝庫でもあるので、Googleがそれを無視できないのも当然だ。前のGoogle ChinaのトップKaifu Leeなどのエキスパートも、そのことを認めている。

しかしGoogle Chinaの一般社員と同じく、今回のAI関連の雇用も、Googleが中国で新しいサービスを立ち上げるサインではない。今年の初めには中国での珍しいプロダクト動向としてGoogle Translateを中国で可利用にしたが、それもやはり、それっきりのことで終わっている。むしろ北京に置かれるチームは、ニューヨークやトロント、ロンドン、チューリッヒなど世界中にいるGoogleのAI関連社員たちと協働することになる。

Google CloudのチーフサイエンティストDr. Fei-Fei Liが、中国のAIラボを発表するブログ記事で述べている: “AIとそれがもたらす福利には国境がないと信ずる。重要な進歩は、それがシリコンバレーで起きようと、北京で起きようと、世界のどこで起きても、すべての人の生活を良くするポテンシャルがある。AIファーストの企業であるわれわれにとっても、これはわれわれの全社的ミッションの重要な部分である。われわれは、世界最良のAI人材と一緒に仕事をして、その人材がどこにいようとも、それを達成したい”。

Liは元スタンフォード大学のArtificial Intelligence Labのディレクターで、1年前にGoogleに加わったときには、著名人のとても目立つ異動だった。彼女は、Jia Liと共に中国のチームを引っ張っていくが、そのJia Liの方は、Snapで彼女と一緒に研究部門いたときGoogleにスカウトされた。

その中国のラボはすでに“一部のトップタレントを雇用”しており、さらに20名を求人している

“GoogleのAI China Centerでは、自分たちの仕事を公開していくだけでなく、AIカンファレンスやワークショップのスポンサーになってAI研究のコミュニティをサポートし、活気ある中国のAI研究コミュニティと密接に協働していきたい”、とLiは言っている。

しかし中国ではBaidu, Tencent, Alibabaの三大大手のほかにも、意欲的な300億ドル企業のBytedance — ここはMusical.lyを10億ドルで買収 — や、急速に成長しているSenseTimeFace++など、AI人材の獲得をめぐっては競争がきわめて厳しい。果たして、Googleの勝算は…。

画像: Jon Russell/Flickr, CC BY 2.0のライセンスによる(画像は加工されている)

[原文へ]
(翻訳:iwatani(a.k.a. hiwa

ニューヨーク市が行政が利用する各種システムのアルゴリズムを監視する組織を作る

New York市が近く、行政の各部局が使用しているアルゴリズムの公正さを監視するタスクフォースを設ける。自動化システムのエキスパートと、それらのシステムのユーザーや受益者(ときには受‘害’者)代表から成るそのチームは、市が使っているアルゴリズムを精査して、説明責任を強化し偏向を避けるための推奨を行う。

平凡な名前のその設置条例は市議会で可決され、今は市長のデスクの上で署名を待っている。ACLUのニューヨーク支部も、これに賛同している

たとえば、“自動化決定システム(automated decision system)”(これは法律用語だ!)が、被告人の保釈の可否を決めている、としよう。しかしそのシステムの訓練データに偏向があったため、特定の人びとをほかの人びとよりも不法に依怙贔屓(えこひいき)している、としよう。

そんな場合タスクフォースは、この状況をどのように処理するかを書いたレポートを市へ提出する。そこにはたとえば、次のようなことに関する推奨事項があるだろう:

  • 被告人など関連する人びとが、自分の状況をアルゴリズムが評価した/しなかったことを、どうやって知るのか。人びとはその評価過程について、どのように報告されるべきか。
  • システムは特定グループ、たとえば高齢者や移民、障害者、少数民族などに特別の(好悪どちらかの)対応をしていないか。
  • もししているなら、そのような対応を受けた人びとに対し何をすべきか。
  • システムはその技術的細部と市によるそれらの使い方の両面で、どのように機能しているのか。
  • システムとその訓練データは、どのように文書化され保存されているのか。

タスクフォースは条例の署名後3か月以内に組織され、そこには“公正さと説明責任と自動化システムの透明性に関するエキスパートと、その自動化決定システムの影響を被る人びとを代表する福祉団体などの専門家”を、擁さなければならない。

つまり必要なのは大量の機械学習の専門家と数名の弁護士ではなく、ソーシャルワーカーや人権保護活動家などである。同じことを、ぼくも前に書いたと思う。

レポートは18か月以内に作成され、一般公開される。しかし、拙速は禁物。このようなシステムの評価はデータ集約的なタスクであり、評価のために複数の並行的な行政システムを作ることによって、人びとがシステムの割れ目に落ちてしまわないようにすることが、市民のための行政としてきわめて重要だ。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa

Nvidiaの2999ドルのTitan VはAI処理のための110テラフロップスのGPUだ

Nvidiaのカードは機械学習のワークロードを動かすためのデファクトスタンダードだが、今日(米国時間12/8)同社は、また新たな、ハイエンドのコンピュート専用型カードを陣容に加えた。Titan Vがそれだ。このカードはNvidiaのVoltaアーキテクチャがベースで、211億個のトランジスタを載せた815平方ミリメートルのチップだ。計算性能はきっちり110テラフロップスである。

もちろん、これだけのパワーはお安くない。12GBのHBM2メモリを搭載したタイプで小売価格は2999ドルだ。でも単独のパワーで比較すると、1299ドルだった前の機種Titan Xpの9倍となる。

しかしそれでもこれは、Nvidiaの最強のカードではない。その栄誉は今でも112テラフロップスのTesla V100が握っている。その小売価格は1万ドルに近い。でもそれは、Nvidiaの最強のPC用GPUだ。Titan VとV100は、共通している部分も多い。Titan VのコアはV100 GPUだが、メモリが少なくてメモリバスも狭い。

Titan Vのローンチは、かなりのサプライズだった。NvidiaのCEO Jen-Hsun HuangはNIPSカンファレンス(12月4-9日)のキーノートで、新しいハードウェアの発表をすると期待されていなかったようだ。

でも、Titan Vは発表された。Huangは述べる: “Voltaのビジョンは、ハイパフォーマンスなコンピューティングとAIの限界を押し広げることだった。その新しいプロセッサーアーキテクチャでは、プロセッサーの命令や数値の形式、メモリのアーキテクチャ、プロセッサーのリンクなどで新しい地平を開いた。そしてTitan Vでは、Voltaを世界中の研究者や科学者の手に渡したい。彼らによる画期的な発見が、待ち遠しい”。

このカードもまさしく標準的なPCI-Eのビデオカードだから、PUBGをプレイすればごきげんだと思うが、でも主な想定ユーザーは科学的シミュレーションや機械学習のモデルの構築にこのような並列処理のパワーを求めていた研究者たちだ(もちろん暗号通貨のマイニングにも使えるだろう)。Titan Vは5120のCudaコアを載せているだけでなく、機械学習ワークロードの高速化に向けて最適化された640のTensor Core〔行列演算器〕もある。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa

コードレビューサービスのPullRequestがGoogleのGradient Venturesらから$2.3Mを調達

Y Combinatorの今年の夏季の卒業生PullRequestが今日(米国時間12/7)、230万ドルのシードラウンドを発表した。そのラウンドをリードしたのは、GoogleのAIに特化した新設ファンドGradient Venturesだ。そして、Slack Fund, Fika Ventures, Defy Ventures, Lynett Capital, FundersClub, Joe MontanaのLiquid2 Venturesらがこの投資に参加した。

同社は、コードレビューをサービスとして提供する。今日の高速でアジャイルな開発サイクルでは、コードのレビューがおろそかになりがちだ。同社は、オンデマンドで仕事に応じるコードレビュワーたちのシステムを編成しており、彼らがバグやセキュリティの問題、コーディングのスタンダード、それにパフォーマンスの問題などをチェックする。

それはGoogleのGradient Venturesのミッションとは無縁なようだが、PullRequestのファウンダーLyal Averyによると、同社のロードマップには単なるコードレビューサービス以上のものもあるのだそうだ。

そのプランとは、コーディングという工程にオートメーションを導入して、コードの依存性や、オープンソースのコード片などの、重要なアップデートを自動的に検出することだ。実はSlackが同社のシードラウンドに参加しているのも、依存性を構成するピースがアップデートを要請していることをデベロッパーに伝えるSlackボットで、PullRequestが初めて、このような自動化に取り組んでいるからだ。そのプロジェクトはまだアルファでテスト中だが、同社の今後進むべき方向性を示している、とAveryは説明する。

Averyによると、コードレビューというサービスは、コーディングプロセスに関するデータの量がどんどん増えていくし、またレビュワーに問題がある場合もある。そこで同社は、コードレビューの過程そのものをレビューしスコアをつけて、適正なデータ集合を作らなければならない。彼の見解では、コードレビューが完全に無人化することはありえないとしても、そういうデータ集合を有効活用すれば、よくある一般的な問題なら修正を自動化できる。“最終的には、コードレビューをどこまで効率化できるか、という問題に帰結するんだよ”、と彼は語る。

8月にAveryに会った時点では、同社のレビュワーはおよそ200名、ユーザーは300社だった。それが今日(米国時間12/7)は、ユーザー企業1000社、レビュワー1900名に大きく成長している。

Y Combinatorを卒業したAveryは故郷のテキサス州オースチンに戻り、そこで新たに4名を雇用して社員数は6名になった。今回の資金の用途は、成長の維持と、来月とりあえず社員数を倍増することだ。そしてそこから、新たなスタートが始まる。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa

AIが操縦するドローンにレースで柔軟機敏に反応できる人間パイロットが勝った

人間にできることなら何でも、AIの方が上手にできる。最後には。

10月12日に行われたNASAのデモで、AIが操縦するレース用ドローンが有名なドローンパイロットKen Looと対戦した。

NASAのJet Propulsion Laboratory(ジエット推力研究所)の研究者たちは、Googleが研究資金を提供したドローンの自律飛行をこの2年間研究し、障害物を避けながら高速で飛ぶ三機のドローンを完成させた。いずれも、自分の視力としてカメラを搭載している。

三機のドローンはBatman, Joker, Nightwingと名付けられ、AIを3D空間にマップするGoogleのTango技術を組み込んだアルゴリズムを使用した。

それらのドローンは、直線飛行では最高時速130キロメートルだが、曲がりくねったテストコースでは時速65キロメートルが精一杯だった。

NASAのプレスリリースは、自律ドローンと人間パイロットの長短を論じている。AIが操縦するドローンはより堅実な飛行をするが、より慎重でもあり、高速時にはモーションブラーが問題になることもあった。一方、人間のLooは、数回の周航でコースをおぼえ、自律ドローンよりもずっと機敏に飛行できたが、疲労の影響が現れた。

“これまでの中で、断然最高に難しいコースだった”、とLooはプレスリリースで言っている。“パイロットとしてのぼくの欠点は、疲れやすいことだ。頭が疲れると、すでに10回も飛んでいるコースでも、間違えてしまう”。

最初のうちは、AIも人間も同じぐらいのラップタイムだったが、徐々にLooとの差は開き、最後には人間が勝利した。

今回の結論としては、自律ドローンは観測監視や緊急時対応などには使えそうだ。倉庫で在庫を調べるのも、向いているだろう。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa

自動運転車のLiDARの能力限界を機械学習で補う方法をAppleが開発

コーネル大学の研究文献目録arXivに最近上程されたAppleのペーパーは、LiDARの配列が集めた原始点群データを、機械学習を利用して、そのほかのセンサーデータを必要とせずに自転車や歩行者などの3Dオブジェクトの検出に翻訳する方法を記述している。

Appleの自動運転技術の開発努力に関して、これほど明快な文献を目にする機会は数少ない。Appleがそれをやってることが分かるのは、カリフォルニア州自動車局に自動運転のテストの許可を申請したことによって同社がそれを認めたからであり、そしてまた、そのテストカーがときどき目撃されたからだ。

しかし同時にまたAppleはこれまで、同社の機械学習の取り組みについては、ややオープンだった。自社のブログに研究を紹介するペーパーが載ったこともあるし、そして今ではより広い研究コミュニティとの共有も行っている。こうやってペーパーなどを公刊する行為は、その分野のトップタレントにとって重要であることが多く、彼らは会社を超えた広いコミュニティと協働して、全般的な機械学習技術を前進させたいのだ。

上の画像に写っているものは、Appleの研究者、とくにペーパーの著者Yin ZhouとOncel Tuzelが作ったVoxelNetと呼ばれる装置で、LiDARの配列が捉えた点の集合からオブジェクトを外挿し推断する。基本的にLiDARはその周囲にレーザーを放射して個々の点の高解像度のマップを作り、オブジェクトに当たって反射された結果を記録する。

しかしこの研究がおもしろいのは、これによってLiDARが、自分が属する自動運転システムの中でより効果的に働けることだ。通常は、LiDARのデータは、光学カメラやレーダー、そのほかのセンサーなどのデータと対照融合されて完全な像を作り、オブジェクトの検出を実行する。しかし、Appleのこの方法のように、信頼性の高いLiDARだけを使えば、路上で実用化される〔量産量販の〕自動運転車の、今後の製造とコンピューティングの効率が上がるだろう。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa

AWSがAIを利用する企業顧客へのコンサルティング事業と高度な画像認識機能を発表

例年の大型カンファレンスre:Inventを来週に控えたAmazonのAWSが、人工知能関連の新たな展開を二つ発表した。まず、AWSは、機械学習のラボML Solutions Labを開き、機械学習のエキスパートと、AIによるソリューションを作ろうとしている顧客を結びつける。さらにAWSは、ディープラーニングによる画像認識APIベースAmazon Rekognitionの機能を拡充し、リアルタイムの顔認識と画像中のテキストを認識する機能を新たに加える。

新たなラボと画像認識プラットホームの拡充は、AmazonとAWSのAI推進努力の一環であり、社内利用とB2Bビジネスの成長材料の二面をねらっていると思われる。1か月前にAWSは、デベロッパーが自分のアプリケーションやサービスのために機械学習のモデルを構築し利用するためのディープラーニングライブラリGluonをMicrosoftと共同開発する、と発表した。

Amazonは昨年のre:InventでAWSのAIリソースのデベロッパー向け総合窓口Amazon AIを発表しているが、今年この時期(感謝祭の前日)にこれら二つの発表をしたということは、今年のre:Inventのための足固めか、それとも今年はAIにあまりハイライトを当てないことを意味するのか。

Solutions LabはAWSのBusiness Supportの顧客に提供されるが、これはAIだけでなく企業向けのコンサルティングサービスでもある点が興味深い。IBMのような企業ITの古顔企業では、コンサルティングサービスこそがつねに、ビジネス開拓の鍵を握っている。

Amazon AI担当のVP Swami Sivasubramanianはこう語る: “デベロッパーたちがAmazonのML Solutions Labで機械学習への取り組みを開始するのを、じっと待ってるわけにはいかない。Amazonが抱える機械学習の最良の科学者と実践者の専門的知識技能に、顧客の深いビジネス知識を組み合わせることによってのみ、AmazonのML Solutions Labは顧客元における機械学習の迅速な立ち上げを支援し、彼らの社内における機械学習の実用稼働をスタートできる”。

すでに、Washington Postや、Johnson & Johnsonの製薬部門Janssen、World Bank Groupなどが最初の顧客として確定している。

一方Rekognitionの新しい機能は、コンピュータービジョンにおけるAmazonの継続的進展を示すだけでなく、プロダクトとして外部の顧客が利用でき、Amazonの収益源にもなるという点が、強い姿勢として目立つ。

注目すべきは、Rekognitionの新機能のビッグな顧客のひとつがPinterestであることだ。画像による検索や分類はPinterestの最重要な機能だが、同社はそれを内製せずに外部のサービスやAPIを使おうとしている。

しかしPinterestはAWSにとって長年の顧客であり、AmazonのクラウドストレージS3の上には何百万もの‘Pin’が保存されている。だからAmazonがこのような大型顧客の便宜のために、画像中のテキスト認識機能を開発したとしても、おかしくはない。

PinterestのCTO Vanja Josifovskiがこう言っている: “Pinterestはビジュアル専門のプラットホームだから画像処理のスピードとクォリティーに大きく依存している。でも、画像中のテキストは、それらがコンテキストを提供し、Pinをアクションに誘うために、きわめて重要だ。画像中に興味深いテキストがあれば、われわれの2億あまりの‘Pinner’たちは、それへの何らかの反応を誘われるのだ。これからは、Amazon S3に保存されている数百万のPinsから、リッチなテキストを素早く取り出せることができるようになる。Pinterestのユーザーのユーザー体験とビジネスの高品質化と高速化のためにも、AWSとのパートナーシップをさらに発展させていきたい”。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa

Algorithmiaのプラットホームにより企業が自分たちの機械学習モデルを管理しデプロイできる

Algorithmiaという名前のスタートアップが、オンラインのマーケットプレースを開始しました。何のマーケットプレースでしょう? そう、正解です。アルゴリズム屋だからアルゴリズムに決まっています。そして、デベロッパーたちがここに出品するアルゴリズムは、顔認識や感情分析などなど、機械学習関連のものがとても多かった。

そこで、ML/AIがブームであることに気づいた同社は今日(米国時間11/15)、その方向への次の一歩を踏み出し、データサイエンティストが自分で機械学習のモデルを管理/デプロイできて、社内でモデルの共有もできる、というサービスを立ち上げた。

それは基本的に、MLのモデルを動かすために同社が作ったインフラストラクチャやサービスの一部を利用する、新しいプロダクトだ。Algorithmiaの協同ファウンダーでCTOのKenny Danielが、今日の発表声明で述べている: “Tensorflowがオープンソースでも、そのスケーリングは違う。今ではほとんどすべての研究開発事業に、データの収集とデータの整理、そしてそれによるモデルの構築が伴っている。Algorithmiaはこれまでの5年間を費やして、それらのモデルをユーザーが実際に動かしてみるためのインフラストラクチャを構築してきた”。

この新しいサービスでは、データサイエンティストが自分の好きな言語とフレームワークでモデルを作り、それをAlgorithmiaのクラウド(CODEXプラットホーム)またはオンプレミスのアーキテクチャを使ってホストする。そのために同社は、そのサービスの二つのバージョンを提供している: モデルを同社のクラウドでホストするためのServerless AI Layerと、サービスを任意のパブリックまたはプライベートなクラウドでホストするためのEnterprise AI Layerだ。

クラウドとオンプレミスどちらも、gitを使ってモデルを加えたり、モデルを社内で他と共有したり、パーミッションや認可を扱ったりできる。また、モデルのデプロイに必要なDevOpsのすべても扱う。

ここ数か月同社は、登録したエンタープライズ顧客たちによりこのサービスのベータを行っている。それには、同社のサービスを使って自分たちのモデルをホストしたいと考えている政府省庁もいくつか含まれる。

“Algorithmiaがアメリカの政府省庁に力を与えることによって、そのAI層に新しい能力を迅速にデプロイしている”、とCIAの投資部門In-Q-TelのKatie Grayは語る。“そのプラットホームがセキュリティとスケーラビリティとリソースの見つけやすさを担保するので、データサイエンティストは問題解決に専念できる”。

今年半ばにAlgorithmiaはシリーズAで1050万ドルを調達したが、そのラウンドをリードしたのはGoogleが新たに作った、AIに特化したベンチャーファンドだった。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa

GoogleがTensorFlow Liteのデベロッパープレビューを共有、画像や自然言語処理で試用可

5月のGoogle I/Oで、TensorFlowのモバイルデバイス用のバージョンが発表されたとき、会場のデベロッパーたちはざわめいた。そして今日Googleは、その期待に応えて、TensorFlow Liteのデベロッパープレビューをリリースした。

このライブラリは、スマートフォンや組み込みデバイスで使う軽量級の機械学習ソリューションを作ることがねらいだ。Googleはそれを、TensorFlowのモバイルに向けての進化と呼び、今日からそれを、AndroidとiOS両方のアプリデベロッパーが利用できる。

開発の主眼はモデルの訓練よりもむしろ、非力なデバイス上での、モデルからの推論の短時間化におかれている。ふつうの言葉で言えばTensorFlow Liteは、モデルにすでにある(学習済みの)能力を、与えられた新しいデータに適用することがその主な目的であり、データから新しい能力を学習することは、多くのモバイルデバイスにとって、荷が重すぎるのだ。

TF LiteをTFの部分改作ではなくスクラッチから作ったのは、その軽量性を徹底すること、そして素早く初期化され、さまざまなモバイルデバイス上でモデルのロードも素早いことをねらったからだ。TensorFlow Liteは、Android Neural Networks APIをサポートする。

今回は完全なリリースではないから、今後まだ、いろんなものが加わってくる。現状のTensorFlow Liteは、Googleによると、視覚処理と自然言語処理のいくつかのモデル、MobileNet, Inception v3, Smart Replyなどを使える状態だ。

TensorFlowのチームは、こう書いている: “このデベロッパープレビューでは、われわれは意図的に限られたプラットホームでスタートし、もっとも重要でよく使われる一部のモデルでのパフォーマンスを、確実にしたいと考えた。われわれの計画では、将来の機能拡張はユーザーのニーズに基づくものにしたい。われわれの開発の目標は終始一貫してデベロッパー体験の単純化にあり、さまざまなモバイルおよび組み込みデバイスでモデルをデプロイできるようにしたい”。

関心を持たれたデベロッパーは、TensorFlow Liteのドキュメンテーション読んで、その霊に取り憑かれてしまおう。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa

自動運転シャトルバスがラスベガスでテスト開始直後に軽微な事故

ラスベガスのダウンタウンで運行を開始した自動運転のシャトルバスが、発車から一時間足らずで軽微な事故に遭遇した、と地元のニュースサイト(NBC系列のKSNV)が報じている。自動運転車としては、ちょっと幸先が良くなかったようだ。

たまご型で8人乗りのシャトルバスNavyaは、AAAとKeolisが運行している。それはFremont Eastの“Innovation District”における半マイル(800メートル)の試験運行で、LVの繁華街ではないのが幸運だった。

その事故はロボカーくんの落ち度ではなくて、運転手のいるセミトレーラーがバックしてきて接触したのだ。軽い接触であり、負傷者はいない。

路上で試験運行するほどの自動運転車には、障害物を避(よ)けたり、必要なら緊急停止する能力が必ずある。今回は、20トントラックがバックしてきたとき、ちょっと動いて避けるということが、できなかったようだ。

KSNVがインタビューした乗客は、不満を述べている:

シャトルがじっとしてるから、‘おいおい!当たるぜ!当たるぜ!’と思った。次の瞬間、実際に当たった。そのシャトルには、自分もバックする能力がなかった。じっと、止まってただけみたいだね。

シャトルの設計者が事前に想定していない状況って、そんなにたくさんあるのだろうか? 自分の方に向かってくる車があるとき、それを避けるなんて、かなり基本的なことだと思うが。

ラスベガス市が発表した声明では、“シャトルの行動は想定どおりである。そのセンサーはトラックを感知し、シャトルは事故を避(さ)けるために停止した”、と言っている。

こんな言い訳も: “トラックにシャトルと同じような感知装置があれば、事故は避けられたであろう”。

そのシャトルは、本当に正しく反応したのか。試験は続行されるが、そんなとき、ただ止まるだけではない、ということが実証されるまでは、乗りたくないね。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa

Nvidiaに負けたくないIntelとAMDがCPU/GPU盛り合わせチップを共同開発

IntelがAMDと一緒に、IntelのCPUとAMDのGPUを合わせたノートブック用チップを開発している。それは小さくて軽量で、しかもグラフィクス要求の厳しい最高クラスのゲームもゆうゆう扱える、というチップだ。

この二社の提携は、見た目には分かりやすいが、でも両社がコラボレーションするのは80年代以来久しぶりだ、とアナリストのPatrick MoorheadがThe Wall Street Journal紙に語っている。これまでは、どちらかというと両社は互いに強力なライバルとして、PC用プロセッサー市場を争っていた。まあ、レースの常勝はIntelだったけど。

でも最近では、Intelのトップの座をねらうのはAMDよりむしろNvidiaのようだ。グラフィクスカードのメーカーであるN社は、このところAIと機械学習に力を入れているし、それと同時に消費者向けとエンタープライズ向け両方のコンピューター用に、トップクラスのグラフィクスカードを提供し続けている。

AMDは最近、Nvidia製品に負けない性能/機能のGPUを作って、Nvidiaを押さえ込もうとしている。そして今回のIntelとの協働では、どでかい専用グラフィクスカードがなくても最高のグラフィクス性能を発揮するチップによって、さらに未来の成長の余地を作ろうとしている。このチップはPCのメーカーに、プロセッサーのサイズが小さく、グラフィクスカードもそれ用のヒートシンクも要らないという、省エネ省スペースを提供するはずだ。

そしておそらくIntelは、昔のライバルと組むことによって現在の最強ライバルを引き離したい、という根性だろう。消費者にとっては、良いニュースかもしれない。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa

機械学習の良質なモデルは各ドメインエキスパートが作るべき、Piensoは非技術者がモデルと対話できるツールを提供

機械学習のエキスパートはもちろん機械学習技術に貢献する、しかしプログラミングとは無縁な、世の中のそのほかの分野のエキスパートたちも、逆に、機械学習のモデル構築には役に立つはずだ。

そこでMITから生まれたスタートアップPiensoは、機械学習のモデルの訓練を技術者以外の人にもできるようにして、人材のいない企業などが、さまざまな分野のエキスパートたちが持つ良い知識や情報を利用できるようにしたい、と考えた。

“機械学習のエキスパートでないドメインエキスパート(各分野の専門家)をモデルに埋め込んで彼らの専門知識を利用するにはどうしたらよいか”、これがCEO Birago Jonesの言うPiensoの問題意識だ。

ブルックリンに拠を置く同社は今日(米国時間11/6)、Eniac Ventures率いるシードラウンドにより210万ドルを調達した。参加した投資家は、SoftTech VC, Indicator Ventures, E14 Fundなどだ。同社はこのお金でチームを増員し、また顧客ベースを拡大したい、と考えている。

同社のメインのプロダクトIntelligent Development Environmentは、モデルの構築者と利用者を結びつけるソリューションで、その主要機能であるLensを使って非技術系の人びとが機械学習のアルゴリズムと対話できる。

常時、大量のデータ集合を抱える企業は、機械学習によってそれらの意味や傾向等を取り出すことが可能だが、そのためにさまざまな分野のエキスパートを起用するのはコスト的に難しい。Piensoがねらうのは、このようなhuman-in-the-loop問題を解決することで、求める人間的力(判断やフィードバック)がすでにモデルに反映されている、という状態を作り出す。

Jonesはこう言う: “研究者やアナリストなどの知識労働者に、コンピューターサイエンスや高度な統計学の知識能力がない、というケースの方がむしろ多い。だから、彼らの専門知識を、誰かが機械学習のモデルへ入力しなければならないが、そうすると今度は、ニュアンスやコンテキスト、デテールなどがその過程で失われてしまうことが多い”。…だから、各分野のドメインエキスパート自身に、モデルへの入力をしてもらおう、というのだ。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa

Googleがテキサスの銃撃事件で誤報を検索結果の上位に出す、今回も情報源はTwitterだ

【抄訳】
Googleがまた、話題の事件に関する、疑わしくて政治的動機もありそうな推測や誤報を、そのアルゴリズムによって広めたとして、非難されている。

アルゴリズムによる誤報の増幅の、その最新例は、日曜日にテキサス州の教会で起きた銃撃事件だ。当局は、26歳のDevin Patrick Kelleyを犯人と認めた

Googleのユーザーが“who is Devin Patrick Kelley?”や、あるいはその名前だけで検索すると、その銃撃犯がイスラム教に改宗していた、とか、犯ファシズム団体Antifaの会員だっとか、民主党の支持者だった、などなどのツイートを見せつけられる。

[ツイート訳: Googleの’Popular On Twitter’(Twitter上で人気)は誤報の溝(どぶ)だ。Devin Patrick Kelleyで検索しただけで、これら4つのアイテムが現れる。]

重大な問題は、Googleが未確認の主張を検索結果の上位に表示することだ。同社はそれを、図書館が利用者に提供している真実なデータの索引にたとえたことがある。しかし“oracle of truth”(真実のお告げ)で検索するとWikileaksのJulian Assangeのツイートのフィードが出てきたりするから、明らかに、正常な索引ではない。

Google検索はTwitterのツイートの大量フィード(通称: firehose,消防ホース)をふつうの正常な情報源とみなしているから、アクセス数やクリック数の多いツイートは検索結果の上位に出る。そしてFacebook上のフェイクニュースのように、未確認の情報が山火事のように広がる。〔Google自身はツイートの内容を検証しない。〕

そうやって検索結果の上位に出るツイートは、“Popular on Twitter”(Twitterで人気)とか、単に“on Twitter”というラベルが付く。未確認情報でも、悪意ある情報でも、あるいは政治的意図のある情報でも…。

今回のテキサス銃撃事件の誤報ツイートが検索上位に出た件について、Googleのスポークスパーソンはこう言った: “Twitterからの情報は弊社のランク付けアルゴリズムによって取り上げられたものであり、刻々と変わっていくものであり、ほとんどリアルタイムで進行している動的な会話の表現である。問題のクェリに関しては、それらはページ上に表示される最初の検索結果ではない。それらは、常時アップデートされているTop Storiesなどのニュース項目の下に来るものであり、最上位ではない。検索で現れるツイートのランク付けに関しては、そのやり方をどう改善すべきか、検討を続けていきたい”。

しかし、一か月前には、やはり大量銃撃事件で、未確認情報のツイートが“Twitterで人気”ではなく、Top Storiesの欄に出たことがある。

一方Twitterは、現時点で何もコメントをくれない。

【後略】

  1. screenshot-2017-11-06-07-37-18.png

  2. screenshot-2017-11-06-07-37-10.png

  3. screenshot-2017-11-06-07-37-03.png

  4. devin-patrick-kelley.jpeg

[原文へ]
(翻訳:iwatani(a.k.a. hiwa