いや、iPhoneにセクシー写真の専用フォルダーはない

ものごとの動きがこれほど速くなると、しくみに対するわれわれの想像が、実際に機能しているしくみに追いつくまでに少々時間がかかるのはいたしかたない。ただ、これは非常に繊細な問題なので誤解を解いておく価値があるだろう。Apple(あるいはGoogleでもどこでも)は特別なフォルダーをもっていて、いけない写真は全部そこに保管してある、という噂。心配になるのは当然だが、幸いなことに実際そんなことは起きていない。

そういう会社が何をやっているかといえば、何らかの方法で写真の内容を分析することだ。彼らは高度な画像認識アルゴリズムを使って、犬やボートから人の顔まで何でも簡単に識別できる。

犬が検出されると、その写真に関連付けられたメタデータに「犬」タグを付加してシステムが追跡できるようになる。撮影時の露出設定、位置情報なども一緒に保存されている。これは非常に低いレベルで行われる処理なので、システムは犬がなんであるかは知らない。単に特定の数値(様々な視覚的特徴に対応している)に関連付けられた写真をとってくるだけだ。しかしこうすることで目的物を検索したときシステムは容易に見つけられるようになる)。

通常この分析はセキュリティー保護された「サンドボックス」の中で行われ、識別された内容はほとんど外へ出ない。もちろん特別な例外はある。例えばチャイルドポルノに関しては非常に特殊な分類システムが用意されており特別にサンドボックス外へのアクセスが許されている。

かつてサンドボックスは非常に大きくウェブサービスを必要としていた ―― 写真が内容に応じてタグ付けされるのはGoogleフォトやiCloudなどのアップロードした時だけだった。今はもう違う。

機械学習や処理能力の向上によって、以前巨大なサーバー群の中でしか生きられなかったアルゴリズムと同じものが携帯電話の中で十分実行できるようになった。このためあなたの写真をAppleやGoogleに送らなくても「犬」のタグを付けられるようになった。

セキュリティーやプライバシーの観点から見て、この方がシステムとしてはるかに優れていることは間違いない ―― プライベートなデータを検査するのに誰かのハードウェアを使い、秘密を守ってくれると信じる必要がなくなった。今でも信じなくてはならないが、信用すべき部分や手順が少なくなった ―― 「トラストチェーン」の単純化と短縮だ。

しかしこれをユーザーに説明するのは簡単ではない。ユーザーから見れば自分たちのプライベートな ―― おそらく非常にプライベートな ―― 写真が本人の承諾なしにカテゴリー分けされているのだから。会社の干渉なしにこれが可能だとは何とも信じ難い。

I’m in a “carton” on the right, apparently.

問題の一部はUIの欠陥にある。iPhoneの写真アプリで検索すると、(もし見つかれば)検索結果が「カテゴリー」として表示される。このことがこの写真はiPhone内のどこかにある「フォルダー」に「入っている」ことを暗示させている ―― 「車」や「水着」などのラベルをつけられて。ここで起きている問題は、検索の実際のしくみを伝達することに失敗していることだ。

この種の写真分類アルゴリズムの限界は、必ずしも柔軟性がないことだ。写真によく出てくる一般的な対象物を500種類識別できるようにシステムを訓練することはできるが、あなたの写真にそのうち1種類も入っていなければ何もタグ付けされない。検索した時に出てくる「カテゴリー」はシステムが探すように訓練されたよくある物事の名前だ。前にも言ったようにこれはかなり近似的なプロセスだ ―― 写真の中に一定の信頼度を超えた物体があるかどうかを見るだけ(例えば上の画像で、私が無響室にいる写真に「カートン」というラベルが付いてる。思うにこれは壁が牛乳パック(milk carton)に見えるからだろう)。

「フォルダー」を始め今日のコンピューターシステムにファイルが保管されているしくみに関するほとんどの知識は時代錯誤だ。しかし、デスクトップ式の階層化されたフォルダーシステムと共に育ったわれわれは、ついついそれを想像してしまい、写真が保管されているものがフォルダー以外であるとは考えられない ―― ただしフォルダーには作成、アクセス、管理などここではあてはまらない特殊な意味合いもある。

あなたの写真は「水着」のラベルがついたフォルダーの中に入っているのではない ―― あなたが検索ボックスにタイプしたテキストを写真のメタデータのテキストと比較して、一致すればその写真を表示しているだけだ。

これは、問題となっている会社があらゆる疑問について完全に無罪放免だという意味ではない。例えば、サービスはどんな対象やカテゴリーを探しているのか、何を除外しているのか、それはなぜなのか?どうやって分類アルゴリズムを訓練しているのか、例えばそれは、皮膚の色や性別の異なる人についても同様に有効なのか?どうやってこの機能を制御やるいは停止するのか、もしできないのから理由は何か?等々。

幸い私はトップIT企業数社と連絡を取り直接この質問をすることができたので、今後の記事で回答の詳細を伝える予定だ。

[原文へ]

(翻訳:Nob Takahashi / facebook

1000億ドルでは足りない、SoftbankがVision Fundの続編続々編を計画中

Softbankが最初の最大1000億ドル規模のVision Fundの後続となるファンドの調達を準備しているようだ。今日、Nikkeiの取材に応じたCEO Masayoshi Sonはこう述べている: “Vision Fundは最初のステップにすぎない。10兆円(880億ドル)では全然足りない。積極的にもっと大きくしていきたい。Vision Funds 2, 3, 4などを2〜3年ごとに設立していきたい”。

Vision Fund 1が発表されたのは2016年10月で、その最初のクローズ(930億ドル)は今年の5月だった。投資の主対象は人工知能と物のインターネット(Internet of Things, IoT)だ。

Sonによると、このファンドの背後には‘人工超知能’の到来が迫っていると彼は確信しているので、急いでいるのだ、という。“それがやってくることは確実だと本当に信じているので、それが急ぐ理由だ。大急ぎでキャッシュをかき集め、投資していきたい”、と2月に語っている。

その巨額な後続ファンドの調達先がどこになるのか、まだ明らかではないが、最初のVision FundのバックにいたのはApple, Qualcomm, Foxconn, アラブ首長国連邦の国家資産ファンド, サウジアラビアの公的投資ファンドなどだ。

次のVision Fundの投資家に関してSoftbankのスポークスマンはこう述べた: “Mr. Sonは彼の投資戦略観について一般的なお話しかしていない。具体的な計画に関するお話はまだない”。

NikkeiへのコメントでSonは、ファンドのサイズに関する予想や、次の10年間における主な投資対象について述べている。

“ファンドの設立能力を10兆円から20兆円、さらに100兆円へと大きくしていける仕組みを今作っている”。そして全体としてそのファンドは、“10年間で少なくとも1000社に投資しているだろう”。

Nikkeiによると、Vision Fundsの主な投資ターゲットはユニコーンである。まだ上場していないが推定時価総額が10億ドルを超えるスタートアップだ。

また、一件の投資案件の規模は、最大で約8億8800万ドル(≒1000億円)である。

本誌TechCrunchは、最初のVision Fundのこれまでの投資先企業のリストを作成している。

また本誌TechCrunchは、Uber-Softbankの契約が“ほぼ確実に”来週締結される、と報じた〔未訳〕。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa))

GoogleのAVAデータセットはビデオの中の人間のアクションを見つける精度を上げる

今日(米国時間10/19)Googleが、ビデオの中で行われている人間のアクションを集めてそれぞれにラベルをつけたデータセットを発表した。何のことだかよく分からないかもしれないが、実はこれは、コンピュータービジョンの問題解決に今後大きく貢献するデータ集合なのだ。

最近では、人間の第二の目になってくれる製品やサービスが大きく成長している。ビデオの中の特定の映像を見つけるMatroidや、Lighthouseのようなセキュリティシステム、それに自動運転車でさえ、ビデオの中で起きていることが理解できると大いに助かる。そしてその理解は、良質なラベル付きデータによる訓練やテストに負っている。

GoogleのAVAはatomic visual actions(最小単位…不可分…の視覚的アクション集)の頭字語だ。そのほかのデータセットと違ってそれは、アクションデータとして使えるシーンの中に複数の区切りを設けて、それぞれにラベルを付ける。つまりひとつのシーンがマルチラベルだ。これにより複雑なシーンの細部を捕捉でき、機械学習のモデルの精度を上げる。

Googleのブログ記事は、人間のアクションの分類(〜把握理解)が困難である理由を詳細に述べている。アクションは静的オブジェクトではないので、時間の上に繰り広げられる。したがって、不確実性が多くなる。誰かが走っている映像は、さらにその後のフレームを見るとランニングではなくて実はジャンプだったりする。一つのシーンの中に二人の人間のからみがあると、その理解はさらに複雑だ。

AVAには、ビデオの断片が57000あり、人間に付けられたラベルが96000、ラベルの総数は21万になる。ビデオの断片はYouTube上の公開ビデオから取られ、一片の長さが3秒だ。歩く、蹴る、ハグするなどアクションのタイプを80種用意し、手作業でラベルをつけていく。

試してみたい人は、完全なデータセットがここにある。AVAに関するペーパーは最初、5月にarXivに発表され、7月にアップデートされた。そこに紹介されている実験では、Googleのデータセットが既存の分類テクニックにとって極めて難しいことが示されている。下表は、前からあるJHMDBデータセットと、新しいAVAデータセットのパフォーマンスを比較している。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa))

Nvidiaに負けたくないIntelがニューラルネットワーク専用プロセッサーNervanaを年内発売

今朝(米国時間10/17)WSJのD.LiveイベントでIntelが公式に、同社のニューラルネットワークプロセッサーNervanaを披露した。この機械学習のユースケースを想定したチップ系列は、開発時のコードネームがLake Crestだった。

このチップの基本技術は、Intelが昨年8月に3億5000万ドルで買収したNervana Systemsに負っている。このニューラルネットワークプロセッサー(Neural Network Processor, NNP)チップは標準的なキャッシュ階層を廃し、チップ上のメモリをソフトウェアが管理することによって、ディープラーニングのモデルの訓練を高速化する。

Intelはここ数か月、Nvidiaに完敗することを避けようと躍起になっていた。今成長著しいAI市場に向けて舵を切ることにより、このレガシーのチップメーカーは、これまでに築いた業界とのコネを利用して生き残ろうとしている。その点に関してIntelの目標は、2020年のAI部門の売上を現在の100倍にすることだ。

NervanaはNNPとしてスケーラビリティと数値計算の並列化を売りにしている。また、強力な双方向データ転送能力も、重要なセールスポイントだ。Intel独自の数値フォーマットFlexpointを使うことによって、スループットを上げているという。また回路のサイズを縮小したことによって並列処理を高速化し、同時に電力消費量を減らしている。

もちろんニューラルネットワークのパラメーターを大量のチップに分散して効率を上げることは、他者も当然ねらっている。Nervanaと並んで今後市場にどんなものが出てくるか、今から楽しみだ。

今日の発表には、ベンチマークがなかった。間に合わなかった。発売は年内だそうだが、大丈夫か。Facebookは技術情報をIntelと共有して、このチップの開発に協力してきた。

Intelは、Nervanaを軸とする総合的な製品ラインを目指しているようだ。次に出るAI向けXeonプロセッサーは、噂ではコードネームが“Knights Crest”だそうだ。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa))

Allen Institute for AIの科学文献インデクサーSemantic Scholarにバイオメディカルの論文数千万点が加わる

科学の文献を自然言語処理などのAIの技法を使ってインデクシングするプロジェクトSemantic Scholarが、これまでのコンピューター科学に加えて、バイオメディカル(biomedical, 生物医学)の研究文献数千万点を新たに加えた。これで、この、この有益なツールがカバーする分野がさらに増えたことになる。

Allen Institute for AI*が作ったSemantic Scholarは、これらのペーパーの全文をスキャンし、そのトピックや図表、キーワード(薬品名、臓器名など)などでそれらの関連付けを行う。〔*: Allen Institute for AI, Microsoftの協同ファウンダーPaul Allenが2013年に立ち上げ。〕

今日では大量の文献が毎日のように発表されていて、その蓄積量がますます膨大になりつつある。それらを適切にレビューすることは、一人の研究者だけでなく、チームでも不可能だ。6年前のペーパーにたまたま、ノルエピネフリンの製造過程における副産物の微弱な医薬効果が書かれているが、それがメインの発見ではなく、あるいは別の分野のジャーナルに載っていた、という場合、今の研究者はそれをどうやったら見つけることができるのか?

これら何百万ものペーパーを取り込んで、細かいことでも研究者が見つけられるようにするのがSemantic Scholarの目的だが、最近までそのシステムはコンピューター科学の文献に限定されていた。今回、いくつかのバイオメディカルの研究分野が加わったので、そこになたのペーパーもあるか、確認してみよう!

このWebツールの今回のアップデートにはUIの改良が含まれ、利用者の関心に即したトピックやタグが見つけやすくなり、また、各分野の最新の研究動向も分かるようになった。それによりたとえば、ユーザーが知らなかった新しい薬やテクニックが浮上してくることもありえる。

このツールは誰でも利用できるが、もちろん誰にとっても便利とは言えない。風邪薬を探していたり、あるいはあなたが古生物学者だったら、ここはあまり役に立たない。でも、今後対象分野が徐々に増えていくと、それも変わるかもしれない。

関連記事

[原文へ]
(翻訳:iwatani(a.k.a. hiwa))

デベロッパーが使う機械学習のモデルがグローバルなトレンドに合うようにするTensorFlow Lattice

GoogleのTensorFlowのチームが今日(米国時間10/11)、デベロッパーが使用する機械学習のモデルが、訓練データにノイズがあった場合でもグローバルなトレンドに合っているようにするためのツールTensorFlow Latticeをリリースした。Latticeはルックアップテーブルのようなもので、それにより、モデルを制約するマクロのルールを定義する過程を単純化する〔単なる表で表す〕。

ルックアップテーブル(lookup table, 参照表)は、データの入力(キー, 鍵)と出力(ヴァリュー, 値)を対照させたデータ表現だ。一つのキーに一つのヴァリューが対応している形がいちばん理解しやすいが、複雑な多次元のファンクションではキーが複数になることもある。TensorFlowのチームのアプローチは、訓練データを使ってルックアップテーブルのヴァリューを訓練し、一定の制約下で精度を最大化するものだ。

このやり方にはいくつかの利点がある。まずそれは上述のように、単調関係(monotonic relationship)を定義しやすい。もっとふつうの言葉で言えば、入力がある方向に動けば出力も同じ方向に動く、というデータ間の単調な関係をデベロッパーに保証する。

チームは、車と交通量の例を挙げている。車が増えれば交通量も増える、という単調関係。このような状況では、単調性がルックアップテーブルのパラメータの制約として表現される。これらの制約は、事前の知識を利用して出力(結果)を改良する。モデルが、ユニークだけれども前と似た問題に適用されるときには、とくにそれができる。

さらにまた、高価な計算に頼るよりも単純な参照表を使った方が効率的な場合があり、そのときは一つ一つの入力/出力ペアをいちいち計算するよりも推定(補完)で間に合う。それにラティステーブル(格子表)は、従来の方法に比べて、デベロッパーにとっての透明性が増す。

TensorFlowは、デベロッパーがラティステーブルを使ってさまざまな問題を解くときのために、4種類の推定ファンクションを提供している。さらに詳しい情報は、GitHub上にある。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa))

一般企業とデベロッパーの機械学習導入を助けるPetuumがSoftbankらから$93Mを調達

機械学習のデベロッパーの不足が産業界の足かせになっている今、スタートアップも大手テクノロジー企業も人工知能を商用化するために必要なツールの民主化に取り組もうとしている。その方面の最新のスタートアップPetuumは今朝(米国時間10/10)、Softbankおよび Advantech Capitalからの、9300万ドルのシリーズBを発表した。

昨年カーネギーメロン大学の機械学習の教授Dr. Eric XingとDr. Qirong Ho、そしてDr. Ning Liが立ち上げたPetuuは、機械学習の開発を支える二つの部位のためのソフトウェアを作っている。ひとつは、データの準備と機械学習のモデルの選択を自動化することだ。機械学習の初心者である一般企業は、このようなツールの助けがなければ、TensorFlowやCaffeのような、広く使われている機械学習のフレームワークすら、使いこなすことができない。

そしてモデルが決まったら、今度はPetuumは、ユーザーが使用するハードウェアの特性や制約に合わせた最適化を、デベロッパーをアシストしながら行う。こちらが、二つめ。その主な工程は、ハードウェアを仮想化して障害を取り除き、分散GPUクラスターの管理という余計なステップをなくすことだ。

Dr. Xingはこう語る: “私たちのAIの扱い方は、職人芸ではない。私たちはきわめて標準化されたビルディングブロックを作って、それらをLegoのように組み立てたり、組み立てなおしたりする”。

PetuumのファウンダーEric Xing博士とピッツバーグの同社オフィス

つまり同社のサービスは、さまざまな機械学習の問題を解くことではなく、ユーザー企業とそのデベロッパーたちが、0の段階から1の段階へ踏み出せるために、そのプロセスを自動化することだ。ただしPetuumはそれと同時に、エキスパートたちが十分に使えるシステムも目指している。この両立が、かなり難しい。

Dr. Xingは曰く、“Excelの使い方は誰でも知ってる。一般社員はExcelを使って表を作るだろう。それと同時に、高度な技能を持ってる統計家が何かの現象のモデルを作るときも、Excelを使うことがある”。

また、市場戦略も難しい。テクノロジー業界がいくら大金を投じてAIを称揚しても、投資家たちの多くはヒューリスティックスで不確実性を管理する方向へ向かおうとする。そこでは、AIが得意とする水平的な〔業種業態の違いを問わない〕プラットホームが、役に立たない。

それに、機能の開発と支出の均衡が必要なスタートアップが、MLaaSやMLプラットホームでGoogleやAmazonに対抗するのは難しい。Dr. Xingは自分のチームのスキルを高く評価しているが、Softbankらからの資金はありがたいはずだ。H2O.aiAlgorithmiaなどの競合他社にはまだ、これほどの資金源はないだろう。

なお、同社はヘルスケアやフィンテック分野の顧客を開拓中だ。しかし長期的には、あらゆる業種業態に対応する気はない。ベータテストにはさまざまな業界から参加しているが、しかし今後は、他の業種業界に対して、このプラットホームをベースとするソリューションを同社以外のスタートアップが構築できるだろう。

今日の投資はSoftbank本体からで、930億ドルのSoftbank Vision Fundからではない。将来このファンドから投資されるのかは、不明だ。Petuumの現在の社員は70名で、今後は製品開発と営業とマーケティングを同時に増員したい、と言っている。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa))

Nvidiaが作った本物のホロデッキで製品デザインや設計のコラボレーションができる

NvidiaのCEO Jensen Huangは以前、同社でいちばんやってみたいのは、本物のホロデッキ(Holodeck)を作ることだ、と言っていた。そして今まさにNvidiaがやってるのが、デザイナーやデベロッパーのための、細密にリアルなVRプラットホームとして、ホロデッキを作ることだ。

名前もまさにNvidia Holodeckであるこのプロジェクトは、このGPUメーカーが作った“インテリジェントな仮想現実プラットホーム”であり、コラボレーションのための仮想環境で、現実世界の物理現象をシミュレートできる。そこでは、超細密なグラフィクスにより、実物大の詳細モデルを作れる。ピカード大佐のそっくりさんを作ることはできないが、デザイナーたちが新製品のプロトタイプを作り、そのデザインを磨いていくために利用する。VRでは結果がはやいから、製品を市場に出すための期間を短縮できるだろう。

このホロデッキでは、AIを利用できる。たとえば一定のエージェントを訓練しておき、デザイナーが作ったデザインを現実の状況に照らして評価させられる。また仮想オペレーターや人間のスタッフがプロトタイプの各部と対話しながら、最終設計へ仕上げていくこともできる。

すでにリリース前のテストでは、NASAのエンジニアや最先端のデザイナーなどから、高い評価を得た。そして今日(米国時間10/10)からはさらなる洗練を目指して、より広い層へ公開される。

コラボレーションのできるVRデザインツール(設計ツール)は、自動車業界でも採用が進んでおり、今は各社がそれらを試行している。もちろん自動車以外の業界でも、デザイン〜設計のコラボレーションを実物大のVRでできるメリットは大きい。そんな最近の動向の中で、グラフィクスとAIという二つの重要な要素に強いNvidiaは、このようなシミュレーター的環境製品でも市場のリーダーになれそうだ。

関連記事

[原文へ]
(翻訳:iwatani(a.k.a. hiwa))

Deepgramがディープラーニングを利用する機械書き起こしサービスを無料で公開、データの獲得をねらう

オーディオデータを機械学習で処理するDeepgramが今日(米国時間10/10)、同社の機械書き起こしサービスを無料で公開した。これからはTrintのようなサービスにお金を払って自動化書き起こしという汚い仕事をやらせなくてもすむわけだ。無料化の秘密は、“データの取得”にある。

機械書き起こしは、完成された技術ではない。というか、機械何々はどれも未完成だ。それでも最近は、機械何々を完成させるためのデータを得ようと、各社が競っている。Deepgramのやり方は、書き起こしサービスを無料にして多くの人にオーディオデータをアップロードしてもらい、そのお礼に検索可能なテキストを渡すことだ。

前述のように、このやり方はそれほどユニークではない。誰もが、データを求めている。Image Captchasも、ラベルをつけた画像データを一般消費者に送ってもらって機械学習のモデルに利用することが目的だ。

Deepgramの書き起こしツールは、ディープラーニングを利用している(驚き!)…今やおなじみの、畳み込み型/再帰型のニューラルネットワークだ。無料バージョンでは何もかも一般化されるが、有料バージョンでは企業名や製品名、業界の専門用語などで訓練をカスタム化できる。

一週間前にやった1時間のインタビューで、このサービスをテストしてみた。レストランの騒音の中で二人の人間が対話をしている。書き起こしの質は、完全にはほど遠い。でも、今市場に出回っているサービスに比べて、極端に悪いというわけではない。

記憶している語句で検索することもできたし、三回目の結果の中に、探していた特定の箇所が見つかった。それをここに引用すると相手が怒りそうだからやめるが、記事を書くためには十分なコンテキストが得られた、と言えよう。音声による検索には5分ほどかかったが、テキストと違って音声による“語”には、似たような音(おん)が多いので、必要以上のマッチを見つけるのだろう。それでも、人間がやってくれる書き起こしサービスに比べると安い(無料!)し、今後少しずつ良くなっていくだろう。

Deepgramの協同ファウンダーでCEOのScott Stephensonはこう説明する: “音声認識の自動化は、まだ完成された技術ではない。特定のデータセットに対しては有能だが、ノイズが多いとだめだ。うちのサービスの結果も、良くないね”。

Deepgramは、機械書き起こしのAPIも無料で提供している。でも、有料サイトに100万分(ふん)の音声データをアップロードしたら、目の玉の飛び出る料金になるだろうから、その500テラバイトのファイルはDeepgramにトロルした方がよいかもね。

書き起こしはまだまだ人力には勝てないが、人工的に合成した音声なら機械学習にも勝つチャンスがあるかもしれない。テキストから音声を生成するWaveNetLyrebirdのようなプロジェクトを利用して、Deepgramのような機械翻訳システムを、機械が間違えやすい語で訓練すれば、その能力もアップするだろう。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa))

Mark ZuckerbergがVRのアバターになってFacebookのプエルトリコ救難活動を説明

FacebookのCEO Mark Zuckerbergが今日(米国時間10/9)、同社がアメリカの赤十字と協働してプエルトリコの災害救助に取り組み、とくに人工知能と衛星画像を利用して、援助を届けるべき地域を同定している、と発表した

Zuckerbergは曰く、“人工知能を利用して‘人口地図’というものを作り、それを参照しながら衛星画像を見ると、各地の人口密度とその地域のインフラの被害状況が分かる。それにより赤十字は、救助を必要としている人びとの所在が分かる”。

この発表が一風変わっているのは、それが、Ocluls Riftのヘッドセットを利用する同社の仮想現実アプリSpacesから、Mark Zuckerbergの漫画のアバターが語る、という形で行われたことだ。

今週はOculusのデベロッパーカンファレンスが行われるので、まったく突飛な試みとは言えないが、NPRが製作した360度ビデオがプエルトリコの状況を映す中で、現地の人びとが家の被害状況を調べて歩いている映像を背景とする、漫画のアバターの登場は、あまり適切とは思えない。

しかしともかくZuckerbergは、Facebookを利用して友だちに安否を伝えるSafety Check so機能や、現地の人びとが救援組織を作るためのCommunity Help機能などを紹介した。そしてさらにZuckは、救援努力にFacebookが150万ドルを寄付し、また救援活動がより円滑にできるための、ネットワークの保全作業に数名の社員を派遣したことを発表した。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa))

Rasa Coreはチャットボットのコンテキスト判断用機械学習モデルを人間参加の半自動で作る

会話を扱うコンピューターシステムにとっては、コンテキストがすべてだ。人間はそのことを意識しないけど、日常のとてもシンプルな会話でさえ、複雑なコンテキストの産物だ。会話システムが人間の能力になかなか追いつかないのも、コンテキストという難問があるためだ。しかしベルリンのRasaは、対話的な学習とオープンソースのコードを利用して、この会話するAIの問題を解決しようとしている。

そのRasa Coreというシステムのやり方は、多くのAIスタートアップと似ていて、Amazonの
Mechanical Turkのような人力サービスを利用して機械学習のモデルが持つ不正確さを修正する。ただしRasaが使うのはMechanical Turkではなく、誰でも参加できる方式で、開発中のボットと人が短い会話をし、それによりモデルを訓練しアップデートしていく。

人とボットが会話をする様子を、上の図で見ることができる。上図では「利息を比較する」にチェックが入っているが、それは、ユーザーが求めている確率がもっとも高いと思われるアクションだ。それを見た人間トレーナーは、正しい/正しくないで答える。その結果をモデルは学習し、次に同じ状況に直面したら、もうその質問をしない。

Rasaのチームによると、ボットが使い物になるまでに行う人間とのサンプル会話は、数十回で十分だ。しかし、もっとたくさんやれば精度は上がるし、ユーザーフレンドリーにもなるだろう。

“IBMがWatsonで作った会話モデルを見たけど、ちょっとがっかりした”、とRasaの顧客の大手保険会社Helveticaに勤務し、会話型AIのプロマネでもあるFlorian Nägeleは述べる。“決定木が一つだけで、コンテキストをほかの木に持っていけない”、と彼はWatsonについて言う。

Rasaのよいところは、訓練データなしで顧客が自力でモデルを作れることだ。理想的には誰もがサンプル会話の自分用の大きなコーパスを持っていて、それを使って会話システムを訓練することだが、技術スタッフのいない企業では、それも難しい。

Rasa Coreは、オープンソースとしてGitHub上にある。またRasa Coreと本誌が昨年12月に取り上げたRasa NLUには、企業向け有料バージョンもある。有料版には、アドミン用管理インタフェイスや、カスタマーサポート、テストの自動化、コラボレーションによるモデルの訓練、といったサービスが付随する。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa))

NvidiaがスマートシティプラットホームMetropolis AIでAlibabaやHuaweiとパートナー

NvidiaのスマートシティプラットホームMetropolis AIは、まるでDC Comicsのスーパーマンの漫画にあったような名前だが、実際にはそれはGPUを使用するインテリジェントなモニタリングツールで、渋滞の解消とか、行政サービスの適正配分、迷子の老人や子どもの発見など、さまざまな業務を助ける。このほど同社は、Mtropolisの本格的な普及を目指してAlibabaおよびHuaweiとパートナーし、またMetropolisの一般供用バージョンにはそのSDK、DeepStreamを含めることになった。

Metropolisはビデオを使用し、2020年までには10億台以上の、インターネットに接続されたカメラを世界中の都市に据え付けて、警察や都市計画などあらゆる行政サービスをアシストするデータ分析AIアプリケーションを稼働させる。

Nvidiaは今日北京で行われた同社のGTXカンファレンスで、そんなアプリケーションの一端を紹介した。たとえば中国のHikvision Research Instituteのプロジェクトは、Jetson, Tesla P4, DGX-1といったNvidia製品〔主にディープラーニング関連〕を組み合わせて、顔画像と個人プロフィール情報のマッチングを90%の確度で行う。

こういった監視システムにはオーウェルの‘ビッグブラザー’的な気色悪さがつきまとうが、円滑で安全な都市交通ネットワークのための自動化情報システムが実現するためには、それが必要な第一歩だろう。たとえばAlibabaが考えているのは、都市計画部門における行政サービスの改善だ。またHuaweiなどは、もっぱら警察用アプリケーションに注力している。後者はそれこそ、ビッグブラザー問題を内包するかもしれない。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa))

Google CloudのNatural Language APIにタグ付けによるコンテンツ分類と物や場所(語)レベルの感情分析機能が登場

Google Cloudが今朝(米国時間9/19)、そのNatural Language APIのアップデートを二つ発表した。具体的には、ユーザーがコンテンツの分類機能と対象物の感情分析機能にアクセスできるようになったことだ。この二つの機能は、ブランドやメディア企業でとくに重宝するだろう。

まず、GCPのユーザーはコンテンツにタグ付けできるようになる。タグは、健康、エンターテインメント、法律など、一般的な話題だ(cc: Henry)。今日のアップデートで、ドキュメントを700のカテゴリーに分類できるようになる。

Googleによると、この機能は主に、メディア企業や出版企業がターゲットだ。これらの企業は大量のコンテンツを作り出していて、その整理整頓はきわめて難しい。そこでコンテンツ分類機能が、これまでの分類カテゴリーと突き合わせながら、そのドキュメントのコンテンツに自動的にタグ付けする。検索はタグでできるから、読者の最近のトレンドをより深く分析でき、便利だ。

一方、感情分析の方は、場所や物に付随している感情を解析する。これまでの感情分析は、テキストのブロックを構成しているセンテンスが対象だった。しかし今回の粒度の小さい分析によって、ユーザーは特定の語の感情を同定できる。そこでたとえばブランドは、製品や物理的な場所に結びついている一般大衆の気持ちや意見などを知ることができる。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa))

AIが王様を収穫したりオレンジを解錠しないためには常識の装備が必要だ

ぼくがあなたにリンゴを手渡したら、あなたは自分の経験から、それが運転できるものではない、とわかるだろう。そして、それが採れた木で織物を織れないことや、その種(たね)でテニスはできないことも、わかるだろう。人間なら、それがナンセンスだと分かるが、でもAIには、現実世界で何年も過ごしたという優位性がない。だから、何で何ができる・できないという知識もない。彼らに常識を持たせることも、できないのだろうか。

ブリガムヤング大学の研究者たちは、現実世界と対話する未来のアンドロイドやAI製品が、身の回りのいろんなものが、それぞれ何であり、何をするものかわかっているようにしたい、と考えた。

その研究のペーパーを書いた研究者の一人Ben Murdochは、ニュースリリースの中でこう述べている: “機械学習の研究者がロボットや人工知能のエージェントを、乱雑な環境に放置したら、ありとあらゆるクレージーなことをするだろう。いろんな物に対する、それで何ができるのか、という常識が完全に欠けているので、ロボットはテーブルを食べようとして何千時間も努力するだろう”。

そんな極端な例が頻繁に起きるわけではないけれども、話の主旨はそういうことだ。必要なものは、いろんな物と、それらと結びついている一般的なアクション〔ボール→投げる〕や属性〔レモン→黄色い〕を列挙したデータベースだ。それがあればロボットは、ダンベルが持ち上げる物であり、押す物ではないこと、重くて軽くないことを知るだろう。ロボットにそれを持ってくることや動かすことを命じたら、そのデータベースを参照して自分の行動を決める。

そんなデータベースや、少なくともプロトタイプを作るためには、まず手作業でデータを集めて整理しなければならない。…実際にそれをやると、途方もない時間がかかるだろう。そこで研究者たちは英語版のWikipediaのコーパスをコンピューターに食べさせ、何百万もの語彙をそれらのコンテキスト(文脈)と共に咀嚼(そしゃく)させた。そうすると簡単な数学的処理とクェリによって、リンゴは一般的に噛むものであり、椅子は座るものであり、木は登ったり揺すったりするものである、とわかるようになる。

AIがこれらのオブジェクトを対話的に操作しなければならないときには、これが上出来のカンニングペーパーになる。また、誰かがそれに対して/関してやってることや、話してることを、理解できるようになる。研究者たちはこのシステムを、テキストだけの短いアドベンチャーゲームで試してみた。カンニングペーパーあり、の方が、断然好成績だった。

常識は、最初に取り組むべき課題だ。ロボットを作るたびに、いろんなオブジェクトについて、して良いことといけないことを毎回教えるなんて、たいへんだからね。

チームはこの研究をInternational Joint Conference on Artificial Intelligenceで発表した。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa))

GoogleのAIのトップは曰く、人工知能という言葉自体が間違っている、誇大宣伝を生む温床だ

Googleエンジニアリング部門のSVP John Giannandreaが、TechCrunch Disrupt SFで、人工知能に関する優れた談話を語った。とくに彼は、人びとは汎用の人工知能に対して心配しすぎだ、と考えている。

数年前にGiannandreaは、人工知能を4歳の子どもにたとえた。しかし今日はその説を改め、もっとひどい、と言う。“4歳児ほどの汎用的能力*もない”、と彼は述べる。〔*: 汎用的, general purpose, 知識を一般化してさまざまな目的や状況に対応/応用できる能力。〕

“今はAIに関して大量の誇大報道がある。多くの人が、汎用AIの勃興をめぐって、いわれのない不安を抱えている”、とGiannandreaは語る。“機械学習や人工知能はきわめて重要であり、産業に革命をもたらすだろう。Googleは検索エンジンのような、そのための建設工具を作って、生産性を高めようとしている”。

本誌TechCrunchのモデレーターFrederic Lardinoisは、さらに突っ込んで、AIアポカリプスを心配しているか、とGiannandreaに尋ねた。

彼は答えた: “AIアポカリプスに関しては、まったく心配していない。例によってそれは誇大宣伝とお手軽コメントの常套句であり、そんなものを専門に作ってる人たちがいるのだよ”。残念だったね、Elon Muskさん!。

AIアポカリプスに関しては、まったく心配していない

— John Giannandrea

また、強力な機械学習応用製品を作れるのが、Googleのような巨大テクノロジー企業だけであることも、不安や心配を招いている。Googleのような企業はデータの巨大な集積を独占し、独自のプロセッサーまで作り、数十億もの消費者に到達できる能力を持っている。

しかしGiannandreaによると、Googleは人工知能のコミュニティとの開かれた会話を維持する必要がある。データセットに関しては、Googleは機会均等化に努めている。“実際には、人びとが考えるほどの膨大なデータは要らないのだ。それに、オープンな大型データセットもたくさんある”、とGiannandreaは述べる。“われわれも、ビデオや画像のデータセットを公開しているし、他社も同じことをしている”。

そしてGoogleの社内でも、大学等の研究者と会社の技術者たちが一緒に仕事をしている。“われわれ技術者は、そういう研究者たちや製品開発の専門家たちと密接な関係を維持している”、とGiannandreaは語る。

さらに同社は、偏りをできるかぎり避けるために、同社のAIプロダクトのアーキテクチャを外部と共有していく必要がある。“機械学習の動作や結果が公平公正であることのために、われわれは大量の時間を投じている”、とGiannandreaは述べる。“データに偏りがあったら、偏りのあるシステムが作られてしまう。Google内部でも、また研究者との協働においても、機械学習の公平公正さと、データの偏りを防ぐことには多大な努力を投じている”。

そして彼によると、そもそも人工知能という用語が、正しい言葉ではないかもしれない。Giannandreaによると、人工知能という言葉にはあまり意味がない。“できれば、人工知能という言葉は使いたくないね。ビッグデータも、そんな言葉のひとつだ。漠然としすぎているし、明確な定義もない。まだ、マシンインテリジェンスの方がましだな”。

  1. tcdisrupt_sf17_johngiannadrea-3051.jpg

  2. tcdisrupt_sf17_johngiannadrea-3056.jpg

  3. tcdisrupt_sf17_johngiannadrea-3058.jpg

  4. tcdisrupt_sf17_johngiannadrea-3061.jpg

  5. tcdisrupt_sf17_johngiannadrea-3063.jpg

[原文へ]
(翻訳:iwatani(a.k.a. hiwa))

GoogleのBrain TeamのAI研究者たちは毎日何をしているのか

GoogleのBrain Teamの連中は、毎日何をしてるだろうか。あなたと同じように、メールチェックに大量の時間を取られているかな。最近のRedditのAMA(Ask Me Anything, 何でも訊(き)いて)で、GoogleのAI研究者11名が、毎日彼らがやってることを述べている。メールはここでも多いが、学術論文を斜め読みするとか、同僚とブレーンストーミングをする、といった高尚な話題もある。

GoogleのBrain Teamは、同社で人工知能を研究している研究グループのひとつだ。グループのリーダーはGoogleのシニアフェローJeff Dean、彼はMapReduceの中心人物の一人だが、ほかにもいろんな実績がある。

Deanの一日の時間は、メールを送る、技術文書に注記する、研究者たちとのミーティング、コードをレビュー、コードを書く、講演やその準備などに費消される。チームのリーダーだから、Brain Teamを売り込む仕事も重要だ。

チームのだれもが例外なく大量の時間を費やすのが、自分の研究やチームの共同研究に関連するペーパーをarXiv読むことだ。チームの研修生Sara Hookerは、朝食、ときには昼食や夕食で、同僚とおしゃべりし、同じ問題でも研究者によって視点や取り組み方が違うことを知るのが、とても好きだそうだ。そして今の最先端の話題に後れないためにも。

これまで自分たちが考えてもみなかったようなAIのアプリケーション体験することも、彼らは好きなようだ。Hookerはその例として、宇宙探検を挙げる。

自分の出身大学の仕事を兼務している者も、何人かいる。NIPS(Neural Information Processing Systems)など、業界の重要なカンファレンスの企画運営に関わっている人もいる。

そして彼らは、自分で手を汚すことが好きだ。それは主に、hugeでmassiveでgiganticでcosmicでcolossalなGPUクラスター上で、徹夜も厭わず大きな実験をすることだ。Jasmine Hsuのように、コンピューターではなくロボットを使えるラッキーな研究者もいる。彼女はソフトウェアのボットではなくリアルなボットの上で、シミュレーションやモデルのテストなどをやって、研究中のアイデアのプロトタイピングをしている。一日中デスクに張り付いていることが好きな人は、あまりいない。

そこの研究者たちが考えることだけに費やしている時間で、ぼくたちならいくつかのことを学ぶことができるだろう。Daniel TarlowとNicolas Le Rouxは二人とも研究者で科学者だが、主な仕事は今やってるプロジェクトの舵取りや、今後のプライオリティの計画だ。彼らは毎日、それに集中している。

〔参考記事: 同グループ前年のAMA

[原文へ]
(翻訳:iwatani(a.k.a. hiwa))

PyTorchとCaffe2両モデル間の変換ツールをFacebookとMicrosoftが共作、機械学習商用化のスピードアップ

FacebookとMicrosoftが今朝(米国時間9/7)、互いブログ記事で、ONNX、すなわちOpen Neural Network Exchangeというものを発表した。機械学習のデベロッパーはこのツールを使って、PyTorchとCaffe2のあいだでモデルを互いに変換し、研究開発や実装に要する時間を節約できる。

Facebookは前から、機械学習に関してFAIRとAMLという二つのグループを区別している。Facebook AI ResearchすなわちFAIRは最先端の研究開発を担当し、Applied Machine Learning, AMLはさまざまなプロダクトにインテリジェンスを実装する。

この両者は、使用するディープラーニングフレームワークも異なる。FAIRはPyTorchを使い慣れているが、こちらはリソースの制約がないコンピューティング環境でもっとも高度な研究開発の成果を追究する。

しかしユーザーのスマートフォンやコンピューターには能力の制約が当然あるから、実装役のAMLは、リソースを有効利用できるよう最適化されているCaffe2を使う。とくにその実装系のCaffe2Goは、非力なモバイルデバイスの上で機械学習のモデルを使えるよう、最適化されているCaffe2だ。

FacebookとMicrosoftが今日発表したツールを使うと、PyTorchのモデルとCaffe2のモデルを互いに容易に変換できる。二つのフレームワークを容易に行き来できることにより、 研究の伝播を広く早くし、また商用化の過程もスピードアップできる。

しかしながら、すべての企業がPyTorch/Caffe2のペアを使っているわけではない。TensorFLowベースの研究はきわめて多いし、そのほかの重要なフレームワークも使われている。また機械学習の商用化のレベルでは、モデルを特定のデバイスに最適化されたフォーマットに容易に変換するための研究開発も行われている。

たとえばAppleのCoreMLは、ごく限られた数のモデルを変換できる。しかし現時点でCoreMLはTensorFlowすらサポートしていないし、コンバーターの自作はかなり難しそうだ。GoogleやAppleが、特定のハードウェア向けの、機械学習フレームワークの最適化をもっとサポートするようになると、今度はそれらの相互運用性が課題になってくる。

Open Neural Network Exchangeは、Githubのここでリリースされている。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa))

Google、ストリートビュー・カメラを高解像度にしてデータ収集にも活用

Googleは、放浪するストリートビュー撮影車のカメラをアップグレードした ―― 屋根の上にへんてこな球体の仕掛けを載せて走り回っているあの車のことだ。Wiredによると、Googleストリートビューのカメラが8年ぶりに改善され、ユーザーの見る画像の解像度や色の再現性が高くなる。しかし、このアップグレードはGoogleが地図情報を改善する手段として、さらに重要な意味を持っている。

新しいストリートビュー装置は、全方向からHD画像を取り込み、画像認識システムにローデータを送り込む。これによって、店の窓などに書かれている掲示や番地などのデータを地図や店舗情報に利用できる。現在Googleはこの種の情報をクラウドソーシングしていて、提供者に謝礼を出しているが、ストリートビューカメラは疲れを知らず、何の見返りも求めない。

Googleは機械学習とAIへに多大な投資をしており、ストリートビューカメラから得た高解像度画像データの活用方法は山ほどある、と同社のエンジニアがWiredに話した。画像の質が上がれば、企業情報の精度も上がり、Googleの各種プラットフォームを利用している広告主にとっても良い結果につながる。すなわちGoogleの中核ビジネスも潤う。

道路の画像情報は他社にとっても魅力あるデータで、たとえば自動運転技術を開発する会社もそのひとつだ。実際Googleは、Alphabetの自動運転技術の子会社であるWaymoと共同研究をしていると言ったが、詳細は語らず、交換は双方向であると話した。

新しいストリートビューカーは、先月から路上撮影を始めており、今後徐々に世界各地へと広まっていくはずだ。

[原文へ]

(翻訳:Nob Takahashi / facebook

両義的な文の機械翻訳で正しい訳語をガイドするGoogleのTransformerシステム

機械学習が翻訳にも大きく貢献することが実証されてきたが、弱点もある。たとえば翻訳モデルには、逐語主義(一語々々仕事をしていく)という性癖があり、それが深刻なエラーに導くこともある。Google Researchの今日(米国時間8/31)のブログ記事が、この問題の性質と、それに対する解決方法を詳述している。

同社の自然言語処理の部署にいるJakob Uszkoreitが、問題をうまく説明している。次のような二つのセンテンスがあるとしよう:

I arrived at the bank after crossing the street.

I arrived at the bank after crossing the river.

もちろん、これらの“bank”の意味は同じではない。でも、その意味はセンテンスを最後まで読まないと分からないから、アルゴリズムはこの語を拾ったとき間違った訳を与えるかもしれない。いろんな文章を注意して読むと、このような曖昧性は至るところにあることに気づく。

ぼくならセンテンスを書き換えるが(StrunkとWhiteはこれについて警告している)、もちろんそれは翻訳システムの能力にはない。また、このような曖昧なケースのすべてに対応できるように、ニューラルネットワークの振る舞いを変えることも、たいへんすぎて非現実的だ。

Googleのソリューションは、Attention Mechanismと呼ばれる。同社はそれを、Transformerと名付けたシステムへ実装した。それはセンテンス中の各語をすべてのその他の語と比較して、お互いのあいだにどれぐらい重要な影響関係があるか調べる。たとえば、“he”が話しているのか、“she”が話しているのか、それとも“bank”のような語に特別の意味があるのか…。

訳文を構築するとき、Attention Mechanismは各語を、他のすべての語の末尾につけた形で比較する。下のGIF画像は、その様子を表している。…ある程度はね。

今週のこの記事〔未訳〕を読まれた方は、すでにAttention Mechanismの用例をご存知だろう。その記事では協同ファウンダーが、この問題にはいちばん苦労した、と言っている。そして、Googleのポストが参考にしているコーネル大学のペーパーも教えてくれた。もちろん、Googleがそのペーパーの記述を模倣しているわけではない。しかしDeepLの実装はとても効果的で、Googleのよりも良いかもしれない。

Googleのやり方には、面白い副作用があって、システムのロジックをのぞき見できる: Transformerは各語に、すべてのほかの語との関連性をスコア(得点)で与える。下図では色の濃淡がスコアだが、左のセンテンスではitはanimalとの関連性が濃く、右のセンテンスではitはstreetとの関連性が濃い: 〔tired(疲れている)のはanimal、wid(広い)のはstreetだ〕

これは、うまいやり方だよね。少なくともぼくは、そう思う。この例では“it”がstreetかanimalかに関して曖昧性があり、最後の語を知らないとどっちが正しいか分からない。人間は教わらなくても分かるが、機械には、何でも教えなければならないのだ。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa))

Facebook、歪んだ360度写真の修正機能を提供へ

今日(米国時間8/31)カリフォルニア州サンノゼで行われたFacebook主催のカンファレンス、Scaleの席上、同社のコンピューターフォトグラフィーチームは、ユーザーが撮影した360度写真をきれいに修正する研究プロジェクトが完了したことを報告した。チームは多層ニューラルネットワークを用いて360度写真の歪みを認識し、修正してリアルさを再現する。

スマートフォンの水平ツールを使って画像を修正したことがある人もいるだろう。しかし、プロジェクトの一員である研究者のMatt Uyttendaeleは、従来のコンピュータービジョン研究では、この問題を解決するために消失点(平行線が交差するように見える点)を利用して直線を判別していた。

しかしそのアプローチは必ずしも一般的ではない。なぜなら、多くの写真には基準となるべき平行線が十分にないからだ。そこでUyttendaeleのチームは、AlexNetというニューラルネットワークに、回転させた画像の傾き(ロールとティルト)の値を学習させた。結果的にこのデータを十分揃えることがプロジェクト全体で最大のチャレンジだった。

チームは50万枚の画像を集めると、それを人工的に回転させた。こうして360度画像修正のモデルを作るためのデータが揃った。新機能はまだ公開されていないが、修正機能のユーザーへの見せ方を決め、テストが完了すれば数か月後には提供される見込みだ。

[原文へ]

(翻訳:Nob Takahashi / facebook