企業の非技術系一般社員でも機械学習を利用できるようにするH2O.aiのDriverless AI

Driverless AIH2O.aiの最新のプロダクトで、企業におけるデータサイエンスの活用の、敷居を低くすることをねらっている。このツールは、非技術系の社員たちを助けて、データの準備、パラメータの調整、当面の問題に対する最適アルゴリズムの判断などのタスクを、機械学習を利用して行う。

機械学習で解こうとする問題は、研究者のレベルでは複雑で予測不可能なものが多い。前例のないユースケースでGANや強化学習などの新しい技法を使っていくためには、高い技術力が必要だ。しかし企業が機械学習を使っていく場合は、比較的予測可能な問題が多い。たとえばサポートベクターマシンを使ってデフォルト率を評価する、など。

でも、そんな比較的簡単な問題でも、非技術系の社員の手には負えないことがある。企業は営業や人事など、データ分析とは無縁だった分野でも、最近ますますデータサイエンスを利用しようとしているが、そのために彼らを再教育するのはコスト的にたいへんすぎる。

H2O.aiのプロダクトはどれもAIを使いやすくしてくれるが、でもDriverless AI(運転者不要のAI)はさらに一歩進んで、モデルを準備するときに必要な難しい決定の多くを自動化する。Driverless AIは、feature engineering(特徴量工学、特徴量の選択・作成・変換)を自動化する。特徴量とは、いろんな変数/変量がある中で、モデルの構築に利用すべき重要な変数変量のことだ。

Driverless AIにはよく使われるユースケースが組み込まれているが、どんな機械学習の問題でも解ける。うまくいけば標準的なモデルを見つけて十分にチューニングし、そのロングテールの少なくとも一部を自動化する。

同社は1月にDeep Waterをローンチしたとき、今日のリリースを暗示した。Deep Waterは、ディープラーニングとGPUを一般ユーザーが利用するためのプラットホームだ。

機械学習による自動化は、まだまだ初期的段階だ。GoogleのCEO Sundar Pichai は今年のI/Oカンファレンスで、試行錯誤と大量の計算処理で機械学習の問題を解くための、最良のモデルと特徴を自動的に選び出すAIツールを作っていると述べて、会場をどよめかせた。

Driverless AIはAIを非技術系ユーザーのために民主化し抽象化する旅路の第一歩だ。ダウンロードして実験してみたい人は、ここからどうぞ。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa))

BaiduのApolloプラットホームは多数のパートナーを抱え、今や‘自動運転産業のAndroid’だ

Baiduは今や、自動運転プラットホームのパートナーの集合体として世界最大を誇っている。同社のApollo自動運転プログラムはパートナー数が50あまり、中でもFAW Groupは、自動運転技術の商用化でBaiduと協働している中国の主な自動車メーカーの集まりだ。ほかにも中国の自動車企業Chery, Changan, Great Wall Motors, それにBosch, Continental, Nvidia, Microsoft Cloud, Velodyne, TomTom, UCAR, Grab Taxiなども参加している。

このプラットホームで、何ができるのか。アメリカの自動運転システムのサプライヤーであるスタートアップAutonomouStuffが見せてくれた2台の車は、Apollo 1.0のソフトウェアを使ってわずか3日で自動運転化した。その車たちは、BaiduのAIデベロッパーカンファレンスの会場近くのサーキットでデモ走行したが、そこはかつてApolloプログラムが発表された場所だ。

目標は、Apolloにできることをデベロッパーに徐々に分かってもらうこと。そして今月はデベロッパーが、実際に特定の場所で自分で運転を試せる。2020年にはハイウェイと都市部道路の両方で完全自動運転車の一般走行ができるための、プラットホームの提供を目指している。

自動運転車の世界はパートナーシップの発表がやたらと多くて、その課題のさまざまな側面を多くのプレーヤーがチームを組んで狙う“椅子取りゲーム”の様相を呈している。そういう見方をすると、Baiduはさしずめ、一度にすべての椅子に座ってしまった大物かもしれない。これらのパートナーシップは一般的にオープンなので、プレーヤーはいろんなところへ二股三股をかけてヘッジをする。しかし、最終製品に関するBaiduのオープンなアプローチは、興味深いし、変わっている。

Baiduは元々、Googleに似たインターネット企業だが、そこから得られたデータやサービスのビジネスは、自動運転車技術の分野にかぎらず、もっと広く利用される意義がある、と信じているようだ(Androidの多面的拡散のように)。それはおもしろいアプローチであるし、巨大な中国市場で勝つための戦略かもしれない。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa))

MITが開発した三次元のチップデザインは強力なエッジコンピューティングの未来を開くか

MITの研究者たちが、カーボンナノチューブと抵抗変化型メモリ(resistive random-access memory, RRAM)を併用する三次元チップ製造法により、複雑な三次元アーキテクチャ〔多層構造〕をサポートする結合型ナノ電子プロセッサーデザイン*(combined nanoelectronic processor design)を開発した。従来のシリコンを使ったチップ製造法では、二次元の構造しか作れなかった。〔*: 結合とは、コンピューティングとメモリが一体化している…三次元構造…という意味。〕

この三次元構造が可能なのは、カーボンナノチューブの回路とRRAMのメモリ部位が、摂氏200度以下の温度で作れるからだ。二次元のシリコントランジスタの製造に必要な1000度に比べると、きわめて低い。低温だと、多層構造を隣接する他の層にダメージを加えずに作れる。

この三次元モデルの利点は、小さなプロセッサーに高速な処理能力と処理の対象となる大量のデータを一体化できることにある。それは、従来ならデータセンターやプロセッサーファームへの行ったり来たり(ラウンドトリップ)を必要とするほどのデータおよび処理量だ。科学者たちや製品の設計者たちは最近ますます、‘エッジにおける’高度なデータ処理を追究している。エッジとは、たとえばセンサー群がそこにある超ローカル、という意味だ。そんなところでデータをラウンドトリップしていたら、その旅程そのものがリスクになりかねない。またアプリケーションによっては、たとえば自動運転車などでは、そんな旅路は不可能である。

この設計は、一つのチップの上にプロセッサーのロジック部位とメモリ部位が結合している点でもユニークだ。しかも、カーボンナノチューブのロジック成分とRRAMの成分は、今日のシリコンやDRAMに比べてエネルギー効率が良い。カーボンナノチューブはセンサーとしても動作するから、最上位層をセンサーにして、処理とストレージを担当する下の層へデータを供給してもよい。

MITが引用しているあるエキスパートによれば、これは、コンピューターのパワーのムーアの法則に従った指数関数的なスケールアップの継続に代わる、まったく新しい解になりうる。しかも従来的なチップ製造法は、そろそろその物理的な限界に近づきつつある。まだきわめて初期的な段階だが、将来の研究開発にとって、有望な方向性であることは確かだ。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa))

ニューラルネットワークの内部動作を理解するための完全自動化システムをMITの研究所が開発

MITのComputer Science and Artificial Intelligence Lab(コンピューターサイエンスと人工知能研究所, CSAIL)が、ニューラルネットワークの内部を調べて、それらが実際にどうやって判断をしているのかを知るための、方法を考案した。その新しいプロセスは二年前にチームがプレゼンしたものの完全自動化バージョンで、以前は人間が調べて同じ目的を達成していた。

ニューラルネットワークの動作の理解に人間が介入しなくなったことは、研究の大きな進歩だ。これまでのディープラーニングのテクニックには、彼らの動作に関する不可解な部分が多かった。いったいどうやってシステムは、その判断結果に到達しているのか? そのネットワークは信号処理の複数の連続した層を使って、オブジェクトの分類やテキストの翻訳などの機能を実行するが、ネットワークの各層がどうやって判断しているのかを、われわれ人間が知るための方法がほとんどなかった。

CSAILのチームはのシステムは、ちょっと手を加えたニューラルネットを使い、その個々のノードが入力画像に反応するときの反応の強度を返させる。そして、最強の反応を生成した画像を分析する。この分析は最初、Mechanical Turkのワーカーたちが行い、画像中の具体的な視覚的コンセプトに基づいて分類をしたが、今ではその仕事が自動化され、分類はマシンが生成する。

すでにこの研究から、ニューラルネットの動作に関する興味深いインサイトが得られつつある。たとえば白黒の画像に塗り絵をするよう訓練されたネットワークは、そのノードの大きな部分に集中することによって、絵の中のテクスチャ(絵柄、模様、パターン)を同定する。またビデオの中にオブジェクトを見つけるよう訓練されたネットワークは、そのノードの多くがシーンの同定に動員され、一方、シーンを同定するよう訓練されたネットワークはその逆に、多くのノードにオブジェクトを見つけることに集中した。

私たちはそもそも、分類や認識を行う人間の思考を完全には理解していないし、ニューラルネットはその不完全な理解に基づく人間の思考の仮説的なモデルだ。だからCSAILの研究は今後、神経科学の疑問も解き明かすかもしれない。そのペーパーは今年のComputer Vision and Pattern Recognition(コンピュータービジョンとパターン認識)カンファレンスで発表されるが、人工知能の研究者たちの、大きな関心を喚(よ)ぶことだろう。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa))

Facebook、MessengerのAIアシスタント ‘M’ を改善

Facebook Messengerの中に住むAIアシスタントの 「M」は、今年4月に一般公開されユーザーの会話の文脈に基づいて助言を与えている。今日(米国時間6/27)、Mが少し賢くなり、少し社会性を身につけた。

おそらく最も目につくのは、ユーザーが “Saved” オプションを使って記事やビデオやFB投稿などのコンテンツを保存して、後で読んだり、メッセージスレッドでシェアするよう、AIアシスタントが事前に薦めるようになったことだろう。友達からしょっちゅう記事が送られてくる人は、どう思ったか後で聞かれたときうそをつかずに済ませるのに役立つかもしれない。

Mは、ユーザーが社会的な礼を欠くことがないよう教え込まれている点が興味深い。状況によっては大いに役立つだろう。助言の中には誕生日に関するものもあり、チャットしている相手を祝福するのを忘れないように教えてくれる。

Mは、音声またはビデオの会話を勧めるようになる。1対1あるいはグループで会話中に誰かが「かけてくれる?」と言うと、Mがポップアップを出すのでタップするだけでMessengerから通話できる。これで何が呼び出されるのか、他社の成功ブランドに乗って、ユーザーがFacetimeやSkypeをリクエストしたときにMがMessengerのビデオ通話を薦めるのか興味深い。

Mはまだ始まったばかりで、Facebookは会話をわずかに改善するちょっとした機能を提供するだけで、ユーザーの邪魔にならないようにしている。機能が追加されるにつれて、Mのガイドが不可欠なものになるのか、それとも、またひとつ設定時にオフにされる機能が増えるだけなのか、今後に注目したい。

[原文へ]

(翻訳:Nob Takahashi / facebook

エキスパートが足りないネットワークのセキュリティ、機械学習で監視を自動化するJASKがステルスを脱して$12Mを調達

このほど1200万ドルを調達した自動化ネットワークモニタリングのJASKが、今日(米国時間6/27)ついにステルス状態に終止符をうつ。

JASKが、機械学習を利用する同社のネットワークモニタリング自動化サービスに、スタートアップとしての将来性あり、と見るのは、企業のネットワークのセキュリティを担当するエキスパートが慢性的に足りないからだ。したがって企業がセキュリティの侵犯に遭遇しても、すぐにそのことが分かって対策をとれる人が十分にいない。

危機を自覚している企業と、自覚していない企業のうち、前者はJASKのような自動化サービスに頼ろうとする。そのサービスはネットワークをモニタし、会社が直面しているさまざまな脅威を見つけ、それらの対応プライオリティをCIOと彼/彼女のチームに告げる。

JASKを創ったGreg Martinはネットワークセキュリティのベテランで、同じくネットワークモニタリングのThreatStream(今のAnomali)を過去に創業した。

JASKの最新の資金調達ラウンドは、Dell Technologies CapitalとTenEleven Venturesが仕切り、これまでの投資家Battery VenturesとVertical Venture Partnersが参加した。

これに伴いDell Technologies CapitalのマネージングディレクターDeepak Jeevankumarと、TenEleven VenturesのマネージングパートナーMark HatfieldがJASKの取締役会に席を持つ。

同社によると、資金はデータサイエンティストの増員、製品開発のスピードアップ、そして機械学習の応用研究に充てられる。

“AIと機械学習がなければ、サイバーセキュリティは依然として解決の困難な問題だっただろう”、とJeevankumarは述べている。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa))

データサイエンスとAIの作品でコンペを行うKaggleが国土安全保障省の空港のセキュリティ改善策懸賞に協力

空港のセキュリティを通ることは、どこでもうんざりする体験だ。しかも遅くて人に対し侵害的なプロセスでありながら、TSA(上図)には、脅威を未然に防いだという立派な実績があまりない。そこで国土安全保障省は、データサイエンスのソリューションのコンペを主催しているKaggleの協力を仰いで、空港のセキュリティシステムをより正確かつ効率的にするための、機械学習ツールの懸賞を開催している。

今年の早い時期にGoogleが買収したKaggleは、機械学習の難問の新しい視点による解を競う懸賞付きコンペを、定期的に主催している。今年の三度目のコンペであるこの危険検出アルゴリズムの改良というお題の懸賞は、賞金総額が100万ドルを超えている。

優勝賞金が50万ドルで賞金総額150万ドルのこのコンペの応募作品は、人間が身につけている危険物を正確に予見するアルゴリズムやシステムだ。機械学習を訓練するための画像データ集は、TSAが提供する。服をちゃんと着ていても武器の携行が分かる、という画像の集合だ。プライバシー保護のために、それらは実際の写真ではなくてTSAが作った画像だ。

コンピュータービジョンのスタートアップMatroidのファウンダーでCEOのReza Zadehはこう言う: “このコンペの結果から、実際にそんなシステムを作ったらどれほどのものができるか、その目安が分かるだろう。でも結果がどうであれ、現場の警備員が確実に危険物を見逃さないようにするための、補助的システムは絶対的に必要だ”。

これら17のボディゾーンのどれかに武器が隠されている可能性を検知するシステムが、コンペの課題だ。

もちろんTSAそのものが具体的に機械学習の問題を抱えているわけではない。むしろこのお役所の問題は、高価で複雑なマシンを自力でアップグレードする技術力がないことと、高価とはいっても、今の民間のデータセンターに見られる高度なGPUをまったく導入していないことだ。しかしGoogleやFacebookなどは、軽量級の機械学習フレームワークに重点投資し、エッジで〔各末端現場で〕ローカルに(インターネットなしで)使えるよう最適化しているから、TSAもそれらなら利用できるだろう。

そしてそれなら、コンペの応募作品がいきなり実際に空港の人体スキャンマシンで使われることもありえる。事前に訓練するほかに、いくつかの制約条件に合わせればよいだけの話だ。国土安全保障省も、真の評価のためには実地テストが必要だから協力する、と言っている。

Kaggleを作ったAnthony Goldbloomは、“エンドユーザーマシンに高速なGPUがないのは厳しいが、でも推論部分はヘビーな計算をしないからね”、と言う。

もうひとつの懸念は、危険検出を自動化した場合に起きうる、名誉毀損的な状況だ。旅行者が、身におぼえのない嫌疑をかけられるおそれがある。しかしTSAが作った訓練用画像のデータセットは、それを防ぐための工夫がしてある。

“TSAはそれに関してはいい仕事をしている。ボランティアを採用するときも、特定のタイプの人〔宗教、民族等〕が不名誉な誤認をされないために、十分なダイバーシティ(多様性)を確保するようにしている”、とGoldbloomは念を押す。

近い将来、応募者はGCP(Google Cloud Platform)を(使いたければ)使えるようになる。フレームワークも、KaggleがGoogleの企業だからといって、必ずTensorFlowを使わなければならないことはない。コンペの詳細はここにある。締め切りは12月だ。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa))

機械学習に“本物の芸術らしさ”を教育訓練できるか?、二人の学部学生がそんなGANに挑戦

Generative Adversarial Net(GAN)の人気は今がピークなのか、よく分からないが、1年前に比べると、これをいじくっている人びとの数が相当増えている。そしてそれは、すごいことだ。ウィリアムズ大学の二人の学部学生が機械学習の初歩を独学し、そして今やほとんどメインストリームの技術であるGANに関する論文を50近く読んでから、ある教授と一緒に美術作品を生成するGANに取り組み、ほぼ1年で完成させた

コンピューターサイエンスの学生だったKenny JonesとDerrick Bonafiliaは今年の初めごろ、Martin ArjovskyのWasserstein GAN(WGAN)に出会った。ベーシックなGANの安定性を高めたWGANは、アートの様式(スタイル)の学習や新しいアートの生成により適していることが明らかになった。

GANの基本構成要素はジェネレーター(generator, 生成部)とディスクリミネーター(discriminator, 差別部)で、両者が敵対的に対話することによって動作する。ジェネレーターは人工的な画像を作り、それをディスクリミネーターに本物と思わせようとする。同時にディスクリミネーターは、偽の画像をできるだけ多く排除しようとする。

ジェネレーターとディスクリミネーターが対決

しかしGANは、不安定なことで悪名高く、まったく使いものにならないこともある。Wassersteinが改良したGANは、アートと分かるようなものを作り出す程度の安定性はある。そこでチームはWikiArtのデータベースからラベル付きの絵画10万点を取り出し、訓練用の素材として使った。

そのモデルの性能を最大化するためにチームは、ディスクリミネーターに新たな部位を加え、絵画のジャンルを予見できるようにした。またモデルが、生成される画像の“本物性”と“偽物性”にこだわりすぎるのを避けるため、予備訓練によりグローバル条件を加えた。これによりディスクリミネーターは、アートの様式の違いに関する理解を、維持できるようになった。

“難しいのは、成功の判定方法だ”、とJonesは語る。“そのための普遍的な測度はあまりない。それはアートに限った問題ではないが、芸術作品は通常の画像認識のように本物偽物の区別が明瞭でないから、判定がものすごく難しい”。

しかしとりあえずそのプロジェクトは成功し、JonesとBonafiliaは秋になったらソフトウェアエンジニアとしてFacebookに就職する予定だ。Bonafiliaの考えでは、もっと強力な計算機資源を使えたらプロジェクトの性能は大きくアップするだろう。Facebookには、強力なコンピューターがふんだんにあるはずだ。

  1. 0ceh4q72pq9mmiucc.png

  2. 0kgzb_heat-qv0skb.png

  3. 0itdky-dc2mclrun8.png

アートは今、機械学習で人気の高い素材だ。Jonesによるとその理由は、ビジュアルでしかも分かりやすいからだ。Facebookは昨年の秋に、モバイル上のリアルタイムのスタイル変換(style transfer)で関心を喚(よ)んだ〔例: 葛飾北斎のスタイルをふつうの写真に移送(transfer)する〕。JonesらGANGoghチームの作品と違ってStyle Transferは、新しいアートを作り出すのではなく、既存のストリームに(別のスタイルで)変更を加える。

スタイル変換は映画で使われている…女優のKristen Stewartは今年の1月に共著したペーパーで、彼女の短編映画Come Swimへの機械学習の応用を説明している。機械が生成した新しい作品が現代美術の美術館に展示されるのはまだ早いと思うが、今後本物のアーチストがモデルづくりに取り組んだそれらを、美術館はどう扱うか。その問題を歴史上初めて指摘した文献がこの記事だぞ、と自慢しておこう。

〔GAN関連日本語訳記事:(1)(2)(3)(4)。〕

[原文へ]
(翻訳:iwatani(a.k.a. hiwa))

ディープラーニングシステムの主要要素(モデルなど)の再現や入れ替えを容易にして研究を促進するGoogleのTensor2Tensorが一般公開

Googleは、研究者たちがディープラーニングに関する研究開発結果の再現を容易にできるためのオープンソースのライブラリTensor2Tensorリリースした。これにより、モデルやデータセットやそのほかのパラメータの新しい組み合わせを誰もが手早く試行でき、ディープラーニングシステムの能力の拡大に貢献できる。AIの研究では変数(変項)の数が膨大で、しかも新しい開発が次から次と登場してくるため、たとえば二つの異なるセットアップを比較する、といったことが簡単にはできなかった。そのことが研究者たちの悩みであり、研究の進歩の足を引っ張っていた。

Tensor2Tensorライブラリは、AIの研究におけるベストプラクティスの保存、伝播、改良などを容易にする。それはハイパーパラメータ、データセット、モデルのアーキテクチャ、学習レートの減衰方式などの、重要な要素を装備している。

このライブラリのいちばんありがたいところは、こういった要素を個々にモジュール的に入れ替えられることであり、従来のような全取っ替えは必要ない。モデルの教育訓練では、新しいモデルやデータセットを任意に持ち込めるので、従来のように何もかも最初から再訓練という手間はなくなる。

研究ツールの外部一般公開では、Facebookも最近ParlAIをオープンソースにした。それは、よく使われるデータセットをあらかじめパッケージして、ダイアローグ(ユーザーとアプリケーションの対話的トランザクション)の研究の便宜を図るツールだ。

それと似てGoogleのTensor2Tensorにも、同社の最近の研究プロジェクト“Attention Is All You Need”や“One Model to Learn Them All”などで使われたモデルが含まれている。公開はGitHub上で行われているので、一般研究者の利用も迅速簡便にできる。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa))

企業の新社員採用をAIで助けるEnteloがシリーズCで$20Mを調達、HRスタートアップ成功の鍵はデータ能力だ

AIを利用する新人採用ソフトウェアは、今激しい王座争いが繰り広げられている。WorkeyMyaは数週間前に共に資金調達をしたが、そのころはほかにも、成長資金の名目で資金を求めるところが多かった。その中には、今年で6歳になるEnteloもいる。同社は今日、U.S. Venture Partnersがリードし、Battery VenturesShasta VenturesおよびCorrelation Venturesが参加するシリーズCのラウンドで2000万ドルの資金を調達した、と発表した。

Enteloは、インターネットを自動的にクロール(crawl, 這いまわる)して、採用候補者となる者のプロフィールを生成する。それから同社は、候補者と、人材を求めている企業顧客をマッチングする。LinkedInと違ってEnteloは現在、個人に自分のアカウントを作らせない。むしろ、すべての処理はバックグラウンドで行われ、例外的にプロフィールの削除リクエストだけは各人がいつでも行える。

EnteloのCEO Jon Bischkeによると、同社が今いちばん重視しているのは、そのようにバックグラウンドで行われるマッチングプロセスを改良することだ。そのためにはGitHubのようなソースから非定型のデータを集め、また機械学習の能力をアップして、企業が優秀な候補者を迅速に見つけられるようにしなければならない。

Enteloは、若いAIファーストのスタートアップと、LinkedInに代表されるレガシーな企業の両方がコンペティターだ。今のところ企業顧客は、最先端の採用促進管理技術なら何でもトライする気でいるが、それも長くは続かないだろう。

でもBischkeは、市場が鎮静したらEnteloに分がある、と信じている。彼によると、AIファーストのHRスタートアップも、適切なデータ(〜データ能力)がなくて行き詰まるところが多いはず、という。一方LinkedInは、あまりぱっとしない買収をしながらイノベーションを維持するためには、前途の作業課題が多い。

Enteloの契約顧客は今600社ほどだ。その中にはFacebookやGE, Northrop Grumman, Targetなどもいる。今後は、データサイエンティストと営業の増員を図りたい、という。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa))

GoogleがTensorFlowによるオブジェクト検出APIをリリース、機械学習のデベロッパー利用がますます簡単に

Googleが今日(米国時間6/16)、TensorFlowのオブジェクト検出APIをリリースする。これによりデベロッパーや研究者は、画像中のオブジェクトを容易に認識できるようになる。Googleは今回とくに、単純性とパフォーマンスを重視している…今日リリースされるモデルはすでにベンチマークの成績も良く、研究用にいつも使われていたものだ。

この検出APIに含まれているひとにぎりほどのモデルは、インセプションに基づくヘビーデューティーな畳み込みニューラルネットワークや、それほど高度でないマシンで使う単純化されたモデルなどだ…そのように最適化されているシングルショットの検出システムMobileNetsは、スマートフォン上でリアルタイムで使用できる。

今週初めにGoogleはそのMobileNetsを、軽量なコンピュータービジョン用のモデルの系統として発表した。これらのモデルは、オブジェクト検出や顔認識、ランドマーク認識などに利用できる。

今のスマートフォンは大型デスクトップやサーバーほどの計算資源がないから、デベロッパーには二つのオプションがある。機械学習のモデルをクラウドで動かすか、または、モデルを単純化することだ。しかし前者にはレイテンシーがありインターネットが必要だから、大衆化は無理だろう。後者は逆に、広範な大衆化のためにパフォーマンスで妥協するのだ。

GoogleとFacebookとAppleは、こういったモバイルのモデルに注力している。昨秋Facebookは、スマートフォン用のモデルを作るためのフレームワークCaffe2Goを発表した。それの最初の大型実装が、FacebookのStyle Transferだった。Googleはこの春のI/Oで、単純化された機械学習フレームワークTensorFlow liteをリリースした。さらにAppleは先日のWWDCで、機械学習のモデルをiOSデバイスで使いやすくするためのシステムCoreMLを打ち出した。

GoogleはFacebookやAppleと違って、パブリッククラウド上でいろんなものを提供しており、コンピュータービジョンもすでに、スケーラビリティのあるコンピュータービジョンサービスとして Cloud Vision APIを提供している。

今日発表されたTensorFlowオブジェクト検出APIはここにある。それを誰でも簡単に試せるし実装できるものにしたいGoogleは、そのキットのパッケージに重みと、Jupyter Notebookを含めている。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa))

大量の既存コードで訓練されたAIがプログラマーにオートコンプリートを提案するCodota、Khoslaが$2Mを投資

GitHubを使うようになってデベロッパーのワークフローは抜本的に変わった。コードをアクセスしやすいプラットホーム上に集積することによって、プログラミングのやり方が急速に変わった。そんな状況を受けてイスラエルのCodotaは、これまで無視されることの多かったデベロッパーコミュニティのワークフローをさらに最適化したい、と考えている…マシンインテリジェンスを利用して。同社の自動補完(オートコンプリート)機能を使えば、良質なコードを短時間で書けるようになる。同社はこのほど、Khosla Venturesから200万ドルのシード資金を獲得したことを発表した。

CodotaはEclipsのようなIDEと併用して、そのインテリジェントなコード補完機能を利用する。それは、「あなたが意図するものはこれではないですか?」と短い例示をくれるのではなく、もっと大きなコード集合をリコメンドできる。

協同ファウンダーのDror WeissとEran Yahavは、GitHubやStackOverflowにあるオープンソースのコードを利用してCodotaを作った。その公開コードのすべてを機械学習のモデルに食べさせて、コードブロック全体の高いレベルの意味を認識できるようにした。

テルアビブの本社におけるCodotaのチーム

プログラミング言語は一般言語と同じ構造を共有している部分が大きい。たとえば、語の限りなく多様な並べ方によって、考えや感情を表現する。また、同じコマンドでもコード中でいろんなやり方で表現できる。だからCodotaにとっては、コードがやってることに関する大局的な理解がとても重要だ。コードのミクロな像ではなく、マクロな像を理解することが重要なのだ。

もちろん、自然言語とコードが似ているのは、あるところまでだ。Codotaのチームが説明してくれたところによると、自然言語処理では、意味は語の近辺の複数の語を見て判断する。それに比べるとプログラムはもっと構造性があり、語がどこにあるかによって語の意味が違うことは少ない。だからCodotaはテキストで訓練するだけでなく、プログラムの動作/振る舞いにもフォーカスした。

Codotaを使うとスピードと正確さが向上するだけでなく、Codota自身の発見や教育にも助けられる。Codotaは何百万ものAPIの実装で訓練されているから、ベストプラクティスをデベロッパーに提示できる。IDEの横にCodotaを開いておくと、コード中のおかしい箇所を高輝度表示し、モアベターな代案を示す。その教えは、ライブラリの原作者のコードから直接引用したものが多い。

同社の収益源は、Codotaの利用を、そしてもちろん自分のコードを、社外秘プライベートにしておきたい企業からの使用料だ。今、対応言語はJavaだけだが、言語は今後すこしずつ増やしていく。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa))

ビジュアルイフェクトのSpektralが$2.8Mを調達してAI制御のグリーンスクリーンに取り組む

拡張現実は今、買収ブームだ。FacebookやSnap、Appleなどなどが、ユーザーエンゲージメントの増大につながりそうなチームや技術にお金を投じている。デンマークのSpektralも、大きな将来性のありそうなこの分野で成功をねらっているビジュアルイフェクトの新人企業だ。すでにVCたちも注目しており、今日同社はLitecapAmp Venturesからの280万ドルの資金調達を発表した。その資金は同社の、機械学習に支えられたリアルタイムのグリーンスクリーン〔映像合成用グリーンバック〕技術の開発の継続に充てられる。

Spektralは、ベンチャー支援のスタートアップの多数派と違って通常の意味での製品がない。製品を作ってそれを市場に出す、という路線ではなく、Spektralは研究開発によるパテントの蓄積をねらっている。最初はCloudCutoutと呼ばれるスチルフレームを追究したが、その後はリアルアイムビデオへ移り、機械学習とスペクトラルグラフ理論を組み合わせて人や物を背景から分離し、それらを新しいストリームにオーバレイする技術を研究開発している。

この技術がSnapchatやMessengerに実装されている、と想像するのはきわめて容易だが、だからといってその技術が広く採用されているとは限らない。Spektralがその技術の用途を、プロダクションや広告などそのほかの分野に広げようと努力しているのも、たぶんそのためだ。

オブジェクトを背景から分離するための新しい設計の可能性を機械学習に求める研究は、そのほかの研究グループでも行われている。たとえばAdobe, Beckman Institute for Advanced Science and Technology, University of Illinois at Urbana-Champaignの三者の共同研究により、その処理を自動化する方法が発表されている。とは言うものの、ビデオと画像は二頭のまったく異なるモンスターだ。

これまでずっと、細線〔例: 人間のヘアー〕がカットアウト(切り抜き)を評価するときの重要な規準だった。SpektralのファウンダーでCTOのToke Jansenは曰く、髪の毛の切り抜きが難しいことを、人びとは簡単に忘れてしまう。人間が鋏を使って切り抜くときは、何も考えなくても複雑な形の周辺を正しく切り抜ける。しかしコンピューターの場合は、最新のディープラーニングのモデルを百万点の画像で訓練しても、マシンは間違える。

Spektralはその名のように、ビデオのフレーム中の部分画像のスペクトラルクラスタリング(spectral clustering)を実験している。その付加的な情報を事前に加えることによって、従来的なモデルを拡張する。将来的には、この技術から今よりも複雑なビデオ編集の道が開けるだろう。チームは、オブジェクトの操作に言及する。たとえば、友だちの手を自分の手で動かすなどが、彼らの開発の次のステップだ。

同社は今、その技術を次の段階へ進めるために、各分野の専門家を多数起用している。たとえばUnityで機械学習を仕切っているDanny Langeが、同社の取締役会に加わった。Langeは以前、Uberで機械学習部門のトップだった。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa))

AppleのHomePodが棚でほこりをかぶらない理由

Appleは、安易なネーミングと型破りな売り込みとともに、そのスマートスピーカーをデビューさせたが、このデバイスを安易に軽視する傲慢な人々はいずれつけを払うことになる。Appleは、AmazonやGoogleとは異なり、人とコンピューターの対話手段として知性をもつ箱を売ることに将来性がないことを知っている。人々が欲しいのは製品でありテクノロジーではない。

HomePodの発表は、Appleにとってここ数年でもっともスタートアップ的な行動だ。この会社は、巨大なホームスピーカー市場と急成長のスマートスピーカー分野を同時に破壊しようとしている。ハードウェアを目的を達成するための手段ではなくチャンスとして扱うことで、Appleは結局棚でほこりをかぶることになるマニア向け製品以上のものを作った。

はっきり言って、Siriは遅れている。WWDC 2017以前から遅れていて、WWDC 2017の後もまだ遅れている。Appleはこの知的アシスタントを最先端水準にするべく機械学習の専門家を採用し、大型買収を実行して必要な技術レベルを確保しようとしている。HomePodをAIの有用性を見せるためのハードウェアではなく、オーディオソリューションとして宣伝するのも当然だ。しかし、最終的にはどちらでもよいことだ。

Appleが、プロダクトファースト、プラットフォームは二の次のアプローチを取るのにはわけがある。パーソナルアシスタントは収益化にはまだまだ時期が早すぎる ―― AmazonはAlexaを収入源ではないと何年も言い続けている。一方ホームスピーカー市場は明確に定義されている。私は市場規模の推定が大嫌いだが、ワイヤレス・オーディオ市場は500億ドルを優に超えると推定されている。

昨年のTechCrunch Disrupt New York 2016で、AmazonのEcho担当VP、Mike Georgeはこのデバイスの典型的な利用場面は何かと聞かれ、音楽だと答えた。これが興味深いのは、Echoのハードウェアで最大の差別化要素は遠方界マイクロホンだからだ。音声インターフェース内蔵で音楽を聞くのに使われることがいちばん多いハードウェア機器を設計する際、スピーカーを最優先項目にすることは理にかなっている。

Echoの最終的な価値提案は、遠くの声をスマホより高精度で検知することだ。ちなみにEchoはAlexaの音声認識や自然言語をすべて内部で処理している。

Appleは人工知能を、製品ポートフォリオ全体に正しく取り入れる必要がある。これは人工知能が不可欠な先進技術だからであり、GoogleやAmazonに対抗して昔ながらの音声命令に答えるためではない。そして、この会社がそれを成し遂げることを疑う理由はほとんどない。AppleはAIを使えずに取り残される哀れな8000億ドル企業ではない。機械学習はあらゆるApple製品に使われている ―― Spotlight検索、メール、iMessageなどリストは続く。

AppleがWWDCでHomePodを紹介したとき、ひとつ奇妙だったのは音質を強調したことだ。従来のAppleのやり方は使いやすさ重視だった ―― スピーカーがペアで動作することやiPhoneとのペアリングが簡単なこと。おそらくこれは349ドルという価格を正当化しようとするAppleの試みなのだろう。そう、Appleだから価格は高く、V2が出てV1が値下げされるまで買うのは大変だ ―― この戦略はまだ有効だ。

今回の発表は、ホーム用のAirPodsと考えるのが適切だ。将来、AirPodもHomePodもSiriとの高度な統合による恩恵を受けるだろう ―― しかしSiriのためにAirPodやMacBookやiPhoneを買う人はいない。HomePodを信じることは、ホームオーディオ市場を信じ、Appleのプロダクトファースト戦略の遂行能力を信じることを意味している。

[原文へ]

(翻訳:Nob Takahashi / facebook

ディープラーニングをApache Sparkのクラスターで分散化、サーバーレスでそれができるDatabricksのServerless Platform

今日(米国時間6/6)のSpark Summitの幕開けで最初にボールを蹴ったDatabricksは、Apache Sparkのためのサーバーレスプラットホームを発表した。クラスター管理に費やす時間を短くしたいと願うデベロッパーにとって、良いニュースだ。デベロッパーの仕事をより単純化しようとする動きは、このイベントの全体を貫く大きなテーマでもあった。同社はServerless Platformに加えて、Sparkでディープラーニングフレームワークをより使いやすくするためのライブラリDeep Learning Pipelinesも披露した。

今、クラウドベースのデータ処理技術がどんどん進歩している中で、DatabricksはオープンソースのApache Sparkプロジェクトの商用サービスだ。同社のエンジニアたちはもっぱら、Sparkのエコシステムを支えるツール類を作っている。今日発表された製品も、その一部だ。

大企業における意思決定がますますデータ駆動型になりつつある今日、これから取り組もうとする新しいユーザーにとっては、データパイプラインとクラウドインフラストラクチャの扱いが、目の前に山のようにそびえる大きな課題に見えてしまう。そこに登場したサーバーレスの技術とは、サーバーなしでデータを操作するという意味では決してなく、エンドユーザーがサーバーなどの低レベルの問題にいっさい関わりあうことなく、コンピューティングリソースの管理されたプールから適当なものを選んで、単純に今やるべき仕事をする、という単純化簡素化された新しいタスク構造を指す。

“SQLはステートレスだから扱いも楽だが、データサイエンスにはステートがあるから、それをサーバーレスにするのは難しい”、とDatabricksのCEO Ali Ghodsiは説明する。

ServerlessがDatabricksの幅ないし広さを表すとするなら、Deep Learning Pipelinesはその深さへの挑戦だ。TensorFlowなど、現存するディープラーニングフレームワークは“使いやすい”とはお世辞にも言えないが、でも昔の(AI言語とも呼ばれた)LISPなどに比べたら相当に使いやすい。そのためディープラーニングは今、ますます多くのワークフローに導入されつつある。

“Sparkなどを使ってTensorFlowのタスクを分散化しようとすると、手作業でグラフを作り、どのマシンがどの部分の処理を担当するか、いちいち決めなければならない”、とGhodsiは言う。“100台のマシンを相手にそれを人間がやるとすると、ものすごくたいへんな作業になる”。

Databricksの今度のオープンソースのライブラリを使ってデベロッパーは、ディープラーニングのモデルをSQLのファンクションに変換できる。ユーザーは学習をSpark MLlib Pipelinesで転送し、Sparkの分散コンピューティングが提供する利点を享受する。

なお、Ghodsiによると、DatabricksのStructured Streamingが一般公開された。このAPIは、シーケンシャルデータのストリーミングを処理する。同社によると、Structured Streamingの開発工程では、レイテンシーの最小化が最優先された。それによって、異状検出などのアプリケーションを動かす顧客にとって、費用低減とスピードの向上が実現した。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa))

Siriに翻訳機能が加わり、声も人間らしくなる

Siriが少し賢く、ちょっとだけ人間らしくなる。これは矛盾していない。

Appleの音声アシスタントは、これまでより男女とも明瞭で人間らしい声になり、イントネーションもよくなって、新しいスキルも身につける。iOS 11ではSiriの総合的能力が向上する。

Appleが今日発表したところによると、現在Siriは月間3.75億台以上のデバイスで利用されている。

AppleはSiriに翻訳機能を導入し、ある英語のフレーズを様々な言語でどう言うかをこの音声アシスタントに尋ねることができる。初期の対応言語は、中国語、フランス語、ドイツ語、イタリア語、およびスペイン語。

Siriはここ数年かなり厳しい競争にさらされている。AmazonのAlexaやGoogle Assistantなどの能力が向上したことで、SiriのAIの弱点が明白になってきた。今回の改訂で、Appleは再びSiriが音声アシスタントのリーダーであることを示したいと思っているが、結果は自分の目で実物を確かめるまでわからない。

Siriは、補足質問を扱えるようになる。Google Assistantにはずっと前からあった機能だが、これでSiriは複雑で段階的な質問にも答えらえるようになる。

またこれは派手なニュースではないが、AppleはSiriを単なる音声アシスタントではなく、iOS全体をカバーする汎用AIとして考え始めている。例えばiMessageで、Siriはコンテキストに少し敏感になり、会話の相手から「今どこにいるの?」と聞かれると、現在のGPS位置がポップアップする。

[原文へ]

(翻訳:Nob Takahashi / facebook

MicrosoftのDraftはコンテナ化の面倒を引き受けるクラウドサービス、デベロッパーはアプリケーションのコードをローカルに書くだけ

Microsoftが今日(米国時間5/31)、Kubernetesのクラスターの上で動くコンテナベースのアプリケーションを、より簡単に作れるオープンソースのツールDraftをローンチした。簡単というのは、デベロッパーは自分のアプリケーションにだけ集中すればよくて、DockerやKubernetesについては関知しなくてよい、という意味だ。というか、そもそも、コンテナという技術を支えるこれらのツールは、自分のマシンにインストールされていなくてもよいのだ。

4月にMicrosoftは、コンテナプラットホームDeisをEngine Yardから買収した。今日のリリースは、その最初の果実だ。Deisは、デベロッパーがコンテナを簡単に使えるようにすることを使命とし、買収されるまでWorkflow, Helm, Stewardといったオープンソースのツールをいくつかローンチしていた。Draftは、これらDeisの成果物の一部を利用している。

今日の発表声明には、次のように述べられている: “Draftは、デベロッパーのワークフローの“インナーループ”に集中する。デベロッパーがコードを書き、それをバージョンコントロールへコミットする直前までの過程だ”。Draftを使う場合、デベロッパーは‘draft create’というひとつのコマンドで“Draft pack”というものを作る。Draftは、そのコードが書かれている言語を自動検出し(Python, Node.js, Java, Ruby, PHP, Goをサポート)、検出スクリプトとDockerのファイルとKubernetes HelmのChartを書いて、packをソースツリーへとビルドする。そこから先は、そのコードを既存の継続的インテグレーションに入れるだけだから簡単だ。

もうひとつのコマンドでデベロッパーは、自分のアプリケーションに対する仕事をローカルに開始でき、そのコードが自動的にKubernetesの開発クラスターへ入れられる…それが動いているのはローカルでもリモートでもどちらでもよい。ローカルに加えた変更は、数秒以内にそのクラスター上で可利用になる。“そのため、デベロッパーがコードをローカルに書いも、しかし開発環境はクラウドにあり、そこでアプリケーションの依存性のすべてにアクセスできる”、とチームは説明している。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa))

企業の営業活動を自動化するPeople.aiが$7Mを調達、営業の全過程の可視化が鍵

People.aiは、売買が成立するための最良の方法や道筋を示す予測的指針をAIを利用して作成し、企業の営業部長に提供する。同社は今日(米国時間5/30)、Lightspeed Venture PartnersがリードするシリーズAの投資ラウンドにより、700万ドルを調達した。Index VenturesとShasta Venturesが新たに参加したほか、これまでの投資家Y CombinatorとSV Angelもこの投資に参加した。LightspeedのパートナーNakul Mandanが、People.aiの取締役会に加わる。

この営業管理プラットホームが解決しようとする問題は、営業の教育がデータではなく直感に基づいて行われている現状だ。People.aiは、すべての営業活動と、営業が商談締結までに行うアクションを見渡す全体的な視野を提供することによって、これを解決したい、と考えている。同社のソフトウェアによって、営業がどの部分でいちばん時間を消費しているかを突き止め、何が成功に導く要素かを同定する。営業は、体を使うより頭を使え、というわけだ。

目標は、営業マン/ウーマンの営業活動過程を完全に視覚化して、成績トップの者はどの段階で多くの時間を費やしているか、もがいている営業はどこで、成功へ導くやり方から逸脱しているかを見極める。取引の特定の段階に、あまりにも足をとらわれていないか? (客先の)プロダクトマネージャーや役員やそのほかの意思決定者と、十分な時間をとって話をしていないのではないか? そもそも、正しい見込み客にアプローチしているのか? これらの質問に、People.aiのアルゴリズムは答えようとする。

そのソリューションは、営業とクライアントとのあいだの、コミュニケーションのさまざまなタッチポイントにおける活動を調べる。そのために、メールや電話履歴、ミーティングのカレンダーなどを調べて、商談の各段階でどれだけの時間を費やしているか、誰にコンタクトして結果はどうだったか、を示すダッシュボードを作り出す。

  1. opportunities-sorted-by.png

  2. account-filters.png

  3. leaderboard-with-feed.png

  4. ranking.png

昨年People.aiがローンチしたとき、CEOで機械学習のベテランOleg Rogynskyyは、営業活動をファンクションとして自動化したい、と望んだ。その後同社は、このようなソリューションの提案は大企業に向いている、と考えるようになった。

こういう、問えば答える会話的なAIは、Chorus.aiや VoiceOpsなど競合他社も多いが、People.aiはこれらの企業を単なるデータソースと見なし、自分たちのソリューションはすべてのタイプの営業活動を読み取る、営業のバックボーンだ、と考えている。

Rogynskyyによると、最近では大企業やFortune 500社からの引き合いが増えている。今度の新たな資金は、プロダクトと同社営業チームの規模拡大、そして大企業向けR&Dへの注力に充てたい、という。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa))

レースカーが自動運転車になるとどうなるか、パリのRoboraceはコース学習のため遅かった

週末にパリで行われたFormula E Paris ePrixで、ドライバーのいないRoboraceが、1.9kmのコースを14周、完全に自力で完走した。

この自動運転車には、LiDARセンサーが5基、レーダーセンサーが2基、超音波センサーが18基、光学式速度センサーが2基、AIカメラが6台あり、そして衛星位置情報により自分の位置とルートを知る。すべてのデータをNvidiaのDrive PX2が処理し、Roboraceのプレスリリースによると、このプロセッサーの演算速度は24兆ops(毎秒24兆命令)だ。

プロセッサーは速いけどしかし、Roboraceの車自身は、まだそれほどでもない。

ハードウェアは本格的なレース向けに、300kWのモーター4台、540kWのバッテリーを一つ積み、時速は200mphを超える。しかし、ルートを学習している間、そしてエンジニアが同車の学習方式を学習している間は、後ろに人間が運転する付添車がつき、のろのろとトラックを走る。

では、パリでの初走行を、公式ビデオで見てみよう。次はベルリンのFormula Eに出て、その後もいろんなレースに出る予定だ。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa))

このAIロボットアームは、初めて見た物でも上手につかむ

ロボットはやり方を教えられたことをするのは得意だが、新しい問題に直面すると固まってしまうことが多い。たとえば見たことのない形状のものをつかむ時など。Dex-Netというシステムでは、AIがディープラーニングを使い、それまで見たことのない形の物体を効果的につかむ方法をロボットアームに教える。

システムの基本的な考え方は、われわれがものをつかむときの方法と似ている。物体を見て、その形を理解し、過去に持ち上げたことのある物体と比較して、その情報を使って最善のつかみ方を選択する。

Dex-Netは、生きている人間のような目と記憶を持たないため、制作者たちはさまざまな物体の人工的3D情報を600万件以上与えて、それぞれの対象物体を持ち上げる理論的に最善の方法を見付けさせるようにした。実際に動作する時には、システムは物体を見て、記憶の中にあるものと比較してもっともよく一致したものを選ぶ。

研究者らがDex-Netにそれまで見せたことのない物体を数十種類つかませたところ、失敗したのは1度だけだった。これは、人工的データを使って訓練されたシステムでもかなり安定した結果を出せることを示唆している。また、持ち方の候補を見つけるまでの時間は平均1秒以下だった。

Dex-Netを作ったのはUCバークレーのロボット研究者たちで、7月のカンファレンスでシステムの最新バージョンを発表する予定だ。また、物体のデータセットや収集した3Dデータも公開する計画だ。

[原文へ]

(翻訳:Nob Takahashi / facebook