Google I/O: モバイルアプリ向け機械学習モデル登場――iOS、Android開発にML Kit

今日(米国時間5/8)開幕したI/Oデベロッパー・カンファレンスでGoogleはML Kitを発表した。iOS、AndroidアプリのデベロッパーはこのSDKを用いることでGoogleによって開発ずみでの機械学習モデル多数をアプリに取り込むことができる。特に巧妙なのは、これらのモデル(テキスト認識、顔認識、バーコードスキャン、画像タグづけ、外界のランドマーク認識などを含む)がオンライン、オフラインの双方で利用できる点だ。ネットワーク接続の状態とデベロッパーの判断に応じて適切な方を選ぶことが可能だ。

向こう数ヶ月の間にGoogleは現在のベーシックAPIにさらに2組を追加する予定だ。ひとつはInboxやGmailでおなじみのスマート返信機能で、もう一つは顔認識API用の高精度の輪郭認識だ。

ゲームのあり方を根本的に変えるような影響があるのはオフライン・モデルだろう。デベロッパーはGoogleが開発したモデルを自分のアプリに組み込める。しかも利用は無料だ。もちろん制限はある。モデルはローカル・デバイス上で作動できるようサイズを小さくされているため正確性は低い。クラウドベースであればコンピューティングパワーにも記憶容量にも制限はない。したがって大きなモデルを用いて正確性な結果を得ることができる。

機械学習などのモデルをオフラインで利用可能にするのは業界のトレンドだ。たとえばMicrosoftは、今年に入って独自のオフライン・ニューラル翻訳を発表している。このサービスはオフラインでも作動する。トレードオフはGoogleのモデルと同様だ。

Googleの機械知能グループのプロダクトマネージャーでAndroidのカメラ機の責任者、 Brahim Elbouchikhiは私の取材に答えてこう述べた。

多くのデベロッパーは機械学習による推論をアプリ内での予備的な処理の部分に取り入れるだろう。たとえば画像内に動物が写っているかどうかをアプリ内で判定し、写っていればたとえば犬種の判定についてはクラウドの処理に任せるというような方法だ。これは合理的だ。オン・デバイスでのラベルづけはおよそ400種類がサポートされるが、クラウドでは1万種類のラベリングが可能だ。ML Kitはわれわれの標準的なニューラルネットワークAPIを用いる。AndroidでもiOSでも同じ機能だ。

ElbouchikhiはML Kitがクロスプラットフォームである点を特に強調した。デベロッパーは機械学習モデルがAndroid専用、iOS専用であることを嫌う。

Googleがあらかじめ学習させたもの以外の機械学習モデルを必要とする場合、ML KitではTensorFlow Liteをサポートしている。

新しいSDKはGoogleのFirebasemの傘下となる。目的はモバイルアプリの開発者が機械学習モデルを使うことを助けることだ。ただし、当然ながらGoogleも指摘しているとおり、機械学習モデルを使ってアプリを加速するにはデベロッパー側の努力が必要だ。これまでもGoogleは機械学習APIを通じていくつもの学習ずみでカスタマイズも可能なクラウド上のMLモデルを提供してきた。 しかしこれまでのモデルはインターネット接続がなければ動作しなかった。またユーザー体験も十分にFirebase、またFirebaseコンソールに統合されているとはいえなかった。

TensorFlow Liteを使う場合でも、Googleはカスタム・モデルを扱いやすいサイズに圧縮することに努めている。今のところは実験段階だが、興味を抱いたデベロッパーはここからサインアップできる。

ElbouchikhiはGoogleの目標は機械学習の一般へ普及だとして、「機械学習をありふれたもう一つのツールにするのがわれわれの目標だ」と述べた。

<

[原文へ]

(翻訳:滑川海彦@Facebook Google+

Microsoft Build 2018:キーワードはAIとエッジ――Azure IoT Edgeを大幅アップデート

この月曜(米国時間5/7)からシアトルでBuild 2018デベロッパー・カンファレンスがスタートした。Microsoftはここで人工知能とエッジ・コンピューティングに多大な力を入れている。特に目立ったのは、倉庫管理用の大型産業機器や油井をリモートコントロールするツールなどを含むエッジ・デバイスで作動する多くの既存のAzureサービスへの機械学習の適用だ。

こうしたサービスはひっくるめてAzure IoT Edgeと呼ばれているが、Build 2018で大幅なアップデートが発表された。IoT EdgeはAI、Azure、IoTデバイス向けカスタムアプリ各種からなる。

Microsoftが今日発表したAzure IoT EdgeはMicrosoftのIoT Hubサービスをベースとしているが、Event Grid やKubernetesコンテナのサポートと同時に同社のCognitive Services APIのサポートが発表された。 加えてMicrosoftはAzure IoT Edgeのランタイムをオープンソース化した。つまりデベロッパーは必要に応じてランタイムをカスタマイズすることができるようになる。

今回のハイライトは、エッジ・コンピューティングに対するCognitive Servicesのサポート開始だろう。現在このサービスは限定版となっており、Custom Visionの視覚サービスのみが利用できる。しかし将来は他のCognitive Servicesに範囲を広げる計画だ。このサービスの魅力は明らかだ。大型の産業用機器からドローンまで各種のデバイスがインターネット接続なしに機械学習を応用したサービスを利用できる。視覚サービスの場合であれば、オフライン状態でも機械学習モデルを使った対象の認識が可能になる。

AIに関しては、エッジ・コンピューティングをリアルタイムAI化する新しいBrainwave深層ニューラルネットワーク・アクセラレータ・プラットフォームが発表された。

MicrosoftはQualcommと提携し、IoTデバイス上で機械学習に基づく推論を実行できるAIデベロッパー・キットを発表した。 最初のバージョンはカメラの利用を中心としたものとなる。
Qualcommが最近独自の ビジョン・インテリジェンス・プラットフォームをスタートさせたことを考えれば驚くには当たらない。

IoT Edgeは機械学習関連以外の分野でも多数のアップデートを受ける。Kubernetesのサポートが開始されるのは大きい。またスマートな決断でもある。デベロッパーはKubernetesクラスターをビルドすることによってエッジ・デバイスとクラウドサーバーの双方にまたがるソフトウェアを容易に開発できるようになる。

Microsoftのイベント・ルーティング・サービスであるEvent Gridがエッジでサポートされるのも順当だろう。サービスを協調動作させるためにいちいちリデータセンターのサーバーを経由するのでなしに、エッジで直接ルーティングができればレイテンシーははるかに少なくなるはずだ。

この他、 IoT Edgeではマーケットプレイスの開設も計画されている。このマーケットプレイスではMicrosoftパートナー、デベロッパーがエッジ・モジュールを共有し、収入を得ることができるようになる。また新しいハードウェア認証プログラムでは、デバイスがMicrosoftのプラットフォームと互換性があることをメーカーが保証できる。IoT Edge、 Windows 10 IoT、Azure Machine Learningでは近くDirextX 12 GPUによるハードウェア・アクセラレーション・モデルの評価をサポートするようになる。DirextX 12 GPUはほぼすべての最新のWindowsパソコンで利用可能だ。

〔日本版〕Build 2018のセッションのライブ配信はこちら。Kevin ScottはMicrosoftのCTO。上のアニメでは1982年、高校時代のKevinが登場してマイクロコンピューターこそ未来だと主張する。

[原文へ]

(翻訳:滑川海彦@Facebook Google+

Lobeで機械学習利用アプリを誰でも簡単に開発できる――デモではジェスチャーを絵文字に変換

機械学習はトレンドだ。CERNの素粒子の探求からGoogleによる人間の声の合成まであらゆる場所に用いられている。ただしハードルが高い。 しかしビデオ編集、音声編集の実際の動作は複雑きわまるものだが、好奇心さえあれば子供でも手を出せるくらい優れたUIが数多く実用化されている。

それなら機械学習でも同じことができるはずだ、というのがLobeのファウンダーたちのコンセプトだ。LobeはLEGOブロックを組み合わせるのと同じくらい簡単に機械学習モデルを作れるようにするプラットフォームを提供するスタートアップだ。

共同ファウンダーの一人でこれまでの各種の優れたデジタル・インターフェイスをデザイナンしてきたMike Matasに話を聞くことができた。Matasはこのプラットフォームの目的や開発の動機について話をしてくた。

「これまでもAIを使ったらこんなことができるはずだというアイディアを思いつくものの、実行するのに十分な知識がないという状況が多々あった。いくらいいアイディアでもAI専門家のチームを雇うことできなければ意味がなかった」とMatasは言う。

実は彼自身、こういう状況を経験した。

そこで私は自分でAIモデルを作れるものか調べてみた。たしかに入り口にはたくさんの術語、フレームワーク、数学といった難題が立ちふさがっていた。しかしそこをなんとかくぐり抜けると、コンセプト自体は直感的に理解しやすいものだった。機械学習は人間にものを教えるのと基本的に同じやり方だから、普通のプログラミングよりやさしいぐらいだ

そうは言っても術語は難解だし、開発デバイスはまだまだ荒削りだった。機械学習は強力な手法だが、UIとしてはまだPhotoshopで画像編集をするようなレベルになっていなかった。

これまでの機械学習ではいろいろな要素を自分で組み合わせる必要があった。ダウンロードが必要なコードが多数あった。実は私もフレームワークを始めとしてダウンロードして組み合わせなければならないソフトウェアの数があまりに多く、ので嫌になった。私はUIデザイナーなので、それならこういう複雑な状況を整理して誰でも理解できるようなUIを構築するチャンスではないかと考えた

MatasとMarkus Beissinger、Adam Mengesが共同ファウンダーとなってスタートさせたLobeは機械学習を利用して大量のデータから意味のある特徴を抽出し、ラベル付けするための直感的に理解しやすいビジュアルなインターフェイスを作っている。下にエンベッドしたデモ・ビデオでは、手のジェスチャーをカメラで読み取って絵文字に変換するアプリを作るプロセスが詳しく紹介されている。アプリを開発するのにコンピューター言語の知識は必要ない。コードの処理は1行も出てこない。ましてコードを書く必要はない。もちろん必要なら(また能力があれば)詳細レベルに立ち入って調整することはできる。Lobeのプラットフォームは非常に使いやすく、処理も高速だ。十分なデータがあり機械学習による処理の可能性を感じているものの技術的ノウハウがないユーザーが簡単に新しいアプリを開発する可能性を開くものだろう。

Matasはこの状況をパソコンの初期に例える。

それまでコンピューターを扱えるのは専門のエンジニアと計算機科学者だけだった。「専門家しかコンピューターを扱えなければコンピューターの利用法を考えられるのも専門家だけになる。しかし80年代の後半になるとコンピューターにはクリエーティブな使い方が数多く登場した。それは大部分UIの改良によるものだった。

Matasは機械学習に関しても使いやすいUIの登場によって入門のハードルが下がれば新しいアプリが洪水のように登場するとみている。「データサイエンス以外のフィールドの人々も自分たちの課題に機械学習が適用できると考え始めている。しかも今後はアイディアからプロトタイプを作ることを機械学習専門家の手を借りず、自分たちでできるようになる」という。

機械学習の応用が期待される分野は無数にあるが、Lobeでは簡単なモジュールで計測認識、ジェスチャー認識、読唇術、花びらのような対象をリアルに再現するなど多数のアプリが可能となることを示している。学習のベースとなるデータはユーザーが用意しなければならない。しかし機械学習で処理するのは今後は困難な部分ではでなくなるという。

機械学習コミュニティーはオープンソースに徹することをモットーとしている。 Lobeも独自のAPIを通じてLobeのサーバーでしか作動しないようなモデルは採用していない。「LobeのアーキテクチャはTensorflowのようなオープン規格をベースとしている。Lobeで学習、テスト、調整などをした後は、どんなプラットフォーム向けにもコンパイルして作動させることができる」ということだ。

現在Lobeはまだクローズド・ベータの段階だ。 「問い合わせが殺到している。強い関心を呼んでいるのは確かだ。公開は徐々にしていくが、できるかぎり小さく始めるつもりだ。われわれは急がず身の丈にあったやり方をしていく」とMatasは語った。

[原文へ]

(翻訳:滑川海彦@Facebook Google+

Kubernetesのための機械学習ツールKubeflowが発表から4か月で最初のバージョンをリリース

Googleが作ったオープンソースのコンテナオーケストレーションツールKubernetesは、おそらく同社が想像しなかったほど華々しく成長した。そしてその人気が増すとともに、多くの関連プログラムが生まれてきた。今日(米国時間5/4)はGoogleが、オープンソースのツールKubeflowのバージョン0.1のリリースを発表した。これは、Kubernetesのコンテナに機械学習をさせるためのツールだ。

Googleはかなり前にKubernetesをCloud Native Computing Foundationへ移したが、積極的な関与は継続し、今回のKubeflowもそのひとつだ。このプロジェクトは昨年末オースチンで行われたKubeconで発表されたばかりだが、早くもかなりの勢いがついている。

GoogleでKubeflowを運用しているDavid Aronchickは、その前の2年半、Kubernetesのチームを率いた。その彼の言うKubeflowの基本的な考え方とは、データサイエンティストたちが、Kubernetesのクラスターの上で機械学習のジョブを動かせるアドバンテージを享受できることだ。Kubeflowを使って機械学習のチームは、既存のジョブを簡単にクラスターに付けられる。

今日の発表でプロジェクトは前進を開始し、その節目を報告するブログ記事は、安定性のアップと、コミュニティの要望に応じて実装した多くの新機能を強調している。新機能には、機械学習のジョブをコラボレーションと対話により訓練するJupyter Hubや、Tensorflowの訓練とホスティングなどが含まれる。

Aronchickが強調するのは、このプロジェクトがオープンソースなので、いろんなツールを使えるということ。最初のバージョンがGoogleの機械学習ツールばかりサポートしていても、 Tensorflowに縛られることはない。今後のバージョンでは、そのほかのツールのサポートも期待できる。

最初の発表からわずか4か月あまりでコミュニティは急速に成長し、70名を超えるコントリビューターと20社あまりのコントリビューター企業がいて、15のレポジトリーに700以上のコミットが行われた。次のバージョン0.2は、夏になる。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa

CERN、機械学習コンテストを開催――誰でもLHCの実験データのAIモデルづくりに挑戦できる

欧州原子核研究機構のLHC〔大型ハドロン衝突型加速器〕から得られるデータは驚くべき量だ。科学者は実験から新たな知識を得るためにこのデータを処理しなければならない。しかもLHCの最近のアップグレードによりデータ量はさらに一桁以上増加する見込みだ。このデータの奔流に対し、CERNでは機械学習を利用してデータを処理し、AIモデルによって素粒子物理学の次のブレークスルーを得る助けとしようとしている。

全周27キロの眞空トンネル内に設けられた巨大な検出器が光速近くまで加速された高エネルギー陽子の衝突によって生じる素粒子のシャワーをとらえる。センサーはきわめて寿命が短い多種多様な素粒子を検出しなければならない。2013年から2年がかりで行われた改良工事により、陽子をガイドする磁場がさらに強化された。新システムの調整が進めば、従来10回程度の衝突が期待されたところで数百回もの衝突が可能になるという。

物理学者にとっては朗報だ。しかしもっとひんぱんに衝突が起きるということはそれだけデータ量も増えることを意味する。LHCの場合、データ10倍以上になる。科学者はNatureの記事で「これまでのプロセスでは処理スピードが遅すぎ、データの分類整理が間に合わなくなるおそれが出ていた」と語っている。現代のデータサイエンティストは巨大でノイズの多いデータを処理する場合AIテクノロジーを用いる。CERNの科学者もこの方法を選んだ。

お断りしておくが、私は科学的に厳密な説明をしていない。しかし簡単にいえば、機械学習は人間が巨大なデータからなんであれ意味ある連関を見出そうするプロセスのコンピューター化だ。製薬でも天文学でも人間の心理の操作(Facebookがそれらしい)でも、乱雑なデータを前にして「籾殻と種を選り分ける」必要があるときにきわめて有効な手段を提供している。素粒子物理学も新たな応用の例だ。

新分野を立ち上げる際には健全な競争が役に立つ。そこでCERNはTrackMLといういささか地味なコンテストを開催している。物理学者やデータサイエンティストはギガバイト規模のLHCの実験データをダウンロードし、正しく分類するモデルづくりを行うことができる。われわれも報じたように、CERNでは300TBの実験データを公開しているが、コンテストではもっと手頃なサイズのデータセットが用いられる。

賞金総額もささやかなもので、2万5000ドルに過ぎない。CERNの資金は新たな超電磁石の開発で使い果たされてしまったのかもしれない。

ただしコンテンストには参加料といったものはない。興味があるむきはKaggleのTrackMLコンテストのページを開いてデータをダウンロードすることができる。結果の提出までには十分時間がある。締切は8月13日だ。提出された成果はすべてオープンソースとなるので、CERNがアルゴリズムをぱくって一儲けを企むのではないかなどと心配する必要はない。

[原文へ]

(翻訳:滑川海彦@Facebook Google+

機械学習研究者2000人が、Natureの新しい有料論文誌への投稿を拒否

世界一流の科学論文誌であるNatureは、Machine Intelligence(機械知能)の出版物を発行する計画を発表したが、研究者らは喜んでいない。この分野はオープン・アクセスの論文誌がうまく回っている ーー 何十年もの間誰もが避けようとしてきた有料アクセスモデルに今更かきまわされたくない。2000人以上の研究者が、投稿しないと宣言する書類に署名した。

今、学術出版業界は騒動の渦中にある。オープンアクセスの学術誌とその支持者たちは、Science、Natureといった名だたる守旧派や、Elsevier、Springerなどの有料サイトと戦っている。一方でSci-Hubなどのサイトは、有料雑誌のデータを解放するサービスを(もちろん違法に)提供し、今やなくてはならない存在となっている。

以下の声明文は、オレゴン州立大学名誉教授で、International Machine Learning Society(国際機械学習協会)の創立者・代表であるTom Dietterichから送られてきた。

「機械学習分野は無料でアクセス自由な研究環境の先端を走ってきた。将来の機械学習にとってクローズドなアクセスや著者手数料のかかる出版物の出番はない。この新しい雑誌を機械学習コミュニティーの記録保管場所として認めることは、後戻りだと私は信じている」

声明は同コミュニティーが過去にも有料論文誌に反対したことや、現在の主要論文誌が対価を請求していないという事実を挙げた。「以下のリストに載っている研究者は、この新しい雑誌に、投稿も査読も編集もしないことを宣言する」

現在世界中から2300件近い署名が集まっている。学生、教授、研究員、建築家、技術者らの名前が満載だ。Google、Intel,Amazon、Microsoft、IBMなど世界有数企業を代表する人たちの名前もある。

機械学習が本質的に有料アクセスと相容れないわけではない、とDiettrichがメールで言った。むしろ、注目されるようになったのがごく最近だったために、無料でオープンアクセスの雑誌が初めからより良い選択肢だったと言うべきだろう。

「われわれの研究コミュニティーは幸いにも無料かつオープンアクセスの学術出版への期待を確立することができたが、他の多くの科学、数学の分野も同じ方向に進んでいる」と彼は書いた。

Natureがこのようなやり方で関心を示したことはこの分野が有望であることを意味しているのかと尋ねたところ、「これはNature Publishing Grouptがこの比較的新しい研究分野が金になると信じしていることの兆候だ」と教授は答えた。

どうやら決意は広く支持されているようだ。「私の印象では、主要な大学や企業のほとんどから優秀な人たちが参加している」と彼は締めくくった。

それでもNatureは強い影響力を生かして論文を集めるかもしれないが、この分野のかなりの人数の研究者から無視されることになりそうだ。読者の中に賛同する人がいれば、リストに名前を追加されたい。

[原文へ]

(翻訳:Nob Takahashi / facebook

Facebookのオープンソースの囲碁ボットはプロの棋士に勝つ

碁(囲碁)は機械学習の研究者の必須科目だ。GoogleのDeepMindはそのアルゴリズムを魅せつけて有名になり、そしてFacebookも最近、碁ボットを自分で作っていることを発表した。同社のデベロッパーカンファレンスF8で今日(米国時間5/2)行われたそのELF OpenGoボットの発表では、30名の人間棋士との計14試合に全勝し、プロの資格を獲得した、と宣言された。

FacebookのCTO Mike Schroepferはこう述べた: “DeepMindにいるお友だちの偉業には敬服するけど、でも、まだ答えられていない疑問があるのではないだろうか? これらのツールは、ほかにどんなことに利用できるのか?”。Facebookが今日のブログ記事で言っているのは、DeepMindのモデル本体は不透明な包装紙に包まれたままだ、ということ。対照的にFacebookは、そのボットをオープンソースにした

“これを再現可能にしてしかも世界中のAI研究者が利用できるようにするために、われわれはオープンソースの碁ボットを作り、ELF OpenGoと名付けた。これなら、DeepMindのAlphaGoが答えなかった重要な疑問にも十分、答えることができるだろう”、とチームは主張している。

チームが関心を持っているのは、碁だけではない。FacebookのAI研究グループは、StarCraftボットも作って、あのゲームの混沌とした世界にプレーヤーが対応できるようにした。これも、オープンソースにする予定だ。Facebookはまだ、訓練量が十分ならどんなゲームでも学習できるボットをローンチできるところまでは行ってないが、でもチームはそれに向かって相当前進していることは確かだ。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa

DeepCodeはAIの力でコードを洗う…未来のフロントエンドはプログラミングの自動化

チューリッヒのDeepCodeは — 基本的にはコードを分析して改良するためのツールだが — プログラマーのための文法チェッカー/文章改良ツールGrammarlyみたいだ。このシステムはユーザーのGitHub上のリポジトリを読み、25万のルールのコーパスを使って問題とその修復方法を教え、ただしそれによって互換性が壊れないように、そしてもっと良いプログラムになるようにする。

Veselin Raychevが創業し、アドバイザーとしてMartin VechevとBoris Paskalevが加わった同社のチームは、機械学習とAI研究の幅広い経験がある。このプロジェクトはスイスのチューリッヒ工科大学からスピンオフした独立の研究プロジェクトが、プログラミングのためのユーティリティになったものだ。

で、その実際の仕事ぶりはどうか? かなりよろしい。自分の公開リポジトリのひとつをこのシステムに通してみたが、449のファイルに対して49件の提案をもらった。その中には文字通りのコード書き換え — name: String,name: {type: String},に変える — もあるし、必要なファンクションコールがないようだ、という示唆もある。自分のコードに隠れているバグを見つけたいときには、なかなかおもしろいツールだ。このツールがくれるアドバイスは、驚くほど正確だ。それは、人間が見逃しがちな間違いのあるコードを大量に読んだ(学習した)結果作りだすリコメンデーションだからだ。

Paskalevは語る: “コードの意図を理解するプラットホームを作った。それは何百万ものリポジトリを自動的に理解し、デベロッパーがやろうとしている変更に注目する。そしてAIエンジンをそれらの変更で訓練し、プラットホームが分析するコードのすべての行に、ユニークな提案を提供する”。

“今は25万あまりのルールがあり、毎日増えている。競合システムはルールを手作業で作ってるから、最大のシステムでも、長年かけてやっと3000か4000のルールを作った程度だ”。

自己資本のみだった同社は最近、ドイツのbtov Partnersから110万ドルを調達した。ファウンダーたちはいずれも複数回の起業経験がある。PaskalevはVistaPrintとPPAGの創業に関わったし、Raychevは、プログラミング言語のセマンティクスの機械学習という分野の研究者だが、以前はGoogleで働いていた。

DeepCodeは単純なデバッガーではなく、コードを“読んで”それを他の実装と比較する。そしてそれにより、どの行も最高のパフォーマンスを発揮できるように、改良を示唆する。今チームは、多くのプログラマーがそれを使ってくれることを待っている。

“われわれのは、Grammarlyが書かれた言葉を理解するようにソフトウェアのコードを理解する、ユニークなプラットホームだ。その最初のサービスだけでも、ソフトウェア開発のコミュニティは数十億ドルを節約できるし、その次には業界をコードの完全な自動合成へと変身させるフロントエンドを提供できるだろう”、とPaskalevは述べている。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa

Microsoft翻訳が新AIアルゴリズムでオフライン化――サードパーティーのデベロッパーも利用可能

外国に旅行するとき自動翻訳アプリをインストールしていく人は多いだろう。しかしいざというときにインターネット接続がなかったら? 旅行先ではありがちだ。たいていの翻訳アプリはオフラインでも作動する。しかし高度な、ということはつまり処理量の大きいクラウド上の機械学習アルゴリズムを利用することができない。これまではMicrosoft Translatorもその例にもれなかった。

しかし今日(米国時間4/18)からAmazon FireAndroidiOSのアプリはオフラインでも(多少の変更は行われているものの)ニューラルネットワークを用いた翻訳が実行できるようになる(iOSユーザーあと数日待つ必要あある。現在アプリをAppleがレビュー中)。

このアップデートで興味深いのはMicrosoftがどんなプラットフォームでもAI処理を実行できるということだ。これまでのようにAI処理専用のカスタムチップを必要としない。

Microsoftの Arul Menezesは私の取材に対して、「新しい翻訳アプリは劇的に改良されている」と答えた。従来のアプリが依拠していた古い機械学習が不自然な文を生成しがちだったのに対して、今回のバージョンで採用された新しい機械学習のアプローチははるかに優れているという。しかもアプリのサイズも従来の半分だ。現在対応言語はアラビア語、簡体字中国語、フランス語、ドイツ語、イタリア語、日本語、韓国語、ポルトガル語、ロシア語、スペイン語、タイ語だが、今後さらに言語を増やしていくという。

Menezesによれば、Microsoftはこのローカルデバイス上のニューラルネット翻訳をHuaweiと共同で昨年から開発を始めたのだという。当初、Mate 10と Honor 10のAIコ・プロセッサを利用したが、Menezesによれば「細心の注意を払ったエンジニアリング」のおかげで開発チームはAI専用チップの必要を失くすことができた。

またデータセンターのサーバーに比べればモバイル・デバイスの能力は限定的なのでチームはモデルを多少スケールダウンせざるを得なかった。つまりオフラインで翻訳をさせた場合、オンラインの品質に達していない場合があり得る。しかしMicrosoftでは「オンラインとオフラインの翻訳品質の差はほとんど気づかれない程度だ」と述べている。「新しいニューラル翻訳はオフラインであってもわれわれの古いオンライン翻訳をはるかに上回っている。その差は大きい」という。MenezesはMicrosoft翻訳をGoogle翻訳と比べることもためらわなかった。

今回のアップデートでオフライン翻訳が可能になったが、同時に、Microsoftは他のAndroidアプリのデベロッパーにもこの能力を開放していく(もちろん有料だろう)。つまりサードパーティーのアプリはバックグラウンドでMicrosoftの翻訳アプリを呼び出し、翻訳を実行させ、表示することができる。オフラインであれば、アプリは翻訳アプリをオフラインで動かし、オンラインであればクラウド上で実行し、結果を受け取ることになる。

画像:Christophe Morin/IP3 / Getty Images

[原文へ]

(翻訳:滑川海彦@Facebook Google+

犬を使って犬の機械学習システムを作成する

私たちは、物体を識別したり、路上をナビゲートしたり、顔面の表情を認識するために機械学習システムを訓練してきたが、それらを例えば犬をシミュレートできるレベルほどに洗練することは困難のようだ。だがここで紹介するプロジェクトは、それを狙おうというものだ、まあもちろん極めて限定された範囲ではあるのだが。以下に紹介するAIは、一匹の賢いメス犬の振る舞いを観察することによって、犬のように行動する方法の基礎を学んだ。

この研究はワシントン大学とAllen AI研究所の共同研究であり、その結果の論文は、6月のCVPR(コンピュータービジョンとパターン認識の国際会議)で発表される。

なぜこの研究を行うのだろうか?まあ、オブジェクトを特定したり、それに注目するといった、認識のサブタスクをシミュレートするための研究は多く行われてきたが、「エージェントがその視覚を用いて行動しタスクを起こすために必要とされる視覚データの理解」という意味ではあまり多くの研究は行われてこなかった。言い換えれば、目としての振る舞いではなく、その目を動かすものとしての振る舞いである。

それに何故犬なのか?何故なら彼らは十分な複雑さを備えたインテリジェントエージェントであり、「にも関わらずその目標や動機を、しばしば先験的に知ることは困難だから」である。言い換えれば、犬は明らかにスマートな存在だが、彼らが何を考えているのかは分からないということだ。

この研究の最初の試みとして、チームは犬を密接にモニターし、その移動や行動を犬が見ている環境にマッピングすることによって、犬の動きを正確に予測するシステムを作り出すことができるかどうかを知りたいと考えた。

ということで、彼らはKelp M. Redmonという名前のマラミュート犬に基本的なセンサー群を装着した。Kelpの頭にはGoProカメラが載り、脚、尾、胴に6つの慣性計測ユニットが装着されてそれぞれの位置を検出する。さらにマイクと全てのデータを統合するためのArduinoも備えられた。

彼らは何時間にもわたるKelpの活動を記録した。様々な環境で歩き、物を取らせ、ドッグパークで遊び、そして食べる。これらの動きを犬が見たものと同期させて記録したのだ。その結果得られたものが、「犬環境における自我中心の行動データセット」(Dataset of Ego-Centric Actions in a Dog Environment:DECADE)だ。このデータは新しいAIエージェントを訓練するために用いられる。

訓練されたAIエージェントは、特定の感覚入力(例えば部屋や通りの景色、またはそこを横切るボールのようなもの)があったときに、その状況で犬が何をするかを予測することができる。もちろん、こと細かなレベルではない。しかし単にどの身体をどのように動かそうとするのか、どこへ移動しようとするのかを判定するだけでも、大変な仕事である。

研究者の一人であるHessam Bagherinezhadは「歩行する際の関節の動かし方を学習し、歩いたり走ったりする際に障害物を回避する方法を学んでいます」とメールで返信してきた。「リスを追いかけることを学び、飼い主の後に従い、『とってこい』のために飛んでいる犬用のおもちゃを追跡することを学んでいます。これらは、各タスクに対する別々のデータ(行動計画、歩行可能な表面、物体認識、物体追跡、人物認識)を集めることで私たちが解決しようとしている、コンピュータビジョンとロボティクスの基本的なAIタスクの一部です」。

これは、かなり複雑なデータも生成することが可能だ。例えば犬のモデルは、本物の犬自身がそうしている様に、ここからそこまで歩く際に、どこを歩くことができるのかを知らなければならない。それは木の上や車の上、そして(家庭によると思うが)ソファの上を歩くことはできないからだ。したがって、モデルはそれらも学習する。その結果は別途コンピュータービジョンモデルとして利用され、ペット(もしくは脚付きロボット)が、見えている画像のどこを歩くことができるのかを決定するために利用できる。

これは、まだ最初の実験に過ぎない。研究者たちは実験は成功したが、結果はまだ限られていると言う。より多くの感覚の取り込みが考えられていることだろう(嗅覚は明らかにその1つだ)、あるいは1匹(もしくは複数の)犬から生み出されたモデルが、他の犬たちにどれほど一般化して適用可能かの研究も考えられているだろう。彼らの結論はこうだ:「私たちは、この研究が、視覚情報と私たちの世界に生息する他の知的存在に対する、より良い理解をもたらす手段への道を切り拓いてくれることを期待しています」。

[原文へ]
(翻訳:sako)

Googleのテキスト音声変換APIにメジャー・アップデート――音声認識も改善

今日(米国時間4/9)、Googleは数週間前に公開したクラウド・テキスト音声変換サービスのAPIにメジャーアップデートを行ったことをを発表した。Googleは同時に逆方向のサービスである音声テキスト変換のクラウド音声認識APIにも大きな改善を行った。Googleのテストによれば、新しいAPIは認識エラーを全体で54%減らしたという。ただし一部のケースでは改善はこれをはるかに上回った。

アップデートされた音声テキスト変換APIを利用するとデベロッパーは 複数のユースケースをベースにした機械学習モデルから適したものを選ぶことができる。新APIは現在4つのモデルを提供している。そのひとつは検索と命令のための短い発話だ。また電話の音声認識、ビデオファイルの音声認識も提供されており、Googleがすべてのデベロッパーにデフォールトとして推薦するのが4番めの新しいモデルだ。

こうした新しい音声テキスト変換モデルに加え、Googleはパンクチュエーション(句読法)のモデルをアップデートした。Googleの開発チーム自身も認めているとおり、音声認識でこれまで最大の問題となってきたのは正しいパンクチュエーションの生成だった。ことに話者が通常と異なる発話の癖を持っている場合、パンクチュエーションを含めたテキスト起こしはきわめて困難になる

これはトランプ大統領の発言をパンクチュエーションを含めてテキスト起こししようと試みたデベロッパーなら同意するだろう。アップデートされたモデルははるかに読みやすいテキストを生成できるという。センテンスの切れ目を認識することに失敗するケースが減少し、ピリオド、コンマ、クエスチョンマークなどを正しく挿入できるとGoogleは述べている。

今回のAPIのアップデートにより、デベロッパーはテキスト起こしを行うことにより、音声ファイルないしビデオファイルにタグ付けなど基本的なメタデータを付与できるようになった。Googleではユーザーの各種機能の利用状況を総合的に勘案して、次のアップデート開発の優先順位を決めていくという。

Googleはサービスの料金体系も多少変更した。従来どおり、音声ファイルのテキスト変換は15秒ごとに0.006ドルで、ビデオはその2倍の15秒ごとに0.012ドルとなる。ただし5月31日まで新モデルの利用料金は15秒ごとに$0.006ドルに抑えられる。

〔日本版〕上にエンベッドされた例ではセンテンスの切れ目が正しく認識されピリオドが挿入されている。No、That’sなどの冒頭が赤文字で強調表示されている。

[原文へ]

(翻訳:滑川海彦@Facebook Google+

データは新しい石油ではない

(日本語版注:本稿は、Jocelyn GoldfeinとIvy Nguyenにより執筆された記事。Jocelyn GoldfeinはZetta Venture Partnersの業務執行取締役。 Ivy Nguyenは、Zetta Venture Partnersの共同経営者。)

ソフトウエアの開発が以前に比べて簡単になったことで、ソフトウエア・ビジネスにおいて身を守ることは、以前よりも難しくなっている。そのため、投資家や企業家が、データに新しい競争力の可能性があると楽観視するのは不思議ではない。データは「新しい石油だ」と称賛する人間もいる。私たちは、ビジネスに関する問題を解決してくれるデータやAIを活用するスタートアップへの投資に力を入れているため、たしかに、そうした声を聞くわけだが、石油に例えるのは少し違うと思う。

ビッグデータへの関心は非常に高いが、すべてのデータが同等に作られているわけではないという事実は見落とされがちだ。スタートアップも大手企業も、口を揃えて、テラバイト級だとか、米国議会図書館に収められている情報より多くのデータを保有しているとか、自分たちが集積したデータの量を自慢するが、量だけで「データモート」(Data Moat:データの堀)を築くことはできない。

データ戦略の変遷  左から「ワークフロー・ツール(データなし)」「データ集約」「データ駆動型好循環(AI / ML)」「データモート」

 

その理由のひとつには、生のデータは、問題解決に利用できるデータと比べて価値が遙かに劣るということがある。それは、公開市場を見るとわかる。ニールセンアクシオムなどのデータの収拾や提供を業務としている企業は、ネットフリックスやフェイスブックのようにデータをアルゴリズムや機械学習(ML)と組み合わせることで製品を生み出している企業と比較すると、企業評価は数分の一をなんとか維持している程度だ。新しい世代のAI系スタートアップは、その違いをよく心得ていて、収拾したデータから価値を抽出するためのMLモデルを採用している。

MLベースのソリューションにデータが利用できたとしても、そのデータセットのサイズはまた別の話だ。データセットの価値、つまりデータモートの強さは、文脈による。アプリケーションによっては、顧客に何らかの価値を提供するために、非常な高精度にトレーニングしたモデルを必要とするものがあるかと思えば、ほんの僅かなデータ、あるいはまったくデータを必要としない場合もある。独占的に所持できるデータもあれば、すでに複製されているデータもある。時間とともに価値が失われるデータもあれば、永久に価値を保ち続けるデータセットもある。アプリケーションがデータの価値を決定するのだ。

「データ欲」の範囲を規定する

エンドユーザーに価値ある機能を提供するためには、MLアプリケーションは、幅広く大量のデータを必要とする。

MAP閾値

クラウドの分野には、実用最小限の製品(MVP)という考え方が根付いている。初期顧客を探し出すのに必要な機能だけを備えたソフトウエア郡だ。インテリジェンスの分野では、私たちはデータやモデルから見られるアナログの部分に注目している。採用を正当とするに足る最小限の精度を持つ情報だ。これを私たちは最低限のアルゴリズム性能(MAP)と呼んでいる。

ほとんどの場合、アプリケーションで価値を生みだすのに必要な精度は、100パーセントでなくてもよい。たとえば、医師のための生産性向上ツールがあったとしよう。最初は、健康状態を電子的に記録するシステムのデータ入力を補助する役割を果たすが、時が経つにつれて、どの医師がシステムに入っているかを学習して、データ入力を自動化するようになる。ここではMAPはゼロだ。使い始めた最初の日から、そのソフトウエアの機能が価値を発揮するからだ。インテリジェンスは後から付加される。しかし、AIが中心になっている製品(たとえば、CTスキャナーから脳卒中を特定するツール)の場合は、生身の人間が行うときと同等精度のソリューションが求められる。MAPは人間の放射線科医の能力と同等になり、製品として成立させるまでには、恐ろしいほど大量のデータが必要とされる。

成績の閾値

100パーセントに近い精度があっても、すべての問題が解決できるわけではない。あまりにも複雑すぎるため、最先端の技術を駆使したモデルを必要とする問題もある。その場合は、データは特効薬とはならない。データを増やすことで、モデルの成績は徐々に向上するだろうが、すぐに限界利益の減少に直面してしまう。

反対に、追跡すべき次元が少なく、結果の幅も小さく、比較的単純にモデリングできる問題の場合は、ほんのわずかのトレーングされたデータセットで解決できてしまう。

早い話が、問題を効率的に解決するために必要なデータの量は、状況によって変わるということだ。実用的なレベルの精度に達するために必要なトレーニングされたデータの量を、私たちは「成績の閾値」(Performance Threshold)と呼んでいる。

書類処理におけるMAPと成績の閾値の関係 縦軸は精度、横軸はトレーニング用の実例(ドキュメントの数)。 左「成績の閾値=ドキュメント数200」、右「MAP=93%(人間による処理の精度)」

AIを使った契約処理は、成績の閾値が低いアプリケーションのよい例だ。契約書のタイプは何千とあるが、そのほとんどには、契約に関わる人たち、価値を交換するアイテム、期限など、共通する要点がある。住宅ローンやレンタル契約などの書類は、規制に準拠しなければならないため、ほとんど定型化されている。わずか数百種類の例を使ってトレーニングするだけで、実用的な精度に高められる自動文書処理のアルゴリズムを開発したスタートアップを、私たちは数多く見てきた。

起業家にはバランス感覚が必要だ。成績の閾値が高ければ、顧客に使ってもらい、より多くのデータを集めるために、十分なデータを集めなければならないという「ニワトリが先か卵が先か」のような問題に行き当たる。低すぎれば、データモートは築けない。

安定性の閾値

MLモデルは、それが利用されることになる現実の環境から例を集めてトレーニングされる。その環境が少しずつ、または突然に変化したとき、それに伴って変化できなければモデルは陳腐化する。つまり、そのモデルの予測は、もう信頼できないということだ。

たとえば、スタートアップのConstructor.ioは、MLを使って電子商取引サイトの検索結果をランク付けしている。そのシステムは、顧客が検索結果をクリックするかどうかを観察し、そのデータを使って、よりよい検索結果を得るための順番を予測するというものだ。しかし、電子商取引の製品カタログは常に変化している。もしそのモデルが、すべてのクリックのウェイトを同じと考えていたら、または一定の時間のデータセットだけでトレーニングされていたとしたら、古い製品の価値を過大に評価したり、新製品や現在人気の製品をそこから除外してしまったりする恐れが出てくる。

モデルの安定性を保ちたいなら、環境の変化の速度に合わせて最新のトレーニングデータを取り込む必要がある。私たちは、このデータ取得の速度を「安定性の閾値」と呼んでいる。

短命なデータでは強固なデータモートは作れない。一方、安定性の閾値が低い場合、豊富で新鮮なデータへの継続的なアクセスは、大きな参入障壁になってしまう。

長期的な防御力で好機を見極める

MAP、成績の閾値、安定性の閾値は、強固なデータモートを築く際に中核となる要素だ。

新しいカテゴリーに飛び込む先行者には、MAPが低い企業があるが、ひとたびカテゴリーを確立して、そこを牽引するようになれば、後から参入する者たちの敷居は、先行者のときと同じか、それよりも高くなる。

成績の閾値に達するまでに必要なデータと、成績を維持するため(安定性の閾値)に必要なデータの量が少なくて済む分野では、防御が難しい。新規参入者はすでに十分なデータを持っているので、先行者のソリューションに簡単に追いついたり、追い越したりできてしまう。その一方で、成績の閾値(大量のデータを必要としない)と低い安定性の閾値(データが急速に古くなる)と戦っている企業でも、他の企業よりも早く新しいデータを取得できれば、データモートを築ける可能性がある。

強固なデータモートのその他の要素

AI系の投資家は、データセットは「公開データ」と「独自データ」に分けられると熱弁するが、データモートには、それとは別に次の要素がある。

  • アクセスのしやすさ
  • 時間 — どれだけ早くデータを収集してモデルに活かせるか。データには即座にアクセスできるか、または取得や処理に長い時間がかからないか。
  • コスト — そのデータを入手するのに、いくらかかるのか。データを使用するユーザーがライセンス権のために金を払う必要があるのか。または、データのラベリングのために人件費を払う必要があるのか。
  • 独自性 — 同じ結果を導き出すモデルが構築できる同等のデータが広く公開されていないか。そのような、いわゆる独自データは、「日用データ」(Commodity Data)と呼ぶべきだろう。たとえば、求人情報や、広く普及している形式の書類(機密保持契約書やローンの申請書など)や、人の顔の画像のようなものがそれにあたる。
  • 次元性 — データセットの中に、種類の異なる属性がどれほど含まれているか。その多くが、問題解決に役立つものであるか。
  • 幅 ― 属性の価値がどれほど多岐に渡っているか。そのデータセットに、極端な事例や稀な例外的事例が含まれているか。データまたは学習が、たった一人の顧客から得たものではなく、幅広い顧客層から収拾され蓄えられているか。
  • 寿命 ― そのデータは、長期にわたって幅広く利用できるものであるか。そのデータでトレーニングされたモデルは、長期間使えるか。または、定期的な更新が必要か。
  • 好循環 ― 性能のフィードバックや予測の精度といった結果を、アルゴリズムの改良のためのインプットとして使えるか。時を経るごとに性能が磨かれてゆくか。

今やソフトウェアは日用品だ。長期間にわたって競争での優位性を保ちたいと考える企業にとって、データモートの構築はますます重要になる。技術系の巨大企業がクラウド・コンピューティングの顧客を獲得するためにAIツールキットを無料公開する世の中では、データセットは、差別化のための非常に重要な決め手となる。本当に防衛力の高いデータモートは、データを大量に集めるだけでは実現しない。最良のデータモートは、特定の問題分野と強く結びついている。そこでは、顧客の問題を解決するごとに、他所にはない新鮮なデータが価値を生み出すようになる。

画像:Artem_Egorov / Getty Images

[原文へ]

(翻訳: Tetsuo Kanai)

CometMLは「機械学習のためのGitHub」になることを狙う

Comet.mlは、データサイエンティストと開発者たちが、自身の書く機械学習モデルのモニタリング、比較、そして最適化を簡単に行えるようにする。このニューヨークを拠点とする企業は、本日(米国時間4月5日)そのプロダクトの提供を始めた。同社はTechStarsが支援するAmazon Alexa Acceleratorプログラムを修了し、230万ドルをシードラウンドで調達した。このラウンドを主導したのはTrilogy Equityパートナーズで、他にTwo Sigma Ventures、Founders Co-Op、Fathom Capital、 TechStars Ventures、そしてエンジェル投資家たちが参加した。

このサービスが提供するのは、機械学習(ML)実験コードとその結果をまとめることのできるダッシュボードだ。さらに、このサービスでは、実験のハイパーパラメーターを調整することで、モデルを最適化することも可能だ。モデルを訓練する際に、Cometはその結果を追跡し結果のグラフを提供する。それだけにとどまらず、コードの変更を追跡して、後から取り込むことを許し、実験のさまざまなバージョンの異なる側面をすべて後から比較できるようにする。

開発者たちは、簡単に自らの機械学習フレームワークとCometを統合することができる。たとえ使っているのがKeras API、TensorFlow、Scikit Learn、Pytorch、あるいは単にJavaコードであっても関係ない。使い始めるためには、開発者は単にCometMLのトラッキングコードをアプリに追加し、いつものように実験を実行するだけだ。このサービスは、モデルをどこで訓練するかとは完全に無関係であり、もちろんその結果はチームメンバーと共有することができる。

理想としては、これによってデータサイエンティストは既存のワークフローと開発ツールを使い続けることができる筈で、それらに加えて、実験の効果をよりよく把握できる新しいツールが追加されたということである。

CometMLの共同創業者兼CEOのGideon Mendelsは「私たちは現在のMLチームが、10年から15年前に見かけたソフトウェアチームのように見えることに気が付きました」と語る。現代のソフトウェアチームは、GitHubのようなバージョン管理を提供するツールを使ってコードを共有しているが、MLチームは依然として電子メールでデータやコードを共有している。「主な課題は作業者の規律ではなく、ツールの状況なのです」とMendelsは語る。「現在使えるGitHubのようなツールは、ソフトウェアエンジニアリングのための素晴らしいソリューションですが、MLチームにとってはそうでもありません。ここでもコードが主要なコンポーネントであることには変わりがないのですが、それがすべてではないのです」。

Mendelsによれば、そのクローズド・ベータ期間中には、約500名のデータサイエンティストたち(いくつかのトップテクノロジー企業からの参加を含む)がサインアップしたということだ。これまでのところ、これらのユーザーたちはプラットフォーム上で約6000のモデルを構築している。

将来的には、CometMLチームは、より優れていて正確なモデルが開発できるように、開発者たちに対してより多くのツールを提供する予定だが、Mendelsによれば、そのためには同社はこの最初のバージョンを投入する必要があったのだという。

CometMLは、試してみたいすべての開発者が利用できるようになった。GitHubと同様に、公開プロジェクトを幾つでも作成できる無料枠があり、プロジェクトをチーム間でプライベートに保つ有料枠が提供されている。

[ 原文へ ]
(翻訳:sako)

画像:Pete Saloutos/Getty Images

Microsoftがオンライン学習にAI上級コースとソフトウェア開発入門を新たに加える

Microsoftが今日(米国時間4/2)、デベロッパーのためのオンライン教育プログラムに二つの新しいコースを加えた。ソフトウェア開発入門コースと、機械学習の知識を増やしたいと願っている中級以上のデベロッパーのためのAIコースだ。

誰もが知ってるように、データサイエンティストと機械学習のデベロッパーは、需要に対して供給がきわめて少ない。そのために今、多くの企業では、社員の知識と技能を高めるための社内教育に力を入れているが、今日から始まる誰でも受講できるAIコースも、最初はMicrosoftが自社の社員のために開発したコースだ。

そのMicrosoft Professional Program for Artificial IntelligenceはedX.orgで無料で受講できるが、お金を払えば修了証ももらえる。コースの期間は3か月で、各四半期の頭に始まる。当然ながら、Microsoft AzureとMicrosoftのCognitive Servicesを多く使うからAzureのアカウントは必要だが、使用するオペレーティングシステムは特定しない。

全部で10の必修クラスがあり、それらはAI入門データサイエンスのためのPythonプログラミングAIデベロッパーの倫理などさまざまだ。訓練モデルを使った実習も多い。ひとつのクラスは所要時間が8ないし16時間だ。

AIコースだけでなく、同じく今日発表されたソフトウェア開発の入門コースは、これもedXのコースで13の必修クラスから成る。とくに、JavaScriptとPythonが中心のようだ。ただしこれらのプログラミング言語を学ぶだけでなく、データ構造の基礎や、GitHubの使い方、コードをプロフェッショナルに書くためのそのほかのツールなども教わる。

こういった学習コースをいろいろ集めたものを、Microsoftは“Professional Programと呼んでいる。Microsoft Academyの方が、分かりやすいんじゃないかなぁ。今あるコースは、フロントエンドの開発、クラウドのアドミン育成、ITサポートのプロフェッショナル育成などだ。

画像クレジット: 写真提供, Dan DeLong/Microsoft

[原文へ]
(翻訳:iwatani(a.k.a. hiwa

Googleが三月の狂気(march madness)でリアルタイムの試合展開予想をCMで提供

Googleは、同社のデータサイエンスの技術をリアルタイムで試してみたいようだ。今週末(米国時間3/30〜)同社は、サンアントニオで行われるファイナルフォー(Final Four, 全米男子大学バスケ選手権)で、データ分析と機械学習の技術を駆使して、試合中にさまざまな予測を行う。そしてハーフタイムに放映されるテレビコマーシャルでは、そのゲームの後半戦について予言する。

その詳しい計画は同社の今朝(米国時間3/30)のブログ記事に載っていて、そこでは、Googleのクラウド技術を使ったスポーツデータの統計分析などで同社とNCAA(全米大学体育協会)はすでに関係があり、今回の企画もそのご縁から生まれた、と言っている。そしてGoogleはこの機会を、NCAAのデータのより高度な活用の機会と捉えている。

チームはデータサイエンティストと技術者とバスケットボールのファンたちで構成され、GoogleはGoogle Cloud PlatformとBigQuery、Cloud Datalabなどの技術を利用するデータ処理のワークフローを構築した。データは非常に細かくて、各人の毎分のショットブロック数、動物をマスコットにしているチームの逆転負け率、などもある。Googleはそれらのデータを総動員して、今行われているゲームの経過や結果を予想する。そのためには、ゲームの前半から得られたデータをリアルタイムで分析し、それに基づく予想を数分後にコマーシャルで発表する。

Google Cloudのチームが試合中の会場にいて、前半のデータをワークフローに放り込み、NCAAの過去のデータも利用して分析する。ハーフタイムになったら、データをさらに分析して予想を作りだす。その技術的な詳しい説明は、Google Cloud Big Data and Machine Learningのブログで共有されている。

ハーフタイムが終わる前にGoogleは、出来立てほやほやのテレビコマーシャルをCBSとTurnerに渡し、後半が始まる直前にそれが放映される。

“スポーツイベントの実況中に自社のリアルタイム予測分析技術を利用してコマーシャルを作る企業は、うちが世界で初めてだろう”、とGoogleは言っている。

この実験はGoogle Cloudなどの技術を宣伝する方法としても巧妙だが、ファイナルフォーの予想をするテクノロジー企業はGoogleだけではない。

すべてのバーチャルアシスタント(スマートアシスタント、音声アシスタント)が、独自の予想をしている。GoogleのGoogle Assistantだけでなく、AmazonのAlexaも、MicrosoftのCortanaも、AppleのSiriも。でもそれらの一部は、本物のデータサイエンスを利用した予測というより、人が書いた意見のようだ。

このGoogleとNCAAのデータサイエンス/機械学習の実験には、そのためのWebサイトもある。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa

Google CloudはGoogle自身が使っているテキスト音声変換エンジンをデベロッパーに公開

テキストから音声への合成技術は近年大きく進歩し、最近のシステムは本物の人間がテキストを読んでるように聞こえるものが多い。その進歩を引っ張った企業のひとつであるGoogleは今日(米国時間3/27)、同社がAssistantやGoogle Mapsなどで今使っているのと同じ、DeepMindが開発したテキスト音声変換エンジンをデベロッパー向けに一般公開した。

そのCloud Text-to-Speechと呼ばれるサービスは、32種の声が12の言語とその変種を喋る。このサービスが生成するMP3またはWAVファイルは、ピッチや読む速度、音量などをデベロッパーがカスタマイズできる。

しかし、声の質にはむらがある。それはたとえば、英語には6種類の声があるからで、それらはすべて、テキストから生のオーディオを作るためのDeepMindのモデルWaveNetで作られている。

WaveNetはそれまでの技術と違って、短い発話の集まりから音声を合成しない。それをやると、私たちにはおなじみの、ロボットふうの話し方になってしまう。それに対してWaveNetは機械学習のモデルを使って生のオーディオのモデルを作り、より自然に聞こえる音声を合成する。Googleが行ったテストでは、WaveNetの声の方がふつうの(人間の)声よりも20%良い、という評価になった。

Googleが初めてWaveNetに言及したのは約1年前だが、その後同社は、同社自身のTensor Processing Unitsをベースとする新しいインフラストラクチャへこれらのツールを移し、オーディオ波形の生成をそれまでの1000倍速くした。だから今では1秒のオーディオの生成に50ミリ秒しかかからない。

この新しいサービスは、すべてのデベロッパーが利用できる。料金表はここにある。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa

AIをクラウドにデプロイする過程を単純化するためにPaperspaceはサーバーレスを選ぶ

GPUベースのインフラストラクチャをサービスとして提供することは、スタートアップにとって容易なことではないが、機械学習やVFXを多用するモダンなソフトウェアの開発とデプロイを目指すクラウドインフラストラクチャサービスPaperspaceは、あえてそれに挑んでいる。そして同社は今日(米国時間3/21)、さらに次の一歩として、AIや機械学習のプロジェクトでサーバーのデプロイを不要にするサービスプラットホームGradientを発表した。

どんなサーバーレスのアーキテクチャでも、サーバーがいなくなるわけではないが、ユーザー(デベロッパー)が手作業でそれらをデプロイする必要はなくなる。Gradientはコードをデプロイする手段を提供し、アロケーションやマネージメントはすべてPaperspaceが面倒見る。それにより、機械学習のモデルの構築に伴う複雑性の、大きな塊(かたまり)を取り除く。

同社の協同ファウンダーでCEOのDillon Erbによると、数年前に同社を立ち上げたときはGPUは今日のクラウドサービスのように一般化していなかった。最初は仮想マシンのGPUインスタンスを立ち上げるやり方が主流で、今でもそうだが、問題はツールの不備だった。

Erbの説明では、大企業はツールセットを内製することが多い。しかし実際には、それだけのリソースを持たない企業がほとんどだ。“GPUなどで十分な計算パワーがあっても、それだけではだめで、ソフトウェアスタックが必要なんだ”、と彼は言う。

同社が昨年1年間を費やして作ったGradientは、デベロッパーにそのための構造を提供し、それにより彼らは、もっぱらモデルやコードの構築と、プロジェクトを軸とするコラボレーションに集中できるようになる。そしてマネージメントは、Paperspaceにまかせる。DevOpsのチームが、チームとコードとその下のインフラストラクチャの間の対話を管理する必要も、なくなる。

“コードとDockerのコンテナだけをいただければ、VMのスケジューリングなどはわれわれがいたします。ご自分でマシンを立ち上げる必要はありません”、とErbは語る。

Paperspaceは、Y Combinatorの2015年冬季クラスを卒業して以来、クラウドにGPUをデプロイするという難題に取り組んできた。2014年にローンチしてから今日までに1100万ドルあまりを調達してきたが、シードラウンドの400万ドルがやっと2016年だった。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa

新惑星の発見に貢献したNASA/Googleの機械学習システムAstroNetをあなたも利用できる

おぼえておられると思うが、昨年12月に、NasaのデータとGoogle Brainの脳力を利用する機械学習により、二つの新しい惑星が見つかった。あなたがそれと同じことをやってみたいなら、そのシステムを作ったチームが今日(米国時間3/8)、その天文学的偉業の達成に使われた、AstroNetと呼ばれるプログラムのコードをリリースしたから、試してみたらどうだろう。

NASAのKepler宇宙望遠鏡は、銀河系を何年もかけてスキャンし、惑星サイズのオブジェクトが星の前面にあって、そこだけやや暗くなってるところ(上図)を観察した。

そのデータセットは、機械学習のシステムにとってすばらしい遊び場だ。量が膨大でノイズも多いため、微妙な変異を単純な統計学的方法や人間による精査では見つけることができない。そのような、データの泥沼からおもしろい結果を取り出すためには、畳み込み式ニューラルネットワークが格好のツールだった。

しかし例によってAIは、人間がやった先例に従わなければならない。そのニューラルネットワークは、すでにラベルがついていて惑星か非惑星かを検証されている何千ものKeplerのスキャンデータで訓練された。この訓練されたモデルが、Kepler-90iとKepler-80gの発見に貢献した。

研究者たちによると、プロジェクトのソースを公開したことによってそれがさらに正確になり、研究がもっと早いペースで進み、また新しいデータセットも取り入れることができる、と期待される。ドキュメンテーションを読んでコードをフォークしてみたい人は、GitHubへ行ってみよう。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa

ELSAはAI利用の優れもの英語発音学習アプリ――資金調達に成功、創業者はベトナム出身女性

ELSAといっても『アナと雪の女王』のキャラクターではない。English Language Speech Assistantの頭文字で、AIを利用して各国の学習者が英語の正しい発音を習得する手助けをするアプリだ。このほどELSAは320万ドルの資金を調達することに成功した。

文法や語彙に重点を置く他の学習プラットフォームとは異なり、 ELSAではAIを利用した音声認識システムにより学習者の音声を解析してただしい発音を身につけられるようにする。

今回の320万ドルはいわゆるプレ-シリーズAで、シードラウンドとシリーズAの中間に位置する性格だ。ラウンドのリーダーはシンガポールに本拠を置き、東南アジアでこの種の投資を専門とするMonk’s Hill Venturesだ。同社の共同ファウンダー、パートナーのPeng T. Ongはこれを機にELSAの取締役に就任した。

ThELSAはサンフランシスコのスタートアップで、2015年にスタンフォード卒のVu Van(ELSA CEO)とDr. Xavier Anguera(AIと音声認識)によって創立され、2016年3月のSXSWでプロダクトがデビューした。その後、SXSWeduのローンチ・コンペで優勝している。

Vanは生まれ育ちともベトナムの女性だが、ELSAは自分が英語を習得した際の体験に基いて発想されたという。

Vanは「私はスタンフォード大学でMBAと教育学修士の資格を得るためにアメリカに移りました。スタンフォードでの最初の1年は語学の能力を身につけるための苦労の連続でした。言っているこを分かってくれないことがたびたびありました」という。

Vanは英語の読み書きにはあまり不自由しなかったが、通じる英語を話せるようになるために訛を減らす必要を感じた。ところがこれに適したプロダクトがほとんどなかった。

「ソリューションの数がとても少なかったのです。…スピーチ・セラピストに通えば発音を聞いて直してくれますが1時間に150ドルもかかります。 YouTubeやNetflixならそんなお金はかかりませんが一方通行で聞くだけです」という。

この経験がきっかけとなりVanはELSAの創立を思い立ったという。独自の音声認識テクノロジーを開発するためにこの分野の専門家、 Dr. Angueraが加わった。

ELSAアプリはiOSとAndroidからダウンロードできる。5分間の能力判定テストが用意され、ユーザーの学習段階に適したカリキュラムが作成される。

ELSAには600種類のレッスンがあり、家族や経歴などを含めた自己紹介や就職面接、ビジネス一般、旅行などさまざまな場面を想定し、3000語以上が用いられている。アプリは定期的にアップデートされ、季節(夏休みなど)や話題の映画(スターウォーズなど)に関連する話題が随時提供される。これは現実のコミュニケーションでも学習者を助けるだろう。

各レッスンは2分程度しかかからない。課題文は発音、語彙ともやさしいものから順次難しいものに移る。

ユーザーがマイクに向かって課題文を読み上げると、ELSAはAIで発音を解析し、一般的なアメリカ英語の発音をするためのヒントを示す。 ユーザーの発音の結果は赤、黄、緑などで成績が示されるのでわかりやすい。フィードバックには正しい発音をするための口の構えや舌の動かし方などのヒントも含まれる。

ELSAが開発したAIテクノロジーについてVanは「既存の音声認識テクノロジーは[ELSAとは]方向が違っていました。つまり話者の発音が違っていても意味をくみとろうとするわけです。ELSAが目指すのはその逆です」と説明する。

2年前に一般公開され以後、100以上の国で数百万のユーザーがELSAを使うようになった。現在ユーザーの半数は東南アジアから来ているが、ラテンアメリカや東欧などにも急速に普及しており、毎週数百万のレッスンが実行されている。

  1. progress.png

  2. assessment.png

  3. topic-view.png

  4. skill-view-2.png

  5. skill-view.png

  6. feedback-for-conversation.png

  7. dictionary.png

  8. wordfeedbackscreen.png

今回調達した資金はELSAを教室で使えるように拡張するために利用されるという。このツールでは教師はカリキュラムに応じて新しい文や単語を追加できる。APIの開発に加えて英語以外の他の言語の発音習得に役立つプラットフォームの開発も始めるという。またAI分野における人材獲得も行う。

現在ELSAは7日間の無料トライアルの後、月額3.99ドル(29.99/年)の有料購読というビジネスモデルを採用している。

ELSAアプリはiOSAndroidで利用できる。

〔日本版〕アプリを最初に開くと使用法が表示されるのでよく読み、順次右へスワイプする。タップして課題文を表示し、画面の指示によってマイク・アイコンをタップして課題文を読み上げるとELSAが成績を判定し、改善を要する点があれば具体的に指摘する。

[原文へ]

(翻訳:滑川海彦@Facebook Google+

IBM WatsoのCTO Rob Highが機械学習の“偏り”などAIの最新の課題を語る

IBM WatsonのCTO Rob Highにとって、機械学習における現時点の最大の技術的課題は、少ないデータでどうやってモデルを訓練するか、ということだ。バルセロナで今行われている例年のMobile World Congressでインタビューしたとき彼は、“それはチャレンジであると同時に目標でもあるが、それが可能だと信じられる理由もある”、と語った。

彼のこの意見は、業界全体の声を反映したものでもある。GoogleのAIのチーフJohn Giannandreaはたとえば最近、それを同社の機械学習グループが取り組んでいる主要な課題の一つとして挙げた。通常、機械学習のモデルは、正確であるために大量のデータで訓練する必要があるが、しかし、そんな大きなデータ集合がそもそも存在しない問題も多い。

しかしながらHighは、これが解決可能な問題だ、と信じている。なぜか? “人間はそれをしているからだ。われわれ人間にはデータポイントがある”、と彼は言う。ここで心に留めなければならないのは、人間がやってることの中にその証拠がある、と彼が言うのは、具体的なあの機会やこの瞬間に、人間の学習の仕方に関する情報がある、という意味ではない。“むしろ、テーブルの上にはありとあらゆるコンテキストがあるのだ”。つまりHighが言いたいのは、少ないデータでモデルの訓練が可能になるのは、コンテキストのおかげであり、また、転移学習(transfer learning)における最近の進歩だ。それは、すでに訓練されているモデルを、データの少ない別のモデルの訓練に利用する技法だ。

しかしAIの課題、とくに会話的AIの課題は、さらにもっと困難だ。“もう一方では、人間が自然だと感じるようなやり方で人間と対話し、人間の思考に影響を与えるにはどうするか、という課題がある”、とHighは語る。“人間は、彼らがやり取りする言葉だけから影響されるのではなく、それらの言葉を収めている発声や屈折、抑揚、韻律、気分、顔の表情、腕や手のジェスチャー、などなどの影響も受ける”、Highは、AIがこれらの要素を擬人的に模倣すべきだ、とは考えていない。むしろ、デバイス上の何らかの形のビジュアルキューを使うだろう、と。

それと同時に、多くのAIシステムがもっと上手になるべきなのが、質問の意図を正しく理解することだ。その質問は、何かに関するその人の前の質問とどう関連しているのか。その人の今の心の状態や人柄が、質問の意図にどう影響しているか、など。

しかしここから、もうひとつの疑問が生ずる。今実用化されている機械学習のモデルの多くは、それらが訓練されたときのデータによって偏りが生じている。分かりやすい単純な例としては、そのモデルは白人の男性に関しては精度が高く、黒人の女性に対しては成績が悪い、ということがありえるだろう。この問題にHighはこう答える: “方程式の両辺を見る必要がある。ひとつは、データの集積による偏りで、これに対してはよく注意して、人間ならばそのモデルが表している文化的および集団的側面を広げる努力をしなければならない。しかしもうひとつは、個人的偏りよりは、集積的偏りの方が望まれる場合もある、ということだ”。〔偏りが求める母集団の特性を表しているような場合。〕

Highは、IBMがSloan Kettering Cancer Center(がんセンター)で行った例を取り上げた。その病院は、がん治療の優れた外科医たちの仕事に基づいてモデルを訓練した。彼曰く: “しかしSloan Ketteringには、治療のやり方に関する独特の哲学があり、その哲学が偏りとして組み込まれた。それはその機関の偏りであり、彼らのブランドでもある。[…]Sloan Ketteringの外でそのシステムを利用するときも、その哲学による偏りを免れない”。

“偏りが正しい偏りであるためには、モデルの利用者や、彼らが代表している集団が、多様な文化集団がある中でもとくに、その偏りにとって適正な人びとでなければならない”。これは、IBMのクライアントに対してHighがよく言う言葉でもある。偏りを偏りとして直視し、ときにはその意義も認めることは、今だにこの種の話題を無視しがちな業界における、肯定的な兆候のひとつだ。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa