この夏のDIYプロジェクトはAIが落書きを作りだすカメラがいいかも(コードはオープンソースだ)

長い夏の夜は、昔の回路基板などを取り出してきて埃を払い、何かを作り始めるのに適している。でもあまりアイデアが閃かない人は、アーチスト兼エンジニアのDan Macnishが作った、AIと感熱プリンターとRaspberry piと少々のPythonとGoogleのQuick Drawのデータセットを使う落書きカメラはどうだろう。

“ニューラルネットワークにオブジェクトを認識させて遊んでいたとき、これでポラロイドを作ってみたい、と思いついた。その‘ポラロイドふうカメラ’は、撮った画像を自分で解釈して、実物に忠実な写真ではなく漫画をプリントアウトするんだ”、とMacnishはブログに書いている。そのプロジェクトの名は、Draw This(これを描け)だ。

そのためにMacnishは、Googleのオブジェクト認識ニューラルネットワークと、ゲームGoogle Quick, Draw!のために作ったデータセット(落書き集)を利用した。この二つのシステムをPythonのコードで結びつけたMacnishの作品は、現実の画像をAIが認識し、Quick, Draw!のデータセットの中のそれにもっとも合う落書きをプリントアウトする。

しかし、出力の落書きはデータセットに限定されるので、カメラが“見た”ものと、その写真に基づいて生成されるものとの間に、不一致も生ずる。

Macnishは曰く、“写真を撮って、漫画を出力する。それは、カメラが実際に見たものの最良の解釈だ。でもその結果は、いつも意外だ。健康食のサラダの写真が、大きなホットドッグになることもある”。

実際に試してみたい人のために、Macnishはこのプロジェクトをビルドするために必要なコードとインストラクションをGitHubにアップロードしている。

画像クレジット: Dan Macnish

[原文へ]
(翻訳:iwatani(a.k.a. hiwa

Kubernetesのための機械学習ツールKubeflowが発表から4か月で最初のバージョンをリリース

Googleが作ったオープンソースのコンテナオーケストレーションツールKubernetesは、おそらく同社が想像しなかったほど華々しく成長した。そしてその人気が増すとともに、多くの関連プログラムが生まれてきた。今日(米国時間5/4)はGoogleが、オープンソースのツールKubeflowのバージョン0.1のリリースを発表した。これは、Kubernetesのコンテナに機械学習をさせるためのツールだ。

Googleはかなり前にKubernetesをCloud Native Computing Foundationへ移したが、積極的な関与は継続し、今回のKubeflowもそのひとつだ。このプロジェクトは昨年末オースチンで行われたKubeconで発表されたばかりだが、早くもかなりの勢いがついている。

GoogleでKubeflowを運用しているDavid Aronchickは、その前の2年半、Kubernetesのチームを率いた。その彼の言うKubeflowの基本的な考え方とは、データサイエンティストたちが、Kubernetesのクラスターの上で機械学習のジョブを動かせるアドバンテージを享受できることだ。Kubeflowを使って機械学習のチームは、既存のジョブを簡単にクラスターに付けられる。

今日の発表でプロジェクトは前進を開始し、その節目を報告するブログ記事は、安定性のアップと、コミュニティの要望に応じて実装した多くの新機能を強調している。新機能には、機械学習のジョブをコラボレーションと対話により訓練するJupyter Hubや、Tensorflowの訓練とホスティングなどが含まれる。

Aronchickが強調するのは、このプロジェクトがオープンソースなので、いろんなツールを使えるということ。最初のバージョンがGoogleの機械学習ツールばかりサポートしていても、 Tensorflowに縛られることはない。今後のバージョンでは、そのほかのツールのサポートも期待できる。

最初の発表からわずか4か月あまりでコミュニティは急速に成長し、70名を超えるコントリビューターと20社あまりのコントリビューター企業がいて、15のレポジトリーに700以上のコミットが行われた。次のバージョン0.2は、夏になる。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa

機械学習研究者2000人が、Natureの新しい有料論文誌への投稿を拒否

世界一流の科学論文誌であるNatureは、Machine Intelligence(機械知能)の出版物を発行する計画を発表したが、研究者らは喜んでいない。この分野はオープン・アクセスの論文誌がうまく回っている ーー 何十年もの間誰もが避けようとしてきた有料アクセスモデルに今更かきまわされたくない。2000人以上の研究者が、投稿しないと宣言する書類に署名した。

今、学術出版業界は騒動の渦中にある。オープンアクセスの学術誌とその支持者たちは、Science、Natureといった名だたる守旧派や、Elsevier、Springerなどの有料サイトと戦っている。一方でSci-Hubなどのサイトは、有料雑誌のデータを解放するサービスを(もちろん違法に)提供し、今やなくてはならない存在となっている。

以下の声明文は、オレゴン州立大学名誉教授で、International Machine Learning Society(国際機械学習協会)の創立者・代表であるTom Dietterichから送られてきた。

「機械学習分野は無料でアクセス自由な研究環境の先端を走ってきた。将来の機械学習にとってクローズドなアクセスや著者手数料のかかる出版物の出番はない。この新しい雑誌を機械学習コミュニティーの記録保管場所として認めることは、後戻りだと私は信じている」

声明は同コミュニティーが過去にも有料論文誌に反対したことや、現在の主要論文誌が対価を請求していないという事実を挙げた。「以下のリストに載っている研究者は、この新しい雑誌に、投稿も査読も編集もしないことを宣言する」

現在世界中から2300件近い署名が集まっている。学生、教授、研究員、建築家、技術者らの名前が満載だ。Google、Intel,Amazon、Microsoft、IBMなど世界有数企業を代表する人たちの名前もある。

機械学習が本質的に有料アクセスと相容れないわけではない、とDiettrichがメールで言った。むしろ、注目されるようになったのがごく最近だったために、無料でオープンアクセスの雑誌が初めからより良い選択肢だったと言うべきだろう。

「われわれの研究コミュニティーは幸いにも無料かつオープンアクセスの学術出版への期待を確立することができたが、他の多くの科学、数学の分野も同じ方向に進んでいる」と彼は書いた。

Natureがこのようなやり方で関心を示したことはこの分野が有望であることを意味しているのかと尋ねたところ、「これはNature Publishing Grouptがこの比較的新しい研究分野が金になると信じしていることの兆候だ」と教授は答えた。

どうやら決意は広く支持されているようだ。「私の印象では、主要な大学や企業のほとんどから優秀な人たちが参加している」と彼は締めくくった。

それでもNatureは強い影響力を生かして論文を集めるかもしれないが、この分野のかなりの人数の研究者から無視されることになりそうだ。読者の中に賛同する人がいれば、リストに名前を追加されたい。

[原文へ]

(翻訳:Nob Takahashi / facebook

DeepCodeはAIの力でコードを洗う…未来のフロントエンドはプログラミングの自動化

チューリッヒのDeepCodeは — 基本的にはコードを分析して改良するためのツールだが — プログラマーのための文法チェッカー/文章改良ツールGrammarlyみたいだ。このシステムはユーザーのGitHub上のリポジトリを読み、25万のルールのコーパスを使って問題とその修復方法を教え、ただしそれによって互換性が壊れないように、そしてもっと良いプログラムになるようにする。

Veselin Raychevが創業し、アドバイザーとしてMartin VechevとBoris Paskalevが加わった同社のチームは、機械学習とAI研究の幅広い経験がある。このプロジェクトはスイスのチューリッヒ工科大学からスピンオフした独立の研究プロジェクトが、プログラミングのためのユーティリティになったものだ。

で、その実際の仕事ぶりはどうか? かなりよろしい。自分の公開リポジトリのひとつをこのシステムに通してみたが、449のファイルに対して49件の提案をもらった。その中には文字通りのコード書き換え — name: String,name: {type: String},に変える — もあるし、必要なファンクションコールがないようだ、という示唆もある。自分のコードに隠れているバグを見つけたいときには、なかなかおもしろいツールだ。このツールがくれるアドバイスは、驚くほど正確だ。それは、人間が見逃しがちな間違いのあるコードを大量に読んだ(学習した)結果作りだすリコメンデーションだからだ。

Paskalevは語る: “コードの意図を理解するプラットホームを作った。それは何百万ものリポジトリを自動的に理解し、デベロッパーがやろうとしている変更に注目する。そしてAIエンジンをそれらの変更で訓練し、プラットホームが分析するコードのすべての行に、ユニークな提案を提供する”。

“今は25万あまりのルールがあり、毎日増えている。競合システムはルールを手作業で作ってるから、最大のシステムでも、長年かけてやっと3000か4000のルールを作った程度だ”。

自己資本のみだった同社は最近、ドイツのbtov Partnersから110万ドルを調達した。ファウンダーたちはいずれも複数回の起業経験がある。PaskalevはVistaPrintとPPAGの創業に関わったし、Raychevは、プログラミング言語のセマンティクスの機械学習という分野の研究者だが、以前はGoogleで働いていた。

DeepCodeは単純なデバッガーではなく、コードを“読んで”それを他の実装と比較する。そしてそれにより、どの行も最高のパフォーマンスを発揮できるように、改良を示唆する。今チームは、多くのプログラマーがそれを使ってくれることを待っている。

“われわれのは、Grammarlyが書かれた言葉を理解するようにソフトウェアのコードを理解する、ユニークなプラットホームだ。その最初のサービスだけでも、ソフトウェア開発のコミュニティは数十億ドルを節約できるし、その次には業界をコードの完全な自動合成へと変身させるフロントエンドを提供できるだろう”、とPaskalevは述べている。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa

Googleが三月の狂気(march madness)でリアルタイムの試合展開予想をCMで提供

Googleは、同社のデータサイエンスの技術をリアルタイムで試してみたいようだ。今週末(米国時間3/30〜)同社は、サンアントニオで行われるファイナルフォー(Final Four, 全米男子大学バスケ選手権)で、データ分析と機械学習の技術を駆使して、試合中にさまざまな予測を行う。そしてハーフタイムに放映されるテレビコマーシャルでは、そのゲームの後半戦について予言する。

その詳しい計画は同社の今朝(米国時間3/30)のブログ記事に載っていて、そこでは、Googleのクラウド技術を使ったスポーツデータの統計分析などで同社とNCAA(全米大学体育協会)はすでに関係があり、今回の企画もそのご縁から生まれた、と言っている。そしてGoogleはこの機会を、NCAAのデータのより高度な活用の機会と捉えている。

チームはデータサイエンティストと技術者とバスケットボールのファンたちで構成され、GoogleはGoogle Cloud PlatformとBigQuery、Cloud Datalabなどの技術を利用するデータ処理のワークフローを構築した。データは非常に細かくて、各人の毎分のショットブロック数、動物をマスコットにしているチームの逆転負け率、などもある。Googleはそれらのデータを総動員して、今行われているゲームの経過や結果を予想する。そのためには、ゲームの前半から得られたデータをリアルタイムで分析し、それに基づく予想を数分後にコマーシャルで発表する。

Google Cloudのチームが試合中の会場にいて、前半のデータをワークフローに放り込み、NCAAの過去のデータも利用して分析する。ハーフタイムになったら、データをさらに分析して予想を作りだす。その技術的な詳しい説明は、Google Cloud Big Data and Machine Learningのブログで共有されている。

ハーフタイムが終わる前にGoogleは、出来立てほやほやのテレビコマーシャルをCBSとTurnerに渡し、後半が始まる直前にそれが放映される。

“スポーツイベントの実況中に自社のリアルタイム予測分析技術を利用してコマーシャルを作る企業は、うちが世界で初めてだろう”、とGoogleは言っている。

この実験はGoogle Cloudなどの技術を宣伝する方法としても巧妙だが、ファイナルフォーの予想をするテクノロジー企業はGoogleだけではない。

すべてのバーチャルアシスタント(スマートアシスタント、音声アシスタント)が、独自の予想をしている。GoogleのGoogle Assistantだけでなく、AmazonのAlexaも、MicrosoftのCortanaも、AppleのSiriも。でもそれらの一部は、本物のデータサイエンスを利用した予測というより、人が書いた意見のようだ。

このGoogleとNCAAのデータサイエンス/機械学習の実験には、そのためのWebサイトもある。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa

Google CloudはGoogle自身が使っているテキスト音声変換エンジンをデベロッパーに公開

テキストから音声への合成技術は近年大きく進歩し、最近のシステムは本物の人間がテキストを読んでるように聞こえるものが多い。その進歩を引っ張った企業のひとつであるGoogleは今日(米国時間3/27)、同社がAssistantやGoogle Mapsなどで今使っているのと同じ、DeepMindが開発したテキスト音声変換エンジンをデベロッパー向けに一般公開した。

そのCloud Text-to-Speechと呼ばれるサービスは、32種の声が12の言語とその変種を喋る。このサービスが生成するMP3またはWAVファイルは、ピッチや読む速度、音量などをデベロッパーがカスタマイズできる。

しかし、声の質にはむらがある。それはたとえば、英語には6種類の声があるからで、それらはすべて、テキストから生のオーディオを作るためのDeepMindのモデルWaveNetで作られている。

WaveNetはそれまでの技術と違って、短い発話の集まりから音声を合成しない。それをやると、私たちにはおなじみの、ロボットふうの話し方になってしまう。それに対してWaveNetは機械学習のモデルを使って生のオーディオのモデルを作り、より自然に聞こえる音声を合成する。Googleが行ったテストでは、WaveNetの声の方がふつうの(人間の)声よりも20%良い、という評価になった。

Googleが初めてWaveNetに言及したのは約1年前だが、その後同社は、同社自身のTensor Processing Unitsをベースとする新しいインフラストラクチャへこれらのツールを移し、オーディオ波形の生成をそれまでの1000倍速くした。だから今では1秒のオーディオの生成に50ミリ秒しかかからない。

この新しいサービスは、すべてのデベロッパーが利用できる。料金表はここにある。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa

AIをクラウドにデプロイする過程を単純化するためにPaperspaceはサーバーレスを選ぶ

GPUベースのインフラストラクチャをサービスとして提供することは、スタートアップにとって容易なことではないが、機械学習やVFXを多用するモダンなソフトウェアの開発とデプロイを目指すクラウドインフラストラクチャサービスPaperspaceは、あえてそれに挑んでいる。そして同社は今日(米国時間3/21)、さらに次の一歩として、AIや機械学習のプロジェクトでサーバーのデプロイを不要にするサービスプラットホームGradientを発表した。

どんなサーバーレスのアーキテクチャでも、サーバーがいなくなるわけではないが、ユーザー(デベロッパー)が手作業でそれらをデプロイする必要はなくなる。Gradientはコードをデプロイする手段を提供し、アロケーションやマネージメントはすべてPaperspaceが面倒見る。それにより、機械学習のモデルの構築に伴う複雑性の、大きな塊(かたまり)を取り除く。

同社の協同ファウンダーでCEOのDillon Erbによると、数年前に同社を立ち上げたときはGPUは今日のクラウドサービスのように一般化していなかった。最初は仮想マシンのGPUインスタンスを立ち上げるやり方が主流で、今でもそうだが、問題はツールの不備だった。

Erbの説明では、大企業はツールセットを内製することが多い。しかし実際には、それだけのリソースを持たない企業がほとんどだ。“GPUなどで十分な計算パワーがあっても、それだけではだめで、ソフトウェアスタックが必要なんだ”、と彼は言う。

同社が昨年1年間を費やして作ったGradientは、デベロッパーにそのための構造を提供し、それにより彼らは、もっぱらモデルやコードの構築と、プロジェクトを軸とするコラボレーションに集中できるようになる。そしてマネージメントは、Paperspaceにまかせる。DevOpsのチームが、チームとコードとその下のインフラストラクチャの間の対話を管理する必要も、なくなる。

“コードとDockerのコンテナだけをいただければ、VMのスケジューリングなどはわれわれがいたします。ご自分でマシンを立ち上げる必要はありません”、とErbは語る。

Paperspaceは、Y Combinatorの2015年冬季クラスを卒業して以来、クラウドにGPUをデプロイするという難題に取り組んできた。2014年にローンチしてから今日までに1100万ドルあまりを調達してきたが、シードラウンドの400万ドルがやっと2016年だった。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa

IBMが“サービスとしてのディープラーニング”をWatson Studioから提供、簡単・易しいを重視

機械学習のワークフローと訓練モデルを作るサービスWatson Studioに今日(米国時間3/19)、新しいサービスDeep Learning as a Service(DLaaS)が加わった。すでに類似サービスもあるこのサービスは、機械学習の最新の進歩を、その難解さの敷居を下げ、企業ユーザーにとって使いやすい形で提供する。

この新しいツールを使うデベロッパーは、彼らがすでに使っているオープンソースのフレームワーク(TensorFlow, Caffe, PyTorch, Kerasなど)を使って自分たちのモデルを開発できる。実際にはIBMのこの新しサービスはこれらのツールを、基本的にクラウドネイティブなサービスとして提供し、デベロッパーはふつうのREST APIを使って、彼らが望むリソースや予算内でモデルを訓練できる。このサービスはコマンドラインインタフェイスと、Pythonのライブラリ、あるいは対話的ユーザーインタフェイスを提供し、それによりたとえば、NvidiaのGPUのどれを使うか、といったオプションを指定できる。

このような、ディープラーニングのための管理を伴う環境(managed environment, マネージドエンバイロメント)は、必ずしも新しいものではない。MicrosoftはAzure ML Studioで、高度なグラフィカルな環境によるMLモデルの構築を提供している。しかしIBMは、いくつかの独自のアドバンテージを主張しており、その中にはドラッグ&ドロップによるニューラルネットワークビルダーなどがある。それは、ノンプログラマーでもニューラルネットワークの構成や設計ができる、というものだ。

さらにIBMのツールでは、ハイパーパラメータがユーザーのために自動的にチューニングされる。これは従来、手作業でやると多くの時間を消費するプロセスであり、科学だけでなく一種のアートの側面も持つ。〔参考: Google Cloud ML Engine, Wikipedia

[原文へ]
(翻訳:iwatani(a.k.a. hiwa

新惑星の発見に貢献したNASA/Googleの機械学習システムAstroNetをあなたも利用できる

おぼえておられると思うが、昨年12月に、NasaのデータとGoogle Brainの脳力を利用する機械学習により、二つの新しい惑星が見つかった。あなたがそれと同じことをやってみたいなら、そのシステムを作ったチームが今日(米国時間3/8)、その天文学的偉業の達成に使われた、AstroNetと呼ばれるプログラムのコードをリリースしたから、試してみたらどうだろう。

NASAのKepler宇宙望遠鏡は、銀河系を何年もかけてスキャンし、惑星サイズのオブジェクトが星の前面にあって、そこだけやや暗くなってるところ(上図)を観察した。

そのデータセットは、機械学習のシステムにとってすばらしい遊び場だ。量が膨大でノイズも多いため、微妙な変異を単純な統計学的方法や人間による精査では見つけることができない。そのような、データの泥沼からおもしろい結果を取り出すためには、畳み込み式ニューラルネットワークが格好のツールだった。

しかし例によってAIは、人間がやった先例に従わなければならない。そのニューラルネットワークは、すでにラベルがついていて惑星か非惑星かを検証されている何千ものKeplerのスキャンデータで訓練された。この訓練されたモデルが、Kepler-90iとKepler-80gの発見に貢献した。

研究者たちによると、プロジェクトのソースを公開したことによってそれがさらに正確になり、研究がもっと早いペースで進み、また新しいデータセットも取り入れることができる、と期待される。ドキュメンテーションを読んでコードをフォークしてみたい人は、GitHubへ行ってみよう。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa

モバイルで写真やビデオの背景を変えて楽しめるGoogleのAIツールがYouTube Storiesに装備

Googleの研究者たちは、人びとが他人を騙(だま)して、今自分は月にいる、と思わせたり、今は昼ではなくて夜だと見せかけることが好きだ、と知っている。しかしそんな楽しいいたずらは、映画のスタジオへでも行って、グリーンのスクリーンの前で撮影しないと実現は難しい。そこで2018年の優秀なプログラマーたちは、自分たちにできることをした: ニューラルネットワークを利用してそれをやるのだ。

その、“ビデオセグメンテーション”(ビデオ切り出し)と呼ばれるツールは、モバイル上のYouTube Storiesで今日(米国時間3/1)から一部のユーザーに展開される。画面上にこのオプションがある方は、おめでとう、あなたはベータテスターだ。

この機能には、さまざまな工夫が盛り込まれているようだ。前景(被写体本体)と背景の境界を見つけなければならないが、それはiPhone Xの前面カメラ配列のような深さ(z軸方向)を感知するカメラと、大量の処理時間と、電池よりも長時間使える電源があれば、朝飯前だ。そう、デスクトップコンピューターを使えばよい。

でも、モバイルでしかもふつうのRGB画像(深さ情報がない)となると、そう簡単ではない。スチルの画像でも難しいのに、ビデオとなるとなおさらだ。コンピューターは、背景検出のための計算を、少なくとも毎秒30回やらなければならない。

そう、Googleの技術者たちも、それをチャレンジと捉えた。畳み込みニューラルネットワークをセットアップし、それを数千のラベル付き画像(その例が右図)で訓練した。

そのニューラルネットワークは、人の頭と肩のような、よくある特徴を検出できるように訓練され、一連の最適化によって、正確な検出のために必要なデータの量を減らしていった。また、前の計算の結果(頭の切り抜きなど)を次のための素材として使うという、一種のコンピューター騙しによって、計算負荷をさらに下げた。

その結果、高速でしかも比較的正確なセグメンテーションエンジンが得られ、ビデオに対しても使えるほどの速度を達成した。GoogleのPixel 2スマートフォンの上では40fps、そしてiPhone 7では100fpsを超えた(!)。

これは多くの人たちにとってビッグニュースだ。背景をなくしたり、入れ替えたりすることは、ツールボックスに常備したい楽しいツールだし、しかも、とても容易にそれができる。そして願わくば、短時間で電池を空にしませんように!。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa

Google CloudがプリエンプティブなGPUをローンチ、料金は50%安

Google Cloudが今日(米国時間1/4)、プリエンプティブなGPUのローンチを発表した。GoogleのプリエンプティブVMやAWSのスポットインスタンスなどと同様に、これらのGPUも相当な低料金で利用でき、しかし preemptibleの名のとおり、Googleがそのリソースを必要とするときにはいつでもシャットダウンされる。ユーザーはそのとき、30秒の警告をもらうだけだ。またこのプリエンプティブGPUは、最大24時間しか利用できない。

使用できるGPUは、Google Cloudプラットホームが今提供しているNVIDIA K80とNVIDIA P100だ。料金は1GPUあたり、K80が1時間0.22ドル、P100が0.73ドルだ。それプラス、VMの料金もあるだろう。その場合の料金もプリエンプティブVMの料金になるが、こちらはGPUのワークロードが終わる(またはGPUシャットダウンの警告が出る)まではシャットダウンされない。

Googleによると、これらのプリエンプティブなGPUは、フォールトトレラントな機械学習など、バッチで処理される計算集約的なワークロードに適している。Googleのマネージドインスタンスグループ機能を併用すれば、ダウンしたあとでもプリエンプティブなインスタンスを自動的に再生成できる。

Googleは今日の発表のわずか数か月前に、通常のGPUを大幅値下げしている。

またGoogleのリリースノートによると、GPUは今ではGoogle Cloudのアメリカ中部リージョンでも利用できる。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa

コードレビューサービスのPullRequestがGoogleのGradient Venturesらから$2.3Mを調達

Y Combinatorの今年の夏季の卒業生PullRequestが今日(米国時間12/7)、230万ドルのシードラウンドを発表した。そのラウンドをリードしたのは、GoogleのAIに特化した新設ファンドGradient Venturesだ。そして、Slack Fund, Fika Ventures, Defy Ventures, Lynett Capital, FundersClub, Joe MontanaのLiquid2 Venturesらがこの投資に参加した。

同社は、コードレビューをサービスとして提供する。今日の高速でアジャイルな開発サイクルでは、コードのレビューがおろそかになりがちだ。同社は、オンデマンドで仕事に応じるコードレビュワーたちのシステムを編成しており、彼らがバグやセキュリティの問題、コーディングのスタンダード、それにパフォーマンスの問題などをチェックする。

それはGoogleのGradient Venturesのミッションとは無縁なようだが、PullRequestのファウンダーLyal Averyによると、同社のロードマップには単なるコードレビューサービス以上のものもあるのだそうだ。

そのプランとは、コーディングという工程にオートメーションを導入して、コードの依存性や、オープンソースのコード片などの、重要なアップデートを自動的に検出することだ。実はSlackが同社のシードラウンドに参加しているのも、依存性を構成するピースがアップデートを要請していることをデベロッパーに伝えるSlackボットで、PullRequestが初めて、このような自動化に取り組んでいるからだ。そのプロジェクトはまだアルファでテスト中だが、同社の今後進むべき方向性を示している、とAveryは説明する。

Averyによると、コードレビューというサービスは、コーディングプロセスに関するデータの量がどんどん増えていくし、またレビュワーに問題がある場合もある。そこで同社は、コードレビューの過程そのものをレビューしスコアをつけて、適正なデータ集合を作らなければならない。彼の見解では、コードレビューが完全に無人化することはありえないとしても、そういうデータ集合を有効活用すれば、よくある一般的な問題なら修正を自動化できる。“最終的には、コードレビューをどこまで効率化できるか、という問題に帰結するんだよ”、と彼は語る。

8月にAveryに会った時点では、同社のレビュワーはおよそ200名、ユーザーは300社だった。それが今日(米国時間12/7)は、ユーザー企業1000社、レビュワー1900名に大きく成長している。

Y Combinatorを卒業したAveryは故郷のテキサス州オースチンに戻り、そこで新たに4名を雇用して社員数は6名になった。今回の資金の用途は、成長の維持と、来月とりあえず社員数を倍増することだ。そしてそこから、新たなスタートが始まる。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa

AWSのSageMakerを使えばふつうのデベロッパーが機械学習のモデルを作れる

クラウドサービスは、ソフトウェアやインフラストラクチャの‘管理’という面倒な部分を取り除いてくれる。今日では、機械学習が多くのデベロッパーたちのあいだで急速に関心を集めつつあるが、AWSはそれのいちばん面倒な部分、すなわち機械学習のモデルの構築とデプロイの過程を、同社のクラウドサービスにより、単純化しようとしている。

そのサービスが、今日(米国時間11/29)のre:Inventカンファレンスで発表されたAmazon SageMakerだ。それは、デベロッパーやデータサイエンティストに、機械学習のモデル制作プロセスを管理するためのフレームワークを提供し、そのプロセスに通常含まれる複雑面倒な部分を取り去る。

AWSのシニア・テクニカル・エヴァンジェリストRandall Huntが、このサービスを発表するブログ記事〔上記リンク〕で、デベロッパーが新しいアプリケーションで機械学習を利用するときのプロセスを加速化するフレームワークを提供することが、サービスの基本コンセプトだ、と言っている: “Amazon SageMakerは、完全な管理を伴う。エンドツーエンドの機械学習サービスであり、データサイエンティストやデベロッパー、それに機械学習のエキスパートが、大規模な機械学習モデルを迅速に構築・訓練・ホストできるようにする”。

またAWSのCEO Andy Jassyは、このサービスを紹介するとき、こう述べた: “Amazon SageMakerを使えば、ふつうのデベロッパーが機械学習のモデルを容易に訓練しデプロイできます”。

この新しいツールには、三つの主要部分がある。

まずNotebook。これはオープンソースの標準的なツールJupyter Notebooksを使って、モデルのベースとなるデータを概観し整理する。この最初のステップは、EC2の標準的なインスタンスを使ってもよいし、もっと厳しい処理要求があるならGPUインスタンスを使う。

データが用意できたら、モデルの訓練を始める。これには、モデルのためのベースアルゴリズムも含まれる。モデルのフレームワークは、TensorFlowなどを自分で持ち込んでもよいし、あるいはAWSが事前に構成したものを使ってもよい。

re:Inventのステージで、JassyはSageMakerの柔軟性を強調した。すぐに簡単に使えるツールとして使ってもよいし、自分のフレームワークを持ち込んでもよい。どちらの場合でも、そしてソースが何であっても、サービスはもっともポピュラーなアルゴリズム向けに調整されている。

Constellation ResearchのVPで主席アナリストのHolger Muellerによると、この柔軟性は両刃の剣だ: “SageMakerはアプリケーションを作るときの作業努力を大幅に減らしてくれるが、そのためにAWSは多くのモデルを無理やり多面的に(polyglot)サポートしようとしている。AWS/Amazonが本当に欲しいのは、多くのユーザーをつなぎとめることと、計算とデータの負荷が大きいことだから”。

彼は、AWSがTensorFlowのような独自のニューラルネットワークフレームワークを提供すべきだ、と主張する。しかしまだ、そんな話はどこにもない。

今のところAmazonは、モデルを動かすために必要なインフラストラクチャのすべてを自前で整え、ノードのエラーやオートスケーリング、セキュリティパッチなどの問題を…フレームワークが何であれ…自分で処理する。まさに、多面的だ。

Jassyによると、モデルが出来上がったらそれをSageMakerから動かしてもよいし、ほかのお好きなサービスを使ってもよい。彼曰く: “これはデータサイエンティストやデベロッパーにとってすばらしいツールだ”。

このサービスは、AWSの無料ユーザーなら無料で利用できる。しかし処理量が一定のレベルを超えたら、使い方やリージョンに応じて課金される。



[原文へ]
(翻訳:iwatani(a.k.a. hiwa

Algorithmiaのプラットホームにより企業が自分たちの機械学習モデルを管理しデプロイできる

Algorithmiaという名前のスタートアップが、オンラインのマーケットプレースを開始しました。何のマーケットプレースでしょう? そう、正解です。アルゴリズム屋だからアルゴリズムに決まっています。そして、デベロッパーたちがここに出品するアルゴリズムは、顔認識や感情分析などなど、機械学習関連のものがとても多かった。

そこで、ML/AIがブームであることに気づいた同社は今日(米国時間11/15)、その方向への次の一歩を踏み出し、データサイエンティストが自分で機械学習のモデルを管理/デプロイできて、社内でモデルの共有もできる、というサービスを立ち上げた。

それは基本的に、MLのモデルを動かすために同社が作ったインフラストラクチャやサービスの一部を利用する、新しいプロダクトだ。Algorithmiaの協同ファウンダーでCTOのKenny Danielが、今日の発表声明で述べている: “Tensorflowがオープンソースでも、そのスケーリングは違う。今ではほとんどすべての研究開発事業に、データの収集とデータの整理、そしてそれによるモデルの構築が伴っている。Algorithmiaはこれまでの5年間を費やして、それらのモデルをユーザーが実際に動かしてみるためのインフラストラクチャを構築してきた”。

この新しいサービスでは、データサイエンティストが自分の好きな言語とフレームワークでモデルを作り、それをAlgorithmiaのクラウド(CODEXプラットホーム)またはオンプレミスのアーキテクチャを使ってホストする。そのために同社は、そのサービスの二つのバージョンを提供している: モデルを同社のクラウドでホストするためのServerless AI Layerと、サービスを任意のパブリックまたはプライベートなクラウドでホストするためのEnterprise AI Layerだ。

クラウドとオンプレミスどちらも、gitを使ってモデルを加えたり、モデルを社内で他と共有したり、パーミッションや認可を扱ったりできる。また、モデルのデプロイに必要なDevOpsのすべても扱う。

ここ数か月同社は、登録したエンタープライズ顧客たちによりこのサービスのベータを行っている。それには、同社のサービスを使って自分たちのモデルをホストしたいと考えている政府省庁もいくつか含まれる。

“Algorithmiaがアメリカの政府省庁に力を与えることによって、そのAI層に新しい能力を迅速にデプロイしている”、とCIAの投資部門In-Q-TelのKatie Grayは語る。“そのプラットホームがセキュリティとスケーラビリティとリソースの見つけやすさを担保するので、データサイエンティストは問題解決に専念できる”。

今年半ばにAlgorithmiaはシリーズAで1050万ドルを調達したが、そのラウンドをリードしたのはGoogleが新たに作った、AIに特化したベンチャーファンドだった。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa

GoogleがTensorFlow Liteのデベロッパープレビューを共有、画像や自然言語処理で試用可

5月のGoogle I/Oで、TensorFlowのモバイルデバイス用のバージョンが発表されたとき、会場のデベロッパーたちはざわめいた。そして今日Googleは、その期待に応えて、TensorFlow Liteのデベロッパープレビューをリリースした。

このライブラリは、スマートフォンや組み込みデバイスで使う軽量級の機械学習ソリューションを作ることがねらいだ。Googleはそれを、TensorFlowのモバイルに向けての進化と呼び、今日からそれを、AndroidとiOS両方のアプリデベロッパーが利用できる。

開発の主眼はモデルの訓練よりもむしろ、非力なデバイス上での、モデルからの推論の短時間化におかれている。ふつうの言葉で言えばTensorFlow Liteは、モデルにすでにある(学習済みの)能力を、与えられた新しいデータに適用することがその主な目的であり、データから新しい能力を学習することは、多くのモバイルデバイスにとって、荷が重すぎるのだ。

TF LiteをTFの部分改作ではなくスクラッチから作ったのは、その軽量性を徹底すること、そして素早く初期化され、さまざまなモバイルデバイス上でモデルのロードも素早いことをねらったからだ。TensorFlow Liteは、Android Neural Networks APIをサポートする。

今回は完全なリリースではないから、今後まだ、いろんなものが加わってくる。現状のTensorFlow Liteは、Googleによると、視覚処理と自然言語処理のいくつかのモデル、MobileNet, Inception v3, Smart Replyなどを使える状態だ。

TensorFlowのチームは、こう書いている: “このデベロッパープレビューでは、われわれは意図的に限られたプラットホームでスタートし、もっとも重要でよく使われる一部のモデルでのパフォーマンスを、確実にしたいと考えた。われわれの計画では、将来の機能拡張はユーザーのニーズに基づくものにしたい。われわれの開発の目標は終始一貫してデベロッパー体験の単純化にあり、さまざまなモバイルおよび組み込みデバイスでモデルをデプロイできるようにしたい”。

関心を持たれたデベロッパーは、TensorFlow Liteのドキュメンテーション読んで、その霊に取り憑かれてしまおう。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa

機械学習の良質なモデルは各ドメインエキスパートが作るべき、Piensoは非技術者がモデルと対話できるツールを提供

機械学習のエキスパートはもちろん機械学習技術に貢献する、しかしプログラミングとは無縁な、世の中のそのほかの分野のエキスパートたちも、逆に、機械学習のモデル構築には役に立つはずだ。

そこでMITから生まれたスタートアップPiensoは、機械学習のモデルの訓練を技術者以外の人にもできるようにして、人材のいない企業などが、さまざまな分野のエキスパートたちが持つ良い知識や情報を利用できるようにしたい、と考えた。

“機械学習のエキスパートでないドメインエキスパート(各分野の専門家)をモデルに埋め込んで彼らの専門知識を利用するにはどうしたらよいか”、これがCEO Birago Jonesの言うPiensoの問題意識だ。

ブルックリンに拠を置く同社は今日(米国時間11/6)、Eniac Ventures率いるシードラウンドにより210万ドルを調達した。参加した投資家は、SoftTech VC, Indicator Ventures, E14 Fundなどだ。同社はこのお金でチームを増員し、また顧客ベースを拡大したい、と考えている。

同社のメインのプロダクトIntelligent Development Environmentは、モデルの構築者と利用者を結びつけるソリューションで、その主要機能であるLensを使って非技術系の人びとが機械学習のアルゴリズムと対話できる。

常時、大量のデータ集合を抱える企業は、機械学習によってそれらの意味や傾向等を取り出すことが可能だが、そのためにさまざまな分野のエキスパートを起用するのはコスト的に難しい。Piensoがねらうのは、このようなhuman-in-the-loop問題を解決することで、求める人間的力(判断やフィードバック)がすでにモデルに反映されている、という状態を作り出す。

Jonesはこう言う: “研究者やアナリストなどの知識労働者に、コンピューターサイエンスや高度な統計学の知識能力がない、というケースの方がむしろ多い。だから、彼らの専門知識を、誰かが機械学習のモデルへ入力しなければならないが、そうすると今度は、ニュアンスやコンテキスト、デテールなどがその過程で失われてしまうことが多い”。…だから、各分野のドメインエキスパート自身に、モデルへの入力をしてもらおう、というのだ。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa

Google Cloud Platformにさらに強力な(二機種めの)Nvidia GPUのサポートが加わる

Google Cloud Platform(GCP)が今日(米国時間9/21)、Google Compute Engineに、Nvidiaの強力なGPUのサポートを加える、と発表した。

同社はすでにNvidia K80 GPUをサポートしているが、今回はNvidia P100 GPUのインスタンスが新たな長期料金体系(sustained pricing model)によりベータで加わる。

機械学習のワークロードを抱える企業にとっては、クラウドでGPUを利用できれば、分単位の料金制でも柔軟な利用が可能だ。しかし長期料金制なら、一定の長時間、最大30%の割引料金で利用できる。言い換えると、(額が最初からわかっているので)月末になって巨額な請求にびっくり仰天することはない。

そしてGoogleの主張によれば、この方式によりベアメタルに近いパフォーマンスを享受できる。GPUサポートを発表するブログ記事で、Googleはこう言っている: “クラウドのGPUは、ベアメタルのパフォーマンスを得るために提供される便宜である。それは1 VMあたりP100が最大4、K80なら最大8となる(K80のボードは最大4で、一枚あたり2 GPUだ)”。

GPUのワークロードは仮想マシンで直接動かしてもよいし、コンテナに収めてもよい。下図のように、サービスは世界の4つの場所から提供される:

Screenshot 2017-09-21 12.28.20.png

地図提供: Google

Googleが想定しているこのサービスの主な用途は、遺伝子研究や金融工学、機械学習のモデルの訓練と推断など、さまざまな計算集約的なタスクだ。二種類のGPUが提供されるため、ワークロードの特性に応じて速度と料金の適正な均衡をユーザーは実現できる。このGPUクラウドの初期の顧客Shazamは、その音楽同定(音→曲名アーチスト名)サービスに利用している。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa))

両義的な文の機械翻訳で正しい訳語をガイドするGoogleのTransformerシステム

機械学習が翻訳にも大きく貢献することが実証されてきたが、弱点もある。たとえば翻訳モデルには、逐語主義(一語々々仕事をしていく)という性癖があり、それが深刻なエラーに導くこともある。Google Researchの今日(米国時間8/31)のブログ記事が、この問題の性質と、それに対する解決方法を詳述している。

同社の自然言語処理の部署にいるJakob Uszkoreitが、問題をうまく説明している。次のような二つのセンテンスがあるとしよう:

I arrived at the bank after crossing the street.

I arrived at the bank after crossing the river.

もちろん、これらの“bank”の意味は同じではない。でも、その意味はセンテンスを最後まで読まないと分からないから、アルゴリズムはこの語を拾ったとき間違った訳を与えるかもしれない。いろんな文章を注意して読むと、このような曖昧性は至るところにあることに気づく。

ぼくならセンテンスを書き換えるが(StrunkとWhiteはこれについて警告している)、もちろんそれは翻訳システムの能力にはない。また、このような曖昧なケースのすべてに対応できるように、ニューラルネットワークの振る舞いを変えることも、たいへんすぎて非現実的だ。

Googleのソリューションは、Attention Mechanismと呼ばれる。同社はそれを、Transformerと名付けたシステムへ実装した。それはセンテンス中の各語をすべてのその他の語と比較して、お互いのあいだにどれぐらい重要な影響関係があるか調べる。たとえば、“he”が話しているのか、“she”が話しているのか、それとも“bank”のような語に特別の意味があるのか…。

訳文を構築するとき、Attention Mechanismは各語を、他のすべての語の末尾につけた形で比較する。下のGIF画像は、その様子を表している。…ある程度はね。

今週のこの記事〔未訳〕を読まれた方は、すでにAttention Mechanismの用例をご存知だろう。その記事では協同ファウンダーが、この問題にはいちばん苦労した、と言っている。そして、Googleのポストが参考にしているコーネル大学のペーパーも教えてくれた。もちろん、Googleがそのペーパーの記述を模倣しているわけではない。しかしDeepLの実装はとても効果的で、Googleのよりも良いかもしれない。

Googleのやり方には、面白い副作用があって、システムのロジックをのぞき見できる: Transformerは各語に、すべてのほかの語との関連性をスコア(得点)で与える。下図では色の濃淡がスコアだが、左のセンテンスではitはanimalとの関連性が濃く、右のセンテンスではitはstreetとの関連性が濃い: 〔tired(疲れている)のはanimal、wid(広い)のはstreetだ〕

これは、うまいやり方だよね。少なくともぼくは、そう思う。この例では“it”がstreetかanimalかに関して曖昧性があり、最後の語を知らないとどっちが正しいか分からない。人間は教わらなくても分かるが、機械には、何でも教えなければならないのだ。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa))

AI対AIやAI対人間を“戦わせる”ことでイノベーションを喚起するNIPSカンファレンスのコンテスト

ちょっとした競争心が、イノベーションのきっかけになることがある。そこでNeural Information Processing Systems(NIPS)カンファレンスは、競争するAIシステムを今年のテーマにした。そして、人が歩くときの筋肉の動きを模倣するシステム、雑学クイズ・チャンピオン、画像の微妙な操作など、さまざまなテーマで競い合うことになった。

NIPSの今年のこの新しい企画には23種の‘競争するAI’がテーマとして提案され、最終的に5つに絞られた。カンファレンスが行われるのは12月の初めだが、どれも、片手間で簡単に作れるようなシステムではないので、戦いは今からすでに始まっている。どのテーマもすでに、応募作は相当多い。

コンテストは一つ々々が独立していて、スポンサーが付いたり、賞金が出るものもある。

走ることの学習: これはたぶん、視覚的にいちばんおもしろいコンテストだろう。このシステムは人間が歩く動作をするときの、脳による筋肉と骨のコントロールを模倣する。生理学と物理学のシミュレーションだが、滑る床や階段、弱い筋肉、といった障害も設定されている。目標は歩き方を知っているAIを作るだけでなく、脳性麻痺の人に手術をした場合、歩き方にどんな影響が現れるか、といった問題意識もある。コンテストの詳細はスタンフォード大学のニュースリリースにあり、リーダーボードのGIF画像がなかなかおもしろい。AmazonがAWSのクレジット3万ドルぶんを賞金として提供している。

NNの敵対的攻撃と防御(Adversarial Attacks and Defenses): 私たちはすでに、画像を認識するニューラルネットワークをあちこちで見ている。それらは人間の顔や、猫、風景などを認識する。それらは、あらゆる種類の低レベルデータに対する独特のロジックで動くから、その判断を騙して、まったく違うものに認識させてしまうことも可能だ。もちろん、画像そのものを別のものに変えたりはしない。このコンテストは、NNを騙す悪役と、それに対する防御を作品として募集する。〔訳注: この項については、Google検索やWikipediaなどで、Generative Adversarial Net, GANを勉強すると、理解できると思います。〕

人と会話できるAI: このコンテストの目標は、できるかぎり人間のように振る舞えるAIを作ることだ。ボットと人間が対面して、両者に、最新のニュースやWikipediaの記事などを読ませ、それについてなるべく長く会話をする。応募作品に制限はないが、最優秀のボットが12月のNIPSに出場する。優勝賞金は1万ドルだ。チャットボットの進化に前から関心のあるFacebookが、“プラチナスポンサー”になり、本誌TechCrunch DisruptのStartup Battlefieldに出たMaluubaが、“シルバーパートナー”になる。それらの意味は、よく分からないけど。

人間対コンピューターのQ&A: このコンテストの応募者は、小型のWatsonを作る。そのWatsonは、Jeopardyで人間を負かしたときのバージョンぐらいの実力が必要だ。システムは一回に一つずつ、クイズのような質問を与えられ(例: ローマ帝国の第四代の皇帝は誰か?)、人間よりも早く、少ない語数で…もちろん正解を…答えたらポイントをもらう。NIPSで、人間とコンピューターの決戦を見ることになるだろう。“エキシビションマッチで人間チームと対戦するときのシステムの組み合わせは、出場者(システムの作者)が決めてよい”そうだ。

遺伝子突然変異の臨床的応用性のある分類法: 癌の悪性腫瘍を生じさせている遺伝子と、それらの腫瘍を破壊する遺伝子が分かったら、癌の拡大を防げるかもしれない。でもそれは、専門家たちによる、難しくて時間のかかる研究開発過程だ。しかし、もしも、何千もの遺伝子突然変異に関するそれら専門家たちの注記注釈にアクセスできたら、ニューラルネットワークを使った機械学習に出番があるかもしれない。すくなくとも、今後の研究対象を絞り込むぐらいは、できるのではないか。優勝賞金1万ドルは、Memorial Sloan Kettering Cancer Centerが提供する。すでに、685の応募作が寄せられている!

コンテストの結果が分かるのは12月だが、作品の応募だけでなく、議論に加わることは今からでもできる。参加は、自由だ。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa))

Apple、機械学習研究サイトを開設

Appleは機械学習に関する研究論文と同社の発見を共有するための専用ブログを開設した。Apple Machine Learning Journalと名付けられたそのサイトはまだガラガラで、ニューラルネットワークの訓練のために合成画像をリアル化することに関する記事が1件あるだけだ。

この動きは興味深い。なぜならAppleは自社の研究プロジェクトについて何も語らないのが普通だからだ。これまでにAppleはいくつか重要なオープンソースプロジェクトに貢献し、Safariを動かしているブラウザーエンジンであるWebKitや、Appleの最新プログラム言語でiOS、macOS、watchOSおよびtvOSに使われているSwiftなども開発している。しかし、人工知能プロジェクトに関する研究論文を掲載するブログは、Appleとしては新しい試みだ。

これはいくつかの理由で興味深い。第1に、この研究論文はすでにarXivで公開されている内容だ。今日のバージョンは同じものを少しやさしい言葉で書き直している。結果を図示するためのGIFも追加されている。

この論文によると、Appleは写真に写った顔などの物体を認識するためにニューラルネットワークを訓練する必要があった。しかし、そのために何億枚もの写真ライブラリーを作る代わりに、Appleはコンピューター生成画像を合成し、本物らしく見せるフィルターをかけた。こうしてニューラルネットワークの訓練を速く安価に行うことができた。

第2に、Appleはサイト開設の挨拶文で、フィードバックをメールするよう読者に呼びかけている。さらにページの下にはAppleの求職情報へのリンクが大きく表示されている。Appleがこの場を利用してこの分野の有望なエンジニアを探そうとしていることは明らかだ。

第3に、機械学習に関しては多くの人がAppleを批判し、GoogleやAmazonの方が進んでいると言っている。そしてAppleに動きがなかったのは事実だ。GoogleのアシスタントやAmazonのAlexaなどの消費者向け製品はAppleのSiriよりずっと優れている。

その一方でAppleは、端末上のフォトライブラリーの解析や、iPhone 7 Plusの深度効果、ARkitによる拡張現実への取組みなどでは大きな成果を見せている。Appleはこれまでの評価を一新しようとしている。

[原文へ]

(翻訳:Nob Takahashi / facebook