スマートカメラ、Google Clipsレビュー――機械学習が人、イヌ、ネコ、ウサギを自動認識する

今日(米国時間2/27)、GoogleからClipsが登場した。これはGoogleによれば「スマート・カメラ」だ。セキュリティーカメラでもないし、アクションカメラでもない。そういう用途ならすでに多数の製品が市場に出ている。シンプルで親しみやすい外見の内部にはきわめて高度かつ洗練されたテクノロジーが詰め込まれている。Clipsは見たところInstagramのアイコンのようなデバイスだが、妖精が魔法の杖を一振りして自ら撮影する現実のデバイスに生まれ変わらせたとでも言おうか。まったく新しいカテゴリーのカメラだ。

このカメラが最初に紹介されたのはPixel 2が発表された昨年のプレスイベントだ。このときGoogleは「設定したら後は忘れていい」ようなお手軽デバイスだとしていたが、現実の製品は非常に高度なものだ。Clipsは日常生活の中で、普通なら見逃され、したがって撮影されることもない瞬間を捉えるためのカメラだ。人工知能と機械学習を組み合わせたシステムが人物やペットを個別に認識し、記録すべき瞬間を判断する。

AIとMLのコンビネーションはすべてオンボードで、つまりカメラ内で作動する。データがGoogleのクラウドに送られることはない。これにより処理がリアルタイムとなる上にプライバシーも守られる。撮影された内容はユーザーが転送しないかぎりカメラの外に出ることはない。

これは小さな子どもの両親には特に興味あるプロダクトだろう。始終カメラやスマートフォンを手にしていなくてもClipsが子どもたちのかわいい瞬間を記録してくれる。ただしその価格は249ドルだ。

レンズは固定焦点

Clipsをできるだけシンプルなものにしようと大変な努力が払われたようだ。その結果、写真のようなミニマリスト的デザインとなった。サイズは1辺5センチの正方形で、レンズは固定焦点だ。レンズ部分をひねるとオンになる。本体に内蔵された3つのライトが光って撮影中であることを示す。Googleによれば、これは周囲の人々に「これはカメラであり撮影中だ」ということを知らせるためのデザインだという。なるほどこの筐体はカメラのマンガのようなデザインだから始めて見たら本物のカメラだと気づかない人もいるだろう。

レンズの下にはタッチセンサー式のボタンが内蔵されている。これはこのデバイスで唯一のボタンでシャッターの役割だ。おそらくベータ版をテストしているときにユーザーからの要望で後付けしたのだろう。このシステムは機械学習で自動的に撮影すべき瞬間を決定するというのがセールスポイントだが、ときには人間が介入したくなることもあるはずだ。

本体底部にはUSB-Cポートが1つありバッテリーを充電できる。システムをリセットするためのピンホールも設けられている。本体裏側にはGのロゴ以外はなにもない。液晶モニターもファインダーもない。これは操作をシンプルにすると同時にバッテリー駆動時間を伸ばすためだという。

Clipsを設置する位置やアングルはユーザーが直感的に決める。固定焦点レンズなのであまり多彩なことはできない。Googleは撮影対象から1メールから2.5メートル程度となる位置を推奨している。Clips専用のアプリ、Live Previewを使えば、カメラが何を写しているか確認することができる。もちろんClipsは水平な場所に置くほうがよい。

すべてはリバーに流れる

Clipsの使い方はシンプル過ぎるほどシンプルだ。デフォールトで7秒の動画が撮影される。Googleはこれをclipと呼んでいる。今は無くなってしまったが、TwitterのVineを使ったことがあるだろうか? あれと同じようなものだ。Apple Live PhotosやGoogle自身のMotion Photosにも似ている。

キャプチャーされたビデオはまず静止画として一列にリバー表示される。静止画をスクロールすると動画になり7秒が再生される。

タップすれば静止画もビデオも編集可能だ。Clipは一連の静止画として記録されているのでどの瞬間でも編集できる。Photoオプションを利用して気に入った1枚を選び、jpeg画像にして保存することが可能だ。ビデオについてはトリミングして長さを調整するオプションがビルトインされている。

ML―機械学習

Clipsではときおり右上隅でアイコンが点滅する。これは「Clipsのおすすめ」を意味し、システムが「よく登場する人物やペット」を認識したというサインだ。この機能を使いたい場合はデバイスをGoogleフォトに接続し、顔認識情報を取得する必要がある。

Clipsはそのままでも人物の顔を素早く認識できるが、テストしてみたところでは当たり外れが激しかった。現在のところClipsのMLは人間、犬、ネコを認識するようトレーニングされているという。

ついでに言えば、ビデオでわかるとおりClipsはウサギもきちんと認識する。搭載AIの機能はあまりに複雑でGoogleの開発チームもなぜウサギをうまく認識できるのかはっきりした説明はできないようだ。たとえばこの機械学習は「4つ足で立つ」という特徴を探すようトレーニングされているが、ウサギはあまりそういう姿勢を取らず、後足を畳んで座っていることが多い。しかしGoogleの人工知能はこういう障害を乗り越えた。Clipsでペットのウサギを撮りたいユーザーには朗報だ。

完璧な1枚

Clipsはここぞという瞬間をなかなかうまく捉えてくれる。もちろん完璧というわけにはいかない。完璧な1枚を選ぶにはやはり人間の介入が必要だ。Clipsは膨大な枚数の写真を撮影するが、ユーザーが友達などに公開するのはほんの一部だろう。

デバイスの内蔵ストレージは16GBあるので1080ピクセルで7秒間のビデオなら相当多数が記録できる。ビデオを削除して場所を空ける必要が出てくるのはだいぶ先だ。バッテリーは連続3時間の撮影ができる。動きを認識しない時間が続くと自動的にスリープモードに移行する。

1080ピクセルのビデオからの静止画は普通のスマートフォンのカメラで撮影した写真程度の画質だ。ということは暗い場所は苦手で、彩度が下がって全体にグレーになり、動く対象はぼやける。彩度やホワイトバランスはカメラが自動的に設定する。専用アプリからでも設定の変更はできないが、この程度のカメラの場合、人間が操作できるようにすると、Googleが狙っている操作のシンプルさに反するし、かえって画質を下げることになる可能性が高い。

価格は安くはない…?

以前私はセキュリティーカメラを家に設置したことがあったが、 結局アラートの通知を切ってしまった。間違いアラートが多すぎたからだ。たとえ私が地球の裏側にいても、家でウサギが動くたびにアラート送られてくるのがうるさすぎた(その後メーカーは人間と動物を識別する機能を付け加えた)。

Clipsが試みているのはその反対のシステムで、テクノロジーによって興味ある瞬間を自動的に記録しようとしている。人間がスマートフォンやアクションカメラなどのテクノロジーによって縛られないようにすることを目指すテクノロジーだ。いくぶん奇妙であり野心的な目標なのでメインストリームでユーザーを見つけるまでにはしばらくかかるかもしれない。

上で触れたように小さい子どもの両親は大きくなりすぎないうちに、かわいい写真をできるだけたくさん撮っておきたいだろう。犬、、ネコ、ウサギのオーナーにも魅力的なデバイスだ。Clipsを利用すればソーシャルメディアで人気が出そうな写真を簡単に大量に撮れる。ただしそのための価格は249ドルとなる。

〔日本版〕日本のGoogleストアにはまだ情報がない。

[原文へ]

(翻訳:滑川海彦@Facebook Google+


【以上】

MIT発のスタートアップFeature Labsは機械学習アルゴリズムの開発を加速する

MITで始まった研究にルーツを持つスタートアップのFeature Labsは、データサイエンティストたちが機械学習アルゴリズムをより迅速に構築することを支援する一連のツールを、本日(米国時間2月22日)正式にリリースした。

共同創業者兼CEOのMax Kanterによれば、同社はデータサイエンティストたちにしばしば手作業を強いて時間のかかる「特徴量設計(feature engineering)」を自動化する方法を開発したのだと言う。「Feature Labsは、企業がインパクトのある機械学習プロダクトを企画し、実装し、そして何よりも大切なことですが、デプロイすることを支援します」とKanterはTechCrunchに語った。

「Feature Labsは、機械学習アルゴリズムの実行に使う生データから、ドメイン知識を使って新しい変数を抽出するプロセスである特徴量設計を自動化した点が独創的なのです」と彼は付け加えた。

同社は、”Deep Feature Synthesis”と呼ばれるプロセスを使用して、これを実現している。これは例えばウェブサイトの訪問回数や放棄されたショッピングカートアイテムといった生の関連するトランザクションデータ・セットから特徴量を生成し、自動的にそれを予測シグナルに変換するのだ、とKanterは説明した。

これは、現在の時間がかかりエラーが発生しやすい、人間主体のプロセスとは大きく異なると彼は述べている。自動化された特徴量設計は、データサイエンティストたちが手作業で作成したものと同様の変数を提供するが、準備作業に沢山の時間を割く必要がなくなるため、遥かに作業が効率化される。「データサイエンティストたちにこの自動化されたプロセスを提供することで、彼らは予測する必要があるものを見つけ出すことに、より多くの時間を費やすことができるようになります」と彼は言う。

写真: Feature Labs

同社はこれを、幾つかの方法を通して実現している。まず最初に、同社はFeaturetoolsというオープンソースのフレームワークを開発した。これは、開発者たちがFeature Labsのツールセットを使い始めるための手段を提供するものだ。Kanterによれば、開発者たちはこれらのツールを使用して、小さなプロジェクトを構築して、アルゴリズムを使うことに慣れることができると語る。彼は「この提供の目的は、開発者たちに、新しい機械学習問題に対して自動特徴量設計を適用する実験を行う機会を提供して、私たちのビジョンを共有することです」と会社の発足を発表したブログ記事に書いている。

とはいえ、ある企業が実験段階を超えて、プロジェクトを拡大しようとしたときには、彼らはFeature Labsの商用製品を購入する必要がある。製品は顧客の必要に応じてクラウドもしくはオンプレミスの形態で提供される。初期の顧客には、BBVA Bank、Kohl’s、NASA、そしてDARPAが含まれている。

同社はまた、実際には昨年の3月にクローズした150万ドルのシードラウンドも発表した。このラウンドは、First Star Venturesと122 West Venturesから参加し、Flybridge Capital Partnersが主導したものである。

Feature Labsの製品は、Kanterと彼の共同創業者Kalyan VeeramachaneniとBen Schreck(MITのComputer Science and AI Lab(CASL)所属)による研究に基いているものだ。同社のアイデアは2015年に形を取り始め、ここ数年は初期顧客を相手にどの製品を洗練させていた。このことによって本日の発表にたどり着いたのだ。

[原文へ]
(翻訳:sako)

アルゴリズムによるゾーニングは、より安い住居と公平な都市への鍵となるか?

米国のゾーニングコード(都市の地区にコードを割り当て、そこに建築できる施設を規制する制度)の歴史は1世紀に及ぶ。そしてそれは、米国のすべての主要都市( おそらくヒューストンを除く )の生命線であり、何をどこに建築できるのか、近隣では何を行うことができるのかを決定するものだ。だが現在、研究者たちが、その複雑さが増してきたことを受けて、都市空間を合理化するための現在のルールベースのシステムを、ブロックチェーン、機械学習アルゴリズム、そして空間データにに基く動的システムで置き換えることができるかどうかの探究をさらに進めている最中だ。おそらくそれがこの先100年の都市計画と開発に革命を起こすだろう。

これらの未来のビジョンは、都市と都市ガバナンスの改善を現在のキャリアの中心に置く、2人の研究者であるKent LarsonとJohn Clippingerとの会話の途中で触発されたものだ。LarsonはMITメディアラボの主任研究者であり、シティサイエンスグループのディレクターである。そしてClippingerはヒューマンダイナミクスラボ (メディアラボの一部でもある)の客員研究員であり、非営利組織ID3の創設者でもある。

米国の主要都市が現在直面している最も困難な課題の1つは、過去数十年に渡って急騰してきた住宅価格である。このことによって、若年層や高齢者たち、単身者や普通の家族世帯の予算に信じられないような負担がかかっている。たとえばサンフランシスコエリアの1ベッドルームのアパートの平均は3400ドルであり、ニューヨークでは3350ドルである。こうした事情から、これらのイノベーションのメッカは徐々に、アーティストや教育者たちはもちろん、余裕のあるスタトートアップの創業者たちにとってさえ手の届かない場所になりつつある。

しかし、住宅だけでは、現代の知識経済労働者たちを十分に満足させることはできない。そこにはいつでも、素敵で安価なレストラン、広場、文化施設、そして食料品店、ドライクリーナー、ヘアサロンなどの重要な生活サービスに至る十分な近隣の環境アメニティが期待されているのだ。

現在のゾーニング委員会は、様々な開発案件の許可プロセスの一部として、必要な施設が単純に含まれるようにしているだけだ。このことは食糧砂漠や、興味深いいくつかの都市部における魂の喪失につながっている。しかし、LarsonとClippingerの思い描く世界では、ルールベースのモデルは、トークンと呼ばれるものを中心にした「動的な自律制御システム」にとって替わられることになるだろう。

すべての都市の近隣地域は、人生の目標が異なるさまざまなタイプの人たちで構成されている。Larsonは、「私たちは、どのような人たちがここで働きたいか、どのような施設が必要とされるかに関する様々なシナリオをモデル化することができます。そしてそれはアルゴリズムとして数学的に記述することが可能です、そのことでリアルタイムデータに基く人びとのインセンティブを、動的に計算することができるようになります」と説明した。

基本的アイデアは、まず移動時間、個別経済状況、各種施設スコア、そして健康状態、その他多くのデータセットを集め、機械学習に投入することで、近隣の住民の幸福度を最大化しようとするものだ。ここでトークンは、幸福度を改善するために、コミュニティに追加すべきものや、取り除くべきものを表すマーケットに対して、意味を与える通貨の役割を果す。

豪華なマンションの開発者は、建物が重要なアメニティ施設を提供していない場合は特に、トークンを支払う必要があるかもしれない。その一方、所有物件をオープンスペースに転用する他のデベロッパーは、既にシステムに対して支払われたトークンを全額補助として受け取ることになるだろう。「トークンの意味を単一の価格体系にまとめてしまう必要はありません」とClippingerは言う。その代わりに「フィードバックループを使用することで、維持しようとしているダイナミックレンジがあることがわかります」と語る。

このシステムベースのアプローチを、現在私たちが抱える複雑さと比較してみて欲しい。建築と都市計画に対する嗜好が変わり、デベロッパーたちが盲点を発見するたびに、市議会はゾーニングコードを更新し、更新の上に更新を重ねてきた。ニューヨーク市の公式ゾーニングブックは現在、4257ページの長さになっている(警告:83MBのPDFファイルだ)。これが目指しているポイントは、美しく機能的な都市の見え方を合理的に導くことだ。その複雑さは大きな影響を生み出しロビー業界を栄えさせた、そしてEnvelopeようなスタートアップがその複雑さを扱おうと努力を重ねている。

システムベースのアプローチはこれまでのルールは放棄するが、変わらず良い最終結果を求めている。しかしLarsonとClippingerはさらに一歩進んで、住居自体の購入も含め、地元の近隣経済のすべてにトークンを統合したいと考えている。そのようなモデルでは「あなたは参加権を持っているのです」とClippingerは言う。たとえば、地元の公立学校の教師や人気のあるパン屋は、隣人とはあまり交流のない銀行家とは、近隣のマンションに同じ金額を支払う必要はなく、アクセスすることができるだろう。

「財政的利益のために最適化する代わりに、社会的利益、文化的利益、環境的利益を最適化できる代替案を作ることは、素晴らしいことではないでしょうか」とLarsonは語る。社会性のある行動は、トークンシステムを通じて報酬を受けることができて、活気に満ちた近隣を生み出した人びとがその一部として残り続けることができるようになる。一方新しい人たちにも転入のチャンスが与えられる。これらのトークンは、都市間でも相互に利用できるようになる可能性がある、そうなれば、ニューヨーク市への参加トークンによって、ヨーロッパやアジア地域にアクセスできる可能性も出て来る。

もちろん、これらのシステムの実装は簡単ではない。数年前のTechCrunchで、Kim-Mai Cutlerは、これらの課題の複雑性を深く分析した記事を書いた、その中では、許可プロセス、環境レビュー、地域社会の支持や反対などと共に、自治体のリーダーたちにとって住宅の建築や開発を、最も扱いにくい政策問題にしている、基本的な経済性について述べている。

2人の研究者によれば、少なくとも複数の都市が、都市計画に対するこのアルゴリズムベースのモデルの試行に強い興味を示しているということだ。その中にはバルセロナや韓国の複数の都市が含まれている。これらのすべての実験の中心にあるのが、古いモデルは今日の市民のニーズにはもはや十分ではないという考えだ。「これは根本的に異なるビジョンです…ポストスマートシティですね」とClippingerは述べた。

[原文へ]
(翻訳:sako)

FEATURED IMAGE: NICKY LOH/BLOOMBERG/GETTY IMAGES

Googleが、返信案を自動的に提案するSmart Reply機能をすべてのチャットアプリに提供?

賢いAI技術を利用して、自動的に受信メッセージへの応答を作成するSmart Replyは、まず最初にGoogleの電子メールクライアントであるInboxに2年以上前に登場し、その後Gmail、プロジェクト FiのAndroid Messages、そしてAlloに展開された。そして現在、Googleの社内インキュベーターであるArea120に所属するあるチームが、Smart Reply機能を他のチャットアプリに持ち込むことに取り組んでいる。

新しく発表されたプロジェクトは単に「Reply」と呼ばれ、Web上のReplyのサインアップフォームによれば、最初はAndroidユーザーだけに提供されるようだ。

(電子メールでテスターに配られた)Replyの発表に含まれていたスクリーンショットには、Google HangoutsとAndroid Messagesで動作するReplyの様子が示されていた。ここでは、「いまそのレストランにいるの?」とか「家まであとどれくらいで着くの?」といった質問に対する返信案が提示されている。

これらの返信では、現在のユーザーの位置に入れられて、正しい回答を組み立てる手助けがされる。例えば、どこかに着いたかどうかに対しては「yes」または「no」を、あるいは特定の場所に車で到着するのに、後どれくらいかかるかなどだ。

Android Messagesは既に、限定的ながらもSmart Repliesを公式サポートしていることは指摘しておこう。また先月Googleは、その携帯電話向けサービス、Project Fiのユーザーたちに向けて、Smart Replyの追加を発表した。しかしこの機能は、Android Messageユーザー全員にはまだ公開されていない

とはいえ、ReplyはGoogle自身のメッセージングアプリだけを狙ったものではない。

このプロジェクトに関するArea 120の発表によれば、Hangout、Allo、WhatsApp、Facebook Messenger、Android Messages、Skype、Twitter DM、そしてSlackなどを含むさまざまな主要チャットアプリの中で、Replyの提供が予定されている。

このArea 120のプロジェクトは、それらのチャットアプリからの通知に対応して、返信案を提示する。しかし、念を押しておくが、Replyは独自のスタンドアロンアプリを提供していない。これは単に受信メッセージに対して返信する方法の1つに過ぎないのだ。

Replyには、他のさまざまな自動機能も含まれている。運転しているときに電話をサイレントにしておき、メッセージを送ってきた人に現在チャットできないと通知する”Do Not Disturb”モードや、受信者のカレンダーをチェックして休暇中かどうかを返信するVacation Responderなどがある。

また、緊急時やさらに重要なメッセージが来た場合には、Replyは携帯電話のサイレントモードを突破することができる。例えば「もうみんな待っているよ!」というメッセージが届いた場合には、Replyはあなたの注意を引き、返信するかどうかを尋ねてくる。

このプロジェクトは、Area 120の他のすべてのプロジェクトと同様に、Googleの全体的な開発とは無関係だ。つまり、Googleのメッセージング活動には直接結びついていないということである。

開発サイクルのとても早い段階でもあるため、Replyがすぐにリリースされることを期待することはできない。

しかし、このプロジェクトの背景にあるアイデアは非常に有望だ。Smart Replyは、Gmailの最も便利な機能の1つになっている。特に、受信メールの多い人や、返信を打つのが厄介な外出時に沢山の電子メールに答える人にとって便利である。おそらくはAndroidユーザーだけに対して、似たような技術をさまざまなアプリへ提供することは、一部のユーザーたちに、iOSよりもAndroidを選ばせる動機にはなるだろう。あるいはSmart Replyの便利さを知った人たちを、Gmailへと誘導することもできるだろう。

Googleは実験が実際に行われていることは認めたが、Area 120でReplyを開発しているチームや、発表の日程に関しては語らなかった。

「Area 120で取り組んでいる多くのプロジェクトの1つが、様々なチャットアプリからの通知にスマートな返信を提案してくれるReplyです」とGoogleの広報担当者は語った。「Area 120の他のプロジェクトと同様に、これは非常に初期の実験なので、今すぐ共有できる詳細はあまりありません」。

[原文へ]
(翻訳:sako)

FEATURED IMAGELDPROD/SHUTTERSTOCK

Google、カスタムTPUマシン、アルファ版公開――クラウドで機械学習を加速

GoogleのTPU(Tensor Processing Units)は、TensorFlowフレームワークによる機械学習を効率的に実行するために独自に開発されたカスタムチップだ。このTPUがアルファ版であるものの、クラウド利用できるようになった

Googleがデザインしたチップは、一部の機械学習のワークフローを他社の標準的GPUよりもはるかに高速にを処理できるという。このTPUの消費電力が少ないことはGoogle側にとって重要なポイントだろう。デベロッパー側は消費電力などあまり気にかけないだろうが、Googleにとってデータセンターへの電力供給は大きな課題だ。また利用料金の引き下げにもつながる。

Googleは9ヶ月前のI/Oデベロッパー・カンファレンスでクラウド上でTPUを利用できるようにすると発表していた(このとき一部のデベロッパーに限定してアクセスを許可)。 それぞれのCloud TPUは4基のASICと64GBの広帯域メモリーを備える。Googleによれば、1つのTPUボードのピーク能力180TFLOPSだという。

すでにTensorFlowを利用して機械学習を実行しているユーザーは、新しいサービスを利用するためにコードを大きく書き換える必要はない。ただし当面、Cloud TPUを利用するのはワンクリックというわけにはいかない。アクセスを管理するため、「利用希望者はCloud TPUの利用割当を申請する必要がある」ということだ。割当を受けた後は、1TPU1時間あたり6.50ドルの料金となる。標準的なTesla P100 GPUがアメリカでは1時間1.46ドルで利用できる。ただしFP16によるピーク能力は 21TFLOPS程度だ。

機械学習で大きな実績を挙げてきたGoogleだけに、新しいクラウドTPUサービスにはユーザーが殺到するだろう。長期的にみれば、Googleにとって重要なのはGoogle CloudにAWSやAzureに対する差別化の要因を与えるところにある。クラウド・サービスも基本的な部分ではどれもほぼ横並びだ。コンテナ・テクノロジーのおかげで、プラットフォームを移し替えるのも非常に簡単になった。その点、TensorFlowとカスタムTPUはGoogle独自のものだ。少なくとも当面、機械学習の分野ではライバルは歯が立たないだろう。

〔日本版〕Cloud TPUはGoogleの日本サイト経由で登録できる

[原文へ]

(翻訳:滑川海彦@Facebook Google+

新しいGoogleフライトは出発遅延を予測――AIで航空会社より早く教えてくれる

フライト検索エンジン、Googleフライトがアップデートされ、さらに便利になった。飛行機を利用する旅行者にとっていちばんいらだたしいのは、新しいベーシックエコノミー運賃の複雑さとフライトの出発遅延だ。新しいGoogleフライトはこの点で新機能を追加した。出発遅延については単に通知してくれるだけなく、当の航空会社より早く教えてくれる。蓄積された過去のデータと機械学習アルゴリズムを利用して航空会社が警告する前にGoogleフライトは遅延を察知するという。

Googleの説明によれば、 過去のデータとAIテクノロジーの組み合わせにより、航空会社の公式発表以前にGoogleフライトが遅延に気づく場合があるという。ただしGoogleは「確信度」が80%以上にならなければアプリに「遅延」のフラグを立てない(もちろんユーザーは遅延があっても定刻に空港に到着している必要がある。しかし遅れることを事前に知っていれば好都合だ)。

またGoogleフライトには「天候」、「到着遅れ」などと出発遅延の理由が示される。

ユーザーはフライト番号、航空会社名、ルートなどでフライトの状況を検索できる。出発遅延が予想される場合はここで表示される。

今日(米国時間1/31)追加されたもうひとつの機能はベーシックエコノミー運賃の表示だ。

節約派の旅行者には好都合なベーシックエコノミー・クラスだが、航空会社ごとにさまざまな制限が設けられていることに注意しなければならない。

Googleフライトはベーシックエコノミーを検索した際に、オーバーヘッドコンソールが使えない、座席を選択できない、持ち込み手荷物その他の制限を表示する。Googleが世界でこの機能を導入するのは当初アメリカン、デルタ、ユナイテッドのフライトになる。

Googleフライトは1月前にもメジャー・アップデートを実施し、料金とホテルの空室料金が検索でき、ユーザーは予約に最適のタイミングを知ることができるようになった。

Googleフライトの料金トラッキングはKayakなどのスタートアップの機能と似ており、今回のアップデートを含めて、Hopperなどトラベル系スタートアップに影響を与える可能性がある。Hopperは最近ホテル検索機能を追加し、ビッグデータ・テクノロジーを用いて航空運賃その他、旅行で重要となる要素を解析している。Googleの旅行アプリGoogleTripsと一部競合するTripItも最近、セキュリティーゲートでの待ち時間を表示する機能を追加した。Googleはユーザーのロケーション情報から個々の店舗やビジネスの混み具合を推測し、Googleマップで提供している。Googleフライトの次回のアップデートでセキュリティーゲートでの待ち時間の予測が追加されても驚くべきではないだろう。

Googleフライトの新機能の中でも、出発遅延の予測は現実のビッグデータに対して機械学習を適用して解析した結果だという点が重要だろう。 しかし旅行者は航空会社が正式に出発遅延のアラートを出すまでは行動を変えることができないので、そうしたアラートはストレスの多い空路の旅行にさらに不安な要素を持ち込んでいた。

[原文へ]

(翻訳:滑川海彦@Facebook Google+

AlphabetがXムーンショット生まれのサイバーセキュリティ企業Chronicleをローンチ

あなたが、まだ間違って“Google”と呼んでるかもしれないAlphabetが今日(米国時間1/24)、新しいサイバーセキュリティ企業Chronicleのローンチを発表した。それは、企業のハッカー検出と撃退能力を高めることがねらいだ。ChronicleはAlphabetのXムーンショットグループから巣立ち、今ではGoogleなどと同じく、Alphabet傘下の単独企業だ。

Google VenturesからXに入り、その前はSymantecのCOOだったStephen Gillettが、この新会社のCEOになる。

最初にChronicleは、二つのサービスを提供する: 企業向けのセキュリティインテリジェンスとアナリティクスのプラットホームと、マルウェアやウィルスをスキャンするVirusTotalだ。後者はGoogleが、2012年に買収したセキュリティ企業だ。

Gillettが書いた記事によると、Chronicleの基本的な目的は、企業のセキュリティの盲点や死角を取り除き、企業が自分たちのセキュリティの全容を細部まで明確に把握できるようにすることだ。Gillettはこう書いている: “企業のセキュリティチームのスピードと実効性を今の10倍にしたい。そのためには、彼らにとってこれまで見つけることが困難だったセキュリティ関連のさまざまなシグナルを、容易に、はやく、そして低コストで捕捉分析できるようにしてあげることが、重要だ。Chronicleが提供するインテリジェンスとアナリティクスのプラットホームは、それを可能にする”。

XのCaptain of Moonshots(ムーンショットのキャプテン)、Astro Tellerによると、“企業のセキュリティチームが攻撃を見つけて調べるために必要な情報は、その企業の既存のセキュリティツールやITシステムの中にある。しかしそれらは膨大な量のデータの中に隠れているから、簡単には見えないし、理解も利用もできない”。

Chronicleのプラットホームは目下構築中で、まだその全貌は見えない。GillettによるとそれはAlphabetのインフラストラクチャの上で動き、機械学習と高度な検索能力により、企業によるセキュリティデータの分析を助ける。そしてChronicleのサービスはクラウドから提供されるので、“企業のニーズの伸縮に応ずる柔軟性とスケーラビリティがあり、企業自身が新たなセキュリティソフトウェアを実装したり管理する必要がない”。

このような、クラウドからのセキュリティサービスはChronicleが初めてではなく、ログを分析する専門企業もあり、またIBMなどもエンタープライズ・セキュリティには力を入れている。そんな競合環境における、Chronicleの差別化要因が何になるのか楽しみだ。

現時点で提供できる詳細情報があまりないことは、Alphabetも認めているが、今Chronicleのサービスは、いくつかのFortune 500社の協力により、アルファテストを行っている。

Chronicleは今日(米国時間1/24)の午後プレスコールを行うので、サービスの詳細が分かり次第、この記事をアップデートしたい。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa

GoogleのAutoMLで誰もが機械学習を利用できる――プログラミング不要、ビジネス利用へも

今日(米国時間1/17)、Googleはいくつかの重要な発表をしたが、 AutoML Visionα版公開もその一つだ。このサービスはML(機械学習)についてまったく経験のない層も含めたデベロッパーに対して、カスタマイズされた画像認識モデルの構築を可能にする。Googleではカスタム機械学習モデルをAutoMLと名付け、画像認識以外の分野に応用を拡大していく計画だ。

現在AutoMLがサポートするのはコンピューター・ビジョン関連だけだが、近い将来Googleは機械学習が用いられる各種の分野(音声認識、翻訳などの自然言語処理、ビデオ処理等)でAutoMLのビルディング・ブロックが使えるようにしていくはずだ。

Googleによれば、AutoMLの基本的なコンセプトは、高度なプログラミングの能力を必要とせず、誰でも画像をアップロードするとGoogleのシステムが自動的に機械学習モデルを作成してくれるというものだ。

Googlによれば、すでにディズニーがこのシステムを利用してオンラインストアにおける検索機能の強化に成功している。ストアの訪問者がたとえば『カーズ』に登場するキャラクター、ライトニング・マックイーンを検索した場合、実際にその名前でタグづけされている商品だけでなく、ストア内のおしゃべりなレーシングカーの画像を横断的にピックアップできる。

このプロセスはデータのアップロードからタグづけ、MLモデルのトレーニングまですべてドラッグアンドドロップのインターフェイスで実行できる。MicrosoftもAzure ML Studioを提供しているが、Googleのサービスはこれとは全く性格が異なる。Azure MLはいまは亡きYahoo Pipesに似たインターフェイスを利用してユーザー自身がモデルを構築、訓練、評価するものだが、Googleの場合はシステム側が面倒な作業をすべて実行する。

最近の機械学習ブームで一般企業が機械学習やデータサイエンスのエキスパートを採用することはほとんど不可能になっている。需要の大きさに人材供給がまったく追いついていないのが実情だ。

GoogleのAI/ML担当チーフ・サイエンティスト、 Fei-Fei Liは今週開かれたプレスイベントで「人工知能、機械学習は依然として参入障壁が高い分野です。企業は専門的能力と大量のリソースを社内に用意する必要があり、これを実現できる企業はほんの一握りです。人工知能を活用できるデータサイエンティストが100万人いたらどんなに役立つでしょう。AIが素晴らしく役立つのに対して、カスタマイズされたモデルを作れる能力を持つ人々の数はあまりに少なく、必要とするリソースは大きいのです」と述べた。

  1. cloud-automl-screenshot-1.png

  2. cloud-automl-screenshot-2.png

  3. cloud-automl-screenshot-3.png

  4. cloud-automl-screenshot-4.png

  5. cloud-automl-screenshot-6.png

  6. cloud-automl-screenshot-7.png

  7. cloud-automl-screenshot-8.png

  8. cloud-automl-screenshot-10.png

  9. cloud-automl-screenshot-11.png

  10. cloud-automl-screenshot-12.png

  11. cloud-automl-screenshot-13.png

  12. cloud-automl-screenshot-14.png

  13. cloud-automl-screenshot-15.png

  14. cloud-automl-screenshot-16.png

GoogleによればAutoMLは市場に公開されたこの種のサービスとして唯一のものだという。正確にいえば Clarif.aiなどのシステムが同様のアプローチを用いているし、MicrosoftのCognitive Servicesもあらかじめ用意されたコンピューター・ビジョン・モデル音声認識意思決定プロセスなどをユーザーがカスタマイズすることができる(ただし現在これらのサービスはプレビュー段階)。

AutoML Visionsの利用にあたっては、デベロッパーはGoogleに申し込みをして招待を待つ必要がある。料金については明らかにされていないが、おそらくモデルのカスタマイズとトレーニングに関する料金とそのモデルにAPIを通じてアクセスする場合の料金に分かれるのだろう。

画像: Getty Images

〔日本版〕コンピューター・ビジョンに関するFei-Fei Li(李飛飛)のTED講演(2015年、日本語字幕つき)

[原文へ]

(翻訳:滑川海彦@Facebook Google+

機械学習によりセキュリティの脅威を自動的に検出するNiddelをVerizonが買収

本誌TechCrunchのオーナー企業であるVerizonが今日(米国時間1/5)、セキュリティの脅威を自動的に検出するサービスNiddelを買収したことを発表した。

Niddelの主要製品であるNiddel Magnetは有料会員制のサービスで、機械学習により顧客の会社内の感染ないし侵されたマシンを見つける。それは、顧客がコードやルールなどを書かなくても完全に自律的自動的に仕事をする。

Verizonのセキュリティサービス担当部長Alexander Schlagerは、声明文の中でこう説明している: “機械学習を利用して情報の精度を大きく上げ、擬陽性を減らし、検出と対応の能力を大幅に改良できる”。それが、今回の買収の主な理由でもある。

人間の誤判断による擬陽性を減らせることが、Niddelのソリューションの大きな目標だ。システムをモニタする有資格のセキュリティアナリストが不足しているから、それがとくに貴重だ。“Niddel Magnetは、従来の人間の目視による方法に比べて、擬陽性を最大96%減らすことができる。弊社が特許を取得している監視つきの機械学習が脅威に関する既存の知識を外挿することにより、得られるアラートの40%は(従来の方法で検出できなかった)新しい脅威だ”、と同社のWebサイトは書いている。

Niddelは、社内社外の50あまりの多様なソースから情報を取り、それらを分析して、顧客の組織内の被害機を襲ったセキュリティの脅威を追跡する。企業がそれらの被害に真剣に対応しようとしたときには、同社が完全に自動化されたソリューションを提供し、簡単には見つからない有資格のアナリストを不要にする。

Niddelは、2014年に創業された。VerizonはNiddelの技術を今後数か月以内に自社システムに組み込む予定だ。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa

立ち遅れている地域小売業をテクノロジーで底上げするRubikloudが$37Mを調達してグローバル化へ

小売業界はテクノロジーによる改革が著しく後れている。AmazonやWalmartなどの巨大企業の影で、小売店はレガシーシステムにしがみつき、最新のツールを生かして連中に対抗することができない。今日(米国時間1/3)3700万ドルの資金調達を発表したRubikloudは、人工知能を使ったクラウドツールで、小売店の現代化への取り組みを助ける。

この資金調達ラウンドをリードしたのはIntel Capitalで、Inovia CapitalとOTEAF、それに既存の投資家Horizons VenturesとAccess Industriesが参加した。これにより同社の調達総額は4700万ドルに達した、と同社は言っている。

Intelが小売業界に足場を築きたいのは、同社のIoT技術にとってそこが広大な未開の大陸だからだ。同社は、そのIoT技術とRubikloudのインテリジェントなオートメーションやデータ処理を組み合わせることで、強力なパートナーシップが生まれると信じている。小売業界に関して、同社がとくに攻めたい領域が三つある: それらは、サプライチェーン、企業の購買需要、そして店内の販促だ。

Rubikloudは、お店の販売促進ツールや、顧客への売り込みを個人化する顧客ライフサイクル管理などのための、SaaSツールを提供している。そのほかに、たとえばRubiCoreは、既存のシステムからデータを取り込み、選んだデータをRubikloudのプロプライエタリなデータモデルへ入れる。またRubiOneは、Rubikloudのデータセットをベースに小売店が独自の機械学習アプリケーションを作るためのツールとライブラリだ。

小売店は同社のアプリケーションを使ってより効果的な販促プランを作り、顧客を理解し、またお店独自のアプリケーションも作れるようになる。

それは堅実なアプローチのように見えるが競合他社も多く、Adobeのような巨大企業すら小売店支援をメニューに持っている。しかしそれでも、投資家たちはRubikloudに将来性を感じており、だからこそ数千万ドル単位の資金を投じているのだ。

今回得た資金は、ヨーロッパとアジアにオフィスを開き、グローバルな拡張をしていくために使われる予定だ。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa

画像認識システムを騙して空港の警備をすり抜ける方法…Googleの研究者たちがステッカーで実験

機械学習のシステムは、有能ではあるが必ずしもスマートではない。彼らには、常識がない。そのことにつけこんだ研究者たちが、画像認識システムに対するおもしろい攻撃テクニックを作った。彼らが作った特殊なステッカーは、AIにとって、あまりにもおもしろくて興味深いので、結局そこに何も見いだすことができないのだ。そのステッカーが、アクセサリーとして流行りそうだ、とぼくが感じたのは、どうしてだろう?

コンピュータービジョンはものすごく複雑な問題であり、人間ですら、正しい画像認識のためには、認識の近道を必要とする。だから、コンピューターがそうであっても驚くには当たらない。

これらのシステムが取る近道のひとつが、すべての画素を同等に重要視しないことだ。たとえば、家の画像があって、その背後は青空、前面に草地があるとしよう。いくつかの基本的なルールにより、コンピューターにはこれが–空と草が写っていても–空や草の画像ではないことが分かる。そこでコンピューターはそれらを背景と見なし、中央にある形状の分析に多くのCPUサイクルを費やす。

そこで、Googleの研究者たちは考えた(PDF): もしもその近道が混乱して、コンピューターが家を無視し、なにか別のものに注意を注いだらどうなるか?

対戦相手となるシステムを訓練して、いろんな特徴のある小さな円〔上図左〕を作らせ、ターゲットのシステムを混乱させようとした。円には、いろんな色や、形、サイズがあり、それらのどれが画像認識システムの注意を引くかを見ていく。そのAIは、特定のカーブに着目した、とか、特定の色の組み合わせを背景ではないものと見なした、などなど。

そうやって、右図に示すような、サイケデリックな渦巻きがいろいろ出来上がった。

そしてそれを、システムが知っているもの…たとえばバナナ…の横に置くと〔上図タイトル画像〕、バナナのことは即忘れて、それが渦巻きの画像だと認識する。また、画像の中に名前のあるステッカーを作って既存の画像と合わせると、違った結果になる。

研究者たちはこれを、画像固有ではなくシステム固有を目指して行った。つまり、その画像認識システムに(特定の画像ではなく)これらの不思議な渦巻きのどれを見せても、混乱した結果を出力するように。

これは一体、何のための研究だろう? 具体的にはたとえば、数枚のこんなステッカーを衣服の上につけて空港の監視カメラの前を通ると、画像認識システムはその人が逃走中の強盗犯人であっても、見抜けないだろう(もちろん犯人の顔などは事前に訓練されている)。ただし、このシステム騙しに成功するためには、そのシステムをよく知り、大量のステッカーで事前にテストしなければならないだろうが。

コンピュータービジョンシステムを騙すもう一つのやり方は、画像に何度も小さな変更を加えると、それらのわざと置かれた画素によっては、銃の画像を亀と認識したりする。しかしこれらの、極端に局所化された“動揺と混乱”によって、新たな脅威が作る出されることがありえる。

われわれが実験したシステム攻撃は、現実世界でも有効である。しかも、ステッカーという、一見、人畜無害なものを利用する。これらの結果は、攻撃をオフラインで作っておき、それを広範囲にシェアできる、ということを示している。

人間はこの程度のパッチに気づくことができるが、でもその意図は見抜けずに、アートの一種かと思ったりするだろう。だから、小さな動揺混乱に対する防御策だけでは不十分である。もっと局所的で大きな動揺や混乱が、認識分類システムを無能化することもありえるのだ。

研究者たちはこの実験と結果を、ロングビーチで行われたNeural Information Processing Systemsカンファレンスで発表した。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa

Googleが音声合成を機械学習で訓練する方法Tacotron 2を発表、システムの調教が楽になる

本物らしい良質な合成音声を作ることは今、ホットな研究開発テーマだが、一歩リードしているのはGoogleだろう。同社は今日、Tacotron 2なるものを発表して、さらにその差を広げたかもしれない。これは人工知能にテキストを読ませてリアルな音声を作り出すための、ニューラルネットワークの新しい訓練方法で、ユーザーには文法知識がなくてもよい。

この新しいテクニックは、Googleのこれまでの音声生成プロジェクトWaveNetと初代Tacotronの良いとこ取りをしている。

WaveNetは、ぼくの感想では“気味が悪いほど本物そっくりの”音声を作り出し、しかも一度に一つずつのオーディオサンプルを作るので、あまり実用向きではない。WaveNetは有能ではあるけど、最初に言語に関する大量のメタデータを必要とする。発音や、言語のさまざまな特徴などだ。

初代Tacotronは、イントネーション(抑揚)や強弱などを含む、より高いレベルの音声合成ができるが、実用的な最終製品を作るのには向いていない。

Tacotron 2は、この両者を利用している。ぼくはこの方面の技術には疎い方だけど、理解できる範囲で言えば、このシステムは、言葉のルールを明示的に教えなくても、テキストの原文とナレーションからそれらのルールを予測推定する。テキスト本体は、Tacotronがリズムや強調を得るために使う“メル尺度スペクトログラム(mel-scale spectrogram)”に変換され、語そのものはWaveNet的なシステムを使って生成される。

これでよく分かるはず!?

そうやって得られた音声は、ここにサンプルがあるが、今世の中にあるものの中では最良ではないだろうか。語りのリズムは自然だが、ちょっと快活すぎるかもしれない。わかりにくい発音のある語ではつまずくが、それらは主に、アメリカ英語に外から輸入された語、たとえば“decorum”をこのシステムは第一音節を強調するし、フランスのワイン用ぶどうの品種“Merlot”は書かれた綴りをそのまま発音するので笑わせる。研究者たちは、“極端なケースでは奇妙なノイズをランダムに生成することもある”、と書いている。

また、音声の口調…元気である、心配しているなど…をコントロールすることはまだできない。アクセントなどは、WaveNetでできたように、できる。

訓練システムの敷居を下げれば、もっと良質な訓練ができるだろう。Googleのこの新しい方式では言葉や話法に関する複雑なルールを、言語や音声スタイルが変わるたびに手作業で教えなくてもよい(ニューラルネットワークを実例で訓練するだけだ)。

研究者たちは結果をIEEEのカンファレンスInternational Conference on Acoustics, Speech and Signal Processingで発表する予定だが、そのためのペーパーはarXivで読める

[原文へ]
(翻訳:iwatani(a.k.a. hiwa

AIのパイオニア、Andrew NgのLanding.aiは製造業の改革を目指す――最初のパートナーはFoxconn

人工知能のパイオニア、Andrew NgはGoogle BrainプロジェクトやBaiduのAIグループのリーダーを務めたことなどでよく知られている。Ngはオンライン学習のCourseraの共同ファウンダーであり、そこで教えている機械学習のコースも有名だ。今年初めにBaiduを離れた後、Ngが何をしているのか(もちろんCourseraで多くのコースを教える以外にということだが)はっきりしなかった。

しかし今日(米国時間12/14)、NgはLanding.aiという新しいスタートアップを立ち上げたことを発表した。この会社は人工知能テクノロジーの成果を製造業に導入するのが目的だ。Landing.aiの最初の戦略的パートナーはFoxconnで、Ngによれば、さる7月から共同研究を続けてきたという。

Landing.aiの狙いはAIテクノロジーを従来のIT産業の外に広めることだ。AIと機械学習はすでに数多くの大手インターネット企業のビジネスのやりかたを根本的に変えているのに、IT以外の産業では遅れを取っているとNgは主張する。声明でNgはこう書いている。

 AIを活用したIT産業を作るだけでは十分ではない。AIを活用した社会を作らねばならない。われわれの生活が物理的に必要とする要素、食べ物、ヘルスケア、交通、住居などはAIのおかげて改良され、アクセスも容易になった。人は単調な機械的な仕事の繰り返しから解放された。今や社会のすべての面でAIによる便益が体験されるべきだ。これはIT産業だけではなくすべての産業を巻き込む必要がある。

ではLanding.aiは具体的にどういうものなのか? Ngによれば、同社は各種の「AIによる企業の変容プログラム」を作っているという。これにはAIテクノロジーそのものの導入から従業員の訓練まで多様な要素が含まれる。

Landing.aiの最初のターゲットは製造業だが、Ngはこの分野だけでなく、社会を構成するあらゆる側面にAIを導入するプラットフォームとなることを計画している。

Foxconnに関して、Ngは「(Landing.aiは)AIテクノロジーの開発だけでなく、人材育成、また両社の基本的な特色をさらに強化するためのシステムづくりについても(Foxcon)と協力関係にある」と述べた。

全体としていささか漠然としている。また私にはLanding.aiはなにか新しいテクノロジーを開発する会社というよりある種のコンサルティング会社のように思える。Landing.aiが独自の新しい人工知能テクノロジー、ないしプラットフォームを開発するというより、少なくとも今日の声明から推測されるところでは、既存の人工知能テクノロジーをFoxconnのような巨大企業に効果的に導入することに目的があるようだ。

画像:: Luis Castaneda Inc./Getty Images

[原文へ]

(翻訳:滑川海彦@Facebook Google+

Adobe Lightroom、Sensei AIを利用して写真を改善――CC、Classicとも「自動設定」追加ずみ

今日(米国時間12/12)、Adobeは各種アプリでアップデートを実施した。この中には写真の現像と管理のための人気アプリ、Lightroomに対するメジャー・アップデートが含まれる。Adobeは写真の編集・調整に機械学習を利用した自動設定機能を追加した。

新しい自動設定はAdobeのSensei AIテクノロジーを用いてユーザー写真を分析し、プロが編集した似た写真(おそらくAdobe Stockの写真が含まれるのだろう)と比較して、写真を改善するために最適の編集設定を探し出すというものだ。

このアップデートは最新のLightroom CC、Lightroom CC for iOS、 Lightroom CC for Android、 Lightroom CC on the web、Lightroom Classic、 Adobe Camera Raw (ACR)で行われた〔日本語版もアップデートずみ〕。

こうしたAI利用ツールの追加は各種サービスにいっそう高度な判断機能を加えていくというAdobeの全社的戦略に合致するものだ。今年開催されたAdobe MAXカンファレンスでCTO、Abhay Parasnisは「Adobeは総合的なAIを構築することには興味がない。しかしデザインやイラストレーション、ビデオの制作にあたってクリエーティブなプロフェッショナルがどんな表現を求めているかについてわれわれには深い理解がある」と指摘した

つまりここ数十年にわたるクリエーティブな領域における知識を活用しようというのがAdobeのAIプロジェクトが目指すビジョンだという。Paransnisは「この分野で最高のアーティストが写真に適切な設定を加えるためにPhotoshopeで何時間も費やしている。しかしアーティストには他にやるべきことが多々あるはずだ。われわれは最近の深層学習の進歩を利用し、クリエーティブなプロフェッショナルの効率的なパートナーとなることを目指した」という。

Lightroomがデスクトップでの利用を中心とする従来型のLightroom Classicとクラウド中心のLightroom CCに分割されて以来、今回が最初のメジャーアップデートだ。クラウド型のLightroom CCにはこれまでトーンカーブ調整などいくつかの機能が欠けていたが、今日のアップデートでそれも解消された。これでLightroom CCは名実ともに写真処理でもっとも頻繁に使われるツールの地位を取り戻すだろう。また新しいLightroom CCには新しいフルスクリーン表示やタイムゾーンをまたいで旅行した場合、写真のタイムスタンプを自動的に調整する機能も追加された。

[原文へ]

(翻訳:滑川海彦@Facebook Google+

IBMの新しいPower9チップはAIと機械学習のために開発された

人工知能や機械学習などのリソースを大量に消費する作業を、滞りなく処理するためにコンピューティングパワーを増加させるための競争に、IBMは最新世代のPowerチップであるPower9で参戦した。

同社はこのチップを、サードパーティーのメーカーや、Googleなどのクラウドベンダーへ販売する予定だ。一方、Power9チップを搭載した新しいコンピューターAC922もリリースする。また、IBMクラウドに対してもこのチップを投入する予定だ。「私たちは通常、私たちのテクノロジーを完璧なソリューションとして市場に提供しています」と説明するのは、IBMのフェロー兼コグニティブシステム担当副社長であるBrad McCredieである。

同社は、Chainer、TensorFlow、Caffeなどの一般的なAIフレームワークのパフォーマンスを向上させるために、この新しいチップをデザインし、それらのフレームワークで動作するワークロードをほぼ4倍にすると主張している。

もし説明されたように動作するなら、データサイエンティストたちは、Power9を搭載したマシン上でのモデルの構築と実行の効率を上げることができる。そのことにより、仕事を効率的に進め、モデル作成をより素早く完成させることができるようになる筈だ。

Moor Insights&Strategyのプリンシパルアナリスト、Patrick Moorheadは、IBMがこのチップよって、競争から頭ひとつ抜け出すことになると考えている。「Power9は、機械学習で使用されるアクセラレーターに最適化された、新しいシステムアーキテクチャを備えたチップです。IntelはXeon CPUとNervanaアクセラレータを作り、NVIDIAはTeslaアクセラレータを作っています。IBMのPower9は文字通り、機械学習加速のためのスイスアーミーナイフで、膨大な量のIOと帯域幅をサポートしているので、現在市場にあるものの10倍の性能を叩き出すのです」とMoorheadは語る。

写真:IBM

もしNvidiaがAI/機械学習ワークロードの世界でかなりの部分を占めているように思っているならば、IBMの関心も免れることはできない。今や彼らもGPUチップメーカーと緊密に協力している。実際、McCredieによれば、IBMは競合システムよりもはるかに高速に、2つのチップ間でワークロードを移動するシステムバスを構築しているということだ

「最新のワークロードは一段と加速しており、その中でもNvidia GPUが一般的に使われているアクセラレータです。私たちはこの傾向が起こりつつあることを感知していました。私たちはPowerシステムとGPUの間に、チームとパートナーシップによる深い関係を構築しました。私たちはプロセッサーとGPUをつなぐユニークなバスを用意し、これによって競合システムに比べて10倍の帯域幅を実現することができました」とMcCredieは説明する。

新しいチップは、ローレンス・リバモアとオークリッジ国立研究所によって開発されたSummitと呼ばれるスーパーコンピューターに搭載される予定である。同氏によれば、このスーパーコンピュータは無数のPower9コンピューターを使って構築され、そのコストは3億2500万ドルに上るということだ。

GartnerのHPC、マシンラーニング、および新興コンピューティング技術のリサーチディレクターであるChirag Dekateは、このリリースは、人工知能のような高成長市場セグメントを獲得するための、IBMの積極的なアプローチの継続である、と述べている。「AI(具体的には機械学習やディープラーニング)のようなセグメント間で、戦略を調整することで、IBMはハイパースケールデータセンターや、より一般的なデータセンター市場での競争力を高めることができます。これにより、IBMの直接的な収益への影響がもたらされ、新しい大規模データセンターの展開も可能になります」とDekate氏は説明する。

Power9チップは、今日(米国時間12月5日)から入手可能だ。

[原文へ]
(翻訳:sako)

AWSがIoT専用のデータ分析ツールAWS IoT Analyticsをローンチ、機械学習にも対応

物のインターネット(Internet of Things, IOT)は、近未来のもっともホットなテクノロジー、今やどこのカンファレンスへ行っても主役級の扱いだ。IoTという技術の突出した特徴のひとつが、多くのデバイスが常時大量のデータを吐きつづけること。そしてそれらのデータの意味を知ることが、システムの重要な課題になる。そこでAmazon AWSは、独自のIoTアナリティクスサービスAWS IoT Analyticsを、今日(米国時間11/29)のre:Inventカンファレンスで立ち上げた。

AWSのテクニカル・エヴァンジェリストTara Walkerブログ記事によると、このサービスの究極の目的はIoTが吐き出すデータをすべて管理することだ: “AWS IoT Analyticsを利用して、メッセージを処理したり、大量のデバイスデータを収集保存したり、データをクェリしたりできる。このサービスはデータ視覚化サービスAmazon Quicksightや、オープンソースのデータサイエンスツールJupyter Notebooksを統合している。後者によって、データを機械学習で処理することも可能だ”。〔参考記事

上記の最後の部分は、センサーやデバイスからやってくるデータをベースに機械学習のモデルを作るときに便利だ。AWSが今日発表した、機械学習のモデル制作支援ツールSageMakerも、やはりJupyter Notebooksをサポートしている。

IoTから出てくる膨大な量のデータをユーザーが直接、QuickSightのような汎用ツールで処理するのは酷である、と考えたAmazonは、このAWS IoT Analyticsという専用ツールを作ったのだ。しかもQuickSightでは、何が起きたのかを見ることはできても、これまでのデータの傾向に基づく予測ができない。

たとえば、このIoT Analyticsを使えば、工場などの機械が実際に故障する前に、メンテナンスが必要である状態を知ることができる。本番稼働時に急に停止するのではなく、ユーザーが自分の意思で余暇時間などにメンテできる。

このIoT専用のアナリティクスツールは、IoTのセンサーからのデータを収集、保存、そしてクェリでき、特定のデータ集合を一定の時間間隔で取り出すことができる。

Amazonが汎用のBI(ビジネスインテリジェンス)サービスAmazon QuickSightを立ち上げたのは、2015年だ。

画像提供: Bloomberg/Getty Images


[原文へ]
(翻訳:iwatani(a.k.a. hiwa

Adobe、Photoshop CCにワンクリック対象選択を導入へ――Sensei AIを利用して自動認識

長年の練習のかいがあってか、非常に手際よく人物をマスクできるPhotoshopのユーザーは多い。とはいえ、人物の輪郭を切り抜くのはフォトショ作業の中でいちばん手のかかるやっかいな部分であることに変わりはない。しかしクリック1回で対象を切り抜ける魔法の杖が近々登場する。

今日(米国時間11/28)、Adobeが 公開したプレビュー動画によると、次のアップデートでPhotoshopにはAIを利用して対象を認識し、自動的にその輪郭にそってマスクを作成する機能が追加されるという。この機能は現在Select Subjectと呼ばれており、Adobeの AIプラットフォーム、Senseiが用いられる。

メニューからSelect and Maskを選び、選択したい対象をどこでもよいからクリックするだけでよい。AIが自動的に意図された対象を認識してマスクを作成する。その後は背景を透明化したり、別の画像に置き換えるなどこれまでどおりさまざまなツールを使うことができる。

Adobeのティーザー動画によれば、新機能はPhotoshop CCの次のバージョンで導入される。

ただし「次のバージョン」がいつリリースされるのか具体的な日付はまだ不明だ。.

Engadgetの記事によれば、Select Subjectツールはまだ完全に仕上がっておらず、人物の髪の毛など細部の認識に問題が出る場合があるという。しかしこうした問題は機械学習のアルゴリズムがさらに多くのデータを入手できるようになれば次第に改善されるだろう。

〔日本版〕上のビデオの1:00あたりからワンクリック選択がデモされている。デモでは複数の人物や人物とイヌなどを自動認識で切り抜いている。

[原文へ]

(翻訳:滑川海彦@Facebook Google+

AWSがAIを利用する企業顧客へのコンサルティング事業と高度な画像認識機能を発表

例年の大型カンファレンスre:Inventを来週に控えたAmazonのAWSが、人工知能関連の新たな展開を二つ発表した。まず、AWSは、機械学習のラボML Solutions Labを開き、機械学習のエキスパートと、AIによるソリューションを作ろうとしている顧客を結びつける。さらにAWSは、ディープラーニングによる画像認識APIベースAmazon Rekognitionの機能を拡充し、リアルタイムの顔認識と画像中のテキストを認識する機能を新たに加える。

新たなラボと画像認識プラットホームの拡充は、AmazonとAWSのAI推進努力の一環であり、社内利用とB2Bビジネスの成長材料の二面をねらっていると思われる。1か月前にAWSは、デベロッパーが自分のアプリケーションやサービスのために機械学習のモデルを構築し利用するためのディープラーニングライブラリGluonをMicrosoftと共同開発する、と発表した。

Amazonは昨年のre:InventでAWSのAIリソースのデベロッパー向け総合窓口Amazon AIを発表しているが、今年この時期(感謝祭の前日)にこれら二つの発表をしたということは、今年のre:Inventのための足固めか、それとも今年はAIにあまりハイライトを当てないことを意味するのか。

Solutions LabはAWSのBusiness Supportの顧客に提供されるが、これはAIだけでなく企業向けのコンサルティングサービスでもある点が興味深い。IBMのような企業ITの古顔企業では、コンサルティングサービスこそがつねに、ビジネス開拓の鍵を握っている。

Amazon AI担当のVP Swami Sivasubramanianはこう語る: “デベロッパーたちがAmazonのML Solutions Labで機械学習への取り組みを開始するのを、じっと待ってるわけにはいかない。Amazonが抱える機械学習の最良の科学者と実践者の専門的知識技能に、顧客の深いビジネス知識を組み合わせることによってのみ、AmazonのML Solutions Labは顧客元における機械学習の迅速な立ち上げを支援し、彼らの社内における機械学習の実用稼働をスタートできる”。

すでに、Washington Postや、Johnson & Johnsonの製薬部門Janssen、World Bank Groupなどが最初の顧客として確定している。

一方Rekognitionの新しい機能は、コンピュータービジョンにおけるAmazonの継続的進展を示すだけでなく、プロダクトとして外部の顧客が利用でき、Amazonの収益源にもなるという点が、強い姿勢として目立つ。

注目すべきは、Rekognitionの新機能のビッグな顧客のひとつがPinterestであることだ。画像による検索や分類はPinterestの最重要な機能だが、同社はそれを内製せずに外部のサービスやAPIを使おうとしている。

しかしPinterestはAWSにとって長年の顧客であり、AmazonのクラウドストレージS3の上には何百万もの‘Pin’が保存されている。だからAmazonがこのような大型顧客の便宜のために、画像中のテキスト認識機能を開発したとしても、おかしくはない。

PinterestのCTO Vanja Josifovskiがこう言っている: “Pinterestはビジュアル専門のプラットホームだから画像処理のスピードとクォリティーに大きく依存している。でも、画像中のテキストは、それらがコンテキストを提供し、Pinをアクションに誘うために、きわめて重要だ。画像中に興味深いテキストがあれば、われわれの2億あまりの‘Pinner’たちは、それへの何らかの反応を誘われるのだ。これからは、Amazon S3に保存されている数百万のPinsから、リッチなテキストを素早く取り出せることができるようになる。Pinterestのユーザーのユーザー体験とビジネスの高品質化と高速化のためにも、AWSとのパートナーシップをさらに発展させていきたい”。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa

機械学習の良質なモデルは各ドメインエキスパートが作るべき、Piensoは非技術者がモデルと対話できるツールを提供

機械学習のエキスパートはもちろん機械学習技術に貢献する、しかしプログラミングとは無縁な、世の中のそのほかの分野のエキスパートたちも、逆に、機械学習のモデル構築には役に立つはずだ。

そこでMITから生まれたスタートアップPiensoは、機械学習のモデルの訓練を技術者以外の人にもできるようにして、人材のいない企業などが、さまざまな分野のエキスパートたちが持つ良い知識や情報を利用できるようにしたい、と考えた。

“機械学習のエキスパートでないドメインエキスパート(各分野の専門家)をモデルに埋め込んで彼らの専門知識を利用するにはどうしたらよいか”、これがCEO Birago Jonesの言うPiensoの問題意識だ。

ブルックリンに拠を置く同社は今日(米国時間11/6)、Eniac Ventures率いるシードラウンドにより210万ドルを調達した。参加した投資家は、SoftTech VC, Indicator Ventures, E14 Fundなどだ。同社はこのお金でチームを増員し、また顧客ベースを拡大したい、と考えている。

同社のメインのプロダクトIntelligent Development Environmentは、モデルの構築者と利用者を結びつけるソリューションで、その主要機能であるLensを使って非技術系の人びとが機械学習のアルゴリズムと対話できる。

常時、大量のデータ集合を抱える企業は、機械学習によってそれらの意味や傾向等を取り出すことが可能だが、そのためにさまざまな分野のエキスパートを起用するのはコスト的に難しい。Piensoがねらうのは、このようなhuman-in-the-loop問題を解決することで、求める人間的力(判断やフィードバック)がすでにモデルに反映されている、という状態を作り出す。

Jonesはこう言う: “研究者やアナリストなどの知識労働者に、コンピューターサイエンスや高度な統計学の知識能力がない、というケースの方がむしろ多い。だから、彼らの専門知識を、誰かが機械学習のモデルへ入力しなければならないが、そうすると今度は、ニュアンスやコンテキスト、デテールなどがその過程で失われてしまうことが多い”。…だから、各分野のドメインエキスパート自身に、モデルへの入力をしてもらおう、というのだ。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa

AIが「考えた」どこか見覚えのあるセレブの顔

この地球上に足りないものがあるとすれば、それはセレブだろう。もしも十分な数のセレブが既にいるとすれば、こんなに続々と新しい人が登場するはずもない。今こそコンピューターの力を借りるときだ!と思いきや、実は既にそのような研究は進められている。セレブの顔を認識できる(なんと羨ましいことだろう!)AIが、ある研究で何十人ものセレブを「考え出す」というタスクを課せられた。その結果は……見てのお楽しみだ。

上図を見ればおわかりの通り、生成された画像は宣材写真として使えるレベルではない。左下の男性の写真は、背景の一部が左耳と重なりあっていて見栄えが良いとは言えない。上列真ん中の女性のイヤリングも未完成といった感じで、右下の男性の耳は残念なことになっている。その一方で、テイラー・スウィフト風の女性の出来はまぁまぁだ。また、この6人は実在しないにもかかわらず、画像からは何かしらのパーソナリティが感じられる。

次の6人を見てみよう。今回は髪が問題のようだ。左上の女性の髪は一部が飛び出しているし、上列真ん中の人の髪には何個か穴が開いている。右上の女性の前髪は、顔全体に影響を及ぼしているようだ。下列真ん中の男性は変なタイミングで写真を撮られたように見え、左下の男性にいたっては右半身が欠けている。

と、冗談はこのくらいにして、全体の出来はなかなかではないだろうか。近くで見ないと本物のセレブかどうか判別できないくらいの画像を機械が作り出せるというのも驚きだ。Nvidiaが行ったこの研究の論文は、来年のICLRに応募中で、こちらのリンクから実物を読むことができる。

彼らが利用した「General Adversarial Networks(GAN)」とは、同じデータ(今回の場合で言えばセレブの顔写真)を使ってトレーニングされた、ふたつのネットワークのことを指している。そのうちのひとつは、与えられた写真と似たものを生成するためのネットワークで、もうひとつは顔写真を認識するためのものだ。

前者(生成ネットワーク)が新しい写真を生成し、後者(認識ネットワーク)がその写真を評価してフィードバックを送り返す、というのが大まかなフローで、恐らく最初はひどい結果だっただろう。しかしトレーニングを繰り返すうちに、生成ネットワークが生み出す画像は、認識ネットワークが「まぁ、このくらいならティファニー・ティーセンに見えなくもないな」というレベルに達するようになる。

Nvidiaのシステムによって生成された写真の例

Nvidiaの研究で新たにわかったのが、トレーニング開始時は解像度が低いデータを使い、徐々にサイズを大きくしていったほうが、システムの機能が向上するということだ。これは直感的にも理解できる。最初に輪郭など大まかな顔の構造をつかまないと、ただの肉の塊や、口だけリアルなわけのわからない怪物もセレブと認識されてしまう。

また徐々にトレーニングデータの内容を変化させることで、トレーニングにかかる期間も短縮できる。解像度の高い画像を生成するのはなかなか難しい上、はじめは大した結果もでないので、大きなデータを与える必要もない。できるだけゴミを減らして簡単に画像を生成できるようにしないと、単に大量のゴミと残念な結果が生まれるだけなのだ。以前のシステムによって生成された下の画像を見れば、その意味がわかるだろう。

Nvidiaの研究者も「本物の写真と同じくらいのクオリティに達するまではまだまだ時間がかかるだろう」と認めている。その一方でNvidiaは、本記事に掲載した写真からもわかる通り、同システムが本物の人間とほぼ見分けがつかないレベルの画像を生成できる世界初のシステムになるかもしれないと期待を寄せている。

ただ一点だけお伝えしなければいけないのが、トレーニングに使う画像の種類を絞らないと、下図のようにギョッとするような動物や、悪夢のような光景が描かれた画像が生成されてしまうということ。

上の画像はクリックすればフルサイズで表示されるので、勇気がある人はお試しを……

原文へ

(翻訳:Atsushi Yukutake