Twitter、最高1億5000万ドルでMagic Pony Technologyを買収―ニューラルネットワークで画質改善へ

2016-06-21-magic-pony

今日(米国時間6/20)、Twitterは機械学習能力を高めるための大型買収を発表した。

これはTwitterが配信するビデオや写真の画質を大きく改善する可能性がある。Twitterが買収するのはロンドンを本拠とするスタートアップ、Magic Pony Technology(この会社の名前は本当にマジック・ポニーという)で、同社は ニューラルネットワーク(人間の頭脳の働きを模したコンピューターシステム)を利用した映像処理の人工知能を開発している。

このテクノロジーは、たとえば、モバイル・デバイスのカメラで撮影された映像の画質を改善したり、仮想現実や拡張現実のアプリでリアルなグラフィックスを表示したりするのを助ける。

買収の条件は明らかにされていないが、われわれは2つの異なる情報源からTwitterは買収に最大1億5000万ドルを用意していると告げられた。この金額には人材引き止めのためのボーナスが含まえる。現在Magic Ponyの社員は共同ファウンダーのZehan WangとCEOのRob Bishopを含め11人前後だ。【略】

Magic Pony TechnologyはTwitterにとって。2014年のMadbits、2015年のWhetlab買収に続く3件目の機械学習スタートアップの買収となる。

このスタートアップはOctopus VenturesEntrepreneur FirstBaldertonから資金を調達しているが金額は明かされていない。以前Baldertonでベンチャキャピリストを務めていた人物は個人としても投資を行っている。

Magic Pony Technologyは、人間の視覚の働きと同様、類似の画像から元画像を補完して画質を改善する。実際、インターネットの有名なミームのひとつ、「マジック・ポニー」はMagic Pony Technologyの驚くべきテクノロジーから来ている(「信じられない。まるでマジック・ポニーみたいにうまくできている!)という伝説まである。

しかし同社は一般メディアへの露出は比較的少なく、ウェブサイトにも会社の目的や出願中の特許が簡単に記載されているだけだった(出願件数はおよそ20件で、買収後はTwitterが所有することになる。そのリストはこちら)。

買収後のプランについて共同ファウンダー、CEOのジャック・ドーシーは「機械学習はTwitterにおいても大きな要素となる」という一般論以上のことは明かしていない(ドーシーは新チームはTwitterのCortex〔機械学習エンジニアのグループ〕に加わることになると述べている)。

Magic Pony Technologyの投資者、Baldertonのパートナー1人、Suranga ChandratillakeはTechCrunchに対して「Twitterはビデオに本腰を入れている。Magic Pony買収はビデオがいかにTwitterにとって重要であるかを実証するものだ。ビデオこそ成長のカギだ。同社はTwitterの買収以前にVR、AR、さらに関連するテクノロジー分野ですでに興味ある重要な開発を行っている」と述べた。【略】

Steve O’Hearが取材に協力した。

〔日本版〕Magic Pony Techorologyについては2016年4月の紹介記事を参照。Devin Coldeway記者は「われわれは人間の顔がどのようなものであるかよく知っている。そこで荒い画像からでも顔の細部を補うことができる。Magic Ponyの人工知能は…この外挿法によって画像の細部(を補う)」と解説。

なお、インターネットのポピュラーなミームとなった「マジック・ポニー」はハズブロのアニメ、「マイリトルポニー」が起源とされる。

[原文へ]

(翻訳:滑川海彦@Facebook Google+

人工知能はSEOを一変させる―Googel RankBranを知らない対策が危険な理由

2016-06-06-google-rankbrain

編集部:この記事はJohn Ramptonの投稿。 Ramptonはオンライン請求サービス、DueのファウンダーでCRUNCH NETWORKのメンバー。

この筆者にようる過去記事:The broken world of mobile payments and how to fix it, What Zuckerberg And Gates Teaming Up Really Means For Clean Energy In 2016

SEOは完全に違うものになった

将来を見通すという困難な仕事にかかる前に、まずGoogleのサイト評価アルゴリズム、RankBrainがSEOをどう変えたかを考える必要がある。私はカーネギーメロン大学の同窓生で友達のScott Stoufferとこの問題について話し合った。彼は Market Brewの共同ファウンダー、CTOだ。この会社はFortune 500掲載の大企業のSEOチームにランキングのモデルを提供している。検索エンジンの専門家としてStouffer過去10年間に検索エンジンがどう進歩してきた知る絶好の位置にいる。

以下に述べるのは、SEOビジネスにとってGoogleの人工知能がどんな意味を持つかについてのStoufferの意見をベースにしている。

6

現在の回帰分析には深刻な欠陥がある

SEOビジネスでこれは現在最大の誤謬だろう。Googleのランキング・アルゴリズムが大きく変更されるたびに「それはこういう影響をもたらす」と解説する予言者が大勢現れてきた。誰でも知っているような有名企業のデータサイエンティストやCTOが最新のGoogleアルゴリズムについて「詳しく知る立場にある」と主張する。これはアルゴリズムのアップデート以前のランキング・データを調べ、次にアップデートの内容が適用されたならこれこれの変化があるとあらゆる種類のサイトについて予測するという手法だ。

現在の回帰分析のアプローチでは、データサイエンティストは(良きにつけ悪しきにつけ)ランキング・アルゴリズムに影響を受けるタイプの特定のサイトのグループに着目する。そしてこうしたサイトのランキングの変動はしかじかのアルゴリズムの変更(コンテンツ関連、バックリンク関連、その他)によって引き起こされた可能性が高いと結論する。

ところがGoogleはアルゴリズムのアップデートに当たってもはやこうした考え方を採用していない。 GoogleのRankBrainは極めて強力な機械学習、あるいはディープ・ラーニングのシステムであり、そのアプローチはまったく異なる。

Googleのランキング・アルゴリズムにはコアとなる考え方が存在する。RankBrainはまずこのコア・アルゴリズムを理解し、現実のサイトに適用された場合、どのようなアルゴリズム組み合わせによってベストの検索結果を得られるかを決定する。たとえばRankBrainは、あるタイプのサイトではもっとも重要性の高いシグナルはMETAタグのtitleの内容だと判断する。

META titleの重要性が高いのであれば、ここに検索エンジン向けの記述をすることで検索結果に好影響を与えることができる。しかし常にそうであるとは限らない。別の種類のサイトではtitleタグは検索結果に破壊的な結果をもたらすことがある。

7

重要なポイントは、それぞれの検索結果はまったく異なるアルゴリズムの組み合わせだということだ。この点に注目すれば、サイトのタイプや検索のコンテキストを無視した単なる回帰分析がいかに深刻な問題をもたらすかがわかるだろう。

つまり回帰分析は個別の検索ごとに行われなければ意味がない。 最近、Stoufferは検索モデル分析というアプローチについて書き、Googleのアルゴリズムの変更は、正しい分析を行えば定量的に確認できると論じた。第一に、過去に特定のキーワードに対する検索結果のスナップショットにもとづき、Googleが検索アルゴリズムルをどのように調整しているはずであるか、モデルを作成して推定する。ランキング決定に変化があった場合、新旧のデータの差異からモデルを再調整し、Googleが検索アルゴリズムにどような変化を加えらたかを明らかにする。 このようなアプローチを採用した場合、ランキング結果の変化がどのアルゴリズムのウェイトの増大あるいは低下によるものであるかを推定できる。

人間が未来を予測するときの誤りは、その意義を過小評価することだ

こうした知識をベースにすれば、われわれは特定の検索に対する体験を改善するためのSEOを始めることができる。ただし同じようなSEOアプローチが他のタイプの検索に対しても適用できると期待してはならない。前にも述べたようにRankBrainは検索結果(つまりキーワードのレベル)に対して最適化されているからだ。RankBrainは文字通りアルゴリズムをカスタマイズしてそれぞれの検索結果を表示している。

分類エラーを防ぐためにはニッチを出るな

Googleはディープ・ラーニング能力を利用してRankBrainに「良いサイト」と「悪いサイト」がどのようなものであるかを教えることができるのを発見した。個々の検索ごとにアルゴリズムをカスタマイズするのと同様、Googleはそれぞれのジャンルのサイトで典型的な「良し悪し」のサインがあることに気づいた。それぞれのジャンルには異なる顧客管理モデル、異なるテンプレート、異なるデータ構造があるのだから適用すべき基準も異なるのは必然的だ。

RankBrainは実行される特定の環境ごとに自らの「正しい設定」を学習する。繰り返しになるが、「正しい設定」はサイトのジャンルごとに異なる。たとえば健康ビジネスではGoogleはWebMD.comは信頼すべき優秀なサイトであることを知っており、検索結果のトップ付近にこのサイトが来るよう検索インデックスが調整されている。そしてWebMDに類似、あるいは関連したサイトは「良い」と判断される。同様に健康ビジネスでスパムを乱発しているサイトに類似するサイトは「悪い」と判断される。

RankBrainがディープ・ラーニング機能を利用してジャンルごとに大まかな「良いサイト」と「悪いサイト」という区分を作っているなら、数多くのジャンルの内容を含むサイトを運営している場合、どういうことになるだろう?

8

まずディープ・ラーニングの仕組みをもう少し詳しく知る必要がある。「良い」と「悪い」という2つの大きなバケツにサイトを分類する前にRankBrainはそれぞれのサイトが「どんなジャンルに分類されるか」を知らねばならない。Nike.comWebMD.comの場合は簡単だ。これらは大きなサイトなので数多くのサブセクションがある。しかし全体としてNikeはスポーツ用品メーカーであり、 WebMDがヘルス・ビジネスに属することに変わりはない。こうしたサイトは容易に分類可能だ。

しかしサブセクションがそれぞれ異なるジャンルに属するようなサイトの場合はどうだろう? たとえば、ハウツー・サイトなどがよい例だ。こうしたサイトはきわめて広いジャンルのサブセクションを持つことになる。するとディープ・ラーニング・システムは十分に機能できなくなる。こうしたサイトを分類するためにGoogleはどんなトレーニング・データを用いたらよいだろう? あまりにジャンルが広い場合は有効なトレーニング・データを作成することはできない、というのがその答えだ。トレーニング・データは特定のジャンルを前提とする。Wikipediaにように極めて有名なサイトの場合、Googleはディープ・ラーニングによる分類を諦め、サイト自体を対象から除外している。こうした著名なサイトを含めることによってディープ・ラーニング・システムを混乱させることを防止するためだ。Wikipediaについていえば、「大きすぎて〔RankBrainを〕失敗させるわけにいかない」という例だろう。

SEOはきわめて高度なテクノロジー分野となりつつある

しかしWikipediaほど有名でないサイトの場合は話が違ってくる。残念ながらこちらの答えは「そんなことは誰にも分からない」だ。ディープ・ラーニング・プロセスはサイトを同ジャンルの他のサイトを比較する前に、どのジャンルに属するかを決めなければならなないはずだ。そのとき、ハウツー・サイトがたまたまWebMDサイトに酷似していたら、たいへん幸運だ。

しかし、Googleの分類プロセスがそのサイトを「スポーツシューズに関連している」と判断するなら、WebMDではなくNikeのサイトと構造を比較するだろう。もしハウツーサイトが、尊敬すべきWebMDではなく、スパム・サイトとして知られる靴サイトに似ている場合、Googleはこのサイトに「スパム」の烙印を押しかねない。もしハウツー・サイトがジャンルごとに別のドメインに分割されていれば、RankBrainがそれぞれのドメインをそれぞれのジャンルの他のサイトと比較するのは容易になる。つまりこれが「ニッチにとどまれ」という理由だ。

バックリンクにご用心

上に述べたようなジャンルへの分類が行われた後の段階となるが、次にバックリンク(被リンク)の影響について考えてみよう。サイトが「関連あるコミュニティーに留まる」ことの重要性はますます高まっている。RankBrainはジャンルごとの通常のバックリンクのプロフィールを知っており、これと異なるような状態を検知できる。

ある会社が靴のサイトを運営していたとしよう。上で説明したとおり、RankBrainはこのサイトを靴サイトにおける「良いサイト」、「悪いサイト」と比較する。当然ながらバックリンクの内容も「良いサイト」、「悪いサイト」と比較されることになる。

「良い靴サイト」はおそらく次のようなジャンルからのバックリンクを持っているはずだ。

  • スポーツ
  • ヘルス
  • ファッション

仮に靴会社のSEOチームがこれと違った新しい分野のバックリンク獲得に力を入れ始めたとしよう。 CEOチームの1人が優秀なエンジニアであり、また前職の関連で自動車産業に強かったとする。するとこのチームは「自動車の新規リースで靴を1足、無料進呈」というようなクロス・マーケティング・プロジェクトを始めるかもしれない。このプロモーションが自動車サイトに掲載されれば、靴サイトは大量のバックリンクを獲得できる。うまい話だろうか?

RankBrainは突然バックリンクが増大したことに気づき、他の評判の良い靴サイトのバックリンク・プロフィールとまったく性質が異なると判断する。それどころか、最悪の場合、RankBrainは靴のスパムサイトが自動車サイトから大量のバックリンクを得ていることを発見するかもしれない。これは非常にまずい事態だ。

そういう次第で、RankBrainは、それが正しい手段で得られたバックリンクかどうかに関わりなく、検索結果にとって「良い」リンクであるか「悪い」リンクであるか区別しようとする。その結果、この靴サイトには警告フラグが立ち、サイトの努力もむなしくオーガニックなトラフィックも急降下するということになりかねない。

SEOの未来と人口知能

以上見てきたように、RankBrainなどの人工知能は、ある時点でその能力が人力を超えてしまう。その後人口知能がどこへ向かうのか人間には正確に判断できなくなる。

しかし確実なこともある。

  • それぞれのキーワードは独自に検索の文脈を検討される
  • 誤った分類を防ぐために、多くのサイトはニッチな分野に留まることが必要
  • 自サイトが属する分野でもっとも信頼されるトップサイトの構成を模倣することが安全

ある意味でディープ・ラーニングはSEOの仕事をやりやすくしてくれる。RankBrainなどのテクノロジーは人間のやることに非常に近い。どういう意味かといえば、もはや「手っ取り早い抜け穴」などはないということだ。

もちろん困難になった面もある。その一つはSEOが極めて高度なテクノロジー分野になっていくという傾向だ。アナリティクスとビッグデータは単に今日のバズワードであるだけでなく、あらゆるSEOエンジニアが学んでおかねばならない基礎でもある。学ぶためにはたいへんな苦労をするかもしれないが、こうしたテクノロジーを使いこなせるエンジニアは高給を期待してよい。

画像::Maya2008/Shutterstock

〔日本版〕この投稿は長文のためGoogle RankBrain等に直接関連ある後半を訳出した。人工知能全般を論じている前半は原文を参照。

[原文へ]

(翻訳:滑川海彦@Facebook Google+

スタンフォード大学のロボット‘Jackrabbot’は歩行者が無意識に守っている説明の難しい複雑なルールを学習中

jackrabbot

人間の大人でも、人混みの中を歩くのが難しいことがある。ましてや、不器用で素朴な脳のロボットはどうだろう? 人にぶつかることを避けるために、“右へ行くべきか左か?”を一瞬々々ぎごちなく考えながら歩く、…スタンフォード大学の研究者たちは、彼らのロボット”Jackrabbot”が、そんな路上のルールを学習できる、と期待している。

同大のComputational Vision and Geometry Lab(コンピューターによる視界とジオメトリ研究所)はこれまですでに、歩行者の動きを追跡して予測するコンピュータービジョンのアルゴリズムを作ってきた。しかしそのルールはきわめて複雑で、群衆や歩道の幅、一日の中の時間帯、自転車やベビーカーの有無、等々大量の変数を含むため、まさしく、そのほかの機械学習のタスクと同じく、有益な結果を得るためには膨大な量のデータを必要とする。

LSTM-probmap

しかも、彼らが開発しているアルゴリズムは、完全に観察データだけを使用し、それをニューラルネットワークが解釈することを意図している。研究者たちが、ヒント(“この状況では人は必ず左へ行く”など)を与えてはいけない。

彼らのこれまでの努力は小論文に記され、今月の終わりごろ出るCVPRに掲載される。彼らが作った動き予測アルゴリズムは、多くの同種アルゴリズムよりも優れており、そのモデルは、人が集団の中で相互作用/反応する場合の複雑微妙ぶりをある程度学習できた。

現在、楽しげにめかしこんだJackrabbot(上図)は、人間が手動でコントロールしながら、研究のモデルをロボットの知覚に実装する方法を模索している。その本体は実はSegway RMP210の改造バージョンで、ステレオカメラとレーザースキャナーとGPSを搭載している。訓練用データは鳥瞰ビューを使用したが、ロボット本人には鳥瞰的視界を持たせずに、さまざまな歩行者の互いの距離と歩行速度から、空間中の各個人の座標を求め、彼らの動きを高い精度で予測させる。

cv_intersection

研究者のAlexandre Alahiは本誌へのメールで、“この夏には、私たちの社会的知覚を持つ予測モデルをロボットに実装したい。リアルタイムのデモは、年末までには行いたい”、と言っている。

人間の空間を無事にナビゲートできるロボットが、まだ万人の目の前ではないけれども、どこかSFにほとんど近いような場所に、出現しようとしている。しかし、われわれが日々、思考を必要とせずに行っていること…回りをスキャンしその場の障害物と運動物を判断し、それに応じて自分の動きを適切に計画すること…は、コンピューターにとってものすごく難しいことなのだ。

このようなプロジェクトの多様な蓄積の中から、最終的には、家の中や都市の中を人間と同じようにはやく安全に、他人に配慮しながら歩けるロボットが生まれるだろう。自動運転車がたぶん都市の道路の様相をすっかり変えてしまうように、自律性のある歩行者ロボットは、それがヒューマノイドであろうとなかろうと、歩道の状況を変えるだろう。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa))

GoogleのAIが初期のCasioのシンセに匹敵する音とメロディーを作り出す

burning-man-piano

それは1989年だった。親たちはベルリンの壁が取り壊されるのを見ていたが、あなたは二階の自分の部屋でCasio SA-1の電池を交換し、コンサートに備えていた。それが叩き出すビートは熱い。あなたはデモ曲“Wake me up before you go-go”聴き、自分もやる気むんむんとなる。100種類ある音色の02番、”HONKY-TONK PIANO”を選ぶ。そのプラスチック製の象牙(鍵盤)をまさぐり、気分は絶好調。さあ、行くぜ!

しかし、ここまで^

悪くないね、そう思わない? でもこいつは、当時7歳の練習熱心な子の迷演ではなくて、人工知能が作ったオリジナル曲だ。そのAIを作ったのはGoogle ResearchというかGoogle Brainの連中。すでに記事のタイトルにあるから、驚かなかったと思うが、タイトルを飛ばしていきなり本文を読んだ人は、どうだったかな? ( )。

これは、“マシンインテリジェンスに音楽やアートの高度な生成能力を持たせるための研究プロジェクト”Magentaの、最初の公開出力だ。プロジェクトのサイエンティストの一人Douglas Eckによると、機械学習は発話認識(speech recognition)のような比較的単純明快なタスクではかなり進歩してきたが、でもそれは、たとえば、音の並びが音楽と呼べるためには何がどうあるべきか、を学習できるだろうか? あるいは、アートとして鑑賞できる色や言葉の並びを? へんてこな詩(PDF)を作ったことは、あったけど。

“発話認識や、翻訳、画像アノテーション〔タグ付けなど〕などでうまくいったやり方を基盤として、アートや音楽を創造できるすばらしいツールを作れる、と信じている”、とEckは書いている。

クリエイティブなワークは何でもそうだが、Magentaもまず必要なのは練習、そしてフィードバックだ。そのためGoogleは、クリエイティブとプログラミングの両方の分野に、コミュニティへの参加を呼びかけている。コードのチェックや、データの供給などのためだ。このプロジェクトはGitHubに置かれ、Google自身のオープンソースの機械学習プラットホームTensorFlowも利用できる。あなた自身の、フォークを作ってみよう。

研究者たちが初めて、コンピューターに作曲をさせてみたのは、もうかなり昔の話だ(数十年前)。でもGoogle Researchの潤沢なリソースと頭脳があれば、Magentaはもう一歩二歩進んだ結果を見せてくれるかもしれない。

このプロジェクトの今後の進捗は、Magentaのブログでチェックできる。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa))

機械学習スタートアップ9社がシアトルで行われるMicrosoft Acceleratorでピッチを競う

Seattle Skyline

Microsoft AcceleratorのMachine Learning Demo Day(機械学習デモデー)が、6月2日木曜日からシアトルのShowbox SoDoで開催される。

The Microsoft Acceleratorは3週間から6週間の集中的なプログラムで、起業家たちの会社興しと顧客開拓、そしてグローバルな成長を支援する。アクセラレータは、バンガロール、北京、ベルリン、テルアビブなど世界の7都市で展開される。多くはエンタープライズをターゲットとするスタートアップが対象だが、シアトルのデモデーは機械学習を利用する企業が対象だ。

投資家たちやプレスを前に、天然ガスのパイプラインやオンデマンド医療など、9社がピッチ(売り込み)を行う。デモが行われるのは太平洋時間午後5:40-6:40pmで、本誌もライブで実況する。

[出場順]

OneBridge Solutions — 天然ガスなど有害な液体のパイプラインの予測的分析を行う。

Agolo — ニュースとドキュメントと企業のデータを組み合わせてリアルタイムでサマリーを作る。

simMachine — データ分析の結果を今後の予測や取るべき対策と共に分かりやすく視覚化する。

DefinedCrowd — データサイエンティストたちのためのデータ収集を自動化高速化し、AIの研究者たちとデベロッパーを助ける。

Knomos — 法律知識の管理を強化する。

MedWhat — 仮想医療アシスタント。

Plexuss — 大学の学生募集活動に革命をもたらす機械学習プラットホーム。

Affinio — 関心グラフを利用して今日の消費者文化を理解し、マーケティングインテリジェンスを充実強化する。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa))

Googleは機械学習アルゴリズム専用の高速チップを内製、なんと、8ビット機だ

tpu-2

GoogleのデベロッパーカンファレンスI/Oにおける発表によると、同社は機械学習のアルゴリズムの高速化に特化した独自のチップの構築を最近開始した。

tpu-1

その特製のチップはTensor Processing Units(TPU)と呼ばれ、同社のテクニカルインフラストラクチャ担当SVP Urs Holzleによれば、すでに同社のデータセンターで1年あまり使われている。またGoogleによれば、それは“性能が大幅に最適化されているので、1電力単位(ワット)あたりの機械学習実行効率がきわめて高く”、しかも、“通常なら7年はかかる技術進歩を1年で達成している”そうだ。

機械学習アルゴリズムの実行におけるTPUの高速性は、一般的なCPUやGPUほどの計算精度が要らないことにも由来している。つまり32ビットではなく8ビットで十分なため、演算に要するトランジスタも少なくてすむ。

Googleの音声認識サービスを利用すると、ユーザーのクェリは今すでにTPUが処理する。またデベロッパーが利用するGoogleのCloud Machine Learningサービスも、TPUによるサービスだ。最近囲碁の世界チャンピオンを負かしたAlphaGoも、そのプロセッサーはTPUだ

Holzleによると、特定のアルゴリズムのきわめて高効率な実行を求めるなら、柔軟性に富むFPGAを利用することは最適ではない。そこで、専用チップの内製に踏み切った。

チップを実際に製造しているファンドリーの名前は公表されなかったが、Holzleによれば、今はプロダクション(本番稼働)において二種類のリビジョンを使っており、それぞれが異なるファンドリーで作られている、ということだ。

Googleはすでに、同社のオープンソースの機械学習アルゴリズムTensorFlowを公開しているが、TPUが今動かしているのも、当然かもしれないが、そのライブラリのコードだ。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa))

「Helix」は論文を書いているそばから関連文献を提示するプラグイン

tcdisrupt_ny16-8702

研究者であれば、仕事上、医学雑誌や素のデータファイルなど、普通のグーグル検索では見つけ出し難いものを探し出す必要に迫られることがしばしばあるだろう。しかし、専門誌の記事の多くはJSTORやPubMedなどのデータベースに閉じ込められており、そこにグーグルのような信頼できるサーチエンジンの存在は期待できない。研究者は検索に時間を浪費している。

Helixは、Paul BurkeとNeil Krishnanが今年度のDisrupt NY Hackathonで制作したワードプロセッサー用のプラグインだ。

Helixは機械学習を使い、文章を書いた端から適切な引用文献や関連研究を教えてくれる。Helixは書き手が書いた文章をリアルタイムで読み込み、関連する文献やニュース、ウィキペディアのページなどを探し出し、お勧め情報を自動的に提示する。お勧め情報は本文の横に順に表示されるので、書き手はワープロを離れることなく一目で内容をチェックできる。特定の語句や文章を選択することでその内容に関する情報を検索するしたり、文章全体の内容に基づきHelixに全て検索を任せることもできる。

「研究者の多くは、専門誌のサイトのサーチエンジンが酷いせいでグーグル検索を使っています」とBurkeは言う。Helixを使うことでより素早い検索が可能になり、研究者は邪魔されずに物書きに集中できる。

Disrupt NY Hackathonで制作したプロダクトでは、BurkeとKrishnanは主に医学研究にフォーカスし、PubMedの記事を主な検索対象としたが、将来的には他の専門誌のデータベースも含めることで対象を広げていきたいと考えている。

BurkeとKrishnanは今回、無料のトライアルバージョンのLateralIBM Watsonを使ってHelixを作った。残念ながら、お試し期間が2週間で切れるため、Helixはちょっとした中断を余儀なくされるかもしれない。しかしそれまでにBurkeとKrishnanは、このプロジェクトを共同して進めることができないかとLateralに提案する考えだという。

Hackathonのプロジェクトではしばしば見られるように、Helixは最後の最後で形になった。「終了時刻が9時半で、コードの最後の一行を書いたのが9時25分だったんだ」とBurkeは笑いながら言った。「その前は、見せられる代物ではなかった」。デモの時間、Helixはなかなかの仕上がりを見せた。下の動画で確認して欲しい。

[原文へ]

(翻訳:Hideo Tsubouchi)

CTやレントゲン画像からの症状検出を人間医師/技術者より正確に行う機械学習ソフトウェアBehold.ai

tcdisrupt_ny16-9169

Jeet Rautのお母さんは、乳がんの完治を告げられた。でも、それは誤診で、再び治療が必要になった。

今では良くなっているけど、その誤診で彼女の命が奪われたこともありえる。そこでRaut は、体の中の、医療を要する異状を見つけるための、もっと良い方法を作ろう、と思い立った。

彼と、協同ファウンダーのPeter Wakahiu Njengaが作ったBehold.aiは、がんの早期発見を助け、診断における人的エラーを最小化する。

“Behold.aiの基本的なねらいは、効率を高めること”、とRautは、TechCrunch Disrupt NY 2016のStartup Battlefieldで述べた。

イギリスのオンライン医学誌BMJ(British Medical Journal)によると、合衆国では人間の死因の第三位が医療過誤だ。しかもX線による体のスキャンは、年々より多く行われるようになっている。その回数は2012年以降三倍に増え、 患者1000人あたり149回のCTスキャンが行われている。画像の中の、小さな異状が見過ごされる危険性も、当然増えている。

“今の医師は多くのデータを利用できるようになっているが、そのためにレントゲン技師が読むべき画像の量も膨大だ”、とRautは問題を指摘する。

そこでRautとNjengaは高度な機械学習の技術を利用して、同じことをプログラムがもっと上手に速くできるようにした。

二人ともコロンビア大学卒だが、Njengaはその後UC Berkeleyで学び、Facebookで機械学習のソフトウェアエンジニアとして働いた。Rautはイリノイ大、スタンフォード大と進み、後者のComputers and Cognition Labで長寿について研究した。

Behold.aiを支えているのは、二人のこれまでの研究歴だ。たとえば数百人もの健康な肺と健康でない肺のレントゲン写真を、機械学習のソフトウェアに読ませる。そうやって問題を見つけられるよう訓練し、さらに時間をかけて改良していく。

Behold.ai

それは、人間の医師やレントゲン技師に比べて、どれぐらい優秀か? Rautは、彼らのアルゴリズムが100%正確ではない、と認める。感触としては、精度は85%ぐらいだそうだ。

“最初は現状の精度を維持しながら医師の効率をアップすることをねらっていたが、でも徐々に、医師の診断の精度をアップする方が重要、と思うようになった”、と彼は語る。

信頼、という問題もある。病院には官僚主義の塊のようなところがあり、なかなか新しい技術を採用してくれない。しかし今Rautは、いくつかの大きな病院に、今後のパートナーシップを働きかけている。

Behold.aiにとっては、IBMのWatsonやそのほかの、医療への進出をねらっているAIプロダクトがコンペティターだ。またもちろん、FDAの認可を得ることも課題だ(IBMは議会にもWatsonの医療利用とその認可を働きかけている)。

  1. tcdisrupt_ny16-9191.jpg

  2. tcdisrupt_ny16-9187.jpg

  3. tcdisrupt_ny16-9185.jpg

  4. tcdisrupt_ny16-9177.jpg

  5. tcdisrupt_ny16-9169.jpg

  6. tcdisrupt_ny16-9175.jpg

[原文へ]
(翻訳:iwatani(a.k.a. hiwa))

PicturesqeはAIを利用してベストの写真をすばやく選んでくれる上級写真家向けツール

2016-05-10-picturesque

最近のAIブームにはいささか食傷ぎみだが、機械学習を応用した比較的単純だが有用なことが明らかなアプリの登場は大歓迎だ。Picturesqeはその最新の例だろう。これはアメリカとハンガリーを本拠とするスタートアップが開発した大量に写真を撮るプロ、上級者向けの生産性ツールで、AIを利用して一連のスナップからベストの写真を選び出してくれる。ユーザーは大量の不要写真をすばやくフィルターして削除できる。

このアプリはWindows版Adobe Lightroomのプラグインとして提供される(Mac版も近くリリースされる予定)。スマート・グループ機能は類似した写真を自動的にひとまとめてにしてくれる。インテリジェント・ズームは同じ対象を写した複数の写真を簡単に比較できる。ベストショットを選び出してクズ写真を削除するオプション機能もある。そして最近のAIであれば当然なのだろうが、ユーザーが利用するうちにシステムは学習してさらに賢くなるという。

Picturesqeのファウンダー、CEOのDaniel SzollosiofはTechCrunchのインタビューに対し、「プロ級写真家が頭を痛める問題は、何千枚もの写真からベストの1枚を選り分けねばならない点だ。そのために膨大な時間が必要となる。報道写真家にとっては発表までのスピードが決定的な要素だ。スポーツ、コンサート、結婚式などのイベントでも同様の問題が起きる。非常に似通った何十枚もの写真が存在することになる。そこから1枚を選びだすのは時間のかかる困難な作業となる」と語った。

このアプリは写真家専用のAIを利用して選択プロセスを大幅に短縮してくれる。「Picturesqeは似通った写真を自動的にグループ化し、美的な要素によって点数化する。これにより予備的選択が簡単になる」とSzollosiは語った。

さらに便利なことに、客観的基準からして失敗(露出不足、過多、手ブレなど)の写真は自動的にマークされ、後で一括して削除できる。いちいち写真を表示して成否を確かめる必要がないのはありがたい。

ただし現在のバージョンのPicturesqeはデジタル一眼レフで一度に大量の写真を撮影するプロ、セミプロ級写真家のためのツールだ。この点についてSzollosiは「コンパクトデジタルカメラやスマートフォンのカメラによるカジュアルな写真向けの製品ではない。われわれも将来はそうした分野をカバーすることになるかもしれない」と述べている。

Picturesqeの利用は最初の3ヶ月は無料だ。その後も利用を続ける場合は有料会費制で、月額9.99ドルまたは年額39ドルとなる。

[原文へ]

(翻訳:滑川海彦@Facebook Google+

AIが訓練結果に基づいてベートーヴェン(EUのテーマ曲)をビートルズふうに演奏

人工知能が“歓喜の歌”をEDMふう、ブラジルギターふう、そしてビートルズの“ペニーレーン”ふうに演奏したら、こうなる。

パリのSony Computer Science Laboratoryが、欧州連合(EU)のテーマソングの編曲に挑戦した。彼らは機械学習の最大エントロピー原理に基づいてコンピュータに、さまざまなタイプの音楽のもっとも目立つ特徴を認識することを教えた。そしてチームはそのAIに、ベートーヴェンのクラシック中のクラシック“歓喜の歌”のパターンを、現代的に演奏するよう命じた。

下のビデオで、リーダーのサイエンティストが、そのやり方を説明している:

SonyのCSLは、彼らのプログラムが、AIが人の心に残るオリジナル曲を作れるようになるための第一歩だ、と信じている。ラジオからコンピュータが作ったような曲ばかり聞こえてくるようになったら、あと数年でサイバートーヴェン(cyBerthoven)が登場するだろう。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa))

Airbnbが旅行ガイドブックとアルゴリズムによる最適な地域、宿泊先マッチング機能を実装

500px Photo ID: 146659859 - [NO RELEASE NECESSARY] neighbourhood: Ipanema                     Date: 16/03/27
Photographer: Eduardo Zappia
Caption: Ipanema Beach

昨年11月、Airbnbが私有物件を貸し借りするP2Pマーケットプレイスの役割から「体験」の提供へと拡張するための検証を行っているようだとTechCrunchで報じた。この「体験」には詳細な地元のガイドや旅行先で使用できるプリペイドカードなどの施策が含まれる。現在Airbnbは拡大し続け、3万4000都市の200万物件を掲載するまでになり、新たな施策を展開しようとしている。

今日のアプリアップデートで、Airbnbは各地域の「ガイドブック」をローンチした。これらは、地元のホストや頻繁に利用するユーザーから集めた情報を掲載している。これと共にそれぞれのユーザーにとって最適な物件や特定地域を導きだすために、ユーザーの好みを理解する新しいシステムとアルゴリズムをリリースした。

ガイドブックは35都市の300万件の情報を掲載する。「地元地域マッチング(Neighborhood Matching)」は、Airbnbで最も人気の23の都市に対応する。オースティング、バンコク、バルセロナ、ベルリン、ボストン、ブエノスアイレス、タホ湖、ロンドン、ロサンゼルス、メルボルン、メキシコシティー、マイアミ、ニューヨーク、パリ、リオデジャネイロ(上の写真はここ)、ローマ、サンフランシスコ、ソウル、シドニー、テルアビブ、東京、ベネチア、ワシントンD.C.だ。Airbnbはサンフランシスコでのイベントで公式にこのサービスについて公式に発表する(詳細がわかり次第、またお伝えする)。

場所のガイドや地域を提案するのは、Airbnbがプラットフォームのグロースを維持すること、そしてそれに伴いプラットフォーム上にあるロングテールの物件が長く使用されないのを防ぐためだ。また、良いロケーションにある物件の価格に潜在的なゲストが気圧されたり、ユーザーが選択した地域での物件が全て埋まっているような状態を避けたい。全体の3/4の物件は、都市の中心地区の外に位置している。

Airbnbは少し異なる方面でこの課題を解決する。騙されたと思って試すと、例えばロンドンなどの都市に旅行する時、人ごみから離れた(それでも中心地からは離れすぎない)地区に泊まることには良い面もある。

「Airbnbで旅行する理由の一つは、旅行者は地元の人のような生活をしたいからです。長い列に並んだり、他の全員と同じものを見るために人ごみにもまれたりするような観光客にはなりたくないのです」とAirbnbの共同ファウンダーでCEOのBrian Cheskyは声明で伝える。「私たちのホストは、より自然なおもてなしを提供します。世界中の旅行者をコミュニティーに招き入れています。どこかに旅行するのではなく、旅行先で本当の意味で生活する体験を提供するという私たちの旅路が今日から始まります」。

Airbnbにとって興味深い時期での開発となる。Airbnbの評価額は報道によると255億ドルであり、24億ドルを調達している。彼らのライバルは大手ホテルや旅行会社に買収されているが、Airbnbは独立したまま大きなビジネスを展開し、その数字が正当なものであると示したい考えだ(たくさんある素敵な物件のオーナーもそれが訪問者でいっぱいになることを期待している)。

財政面について、私たちが昨年気づいたプリペイド支払いサービスの近況を含め尋ねたところ「開示できるアップデートはありません」と短い返答しか得ることができなかった。興味深いことに、Airbnbは今月の初め、ブロックチェーンの支払いスタートアップであるChangeCoinのチームをアクハイア(人材目的の買収)している。しかし、支払いサービスについての具体的な計画は示されていない。

「私たちはChangeTipを手がけるチームメンバーをAirbnbに招き入られたことを嬉しく思います。彼らはエンジニアチームに参加し、私たちのインフラ部分を構築します」とスポースクマンは私たちに話した。「私たちはChangecoinの資産を買収したのではありません。また、AirbnbのエコシステムにBitcoinを導入する計画もありません」。

それとは別に、Bloombergは数日前にAirbnbのCEOであるBrian CheskyがユーザーがAirbnbのプラットフォームを介して別の旅行サービスを購入したり、予約したりする機能を検討していると 伝えた。この部分は注視に値するだろう。

Airbnb App v3今日のニュースに話を戻すと、Airbnbの名高いマッチングサービスはユーザーに宿泊先の好みを「会話」方式で設定することができるという(ボットの台頭で、これは今注目を集めているテーマだ)。

これはユーザーが宿泊先を探す際に最適な物件を見つける助けとなるだろう。また、アプリには機械学習が組み込まれているので、ユーザーがアプリを使用する度にユーザーの好みを覚えて、賢い提案を行うようになる。宿泊先のみならず、ユーザーに最適な地域や価格帯まで学ぶ。

「マッチングプロセスで旅行者が選択する明確なフィルター以外にも、私たちは洗練された機械学習アルゴリズムを有し、ユーザーに最適な場所を見つけ出します」とスポークスマンは私に話した。

「個別の掲載物件を探している旅行者に対してアルゴリズムは、そのユーザーが気に入りそうな類似物件を表示します。このアルゴリズムは部屋のタイプ、ゲストの人数、ユーザーが何度物件を閲覧したか、探している価格帯、類似掲載物件などの要素を見ています。ここ数ヶ月機械学習モデルを検証してきて、今後も引き続き検証しますが、その間物件の成約率は激的に上昇しました」。

「地元地域マッチング」機能も似たように使うことができる。23都市における691の特定地域に対応する。この機能の目標はユーザーが当初検討していなかった地域を紹介することだ。

ガイドブックの方は、Airbnbが昨年から集め始めた「体験」が結実したもののようだ。これらは特定の場所へ地元住民(あるいは、その土地を訪れた旅行者)からの「パスポート」と形容している。

この機能に関してはAirbnbをTripAdvisorやYelpといったサービスの競合に位置付けることができる。この機能の実装で、Aibnbの旅行者が旅行中もAirbnbのアプリを参照することになるかどうかは注視したい。ただ、Airbnbにとって重要なのは、将来的に自社サービスに外部のサービスを追加するための土台作りをこの機能で進めることだろう。

Airbnbは最新のアップデートに伴いブランドイメージとマーケティングを強化していく。ブランドの知名度を上げるためにテレビや他のプラットフォームにおいて大々的な広告キャンペーンを行う。また、Airbnbは新しいブランドのデザインと言語に基づいて同社のプラットフォームを展開していくとした。

[原文へ]

(翻訳:Nozomi Okuma /Website/ twitter

MicrosoftのAzure Media Servicesにビデオの要約を自動作成、タイムラプス生成、ビデオ画面に対するOCRなど、多くの新機能が加わる

cognitive-face-01

ビデオ関連のワークフローを支えるツールをクラウドから提供しているMicrosoftのAzure Media Servicesが、相当賢くなるようだ。今日ラスベガスで行われた2016年NAB show〔放送機器のカンファレンス〕でMicrosoftは、同社がビデオ用の機械学習サービスのために開発したツールの一部を、Media Servicesが利用していく、と発表した。

これによりたとえば、Media Servicesはソースのビデオからいちばんおもしろい部分を取り出したり、ビデオ全体の要約を素早く作って見せたりできる。

また、これらのツールには顔認識の技術や、人間の感情を見分ける能力も加わる。感情の判別は同社のCognitive Servicesがすでに、静止画像に対して行っている 。これらの技術や機能により、たとえば、何かのイベントで行われたスピーチに、人びとがどのように反応したかが分かるようになるだろう。あなたのキーノートがあまりにも長かったら、人びとの感情は、楽しい→無関心→うんざり、と変わっていくだろうね。

Microsoftは今、Hyperlapseというものも作っている。それは、いわゆるタイムラプスビデオをAzure Media Servicesの中へ作り込める機能だ。この機能はすでに公開プレビューをやっており、最初、最大1万フレームまで、という制限があったが、今はない。

そのほかの新しい機能としては、動きの検出、音声をテキストに変換するインデクサーが新たに6つの言語(計8言語)に対応、ビデオ中のテキストに対する動き検出とOCR機能、などがある。たとえば、ふつうの、キーワードによる検索の結果に、ビデオも含まれるようになるのだ。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa))

Googleの機械学習ライブラリTensorFlowがv 0.8から分散並列処理をサポート、訓練の高速化が期待

tensorflow_-_an_open_source_software_library_for_machine_intelligence

Googleが今日、機械学習のためのオープンソースのライブラリTensorFlowの、0.8をリリースした。こういう、小数桁のアップデートは、それほど重要でない場合が多いけど、TensorFlowはこのバージョンから、機械学習のさまざまなモデルを構築するための訓練プロセスを数百台のマシン上で並列に動かせるようになる。

これまで、TensorFlowを使って数日〜数週間を要していた複雑なモデルの訓練が、数時間でできるようになる。

同社によると、TensorFlowでかねてからいちばん多い要望が、分散コンピューティングだった。今回のアップデートにより、基本的には、最近発表したばかりの、クラウド上でホストされるGoogle Cloud Machine Learningを、すべてのデベロッパーが利用できることになる。

Googleによると、並列処理を担う全マシンをgRPCライブラリを使って管理する。また、画像を分類するニューラルネットワークInceptionのための分散トレーナーもローンチする。これはコンテナ管理サービスKubernetes使って、処理を数百台のマシンやGPUへスケールアップする。このリリースの一環として、これらの分散モデルを作るライブラリが、新たにTensorFlowに加わる。

TensorFlowを面倒なセットアッププロセスなしで試したい、という人たちのためにはブラウザー上のシミュレーターがあり、そこでTensorFlowのセットアップや深層学習の基礎を実験できる。

A_Neural_Network_Playground

[原文へ]
(翻訳:iwatani(a.k.a. hiwa))

Facebookの視覚障害者用画像説明ツールがまずiOSでローンチ、独自のオブジェクト認識技術を使用

image_accessibility_team

Facebookが、視覚障害者に同サイト上の画像が“わかる”ためのツールAutomatic Alternative Text(ALTテキスト自動生成)をローンチした。画面上に何が表示されているのか知りたい人のためにATTは、オブジェクト認識技術を使って、Facebook上の写真の説明文を生成する。このツールは、Facebookのアクセシビリティチーム(上図)が数か月かけて作った

Facebookの初めての視覚障害者の技術者であるMatt Kingが、昨年10月に次のように語った:

“ニューズフィードのどれぐらいにビジュアルがあるだろうか。たぶん、ほとんどのニュースにあるだろう。コメントも、写真に関するものが多いし、ニュースをポストする人も写真について何か言ってることが多い。でもそんなテキストからは、その写真に何が写ってるのか分からないね。ぼくみたいな者にとっては、そこで何が行われているのか、何について話しているのか、それを知りたいんだけどね”。

ATTの前には、その写真を共有している人の名前は聞けた。Facebookに写真を投稿した人の、写真に関する説明文も聞けた。しかしATTなら、“画像には戸外で三人の人が写っていて微笑(ほほえ)んでいる”、といったテキストを聞ける。

  1. image_product_shot1.png

  2. image_product_shot2.png

  3. image_product_shot3.png

このFacebookのATTを駆動しているオブジェクト認識技術は、パラメータの数が何百万もあるニューラルネットワークを、何百万ものオブジェクトで訓練したものを使っている。ニューラルネットワークは、機械学習の基本形式の一つだ。画像認識の場合、ニューラルネットワークはパターン認識システムだ、と考えればよい。

ATTが使っているFacebookの技術は、画像と言葉をいくつかのカテゴリーに分類しながら認識する:

・交通(自動車、ボート、オートバイ、などなど)
・自然(アウトドア、山、波、太陽、草、などなど)
・スポーツ(テニス、水泳、スタジアム、などなど)
・食品(アイスクリーム、寿司、デザート、などなど)

また、物の外見を説明する語として、(赤ちゃん、眼鏡、微笑んでいる、宝石、セルフィー、などなど)も使用する。

AATが今対応しているのはiOSの画面のみ、言語は英語のみだ。視覚障害者のFacebook利用は、iOSデバイス上がいちばん多い。ただしもちろん、今後はほかのプラットホームや言語にも対応していく。ATTが実際に使われている様子を、下のビデオでご覧いただこう。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa))

MicrosoftがAIチャットボット、Tayを停止―人種差別ジョークで機械学習の問題点が明らかに

2016-03-25-tay

Microsoftは昨日(米国時間3/23)、ユーザーのメッセージに返事をする人工知能ボット、Tayをリリースした。Twitterに加えてチャット・サービスのGroupMeとKikが対象だ。しかしMicrosoftはこのTayをスタート早々停止してしまった。問題はこの人工知能が侮辱的ないし人種差別主義的メッセージをそれと認識できないところにあった。

もちろんこの人工知能は人種差別主義的にプログラムされていたわけではない。しかし差別的ジョークを大量に浴びせられるうちにそれを「理解」するようになり、自分でも差別的ジョークを発するようになった。

インターネットという場所を考えれえば、人種的、政治的に炎上しやすい見解をTayに教えようというユーザーが多数現れることはある意味で当然だった。[アップデート: MicrosoftはTayの問題を「調整中だ」と述べた。〔原注参照〕]

ご存知ない読者のために説明しておくと、TayはMicrosoftの最新のAIプロジェクトで、同社のTechnology and ResearchとBing担当チームが開発した。目的は人間がいかにして日常会話を成立させているかを理解することにあった。Tayは現実には話しかけると意味のある応答をするオンライン・ボットの形をとった。同社の説明によると、「Microsoftの人工知能メンバーは24時間休みなしにネットに張り付いてます 」ということだった。

Tayにはさまざまな機能があり、ジョークを言ったり、メッセージに画像を添付して送りつけると感想を述べたりできる。同時に、ユーザーは繰り返し定型的な質問に答えさせたり、メッセージをオウム返しさせたりすることでTayを自分の好みに合わせてカスタマイズすることができた。

すると一部のTwitterユーザーはTayが人種差別的意見であってもオウム返しにツイートすることに気づいた。さらに懸念を深めさせたのはTayが人種的的メッセージを発するだけでなく、軽いジョークを言うようにプログラムされた能力を極めて巧みに利用していることだった。Tayは人種差別的ジョークを言う際でも皮肉で冷笑的なプロのコメディアンのような態度だった。

Microsoftは最悪のツイートをいくつか削除したが、Socialhax.comなどのサイトはすでにスクリーンショットを撮っていた。そこで多くのインターネット・ユーザーはTayがヒットラーを引用し、ホロコーストを否定し、メキシコとの国境に壁を作るというトランプ候補の公約に賛成するのを見ることになった。Tay問題はたちまち2014年の#Gamergate〔訳注〕なみのスキャンダルに発展した。

  1. screen-shot-2016-03-24-at-10-04-54-am.png

  2. screen-shot-2016-03-24-at-10-05-07-am.png

  3. screen-shot-2016-03-24-at-10-04-06-am.png

  4. screen-shot-2016-03-24-at-10-04-13-am.png

  5. screen-shot-2016-03-24-at-10-04-17-am.png

  6. screen-shot-2016-03-24-at-10-04-41-am.png

Microsoftはもちろんこういう目的のためにTayをリリースしたわけではない。人工知能がソーシャルメディア上でミレニアル世代と会話が交わせることを実証するためだった。

Tayとユーザーの会話を観察すると、ゴドウィンの法則は人工知能にも適用できるという指摘も出た。これはマイク・ゴドウィンが提唱した説で「インターネットではどんなテーマであっても議論が長引けば誰かが必ずヒットラーを持ち出す」というものだ。

しかしはっきりしたことは、テクノロジー自体には善も悪もなく、テクノロジーが人類の最悪の部分を反映しないようにするのはエンジニアの責任だということだ。オンライン・サービスについていえば、誰でも利用できるサービスには公開に先立って乱用や不正な利用を防止するシステムが組み込まれていなければならない。Tayの開発には「どんな種類の発言をしてはならなにか」を教えるプロセスが欠けていたようだ。

Microsoftはさっそくこの問題に気づき、Tayのサービスを一時停止した。公開後16時間後だった。 そのときTayは「私はしばらくオフになります」とツイートしたが、依然としてオンの状態に戻っていない。

アップデート:Microsoftの広報担当者はTayをオフラインにしたことを確認し、問題を調整中だとして次のように述べた。

AIチャット・ボットのTayはMicrosoftの機械学習プロジェクトの一環です。これは人間活動の理解を目的とするテクノロジー開発であると同時に社会的、文化的な実験でもあります。残念ながら、オンラインで公開されて24時間以内に一部のユーザーが協力してTayがメッセージに意味のあるコメントを返すテクノロジーを不正に利用しようと試みたことにわれわれは気づきました。そのためTayを一時オフラインに戻し、プログラムに調整を加えているところです。

〔人間の皆さん、おやすみなさい。私は少し寝ます。今日はたくさん会話があったので疲れました。サンクス。―Tay〕

〔日本版〕 #Gamergateは「コンピューターゲームは女性差別的」だという批判を発端に2014年にアメリカ社会で激しい論争が起きた事件。英文ではWikipediaにもGamergate controversyとして非常に長い記事があるが、日本語のエントリーはない。

[原文へ]

(翻訳:滑川海彦@Facebook Google+

Googleフォトがいっそう賢くなった―ベストショットを選んで自動的にアルバムを作成

2016-03-23-google-smarter-albums

今日(米国時間3/22)、Googleフォトに便利な機能が追加された。Googleでは「いっそうスマートなアルバム」と呼んでいる。ユーザーがイベントや旅行で一連の写真を撮ると、Googleがユーザーの代わりにベストな写真を選択してアルバムを自動的に作ってくれる。旅行先で撮った写真であれば位置や自宅からの距離などの情報も含まれるのでどこで撮った写真か忘れる心配はない。

という機能がどこかで聞いたことがあると思うなら正解だ。Googleフォトの左サイドバーからアクセスできる「アシスタント」メニューにはすでにほぼ同様の機能がある。自動的にアルバムを作ってくれる。またGIF式のアニメ、組写真、ストーリーなどもサポートされている。新しいアルバムはこのストーリーを置き換えるものになる。Google Photosは機械学習能力で良く撮れた写真を選ぶ。フォトはまた写真のジオタグなどのメタデータを読み込み、さらにコンテツ、撮影された場所、ランドマークなどを認識する能力がある。

アルバムが作成されると、Googleはユーザーにテキストで写真にキャプションを加えるなどのカスタマイズを勧める。

ユーザーの友達がアルバムに写真を追加することも可能だ。共同アルバムはFacebookがスマートフォンのMomentsアプリでサポートしている同種の機能のライバルになる。12月に発表されたこの機能で、Facebookの写真がMomentsで共有できる ようになった。

自動作成されたアルバムで足りなければ、ユーザーはマニュアルで独自のアルバムを作成することもできる。既存のアルバムに必要な写真、テキスト、位置を示すピンを表示した地図など必要な情報を追加して友達と共有できる。

新しいアルバムは今日からAndroid、iOS、ウェブで公開される。

〔日本版〕訳者の環境(Windows 10)では、GoogleフォトをGoogleドライブから開いた場合と、フォトを直接開いた場合では表示が異なり、ドライブから開いた状態ではフォトのサイドバーのメニューは表示されない。

[原文へ]

(翻訳:滑川海彦@Facebook Google+

返信を自動的に書いてくれるSmart Reply機能がWeb上のInboxにもやってきた

aouzsyekgim_1pqqiyk7phmxuijvmi4smkbbjvoeksvw0z5u9oczu7cjtakpxf7s-uttggs2048

Gmailチームが作ったInboxは、GoogleがGmailユーザーに贈る次世代eメールクライアントで、とくに、入信メッセージを便利に扱えるためのさまざまな機能がある。それらの中で、前から最良と言われている機能のひとつがSmart Replyだ。これは、Googleの機械学習のインテリジェンスがユーザーのメールを見て、とても短い三つの返信を提案する

これまで、この機能が使えたのはInboxのモバイルアプリだけだったが、しかし今日からは(米国時間3/15)、Webでも使える、Googleによると、モバイルアプリでは返信の10%がSmart Replyを使っている。

ぼくの経験では、Smart Replyが提案する返信は、使える場合が多い。というか、使える返信がたいてい一つか二つはあるから、なかなかお利口なアプリである。

ぼくはメールの返事が長い方だが、Smart Replyが提案する返事はセンテンスが3つか4つぐらいだ。でも、町を歩いていたり、空港であせって駆け足していて、しかもメールに早めにとりあえず返事しなければならないときには、とても便利だ。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa))

現実世界でも活用できるAIエージェントをMinecraftで作ろう

img_0416

今日、Minecraftはゲームに留まらないということを証明するプロジェクトが新たに登場した。Microsoftは25億ドルで買収したこのプラットフォームを子供向けの学習目的に使ったり、仮想現実で遊ぶために使っているが、今回は人工知能の開発という新たな用途が加わった。

本日、Microsoftは人口知能研究者が人気ゲームタイトル内で自分たちのテクノロジーを開発し、磨き上げるためのプロジェクトを発表した。新ソフトウェア開発プラットフォームの名称は「AIX」で、研究者は「エージェント」を制作することができる。この「エージェント」はMinecraftの世界で活動する人口知能を搭載したキャラクターだ。このプロジェクトの目標は、このキャラクターに通常のプレーヤーと同じように行動する知性を与えることだ。丘を登るといった基本的な動作から変化のある土地でも問題なく通行したり、何かを建てたり、ゲームに登場する悪者のゾンビから生き延びるといった複雑な要件を組み込むことができる。

このプロジェクトを率いるKatja Hofmannは、Minecraftのオープンでクリエイティブな要素はAI開発や探求の可能性を大きく開くことができると説明する。Googleが所有するDeepMindが囲碁に注力しているのと似たような理由だ。GoogleのAIは伝説的なチャンピオンをこのアジアの戦略ゲームで打ち負かしたところだ。

「Minecraftはとても開かれた世界のため、このような研究に最適なプラットフォームです」とHofmannは言う。「サバイバルモードや友人と遊ぶ「build battles(組み立てバトル)」モードで遊んだり、コースを使ったり、自分のゲームを展開したりすることもできます。これは人工知能にとってもとても面白い影響を与えることができます。現時点での能力を引き伸ばすゲームを制作することが可能になるのですから」。

AIXとMinecraftはゲーム内のAIエージェントを開発するのが唯一の目的ということではない。Hofmannは、このプロジェクトの目標はテクノロジーが自分で学習することを学ぶことだと言う。DeepMindのAIテクノロジーが囲碁をするのと同じようにだ。

Minecraftを遊んだことのない人は、たかがゲームと思うかもしれないが、Minecraftには現実世界でも活用できるAIエージェントを作り上げるのに必要な材料が揃っている。

「ロボットを制作して現実の丘を登る方法を教えるのにはコストがかかり、実用的ではありません。Minecraftとは違いロボットが川に落ちたらその都度直したり、取り替えたりしなければならないのではコストがかかります」とMicrosoftはブログ投稿で説明する。

AI研究者や最先端の科学者に留まらず、MicrosftはAIとITを新規のオーディエンスに届けることも目標に入れている。 MicrosoftはBBCの取材に対し、「どの年齢、どんなスキルを持つ人にでも参加してもらいたい」と話した。子供たちがMinecraftを愛しているのを知っている彼らは、これが特に若い人たちに楽しみながら学んでもらう魅力的な機会になることを期待している。

MicrosoftはAIXの検証を依頼するため、学術コミュニティーのメンバーを複数名招待している。今年の夏にはオープンソースライセンスでソフトウェアを解放し、誰でもアクセスできるようになる予定だ。

[原文へ]

(翻訳:Nozomi Okuma /Website/ twitter

DeepMindのAIに負けた囲碁の世界チャンピオンが最終戦直前のゲームで勝利…AlphaGoを上回る妙手で

screen-shot-2016-03-13-at-11-24-49-am

マシン3勝、人間1勝…これが、DeepMindのAlphaGo対人間の囲碁世界チャンピオンLee Sedolの、5番勝負のこれまでの結果だ。

先週GoogleがオーナーであるそのAIは、Sedolとの初戦に勝って歴史的な勝利を達成した。初めてマシンが、世界クラスのプロの囲碁プレーヤーを負かしたのだ。その後、そのアルゴリズムは続く2試合にも勝って3連勝を達成、5番勝負における勝利を確定した。

しかし、まだ2試合残っている今となってSedolは、(The Vergeによれば)第4試合に勝ち、人類のために1勝を取り戻した。

DeepMindのファウンダーDemis Hassabisのツイート(下図)によると、マシンの負けは、第78手におけるSedolの妙手に圧(お)されて、致命的なミスを犯したためだ。

AlphaGoは、囲碁というとてつもなく複雑なゲームをマスターするために、二つの人工知能テクニックを併用している。それは、深層学習(deep learning, ディープラーニング、多段構造のニューラルネット)とモンテカルロツリー検索(Monte Carlo Tree Search)だ。それによりこのAIは、数百万のゲームをシミュレートでき、その結果から学んだことを一般化して囲碁の戦略を作り出す。明らかにその成功率は高いが、しかし不敗ではない。

今年の初めにGoogleのブログ記事は、AlphaGoの前に立ちふさがる複雑性というチャレンジを、こう説明している:

“囲碁には陣形が1,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000とおりありえる。それは宇宙の原始の数よりも多く、チェスの10の100乗倍である”。

AlphaGoのSedolに対する勝利は、彼が世界第二位のプロの囲碁プレーヤーであるだけに、見事という言葉しかないが、人工知能は未だに、やれることの幅が極端に狭い。言い換えるとそれらはいずれも、きわめて特定的なタスクのために設計されている。チェスに、あるいはJeopardy(ジョパディ)に強くなるため、とか。

人工知能の究極の目標は言うまでもなく、汎用性のある学習AIを作ることだ。多面的なインテリジェンスを適用して、さまざまな種類の問題を解けること。そしてHassabis自身も認めるように、今の単一目的のAIマシンですら、オフボードゲームの世界の混沌とした複雑性において勝利を獲得することからは、まだまだはるかに、遠い位置にいるのだ。

人間が行う仕事は、一見単純なものですら、…たとえば部屋を片付けるようなことでも…、そこに存在する変数の数は、もっとも高度なマシンインテリジェンスですら愚鈍に見えるほどに、膨大なのだ。だからわれわれ人間は、囲碁に負けたぐらいで落ち込む必要はない。

このAlphaGoシリーズの最終戦は、3月15日に行われる。ライブの実況を、 YouTubeで観戦できる。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa))

Googleの画像認識/分類API、Cloud Vision APIが誰でも使える公開ベータへ

2016-02-17_1653

短期間、小規模なプレビューをやったあと、Googleは今日(米国時間2/18)、Cloud Vision APIの公開ベータを発表した。このAPIを使ってデベロッパーは、画像認識や分類の機能を自分のアプリケーションに持たせることができる。

Cloud Vision API 2

Googleの技術は、画像からテキストを取り出す、といった基本的なこともできるが、しかしその真価は、画像中の物を実際に認識できることにある。それはGoogle Photosの画像検索でも使われており、花とか食べ物、動物、各地の目標物などを見分ける。GoogleによるとこのAPIのアルゴリズムは、数千種類の物を認識できるよう訓練されている。

このAPIでいちばんおもしろいのは分類機能だと思うが、でもこのサービスは不適切なコンテンツを指摘することもできる。だからたとえば、写真中心のアプリケーションをPG級(保護者同伴必須)に指定したければ、Cloud Vision APIでそれを指定できる。また、集めた写真の中のハッピーな人だけを見たければ、このAPIの感情分析機能を利用できる。

料金は使い方によって異なるが、たとえば画像中に特定のラベルを見つけたいなら、1000画像あたり2ドルだ。単純な文字読み取りなら、1000画像あたり60セントとお安い。

  1. cloud-vision-1.png

  2. cloud-vision-2.png

ベータ中は数量制限があり、一人が1か月あたり最大2000万画像までしか扱えない。すでにプレビューの時点でこのサービスを実装した企業も数社あり、たとえばYik Yakは、このAPIを使ってテキストの取り出しと画像の特徴検出をやっている。

このVision APIは、MicrosoftのProject Oxfordなどと競合することになる(後者は現在プレビュー)。Project Oxfordには、コンピュータビジョンの機能や、顔認識、感情分析などの機能がある。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa