GoogleのAlphaGo、囲碁の世界チャンピオンに対し(半目差で)勝利

GoogleのAlphaGoが、こんどは世界チャンピオンの柯潔を破る成果を達成した。全3戦の予定で、木曜日および土曜日にも対局が組まれているが、まずは第一局に勝利したのだ。勝負は半目勝負(非常な僅差)となったが、AlphaGoが目指すのは「勝利」であり、大差をつけることや、あるいは中押し勝ち(相手のギブアップ勝ち)を目指すようにはなっていない。この勝負がAlphaGoにとって、どの程度に難しいものであったのかは、半目差という結果からうかがい知ることはできない。

柯潔は、最近では比較的珍しい手(三々)からスタートし、かつAlphaGoが打った手に対して、即座に形を決める手(AlphaGoの星に三々入り)を打って対局を開始した。しかし、AlphaGoを意識したこの作戦も、奏功することはなかった。柯潔の手に対してAlphaGoは斬新で予想外の手で応じてきたのだが、専門家たちはAlphaGoが地合(囲碁でのポイントのこと)よりもそれぞれの石を最大限に働かせるための手を打ったと評している。

柯潔は対局後、AlphaGoの能力に驚きかつ感心したと述べた。AlphaGoの着手に対して「人間同士の対局では見たことのない手」とも述べていた。ちなみに対局は5月27日まで開催されているAlphaGo/AIカンファレンスの一環として行われたものだ。

先にも述べた通り、AlphaGo対柯潔の対局はあと2局を残している。その他にもAlphaGoが人間の棋士とペアを組み、べつの人間とAlphaGoのペアと対局するイベントも用意されている。

原文へ

(翻訳:Maeda, H

SpotifyがAIスタートアップのNilandを買収、パーソナライゼーションとリコメンデーションの強化を狙う

Spotifyは、AIスタートアップのNilandが仲間入りしたことを発表した。これで今年4件目の買収である。

パリに拠点を置くNilandは、音楽に対するより正確な検索とレコメンデーションを行わせるためのAPIを提供している。Spotifyによれば、このフランス企業はニューヨークを拠点とするR&Dチームに合流し、ユーザーのためのパーソナライゼーションとレコメンデーション機能を強化するということだ。

Spotifyはその声明の中で「Nilandは、AI技術を用いることで音楽検索やレコメンデーション機能がどのように最適化できるかを示しました。そしてSpotifyの掲げる『適切なコンテンツを、適切なユーザーに、適切なタイミングで』という情熱も共有しています」と語っている。

Nilandの創業チームは「より良い革新的なリスニングと発見体験を生み出すための、音楽をよりよく理解する新しい方法に、私たちは引き続き取り組んで行きます」とウェブサイトに書き込んでいる。

Spotifyは、Release RadarやDiscovery Weeklyなどのカスタマイズされたプレイリストを提供することを通して、パーソナライゼーションをサービスの核にしてきた。特に後者は初年度で4000万人のユーザーを獲得し、使いやすさと賢い発見方法の価値を知らしめた。

人気音楽ストリーミングサービスのSpotifyは、3月に有料ユーザー数が5000万人に達し、無料バージョンを使用しているユーザーを考慮すると、全体で1億人以上のリスナーを抱えている。ライバルのApple Musicは昨年の12月の時点でユーザー数2000万人に達したので、現在は3000万人に近付いていると推定するのはそれほど間違いではないだろう。

Spotifyは、大いに期待されているIPOを2018年まで遅らせる可能性があるが、ともあれ今年の同社は、買収によって、技術的切り札を増やし新しい機能を構築することに大忙しだ。1月以来、ブロックチェーンのスタートアップMediachainコンテンツレコメンデーションスタートアップのMightyTV、そして音声検出のスタートアップSonalyticを買収して来た。

Nilandは2013年に創業され、フランスの投資家であるIT Translationから、非公開資金を調達している。同社はパリに拠点を置くアクセラレータプログラムのAgoranovの卒業生だ

[ 原文へ ]
(翻訳:Sako)

AI研究の最新の成果をつねに社会と共有していくためのイニシアチブGoogle.aiをCEO Sundar Pichai自身が発表

GoogleのCEO Sundar Pichaiが、同社のデベロッパーカンファレンスGoogle I/Oの今日(米国時間5/17)のステージで、機械学習に関する最新の研究成果を社会と共有していくためのイニシアチブ、Google.aiを発表した。それはGoogleのAIへの取り組みの中枢にもなる…研究開発でも、ツールでも、そしてAIの応用でも。

Googleと同社のBrainチームの研究は、ここが統轄することになり、また人工知能の分野における同社の進歩を紹介する楽しい実験に、誰もが気軽にアクセスできるようにする。たとえば絵のヘタな人でもアイデアを紙の上に表現できるAutoDraw、ピアニストと一緒に演奏ができるDuet、AIが人間が書いた絵が何かを当てるゲームQuick,Draw!などだ。Googleの“AIファースト”の姿勢を示すビデオや記事などにも、ここからアクセスできる。

多くのデベロッパーが機械学習を学べるようになったのは、GoogleのTensor Flowの功績も大きい。でも各地の大学や民間の研究所から、新しい研究が毎日のように生まれているから、Googleはそれらにもアクセスできるよう努力する。

[機械学習の進歩を医療に応用して、疾病検出アルゴリズムを改良したり、病理学者たちの賢いアシスタントになったりする。]

Pichaiが強調するのは、機械学習ではモデルの学習に時間がかかり、しかもその方面の十分なスキルを持った技術者が希少なので、往々にして費用も高い、という点だ。Google CloudとTensor Flowがもっと広まれば、高度な技能を持つ技術者でなくても、十分に開発などの仕事をできるようになるだろう。

Pichaiは、機械学習を自動化するプロジェクトAutoMLにも言及し、いずれはニューラルネットワークがニューラルネットワークを作れるようになる、と言った。研究者たちがGenerative Adversarial Network(s)(GAN(s))をより強力にコントロールできるようになり、もっといろんな状況に対して強化学習を適用できるようになれば、次のステップとしてそれは当然ありだろう。

参考記事(1), (2)



[原文へ]
(翻訳:iwatani(a.k.a. hiwa))

Google I/O: Lensは「たこ焼き」の看板をリアルタイム翻訳―スマートフォンのカメラが賢くなる

今日(米国時間5/17)、Google本社に隣接するショアラインアンフィシアター野外劇場で開幕した Google I/Oデベロッパー・カンファレンスのキーノートで、CEOのスンダー・ピチャイはGoogle Lensという新しいテクノロジーを発表した。

これはGoogleのコンピューター・ビジョンと人工知能を統合し、スマートフォンのカメラからダイレクトに有益な情報を得ることができるシステムだ。Googleの説明によれば、スマートフォンのカメラは単に目に見える情報を撮影するだけでなく、写された対象を理解してユーザーが適切な行動を取るために役立つ情報を提供する。

Googleはユーザーが花を撮影しようとしてカメラを向けるとLensが即座に花の種類を教えてくれるところなどをデモした。

ピチャイはLensは日常のタスクでも役立つ例も挙げた。たとえばスマートフォンでルーターのラベルを撮影するだけで簡単にWiFiに接続できる。 Google LensはルーターのIDとパスワードを読み取り、タップするだけで自動的にそのWiFiに接続するアイコンを表示してくれる。

その次の例では 通りがかりの店舗を撮影すると、Google Lensが店名を読み取り、ウェブを検索して各種のビジネス情報をカード形式で表示する。

このテクノロジーはスマートフォンのカメラを撮影だけでなくモニタに写った対象に関する情報を得ることができるツールに変える。

Pichaiの説明の後、 Scott HuffmanはGoogle Homeのデモ中でGoogle Assistantに組み込まれたLensの能力を示した。Assistantアプリに追加された新しいボタンをタップするとLensを起動し、Assistantを通じてLensと会話し、写真の内容を尋ねることができる。

Scott HuffmanがカメラをStone Foxesのコンサートのポスターに向けるとGoogle Assistantはチケット・セールスを含めてコンサートに関する情報を表示した。Huffmanがオンラインでチケットを購入し「これをカレンダーに追加」と命じるとその通りにスケジュールが設定された。

LensとAssistantの統合は翻訳にも威力

Huffmanがカメラを〔「たこ焼き 6個 130円」という〕日本語の看板に向けて「これは何?」と尋ねるとGoogle Assistantは即座に正しく英語に翻訳した。

 

ピチャイはまたGoogleのアルゴリズムが写真の質を改善することができることも示した。たとえば金網越しに子供の野球試合のシーンを撮影したような場合だ。Googleの人工知能は目障りな金網を自動的に取り除いてくれる。また暗い場所で撮影した場合、Googleはピクセルノイズやブレを補正し、写真を見やすくしてくれる。

GoogleはI/OカンファレンスではLensがいつ一般公開されるか日時は明らかにしなかった。しかし「すぐに」手に入るようになるという。


[原文へ]

(翻訳:滑川海彦@Facebook Google+

Appleが、デークデータ(非構造データ)解析にAIを活用するLattice Dataを2億ドルで買収

大規模ハイテク企業たちが機械学習や人工知能に力を入れようとしている中で、Appleはその分野での能力を補うための会社を買収した。

Appleが買収したのは、具体的にはLattice Dataである。Lattice DataはAI推論エンジンを適用することで、構造を持たない「ダーク」データを、構造化された(より利用性の高い)情報へと変換する技術を持つ会社である。私たちはとある1つの情報源から、Appleが約2億ドルを支払ったという情報を得た。

その情報源によれば、契約は数週間前に行われ、約20人のエンジニアが大きな会社(Apple)に加わったということだ。

私たちはこの情報を、まず情報源から、次いでAppleから、標準的な告知として受け取った。「Appleはその時々で小さなテクノロジー企業を買収していますが、一般に私たちはその目的や計画について公表することは控えています」とAppleの広報担当者はTechCrunchに語った。

Latticeは昨年ステルスから脱する前に、GV、Madrona、そしてInQTelから、少なくとも2000万ドルの資金調達を密かに行っていた。Latticeは2015年に創業し、これまでその実体はほとんど世間のレーダーにかかって来なかったものの、注目すべき歴史を持っている。

同社はChristopher Ré、Michael Cafarella、Raphael Hoffmann、そしてFeng Niuによって共同創業された。創業の目的はDeep Diveの商用化である。Deep Diveはスタンフォード大で開発された「ダークデータから価値を抽出する」システムだ。

スタンフォード大学教授であるRéは、DeepDiveの業績によってMacArthur Genius Grantを受賞し、現在はLatticeのチーフサイエンティストでもある。また、最初はLatticeのCEOで、現在は同社のCTOになったCafarellaは、Hadoopの共同クリエイターの1人としても知られる、ミシガン大学の教授である。NiuはLatticeのチーフエンジニアリングオフィサーだ。CarafellaとHoffmann(彼はLinkedInによると、その後Googleに移籍している)は、DeepDiveの開発にも関わっていた。

LatticeのCEOを務めるのは、昨年入社した経験豊富なエンタープライズエグゼクティブのAndy Jacquesである。

ところでダークデータとは何だろう?私たちの接続されたデジタル世界は、日々加速するペースでデータを生み出している。2013年には4.4ゼタバイトのデータが世界にはあったが、2020年までにはそれが44ゼタバイトまで拡大すると予測されている(1ゼタバイトは2の70乗バイト)。IBMの見積もりによれば、現在存在するデータの90%が最近の2年のうちに生み出されたものだ。

しかし、そうしたデータの70%〜80%は構造化されていない、すなわち「ダーク」なものであり、そのため処理と分析に関してはほとんど使用することができない。基本的にLatticeは、機械学習を用いて、そうしたデータを整理し、より使えるものにしようとしている。

ラベルもなく、カテゴリーもなく、文脈の手掛かりもないデータの山があると考えてみて欲しい。それでも適切な整理を施すことによって潜在的な価値を引き出すことができる可能性がある。

このようなシステムの応用は多岐に渡る。例えば人間の移動を追跡することで、国際的な警察機構や犯罪解決のために用いることができる。あるいは医学研究での利用や、古生物学研究における成果の整理と解析を助けることなどが可能だ。また、より有用なデータフィードを作成することでAIシステムのトレーニングを支援することもできる。

Latticeが誰と協力しているのか、またAppleがそのテクノロジーをどのように利用しようとしているのかははっきりしない。私たちの推測はAIが何らかの中心的関心なのではというものだ。私たちの情報源によれば、Latticeは、AmazonのAlexaやSamsungのBixbyを含む「AIアシスタントを改良することに関して、他のハイテク企業と協議している」ということであり、つい最近も韓国で時間を過ごしていたそうだ。

[ 原文へ ]
(翻訳:Sako)

情報セキュリティ職員が三人しかいないラスベガスをネットワークのAI化で守るDarknet

ラスベガスには数十万の人びとが住んでいる。しかし市の情報セキュリティチームは、わずか3名の職員とインターンが1人いるだけだ。そこでラスベガスのCIOは、人工知能を使って市のデータとテクノロジーの安全を図っている。

“もっとも警戒しているのは、ランサムウェアとフィッシングだ”、とCIOのMichael Sherwoodは語る。“どちらも、手口はきわめて単純だが防御は難しい”。Sherwoodは夜の安眠を確保するために、DarktraceのAIによるセキュリティソリューションで彼の小さなチームを支えている。

人工知能は今やテクノロジー産業全体のバズワードで、サイバーセキュリティも同様だ。企業向けのセキュリティ企業は、自分たちの製品にAI機能を後付けで加えて顧客企業のネットワークの異状を検出している…人の介入が要らないように。

しかし2013年に創業したDarktraceによると、同社は最初からAIを利用している。“うちはほかのセキュリティ企業に比べて3年以上の経験の差がある”、とCEOのNicole Eaganは語る。“今では多くの企業が機械学習を謳っているけど、‘それで何をしているの?’と私は聞きたい。うちは、まったく独自の使い方をしている”。


Eganによると、一部のベンダーは機械学習を使って彼らの製品にマルウェアの認識を教えているが、彼女のチームは機械学習を利用して企業のネットワークに“自己意識”を与え、侵入を自分で検出できるようにしている。彼女はそれを、人間の免疫系になぞらえる。感染を自分で検出して自動的に対応するのだ。

検出はDarktraceの製品の前からの機能だが、自動対応は新しい。しかしそれは、Sherwoodのような小さなチームにはきわめて重要な機能だ。“Darktraceを使っていると、ネットワークのある部分では不安がまったくなくなる”、と彼は述べる。“応答性が良いし、必要なコントロールをただちに実装できるようになる”。

Darktraceの目標は、応答に関する意思決定を自動化して、人間の承認を不要にすることだ。AIのそこまでの君臨は怖くもあるが、しかしSherwoodはその考え方に前向きだ。彼はそのような総合的アプローチをUberやLYftになぞらえる。彼らは市の規制やタクシー業界とたたかって、ベガスの通りを走れるようになった。“やるなら、中途半端はいけない。今や人工知能は不可欠の要素だ。人間は毎日、間違った意思決定をしているからね”、これが人海戦術に頼れない市のセキュリティ管理者としての、彼の考え方だ。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa))

MicrosoftがAzure上で行なう、ディープニューラルネットワークトレーニングサービスを発表

Buildビルドデベロッパーカンファレンスで、本日(米国時間5月10日)Microsoftは、Azure Batch AI Trainingを発表した。長ったらしい名前だが、その内容をよく表現している名称だ。これはディープニューラルネットワークのバッチトレーニングを、Azureクラウドコンピューティングプラットフォーム上で行なう新しいサービスだ。このサービスは現在プライベートプレビュー中だが、いつ公開プレビューで利用できるようになるのかは不明だ。

Batch AI Trainingとは、基盤となるインフラストラクチャの運用を心配することなく、開発者たちがモデルに集中できるようにするマネージドAIトレーニングサービスだと考えるのがおそらく良いだろう。

現在のところ詳細には欠けるものの、基本的なアイデアは、開発者たちに機械学習モデルを訓練するためのサービスを提供することだ。Microsoftによれば、このサービスはあらゆるフレームワークをサポートするとしている。このため開発者たちは、例えばGoogleのTensorFlowや、マイクロソフト自身のCognitive Toolkit、もしくはCaffeなどを使用できるようになる。

開発者やデータサイエンティストたちは、もちろん、モデルを訓練するために使用する環境を構成することが可能だ(もちろろんプライベートプレビュー後に、このサービスを使用するにはどれくらいの費用がかかるかの因子が決定される)。Microsoftは、開発者たちがその作業負荷を、複数のCPU、GPU、そして長期的にはFPGA上で実行できるという点にも言及している。

[ 原文へ ]
(翻訳:Sako)

MicrosoftのPresentation Translatorはプレゼンの翻訳をリアルタイムに行なう

Microsoftが今週のBuild Conferenceで発表しているものの多くは、明らかに開発者向けのものである。しかし、Azure、Visual Studio、.NETに関する膨大な数のニュースの合間に、同社は一般ユーザーを対象としたPowerPointの新しいアドインのプレビューも披露した。Presentation Translatorは、リアルタイムで自動的に翻訳された字幕を提供したり、元の書式を維持しながら、実際のP​​owerPointプレゼンテーションのテキストを翻訳したりすることができる。

現在は、アラビア語、中国語、英語、フランス語、ドイツ語、イタリア語、日本語、ポルトガル語、ロシア語、そしてスペイン語をサポートしている。ここでは翻訳機能に焦点を当てたが、同じサービスを使用して、ろう者や聴覚障害者のために、プレゼンテーションにキャプションを追加することも可能だ。

 Microsoft Garageから発表されたこのプロジェクトは、現在は非公開のプレビュー中だが、ここから早期アクセスを申し込むことができる。アドインはMicrosoft Translatorによって支えられており、こうしたAI搭載サービスがゆっくりと、しかし確実に、生産性向上アプリに入り込みつつある様子を示すための例題の役割を果たしている。

実際に、PowerPointはこの分野におけるMicrosoftの努力を示すための格好の場所である。QuickStarterとDesignerという2つのツール(現在内部プレビュー中)の力を借りれば、PowerPointは既に、指定したトピックに基づく基本的なスライドショーを自動的に生成して、そのコンテキストに基づいて見栄えを良くすることもできるのだ。

[ 原文へ ]
(翻訳:Sako)

あなたの英文の文法チェックをしてくれるGrammarlyが初めての投資ラウンドで$110Mの巨額を調達

文法が苦手な人は少なくない。ちなみに、“a lot”は二語だし、 “Your”と“you’re”は同じ語ではない。

知る人ぞ知るGrammarlyは、ソーシャルメディアやメールで好印象を与えたいと願っている学生やライターや一般人のための、フリーミアムの文法チェッカーだ。同社は今、General CatalystやIVP, そしてSpark Capitalから1億1000万ドルを調達して、事業の底入れ強化を目指している。

8歳の同社にとって、これが初めての資金調達だ。Grammarlyはすでに利益を上げているから、投資家たちも気前が良い。

IVPのゼネラルパートナーJules Maltzは語る、“サンフランシスコの平均的なスタートアップよりも成長がはやい。同社は今後ますます、重要な企業になるだろう”。

Grammarlyのアクティブユーザー数は一日あたり690万だ。その多くが、無料で利用している。同社の収益源は、センテンスの構造や語彙までチェックしてくれる月額11ドル99セントの有料会員の会費だ。

ネット上の文法チェッカーはいろいろあるが、検索で簡単に見つかるそれらに比べればGrammarlyはずっと優秀だ、と同社は自負している。ネットにつながった状態で文書の校正をリアルタイムでやってくれる、Chromeエクステンションもある。

CEOのBrad Hooverは曰く、“うちは人工知能を使ってユーザーの文章の文意や文型をチェックしている”。今度の資金は、社員の増員とアルゴリズムの改良に充てる予定だ。

HooverはGeneral Catalystにいた人物だが、Grammarlyを知って以来、このウクライナ発のスタートアップの将来性に着目していた。

Spark CapitalのゼネラルパートナーJeremy Philipsは、投資の動機を、“良いプロダクトだし、人びとのコミュニケーションを良くするというミッションも気に入った”、と語る。

(私はこの記事を公開する前にGrammarlyでチェックしてみた。誤字を一つ見つけてくれた。)

[原文へ]
(翻訳:iwatani(a.k.a. hiwa))

GEはどのようにしてKodakの運命を避け得たのか

1888年、ニューヨークのロチェスターでジョージ・イーストマンがKodakを創業した。そしてその4年後、200マイル離れたニューヨークのスケネクタディで、トーマス・エジソンとその仲間たちがGeneral Electric(GE)を創業した。この2つの19世紀大企業は、その後100年以上に渡って着実に業務を続けて来たが、GEがいまだに2500億ドルの時価総額を保っているのに対して、 Kodakの時価総額は4億6600万ドルと、かつての面影はない。ではGEはどのようにしてそのような運命に陥るのを避けたのだろうか。

今月初め、GEはニューヨークのニスカユナにあるGEグローバル研究センターの見学に、私を招待した。この研究センターはスケネクタディにエジソンが建設した工場のすぐ近くにある、実際、会社を設立してわずか8年後の1900年に、研究所を開設したのはエジソンとそのパートナーたちだった。おそらく同社の創業の父たちが、絶えることなく自分自身を変革する必要があることを理解していたのか、あるいはエジソン自身による実験への拘りの産物だろう。

どのような理由であろうとも、117年後の今日、研究所はニューヨーク州の美しい丘陵地帯に広がる広大なキャンパスとなり、2000人に及ぶ賢い人びとが、どのような形になるにせよ製造業の未来を見据えるために集められている。世界がデジタル化される一方で、物理的な領域にしっかり留まる基本的なものもある。例えば飛行機のエンジン、列車の機関車、原子力発電所、ガスタービンなどだ。

GEは、Kodakのように経済的基盤のほとんどがゆっくりと(そして最後は非常に速く)崩壊していくのを、指をくわえて眺めていたわけではない。GEは、もし自分自身を繰り返し再評価し続けなければ、Kodakと同様の運命になってしまうかもしれないということを、本質的に理解しているようだ。そのように同社は、過去125年の間に作り上げて来た巨大な工業製品が、データとデジタルに交わる未来を見据えているのだ。

デジタル世界への移行

世界はデータを中心にした大規模な移行の途上だ。もしそれを疑うなら、現代的データ駆動型組織の典型的な例としてTeslaを見てみよう。Teslaは車のビジネスに参加しているが、CEOのイーロン・マスクは最初の段階から、車から得られるデータと物理的な車両自体との間には切り離すことのできない関係があることを認識していた。Teslaがそれらのデータを収集するにつれて、同社はより良く、よりスマートで、より効率的な車を生産することが可能になる。そしてそのデータをさらに収集し、好循環を生み出すことができるようになるのだ。

GEも自身が製造し販売する産業機械とデータとの間に同様の認識をしている。センサーはよりスマートで安価になって行くので、マシンがどのように動作しているかについてデータが示すものから得られるものだけでなく、エンジニアリングとデザインの両方の観点から得られるマシンの詳細な理解に基づいて、新しいビジネスモデルを構築することができる。

GEグローバル研究所の副社長であるDanielle Merfeldは、GEの産業界に対する幅広い業績を示すために以下のように述べた。「現在GEは、世界中の様々な業界に対して、およそ2兆ドルに及ぶ資産を投入しています。このことで、(私たちの)成功に不可欠なシステムとプロセスに対する膨大なノウハウへアクセスすることが可能になります」。

Merfeldは、デジタルと物理を組み合わせれば、強力なことが起き得ると付け加えた。彼女は、そうした物理的資産が世界でどのように働いているのかに関する、会社の深い理解から全てが始まると語った。「私たちは物理的世界の上にただデジタルの層を重ねようとしているのではありません。そして私たちの物理的世界を、それに対するデジタルの解釈で置き換えようとしているのでもありません。そうではなくて、私たちがこれまでの経験から得ることができたり、専門性を持っていたりする個別部品の、単なる総和を上回るものを得るために、デジタルとフィジカル(物理的世界)を組み合わせようとしているのです」。

最先端を探る

GEグローバル研究センターに置かれたトーマス・エジソンの机。写真:Ron Miller、TechCrunch

GEと、ニューヨークに加えて世界中に4つの姉妹ラボがあるグローバル研究センターにとって、これは自身を大胆な実験の場として表現したものだ。それが意味するところは、最先端(edge)から沸き起こり始めた技術を見極め、その未来の技術をGEの工業製品に取り入れる手法に取り組むことを意味する。

同社の最も野心的なプロジェクトの一部は、その名もふさわしいEdge Lab(最先端ラボ)で行われている。Edge Labは今年1月に開所し、次々に登場する実験的テクノロジーに対する作業に取り組んでいる。彼らが現在取り組んでいるものには、拡張ならびに仮想現実、ロボットやブロックチェーンなども含まれる。

「Edge Labの目的は、技術を実現可能性の境界線上で探求し、何が可能かを示すことです」と語るのはEdge Labグロースリーダー(growth leader)のBen Vershuerenだ。彼によれば、彼らはそうした実験をGEのドメイン知識と組み合わせて、どのように会社のプロダクトセットに組み込むことができるかを見出そうとしている。

Edge Labは、限られた期間だけ継続するプロジェクトたちのために存在し活動するもので、個々のプロジェクトのメンバーは、それぞれの専門性を限られた期間(すなわちプロジェクトの生存期間)の間持ち寄って参加する。つまり、プロジェクトの変化に伴い、研究スタッフも時間とともに変化していくのだ。

「ミッションを発見してその目的を決めたら、そのミッションのための適切な技術専門家を見出し、ミッションが必要とするものを得ることができるまでLabで作業をしてもらいます。その後彼らは(GE内の元のポジションに)戻り、私たちはまた別のプログラムに移行します」とVershuerenは説明した。

大胆な実験

Edge Labのツアー中、そしてGEグローバル研究センターでの1日を通して、私はそうした実験のうちの幾つかを見ることができた。

そのうちの1つは、 Microsoftの複合現実ヘッドセットであるHoloLensを利用して、超音波装置によって正しい臓器の特定を訓練するものだった。人口過疎地では、そうした超音波装置を使うことのできる、訓練されたプロフェッショナルを見つけるのが困難だろうという考えと、拡張現実が訓練デバイスとして使うことができるだろうという考えに基づいている。

まず最初に、HoloLensを装着し、仮想的な超音波プローブを手に取って、指示された正しい臓器を特定するまで動かす。例えば、心臓と肝臓が提示され、肝臓を選択する必要があるとする。もし間違った場合には、間違ったものを選択したことがデバイスからフィードバックされる。

最終的には、HoloLensで仮想的トレーニング環境を提供しつつ、実際のプローブを用いるものと同程度のレベルのフィードバックを返すことをチームは目指している。GEが超音波装置を販売していることを思い出して欲しい、もしそれらを通常は売られていない地域に持ち込んで、特定の医学的バックグラウンドを持たない人間がそれを利用できるように訓練できるとしたら、GEは更に多くの装置を販売することができる。

また別のアイデアとして、ロボット、仮想現実、そしてストリーミングデータをミックスするものがあった。ここでは彼らは、海洋の真ん中にあるオイルリグや風力タービンのような危険な場所にロボットを設置することができるようにすることを考えている。保守のために、人間を荒波の海上に船で送る代わりに、人間は安全な岸からロボットを制御して、修理を指示するのだ。

それを使うにはまず、左右それぞれの手にコントローラーを握って、HTC Viveヘッドセット装着する。仮想世界に入ると、2つのコントローラーと一緒にロボットの表現を見ることができる。コントローラの1つがロボットの動きを制御します。コントローラーの1つはロボットの動きを制御する。もう1つは仮想iPadへのアクセスを提供し、そこから“Drive”、“Teleport”、そして“Arm”モードのツールを選ぶことができる。Driveを選ぶとロボットの動きを制御することができる。Teleportは仮想世界の中での動きを制御し、Armはロボットの腕を制御して修理を行ったり破片を拾ったり(あるいは必要のある他のことを何でも)することができる。

今回のツアー中に見たすべてのタスクとプログラムは、最終的にはこれらの高度なテクノロジーを使用して、GEがその大きな機械を使って物理的世界でやっていることを向上させたり、何故特定のテクノロジーがいまくいかないのか(少なくとも実験上では)を理解するといった目的を持っていた。

同社は、グローバル研究センターの力を結集し最新テクノロジーを継続的に調査することで、ロチェスターにある製造業の従兄弟(Kodak)の運命を回避したいと願っている。1つのことだけは明らかだ。彼らは座して破滅を待つようなことはしない。125年前にトーマス・エジソンが会社を設立したときにように、彼らは先を見続けて、最新のテクノロジーを評価し、次の偉大なアイデアを探し続けるだろう。

[ 原文へ ]
(翻訳:Sako)

Nvidiaがそのベンチャー投資ポートフォリオに6社のAIスタートアップを追加した

NvidiaがAIスタートアップに投資したときには、背筋を伸ばしてメモをとることをお勧めする。このGPUメーカーが現在のAIを様々なやり方で実質的に可能にしているのだ、なのでおそらくこのメーカーは何年にも渡って、テクノロジーの潜在的な適用可能性を幅広く見て来ている筈で、何がうまく行きそうで何かそうではないのかという点に関して他よりも良く知っている筈なのだ。6つの新会社は注目を集めているだけでなく、NvidiaのGPU Ventures部門を通して資金提供を受けている。

これらには、小売業分析、データマイニング、自動運転車開発、音声駆動インターフェース、天気予報、医療画像などの、さまざまなビジネスおよび産業に焦点を当てた、世界中の企業が含まれている。異なる用途へ向けた多様性は、少なくとも部分的には戦略的なものだろう。なぜなら、こうすることで、この成長分野での潜在的なアプリケーションに対する、Nvidiaのすばらしい応用範囲を披露する役に立つからだ。

Nvidiaはまた、GPU Venturesに特化した新しいウェブサイトも用意している。ここには、現在のポートフォリオと、成功裏にエグジットを遂げた過去の投資の記録が掲載されている。

以下に示したのが、GPU Venturesのリストに加わる新しい企業の一覧である。Optimus Rideは、程なくその製品についての公開が行われる筈の素晴らしい技術的才能を持つ会社であり、そしてSoundHoundのAIピボットは、そのスタートアップの比較的名高い歴史の中でも特に興味深いものだ。

  • ABEJA – 東京を拠点にする、AIを用いた小売分析システムに焦点を当てたスタートアップ
  • Datalogue – コーネル大学で開発されたニューヨークAIデータマイニングプラットフォーム
  • Optimus Ride – 完全自動運転車を開発するMITスピンオフ
  • SoundHound – シリコンバレーのスタートアップで音声対応のAIソリューションを構築
  • TempoQuest – コロラド州ボウルダーを拠点とするスタートアップで、GPUを用いた気象予測を行なう
  • Zebra Medical – AIを使って医療画像の解釈を行なうイスラエル拠点のスタートアップ

[ 原文へ ]
(翻訳:Sako)

FaceAppが人種差別的AIを構築したことを謝罪

すべてのアルゴリズムバイアスがこれと同じくらい簡単に見つけられれば良いのに。フォトリアリスティックなやり方で、自撮り写真の編集をニューラルネットワークで行う写真編集アプリFaceAppは、人種差別的(racist)アルゴリズムを提供したことを謝罪した。

このアプリは、ユーザーが自撮り写真や、撮影済みの顔の写真をアップロードして、その見かけを微妙にあるいは大胆に変えるフィルターの適用を行わせるものだ。風貌を変える効果の中には、老化や異性化なども含まれている。

問題は、アプリには”hotness”(ホットにする)フィルターも含まれていたことで、このフィルターが人種差別主義者だったのだ。あるユーザーが指摘したように、このフィルターは議論の余地がある「美肌化」効果を出すために、肌の色調を明るく調整するのだ。フィルターの適用前後の効果は、上のオバマ大統領(当時)の写真で見ることができる。

人種差別的なアルゴリズムを謝罪する電子メールによる声明で、FaceAppの創業者兼CEOのYaroslav Goncharovは次のように語っている「この疑いようもない深刻な問題に対して深くお詫び申し上げます。これは、意図された振る舞いではなく、訓練セットの偏りによって引き起こされた、基盤を構成するニューラルネットワークによる不幸な副作用でした。この問題を緩和するために、私たちはフィルタの改名を行い、その効果に対する肯定的な含意を排除しました。また程なくリリースされる完全な修正にも取り組んでいます」。

先にGuardianが指摘したように、このアプリはここ数週間で爆発的な人気を得た。恐らくこのことが、フィルターが問題を抱えていることをFaceAppが認識することを助けたのだろう。

FaceAppは一時的に不快なフィルタの名前を “hotness”から “spark”に変更したが、非人種差別的な代替品の出荷準備が整うまではアプリから完全に削除しておいたほうがより賢明だったかもしれない。おそらく彼らはアプリのクチコミパワーの高まりへの対応に手一杯なのだろう(明らかに毎日70万人のユーザーが増え続けている)。

FaceAppのエフェクトを支える基盤となるAI技術には、GoogleのTensorFlowなどのオープンソースライブラリのコードも使われているが、”hotness”フィルターのトレーニングに用いられたデータセットは彼ら独自のもので、公開されているデータセットではないということを、Goncharovは私たちに明言した。そのため何処に責任があるかについては議論の余地はない。

率直に言って、アルゴリズム内に埋め込まれたバイアスによるリスクの(ビジュアルな)例として、これ以上わかりやすいものを探すのは難しいだろう。機械学習モデルは、与えられたデータと同じ程度にしか良くはならない。そしてFaceAppの場合には、モスクワに拠点を置くチームによって行われたトレーニングデータには、明らかに十分な多様性が欠落していたのだ。少なくとも、 潜在的なアルゴリズムバイアスの目に見えない問題を、このような視覚的にインパクトのある方法で提示してくれたという点では、彼らには感謝することができるだろう。

AIがますます多くのシステムの制御を手渡されるようになれば、その審問を完全に行うためにアルゴリズムの説明責任への圧力が高まるし、人間のバイアスが私たちのマシンに埋め込まれることを避けるための堅牢なシステムの開発の必要性も高まる。自律技術とは「人間の欠陥から自由になれる」ものではない、もし人間の欠陥から自由になれると主張しようとする開発者がいるならば、それは嘘を売ろうとしているのだ。

[ 原文へ ]
(翻訳:Sako)

組織が読むべき記事をAIが選ぶ、StockMarkが新サービス「Anews」をローンチ

一緒に働くチームメンバーの中で、ひときわ情報通の人がいるかもしれない。チームリーダーとしては、メンバー全員が仕事に関連した最新ニュースや情報に触れていてほしいと思うところだろう。ストックマークは、そうしたチーム全体の情報感度の底上げを目指すウェブニュースの情報収集サービス「Anews」を本日正式ローンチした。

TechCrunch Japanでは以前、ストックマークの提供するブックマーク管理アプリ「StockMark」を紹介した。これは、Pocketやはてなブックマークなどのブックマークサービスに保存した記事を人工知能で解析し、最適なタイミングで読むべき記事をレコメンドするアプリだ。

このStockMarkを社内の情報共有に使えないかと法人から相談を受けたのがAnewsを開発するきっかけになったと、StockMarkの代表取締役CEOを務める林達氏は説明する。会社の広報や人事部は仕事の一環として、業界ニュースなどの情報を収集しているだろうが、収集は手間がかかる作業の上、全社員に効率的に共有する方法がなかった。もちろん社内SNSなどで記事を社員に送付することはできても、どれくらい閲覧しているかトラックする方法はなく、そもそもあまり読まれないという課題を企業は抱えていたという。

StockMarkの提供するAnewsは、チームで設定したキーワードに関連する記事を国内外の1万以上のメディアから記事を収集し、一覧で表示するサービスだ。Anewsに社員がログインすると、そのキーワードと関連が深い順に記事が並んでいる。Anewsに実装しているアルゴリズムは単にキーワード検索をしているのではなく、記事自体にキーワードが含まれなくても関連度の高い記事を選ぶことができると林氏は説明する。

Anewsは、使い込むほどその組織にとって最適な記事が配信されるようになると林氏は言う。このアルゴリズムはStockMarkで集まったユーザーデータがあるからこそ実現できたそうだ。「StockMarkで何百万という記事を解析して得られたユーザーの趣味嗜好のデータがAnewsの基盤になっています」と林氏は説明する。

ユーザーは記事に「いいね!」することができ、今日のアップデートからコメントも記載できるようになった。社内版NewsPicksとしてコミュニケーションの促進に活用できるだろうと林氏は説明する。管理者権限のあるユーザーには、各ユーザーごとにどれくらい記事が読んでいるかなどをチェックできるアナリティクス機能も用意している、

個人がプライベートで読む記事は趣味嗜好もバラバラだが、「会社の部署やチームで必要とする情報はほとんど一緒だと思います」と林氏は話す。Anewsは組織の情報収集を効率化し、組織全体の情報感度を高められるサービスになることを目指しているという。今後は、例えばユーザーの閲覧数に基づくランキング機能やゲーミフィケーションなどで、社員が記事を読んだり、社員同士のコミュニケーションを促進できる仕掛けを実装していく予定だ。

社内SNSは、私にも経験があるが、利用する目的が明確でないと人事や広報以外あまり利用しなくなりがちだろう。記事が毎日送られてくるのはいいが、社員がAnewsの選ぶ記事に価値を感じ、習慣的にAnews上で記事を読むようになるかどうかがこのサービスが成長する上で重要なポイントとなりそうだ。

Anewsは2016年12月よりベータ版を提供していて、これまでに100社以上が利用している。コンチネンタル・オートモーティブや帝人といった大手の利用もあるという。Anewsの利用価格は、月額2万9800円からだ。

F8:Facebookは頭脳直結テキスト入力開発中―「埋込み手術の必要なし」と元DARPA局長がプレゼン

今日(米国時間4/19)、F8デベロッパー・カンファレンスでFacebookは60人のエンジニアのチームが頭脳と直結してテキスト入力などができるコンピューター・インターフェイスを開発していること明らかにした。現在試行されているような頭脳への電極等の埋め込みを必要としないという。このインターフェイスは脳を毎秒100回スキャンして光学画像を生成し、人が声に出さずに思考している内容を読み取ってテキスト化する。

FacebookのR&Dの特別組織、Building 8の責任者、レギーナ・ドゥーガン(Regina Dugan)がF8カンファレンスで説明したところによれば、この研究の目標は、ユーザーがスマートフォンを使って頭脳から直接に毎分100語、つまり現在の5倍のスピードでテキスト入力ができるようになることだ。

頭脳をコンピューターと直結するインターフェイスは、最終的にはVR〔拡張現実〕にも利用され、物理的なコントローラーを操作することなしに、思考だけでVRを操作できるようになるという。今年のF8カンファレンスではCEOのマーク・ザッカーバーグやCTOがこの「直結インターフェイス」テクノロジーが持つ可能性をさまざまな角度から紹介した。

ドゥーガンは「頭脳から直接完璧にタイピングできたら素晴らしいだろう」と言う。ドゥーガンは麻痺の障害を持つ患者が脳に埋め込まれたセンサーを利用してタイピングしているビデオを紹介した。続いてFacebookでは脳の手術の必要なしに同じことを実現しようとしていると述べた。

Building 8が頭脳インターフェイスによるタイピングの研究を始めてからまだ6ヵ月しかたっていないという。しかし開発チームはカリフォルニア大学サンフランシスコ校、同バークレー校、ジョンズ・ホプキンス医科大学、ジョンズ・ホプキンス応用物理学ラボ、ワシントン大学セントルイス医学校などの研究者の協力を得て、機械学習による言語解析、高度な空間解像力も有するテクノロジーによる脳活動の光学画像化、次世代神経科学などを適用して開発を進めている。

Facebookは最終的には脳への埋め込みなしに脳と直結するインターフェイスの実現を目標としているのは大規模な採用を目指しているからだ。またプライバシーへの当然な懸念が生ずるが、Facebookは私のインタビューに対して、「これはあらゆる考えでを読み取ってしまうようなテクノロジーではない。これは直接入力のためにユーザーが意識的に言語中枢に送った言葉だけを解読する。われわれはスマートフォンでたくさん写真を撮るが、公開するのはそのうちの何枚かに過ぎない。われわれのハードウェアが実用化しても、内心の自由を妨げることはない。このインターフェイスが読み取るのはユーザーが入力しようと決めた考えだけだ」という。

一方、 Building 8では「皮膚を通じて聞く」テクノロジーも研究中だ。プロトタイプが完成しているこのハードウェアは特定の振動を脳に伝えることにより皮膚に内耳の役割を果たさせようとするものだ。これが実用化されれば耳に障害を持つ人々も耳をバイパスして皮膚で音を「聞く」ことができる。

Facebookのエンジニアが16の周波数帯域に設定したアクチュエーターを用いて被験者の1人は9つの単語を皮膚を通して認識することができるようになったという。

Building 8の求人情報によれば、電気生理学的情報の収集、神経活動の非侵襲的画像化などの専門家が求められている。【略】

Tesla、SpaceXのファウンダー、イーロン・マスクもNeuralinkという新しいスタートアップを立ち上げて独自の頭脳コンピューター・インターフェイスの開発に取り組んでいる。

FacebookのBuilding 8研究開発チームの責任者、レギーナ・ドゥーガン(Regina Dugan)

Facebookは秘密のベールに覆われた新しい研究組織、Building 8の責任者として昨年ドューガンをスカウトした。ドゥーガンはGoogleの Advanced Technology And Products事業部の責任者で、その前はDARPA〔国防高等研究計画局〕の責任者を務めていた。

Facebookはメンローパークの本社キャンパス内にArea 404という施設を持ち、大量の先端的メカニカル・エンジリングの装置と専門家を擁している。このArea 404がドウーガンのチームがハードウェアのプロトタイプを作ることを助けている。 昨年12月にFacebookはスタンフォード、ハーバード、MIT等の大学から素早く協力を得られる規約を結んだ

今日のプレゼンテーションまで、Building 8が正確にはどういう組織か誰も知らなかった。もっとも、Business InsiderはBuilding 8の求人情報を探り出して、推測を試みていた。

Facebookのハードウェア・プロジェクトには成功したものも失敗したものもある。HTCと協力して作成した FirstというAndroidスマートフォンは失敗だった。Facebookの本来的なユーザーはコミュニティーとの交流に興味があり、専用ガジェットには興味がなかった。FacebookはTerragraph Wi-FiノードProject ARIESアンテナソーラー発電ドローン、Aquilaなどを開発してきた。また途上国でのインターネット・アクセスの容易化を図る通信衛星の打ち上げも試みたが、残念ながらSpaceXが打ち上げに失敗してしまった。【略】

FacebookのArea 404ハードウェア・ラボ。メカニカル・エンジニアリングの楽園

Facebookが巨大化するにつれて、新しいハードウェアを開発するための資源、人材ともに拡大した。18億人のユーザーを持つFacebookは頭脳インターフェイスであれ、その他どんな新しいアプローチであれ、実験の志望者にもこと欠かないはずだ。

〔日本版〕Regina Duganのテクノロジーに関するTEDでのプレゼンテーション。こちらはDARPA局長時代。なおこのビデオでも分かるとおり、ファーストネームのReginaは「レギーナ」が本人の採用している読み方。

[原文へ]

(翻訳:滑川海彦@Facebook Google+

数学知識もいらないゼロからのニューラルネットワーク入門

【編集部注】本記事はGumGumOphir Tanz(CEO)とCambron Carter(画像認識チームのトップ)によって共同執筆された。GumGumはコンピュータービジョンに特化したAI企業で、広告からプロスポーツまで世界中のさまざまな分野にAI技術を応用しようとしている。カーネギーメロン大学で学士・修士(いずれも理学)の学位を修めたTanzは、現在ロサンゼルス在住。一方、GumGumで幅広い分野に対応したコンピュータービジョン・機械学習ソリューションの設計に携わっているCarterは、ルイスビル大学で学士(物理学、電子工学)・修士(電子工学)の学位を修めた。

これまでに人工知能(AI)関連の記事を読んだことがある人であれば、ほぼ間違いなく”ニューラルネットワーク”という言葉を目にしたことがあるだろう。ニューラルネットワークとは、大まかな人間の脳の仕組みを模したモデルで、与えられたデータを基に新しい概念を学習することができる。

機械学習の一分野であるニューラルネットワークこそ、長く続いた”AI冬の時代”を終わらせ、新時代の幕開けを告げたテクノロジーなのだ。簡単に言えば、ニューラルネットワークは業界の根底を覆すような、現存するテクノロジーの中でもっともディスラプティブな存在だ。

そんなニューラルネットワークに関するこの記事の目的は、読者のみなさんがディープラーニングについて会話ができるようになるくらいの理解を促すことにある。そのため、数学的な詳しい部分にまでは入らず、なるべく比喩やアニメーションを用いながらニューラルネットワークについて説明していきたい。

力ずくの思考法

AIという概念が誕生してからまだ間もない頃、パワフルなコンピューターにできるだけ多くの情報とその情報の理解の仕方を組み込めば、そのコンピューターが”考え”られるようになるのでは、と思っている人たちがいた。IBMの有名なDeep Blueをはじめとする、チェス用のコンピューターはこのような考えを基に作られていた。IBMのプログラマーたちは、十分なパワーを持ったコンピューターに、あらゆる駒の動きや戦略を余すことなく入力することで、理論上はそのコンピューターが駒の動き全てを予測し、そこから最適な戦略を編み出して相手に勝つことができると考えたのだ。実際に彼らの考えは正しく、Deep Blueは1997年に当時の世界チャンピオンに勝利した*。

Deep Blueで採用されたようなモデルでは、「こうなったらこうして、ああなったらああする」といった感じで、予め膨大な時間をかけて定められたルールに基いてコンピューターが駒を動かしている。そのため、これは強力なスーパーコンピューティングとは言えても、人間のように柔軟性がある学習モデルとは言えない。というのも、コンピューター自体が”考えている”わけではないからだ。

機械に学び方を教える

そこで科学者たちは過去10年のあいだに、百科事典のような膨大なメモリに頼らず、人間の脳のようにシンプルでシステマチックにデータを分析するという、古くからあるコンセプトに再び目を向けることにした。ディープラーニングやニューラルネットワークとして知られるこのテクノロジーは、実は1940年代から存在している。しかし、当時は考えられなかったほどの量の画像や動画、音声検索、検索行動といったデータを入手でき、安価なプロセッサが普及した今になって、ようやくその本当の可能性が花開き始めたのだ。

機械と人間は似たようなもの!

人工ニューラルネットワーク(Artificial Neural Network=ANN)は、音声操作からプレイリストのキュレーション、作曲、画像認識まで、全てをコンピューターに学習させることのできるアルゴリズムだ。一般的なANNは何千という数の人工ニューロンから構成されていて、何百万通りにも繋がりあった人工ニューロンが複数のレイヤー(または層)を形成している。また多くの場合、あるレイヤーと別のレイヤーを接続するときには、入力側か出力側にしか接続できないようになっている(人間の脳内にあるニューロンはあらゆる方向に繋がり合うことができるため、両者にはかなりの差がある)。

出典: GumGum

今日の機械学習では、この多層型のANNが広く利用されており、そこに大量のラベル付きのデータを与えることで、AIがそのデータを人間のように(ときには人間よりも上手く)理解できるようになる。

現実世界で親が子どもにリンゴとオレンジの見分け方を教えるときのように、コンピューターも練習を積めばふたつを見分けられるようになるということだ。

例えば画像認識においては、畳み込みニューラルネットワーク(Convolutional Neural Network=CNN)というタイプのニューラルネットワークが使われている。数学の畳み込みと呼ばれるプロセスから名前がつけられたCNNは、一部が見づらくなっている物体や一定の角度からしか見えないような物体が含まれている画像も非線形解析することができる(他にも再帰型ニューラルネットワークや順伝播型ニューラルネットワークなど、さまざまなタイプのものが存在するが、これらのニューラルネットワークは私たちが以下の例で取り上げている画像認識には向いていない)。

トレーニングの流れ

それではニューラルネットワークはどのように学習するのだろうか?極めてシンプルかつ効果的な、教師あり学習という手法を見てみよう。この手法では、ニューラルネットワークに人間がラベル付けした大量のトレーニングデータが与えられるため、ニューラルネットワークは自分で答え合わせができるようになっている。

リンゴとオレンジというラベルが付いた画像で構成されたトレーニングデータを思い浮かべてみてほしい。画像がデータ、それぞれの画像に対応している”リンゴ”、”オレンジ”という名前がラベルだ。トレーニングデータを受け取ったニューラルネットワークは、それぞれの画像を細かな要素(エッジ、テクスチャ、形など)に分解し始める。そして画像がネットワーク中を伝播していく中で、それらの要素が組み合わさって抽象的な概念を構築していく。曲線や色に関する情報が合わさって、茎やオレンジ、緑・赤のリンゴという絵が浮かび上がってくるといった具合だ。

このプロセスが終わると、ネットワークは画像に何が写っているかについての予測を立てようとする。そもそもまだ何も学習していないので、最初はこの予測が全くの当てずっぽうのように見えるだろう。そして、入力された画像がリンゴなのに、ネットワークがオレンジと予測したとすれば、ネットワーク内のレイヤーに修正を加えなければならない。

バックプロパゲーション(または誤差逆伝播法)と呼ばれるプロセスを通じて修正が行われると、次に同じ画像が与えられたときに、ネットワークがその画像をリンゴだと判断できるようになる確率が上がる。この作業は予測がほぼ正確になり、改善の余地がなくなったと感じられるくらいまで繰り返される。現実世界で親が子どもにリンゴとオレンジの見分け方を教えるときのように、コンピューターも練習を積めばふたつを見分けられるようになるということだ。もしもこの時点で「あれ、これって機械が何かを学んでるんじゃないかな?」と感じた人がいれば、その人はAIの分野で働けるかもしれない。

レイヤーに次ぐレイヤー

一般的に、畳み込みニューラルネットワークには、入出力用のレイヤーを除いて以下の4つのレイヤーが必ず含まれている。

  • 畳み込み層
  • アクティベーション層
  • プーリング層
  • 全結合層

畳み込み層

最初の畳み込み層(複数の畳み込み層が重なっていることもある)では、何千個ものニューロンが第一のフィルターとして機能し、画像内の各ピクセルにスコアを付けながらパターンを見つけようとする。処理された画像の数が増えるにつれて、それぞれのニューロンが画像の特徴的な箇所をフィルタリングするようになり、精度が向上していく。

リンゴを例にとると、あるフィルターは赤い色を探している一方で、別のフィルターは曲がったエッジを探し、さらに別のフィルターが細い棒のような茎を探しているかもしれない。引っ越しやガレージセールのために、散らかった倉庫を片付けたことがある人(もしくは業者に片付け作業をお願いしたことがある人)であれば、モノをまとめて(本、おもちゃ、電子機器、アート、服などへ)分類していく作業についてよく知っていることだろう。畳み込みレイヤーも同じような作業を通じて、画像をピクセルの特徴ごとにバラバラにしていっているのだ。

ニューラルネットワークの利点のひとつは、非線形学習ができることだ。

ニューラルネットワークが有名になった要因のひとつで、これまでのAI手法(Deep Blueなど)とは異なる強力な特徴として挙げられるのが、前述のようなフィルターを人間がつくる必要がないということだ。つまりネットワーク自体が、データを解析しながら処理方法を改善していくのだ。

畳み込み層の役割は、特徴マップと呼ばれる、もともとの画像がフィルターごとに分解されたものを生成することだ。そして特徴マップには、各ニューロンが画像のどの部分で赤い色や茎、曲線といったリンゴを特徴付ける要素を(どんなに部分的であっても)発見したかという情報が含まれている。しかし、畳み込み層はかなり自由に特徴を検知するようになっているため、画像がネットワーク内を伝播していく中で見落としがないか確認するような仕組みが必要になってくる。

アクティベーション層

ニューラルネットワークの利点のひとつは、非線形学習ができることだ。これはどういうことかと言うと、あまりハッキリと表れていない特徴も見つけることができるということだ。つまり、リンゴの木の写真に写った直射日光を受けているリンゴや影に隠れたリンゴ、さらにはキッチンカウンターのボールの中に山積みになったリンゴもニューラルネットワークを使えば認識することができる。これは全て、明らかなものも見つけにくいものも含め、重要な特徴をハイライトするアクティベーション層のおかげなのだ。

先述の片付けの様子を思い浮かべてほしい。今度は分別を終えた山の中から、珍しい本や今となっては皮肉にさえ見えるような学生時代に着ていた懐かしいTシャツなど、やっぱり残しておきたいと感じたお気に入りのモノを抜き出すとしよう。これらの”もしかしたら”というモノを、後で見直せるようにそれぞれの山の上に置いておくというのが、アクティベーション層の役割だ。

プーリング層

画像全体に”畳み込み”を行った結果、かなりのボリュームの情報が生成されるので、すぐに計算が面倒になってしまう。そこでプーリング層を使うことで、膨大な量のデータをもっと処理しやすい形に変換することができる。やり方はさまざまだが、もっとも人気のある手法が”マックスプーリング”だ。マックスプーリングを行うと、畳み込みで生成された特徴マップの要約版のようなものが作られ、赤い色や茎っぽさ、エッジの曲がり具合といった特徴がもっともハッキリと表れている部分だけが残される。

再度片付けの例を引っ張りだし、片付けコンサルタントとして有名な近藤 麻理恵氏の哲学を応用すれば、それぞれの山のお気に入りのモノの中から本当に”ときめく”モノだけを選んで、残りは全て売るか捨てるというのがプーリング層の役割だ。そうすると、本当に大切なものだけがカテゴライズされたままで手元に残ることになる(ちなみに、ニューラルネットワークの中で起きるフィルタリングやコンパクト化の作業の理解を促すための、片付け作業を用いた説明はここで終わりだ)。

ニューラルネットワーク設計者は、残りのレイヤーも同様に畳み込み層・アクティベーション層・プーリング層と積み重ねていくことで、より次元の高い情報だけ残すことができる。リンゴの画像で言えば、最初はほとんど認識できなかったようなエッジや色や茎も、何層にも重なり合ったレイヤーを通過していくうちに、その姿がハッキリと浮かび上がってくる。そして最終的な結果が出る頃に、全結合層が登場する。

出典: GumGum

全結合層

そろそろ答え合わせの時間だ。全結合層では、コンパクト化された(もしくは”プール”された)特徴マップが、ニューラルネットワークが認識しようとしているモノを表す出力ノード(またはニューロン)に”全て結合”される。もしもネコ、イヌ、ギニアピッグ、スナネズミを見分けることがネットワークのゴールであれば、出力ノードは4つになる。私たちの例で言えば、出力ノードは”リンゴ”と”オレンジ”のふたつだ。

もしも、トレーニングをある程度経て既に予測精度が上がってきたネットワークにリンゴの画像が入力された場合、特徴マップのほとんどにはリンゴの特徴をハッキリと示す情報が含まれているはずだ。ここで最後の出力ノードが逆選挙のような形で、その役目を果たすことになる。

新しい画像がネットワーク内を伝播したときの認識精度が上がるように、それぞれのレイヤーのニューロンに修正が加えられる。

リンゴとオレンジの出力ノードの(”オンザジョブ”で学習した)仕事は、それぞれの果物の特徴を示す特徴マップに”投票”することだ。つまり、ある特徴マップに含まれるリンゴの特徴が多ければ多いほど、その特徴マップに対するリンゴノードの投票数は多くなる。そしてどちらのノードも、それぞれの特徴マップが含んでいる情報に関係なく、全ての特徴マップに対して投票しなければならない。そのため、トレーニングが進んだニューラルネットワーク内では、全ての特徴マップに対するオレンジノードからの投票数が少なくなる。というのも、特徴マップにはオレンジの特徴がほとんど含まれていないからだ。最終的に投票数の1番多いノード(この場合で言えばリンゴノード)が、このネットワークの”回答”となる。実際にはもっと複雑だが、大体このようなプロセスでニューラルネットワークは画像を処理している。

同じネットワークがリンゴとオレンジという別のモノを認識しようとしているため、最終的なアウトプットは、「リンゴ:75%」「オレンジ:25%」といった感じで確率で表示される。もしもトレーニングが不十分でネットワークの精度が低ければ、「リンゴ:20%」「オレンジ:80%」といった結果が表示される可能性もある。

出典: GumGum

答えが間違っていれば繰り返しあるのみ

初期の段階にあるネットワークでは、不正解が続出するのが普通だ。「リンゴ:20%」「オレンジ:80%」というのは完全な間違いだが、ここではラベル付きのデータを使った教師あり学習を採用しているため、ネットワークはバックプロパゲーションを使い、どこでどのように間違ったかというのを自動的に解析できるようになっている。

冒頭の約束通り数学無しで説明すると、バックプロパゲーションとは、あるレイヤーのノードがひとつ前のレイヤーのノードに対して、自分たちの回答と実際の答えがどのくらいかけ離れていたかを伝える仕組みを指している。後ろのレイヤーからのフィードバックを受け取ったレイヤーは、さらにもうひとつ前のレイヤーに情報を伝え、その後も伝言ゲームのように畳み込み層まで情報が伝わっていく。そして新しい画像がネットワーク内を伝播したときの認識精度が上がるように、それぞれのレイヤーのニューロンに修正が加えられることになる。

その後も、ネットワークがリンゴとオレンジを100%の確率(多くのエンジニアは85%を許容値としているが)で当てられるようになるまで、このプロセスが何度も繰り返される。そしてトレーニングが完了すれば、そのネットワークは晴れてプロとして、リンゴとオレンジを認識する仕事に就くことができる。

*GoogleのAI囲碁プログラムAlphaGoは、ニューラルネットワークを使って盤面を評価しながら最終的に人間の棋士を破ったが、Deep Blueは人間によって記述された指示を基に戦っていたという点で異なる。

原文へ

(翻訳:Atsushi Yukutake/ Twitter

米空軍とロッキードが自律戦闘能力を備えたF-16を披露

ロッキードマーティンのSkunk Works(skunk worksには「秘密裡のプロジェクト」、「最先端開発プロジェクト」という意味がある)に協力している米空軍は、自律操縦F-16戦闘機の更なる飛行能力のデモンストレーションを行った。開発中の技術を使って、最終的な「無人戦闘航空機」(“Unmanned Combat Air Vehicle” (UCAV) )の行うことのできることを披露することが狙いだ。

ロッキードのニュースリリースによれば、このデモにおいて、実験機は与えられたミッション情報と計画チームによって与えられた戦力に基き「自律的に空対地攻撃任務を計画して実行」することができただけでなく、ミッションの最中に発生した不測の事態、例えば「機能障害、経路逸脱、そして通信途絶」などにも対応することができた。

このデモンストレーションは、ロッキードと空軍による「有人/無人混成チーム」の可能性探求の一部である。この混成チームではF-35のような先進的航空機に搭乗した人間のパイロットが、一群の自律支援戦闘機を率いて戦闘に向かって、人間のパイロットによる高いレベルでの命令と指揮を行うことが可能になる。

もちろん戦場における自律的な兵器の利用は、明らかに議論すべき対象だ。国連は、AI搭載武器の一律禁止の可能性に向けて動いているように見えるし、明らかに1編のディストピアSFよりも議論の中心となっている。批評家たちは、戦争における自律兵器の使用は、民間人の死亡数を増やし、その死に対する責任の所在を曖昧にすると主張している。支持者たちは基本的にこの反対側の立場から、自律兵器の利用は死傷者の数を減らし、短期でより限定的な紛争にとどまらせると主張している。

人間の戦闘者の指示の下で働く自律戦闘機は、明らかにこの議論の中間の立場を占めているが、倫理的な問題が未解決のままでも、この種のシステムの開発とテストは続いて行くだろう。

[ 原文へ ]
(翻訳:Sako)

FEATURED IMAGE: JACK GUEZ/GETTY IMAGES

トップ棋士およびAlphaGoによるイベントを5月に開催

GoogleのDeepMindが世界最高レベルの囲碁プレイヤーを破ったのは大きなニュースだった。Googleとしては、人間とAIを対決させることにより、地球上最強の囲碁棋士に対峙しうるものかどうかを確認したいとう気持ちがあったように思われる。

そしてこのたびGoogleは、中国棋院および中国政府の協力を仰ぎ、トップ棋士および中国のAI研究者を招いて5月23日から27日にかけて、AIの限界を探るサミットを開催することとなった。このサミットではAIの実力を探るとともに、人間とは異なるAI風の着手に対して、人間がいかに対応していくのかということを確認することも目的のひとつとなっている。

このイベントは5日間にわたって開催され、「囲碁の未来」(Future of Go Summit)と題されている。それぞれの対局者がAlphaGoとペアを組むペア碁も行われる。またAlphaGoを加えた団体戦なども行われることになっている。さらにメインイベントでは、世界最高ランクの棋士である柯潔を相手に、三番碁も行われる。

今回のイベントには、中国中のAI研究者たちが招かれ、AlphaGoの現在および可能性についての議論が行われることともなっている。現実の世界における諸問題を解決するためのステップとしたい考えだ。

AI進化の研究についての話はともかく、一般的にはAIとのペア碁が注目を集めることとなるだろう。対戦相手の着手に対して、いかなる連携先述が生まれるかは注目に値する。

原文へ

(翻訳:Maeda, H

BaiduのAIチームが知識を一般化できる人間的能力を仮想エージェントに与えた

Baiduの人工知能チームが、重要な進歩を達成した: 上図のような2Dの環境で“生きている”仮想エージェントに、その世界での歩き方・進み方を、自然言語のコマンドで教えた。そのために言語能力を、肯定や否定を通じて強化した。とくにすばらしいのは、エージェントが“zero-shot学習”の能力を持ったこと、言い換えるとAIエージェントが初歩的な文法感覚を持つようになったことだ。

人間の場合それは、赤ちゃんのころに発達する能力だから、記憶にないのがふつうだが、でも親が子どもに教えるときは、それと同じことをしているのだ。子どもに画像を見せて、言葉を繰り返すと、肯定的な強化(ほめる、など)が十分にあれば、その子は言葉と画像を結びつけるようになる。そして、すごい!、物の名前をおぼえたのだ。

しかしBaiduが画期的なのは、エージェントが、学習したコマンドを新しい状況に適用できたことだ〔ゼロショット学習〕。コンピューターは通常、それまでに獲得した知識を新しい物事に当てはめることが得意ではない。Baiduの研究チームは、その違いを次のように説明している:

過去の知識を新しいタスクに適用することは、人間にはとても簡単だが、現在のエンドツーエンドの学習マシンにとっては依然として難しい。“ドラゴンフルーツ”の形状を知っているマシンに“このドラゴンフルーツをナイフで切れ”と命じても、このコマンドに含まれているデータセット(切れ、ナイフで)を明示的に訓練されていなければ実行できない。対照的にわれわれのエージェントは、ドラゴンフルーツの視覚的外見について知っていることを、“Xをナイフで切れ”というタスクに伝送する能力を示した。“ドラゴンフルーツをナイフで切れ”を、事前に明示的に訓練されていなくても”。

このように、前に使ったスキルを一般化できる能力は、人工知能の大きな進歩だ。つまりそれは、まるで人間がやるように、知識を学んでその既得の知識を他へ適用できることを示した。昔のビデオゲームのような、単純な2Dの環境だけど、信じがたい成果だ。ぼくの脳には、できないかもしれない。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa))

Deep Mindの前にはDeep Blueがあった、初めて人工知能に負けた名棋士Garry KasparovがDisrupt NYで語る

多くの人がGarry Kasparovを世界最強のチェス棋士と見なしているが、でも彼の名前が大衆的に知られるようになったのは、IBMのDeep Blueとの歴史的な対戦によってだ。彼の負けは、人間と機械やコンピューターや情報、そしてとりわけ人工知能との関係がこれから変わっていくことを示す、象徴的な出来事だった。

Kasparovは5月に出版される著書で、あの対戦と、それを契機とする彼自身の知的探究について述べている。その彼が、Disrupt NY(ディスラプト・ニューヨーク)のステージで、彼が機械学習を、人間の敵ではなく、人間を補助するものとして受け入れるようになったことを話す予定だ。

今後機械学習はいろんな分野で利用されていくと思われるが、Kasparovが語る彼のユニークな見方では、機械学習が徹底的に探求された最初の分野のひとつがチェスだ。

Kasparovは世界的な人権活動家でもあり、ロシア連邦の大統領Vladimir Putinに対しても容赦ない。ロシアとアメリカの政治的な関係は今微妙だから、Kasparovが今日の地政学的な状況についてどう考えているか、興味深い。

今の彼はHuman Rights Foundationの理事長であるほかに、二つの本、How Life Imitates ChessWinter Is Comingの著者でもある。上で述べたように、三冊目の著書Deep Thinkingが5月に出る。

彼は、Foundation for Responsible Roboticsの役員顧問団のメンバーでもあり、またOxford Martin Schoolの客員研究員として、人間と機械の意思決定について研究している。

5月17日にニューヨークのマンハッタンに来られた方は、人間の知性の限界や、人工知能のようなツールを、世界を加速するというより、世界をより良くしていくために利用すべき、人類の責任について、いろいろ学べるだろう。

チケットはここでお買いください。

本誌TechCrunchがいろいろなイベントを開催できるのは、スポンサーのおかげです。スポンサーになることに関心のある方は、こちらへお言葉をください。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa))

Elon Muskの新会社Neuralinkは人間の脳が人工知能に‘後れない’ようにする

シリアル・アントレプレナー(serial entrepreneur, 連続(的)起業家)Elon Muskがまた新しい会社を作った。今度のは、テクノロジーによって脳の能力を拡張する、という主旨の企業だ。その新会社Neuralinkは、Wall Street Journal紙のおかげで今日(米国時間3/27)表沙汰になったが、元々Muskは、人工知能の進化に人間が歩調を合わせられるための脳-コンピューターインタフェイスに取り組んでいた。

Muskは去年のCode Conferenceで、“ニューラル・レース(neural lace)”というもののアイデアを述べた。それは、人間の脳に直接接続して、これまでの入力方法…キーボード、マウス、トラックパッドなど…のように帯域の制約のない、人間とコンピューターの対話を実現する技術だ。その後彼は自分の研究が進んでいるとツイートし、さらに最近では、彼がそのための会社を作るつもりだ、という噂が出回った。

ただしWSJの記事によると、Neuralinkは当面は人間の脳の能力の拡張を目指さない。むしろ同社が探求するのは、危険な、あるいは慢性的な症状を、脳のインタフェイスによって緩和することだ。

記事によると、それらの症状とは、てんかんや重症のうつ病などだ。今でも電極を脳に挿入するパーキンソン病の治療法などがあるが、Neurallinkはそれら既存の医療技術を出発点とし、それらの改良努力に集中することによって、より容易な開発と、当局からの承認の得やすさを目指す。この、あえて低いハードルをクリアすれば、人間の脳の能力の拡張という長期的な目標に向けて、会社の体制を整えることができるだろう。

まわりくどいやり方に見えるかもしれないが、これはMuskが大きなアイデアに取り組むときの標準的な方法だ。SpaceXとTeslaも同じモデルを用い、後年ほど野心的ではない短期的な製品から始めて、大きな目標…火星着陸船や長距離EVの大衆化など…に向けての持続可能な勢いをつける。

MuskはNeuralinkに関して、これまでのTeslaやSpaceX、The Boring Company(トンネル利用による都市交通の高速化)などと同じく、本気で取り組むだろう。しかし彼は人工知能について、人間にリスクをもたらすかもしれないと見ているだけに、彼が追究するリスク回避のソリューションは、他の惑星への植民や化石燃料からの卒業などと同じく、彼にとっても重要な意味を持つだろう。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa))