Facebookが10億円超を投じてディープフェイクの識別に賞金

一般に「ディープフェイク」と呼ばれるディープラーニングを利用してデジタル画像、動画を捏造するテクノロジーは我々の社会に対しすでに深刻な脅威となっている。こうした捏造を退治するためには我々自身が捏造を見破る能力を保たねばならない。火をもって火と戦うというわけだ。

Facebook(フェイスブック)、Microsoft(マイクロソフト)などのトップテクノロジー企業は共同で、デープフェイクを識別する機械学習システムを開発中だ。こうした努力の一環としてFacebookが興味深いプロジェクトを立ち上げた。

ディープフェイクは比較的新しいテクノロジーだが、我々はすでに捏造力と識別力の軍拡競争に投げ込まれている。毎日新たな、ますます真に迫ったディープフェイクが登場している。大部分は無害なものだが、誰かの映像を細工して極めて不都合な場面を捏造することが可能だ。そしてリベンジポルノのように悪用するものがいる。政治家、俳優を含めて多くの著名人がすでにディープフェイクの被害にあっている。

FacebookはMicrosoft、オックスフォード大学、カリフォルニア大学バークレー校、マサチューセッツ工科大学などで構成されるAIパートナーシップに参加している。Facebookはその一環としてディープフェイク識別テクノロジーの改善のために大型プロジェクトを立ち上げた。Facebookの最高技術責任者であるMike Schroepfer(マイク・シュレーファー)氏は米国時間9月4日の電話記者会見で次のように述べた。

最近のAIテクノロジーの進歩に関連して興味ある点はAIの達成レベルを計測するためにベンチマークとなるデータセットが用意されるようになったことだ。画像認識テクノロジーをテストするためには数百万件の画像のセットが用意され、音声テキスト化のためにも異なった音声のサンプルが何時間分もデータセットとして利用できる。しかしディープフェイク識別の場合はそのようなデータセットが存在しない。

今年初めに開催されたロボティクスとAIについてのTechchCrunchセッションで我々はすでにこの問題を取り上げている。下のビデオでは私(Coldeway)がバークレーのAlexei Efros(アレクセイ・エフロス)教授、ダートマスのHany Farid(ハニー・ファリド)教授にインタビューしている。

ビデオの冒頭でディープフェイクのサンプルとしてバラク・オバマ大統領のビデオを加工して「言っていないことを言わせる」ビデオが流される。ディープフェイクが民主主義に与える脅威が容易に想像できるだろう。

こうした脅威に対抗するため、Facebookは1000万ドルのリソースを投入してディープフェイク識別コンテストを開催する。FacebookはAIパートナーシップのメンバーと協力してまず大量のディープフェイクのサンプルを作ることにしたという。上の電話記者会見でSchroepfer氏は次のようにその背景を説明した。

ディープフェイクを識別するためのベンチマークとなるデータベースを作るのは非常に困難な事業となる。その理由のひとつはディープフェイクのターゲットなった人物がデータベース化に同意している必要があるからだ。そうでないとベンチマークに使われたことに抗議される可能性がある。現実にインターネットに拡散されたディープフェイクの場合、被害者になんらの同意も求めていないのが普通だ。このため少なくともアカデミックな研究に用いることはできない。

まず必要になるのはディープフェイクのソースとなるビデオ素材だ。次にその画像に重ねる人物の各種の特徴を記録したデータでベースだ。そこからディープフェイクの実行となる。ここでは最新、最強のディープフェイク技術をして現実には存在しなかったビデオや音声を作り上げる。

ではFacebookはその素材をどこから入手するのかと疑問を持つ読者も多いだろうが、安心していい。素材には報酬を支払ってプロの俳優を起用している。

dfdc

ディープフェイクのデータセットはディープフェイク識別テクノロジーを進歩させる能力、意思のあるグループに提供される。結果はリーダーボード形式で共有される。識別力に応じて賞金が提供されるというが、詳細はまだ発表されていない。賞金の額によっては大学や各種組織の研究者の間に健全な競争を巻き起こすかもしれない。

メリーランド大学のRama Chellappa(ラマ・チェラッパ)教授はプレスリリースでこう述べている。

マルチメディアの捏造という深刻な脅威に対抗し識別力を高めるためには研究者コミュニティの全面的な協力が必須だ。ディープフェイクについての知見を深め発見のためのシステムを構築するためのオープンな環境とシステムが求められる。特に必要なのは現実の素材とそれを加工した素材の大規模なコーパスだ。(Facebookから)発表されたチャレンジは研究者コミュニティにエキサイティングな刺激を与え、一丸となってこの脅威に立ち向かうきっかけを与えるに違いない。

ディープフェイク識別のためのデータセットは、まず10月に予定されているコンピュータビジョンに関するカンファレンス、ICCV(International Conference on Computer Vision)で発表される。さらに12月に予定されているニューラル・コンピューティングのカンファレンス、NeurIPSでさらに詳しい発表があるはずだ。

原文へ

(翻訳:滑川海彦@Facebook

Yelpのウェブサイトと検索結果がパーソナライズ化

米国時間8月27日、Yelpはユーザーの個人設定に基づいて検索結果とウェブページをパーソナライズできるようにすると発表した。

ベジタリアンのユーザーや子連れで行きやすいレストランを見つけたいユーザーは、検索のたびにその情報を入力する必要がなくなる。いったん設定しておけば、その後はその条件を優先した結果が表示される。

同社コンシューマープロダクト責任者のAkhil Ramesh(アキール・ラメシュ)氏は「2人のユーザーが同じコンテクストで同じ検索をしても結果は異なる。これはYelp史上初めてのことだ」と言う。

この機能を使うには「Personalize your experience」(体験をパーソナライズ)からオプションを選択する。オプションには、食事の条件(ベジタリアン、ビーガン、グルテンフリーなど)、ライフスタイル(子供がいる、車を持っている、ペットがいる)、アクセシビリティのニーズ(車椅子、ジェンダーニュートラルの化粧室)、好きな料理、その他の好み(書店が好き、夜のデート向けなど)がある。

この設定を済ませると、検索結果に反映するようになる。結果には「ベジタリアン料理多数」「中華好きのあなたにおすすめ」などと表示されるので、パーソナライズされていることがわかる。ウェブページではユーザーが気に入りそうな店がハイライトされる。

この機能の登場は遅すぎるようにも思える。人気アプリやウェブサイトの多くは、すでにすっかりパーソナライズされているからだ。なぜYelpは今、この手法を取り入れることにしたのか。

その理由のひとつとしてラメシュ氏は、食に対する関心の多様化を挙げる。また「我々には長年にわたって蓄積してきた、構造化されてはいないものの有意義で質の高いコンテンツがある。このコンテンツはリアルな体験を表しているものだ。ここ数年、我々の機械学習とAIは飛躍的に発展した。そのため、我々が持つ高品質なコンテンツをベースに本当に役に立つ機能を作ることができた」とも語る。

ラメシュ氏は、すべての行動をアルゴリズムに反映させるのではなく、明示的にYelpと共有した設定から結果を示すと強調する。とはいえ「どの機械学習のアルゴリズムにも偏りはたくさんあるだろう」とも述べた。

同氏は、このアプローチを「人間的な方法」と説明する。つまり、誰かと会話をするときに「その人が週末に何をしたかを想定しようとはしないでしょう。その人にただ質問し、会話をするだけです」。

同時にラメシュ氏は、アプリ内での行動全般が検索結果に影響を与えることが有用であることも多々あるため「この2つのバランスを探っているところだ」とも語った。

好みはタイミングや状況によって変わることもある。あるものを食べたくないとか、子供抜きで食事に行くこともあるだろう。そこで設定はいつでも変えられる。また、ウェブページからいずれかを選択し、詳しく見ていくこともできる。

このことがYelpの広告ビジネスにどう影響するかをラメシュ氏に尋ねたところ、最初に目に入る広告には影響が現れないが、設定と関連づけて「XXX料理好きのあなたに」というメッセージの広告は表示されるようになるとの説明だった。

同氏は「最終的にユーザーの設定に基づいて広告が表示されるだろうが、ETA(拡張テキスト広告)は表示されない」と付け加えた。

画像:Yelp

[原文へ]

(翻訳:Kaori Koyama)

カメラなしホームセキュリティの「Minut」が8億7000万円調達

スウェーデンのスタートアップであるMinutは、カメラを使わないホームセキュリティデバイスを開発し、同種のほかの製品よりプライバシーが守られるとしている。その同社が、シリーズAで800万ドル(約8億7000万円)を調達した。

このラウンドはKPN Venturesが主導し、国際的なエネルギーサービス企業のCentricaが参加した。これまでに投資してきたKarma Ventures、SOSV、Nordic Makersも加わり、Minutの調達額の合計は1000万ドル(約10億8000万円)になった。

Minutは2014年にCEOのNils Mattisson(ニルス・マッティソン)氏が設立した。同氏はアップルの調査デザイングループに7年間在籍していたという。Minutはホームセキュリティのモニタリングをもっと手頃な価格で、プライバシーを犠牲にしないものにすることを目指している。

同社のIoTデバイスには従来の意味でのカメラはなく、代わりに赤外線のモーション検知やマイクといったセンサーを使用している。リアルタイムで取得されたデータをもとに家で不測の事態が起きていないかを判断するが、その判断はデータをクラウドに共有するのではなく、デバイス自体で処理される。

マッティッソン氏は「安心は贅沢ではなく、プライバシーと引き換えにするものでもない。これまで、最も手頃なホームセキュリティとモニタリングのソリューションはWi-Fi接続のカメラだったが、人々は家にそういうカメラを置きたくないし、信用もしていない」と語る。

プライバシーに関するこうした認識が、Minutの設立当初からの設計方針となっている。このような考えから、同社は「ネットワークの端で」機械学習を実行する最初のデバイスメーカーのひとつとなった。

同氏は「このアプローチは、技術的には、AmazonのAlexaやGoogle Assistantのように音を録音して分析のためにバックエンドに送るよりも、ずっと難しい。しかし我々は、音を一切録音せずに、窓が割れたとか人がいるといったイベントを特定できるようになった」と説明する。

「センサーのデータからリアルタイムで特徴を抽出し、デバイス上で分析する。ローカルのニューラルネットワークが何かが起きた可能性があると認識すると、フィンガープリントだけが抽出され、グローバルな分析機能に送られて、さらに詳しく正確に評価される。フィンガープリントから音を再構築することはできない」。

結果としてMinutは「そこに住んでいる人を尊重」しつつ家をモニタリングできるようになった。マッティッソン氏は、こうしたアーキテクチャの開発はきわめて重要な仕事で、このユニークなアプローチで今年の初めに特許を取得したと語る。

これまでにMinutは60カ国で1万ユニット以上を販売した。スウェーデンのマルメにある本社の従業員は約30人で、新たにオフィスをロンドンに開設した。今回調達した資金は、さまざまなマーケットで成長し、製品ポートフォリオを強化するために使われる予定だという。

[原文へ]

(翻訳:Kaori Koyama)

マイクロソフトからAzure Kinect AIカメラキットが約4.3万円で登場、まずは米国と中国で

今年のMWC(Mobile World Congress)でMicrosoft(マイクロソフト)は3次元認識能力があるAIカメラであるKinect(キネクト)をデベロッパー向けに復活させることを発表したAzure Kinect DKパッケージに含まれるのは100万画素の奥行きセンサーカメラ、360度マイク、1200万画素の通常のRGBカメラ、姿勢センサーなどで、全体は比較的小さくまとめられていた。DKパッケージは数カ月前から予約可能となっている。

米国時間7月11日、Microsoftは米国と中国で一般ユーザー向けにこのパッケージを市販することを明らかにし、399ドル(約4万3300円)で予約の受け付けを開始した。

オリジナルのKinectはXboxのゲーム用に開発されたアクセサリで、大きな注目を集めないまま終了していた。これに対してクラウド版のAzure Kinectはビジネスユースを念頭に置いている。つまり視覚認識能力があるAIツールを開発するデベロッパー向けにプラットフォームを提供するもので、名称のとおりAzureのエコシステムを全面的に利用できる。新しいKinectではMicrosoftの各種の機械学習サービスも利用できる(すべてのサービスがAzureの利用を必須としてるわけではない)。

Microsoftは、デベロッパー向けにXBox用Kinectを思いださせるボディートラッキングプレビューができるSDKなど多数のSDKを発表している。

kinect developers

新しいKnect DKのカメラはオリジナルのものとは異なり、むしろ同社が今年バルセロナのMWCで公開したHoloLens 2(ホロレンズ2)のカメラに近い。プレスリリースによれば、Azure Kinect DKには第2世代のHoloLens ARヘッドセットで利用されているToFセンサーが含まれている。ToF(Time-of-Flight)カメラはパルス光を照射し、画素ごとに反射時間を計測してフレーム全体の奥行きを一挙に認識する仕組みだ。DKのテクノロジーの中心となるのはこのToFカメラだが、Microsoftによればマイクロフォンアレイも発話者を聞き分けるなど高度な音声認識のために役立つという。

新しいKnectキットは生命科学、ヘルスケア、リテール、ロジスティクス、ロボティクスなどの分野で画像の奥行き認識を利用したAI、機械学習プロダクトを開発するプラットフォームとして役立つものとMicrosoftは期待している。同社のパートナーであるQualcommからも同種のキットが発表されているが、今回のKinect DKのような3次元認識カメラは含まれていない。

(Techcrunch Japan編集部追記)Azure Kinect DKは日本Microsoftのサイトから購入を申し込むことができる。サイトは日本語だが申し込みは英語でアカウントの取得が必要。

原文へ

(翻訳:滑川海彦@Facebook

アマゾンのAlexaは地域による違いに機械学習で対応

アマゾンの音声アシスタントのAlexaは大きな課題に挑んでいる。多言語対応の製品として動作するだけでなく、対応している各言語の地域による違いもAlexaが認識できるようにすることだ。

これを実現するためにAlexaはあらゆるバリエーションを完全に学習しなおした。これにはたいへんな時間とリソースを要する。しかしAlexaのAIチームは、音声認識をトレーニングする新しい機械学習ベースの方法を開発した。これにより、既存の言語の新しいバリエーションのモデルを構築しなおす作業は大幅に減る。

North American Chapter of the Association for Computational Linguisticsに提出された論文によると、アマゾンのAlexa Alの上級応用サイエンスマネージャー、Young-Bum Kim氏のチームは、テストに使用した米国、英語、インド、カナダの4種類の英語について、正確さがそれぞれ18%、43%、115%、57%向上する新しいシステムを設計したという。

チームは、ユーザ一がどこでリクエストしたかにかかわらず答えがあまり変わらない場合よりも、あるドメインのユーザーからのリクエストに対する答えが地域に固有のものであることが前もってわかっている場合(近くのレストランを教えて、と聞かれたときなど)に重みをつけて学習アルゴリズムを調整する方法を実装した。

次にAlexaのチームは、地域に固有のモデルを1つに統合し、その言語で場所の影響を受けないモデルも追加した。その結果、前述の向上が見られた。

基本的には、共通の基盤を活用し、答えが大きく変化することについて差異を追加するだけにすれば、あまり手間をかけずに地域によって違う答えを返すようになる。時間をかけてAlexaはもっと賢く、速く、言語面で柔軟になるはずだ。

[原文へ]

(翻訳:Kaori Koyama)

あなたの自律走行車はスポーティーなサリーか?血に飢えたクリスティーンか?

馬車が走る道に初めて自動車が登場したとき、馬はその技術の最初の犠牲者となった。ゆっくり走る自動車に襲われたわけではなく、驚いて逃げてしまったわけでもない。むしろ馬は、怪我に悩まされた。また、怯えた馬が通り道にあるものすべてを踏み荒らし、物や歩行者に損害や傷害を与えることもあった。

自動車がもっと速く走れるようになり台数も増えると、歩行者が走る自動車の直接の犠牲者になった。間もなく、交通規則、および製造物責任法と不法行為責任法が作られ、大虐殺を避けるための秩序がもたらされた。それでも、いまだに注意散漫で運転技術が未熟なドライバーは増加する一方であり、彼らが混雑した高速道路を、現実版のまったく笑えない「フロッガー」の舞台に変えている。

自律走行車に乗れば、ドライブのあらゆる恩恵がドライブせずに得られるようになる。自動運転を支持する人たちは、自律走行技術によって自動車はより安全になり、2050年までに事故発生頻度を90パーセント以上削減できると信じている。自動車事故の90パーセント以上が、ドライバーの運転ミスによるものだからだ。

たしかに、飲酒運転や不注意、その他のドライバーの行動に起因する死傷事故のニュースは後を絶たない。自律走行車なら、友だちにメッセージを送ったり、『ブラック・ミラー』を一気見したりしていてもオーケーだ。でも、本当にそうだろうか?それは、目の前に立っている歩行者は実際にはそこにいないと自律走行車が誤認しない限りにおいてのことだ。または、ゴミ収集トラックが引きずっているゴミを車線のラインと見間違えて、車ごとコンクリートブロックに突っ込まない限りにおいてだ。

他社に先んじて、完全な自動運転の実現を目の前にしている企業もあるが、運転環境での極限状況は改善されないままだ。つい最近も、アリゾナの暗い国道を自転車を押して渡ろうとしていた女性が自律走行車に跳ねられるという悲惨な事故があったばかりだ。車にはドライバーが乗っていて、事故にならないよう対処できたはずなのに、それをしなかった。積極的に奨励しないまでも、ドライバーが運転を手放せるようにすることが自律運転技術の本来の意義であるため、その車に乗っていた人の不注意を責めることはできない。

ほとんど必要とされないためドライバーが運転できなくなってしまうから「自律走行車のパラドックス」は危険だ。少なくとも当面の間、自律走行システムの信頼度が人間のドライバーとほぼ同じ98パーセントの安全率を上回るようになるまでは、緊急時や予想外の状況での人間のドライバーの補完を必要とするだろう。

この移行時期の間、そしてこの時期を過ぎてからも、事故の際に何が起きるのか、また誰がその責任を取るのか?自律運転技術が現れる前は、自動車事故は、ドライバーの過失とメーカーの製造者責任という2つ法理論のうちのいずれかが適用された。過失の法理論は、ドライバーの行動に責任を負わせ、ドライバーから、一般的には保険会社からだが、ハンドルを握っていた本人の行動に対する金銭的賠償を引き出そうとするものだ。製造者責任の法理論はその反対で、怪我の原因になったエアーバッグやイグニションスイッチやタイヤや、さらには自動車そのものなど、欠陥のある製品を製造し販売した企業に向けられるものだ。自律走行車の事故に現在の法理論を適用しようとすれば、数多くの問題が発生する。

人工知能(AI)、あるいは自動車を自律走行させるものなら何でも構わないのだが、それがカーブの路面が滑りやすくなっていることを検知または、それに応じて運転を補正できなかったとする。前を走る車から漏れた不凍液が路面を濡らしたようで、ハンドルを握る人間には認知できたものの、AIシステムにはほとんど見えなかった。もし、自律走行車に手動運転が優先される機能があり、それで事故が起きたなら、衝突を防ぐ操作をしなかったドライバーの責任が問われるのか?道路状況を検知したり、それに対処しなかった自動車のメーカーが責任を問われるのか?両方だとしたら、責任の割合はどうすべきか?

もし、通常の自動車だった場合、ドライバーに対する訴訟は、その人の行動が適切な注意義務基準に達していなかったことを証明できるかどうかにかかってくる。ハンドルから手を放していたなら、通常の自動車では過失行動とされることが多い。スマートフォンでメッセージを送っていて注意散漫になっていた場合もおそらく同じだ。しかし、自律走行車の自動運転機能は、本来の性質上、ドライバーが運転に注意を払わなくても、また運転に関わる必要性をなくすためのものだ。となれば、上記のような状況で、私たちは運転を引き継がなかったドライバーの責任を追及できるのだろうか?

従来型の自動車のメーカーも、法的責任はシステムや部品に欠陥がなかったかにかかってくる。状態のいい従来型の自動車で、サスペンションにもブレーキにもハンドルにも欠陥がなければ、上記のシナリオでも、メーカーが責任を問われることはまずないだろう。一方、人間の運転が優先される自律走行車のメーカーは、少なくとも責任の一部をドライバーに負わせようと試みる知れないが、そんなことを社会が許すだろうか?許すべきだろうか?ドライバーは、合理的な範囲で自律走行者に依存していたと主張するだろう。しかし、ドライバーの目には危険が目に見えていて、事故を防ぐための介入ができにも関わらず、メーカーが責任を負うべきなのだろうか?

その車が完全に自動化されていて、人間の介入が不可能であった場合は、結果は違ってくる。しかし、そんな車が現れるのは何年も先のことだ。

そうした自律走行者が市場に登場したとき、予期せず遭遇した滑りやすい路面を検知またはそれに対する補正に失敗したときは「欠陥車」とされるのか?または「欠陥車」と見なすべきなのか?もしそうなら、単に故障が発生したから欠陥車とされるのか、それとも、AIソフトウエアにエラーがあることを誰かが証明して見せなければならないのか?AIアルゴリズムは自身で進化することができ、膨大な距離と時間を費やして得たトレーニングデータに依存していることを考えると、どうしたらソフトウエアの中の「欠陥」を証明できるのだろうか?事故を起こした時点のアルゴリズムがオリジナルから大きくかけ離れていた場合、そしてその変化がAIアルゴリズムが自分で「教育」した結果であった場合、そのプログラマーやソフトウエアの提供業者に責任を負わせることが公正なのだろうか?

もうひとつの問題は「集団意識」だ。AIが学習する方法のひとつに、接続された他の複数のAIの集団的な体験を利用するものがある。これは、一時期Teslaが使用していた方法だ。もし、他のAIの誤ったデータがアップロードされ、それが事故に大きく関わっていたとしたら、どうだろう?

こうした問題の観点からすると、そして技術がますます人間の関与を減らす方向で発達すれば製造者責任の法理論を強化するよう法律も変化することになるだろう。おそらく、製造者責任は過失よりも厳しくなる。将来の自律走行車の価格が、研究開発と部品のコストだけでなく、事故のコストをカバーする「保険」を含めて決められるようになるとしても、突飛な話ではない。こうした進化は、人間のドライバーの役割が減るのに合わせて起こっていくだろう。しかし、自動車メーカーのAIシステムの学習プロセスを完全にコントロールする能力や、ましてや運転環境が同時に進化することはないだろう。

少なくとも、ある程度の人間の介在を必要とする移行期においては、責任に関する自動車メーカーの意見は分かれる。ボルボなどの一部のメーカーは、自動運転モードの最中に発生した事故に関しては全責任を負うと宣言している。しかし、テスラを始めとする他のメーカーは、ドライバーが若干の関与を要求される状況で発生した事故においては、たとえ自動運転モードであっても、ドライバーに責任を負わせようとしている。

例えば、かつてテスラでは、自律走行モードで他の車を追い越す機能を有効にするには、方向指示器を点灯させなければならなかった(テスラの新型車ではこの操作が不要になった)。ドライバーにこの操作を行わせる仕組みは、一見、大したことではないように感じられるが、そこには自動車メーカーが法的責任をドライバーに転嫁する意図がある。簡単な操作だが、車に追い越しを指示するだけでなく、その追い越しは安全に行えるという自らの判断によるものであり、その結果の如何に関わらず責任を負う、または負わなければいけないと、ドライバーに示唆するものでもある。

その基礎となる技術は、責任の所在を追求しようとすれば、さらなる複雑性を突きつけてくる。これまで暗に示してきたように、「機械学習」として特徴付けられるAIの側面は、無数の多様な入力データをもとに開発されていて、その振る舞いは多かれ少なかれ「ブラックボックス」化されている。厳格な数学的アルゴリズムと思われるため、本当に理解することは難しい。

言い換えるなら、私たちには、機械がどのように判断をしてその行動をとったのかを正確に知る手立てがないのかも知れないということだ。その場合、AIボックスが間違ったトレーニングを受けた、または現実の運転ではなくシミュレーター上で「訓練」されていたとしたら、AIボックスが極限的状況での対処を誤って事故につながった責任は、シミュレーターの開発者に負わされることにならないか?

AIのプログラミングやトレーニングの倫理の問題はどうだろう。最近の研究で、歩行者が有色人種だった場合、現在のAIシステムが彼らを認識できる能力は20パーセント低下することがわかった。これは、AIのトレーニングが多様性を踏まえていなかったためだ。他に説明があるだろうか?MITによる最近の調査では、衝突が避けられない極限状況において人の命を犠牲にするかどうかではなく、どの人の命を犠牲にするかの選択を迫られたとき、人は救うべき命をその上下関係で決めていることがわかった。この調査に参加した人たちは、動物よりも人の命を優先させるべきだと話している。少数の命よりも、大勢の命を救うべきであり、老人を犠牲にして若者を救うべきだと考えている。

興味深いことに、ベビーカーを押して交通法規を守って歩いている人を尊重するべきだとも考えられている。結論として、こうした倫理感に基づいて自律走行車がプログラムされた場合、交通の激しい道路をひとりで乱横断している人は自律走行者に跳ねられる確率が格段に高くなるということだ。この調査の道徳的序列では、猫、犬、犯罪者が保護対象としての最下層に位置する。だが、その人が犯罪者かそうでないかを車が判断できるのだろうか?刑務所の情報をリアルタイムで入手するのか?また、動物愛護活動家のハッカーが車のプログラムを、人より動物を尊重するように書き換えてしまったらどうなるのだろう?

MITのこの調査が信頼できるとすれば、こうした序列の意識や変動性が現に存在していることになる。それは、人間の潜在意識にしまい込まれているだけだ。機械の中ではない。次に道路を渡るとき、このことを考えてみてほしい。

【編集部注】
著者のLucas Dahlinは、Goodwin知的財産グループのアソシエート。複雑な知的財産問題を専門に取り扱い、特許と企業秘密に関する訴訟に豊富な経験を持つ。

Julius Jeffersonは、Goodwin知的財産訴訟グループのアソシエート。Goodwinに加わる以前は、デラウェア地区とテキサス西地区で判事の書記を務めていた。ロースクールに入学する以前は、Wyeth Pharmaceuticals(現Pfizer)の研究フェローとしてアルツハイマー病の治療法を研究していた。

Darryl M. Wooは、Goodwin知的財産訴訟グループの共同経営者。以前は法廷弁護士として特許訴訟やその他の複雑な技術関係の訴訟を専門に扱っていた。

[原文へ]
(翻訳:金井哲夫)

ARMが新しいCPUとGPU、そして機械学習チップを発表

ARM(アーム)は、世界でほとんどのスマートフォンが使っている基本チップを設計している会社だ。米国時間5月27日に同社は、高級スマートフォン向けの次期チップデザインを発表した。このデザインに基づいて作られたチップの完成にはまだ時間がかかるだろうが、これまでの例にならえば年末までには最初のチップを見ることができると思われる。今回同社は、Cortex-A77 CPU、Mali-G77 GPU、および省エネルギーを強化した機械学習プロセッサーを発表した。

最近のトレンドを踏まえると、新しいCortex-A77が総合性能の改善だけに焦点を当てていないことは驚きではないが、前世代に比べてIPC性能を20%改善したと同社が約束している点は見逃せない。ハードウェア、ソフトウェア一体となった最適化のおかげで、Cortex-A77は機械学習性能も著しく改善されている。

機械学習プロセッサーも提供している同社がなぜ、そこを強調するのか?ARMによると、現在専用のニューラルプロセッサーを使用しているスマートフォンはほとんどない。実際、スマートフォンの85%はCPUのみまたはCPU+GPUの組み合わせで機械学習の負荷を受け持っている。また、アクセラレーターが利用できる場合でも、それがGPUであれ専用機械学習チップであれ、そこにタスクを引き渡すのはCPUだ。

他の新世代ARM CPU同様、Cortex A77もエネルギー効率および生の性能の改善を約束している。実際ARMは、2013年以来性能を4倍にしたと言っている。

同社はモバイルゲーミングにも賭けている。その延長線上にはモバイルVRやAR体験がある。新しいMail-G77 GPUアーキテクチャは、同社のValhall GPUデザインをベースにした最初のチップであり、G76の1.4倍の性能を約束している。エネルギー効率も30%向上し、機械学習の推論とニューラルネットワークの実行は60%速くなった。

機械学習プロセッサーに関して、ARMはすでにProject Trilliumという、同社CPUと組み合わせて使用する異機種間機械学習処理プラットフォームを提供している。昨年Trilliumを発表して以来、同社はエネルギー効率2倍、最大8コアで32 TOP/秒のスケールドパフォーマンスを実現している。

「新しいスマートフォン体験は、高いハードウェア性能と新たなソフトウェアイノベーションを可能にする機能によって作られる。デベロッパーにとってCPUは、一般計算のみならず機械学習も扱うこれまでになく重要な存在になっている。没頭姓の高いAR/VRアプリケーションや高画質のモバイルゲームなどでも同様だ」と同社が発表文で述べた。

[原文へ]

(翻訳:Nob Takahashi / facebook

UCサンフランシスコ校の脳外科医が脳から直接発話を引き出すことに成功

科学者たちが健康な被験者の脳に直接接続を行い、言葉を生成して音声として再生することに成功した。これは深刻な医学的状況にある人たちが、発話できる可能性につながって行く素晴らしい技術だ。この技術は実用からはまだ遠い段階だが、科学的成果は本物で、見込みは確かにある。

カリフォルニア大学サンフランシスコ校の脳神経外科医であり、米国時間424日にNatureで発表された論文の共著者でもあるエドワード・チャン(Edward Chang)氏は、プレスリリースの中でチームの成果のインパクトを次のように説明している。「今回初めて、この研究によって、個人の脳の活動から完全な発話の文章が生成できることが示されました。これは、発話機能を失った患者さんに対して、すでに手の届くところにある技術を使って臨床的に実現可能なデバイスを作ることができるということを示す、勇気付けられる証明なのです」。

はっきりさせておきたいのだが、これは単に機械の前に座れば、頭の中の思考をスピーチに変換してくれる魔法の機械ではない。正確に言えばこれは、対象が考えていることではなく、実際に話していることをデコードする、複雑で侵襲的な手法なのだ。

発声科学者のゴパラ・アニュマンチパリ(Gopala Anumanchipalli)氏に主導されたこの実験は、他の医学的処置のために既に脳に大きな電極が埋め込まれていた被験者に対して行われた。研究者たちはこの、運のいい被験者たちに、数百の文を大声で読んでもらい、同時に電極が捉えた信号を詳細に記録した。

脳に装着された電極

すると、言葉を考えて並べようとした瞬間から、最終的に信号が運動野から舌や口の筋肉に送られるまでの間に起きる脳のアクティビティ(ウェルニッケ野やブローカ野などの大脳皮質領域で起きるもの)に、ある種のパターンがあることに研究者たちは気が付いた。アニュマンチパリ氏と彼の共著者である大学院生のヨシュ・シャルティエ(Josh Chartier)氏が、以前解析していたものと関連する信号が存在していたため、彼らはそれを発話の再構成の目的に利用できるかもしれないと考えた。

音声を直接分析することで、チームはどの筋肉と動きがいつ必要になるか(これは良く確立された手法だ)を判断することができ、これを使ってその人物の発声システムの、一種の仮想モデルを構築した。

次に彼らは機械学習システムを利用して、セッション中に検出された脳のアクティビティをその仮想モデルに写像した。すなわち本質的には脳の記録を使って、口の動きの記録を制御することができたということだ。繰り返すが、これは抽象的な思考を言葉にしているのではない、ということを理解することが重要だ。このシステムが理解しているのは脳が顔の筋肉に対して送っている具体的な命令であり、その命令による動きが生み出すであろう言葉を決定しているのだ。これは脳を読んでいるのであって、心を読んでいるのではない。

結果として得られる合成音声は、はっきり明瞭なものではないが、確かに理解することは可能だ。そして正しく設定することで、他の方法ではおそらく話すことができない人から、毎分150ワードを引き出すことが可能になるかもしれない。

「話し言葉を完全に真似るには、まだまだ時間がかかります」とシャルティエは語る。「それでも、私たちがここで生み出した正確さのレベルは、現在使える他のリアルタイムコミュニケーション手法と比べて、驚くほど改善されたものとなるでしょう」。

たとえば進行性筋疾患に罹って苦しんでいる人の中には、視線によって文字を1つずつ入力して単語を綴ることで発話しなければならない人も多い。1分あたり5〜10単語がせいぜいで、より重度の障害者のために使われる他の方法は、さらに遅くなる。コミュニケーションを取ることができるという意味では、それはある意味奇跡だが、こうした時間がかかりあまり自然とは言えない手法は、実際の発話のスピードや表現力と比べると段違いなのだ。

より良い「双方向」脳=コンピューターインターフェイスの研究が進んでいる

もしこの手段を使うことができたなら、完全な正確さは無理かもしれないが、遥かに普通の喋り方に近付くことができるだろう。しかし、これは問題を一撃で打ち砕く魔法の弾丸ではない。

この手法の問題点は、健全な音声システムに近いものから慎重に収集された、脳から舌先に至るまでの大量のデータを必要とすることである。障害が既に起きてしまったひとにとって、このデータを集めることはもはや不可能だし、それ以外の人の場合でもデータ収集のための(脳に電極を装着する)侵襲的なやり方は、医師から推奨されない可能性がある。そして、ある人が話すことをそもそも妨げてきた条件は、この手法が機能することも同様に阻害するだろう。

良いニュースは、これは始まりに過ぎないということで、理論的には上手くいく条件が沢山あるということだ。そして、脳卒中や病気の進行の危険性が高いと考えられる場合には、脳と発話の重要な記録データを、事前に収集しておくことができるだろう。

[原文へ]

(翻訳:sako)

AIをビジネスに活かすうえで企業が見落してきた道はDIY

1856年、ヘンリー・ベッセマー卿が特許を取得したベッセマー法は、第二の産業革命のもっとも大きな要因となった発明だ。溶鋼に空気を吹き込み酸化還元するという画期的な方法で鉄の不純物を取り除くことで、安価で大量生産が可能な新しい製鋼技術の波を起こした。

ベッセマー卿は、この発明をいち早く利益につなげようと、いくつかの製鋼所に特許をライセンシングを行おうとした。しかし期待に反して、その技術の難しさと独占欲の強さのため、大手製鋼所とは望ましい条件でのライセンス契約が結べなかった。

なんとかこの技術を活かしたかったベッセマー卿は、自分で製鋼所を立ち上げて競合他社を蹴散らそうと考えた。この試みは大成功し、ともに苦労したパートナーたちは14年間の付き合いの末に81倍の投資収益を手にすることができた。

それからおよそ162年。今でも新しい技術を顧客に受け入れさせようとする新興企業の苦悩が続いている。たとえそれが、顧客の最大の関心事であっても難しい。しかし、ベッセマー卿などの実業家を手本とする今日の画期的なスタートアップは、あることに気が付き始めている。いくつもの技術に精通した「フルスタック」な事業を自分で起こして、独自の自動化技術で最適化した従来型のサービスを提供するほうが理に適っていると。

Andreessen HorowitzのChris Dixon氏は、深層学習革命の直前の2014年、「フルスタックスタートアップ」という言葉を流行らせた。彼によれば、フルスタックスタートアップとは、「既存の企業に頼ることなく、最初から最後まで完全な製品やサービスを製造」できる企業のことだ。

フルスタックの考え方は、深層学習革命が頂点に達する前に、UberやTeslaのような企業を生み出した。そして、データと人間によるラベル付けに依存する今日のAI第一の世界では、スタートアップエコシステムにおけるフルスタックスタートアップの役割は、ますます重要性を高めている。

フルスタックには、旧来型のインセンティブ構造から切り離されるという利点がある。古い体質の業界に居座る大手企業では、インセンティブのために自動化の導入が抑制されている。

(写真:Andrew Spear / Getty Images ワシントンポスト向け)

DIY AIとはどんなものか?

BSVポートフォリオ企業のCognition IPAtriumは、そのよい実例を示してくれるスタートアップだ。書類の上では、これらはまったく昔ながらの法律事務所のようだ。弁護士を雇って、特許とスタートアップに関する法律関連の業務を行っている。しかし、従来の法律事務所は1時間単位の料金の請求にインセンティブがあるのに対して、これらのフルスタックのスタートアップの場合は、消費者に利用してもらうことがインセンティブになっているため、迅速で安価でより良い戦略の開発することが利益につながる。

ベッセマーのように、古いインセンティブ構造を改変することで、フルスタックは、さまざまなフィードバックのループから存分に恩恵を回収し、終わりのない複雑な仕事を排除し、ラベル付け作業を過去のものにするチャンスを企業にもたらす。

ラベル付けは、機械学習に依存するスタートアップには避けられない決定的な責務だ。 Amazon Mechanical TurkやFigure Eightは、スタートアップが比較的管理しやすいラベル付けの責任能力を有している場合には有効だが、ラベル付けや、人と機械の共同の意志決定が日々の業務の中心となっているスタートアップは、それを内部で処理するために人を雇う必要がある。

こうした企業が規模を拡大しようとすれば、費用がかさみ作業量は膨大になる。しかしフルスタックにすれば、ラベル付けの作業を他の仕事に統合できる可能性が拓かれる。これまで顧客や企業に関わる通常のサービス業務を行ってきた従業員に、少ない負担でラベル付けを担当させることができるのだ。その作業を機械で支援してやれば、彼らは次第に生産性を高め、ラベル付けされたデータが増え、その支援モデルは正確さを増してゆく。

フルスタックの本質的な性質から得られる2つめの利点に、強力で好ましいデータのフィードバックループを発生させ、さらに所有できることがある。データフローを所有すれば、単に静的データセットを囲い込むよりも、頑丈な堀を築くことができる。たとえばDeep Sentinelは、消費者向けセキュリティーの分野に天然の堀を持っている。同社は正確な分類能力を有するばかりか、その正確な分類能力が、同社のコントロールが及ぶ環境で発生した現実のデータによって継続的に改善されているのだ。

写真提供:Flickr/Tullio Saba

自動化の推進はリスクと報酬のバランスが問題

1951年、フォードの業務部長デル・ハーダーは、会社の生産ラインを、生産工程に部品を移動させる完全なオートメーションシステムに改良することを決断した。それから5年をかけて、クリーブランドにあったフォードのエンジン組み立て工場で試行錯誤を繰り返し技術を完成させ、他の工場に拡大していった。しかし、それまで生産工程から独立していた部品を連鎖させたことで、ハーダーは、その相互依存関係に新たな頭痛の種を生み出すことになった。

現在、製造や農業といった伝統的な産業で企業を立ち上げた人たちは、みな同様にこう考えている。規模を拡大すると細部に悪魔が宿ると。フルスタックの方式を採り入れたスタートアップの場合は、独自のプロセスを統合するときに一度だけ心配すれば済むところに利点がある。

だがその半面、フルスタックの場合、規模を拡大するときに膨大な出費が必要となる。資金を提供してくれるベンチャー投資家は、リスク、利益、希薄化に関してのみ、ある程度まで意味を成す。そのため、規模の拡大を計画する企業創設者の多くは、借金での資金調達に走ることになる。

幸いなことに、今は低金利で経済的に有利な時期にある。TeslaやUberといった古参のフルスタック企業は、借金で多額の資金を得ている。また、Opendoorのような新参企業も、この資金調達作戦に転向した。この忌まわしい景気低迷によって、みんなが予定を狂わされている。

技術の進歩は周期的なものであり、成功は、非常に短時間の好機に実行するか否かに大きく関わってくる。FedExやAppleのような、資本集約的でベンチャー投資家に支えられた企業が、別の資金調達環境でスタートしていたら成功できたかどうかは疑問だ。

機械学習の以前にあった無数の自動化技術がそうであったように、深層学習革命で勝利して莫大な利益を得られるのは、人間と協調的に働くよう最適化したテクノロジーを持つスタートアップだ。フルスタックは難しい。金もかかるし、それだけが勝利の道筋ではない。しかしそれは、過小評価されているものの、今日の機械学習に支えられたスタートアップには非常に有効な戦略となる。

【編集者注】John Mannes氏はBasis Set Venturesの投資家。同社は1億3600万ドル(約152億円)規模のアーリーステージのベンチャー投資企業として、おもに、業界全体にわたる大きな問題を機械学習で解決しようとするスタートアップを支援している。Basis Set Venturesに加わる以前、JohnはTechCrunchのライターとして、人工知能スタートアップ、機械学習研究、巨大ハイテク企業の大規模なAI主導の活動などを取材してきた。

[原文へ]

(翻訳:金井哲夫)

Google Cloud Next 2019の重要発表トップ6まとめ

Googleのクラウドデベロッパー向けカンファレンス、Cloud Next 19はサンフランシスコで開催中だが、プロダクトの発表は出揃ったようだ。以下にもっとも重要と思われる6項目をまとめてみた。

Anthos

これは一体何?
AnthosはGoogle Cloud Services Platformに与えられた新しい名称だ。 エンタープライズ企業がコンピューティングリソースの管理や料金の積算、支払いといったわずらわしい業務の処理もすべて任せるプライベートデータセンターとしてとしてGoogle Cloudを利用する場合、 Anthosがそのプラットフォームの名前となる。

しかもAnthosはAmazonのAWSやMicrosoftのAzureといったライバルのクラウドもサポートに含める。これにより他のクラウドを利用している企業もGoogleを単一のクラウドの窓口とすることができる。つまりAnthosを使えばGoogle以外のクラウドに自社のプリケーションをデプロイしたり管理したりできる。クラウドのダッシュボードが単一となるだけでなく、料金もAnthosがまとめて計算し、請求する。こうしたことが可能になるは、予想通り、コンテナーとKubernetesの威力だという。

どこが重要なのか?
Googleのような巨大クラウドの運営者がライバルのクラウドをサポート対象に含めるというのは異例中の異例だ。ライバルのクラウドで実行されたコンピューティング料金はライバルに流れてしまう。しかしGoogleは「これは顧客の要望に基づくもので重要な問題を解決する」と主張する。GoogleはAWSやAzureを追う立場にあり、先行ライバルに対してはっきりした差別化を図る必要があった。優位にあるAWSやAzureが今後Googleのアプローチを採用する可能性は低いが、そうなればユーザーの利便性は大きく高まるだろう。

Google Cloudがオープンソース各社と提携

これは一体何?
Googleはオープンソースプロジェトのトップ企業多数と提携し、Googleクラウドのサービスjの一部として利用できるようにした。発表されたパートナーはConfluent、DataStax、Elastic、InfluxData、MongoDB、Neo4j、Redis Labsだ。提携はさらに拡大するものと見られる。

どこが重要なのか?
すでにこうしたオープンソースプロジェクトの製品を利用しているエンタープライズにとって大きな朗報であり、Google Cloudのセールスポイントとなるだろうこうしたオープンソースプロダクトのカスタマーサポートや利用コストの支払いなども上で紹介したAnthosプラットフォームが単一の窓口となる。実際の内容はかなり複雑だが、今回のカンファレンスでGoogleがオープンソース化を鮮明にしたことがはっきりした。これはAWSのクローズドなアプローチとは対照的だ。オープンソース各社はAWSが「オープンソースを利用するだけでまったく貢献しようとしない」として反発を強めている。

Google AIプラットフォーム

これは一体何?
Googleは自社の強力なAIがAWSやAzureなどのクラウドと競争する上でセールスポイントとなると考えている。Googleはすでにデベロッパーやデータサイエンティストなどに向けて各種のAIツールを提供している。たとえばAutoMLは、その名のとおり、与えられたデータから自動的に機械学習モデルを生成するサービスだ。利用するために計算機科学の博士号は必要ない。新しいAIプラットフォームはエンタープライズの業務に全面的なソリューションを与えることができるさらに高度なサービスをデベロッパー向けに提供する。これは元データの整理からモデル化、学習、アプリ作成までサポートする。このプラットフォームには簡単に利用できるテンプレートモデルがいくつか用意される。

どこが重要なのか?
AI(機械学習を含む)は現在の主要クラウド事業者全員が取り組んでいるホットな課題だ。しかしユーザーが実際に業務に適用しようとすると改善を要する点がまだ多い。とくに元データからアプリケーションまでエンドツーエンドでソリューションを提供できるというのは明らかに大きな進歩だ。これにより機械学習の利用が拡大することが期待できる。

Androidスマートフォンがセキュリティーキーになる

これは一体何?
ドングルを接続したりマニュアルでセキュリティー数字を打ち込んだりせずにAndroid 7以降のスマートフォンを持っていれば自動的な2要素認証によるサービスへのログインが可能になる。ユーザーはGoogleアカウントからBluetoothを有効にしておく必要がある。今のところこの機能はChromeのみサポートしているが、Googleはこの機能を他のブラウザやモバイルOSがサポートすることを期待している。Googleではユーザーが(残念ながら起こりうる可能性だ)スマートフォンを紛失したときのために、これまで通り、プリントアウトできるセキュリティーキーが使えるとしている。

どこが重要なのか?
2要素認証は単なるパスワードによる認証より安全性が格段に高い。しかし2要素認証であってもユーザーを偽サイトに誘導するフィッシング攻撃で破られる可能性があった。しかし今回の新しい自動2要素認証システムは正規のサイトかどうかを判別する。またユーザーの煩わしさも大きく軽減される。Googleではこれにより2要素認証の普及が進むことを期待している。

Google Cloud Code

これは一体何?
Cloud CodeはIntelliJやVS CodeのようなポピュラーなIDEで利用できる一連のプラグインだ。これは開発作業でローカルとクラウドを往復したり、必要なツールを別途探したりする必要をなくしてデベロッパーにクラウドネイティブな開発環境を提供することが狙いだ。Cloud Codeを利用すれば、デベロッパーはこれまでのローカルの開発と同様にコードを書くだけで自動的にクラウドで実行可能なパッケージが生成される。これはKubernetesクラスターに送りこんでテストしたり、業務に利用したりできる。

どこが重要なのか?
クラウドネイティブなアプリを書くのは複雑な作業で、特に適切なコンフィグレーションファイルを書くのが難しかった。Cloud Codeはデベロッパーの負担を軽減するのが狙いだ。これによりクラウドが企業コンピューティングのインフラとなることが促進されるはずだ。

Google Cloudはリテラーをターゲットに据えた

これは一体何?
今回、通販など小売業を対象としてバーティカルソリューションが発表された。Googleはリテラーをクラウドコンピューティングのターゲットに加えた。それだけ聞けば「当たり前だろう」と思う読者も多いだろうが、Google Cloudではリテラーがすぐに使えるパッケージを今後強化していくという。

どこが重要なのか?
Google Cloudの新CEOのThomas Kurian氏によれば、カスタマーは現在使用中の業種に特有なツールをそのままクラウドでも利用したいと強く要望しているという。リテラー向けパッケージは(ヘルスケア分野もそうかもしれないが)業種に特化した初めてのクラウドソリューションとなる。カバーされる業種は今後されに拡大される予定であり、クラウドプラットフォームの重要な柱に成長させていくという。

記事の背景
TechCrunchはGoogle Cloudの新しいCEOのThomas Kurian氏に独占インタビューするチャンスがあった。我々は各種の発表の背景やGoogle Cloudが目指す方向について参考となる話を聞くことができた。

原文へ

(翻訳:滑川海彦@Facebook

MITが「サイバー農業」でバジルの風味を最適化

窓際に置いたプランターにバジルの種をまいて、定期的に水をやりながら育てていた日々は終わりを告げた。機械学習によって最適化された水耕栽培が、より強烈な風味を備えた優れた作物を作るようになった今では、これまでのやり方にはもはや意味がないことなのだ。バジルソースの未来がここにある。

とはいえ、なにもソースを改良したいという願望からこの研究が行われたわけではない。これはMITのメディアラボとテキサス大学オースティン校による、農業の改善と自動化の両者を理解することを目的とした研究の成果である。

PLOS ONEが米国時間43日に発表したこの研究では、与えられたゴールを達成するための栽培環境を発見し、栽培戦略を実践できるかどうかが、研究のテーマだった。今回与えられたゴールは、より強い風味をもったバジルの栽培である。

そのような作業には、変えるべき膨大なパラメータが存在している。土壌の種類、植物の特性、散水の頻度と量、照明などだ。そして測定可能な結果、すなわちこの場合は風味を放つ分子の濃度が得られる。これは、機械学習モデルにうまく適合できることを意味している。さまざまな入力から、どれが最良の出力を生成するかについての予測を下すことができるからだ。

MITのセレブ・ハーパー(Caleb Harper)氏は、ニュースリリースの中で以下のように説明している。「私たちは、植物が出会う経験、その表現型、遭遇する一連のストレス、そして遺伝子を取り込み、それらをデジタイズして植物と環境の相互作用を理解できるような、ネットワーク化されたツールを開発したいと本気で思っているのです」。これらの相互作用を理解すればするほど、植物のライフサイクルをより良く設計できるようになる。そのことによって、おそらく収量は増加し、風味は改善し、そして無駄が削減されるはずだ。

今回の研究では、チームは、風味の濃度を高めることを目的として、植物が受ける光の種類と露光時間の、分析と切り替えに限定した機械学習モデルを用意した。

最初の9株の植物は、バジルが一般的に好むと思われる従来の知識を用いた手作業の露光計画に従って栽培が行われた。栽培された植物は収穫・分析された。次に単純なモデルを使用して、最初のラウンドの結果を考慮に入れ、類似はしているもののわずかに調整された露光計画が作成された。そして3回目にはデータからより洗練されたモデルが作成され、環境への変更を推奨する追加の機能も与えられた。

研究者たちが驚いたことに、このモデルは非常に極端な対策を推奨した。すなわち植物に対してUVライトを24時間休むことなく照射せよというものだ。

おわかりのように、当然これはバジルが野生で生育する方法ではないし、日光が昼も夜も力強く注ぎ続ける場所もめったに存在しない。その意味で白夜が存在する北極と南極は魅力的な生態系だが、風味豊かなハーブとスパイスの産地としては知られていない。

にもかかわらず、ライトを照射しっぱなしにするという「レシピ」は実行された(なんといっても実験だったので)、そして驚くべきことに、このことによって風味に関わる分子が大幅に増加したのである。その量は実験対照植物の倍になった。

「このやり方以外で、これを発見することはできなかったでしょう」と語るのは論文の共著者であるジョン・デ・ラ・パラ(John de la Parra)氏だ。「南極に居るのでない限り、実世界で24時間の光照射を行うことはできません。それを発見するためには人工的な状況が必要でした」。

とはいえ、より風味豊かなバジルは歓迎すべき結果だが、ここでのポイントはそこではない。チームは、この方法で優れたデータが得られ、使用したプラットフォームとソフトウェアが検証されたことをより喜んでいる。

「この論文は、多くのことに応用するための第一歩として読んでいただくこともできますし、これまで開発してきたツールの力をご披露するものでもあるのです」とデ・ラ・パラ氏は語った。「私たちが開発したようなシステムを使うことで、 収集できる知識の量を遥かに素早く増やすことができるのです」。

もし私たちがこの先世界を養おうとするなら、それは黄金色に波打つ穀物。すなわち旧来の農業手法によって、成し遂げられるわけではない。一貫生産、水耕栽培、そしてコンピュータによる最適化。21世紀の食料生産を支えるためにはこれらすべての進歩が必要とされる。

[原文へ]

(翻訳:sako)

「メルカリ」に写真検索機能が登場、商品名が不明でもAIで探せるように

メルカリは3月18日、フリマアプリ「メルカリ」に「写真検索機能」を追加した。

この機能は商品検索の際、スマートフォンのカメラで撮影した写真から、同じ商品や似ている商品を探し出せるというもの。ブランド名や商品名がわからず、テキスト検索できない商品を、写真を読み込むことで検索できるようにした。

写真の中に写り込んだいろいろなアイテムの中から、検索したいアイテムだけを調整して、枠線内に絞り込む機能も付いている。

写真検索機能は、機械学習、深層学習といったAI技術を活用して実装されている。メルカリでは、サービス開始以来、約5年間で蓄積された、数十億規模の商品情報のデータセットを生かし、精度の高い予測モデルの構築を実現。さらに今後も学習させ続けていくことで、その精度を進化させることができるとしている。

写真検索機能に対応するのは、現在はiOS版のみ。Androidほかの機種には順次追加していく予定という。

血液検査を数分に短縮するバイオテックAIスタートアップSight Diagnosticsが278万ドルを獲得

イスラエルの医療機器スタートアップSight Diagnosticsは、AI技術による高速な血液検査技術に278万ドル(約3億0700万円)のシリーズC投資ラウンドを獲得した。

同社はOLOと呼ばれるデスクトップ型装置を開発した。患者の血液をそのまま垂らしたカートリッジを手で挿入すだけで、解析が行われるというものだ。

この新規資金は、同じくイスラエルに拠点を置くベンチャーキャピタルLongliv Venturesと、多国籍コングロマリットCK Hutchison Groupのメンバーからもたらされた。

Sight Diagnosticsによれば、とくにに技術的、商業的拡大を支援するシリーズC投資を求めていたと言う。この分野のCK Hutchison Groupのポートフォリオには、ヨーロッパとアジアの1万4500件以上にのぼる健康、美容関連企業が含まれており、Sight DiagnosticsのOLO血液検査装置の市場開拓ルートは確保された形だ。

このラウンドに含まれるの他の戦略的投資家には、医療系慈善事業家でNicklaus Children’s Health Care Foundation(ニクラウス子ども医療基金)の理事でもあるJack Nicklaus2世、医療系インパクト投資家Steven Esrick、そして匿名の「大手医療機器メーカー」も含まれている。

Sight Diagnosticsはさらに、この装置を「世界の主要市場」に送り込むための戦略的パートナーも探していると話していた。

共同創設者でCEOのYossi Pollakは、声明の中でこう話している。「私たちは、次世代の診断によってすべての人の健康を増進させるという私たちの社命を心から信じてくれる、そしてとりわけ重要なこととして、金銭的支援を超えた大きな価値を与えてくれる個人または団体を探しました。すでに私たちはヨーロッパ全域での手応えを感じていますが、世界の主要市場でOLOを展開してくれる戦略的パートナーも増やしたいと考えています」

同社はまた、今年中に「ヨーロッパのいくつもの国」で、消費者が実際にOLOを利用できるようになることを期待しているという。

シリーズCには、OurCrowd、Go Capital、New Alliance Capitalといった投資会社も参加している。2011年に創設されたばかりのこの医療技術系スタートアップは、昨年にシリーズAとシリーズBを獲得したばかりなのだが、今日までに500万ドル(約5億5525万円)以上を集めた。

「私たちはヨーロッパの、とくにイギリスとイタリアの有望な顧客の協力を得て試験を行ってきました」と、共同創設者Danny LevnerはTechCrunchに話してくれた。「ヨーロッパは、パイロット試験、つまり大手顧客の所有する施設で現実的な条件のもとで行った細かい臨床評価が、市場の受け入れにつながる土地です。こうすることで、ユーザーはこの装置ならではの性能を体験でき、それが大量の初注文につながり、やがては広く普及することになります」

この資金は、アメリカの規制をクリアしてOLOの認可の得るために、米食品医薬品局(FDA)で実施中の一連の審査を通すための活動にも使われている。現在は、規制当局に資料を送り審査を待っている状態だと、Levnerは話していた。

「2018年12月、アメリカの3つの臨床現場での試験を完了し、今月末にFDAにデータを送ることになっています。私たちの望みは、510(k)FDA申請を行い、CLIA(臨床検査改善修正法)認証を受けた研究室での使用を可能にして、続けてCLIA免除手続きによって、すべての診療所で使えるようにすることです。私たちはアメリカでの試験結果に大変に満足しています。1年以内に510(k)FDA申請が通ると期待しています」と彼は話した。

「現在調達した資金を元に、まずイギリス、イタリア、北欧諸国を皮切りに、ヨーロッパ市場での商品化にフォーカスしてゆきます」と彼は言う。「アメリカでは、腫瘍学と小児科に新しい市場を探しているところです」

投資は、OLOで対応できる血液検査の範囲を広げるための研究開発にも使われる。

以前、彼らはTechCrunchに、その装置を、血液検査のポートフォリを管理できるプラットフォームに発展させたいと語っていた。血液検査を重ねることで、「個別の医院の検証」を経て、個人の結果が蓄積されるというものだ。

最初のテスト用OLOでは完全血球算定(CBC)が行われ、機械学習とコンピュータービジョン技術を使って、患者の指先から採取した1滴の血液の高解像度写真のデジタル化と解析が装置内で実行される。

それは、静脈血を採取して遠くの検査施設で解析を行うという今の方法に取って代わるものだ。OLOによるCBCは、ほんの数分で完了すると宣伝されている。OLOなら専門家でなくても簡単に実行できるという。血液検査は、専門機関に外注し、解析結果を数日間待つというのが現状だ。

研究開発の側では、Levnerは、OLOで白血病や鎌状赤血球貧血などの血液の疾患の診断を行うといった「膨大な可能性」を感じているという。

「指先から血液を少量だけ採るという低侵襲な検査方法のため、新生児スクリーニングにもOLOが使える可能性があります」と彼は言う。「そのため、次なる喫緊のステップは、新生児スクリーニングのための検査手順とアルゴリズムを確立させることです」

Lenverが私たちに話したことによると、パイロット試験では「オペレーターと患者の高い満足度」も認識できたという。「この試験で際立っていたのは、OLOの指先から血液を少量だけ採取する方法が好評だったことです」と彼は話す。

ひとつ注意すべき点として、Sight Diagnosticsがまだ、OLOの臨床試験に関する論文審査の結果を発表していないことがある。昨年7月、論文審査のある雑誌での論文掲載が保留されていることを、彼らはTechCrunchに伝えている。

「審査を経た論文の出版に関して、私たちはイスラエルでの臨床試験の結果と、アメリカで終了したばかりの臨床試験結果を組み合わせて、より確実な内容にしようと決めました」というのが現在の同社の話だ。「アメリカのFDAの認可を得てから、論文に集中しようと考えています」

[原文]
(翻訳:金井哲夫)

自動運転車が加速する知的財産保護の改革

1900年代初頭の社会は、馬車から自動車への移行に苦心していた。今日ではおかしなことに思えるかもしれないが、「通行の優先権」や速度制限、交通標識や信号などの概念がなかった時代があったのだ。こうした規則は、車が馬車に出合ったとき、馬を驚かせて暴走させたり、辛うじて「道路」と呼べるような砂利道をお互いに逸れて、馬の助けを借りなければ抜け出せなくなるような事態を避けるために、考え出されなければならなかった。

100年ほど早送りしてみよう。Quo Vadisはラテン語で「汝はいずこへ」という意味。これは、現代の自動車によって可能になった、どこにでも自由に行ける生活様式を表すのにふさわしいフレーズだろう。行きたいときに、行きたいところへ、行きたい人といっしょに行ける。フォレストガンプに触発された田舎道のドライブに、化石燃料車で出かけたり、深夜に軽く空腹を満たすために、EVで町中を流す。まったくモバイルな社会になったものだ。

しかし、注意散漫だったり、運転が下手なドライバーで溢れた通りや高速道路は、「オートピア」を「ディスオートピア」に変えてしまった。人工知能によって可能になるはずの、すばらしい自動運転車の世界を想像してみよう。自分で運転することなく、運転によるすべての恩恵が受けられるのだ。車は、自分の行き先に自分自身で完璧にガイドし、渋滞を緩和し、交通量を増加させ、道路の利用率を最適化する。さらにすばらしいのは、あなたがラテをすすりながらTEDトークを観てリラックスしていても、車は勝手に目的地に向かってくれる。

いや、そうじゃない。現在の技術水準では、さまざまな運転状況に対して、せいぜい高いパーセンテージで対応できる、というくらいであって、例外なく、というわけにはいかない。きわどい状況など、5〜10パーセントのケースでは、まだ人間の介入が必要となる。たとえば、道路にできた穴を緊急に補修している作業員に出くわしたとき、どうしたらよいのかわからない、といったケースは、まだかわいいものだろう。もっとマキャヴェリズム的な例を挙げれば、全方向が一時停止の交差点で、停止中の自動運転車に、人間が運転する車が90度の方向から向かってきた場合が考えられる。AI自動車は乗員を危険にさらさない、ということを知っていて、人間の運転者は前後の車との車間距離を保ったまま徐行して近づき、うまくAI車の動きを止めさせて、人間が運転する車の列がゆっくり途切れることなく永久に通り続ける、ということも、ラッシュアワーには起こり得る。

いずれの場合でも、人間(あるいは遠隔の操縦者)なら簡単に運転を引き継ぎ、交通整理の手信号に従うか、人間の運転する車を牽制することで、交差点を通過できるだろう。しかし、高速道路上で人間による介入が必要になった場合はどうだろう。たとえば、先に通ったトラックが落とした土砂が、車線を区切る白線を覆い隠してしまったら? 自動運転車は、コンクリートの壁に向かってハンドルを切り始めてしまうかもしれない。その場合、人間の運転者が、即座に運転を代わることが唯一の望みとなる。もしその頼りの人間がビデオを見ていたとしたら、顔を上げたときには、金属やガラスの破片の嵐の中、すべてが暗転することに…

大きな懸念は、現在の特許関連の法律ではAIシステムを保護するのに不十分であるということ

人工知能、というのは人間のように思考することを暗示する魅惑的な言葉だ。よくある映画のキャラクタのように、まるで人間のように話し、やりとりすることができるものと思われがちだ。しかしAIは、もう少し正確に言えば「機械学習」のこと。今日の機械学習は、世界と対話し、矯正のための入力を受け取ることによって、人間の知性を再現しようとしている。子供を褒めたり叱ったりすることによって、良いことと悪い事の区別を教えるのとほとんど同じように、今日のAIの機械学習は、似たような二者択一の矯正によるものとなっている。掲示されている30ではなく、35mphで走行すれば、それが誤った行動であるというフィードバックがあり、それを処理することで、AIはMapleストリートを30mphを超える速度で走ってはいけない、ということを「知る」。また、今はラッシュアワーだから、Mapleは西向きの一方通行になり、西に進む場合には全3車線のどこを通ってもいいということを知ることもできる。

何千ではないにしても、すでに何百というテスト車両が、人間が運転する車やトラックと道路を共有している。そうして何百万マイルも走行することで、経験豊かなドライバーと同じような、少なくともそれにできるだけ近い知識が得られるように学習する。そうすれば、道路工事の交通整理に従ったり、車間を詰めて運転するドライバーに対処したりできるほどの信頼を勝ち取ることができる。特許に記載されている技術の場合、新規参入者が追いつくことが可能だ(もちろん、特許使用料を払うか、その特許を回避する設計ができればの話だが)。今日の機械学習には時間と経験が避けられない。それとも、それをバイパスすることができるのだろうか?

大きな懸念は、現在の特許関連の法律では、AIシステムを保護するのに不十分であるということたとえば、機械学習のトレーニングセットや、プログラマが書いたソースコードの特定の表現など、データの編集結果を、特許で保護することはできない。さらに、機械学習プロセスと、その基礎となるアルゴリズムの反復的で漸進的な進化を考えると、特許の認可に必要とされるほど正確かつ細密に、AIシステムの手法と機能を記述すること自体、困難なものになり得る。

そして、誰による発明か、ということも問題になる。AIの自己学習プロセスが意味するのは、発明の主体がAI自身によって自律的に開発される可能性があるということ。もし、その結果に特許性があるとしても、HALを発明者として挙げるべきなのだろうか? これは法律だけでは解決できない領域であり、議会による決議を必要とする問題だろう。現実的な問題もある。この分野は急速に進化しているので、出願から取得までの手続きに何年もかかる特許では、最終的に認可されたとしても、それが有効となる前に無用のものとなったり、時代遅れになったりしかねないということだ。

こうした懸念もあるので、ほとんどの自動運転車(およびAI)の開発者は、知的財産を保護するために企業秘密保護法に頼っている。しかし、これはこの分野に新たに参入しようとする企業にとって、重大な技術的ハードルとなっている。もし、AI開発者が自らの技術を特許化していれば、必要となる情報は公開されていることになるが、そうでなければ、競合他社は基本的にゼロから始める必要がある。これは非常に不利な状況だ。もし市場に参入する競合が少なければ、消費者の選択肢もそれだけ少なくなるのは間違いない。

企業秘密保護に頼る開発には、数え切れないほどの難点がある。中でも深刻なのは、競合他社が熟練した従業員を引き抜き、学習済のデータも不正に入手しようとすることだ。それによって何百万マイルも必要な学習プロセスをバイパスすることができる。保護を徹底し、このような不正行為にも対処できるようにするためには、企業秘密を厳重に管理しておく必要がある。その結果、「知る必要がある」人だけが限定的に情報を扱えるような、厄介なセキュリティ対策が不可欠となる。

こうした状況は、馬が車を引いていた時代からの移行を容易にするために、道路、標識、信号機などの規則を開発しなければならなかったことを思い起こさせる。それと同じように、現在の知的財産保護の概念は、自動走行車への移行を可能にするための新たなコンセプトの創出までは必要ないとしても、少なくとも進化させる必要があるだろう。もう少し見守ってみよう。そして魅力的なドライブに備えて、シートベルトの着用をお忘れなく。

画像クレジット:mato181Shutterstock

[原文へ]

(翻訳:Fumihiko Shibata)

MITのロボットはAI学習でジェンガがプレイできる

ロボットに自律的にジェンガをプレイさせるのは非常に複雑な作業であることがわかった。なにしたくさんの不確定な要素がある。MITの研究者はABB IRB 120ロボットハンドをベースに積み木からブロックを抜くポピュラーな家庭向きゲームに取り組んでいる。

ロボットにはソフトな素材のグリッパーとセンサー、また微妙が動作が可能な手首関節、積み木のタワーを倒さずにどのブロックを抜けるか判断するための外部カメラなどが組み込まれた。

このロボットは、ブロックを押すときにそのブロックを抜くのが安全そうか触覚フィードバックで判断することができる。通常ロボットに新しい動作を行わせるときには数千回の試行を繰り返すが、このロボットの場合は300回だった。MITのAlberto Rodriguez准教授はこう説明する。

チェスや囲碁などのゲームは完全に知的な認知処理だが、ジェンガというゲームをプレイするには、触って試す、ブロックを押したり引いたりするなどの物理的操作のスキルの習得が必要になる。これを当初からシミュレートするのは非常に困難なので、ロボットは実物のジェンガをプレイすることによって実世界で戦略を学ぶ必要がある。重心、安定性などに関する既知の物理学的ルールと常識を活用して比較的少数の実験から適切な戦略を学ばせることがポイントだ。

なるほどこのロボットは一部の操作では非常に巧みに動作できるようになったが、経験豊富な人間のプレイヤーに対抗できるところまでは来ていない。ことに難しいのは相手プレイヤーを妨害するために重要なブロックを抜いてタワーの安定性を低下させることだ。ロボットはまだ有効な妨害戦略を考え出せるレベルにはなっていないという。

原文へ

滑川海彦@Facebook Google+

地球規模のカオスに隠されたパターンを抽出するAIを創るDARPA

複雑系の因果関係に関するもっとも有名な説明として、一匹の蝶が羽ばたくと、地球の裏側で台風が発生する、というものがある。その説明は思考を刺激してくれるかもしれないが、結局のところ役に立つことはない。われわれが本当に必要としているのは、1つの台風に注目したとき、それを引き起こした蝶がどれなのかを突き止めること。そして、できればその前に、その蝶が飛び立とうとするのを防ぐことだ。DARPA(米国防総省国防高等研究事業局)は、AIによってまさにそれが可能になるはずだと考えている。

この研究機関の新しいプログラムは、毎日のように発生する無数のできごとや、メディアの記事をふるいにかけて、それらの中に含まれる関連性の糸口、あるいはストーリーを識別できる機械学習システムを作ることを目指している。それはKAIROS(Knowledge-directed Artificial Intelligence Reasoning Over Schemas=スキーマによって推論する知識指向の人工知能)と呼ばれている。

ここで言う「スキーマ」は、非常にはっきりした意味を持っている。人間が自分の周囲の世界を理解する際に使う基本的なプロセス、という考え方だ。それによって人間は、関連するできごとを小さなストーリーにまとめている。たとえば、店で何かを買う場合を考えてみよう。通常は、まず店に入ってモノを選び、それをレジに持っていく。すると店員がそれをスキャンして、あなたはお金を払う。その後で店を出るのだ。この「何かを買う」というプロセスは、誰にでも分かるスキーマだろう。もちろんその中には別のスキーマ(製品を選ぶ、お金を払う)を含むことができるし、それがまた別のスキーマ(贈り物を送る、家で料理を作る)に含まれることもある。

こうしたことは、われわれの頭の中で想像するのは簡単だが、コンピュータシステムが理解できるよう、明確に定義することは驚くほど難しい。人間にとっては、長い間慣れ親しんできたことであっても、自明のこととは限らないし、法則に従っているわけでもない。重力加速度によってりんごが木から落ちるのとはわけが違うのだ。

しかも、データが多ければ多いほど、定義するのは難しくなる。何かを買う、というのはまだ簡単な方だ。冷戦や弱気市場を認識するスキーマは、どのように作り出せばよいのだろうか? それこそが、DARPAが研究したいところなのだ。

関連記事:この利口なAIは課せられたタスクをやり遂げるずるい方法を人の目から隠した

「山のような情報、そしてその中に含まれる静的な要素の中から関連性を発見するプロセスには、時間的な情報とイベントのパターンが必要となります。現在利用可能なツールやシステムでは、そうしたことを大規模に実行するのは難しいのです」と、DARPAのプログラムマネージャ、Boyan Onyshkevychは、ニュースリリースで述べている

同機関によれば、KAIROSは、「一見何の関係もないように見えるできごとやデータを認識して相互関係を導き出し、われわれを取り囲む世界に関する幅広いストーリーを作り、伝えることの可能な、半自動のシステムを開発することを目指している」ということだ。

どうやって? 彼らには漠然としたアイデアはあるのだが、専門知識を求めているところだ。問題は、そうしたスキーマは、今のところ人間が労力をかけて定義し、検証する必要があるということ。それなら、最初から人間が情報を調べたほうがマシということになりかねない。そこで、KAIROSプログラムは、それ自身を教化するAIも組み込もうとしている。

初期のシステムは、大量のデータを取り込んで、基本スキーマのライブラリを構築することに限定される。本を読んだり、ニュース記事を追ったりすることによって、上で述べたような、候補となるスキーマの長大なリストを作成できるはずだ。さらにそれによって、愛、人種差別、所得格差など、AIによって扱うことが難しい問題に対するより広範囲でつかみどころのないスキーマに関するヒントを得ることができるかもしれない。また、その他の問題が、それらとどう関わってくるか、あるいは異なるスキーマ同士の関連性についても得るものがありそうだ。

その後で、複雑な現実世界のデータを調べ、作成したスキーマに基づいて、イベントやストーリーを抽出することができるようになる。

軍事および防衛面への応用は、非常に明らかだ。たとえば、すべてのニュースやソーシャルメディアの投稿を取り込んで、銀行の取り付け騒ぎ、クーデター、あるいは衰退傾向にあった派閥の再興などの発生の可能性を管理者に通知するようなシステムが考えられる。諜報活動員は、今現在もこのようなタスクに全力を尽くしている。人間が関わることは、ほぼ間違いなく避けられないだろうが、「複数のソースから備蓄が報告されています。化学兵器による攻撃の記事が広くシェアされ、テロリストによる攻撃の可能性が指摘できます」などと報告してくれるコンピュータのコンパニオンがいれば、歓迎されるだろう。

もちろん、現時点ではそうしたことはすべて純粋に理論的なものだが、だからこそDARPAが研究しているわけだ。その機関の存在意義は、理論を実用化することにあるのだから。もし失敗したら、少なくともそれが不可能であると証明しなければならない。とはいえ、現在のAIシステムのほとんどが、非常に単純なものであることを考えれば、彼らが創ろうとしているような洗練されたシステムは、想像するだけでも難しい。まだ道のりが長いことは間違いない。

画像クレジット:agsandrewShutterstock

原文へ

(翻訳:Fumihiko Shibata)

Googleが日本のAI/ML企業ABEJAに投資

GoogleがAIと機械学習を手がける日本のABEJAに出資した。Googleが直接、しかも日本で投資をすることは、とても珍しい。

投資額は公表されていないが、数百万ドルぐらいらしい。創業6年になるABEJAによると、同社のこれまでの調達総額は60億円(5300万ドル)だ、という。そしてCrunchbaseによると、同社が公開しているこれまでの調達額が4500万ドルだから、53-45=800万ドルになる。ただしこれには、Googleからの投資以外に2014年のシリーズA(これも非公開)も含まれているはずだ。

数字はともかくとして、この投資が注目に値するのは、Googleの日本における投資であるだけでなく、戦略的投資でもあるからだ。

ABEJAはこう声明している: “今後ABEJAとGoogleは、リテールや製造業など、さまざまな分野のAIとMLによるソリューションでコラボレーションして、AIソリューションのアプリケーションをより一層振興し、日本のAI産業の成長に貢献したい”。

同社の主製品は機械学習を利用する‘platform as a service, PaaS’で、現在150社あまりの企業顧客が、ABEJAを使って彼らのデータ集積から事業分析やさまざまな識見(インサイト)を開発している。同社によると、リテール向けの専用製品は顧客データと売上データに的を絞り、およそ100社に利用されている。

Google Cloud Japanの代表取締役(マネージングディレクター)Shinichi Abe(阿部伸一)は、次のように声明している: “ABEJAには強力な技術力とMLの専門的技能があり、そのコラボレーションの実績と、技術的ソリューションの効果的なデプロイメントで業界全般から高く評価されている。この投資は、リテールと製造業、およびその他の分野における革新的なソリューションで、ABEJAとのコラボレーションの道を拓くものである”。

Googleは、中国でAIと機械学習に大きく注力しており、昨年は北京に研究開発部門を開設した。しかし同社の研究とフォーカスの大半は、アメリカとヨーロッパが主力だ。Deep Mindの本社もヨーロッパにある。Googleは、インドシンガポールでもAI/ML関連の買収をしているが、それらの主な目的は、今後の成長市場における、Google製品のローカライゼーションだ。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa

AWSが新しい機械学習チップInferentiaを発表

AWSは、いかなる市場のいかなる部分といえども、他社に譲るつもりはない。だが現在機械学習チップと言えば、NvidiaやGoogleのような名前が心に浮かぶ。しかし本日(米国時間11月28日)ラスベガスで開催中のAWS re:Inventにおいて、同社はInferentiaという名前の独自の専用機械学習チップを発表した。

「Inferentiaは非常に高スループットで低レイテンシ、そして安定したパフォーマンスを発揮する非常にコスト効果の高いプロセッサです」とAWSのCEOであるAndy Jassyは発表の中で説明した。

Constellation Researchのアナリスト、Holger Muellerは、Amazonはかなり遅れてはいるものの、多くの企業が将来的には機械学習アプローチを差別化しようとしているため、これは良いステップだと指摘した。

「機械学習操作(理想的には深層学習)を実行する速度とコストが、企業にとっての競争力を与える差別化要因となります。速度による優位性が、企業の(そして紛争を考えたときには国家の)成功を左右するのです。そうした速い速度は、カスタムハードウェアでのみ実現することが可能です。Inferentiaはそうしたゲームに参加するためのAWSの最初のステップなのです」とMuellerはTechCrunchに語った。彼が指摘したように、GoogleはTPUインフラストラクチャを用いて、この件に関しては2年から3年先行している。

InferentiaはINT8(8ビット整数)、FP16(16ビット浮動小数点)および混合精度をサポートする。さらに、それは複数の機械学習フレームワークをサポートする、例えばTensorFlow、Caffe2、そしてONNXなどが含まれる。

当然、Amazonの製品の1つとして、EC2、SageMaker、そして本日新しく発表されたElastic Inference Engineといった通常のAmazon製品からのデータを扱うことが可能だ。

チップは本日発表されたものの、Andy Jassyは、チップが実際に使えるのは来年からになると述べた。

AWS re:Invent 2018に関する他のニュース

原文へ
(翻訳:sako)

紙の帳票のデジタル化に今でも使われているOCRをやや賢くするAmazon Textract

ほとんどの企業が困ってることのひとつが、各種の伝票をはじめ、いろんな書式(フォーム, form)をデジタル情報に変えて、保存したりソフトウェアで処理したりすることだ。よくあるやり方は、人間の事務職員がコンピューターにデータ入力すること。最新技術を使う方法としては、OCRに書式を自動的に読ませるやり方がある。

しかしAWSのCEO Andy Jassyに言わせると、OCRは要するに無能な読み取り機にすぎない。それはテキストのタイプなどを認識しない。それを変えたいAmazonは今日(米国時間11/28)、Amazon Textractという、ややお利口なOCRツールを発表した。これなら書式上のデータを、もっと使いやすい形でデジタル化してくれそうだ。

Jassyが例として見せたのは、表のある書式だ。通常のOCRは表を認識しないから、表の各欄の枠を超えて、ひとつのテキストとして読み出す。Textractは、表などの、よく使われる成分を認識して、妥当な形でデータを取り出す。

Jassyによると、書式はよく形が変わるので、OCRの無能を補うためにテンプレートを使っていても、形が変わるとテンプレートは役に立たない。一方Textractは、よく使われるデータタイプ、たとえば社会保障番号、誕生日、住所などなどを知っているので、それらがどんな形で収まっていても正しく解釈できる。

“Textractには、この形の文字集合なら誕生日、これなら社会保障番号、等々と教えてあるので、書式が変わってもそれらを見逃さない”、とJassyは説明した。

more AWS re:Invent 2018 coverage

[原文へ]
(翻訳:iwatani(a.k.a. hiwa

推論過程をGPUで加速するAmazon Elastic Inferenceはディープラーニングのコストを75%削減する

Amazon Web Servicesが今日、Amazon EC2のどんなインスタンスでもGPUによる推論の加速ができるサービスAmazon Elastic Inferenceを発表した。これにより、ディープラーニングのコストが最大75%削減できるという。

AWSのCEO Andy Jassyは、今朝のAWS re:Inventのステージでこう述べた: “従来のP3インスタンス(GPU常備のインスタンス)では通常、GPUの利用率がせいぜい10%から30%ぐらいで、エラスティックな推論用としては無駄が多い。それだけの費用やGPUを、無駄に使うべきではない。Amazon Elastic Inferenceでは、もっと費用効率の良い方法で推論エンジンを動かせるから、きわめて画期的なサービスだ”。

Amazon Elastic Inferenceは、モデルの作成/学習ツールAmazon SageMakerのノートブックインスタンスとエンドポイント用にも利用でき、“内蔵アルゴリズムとディープラーニングの環境を加速できる”、と同社はブログ記事で言っている。機械学習のフレームワークは、TensorFlow, Apache MXNet, そしてONNXをサポートしている。

[顧客の皆様には、仕事の性質に合った正しいツールを使っていただきたい。このたび発表するAmazon Elastic Inferenceを使うと、エラスティックな(伸縮性のある)GPUサポートを加えて、どんなEC2インスタンスの上でもスケーラブルな推論ができ、大幅な経費節約が可能だ。]

三つのサイズが提供されている:
(混合精度, mixed-precision, FP16とFP32の併用使い分け)

  • eia1.medium: 8 TeraFLOPsの混合精度パフォーマンス
  • eia1.large: 16 TeraFLOPsの混合精度パフォーマンス
  • eia1.xlarge: 32 TeraFLOPsの混合精度パフォーマンス

この新しいサービスを詳しく知りたい方は、こちらへ

more AWS re:Invent 2018 coverage

[原文へ]
(翻訳:iwatani(a.k.a. hiwa