アイルランドのスタートアップSoapBox Labsは、子供のための音声認識技術を開発している

アイルランドのスタートアップであるSoapBox Labsは、自らが「世界で最も正確で使いやすい子供のための音声技術」と呼ぶ技術の開発に邁進している。その技術はサードパーティーのハードウェアならびにアプリ開発者たちに提供される予定だ。その応用範囲は、読みと言語発達を支援する教育アプリ、家庭内で子供の声で制御するIoT機器、スマートトイ、そしてAR/VR体験などに広がっている。

2013年にPatricia Scanlon博士(元ベル研究所の研究員で音声認識技術で約20年の経験を持つ)によって創業された、この若い会社は、現在 Amazon EchoやGoogle Homeなどに搭載されているような、大人のための音声認識技術は、子供たちのためにはあまり上手く動作しないという前提のもとに活動している。

これは子供たちが、より高い声と、異なる話し方のパターンを持っているからだ。決定的に重要なことは、大人と違って、幼い子供たちは話し方を機械に合わせようとしないということだ、大人たちは意識的あるいは無意識的に、音声UIといわゆるスマートアシスタントの使い勝手を向上させるために機械に合わせた話し方をしている。

電話での説明によれば、ScanlonとSoapBox Labsのチームがこの問題に取組始めたのは2013年で、そのときまでに理解していた音声技術の構築方法の多くを、捨て去る必要があったということだ。広範な研究フェーズを経て、「子供たちの発話の振舞は、大人のものと非常に異なる」ことが明らかになった。特に幼い子供の場合には顕著だった。大人の音声データを使って開発され、大人の振舞をモデル化した音声認識技術は、幼い子供に適用された場合に、あまり良い成績を出すことができない。

その代わりに、SoapBox Labsは独自の子供の音声データセット(数千時間に及ぶ子供たちの音声データで構成されている)を作成し、これをチームの持つ子供たちの声と振舞に関する知見と組み合わせた。この結果生まれたプラットフォームは、スタートアップの独自モデルとスコアリングアルゴリズムを活かすために深層学習(AI)技術を活用し、子供たちを対象にした遥かに優れた音声技術を提供している。

これは子供向け英語版音声認識APIとして、SoapBox Labsからサードパーティに向けてリリースされている。来月の初めにはより多くのパートナーシップが発表されるだろうということだ。

同社はまた更なる資金調達を発表した。210万ユーロに及ぶその資金はその音声認識プラットフォームに対して英語以外の言語サポートを加えるために用いられる予定だ。資金の内訳は、150万ユーロがEUからの助成金であり、残りの60万ユーロが既存の支援者からのものだ。これによりSoapBox Labsの総資金調達額は300万ユーロとなった。

子供のための音声認識技術についての議論の中で、Scanlonは私に、デバイスが話者が子供か大人かを識別して、裏側のデータセットとモデルをそれに合わせて切り替える状況があり得ると語った。これは、子供ための音声技術は、間違いなく開発は難しいものの、大人に対しては上手く働かないからだという。現時点では2つの分離した解が最適なのだ。

さらに、現在インタラクションをしている相手が、子供か大人かを知っているデバイスは、振舞やインタラクション上の許可を変えることができるだろう。とはいえ、それがいかに必要かは分かっていても、子供を管理されたくない場合もあるだろう。

原文へ
(翻訳:sako)

メルセデス・ベンツの新しい車内アシスタントMBUXとスマートUIが素晴らしい

私がCESで自動車メーカーのインフォテインメントシステムやマルチメディアシステムのアップデートに注目することは稀だ。通常は自動運転、電動化、モビリティサービスなどに興味を持っていかれているからだ。しかし今年、メルセデス・ベンツは、このショーで最も興味深い発表を行った。新しいMBUXスマートマルチメディアシステムと車内音声対応アシスタントだ。

MBUXは、ここ10年ほど自動車メーカーたちが消費者に売り込んできた、非力で存在感の薄い音声入力システムではない。そうではなく、Nvidiaの強力なGPUテクノロジに基づいて構築された、学習型のスマートなコネクテッドプラットフォームである。私が車内インフォテインメントシステムを使って、真に楽しい気持ちを感じたのは、おそらくこれが初めてだ。これまでは利用者体験の尺度からは、せいぜい「ダメ」から「まあまあ」程度だったのだ。

その理由の一部は、システムを駆動するコンピューターが、高フレームレートの画像を、高解像度のままスクリーン上に表示できるところにもある。あまりにも長い間、自動車のインフォテインメントシステムは、出力を力不足の安価なチップに頼り、自動車メーカーで働くソフトウェア開発者たちに、本当はアラームクロックを走らせるべきではないシシリコンチップの上に、気乗りのしない仕事の結果を押し込む努力をさせていた。走行中に利用する、重要なアプリや情報システムなどに対しても同様である。

  1. preview-928x522-20.jpg

  2. preview-928x522-19.jpg

  3. preview-928x522-18.jpg

  4. preview-928x522-17.jpg

  5. preview-928x522-16.jpg

  6. preview-928x522-15.jpg

  7. preview-928x522-14.jpg

  8. preview-928x522-13.jpg

  9. preview-928x522-12.jpg

  10. preview-928x522-11.jpg

  11. preview-928x522-10.jpg

  12. preview-928x522-9.jpg

  13. preview-928x522-8.jpg

  14. preview-928x522-7.jpg

  15. preview-928x522-6.jpg

  16. preview-928x522-5.jpg

  17. preview-928x522-4.jpg

  18. preview-928x522-3.jpg

  19. preview-928x522-2.jpg

MBUXシステムのダッシュマウントされた2つのディスプレイ(1つは中央に、もう1つはハンドルの向こう側に)の、スクロールとアニメーションは極めて滑らかで、タッチ入力に対し、まるで iPhone のように機敏に反応する。これは典型的な自動車メーカー製タッチスクリーンの性能に比べて、大幅な改善である。

MBUXは、操作性の点でも簡潔性に焦点を当てている。多くの選択肢と機能を提供しているものの、実行したい多くのものを最上位の主画面から呼び出すことが可能だ。たとえば自宅へ帰る、お好みの音楽チャネルを再生する、天気を問い合わせるなどだ。

より深い位置にある特定の機能を呼び出したい場合でも、ショートカットが提供される。MBUXは利用者の好みを学習し、それを主画面から1タップで移動できる”Suggestions”(お勧め)というショートカット画面の中に提示する。提示されるのは、目的地、音楽、室内の温度調整、その他の利用者の習慣を学習した設定、スケジュール、そしてその他の設定項目などだ。そうしたデータはドライバー毎に管理されており、そのプロフィールに紐付けられている。このことで、もしMBUXを装備したメルセデス車に乗り換える場合には、設定がドライバーについてくることさえできるのだ。

もちろん、音声入力の機能もある。これはいつでも「ヘイ、メルセデス」と言ったり、ハンドルのボタンを押すことで起動することができる。これによって、音声コマンドを自然言語で発することが可能になる。例えば温度を上げるために「寒い」と言ったり、地元の天気予報を聞くために来週ビーチサンダルを履けるかどうかをたずねたりするということだ。

実際には、ラスベガスの携帯電話サービスは常に快調とは言えなかったものの、音声コマンドはうまく動作した。メルセデス・ベンツはそのスピーチアシスタントを、連続した接続性のない状況でも使えるように構築しているが、たとえクラウドに接続していない最中でも、多くのことを行うことができる。たとえば車内ライトの調整をしたり、接続したUSBドライブから特定の楽曲を再生するように指示したりということだ。

その能力は、時間とともに成長するようにもデザインされている。このスマートアシスタントはNvidiaを利用したAIテクノロジの上に構築されており、ローカルに成長することもできれば、クラウドからプッシュされるソフトウェアと機能アップデートによっても改善される。メルセデス・ベンツはまた、車の全ライフサイクルに渡って、重要な機能追加を行っていく計画も立てている。Nvidia GPUを使用したことは、実際にそれらのアップデートをサポートするための余剰コンピューティングパワーがたくさんあることを意味している。

NvidiaのCEO、Jensen Huangはインタビューで、同社がダイムラーと2年間直接協力してこれを実現しようとしていると説明し、専用のエンジニアリングチームがこの目的のために設立されたと語った(ダイムラーはメルセデス・ベンツの親会社)。また、ダイムラーのデジタルビークル&モビリティ副社長のSajjad Khanは、Nvidiaと協力することは、現在の成果物を達成するための鍵であったが、成長する余地はまだまだ沢山あると付け加えた。

まとめると、MBUXは驚異的な代物だ。エキサイティングで、パワフルで、テクノロジーの観点からも非常にうまく作られた、自動車メーカー提供のインフォテインメントシステムだ。もし誰かが1週間前に、私のCESのお気に入りの1つは、自動車メーカーのインフォテインメントソフトウェアになると言ったら、笑い飛ばしていただろう。しかし実際にはこの通りだ。

MBUXは、まず今年後半に、全く新しいAクラスに搭載されるが、その後新しいメルセデスの車両たちに展開される。

[原文へ]
(翻訳:sako)

CES2018:LGがテレビの映像改善にAIを興味深いやりかたで適用

一般的に、CESでもどこでも、ある会社が製品に「AI搭載」と謳(うた)うときは、一種の大言壮語だと思ったほうが良い。そして、今朝行われた、あまりぱっとしなかったLGのプレスカンファレンスでも、確かに大言壮語は行われていた。LGは、AIをこれまでになくスマートなやり方で適用することを発表したのだ。すなわちコンピュータービジョンを用いたインテリジェントな映像の改善である。

誇大広告に騙されやがってと非難される前に言わせて貰うなら、この機能は全く不要な代物で、多くの場合、よろしくないアイデアだ。高品質で正確に較正されたディスプレイパネルは、それだけで素晴らしい画像を見せてくれる。これに対してモーション補間やインテリジェントな細部の改善を加えてもおそらくそれを悪化させるだけのものだからだ。しかし、私はそれはクールなアイデアだと思った。

基本的な課題は以下のものだ:画面上の画像を眺めたとき、それを良く見せるためには様々なことを行わなければならない。例えば、色ムラは目立たないようにスムースにすることができるが、もしその操作がスクリーン全体に適用されてしまうと、重要な詳細が不明瞭になってしまうかもしれない。なので、スムースにするのはスクリーンの一部だけにしたくなるだろう。一方高コントラストの部分は、更に鮮明化したくなるかもしれない。

これは多くの手段によって達成することができるが、その1つの手段は画像の縁(ふち)をインテリジェントに検出するやりかたである。そうしたら、次にそれを断片に分割したり、強調のためにそれらの縁を鮮明化することができる。しかしそのやり方は、例えば建物が地平線と重なっているような場合などには、変な結果になる可能性がある。建物が地面の一部であるかのように、両者に同じ改善処理が施されてしまうからだ。基本的には、画像の異なる部分は異なる操作を必要としていて、それは必ずしも明らかではないのだ。

こうした改善を行わなくても、映像をきれいに見ることはおそらくできるだろう。しかし、画像の魅力をより高めたい場合には、個別に識別したい、別々の操作が必要となるのだ。

LGの最新のTVが実現していること、あるいは彼らが実現していると主張していることは、この問題に対して、実際の物体認識AIを適用することである。これは、特殊な形式ではあるものの、画像の中の顔を識別したり、何かが犬なのかそれとも猫なのかを区別してくれたりするものと、同じようなものだ。

この場合、基本的なオブジェクト認識でさえ、場面をより知的に解析するために使うことができる。例えば地形を建物から区別し、人びとと車を建物から区別し、テーブルの上のものたちをテーブル自身と区別する、といったことだ。

もちろん、全てが一度に手に入るわけではないだろう。LGの、この機能に対するステージ上での軽い扱いや、実際の詳細については言及がなかったことを思えば、この適用プロセスはまだ始まったばかりだということが想像できる。おそらくは現時点では全く機能していない可能性もある。

しかし、これは楽しいアイデアであると同時に、スマートなやりかただ。こうしたものをCESで目にすることは珍しい。このアイデアを賢く適用できたならば、例えばTV画面の中で激しく動く一部のオブジェクトを識別して、そこだけにフレーム補間を行ったり、どの種類の画像や物体に対して、鮮明化、色修正などを適用すべきかをユーザーに選ばせたりすることが可能になる。

私は数年のうちには、オブジェクト識別型の画像改善が、テレビの標準機能になることを期待している(もし今週中に解決しないとすればだが。何しろこれはCESなのだ)。とはいえ、勿論、真に有用で想像力豊かなアプリケーションの登場にはもう少し時間がかかるだろう。

[原文へ]
(翻訳:sako)

役に立つAIシステムを作ることは、まだまだ難しい

【編集部注】著者のMartin WelkerはAxonicの最高経営責任者である。

TensorFlowやOpenAIのようなAIフレームワークのサポートがあったとしてもなお、人工知能は依然として、大勢のWeb開発者たちが必要とするものよりも、深い知識と理解を必要とする。もし動作するプロトタイプを作ったことがあるのなら、あなたはおそらく周囲では最もスマートな人物だ。おめでとう、あなたは非常に独占的なクラブのメンバーということだ。

Kaggleに参加すれば、実世界のプロジェクトを解決することで、それに相応しい報酬を得ることさえできる。全体的にみれば価値のある立場ではあるが、ビジネスを立ち上げるのには十分だろうか?結局、市場の仕組みを変えることはできない。ビジネスの観点から見れば、AIは既存の問題に対する、もうひとつの実装に過ぎない。顧客が気にするのは実装ではなく結果だ。つまり、AIを使ったからといって万事解決というわけにはいかないのだ。ハネムーンが終わったら、実際の価値を生み出さなければならない。長期的に見れば、大切なのは顧客だけだ。

そして顧客はAIについては気にしないかもしれないが、VCたちは気にしている。プレスもそうだ。それも大いに。その関心の違いは、スタートアップたちにとって、危険な現実歪曲空間を生み出す可能性がある。しかし、間違ってはならない。普遍的な多目的AIを作成したのではない限り、濡れ手に粟というわけにはいかないのだ。たとえあなたがVCのお気に入りであったとしても、顧客のための最後の1マイルはきちんと歩ききる必要がある。ということで運転席に座り、将来のシナリオに備えるために、どのような準備ができるのかを見てみることにしよう。

主流AI列車

AIは、ブロックチェーン、IoT、フィンテックといった、他のメジャートレンドとは異なるもののように見える。もちろん、その未来は極めて予測不可能だが、そのことは、どのような技術にもほぼ当てはまることである。AIの持つ違いとは、単に様々なビジネスだけでなく、人間としての私たちの価値が危険に晒されているように見える点だ。意思決定者であり創造者でもある私たちの価値が、再考を迫られているのだ。そのことが、感情的な反応を呼び起こしている。私たちは自分自身を位置付ける方法を知らない。

非常に限られた数の基本的な技術があり、そのほとんどが「深層学習」という用語の傘の下に分類されるものである。それがほぼ全てのアプリケーションの基礎を形作っている。例えば畳み込みおよびリカレントニューラルネットワーク、LSTM、オートエンコーダー、ランダムフォレスト、グラジエントブースティングなどだ。

AIは他にも多くのアプローチを提供しているものの、上に挙げたコアメカニズムたちは、近年圧倒的な成功を示してきた。大部分の研究者は、AIの進歩は(根本的に異なるアプローチからではなく)これらの技術を改善することで行われると考えている。ということで、以下これらの技術を「主流AI研究」と呼ぶことにしよう。

現実的なソリューションはいずれも、これらのコアアルゴリズムと、データを準備し処理する非AI部分(例えばデータ準備、フィーチャエンジニアリング、ワールドモデリングなど)とで構成されている。一般的にAI部分の改善により、非AI部分の必要性が減少する傾向がある。それはAIの本質に根ざしていて、ほとんどその定義と呼んでも良いようなものだ――すなわち個別の問題に対する取り組みを時代遅れなものにしていくのだ。しかし、この非AI部分こそが、多くの場合、AI駆動型企業の価値なのだ。そこが秘密のソースというわけだ。

AIにおけるすべての改善は、この競争上の優位性をオープンソースの形にして、誰にでも利用可能なものにしてしまう可能性がある。その結果は悲惨なものとなるだろう。Frederick Jelinekはかつて「言語学者をクビにする度に、音声認識装置のパフォーマンスが上がります」と語った。

機械学習がもたらしたものは、基本的には冗長性の削減なのだ。すなわちコードのデータ化である。ほぼすべてのモデルベース、確率ベース、およびルールベースの認識技術は、2010年代の深層学習アルゴリズムによって洗い流されてしまった。

ドメインの専門知識、フィーチャモデリング、そして数十万行のコードが、今やわずか数百行のスクリプト(と十分な量のデータ)によって打ち負かされてしまうのだ。前述のように、主流AI列車の経路上にある独占コードは、もはや防御のための資産とはならないことを意味する。

重要な貢献は非常に稀である。真のブレークスルーや新しい開発のみならず、基本コンポーネントの新しい組み合わせ方法でさえ、行うことができるのは非常に限られた数の研究者たちだけだ。この内側のサークルは、あなたが想像するよりも遥かに小さなものなのだ(そこに属するのは100人以下の開発者たちだ)。

何故そうなのか?おそらくその理由は、コアアルゴリズムであるバックプロパゲーションに根ざしている。ほぼすべてのニューラルネットワークは、この方法によって訓練されている。最も単純な形式のバックプロパゲーションは、大学1年の最初の学期でも定式化できる程度のものだ――洗練とは程遠い(とは言え小学校レベルということはない)。こうしたシンプルさにもかかわらず(あるいは、まさにその理由によって)その50年以上にわたる興味深くきらびやかな歴史の中で、ほんの僅かな人たちだけが幕の裏側をのぞきこみ、その主要なアーキテクチャに対して問いかけを行ったのだ。

もしバックプロパゲーションの意味合いが、早い時期から今日のように理解されていたなら、(計算能力は別にして)私たちは現在既に10年先を進んでいたことだろう。

70年代の簡素な原始ニューラルネットワークから、リカレントネットワークへ、そして現在のLSTMへと進んできたステップは、AI世界に起きた大変動だった。にもかかわらず、それはわずか数十行のコードしか必要としないのだ!何世代にも渡って学生たちや研究者たちが、その数学に取り組んで、勾配降下を計算し、その正しさを証明してきた。しかし最終的には、彼らの大部分は納得して「最適化の一方式だ」と言って作業を進めたのだ。分析的理解だけでは不十分なのだ。差をつけるためには「発明者の直感」が必要だ。

研究のトップに立てることは極めて稀(まれ)であるため、全企業の99.9%が座ることができるのは助手席に過ぎない。コア技術は、オープンソースのツールセットとフレームワークとして、業界の主要プレイヤーたちから提供されている。最新のレベルを追い続けるためには、独自の手法は時間とともに消滅していく。その意味で、AI企業の圧倒的多数は、これらのコア製品と技術の消費者なのだ。

私たちはどこに向かっているのか?

AI(および必要なデータ)は、電気、石炭、金などの多くのものと比較されて来た。技術界が、いかにパターンや傾向を探し出そうと躍起になっているかがわかる現象だ。なぜならこの知識が、自分たちのビジネスを守るために必要不可欠だからだ。さもなくば、この先の投資が、ひとつの単純な事実の前に無駄になってしまうだろう。その事実とは、もし主流AI列車の経路上にビジネスを築いてしまったら、未来は暗いという事実だ。

既にビジネスに向かって猛烈に突き進んでいるエンジンがある中で、考慮すべき重要なシナリオがいくつか存在している。

第1のシナリオは、主流AI研究列車は急速に減速する、あるいは既に停止したというものだ。これは、これ以上アプローチできる問題クラスが存在しないことを意味する。つまり、私たちは列車を降りて、顧客のために「ラストマイル」を歩かなければならないということを意味するのだ。これは、スタートアップたちにとって大きなチャンスとなる。なぜなら持続可能なビジネスを創出するチャンスを秘めた、独自技術を構築する機会が与えられるからだ。

第2のシナリオは、主流列車が現在の速度で進み続けるというものだ。その場合には、避けることも、列車を降りることも一層困難になる。個別のアプローチに対するドメイン知識は、大企業による「オープンソース化」によって急速に危機に晒されることになる。過去のすべての努力には価値がなくなるかもしれないからだ。現在、AlphaGoのようなシステムは、オープンソースのフレームワークが提供する標準(バニラ)機能とは別に、非常に高い割合の独自技術が必要とされている。しかし近いうちに同じ機能を備えた基本的なスクリプトを見ることになったとしても、私は驚きはしないだろう。しかし「予測もつかない未知のできごと」(unknown unknown)は、次のステージで解決できるような問題クラスだ。オートエンコーダーとアテンションベースのシステムは、そのための有望な候補だ。

主流AI研究列車は急速に減速する、あるいは既に停止した。

次のシナリオは、列車はさらに加速するというものだ。そして遂には「シンギュラリティは間近」ということになる。そのことについての本が何冊も書かれている。それについて異を唱えている億万長者たちもいるし、私もその件に関しては別の記事を書くつもりだ。ここでの究極の成果は、汎用人工知能だ。もしこれを達成できれば、すべての賭けは終了となる。

そして最後に、ブラックスワン(予想もつかなかったことが起きる)シナリオがある。誰かがガレージで、現在の主流とは全く似ていない次世代のアルゴリズムを発見するというものだ。もしこの孤独なライダーが、それを自分自身のために使うことができなら、私たちは史上初の自力1兆ドル長者(trillionaire)を目撃することになるだろう。しかし、これはどこから来るのだろうか?私はこれが何もないところから突然出てくるとは思っていない。それは、主流技術と放棄されたモデルベースのアルゴリズムとの組み合わせになるかもしれない。2010年代には、ニューラルネットが発展し、研究の基礎の一部が失われていた、かつて有望だったアプローチ(シンボリックアプローチなど)にも目が向けられた。現在のAIで行われている活動も、その他の関連した研究フィールドを復活させている。いまや研究者で溢れていないような、「あまり知られていない」技法やアルゴリズムを発見することは難しくなりつつある。それにもかかわらず、ゲームを変えるアプローチを見つけたり、復活させたりする外部者が登場する可能性は捨てきれない。

勝者は誰か?

以上をまとめて、この極めて難しい質問を行うことにしよう。これに対する答は、上記のシナリオだけでなく、あなたが何者であるかに依存する。リソースと既存の資産が戦略の鍵であるために、ビジネスの出発点がこの方程式では重要な要素である。

AIチャンピオンズリーグでは、十分な資金力を持ち、重要な才能を引き付けることができる企業の数は少ない。これはどちらかと言えば現在はコストがかかるプロセスなので、収益源は他に求めなければならない。こうしたことから、プレイヤーはよく知られたGoogle、Facebook、Microsoft、IBMたちに限定されることになる。彼らは現行のオープンソーススタックとは異なる、巨大な独自システムを構築し、新しいクラスの問題に取り組んでいる。ある程度の時間が経過したら、活力のあるコミュニティを構築するために、彼らはこれを次世代のオープンソースフレームワークに組み込むだろう。

こうしたプレイヤーたちは、より良いアルゴリズムを訓練するのに適した、既存のプラットフォームも所有している。AIはメガトレンドかも知れないが、企業のためのそして企業による、日々のビジネスへの適用も、彼らの成功のためには重要である。こうしたプラットフォーム:Amazon、Facebook、Google Apps、Netflix、さらにはQuoraさえもが、AIを利用してそのコアビジネスモデルを守り強化している。彼らはAIによって顧客により良いサービスを提供する方法を発見しているが、その一方、自身のコアビジネスを、人工知能を用いてやっていることとは別のものとしている(少なくとも表向きは)。

一方、一部の新興プラットフォームは、彼ら自身のツールセットに、AIを組み込む方法を見出している。こうした企業たちは、なによりもまずAIがビジネスを可能にしてくれた、そして収益化を可能にしてくれたと主張している。こうしたビジネス例の1つが、文法チェッカーのGrammarlyである。

一見したところでは、既存のベンダーでも自分で簡単に開発できる、気の利いたアドオンのように思えるだろう。しかし、内容はもっと複雑だ。彼らはここで2つの資産を構築している。さらなる品質向上のためのコミュニティ生成データセット、そしてより持続可能な、広告パートナーのための驚くほどパーソナライズされたマーケットプレイスだ。

そしてツールメーカーたちもいる。Mark Twainが語ったように、金を掘るのは他人に任せて、その横でシャベルを売るのだ。そのやり方はかつてうまくいったが、おそらく今回もうまくいくだろう。データの提供、コンテストの開催、人材の交流、人びとの教育。企画のためには、すべてのAIの志望者が必要とする(または望む)ものを見つけ出せばよい。そしてそれで稼ぐのだ。

UdemyはAIコースを教え、Kaggleは企業を支援しデータサイエンティストたちにスキルを習得させるための、AIコンテストを創始した。AIのコアコンピテンシーを構築する必要もない、企業たちは成功するためにペタバイト規模のデータを必要としているからだ。そして彼らのほとんどは教師あり学習を採用しているので、それを監督する人間も必要なのだ。

そしてAIコンサルティングというニッチな領域を見つけた企業もある。巨人の提供するオープンソースフレームワークの肩の上でさえも、やるべきことがまだたくさん残っているのだ。

Element AIのような企業は、そうした追加のAI関連の仕事を行う部品を、プロダクトやサービスに組み込むことを可能にした。確かに、最近行われた1億200万ドルの調達によって、彼らは成功のために必要な十分な資金を得ることができた。

出番を待っているその他の企業たちもある。人工知能ソリューションを持ち、既存のビジネスプロセスを置き換えようとしている企業たちだ。しかし、こうした企業たちは、2つの点で課題に直面している。1つは同じ問題を解決するための、オープンソースプロジェクトを開発することが可能であること、そしてもう1つは、既存のベンダーが同じ問題を解決するために、より自動化されたソリューションに対して多額の投資を行っていることだ。

業界で最も重要な要素は、非常に少数の研究者グループの中で起こっている、主流AI研究のスピードだ。彼らの研究成果は、ほとんど遅れることなく、AIチャンピオンプレイヤーたちによって開発されているフレームワークの中に取り込まれる。その他大勢の私たちは、人工知能列車の乗客か、もしくはその経路上にある障害物だ。結局のところポジショニングが全てである。自分たちの位置付けを上記のコンテキストを考慮して決定する企業は、のぞむ目的地に辿り着ける可能性があるだろう

[原文へ]
(翻訳:sako)

FEATURED IMAGE: MF3D/ISTOCK

画像認識システムを騙して空港の警備をすり抜ける方法…Googleの研究者たちがステッカーで実験

機械学習のシステムは、有能ではあるが必ずしもスマートではない。彼らには、常識がない。そのことにつけこんだ研究者たちが、画像認識システムに対するおもしろい攻撃テクニックを作った。彼らが作った特殊なステッカーは、AIにとって、あまりにもおもしろくて興味深いので、結局そこに何も見いだすことができないのだ。そのステッカーが、アクセサリーとして流行りそうだ、とぼくが感じたのは、どうしてだろう?

コンピュータービジョンはものすごく複雑な問題であり、人間ですら、正しい画像認識のためには、認識の近道を必要とする。だから、コンピューターがそうであっても驚くには当たらない。

これらのシステムが取る近道のひとつが、すべての画素を同等に重要視しないことだ。たとえば、家の画像があって、その背後は青空、前面に草地があるとしよう。いくつかの基本的なルールにより、コンピューターにはこれが–空と草が写っていても–空や草の画像ではないことが分かる。そこでコンピューターはそれらを背景と見なし、中央にある形状の分析に多くのCPUサイクルを費やす。

そこで、Googleの研究者たちは考えた(PDF): もしもその近道が混乱して、コンピューターが家を無視し、なにか別のものに注意を注いだらどうなるか?

対戦相手となるシステムを訓練して、いろんな特徴のある小さな円〔上図左〕を作らせ、ターゲットのシステムを混乱させようとした。円には、いろんな色や、形、サイズがあり、それらのどれが画像認識システムの注意を引くかを見ていく。そのAIは、特定のカーブに着目した、とか、特定の色の組み合わせを背景ではないものと見なした、などなど。

そうやって、右図に示すような、サイケデリックな渦巻きがいろいろ出来上がった。

そしてそれを、システムが知っているもの…たとえばバナナ…の横に置くと〔上図タイトル画像〕、バナナのことは即忘れて、それが渦巻きの画像だと認識する。また、画像の中に名前のあるステッカーを作って既存の画像と合わせると、違った結果になる。

研究者たちはこれを、画像固有ではなくシステム固有を目指して行った。つまり、その画像認識システムに(特定の画像ではなく)これらの不思議な渦巻きのどれを見せても、混乱した結果を出力するように。

これは一体、何のための研究だろう? 具体的にはたとえば、数枚のこんなステッカーを衣服の上につけて空港の監視カメラの前を通ると、画像認識システムはその人が逃走中の強盗犯人であっても、見抜けないだろう(もちろん犯人の顔などは事前に訓練されている)。ただし、このシステム騙しに成功するためには、そのシステムをよく知り、大量のステッカーで事前にテストしなければならないだろうが。

コンピュータービジョンシステムを騙すもう一つのやり方は、画像に何度も小さな変更を加えると、それらのわざと置かれた画素によっては、銃の画像を亀と認識したりする。しかしこれらの、極端に局所化された“動揺と混乱”によって、新たな脅威が作る出されることがありえる。

われわれが実験したシステム攻撃は、現実世界でも有効である。しかも、ステッカーという、一見、人畜無害なものを利用する。これらの結果は、攻撃をオフラインで作っておき、それを広範囲にシェアできる、ということを示している。

人間はこの程度のパッチに気づくことができるが、でもその意図は見抜けずに、アートの一種かと思ったりするだろう。だから、小さな動揺混乱に対する防御策だけでは不十分である。もっと局所的で大きな動揺や混乱が、認識分類システムを無能化することもありえるのだ。

研究者たちはこの実験と結果を、ロングビーチで行われたNeural Information Processing Systemsカンファレンスで発表した。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa

Googleのストリートビューの大量の画像で近隣社会の投票パターンを正確に予想できる

コンピューターによる画像分析がテキストの分析と同じぐらい上手になることの兆候か、スタンフォードの研究者グループが、Googleのストリートビューから集めた数百万の画像に基づいて、近隣社会の投票パターンを正確に予想することができた、とThe New York Timesが報じている。人工知能を利用してGoogleのストリートビューを社会経済学的な目的のために分析する研究プロジェクトは、Streetchangeなど過去にもあったが、今回のプロジェクトは大量の画像をAIのソフトウェアが処理する点が新しい。

研究のリーダーはスタンフォードのコンピュータービジョンのサイエンティストTimnit Gebru、そして研究チームはソフトウェアを使って5000万点の街路画像と位置データを分析した。目標は、ひとつのzipコードで表される地域や、ひとつの街区(有権者人口1000人ぐらい)の住民の、さまざまな特性情報を予想するために使えるデータを見つけることだ。

そしてそれらの画像から彼らが取得できた情報は、約2200万台(アメリカ全体の約8%)の車のメーカーと車種 と年式、3000種のzipコード、そして39000の選挙区だ。それらのデータを、国勢調査や大統領選投票記録など他のソースから得た情報とつき合わせることによって、各近隣社会の平均所得や人種構成、教育、そして投票パターンを正確に予想することができた。

たとえばAIが車の分類をできるようになるために、チームはMechanical Turkなどから集めた数百名の人間と車の専門家を使って、何百万もの画像中の自動車を同定できるよう訓練した。その結果彼らのソフトウェアは、5000万の画像中の車をわずか2週間で分類できたが、Timesの記事によると、それをもし車の専門家である人間がやったら15年はかかるそうだ。

全米科学アカデミーの会報に載った記事によるとチームは、自分たちの技術が毎年2億5000万ドルもかけている国勢調査を補完するものだ、と主張している。国勢調査は調査員の戸別訪問方式で労働集約的であり、人口65000に満たないような小さな地区は見過ごされることも多い。技術の進歩とともに、人口統計はリアルタイムにアップデートされるようになるかもしれないが、しかし研究者たちによると、個人のプライバシーを守るためにはデータの収集はコミュニティのレベルにとどめるべきだ、という。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa

AIチップスタートアップの競争は既に始まっている

今年は、すべての目がNvidiaに注がれたかのようだった。ゲーム、データセンターへの関心の高まり、AIアプリケーションへの適用の可能性などの、すべての面で膨大な需要を抱えて、株価が爆発的に上昇したためだ。

しかし、Nvidiaの株価とそのチャートは、AIが技術の世界に広がり続けた2017年の特に目を引くトピックだったかもしれないが、AIの世界では、より深い影響があるかもしれない更に微妙なことが起きている。

今年は、AIの上に構築される将来のデバイスに、パワーを与える独自のハードウェアに取り組む多くのスタートアップたちが、膨大な資金を調達した。これらのスタートアップの中には大規模な展開には程遠い(それどころか製品を出荷さえしていない)ものもあるが、資金調達には困っていないようだ。

画像や音声認識といった処理を構成する2つの主要な要素 ―― 推論と機械学習の最適化を求めて、スタートアップたちは、基本的な方法を見つけようと競い合っている。それらの機能をより速く、より電力効率が高く、次世代の人工知能組込デバイスのためにより適切に実行できるようにするためだ。私たちがCPUで習熟してきた、従来の計算アーキテクチャーの代わりに、いまやGPUが、AI処理が必要とする矢継ぎ早の計算処理を任せるための、頼れるシリコン部品の1つになったのだ。そして、そうしたスタートアップたちは、それをさらに改善できると考えている。

スタートアップたちについて話す前に、何が現在起きているかの感覚をつかむために、まず前述のNvidiaチャートを簡単に見てみよう。今年末の変動にも関わらず、全体としてNvidiaの株価は、2018年に向けて80%近くの上昇を見せている。

 

このことから当然、全てのスタートアップたちは、AI市場におけるNvidiaの死角を見出そうと必死だ。投資家たちもまた、それに注目している。

まず私たちが耳にしたのは、Cerebras SystemsがBenchmark Capitalから資金を調達したという、昨年12月のニュースだった。その当時は、AIチップ業界はまだ今ほど明確にはなっていなかったように見える、しかしそれから1年が経ち、NvidiaがGPUマーケットを支配していることが、この分野の発展を示す明確な指標となった。Forbesは今年8月に、同社の評価額が9億ドル近くに達したと報じた 。明らかに、ここで何かが起きたのだ。

Graphcoreも今年は動きを見せた。Atomicoが主導した、7月の3000万ドルの資金調達が終わったばかりであるにも関わらず、この11月にはSequoia Capitalが主導する、新たな5000万ドルの資金調達を発表したのだ。Graphcoreはまだ、Cerebras Systemsと同様に、Nvidiaのようなすばらしい製品をまだ市場に投入していない。一般的に、ハードウェアのスタートアップは、ソフトウェア上に構築を行うスタートアップよりも、多くの課題に直面するにもかかわらず、このスタートアップは年間で8000万ドルを調達することができたのだ。

中国のAIスタートアップにも投資の突風が吹いた。Alibabaは、Cambricon Technology という名のスタートアップに、10億ドルと伝えられる資金を投入した。Intel CapitalはHorizon Roboticsのために1億ドルのラウンドを主導した。そしてThinkForceと呼ばれるスタートアップが、今月始めに6800万ドルを調達した

Groqについては言うまでもないだろう。これは元Googleのエンジニアたちによるスタートアップで、Social+Capitalから約1000万ドルを調達した。上に挙げたスタートアップたちに比べれば狭い範囲を対象にしているようである。さらに別のチップメーカーであるMythicも、930万ドルの資金調達を行った

ということで、いまや1つ2つではなく、7つスタートアップが似たようなエリアを狙っているのだが、その多くは数千万ドルの資金を調達し、少なくとも1つの評価額は9億ドルに迫ろうとしている。重ねて言うが、これらはみなハードウェアスタートアップ、しかもさらに多額の資金調達を必要とするであろう次世代のハードウェアスタートアップたちなのだ。しかし、これは無視することのできない領域だ。

スタートアップだけでなく、世界の大手企業たちも独自のシステムを構築しようとしている。Googleは今年の5月に、推論と機械学習に特化した次世代TPUを発表した。Appleは次世代iPhone向けに、独自のGPUを設計した。 両社は、ハードウェアをそれぞれの特定の用途、例えばGoogle CloudアプリケーションやSiriなどに合わせてチューニングする方向へ向かっている。またIntelは10月に、Nervana Nueral Network Processorを2017年末迄に出荷すると発表した。Intelは昨年の8月に、Nervanaを3億5000万ドルで買収していた のだ。

これらのすべては、スタートアップ企業や大企業たちによる大規模な動きを表している。それぞれの会社が独自の解釈によるGPUを追い求めているのだ。しかしCudaと呼ばれる独自のプラットフォームへ、開発者たちをロックインしようとする動きを始めたNvidiaを、その地位から追い落とすのはさらに難しい仕事になりそうだ。そして新規のハードウェアをリリースし、開発者たちを誘い込もうと考えるスタートアップたちにとっては、それにも増してさらに難しい仕事になるだろう。

シリコンバレーの投資家たちと話をしてみると、それでもいくつかの懐疑的な見方に出会う。例えば、Amazonのサーバーの中にある古いカードに搭載されたチップで、自分たちの機械学習の目的には十分なのに、どうして企業がより速いチップを買わなければならないのだろうか?しかし、まだこのエリアには膨大な資金が流れている。それらは、Uberに大きな賭けをしたのと同じ企業たち(そこにはかなりの乱れがあるが)とWhatsAppから流れて来ているのだ。

Nvidiaは、依然としてこの分野では明確なリーダーであり、自動運転車のようなデバイスがますます重要になるにつれて、その支配力は続いて行くように見える。しかし、2018年に入れば、これらのスタートアップたちが、実際にNvidiaを追い落とすことができるかどうかについての、よりはっきりとした見通しを得ることができるようになっていくだろう。そこにはIoTナンチャラに組み込むことのできる、より速く、より低消費電力のチップを作ることで、より効率的な推論を行い、デバイスたちの約束を真に果たせる魅力的なチャンスがある。そしてまた、モデルを訓練する際に(例えば、車に対してリスはどのように見えるかといったことを教えるなど)、非常に大きな負荷がかかりそうな場合にも、サーバーたちをより高速に、より高エネルギー効率のよいものにするチャンスがあるのだ。

[原文へ]
(翻訳:sako)

ホームセキュリティサービスのOomaがAI機能搭載のライブストリーミングビデオカメラButterfleyeを買収

Oomaは、今でもVoPのプラットホームとして知られている企業だと思うが、このほど、AIを利用する家庭と企業用のビデオカメラ、スマートセキュリティカメラを作っているセキュリティプラットホームButterfleyeを買収した。OomaはButterfleyeのカメラを同社のセキュリティソリューションOoma Homeに統合するつもりだが、元のブランドでカメラを売ることも続ける。

両社は、買収の財務的詳細を明かしていない。

OomaのCEO Eric Stangは、今日(米国時間12/20)の発表声明でこう述べている: “Butterfleyeには、すばらしいインテリジェントなセキュリティカメラシステムがあり、その能力を私たちのセキュリティサービスOoma Homeに加えられることはすごく嬉しい。私たちの戦略は、Oomaのスマート通信プラットホームをベースとして、インターネットに接続された高度な家庭向けセキュリティサービスを提供することであり、今回の買収はそのための重要な一歩である”。

2015に創業されたButterfleyeは、そのカメラを2016年にIndiegogoのクラウドファンディングキャンペーンでプレゼンした。同社はその後400万ドル近くを調達したが、業界やメディアのレーダーにはなかなか映らなかった。その機能の中には、顔認識、個人認識、温度・音・動きのセンサー、そしてセキュリティカメラとしての24/7ライブ(リアルタイム)ストリーミングは、どんなデバイスへも送れる。

一見するとButterfleyeは、Amazonで30ドル以下で買える安物のWi-Fiカメラにしか見えないかもしれない。でもそんなカメラと違うのは、インテリジェンス(AI機能)があり、しかも頑丈だ。ただしお値段は、ワイヤレスカメラ1台で199ドル99セント以上、3台パックで499ドル99セントだから、誰もが真剣に対応すべきデバイスだ。名前が知れ渡っているNestの高級カメラも、同じ価格帯だけどね。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa

カーネギーメロン大学のAIは不完全情報ゲームに挑戦、ポーカーの最強のプロたちに勝つ

今日(米国時間12/18)発行されたScience誌上の研究論文によると、カーネギーメロン大学コンピューターサイエンス部の研究者たちが開発したAI Libratusが、もっとも難しいポーカーとされる無制限テキサスホールデム(No-limit Texas Hold’em)で、最強のプロたちに勝った。この形のポーカーはとくに2000年代の初期から中期にかけてのバブル期に、全国的に流行った。

このニュース(?)が重要なのは、無制限テキサスホールデムが“不完全情報ゲーム”と呼ばれているからだ。それは、ゲームプレイのすべての要素に関するすべての情報が、終始すべてのプレーヤーにわかっていない(==未知の情報が必ずある)、という意味だ。それは囲碁やチェスなどのゲームとは対照的で、これらのゲームでは盤上のピースとそれらの位置がゲーム情報のすべてなので、両方の対戦者に完全にわかっている。

CMUのチームは今年の1月にLibratusとその初期の成功について詳しいペーパーを発表しているが、今日の完全な科学論文では、その後の進歩を説明し、このきわめて人間的なゲームでどうやって人間に勝てたかを詳しく述べている。

Libratusがとくにおもしろいのは、ポーカーではブラフ(はったり)が勝負の鍵を握っているからだ。いつどんなブラフをかませるかで、プロとアマの違いがわかる。そしてブラフは、それぞれのブラフに明確な意味がないから、不完全情報の典型だ。ブラフの意味は、客観的な情報ではなく、予想や推測という人間の主観に依存している。

しかもポーカーは、多くの手(hands, 持ち札)を経過することによって成立し、最終的に勝つためには途中でわざと負けることもある。これもやはり、コンピューターには苦手(にがて)な複雑性だ。

プロの賭博師たちvs.Libratusの勝負には20日間を要し、手数の総数は12万手、賭け金総額は20万ドルに達した。Libratusが最強のプロたちを打ち負かしたテクニックは、研究者たちの言葉によると、必ずしもポーカーでしか役に立たないテクニックではなく、一般的にそのほかの不完全情報ゲームにも応用できる。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa

Nvidiaと建設重機大手Komatsuがパートナーして現場の安全性をAIで強化

Nvidiaが、建設や鉱業用重機の世界最大のメーカーのひとつであるKomatsu(小松製作所)と組んで、現場の安全と効率の向上のために、AIを導入していくことになった。

NvidiaのCEO Jensen Huangはこのパートナーシップを今日(米国時間12/13)、GTC Japan(GPU技術のカンファレンス)で発表し、NvidiaのGPUを現場で稼働する重機の仮想的な‘脳’として提供して、その上で、AIに制御されるNvidiaの組み込みプラットホームJetsonが動く、と説明した。

両社の協働関係は、Komatsuが2015年から動かしている、インターネットに接続されたスマートワークサイト事業SMARTCONSTRUCTIONの発展的継続として展開される。これからはNvidiaの技術がKomatsuによる建設現場全体の3D視覚化の構築を助け、現場で仕事をしている人と機械の状況をリアルタイムで把握できるようにする。

視覚化のための画像はSkyCatchのドローンが提供し、Jetsonが画像処理を担当する。そのためのカメラは重機の各所に据え付けられ、それらにより適切なエッジコンピューティングが行われる。

Nvidiaはこれまでも同社の技術が産業用や商用のアプリケーションに数多く利用されており、その経歴も、今回の建設業における安全と効率の向上に寄与貢献するだろう。その成功のためには、十分に広範囲な実装が期待される。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa

Googleが中国にAI研究所をオープン、人材獲得で数多くの中国企業と競うことに

Googleが中国の北京にAIセンターを開くことを、公式に発表した。これまでの数か月、Googleは中国でAI方面の人材を多数雇用していたので、そんな憶測に火がついていた。

Googleの検索エンジンは中国でブロックされているが、それでも中国には数百名のスタッフを抱えていて、同社の国際的なサービスに配備していた。そのワークフォースに関連してAlphabetの会長Eric Schmidtは、“中国を去ったわけではない”と言ったが、今の中国はAI関連の人材の宝庫でもあるので、Googleがそれを無視できないのも当然だ。前のGoogle ChinaのトップKaifu Leeなどのエキスパートも、そのことを認めている。

しかしGoogle Chinaの一般社員と同じく、今回のAI関連の雇用も、Googleが中国で新しいサービスを立ち上げるサインではない。今年の初めには中国での珍しいプロダクト動向としてGoogle Translateを中国で可利用にしたが、それもやはり、それっきりのことで終わっている。むしろ北京に置かれるチームは、ニューヨークやトロント、ロンドン、チューリッヒなど世界中にいるGoogleのAI関連社員たちと協働することになる。

Google CloudのチーフサイエンティストDr. Fei-Fei Liが、中国のAIラボを発表するブログ記事で述べている: “AIとそれがもたらす福利には国境がないと信ずる。重要な進歩は、それがシリコンバレーで起きようと、北京で起きようと、世界のどこで起きても、すべての人の生活を良くするポテンシャルがある。AIファーストの企業であるわれわれにとっても、これはわれわれの全社的ミッションの重要な部分である。われわれは、世界最良のAI人材と一緒に仕事をして、その人材がどこにいようとも、それを達成したい”。

Liは元スタンフォード大学のArtificial Intelligence Labのディレクターで、1年前にGoogleに加わったときには、著名人のとても目立つ異動だった。彼女は、Jia Liと共に中国のチームを引っ張っていくが、そのJia Liの方は、Snapで彼女と一緒に研究部門いたときGoogleにスカウトされた。

その中国のラボはすでに“一部のトップタレントを雇用”しており、さらに20名を求人している

“GoogleのAI China Centerでは、自分たちの仕事を公開していくだけでなく、AIカンファレンスやワークショップのスポンサーになってAI研究のコミュニティをサポートし、活気ある中国のAI研究コミュニティと密接に協働していきたい”、とLiは言っている。

しかし中国ではBaidu, Tencent, Alibabaの三大大手のほかにも、意欲的な300億ドル企業のBytedance — ここはMusical.lyを10億ドルで買収 — や、急速に成長しているSenseTimeFace++など、AI人材の獲得をめぐっては競争がきわめて厳しい。果たして、Googleの勝算は…。

画像: Jon Russell/Flickr, CC BY 2.0のライセンスによる(画像は加工されている)

[原文へ]
(翻訳:iwatani(a.k.a. hiwa

3ステップでAIによる映像解析を開始できる「SCORER Cloud Processing」が登場

映像解析システムの開発プラットフォームを提供するフューチャースタンダードは12月12日、AIによるクラウド映像解析ツール「SCORER Cloud Processing(スコアラー クラウド プロセッシング、以下SCP)」の提供を開始した。

フューチャースタンダードはこれまでに、映像解析技術を使ったプロダクトやサービスの開発を簡易化する開発プラットフォーム「SCORER(スコアラー)」を提供してきた。SCORERは、カメラや映像に関する最新の解析技術をブロックのように組み合わせることで、安価で簡単に映像解析システムを開発することを可能にする。システム企業やAIベンチャーなどの持つ高性能・高機能な映像解析技術、ネットワーク技術、クラウド技術、組込み技術の提供を受け、それらを一元的に管理・利用できる。SCORERについては、以前のTechCrunch Japanの記事でも詳しく紹介している。

SCPは、SCORERのクラウド版サービスだ。SCPでは、ログインすれば、映像解析の知識や経験がない人でも簡単に、AIによる映像解析が始められる。映像解析の設定に必要な手順は「解析したい映像を選択」「解析アルゴリズムを選択」「解析結果を確認・出力」と3ステップで済み、とても簡潔だ。

SCPで利用できるAIアルゴリズムには、フューチャースタンダードが自社で開発したオープンソースベースの顔認識・人物認識アルゴリズムである「SCORER Attention Counter」「SCORER Pedestrian Counter」のほか、コンピュータビジョンやディープラーニング領域で高い技術力を持つ、香港SenseTime(センスタイム)のオブジェクト認識技術「SENSE Video(センスビデオ)」も搭載されている。SENSE Videoのアルゴリズムでは、道路を撮影した映像から交通量を計測することや、歩行者の年齢・性別判断機能を利用した属性分析、動線解析なども行うことができるという。

また、2017年内にはリコーが提供する人物検知アルゴリズムも実装を予定。さらにMicrosoft AzureやAyonoxが提供するアルゴリズムについても近日、実装を予定している。

SCPは、ユーザー登録・初期費用は無料。SCORER Attention CounterとSCORER Pedestrian Counterについては、ライセンス料金や従量課金なしで利用できる。SENSE Videoについては、ライセンス料金が月額1万2000円、映像の長さに応じて1時間あたり70円の従量課金となっている。

フューチャースタンダードでは、今回のクラウド版のリリースに合わせて、既存のSCORERシリーズのサービス群についても見直し、再定義を行った。従来から提供しているRaspberry Piを使ったキットやSDKを「SCORER Edge」と位置付け。また大容量になりやすい映像データをIoT機器・カメラからアップロードするための上り優先のデータ通信SIMは、2年縛りなし・1カ月単位で契約が可能な「SCORER LTE」にリニューアル。500GBプランで月額3200円、大容量プランで月額5500円(初期費用は各4000円)と料金も下げ、本日より事前受付を開始した。

フューチャースタンダードでは「AIは『開発するもの』から『使うもの』となっていく。利用の間口を広げるために、初期費用不要で従量課金で利用できるものとしているし、データアップロードのハードルも下げた。また、AIアルゴリズムも各社のものを(プラットフォームとして)取り入れることで、ユーザーはイニシャルコストを小さくして比較することもできる」と一連のサービスリリース、リニューアルについて説明している。

フューチャースタンダードは2014年3月の設立。2016年1月にインキュベイトファンドなどから1.3億円を調達、2017年7月にはスパイラルベンチャーズ、テックアクセルベンチャーズなどから2.1億円を調達している。

Nvidiaの2999ドルのTitan VはAI処理のための110テラフロップスのGPUだ

Nvidiaのカードは機械学習のワークロードを動かすためのデファクトスタンダードだが、今日(米国時間12/8)同社は、また新たな、ハイエンドのコンピュート専用型カードを陣容に加えた。Titan Vがそれだ。このカードはNvidiaのVoltaアーキテクチャがベースで、211億個のトランジスタを載せた815平方ミリメートルのチップだ。計算性能はきっちり110テラフロップスである。

もちろん、これだけのパワーはお安くない。12GBのHBM2メモリを搭載したタイプで小売価格は2999ドルだ。でも単独のパワーで比較すると、1299ドルだった前の機種Titan Xpの9倍となる。

しかしそれでもこれは、Nvidiaの最強のカードではない。その栄誉は今でも112テラフロップスのTesla V100が握っている。その小売価格は1万ドルに近い。でもそれは、Nvidiaの最強のPC用GPUだ。Titan VとV100は、共通している部分も多い。Titan VのコアはV100 GPUだが、メモリが少なくてメモリバスも狭い。

Titan Vのローンチは、かなりのサプライズだった。NvidiaのCEO Jen-Hsun HuangはNIPSカンファレンス(12月4-9日)のキーノートで、新しいハードウェアの発表をすると期待されていなかったようだ。

でも、Titan Vは発表された。Huangは述べる: “Voltaのビジョンは、ハイパフォーマンスなコンピューティングとAIの限界を押し広げることだった。その新しいプロセッサーアーキテクチャでは、プロセッサーの命令や数値の形式、メモリのアーキテクチャ、プロセッサーのリンクなどで新しい地平を開いた。そしてTitan Vでは、Voltaを世界中の研究者や科学者の手に渡したい。彼らによる画期的な発見が、待ち遠しい”。

このカードもまさしく標準的なPCI-Eのビデオカードだから、PUBGをプレイすればごきげんだと思うが、でも主な想定ユーザーは科学的シミュレーションや機械学習のモデルの構築にこのような並列処理のパワーを求めていた研究者たちだ(もちろん暗号通貨のマイニングにも使えるだろう)。Titan Vは5120のCudaコアを載せているだけでなく、機械学習ワークロードの高速化に向けて最適化された640のTensor Core〔行列演算器〕もある。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa

IBMの新しいPower9チップはAIと機械学習のために開発された

人工知能や機械学習などのリソースを大量に消費する作業を、滞りなく処理するためにコンピューティングパワーを増加させるための競争に、IBMは最新世代のPowerチップであるPower9で参戦した。

同社はこのチップを、サードパーティーのメーカーや、Googleなどのクラウドベンダーへ販売する予定だ。一方、Power9チップを搭載した新しいコンピューターAC922もリリースする。また、IBMクラウドに対してもこのチップを投入する予定だ。「私たちは通常、私たちのテクノロジーを完璧なソリューションとして市場に提供しています」と説明するのは、IBMのフェロー兼コグニティブシステム担当副社長であるBrad McCredieである。

同社は、Chainer、TensorFlow、Caffeなどの一般的なAIフレームワークのパフォーマンスを向上させるために、この新しいチップをデザインし、それらのフレームワークで動作するワークロードをほぼ4倍にすると主張している。

もし説明されたように動作するなら、データサイエンティストたちは、Power9を搭載したマシン上でのモデルの構築と実行の効率を上げることができる。そのことにより、仕事を効率的に進め、モデル作成をより素早く完成させることができるようになる筈だ。

Moor Insights&Strategyのプリンシパルアナリスト、Patrick Moorheadは、IBMがこのチップよって、競争から頭ひとつ抜け出すことになると考えている。「Power9は、機械学習で使用されるアクセラレーターに最適化された、新しいシステムアーキテクチャを備えたチップです。IntelはXeon CPUとNervanaアクセラレータを作り、NVIDIAはTeslaアクセラレータを作っています。IBMのPower9は文字通り、機械学習加速のためのスイスアーミーナイフで、膨大な量のIOと帯域幅をサポートしているので、現在市場にあるものの10倍の性能を叩き出すのです」とMoorheadは語る。

写真:IBM

もしNvidiaがAI/機械学習ワークロードの世界でかなりの部分を占めているように思っているならば、IBMの関心も免れることはできない。今や彼らもGPUチップメーカーと緊密に協力している。実際、McCredieによれば、IBMは競合システムよりもはるかに高速に、2つのチップ間でワークロードを移動するシステムバスを構築しているということだ

「最新のワークロードは一段と加速しており、その中でもNvidia GPUが一般的に使われているアクセラレータです。私たちはこの傾向が起こりつつあることを感知していました。私たちはPowerシステムとGPUの間に、チームとパートナーシップによる深い関係を構築しました。私たちはプロセッサーとGPUをつなぐユニークなバスを用意し、これによって競合システムに比べて10倍の帯域幅を実現することができました」とMcCredieは説明する。

新しいチップは、ローレンス・リバモアとオークリッジ国立研究所によって開発されたSummitと呼ばれるスーパーコンピューターに搭載される予定である。同氏によれば、このスーパーコンピュータは無数のPower9コンピューターを使って構築され、そのコストは3億2500万ドルに上るということだ。

GartnerのHPC、マシンラーニング、および新興コンピューティング技術のリサーチディレクターであるChirag Dekateは、このリリースは、人工知能のような高成長市場セグメントを獲得するための、IBMの積極的なアプローチの継続である、と述べている。「AI(具体的には機械学習やディープラーニング)のようなセグメント間で、戦略を調整することで、IBMはハイパースケールデータセンターや、より一般的なデータセンター市場での競争力を高めることができます。これにより、IBMの直接的な収益への影響がもたらされ、新しい大規模データセンターの展開も可能になります」とDekate氏は説明する。

Power9チップは、今日(米国時間12月5日)から入手可能だ。

[原文へ]
(翻訳:sako)

AIが操縦するドローンにレースで柔軟機敏に反応できる人間パイロットが勝った

人間にできることなら何でも、AIの方が上手にできる。最後には。

10月12日に行われたNASAのデモで、AIが操縦するレース用ドローンが有名なドローンパイロットKen Looと対戦した。

NASAのJet Propulsion Laboratory(ジエット推力研究所)の研究者たちは、Googleが研究資金を提供したドローンの自律飛行をこの2年間研究し、障害物を避けながら高速で飛ぶ三機のドローンを完成させた。いずれも、自分の視力としてカメラを搭載している。

三機のドローンはBatman, Joker, Nightwingと名付けられ、AIを3D空間にマップするGoogleのTango技術を組み込んだアルゴリズムを使用した。

それらのドローンは、直線飛行では最高時速130キロメートルだが、曲がりくねったテストコースでは時速65キロメートルが精一杯だった。

NASAのプレスリリースは、自律ドローンと人間パイロットの長短を論じている。AIが操縦するドローンはより堅実な飛行をするが、より慎重でもあり、高速時にはモーションブラーが問題になることもあった。一方、人間のLooは、数回の周航でコースをおぼえ、自律ドローンよりもずっと機敏に飛行できたが、疲労の影響が現れた。

“これまでの中で、断然最高に難しいコースだった”、とLooはプレスリリースで言っている。“パイロットとしてのぼくの欠点は、疲れやすいことだ。頭が疲れると、すでに10回も飛んでいるコースでも、間違えてしまう”。

最初のうちは、AIも人間も同じぐらいのラップタイムだったが、徐々にLooとの差は開き、最後には人間が勝利した。

今回の結論としては、自律ドローンは観測監視や緊急時対応などには使えそうだ。倉庫で在庫を調べるのも、向いているだろう。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa

AWSがAIを利用する企業顧客へのコンサルティング事業と高度な画像認識機能を発表

例年の大型カンファレンスre:Inventを来週に控えたAmazonのAWSが、人工知能関連の新たな展開を二つ発表した。まず、AWSは、機械学習のラボML Solutions Labを開き、機械学習のエキスパートと、AIによるソリューションを作ろうとしている顧客を結びつける。さらにAWSは、ディープラーニングによる画像認識APIベースAmazon Rekognitionの機能を拡充し、リアルタイムの顔認識と画像中のテキストを認識する機能を新たに加える。

新たなラボと画像認識プラットホームの拡充は、AmazonとAWSのAI推進努力の一環であり、社内利用とB2Bビジネスの成長材料の二面をねらっていると思われる。1か月前にAWSは、デベロッパーが自分のアプリケーションやサービスのために機械学習のモデルを構築し利用するためのディープラーニングライブラリGluonをMicrosoftと共同開発する、と発表した。

Amazonは昨年のre:InventでAWSのAIリソースのデベロッパー向け総合窓口Amazon AIを発表しているが、今年この時期(感謝祭の前日)にこれら二つの発表をしたということは、今年のre:Inventのための足固めか、それとも今年はAIにあまりハイライトを当てないことを意味するのか。

Solutions LabはAWSのBusiness Supportの顧客に提供されるが、これはAIだけでなく企業向けのコンサルティングサービスでもある点が興味深い。IBMのような企業ITの古顔企業では、コンサルティングサービスこそがつねに、ビジネス開拓の鍵を握っている。

Amazon AI担当のVP Swami Sivasubramanianはこう語る: “デベロッパーたちがAmazonのML Solutions Labで機械学習への取り組みを開始するのを、じっと待ってるわけにはいかない。Amazonが抱える機械学習の最良の科学者と実践者の専門的知識技能に、顧客の深いビジネス知識を組み合わせることによってのみ、AmazonのML Solutions Labは顧客元における機械学習の迅速な立ち上げを支援し、彼らの社内における機械学習の実用稼働をスタートできる”。

すでに、Washington Postや、Johnson & Johnsonの製薬部門Janssen、World Bank Groupなどが最初の顧客として確定している。

一方Rekognitionの新しい機能は、コンピュータービジョンにおけるAmazonの継続的進展を示すだけでなく、プロダクトとして外部の顧客が利用でき、Amazonの収益源にもなるという点が、強い姿勢として目立つ。

注目すべきは、Rekognitionの新機能のビッグな顧客のひとつがPinterestであることだ。画像による検索や分類はPinterestの最重要な機能だが、同社はそれを内製せずに外部のサービスやAPIを使おうとしている。

しかしPinterestはAWSにとって長年の顧客であり、AmazonのクラウドストレージS3の上には何百万もの‘Pin’が保存されている。だからAmazonがこのような大型顧客の便宜のために、画像中のテキスト認識機能を開発したとしても、おかしくはない。

PinterestのCTO Vanja Josifovskiがこう言っている: “Pinterestはビジュアル専門のプラットホームだから画像処理のスピードとクォリティーに大きく依存している。でも、画像中のテキストは、それらがコンテキストを提供し、Pinをアクションに誘うために、きわめて重要だ。画像中に興味深いテキストがあれば、われわれの2億あまりの‘Pinner’たちは、それへの何らかの反応を誘われるのだ。これからは、Amazon S3に保存されている数百万のPinsから、リッチなテキストを素早く取り出せることができるようになる。Pinterestのユーザーのユーザー体験とビジネスの高品質化と高速化のためにも、AWSとのパートナーシップをさらに発展させていきたい”。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa

Googleのチャットボット・ビルダーDialogflowに企業ユーザー向け有料バージョン登場

Googleが今日(米国時間11/16)、チャットボットやそのほかの会話的アプリケーションを作るツールDialogflowの、エンタープライズエディションの、ベータローンチを発表した

そして無料版も含めてDialogflowには、今や音声認識機能が内蔵されている。これまでデベロッパーは、その機能が欲しければGoogle CloudのSpeech APIや同様のサービスを使わざるをえなかった。当然ながら、内蔵化によって、一つのAPIを呼び出すだけになったので、スピードも(Google説では30%)向上した。

今のDialogflowにはさらに、GoogleのChatbaseサービスを呼び出すことによる、ベーシックなアナリティクスとモニタリングの能力もある。

Dialogflowは、Googleが昨年買収したときAPI.AIという名前だったけど、その後名前を変えた。でも変わったのは名前だけで、その基本的な考え方はなにしろ、会話的なエージェント(自律プログラム)やそのほかの、テキストや音声による対話を、使いやすい形で作りたい、と思ったときに使えるビルディングブロックを提供することだ。

このサービスはこれまでずっと、ユーザー獲得のために無料(ただし量制限あり)だったが、企業ユーザーは有料でもいいから24/7のサポートやSLA、企業向けのサービス規約、データ保護の約束、などがほしい。

そこで今度のDialogflow Enterprise Editionでは、これらすべてが得られる。Google Cloud AIのプロダクトマネージャーDan Aharonによると、このバージョンのDialogflowはGoogle Cloudの一員なので、前からGoogle Cloudを使っているユーザー企業なら、契約も使用開始も簡単だ。“もしもあなたがSpotifyなら、Google Cloudのプロダクトであるための要件をすべて、すでに満たしているから、Dialogflowをかなり容易に使える”、とAharonは語る。たとえばDialogflow Enterprise Editionのサインアップは、Google Cloud Platform Consoleのコンソールからできる。

有料とはいえ、テキストの対話一回につきわずか0.2セント、音声の対話リクエストは一回につき0.65セントだ。1セントにも満たない(量制限なし)。

これまでの無料バージョンのDialogflowは、どこにも行かない。エンタープライズエディションと同様、新たに音声認識も統合されており、14の言語をサポート、MicrosoftやAmazonなど、主なチャットや音声アシスタントのほとんどを統合している。その量制限は、1日に最大1000対話、1か月累計では15000対話までだ。

GoogleがAPI.AIを買収したとき、それはすでに、チャットボット作成ツールとして相当人気が高かった。そしてGoogleによると、その勢いは今だに衰えていない。GoogleのPRはAharonに、人気第一位のツールとは言うな、と釘をさしたらしいが、実際に人気一位であっても意外ではない。彼によると、無料バージョンだけの現状で登録ユーザー数(デベロッパー数)は“数十万”、今年のCloud Nextイベントを共有したデベロッパー数が15万だから、それよりずっと多いのは確実だ。

“顧客から何度も何度も聞く言葉によると、自然言語理解のクォリティーが高いので、Dialogflowはそのほかのチャットボットツールに大きく差をつけているそうだ”、とAharonは言う。“最良のツールでなければ、本番用(プロダクション用)には使えないからね”。(そうでない企業もあるみたいだが…。)

自然言語の理解以外にも、Cloud Functionsを利用してサーバーレスのスクリプトを簡単に書けるなど、Dialogflowはデベロッパーの自由度が大きい。ほかのアプリケーションへの接続も容易だ…それらがどこでホストされていても。だからたとえば、既存の受発注システムや発送システムと、これから作る会話的アプリケーションを統合することも可能だ。

Aharonによると、API.AIの機能をGoogle Cloudにポートするのに約1年かかった。そしてそれが完了した今では、このサービスはGoogleのAIや機械学習の機能をフルに利用できる。一方、今のGoogleはエンタープライズの顧客獲得が最重要の課題だから、Dialogflowをそのためのメニューの一員にするのも、当然なのだ。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa

テレビ局などにVR×AIサービスを提供するジョリーグッド、ディップらから総額4億円を調達

テレビ局や制作会社向けのVRソリューション「GuruVR Media Pro(グル・ブイアール・メディアプロ)」や、VRコンテンツとユーザーの視聴行動を解析する人口知能エンジン「VRCHEL(ヴァーチェル)」などを提供するジョリーグッド。同社は11月16日、ディップ、エースタートを引受先とした第三者割当増資により、総額約4億円の資金調達を行ったことを明らかにした。

ジョリーグッドは2014年5月の創業。代表取締役CEOを務める上路健介氏は、テレビ局で技術者として番組制作に従事した経験を持つ人物だ。

同社が展開するサービスのひとつGuruVR Media Proは、テレビ局や制作会社向けのVRソリューション。撮影から編集、配信までの制作環境をワンストップで提供していることが特徴で、撮影や編集システムに加え、配信や効果測定に活用できるCMSも備える。

2016年6月のリリース以降、すでに北海道放送の「HBC VR」やテレビ西日本の「VR九州」、毎日放送の「絶景散歩VR」など各地のマスメディアと共同で多数のVRサービスを展開している。

おなじく同社が手がけるVRCHELは、VRコンテンツの属性とユーザー視聴行動のパターン解析を行う人工知能エンジンだ。映像や音声から各VRコンテンツの詳細を分析するだけでなく、実際に視聴したユーザーの行動を分析することで最適なソリューションを提案できるのが強み。こちらも東海テレビと共同で展開するVRアプリ連動テレビ番組などで活用されているという。

ジョリーグッドでは今回の調達資金によりサービス拡充と体制強化を行い、引き続き地域や企業にVR×AIソリューションを提供していく。

GoogleがTensorFlow Liteのデベロッパープレビューを共有、画像や自然言語処理で試用可

5月のGoogle I/Oで、TensorFlowのモバイルデバイス用のバージョンが発表されたとき、会場のデベロッパーたちはざわめいた。そして今日Googleは、その期待に応えて、TensorFlow Liteのデベロッパープレビューをリリースした。

このライブラリは、スマートフォンや組み込みデバイスで使う軽量級の機械学習ソリューションを作ることがねらいだ。Googleはそれを、TensorFlowのモバイルに向けての進化と呼び、今日からそれを、AndroidとiOS両方のアプリデベロッパーが利用できる。

開発の主眼はモデルの訓練よりもむしろ、非力なデバイス上での、モデルからの推論の短時間化におかれている。ふつうの言葉で言えばTensorFlow Liteは、モデルにすでにある(学習済みの)能力を、与えられた新しいデータに適用することがその主な目的であり、データから新しい能力を学習することは、多くのモバイルデバイスにとって、荷が重すぎるのだ。

TF LiteをTFの部分改作ではなくスクラッチから作ったのは、その軽量性を徹底すること、そして素早く初期化され、さまざまなモバイルデバイス上でモデルのロードも素早いことをねらったからだ。TensorFlow Liteは、Android Neural Networks APIをサポートする。

今回は完全なリリースではないから、今後まだ、いろんなものが加わってくる。現状のTensorFlow Liteは、Googleによると、視覚処理と自然言語処理のいくつかのモデル、MobileNet, Inception v3, Smart Replyなどを使える状態だ。

TensorFlowのチームは、こう書いている: “このデベロッパープレビューでは、われわれは意図的に限られたプラットホームでスタートし、もっとも重要でよく使われる一部のモデルでのパフォーマンスを、確実にしたいと考えた。われわれの計画では、将来の機能拡張はユーザーのニーズに基づくものにしたい。われわれの開発の目標は終始一貫してデベロッパー体験の単純化にあり、さまざまなモバイルおよび組み込みデバイスでモデルをデプロイできるようにしたい”。

関心を持たれたデベロッパーは、TensorFlow Liteのドキュメンテーション読んで、その霊に取り憑かれてしまおう。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa

機械学習の良質なモデルは各ドメインエキスパートが作るべき、Piensoは非技術者がモデルと対話できるツールを提供

機械学習のエキスパートはもちろん機械学習技術に貢献する、しかしプログラミングとは無縁な、世の中のそのほかの分野のエキスパートたちも、逆に、機械学習のモデル構築には役に立つはずだ。

そこでMITから生まれたスタートアップPiensoは、機械学習のモデルの訓練を技術者以外の人にもできるようにして、人材のいない企業などが、さまざまな分野のエキスパートたちが持つ良い知識や情報を利用できるようにしたい、と考えた。

“機械学習のエキスパートでないドメインエキスパート(各分野の専門家)をモデルに埋め込んで彼らの専門知識を利用するにはどうしたらよいか”、これがCEO Birago Jonesの言うPiensoの問題意識だ。

ブルックリンに拠を置く同社は今日(米国時間11/6)、Eniac Ventures率いるシードラウンドにより210万ドルを調達した。参加した投資家は、SoftTech VC, Indicator Ventures, E14 Fundなどだ。同社はこのお金でチームを増員し、また顧客ベースを拡大したい、と考えている。

同社のメインのプロダクトIntelligent Development Environmentは、モデルの構築者と利用者を結びつけるソリューションで、その主要機能であるLensを使って非技術系の人びとが機械学習のアルゴリズムと対話できる。

常時、大量のデータ集合を抱える企業は、機械学習によってそれらの意味や傾向等を取り出すことが可能だが、そのためにさまざまな分野のエキスパートを起用するのはコスト的に難しい。Piensoがねらうのは、このようなhuman-in-the-loop問題を解決することで、求める人間的力(判断やフィードバック)がすでにモデルに反映されている、という状態を作り出す。

Jonesはこう言う: “研究者やアナリストなどの知識労働者に、コンピューターサイエンスや高度な統計学の知識能力がない、というケースの方がむしろ多い。だから、彼らの専門知識を、誰かが機械学習のモデルへ入力しなければならないが、そうすると今度は、ニュアンスやコンテキスト、デテールなどがその過程で失われてしまうことが多い”。…だから、各分野のドメインエキスパート自身に、モデルへの入力をしてもらおう、というのだ。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa