Strong Computeは機械学習モデルのトレーニングを「100倍以上高速化」できると主張する

ニューラルネットワークのトレーニングには、市場で最も高速で高価なアクセラレータを使ってさえも、多大な時間がかかる。だから、多くのスタートアップ企業が、ソフトウェアレベルでプロセスを高速化し、学習プロセスにおける現在のボトルネックをいくつか取り除く方法を検討していることも、不思議ではないだろう。オーストラリアのシドニーに拠点を置くスタートアップで、最近Y Combinator(Yコンビネーター)の22年冬クラスに選抜されたStrong Compute(ストロング・コンピュート)は、学習プロセスにおけるこのような非効率性を取り除くことによって、学習プロセスを100倍以上高速化することができると主張している。

「PyTorch(パイトーチ)は美しいし、TensorFlow(テンソルフロー)もそうです。これらのツールキットはすばらしいものですが、そのシンプルさ、そして実装の容易さは、内部において非効率的であるという代償をもたらします」と、Strong ComputeのCEO兼創設者であるBen Sand(ベン・サンド)氏は語る。同氏は以前、AR企業のMeta(メタ)を共同設立した人物だ。もちろん、Facebook(フェイスブック)がその名前を使う前のことである。

一方では、モデル自体を最適化することに注力する企業もあり、Strong Computeも顧客から要望があればそれを行うが、これは「妥協を生む可能性がある」とサンド氏は指摘する。代わりに同氏のチームが重視するのは、モデルの周辺にあるものすべてだ。それは長い時間をかけたデータパイプラインだったり、学習開始前に多くの値を事前計算しておくことだったりする。サンド氏は、同社がデータ拡張のためによく使われるライブラリのいくつかを最適化したことも指摘した。

また、Strong Computeは最近、元Cisco(シスコ)のプリンシパルエンジニアだったRichard Pruss(リチャード・プルス)氏を雇用し、すぐに多くの遅延が発生してしまう学習パイプラインのネットワークボトルネックを除去することに力を注いでいる。もちろん、ハードウェアによって大きく違うので、同社は顧客と協力して、適切なプラットフォームでモデルを実行できるようにもしている。

「Strong Computeは、当社のコアアルゴリズムの訓練を30時間から5分に短縮し、数百テラバイトのデータを訓練しました」と、オンライン顧客向けにカスタム服の作成を専門とするMTailor(Mテイラー)のMiles Penn(マイルス・ペン)CEOは語っている。「ディープラーニングエンジニアは、おそらくこの地球上で最も貴重なリソースです。Strong Computeのおかげで、当社の生産性を10倍以上に向上させることができました。イテレーション(繰り返し)とエクスペリメンテーション(実験)の時間はMLの生産性にとって最も重要な手段であり、私たちはStrong Computeがいなかったらどうしようもありませんでした」。

サンド氏は、大手クラウドプロバイダーのビジネスモデルでは、人々ができるだけ長くマシンを使用することに依存しているため、彼の会社のようなことをする動機は一切ないと主張しており、Y Combinatorのマネージングディレクターを務めるMichael Seibel(マイケル・サイベル)氏も、この意見に同意している。「Strong Computeの狙いは、クラウドコンピューティングにおける深刻な動機の不均衡です。より早く結果を出すことは、クライアントから評価されても、プロバイダーにとっては利益が減ることになってしまうのです」と、サイベル氏は述べている。

Strong Computeのベン・サンド氏(左)とリチャード・プルス氏(右)

Strong Computeのチームは現在、依然として顧客に最高のサービスを提供しているが、その最適化を統合してもワークフローはあまり変わらないので、開発者はそれほど大きな違いを感じないはずだ。Strong Computeの公約は「開発サイクルを10倍にする」ことであり、将来的には、できる限り多くのプロセスを自動化したいと考えている。

「AI企業は、自社のコアIPと価値がある、顧客、データ、コアアルゴリズムに集中することができ、設定や運用の作業はすべてStrong Computeに任せることができます」と、サンド氏は語る。「これにより、成功に必要な迅速なイテレーションが可能になるだけでなく、確実に開発者が企業にとって付加価値のある仕事だけに集中できるようになります。現在、開発者は複雑なシステム管理作業のML Opsに、最大で作業時間の3分の2も費やしています。これはAI企業では一般的なことですが、開発者にとって専門外であることが多く、社内で行うのは合理的ではありません」。

おまけ:下掲の動画は、TechCrunchのLucas Matney(ルーカス・マトニー)が、サンド氏の以前の会社が開発したMeta 2 ARヘッドセットを2016年に試した時のもの。

画像クレジット:Viaframe / Getty Images

原文へ

(文:Frederic Lardinois、翻訳:Hirokazu Kusakabe)

AIでマウスのグルーミング(毛づくろい)を高精度で検出、動物の心と体の変化の把握が人の中枢性疾患の治療に貢献

AIでマウスのグルーミング(毛づくろい)を高精度で検出、動物の心と体の変化の把握が人の中枢性疾患の治療に貢献

東京大学は2月2日、マウスの動画からAIを用いてグルーミング(毛づくろい)行動を検出する方法を開発したと発表した。グルーミングは動物の心と体の状態を理解するうえでの重要な指標であるため、低コスト、長時間の自動判定が可能になれば、動物実験の効率が大幅に向上するという。

東京大学大学院農学生命科学研究科の坂本直観学部生らによる研究グループは、ケージの上部に設置したカメラで撮影したマウスの動画から、その行動を「グルーミングなし」「顔のグルーミング」「体のグルーミング」に分類してラベル付けを行った。そしてこれを脳の神経回路を模した数理モデルである折り畳みニューラルネットワークに学習させた。そして、折り畳みニューラルネットワークが間違えた画像パターンを解析し改善を試みたところ、かなりの高確率での識別が可能となった。また、グルーミング回数の評価では、人の観測と畳み込みニューラルネットワークの予測は同等だった。

健康な動物に比べて不健康な動物の毛並みが悪いのは、健康状態によってグルーミングの頻度や長さが変わるためだという。動物の心身の状態を詳しく観察することが動物実験では大切なのだが、そこでグルーミングが重要な指標となる。だが、目視による観察は研究者の負担が大きく、また観察者や環境によって判断が変わるといった客観性に欠ける部分もある。そこでこの方法が開発された。

現在、その治療法が強く求められている自閉症、認知症、統合失調症といった中枢性疾患には「ヒトの疾患の病態を適切に反映できる動物モデル」が必要なのだが、それが不足しているために治療法の開発が進んでいないと研究グループは言う。しかし今回確立された技術を用いて「動物の心の機微と体の変化を捉えることが可能となれば、ヒトの中枢性疾患の病態解明や治療方法の開発にも大いに役立つことが期待される」とのことだ。

「噛む」ことで音楽プレイヤーを操作する技術をWisearが開発

Wisear(ワイシア)は、イヤフォンにいくつかの電極と電子部品を追加することによって、あなたの音楽体験をこれまでよりもずっとハンズフリーにすることを目指している。自分の歯で2回、噛む動きをすることで曲を一時停止したり、3回噛んで次の曲にスキップしたりすることができるようになるのだ。音を立てることなく、手でジェスチャーをしたり、ボタンを押したり、その他外から見える動きを一切しなくても、この技術を使えば音楽プレイヤーやAR / VRヘッドセットを操作することが可能になる。同社の創業者たちは、両手がふさがっている時や、周囲がうるさすぎて通常の音声コマンドが使えない場合などに、この技術が特に役立つと想定している。

この技術を既存のヘッドセットメーカーやヘッドフォンメーカーにライセンス供与することを目指し、同社は米国時間1月20日、総額200万ユーロ(約2億6000万円)の資金を調達したことを明らかにした。この投資ラウンドはParis Business Angels(パリ・ビジネス・エンジェルス)とKima Ventures(キマ・ベンチャーズ)が主導し、BPI France(BPIフランス)が支援した。

Wisearは、そのニューラルインターフェースを筆者に見せてくれた。前述の電極を使って脳と顔の動きを記録し、特許出願中のAI技術によって、これらの信号をユーザーが行動を取るためのコントロールに変換するという仕組みだ。同社は競合他社に対してかなり懐疑的で、他の「思考によるコントロール」をてがけるスタートアップ企業は、人々を欺こうとしているのではないかと思っているという。

「現在、思考コントロールや精神コントロールを手がけているといっている人は、基本的に真実を捻じ曲げているのです」と、Wisearの共同設立者であるYacine Achiakh(ヤシン・アキアク)氏は説明する「もし彼らが本当にそれを実現させているのであれば、全財産を投資しても大丈夫。なぜなら、それはすべてに革命をもたらすからです。これは私たちにとって本当に苛立たしいことでした。精神コントロールを実現させたと言っている人たちは、周囲に騒音がなく、人が動かず、外は晴れていて、温度もちょうどいいという、非常に特殊な環境下で動作するデモを行っているだけだと、私たちは気づきました」。

「研究室では動作する」症候群を克服するため、同社は初めからやり直し、既製の部品を使って新しい技術を作り出した。そして十分に機能する技術のプロトタイプを作って披露し、その技術をヘッドフォンやAR/VRヘッドセットのメーカーにライセンス供与しようと考えている。

「私たちは、脳ベースで何かをしようとするときに最も難しいのは、実際にそれをユーザーに一般化し、どんな環境でも機能するようにすることだと気づきました。そこで私たちは、一歩下がって、まず筋肉と眼球の活動をベースにしたニューラルインターフェースを開発することにしました。私たちの主なコントロールは、顎の動きに基づくものです」と、アキアク氏は語る。「イヤフォンに搭載したセンサーが、顎の筋肉の動きを捉えて、コントロールに変換します。音を出す必要は一切ありません。そして2022年の目標は、顎を2回または3回、噛む動きをすることで、2つのコントロールができるようにすることです。今後3年間で12種類のコントロールに拡大することを目指しています」。

先週、同社の創業者はビデオ通話で同社の技術を披露してくれたのだが、その内容は一言でいうとすばらしいものだった。アキアク氏が筆者と話している間に発生したあらゆる物音や動きなどに、ヘッドフォンは一切混乱することがなかった。同氏が自分の歯を噛みしめる、つまり顎を食いしばるような動きをすると、音楽プレイヤーは一時停止したり、またそこから音楽を再開したりした。

この技術はまだ実用化の段階には至っていないものの、成功率はかなり高いようだ。

「私たちが作っているのは、本当に誰にでも使える初めての技術です。CESの我々のブースでは、約80%の人がうまくデモを動作させることができましたが、さらに向上させるために努力しています」とアキアク氏は語った。「私たちが作っているのは、今の時代にきちんと動作する唯一のニューラルインターフェースです。筋活動は、2022年に構築できる真の新しいインターフェースです」。

Wisearは、携帯電話の音楽プレイヤーをコントロールできるイヤフォンの実験中の試作機を公開している。同社はこの分野における既存のメーカーに、その技術をライセンスすることを望んでいる(画像クレジット:Wisear)

画像クレジット:Wisear

原文へ

(文:Haje Jan Kamps、翻訳:Hirokazu Kusakabe)

映画字幕のように使えるWaverly Labsの対面式翻訳機「Subtitles」、レストランや小売店などのカウンターに最適

数年前からWaverly Labsを取材し、主に同社のウェアラブル言語翻訳機を紹介している。米国時間1月5日、CESでブルックリンに拠点を置くWaverly Labsはリアルな世界での対話のために設計され、インイヤーデバイスの共有が必要ない、同社技術の新たなフォームファクターを発表した(私たちが細菌を気にかけている現在、とてもポジティブなものに感じる)。

「Subtitles」と名づけられたその製品は、両面にタッチスクリーンのディスプレイがあり、レストランや小売店や銀行、空港、ホテルなどの場所でカウンターの上に設置する。ユーザーは自分の言語を選び、話をすると、その翻訳が反対側のディスプレイに「ほぼリアルタイム」で表示される。

翻訳だけでなく、聴覚障害者のための便利なツールになりそうだ。まるで、対面式のクローズドキャプションのように。Subtitlesという製品名は「字幕」という意味だが、同社はその使用体験を、翻訳された映画を見ることに例えている。

このシステムは、20の言語と42の方言を翻訳するWaverlyの技術に基づいて構築されている。英語、フランス語、ドイツ語、イタリア語、ポルトガル語、スペイン語、アラビア語、ギリシャ語、ロシア語、ヒンディー語、トルコ語、ポーランド語、中国標準語、日本語、韓国語、広東語、ヘブライ語、タイ語、ベトナム語、オランダ語など、20言語42方言に対応している。現在CESで披露されており、第2四半期のどこかの時点で登場する予定とのこと。価格は発表されていない。

また、Waverlyはオーバーイヤー型翻訳機「Amasaddor Interpreter」の新バージョンも紹介している。Waverlyは次のように語る。

音声認識ニューラルネットワークと組み合わせた高度な遠距離フィールドマイクロホンアレイを使用して、驚くほど明瞭なレベルで音声を捕捉します。その後、クラウドベースの機械翻訳エンジンを使用して音声をシームレスに処理し、高速かつ流動的で高精度な翻訳を実現します。

こちらは、179ドル(約2万760円)で販売されている。

画像クレジット:Waverly Labs

原文へ

(文:Brian Heater、翻訳:Hiroshi Iwatani)

AIロボットが何をつかんだかを判別可能に―九州工業大学、マテリアルベースのリザバー演算素子を開発

AIロボットが何をつかんだかを判別可能に―九州工業大学、マテリアルベースのリザバー演算素子開発とロボティクスへの応用に成功

九州工業大学は1月6日、ロボットアームのハンド部分から得られる感触信号から、ロボットが何をつかんだかを判別(把持物体認識)することに成功したと発表した。把持物体認識には、人工ニューラルネットワークの一種であるリザバー演算(RC)が使われるが、九州工業大学は、そのリザバー演算を、「単層カーボンナノチューブとポルフィリン、ポリオキソメタレートの複合体」(SWNT/Por-POM)からなる素子で行わせるという、画期的なアプローチをとった。

人間の脳を人工的に模倣するには、ランダムに接続されたニューロンとシナプスの動的な貯蔵庫(リザバー)を模倣する必要があり、それを実現したのが人工ニューラルネットワーク(ANN)だ。その一種であるリザバー演算は、貯蔵庫内での信号のランダムなフィードバックを忠実に再現して時系列データの学習を可能にしており、深層ニューラルネットワークに比べて、効率的・高速・シンプルで、生物の脳の仕組みに近い機械学習アーキテクチャーとされている。

AIロボットが何をつかんだかを判別可能に―九州工業大学、マテリアルベースのリザバー演算素子開発とロボティクスへの応用に成功

ところが、リザバー演算を既存コンピューター上でソフトウェアだけで行うことは技術的に難しく、ハードウェアからアプローチするパラダイムシフトが不可欠とされる。そこで、ソフトウェアと並行して物理的な挙動を演算ツールとして用いる「物理リザバー」が研究されている。なかでも九州工業大学の手法は、物理的挙動を示すマテリアル自身に演算を担わせる「マテリオRC」という新しい試みだ。

研究では、SWNT/Por-POMによるリザバーからなるランダムネットワークを作り、トヨタ自動車の生活支援ロボット「ヒューマンサポートロボット」のロボットハンドから得られた物体把持のセンシングデータを入力信号として使用した。それにより、異なる物を正しく分類する「インマテリオRCタスク」に成功した。

現在、画像による物体認識は広く行われているが、光量が少ない暗い場所では誤判定が生じる。そのため、特に介護の現場などでは触覚センサーによる把持物体認識の併用が重要になってくる。九州工業大学では、「生物学的なインターフェースで効率的な計算を実現できる、マテリアルベースのRCが賢い選択だということが今回の結果で示されました」と話している。SWNT/Por-POMは近い将来、「脳と同等の情報処理能力を持つと期待され、時系列予測や音声認識など他の複雑なAI問題に応用すること」が可能になるということだ。

この研究は、九州工業大学ニューロモルフィックAIハードウェア研究センターの田中啓文教授、田向権教授らからなる研究グループと、大阪大学の小川琢治元教授、カリフォルニア大学ロサンゼルス校のジムゼウスキー教授との共同によるもの。

電気通信大学、「つるつる」「さらさら」などオノマトペ・擬態語で画像内のモノの質感を表現するAIを開発

電気通信大学は11月17日、「つるつる」や「さらさら」といったオノマトペ(擬態語)で画像に写っているモノの質感を表現できるAIの開発を発表した。オノマトペという人によって感覚の異なるあいまいさを機械学習させることに成功したということだ。

電気通信大学大学院情報理工学研究科および人工知能先端研究センターの坂本真樹教授らによる研究グループは、1946枚の画像に写っているものの質感を、100人の被験者にオノマトペで表現してもらい、そのデータから深層学習モデルを作り出した。

ここで使われたのが、人の神経細胞をモデルにしたニューラルネットワークだが、特に物体認識の分野で注目されている畳み込みニューラルネットワークの中でも、さらに多層の構造を持つ深層畳み込みニューラルネットワーク(DCNN)を採用した。DCNNには、画像の特徴量を学習の過程で自動で検出できる利点があるからだ。そのため、ものの質感のように「着眼点が人によって異なる」ものにも適用できる。しかし、そもそもAIは曖昧な学習が苦手なので、学習手法になんらかの工夫が必要だった。

そこで研究グループは、音韻が触覚や視覚などの感覚的印象と結びつく現象である「音韻徴性」が強く表れるオノマトペに着目した。これを使えば人の印象を定量化しやすい。研究では、繊維、ガラス、金属、プラスチック、水、葉、革、紙、石、木の10のカテゴリーに分類される1946枚の画像と、これらに対応する3万138語のオノマトペを用意し、100人の被験者に画像を見て表現してもらった。そして、1枚の画像に複数のオノマトペを正解として学習させることで、曖昧さを考慮したDCNNモデルを作ることができた。画像を入力するとオノマトペが出力されるこのモデルでは、約80%の正解率を達成できたという。

「人間のように質感を表現できるコンピューターが実現すれば、人とロボットが共存するといわれる将来、たとえば、ロボットが目の不自由な人に質感を教えるといったことが可能になると期待されます」と研究グループは話している。

ロボットに社会性を与えるMITの実験

あなたがAからBまで行くことをプログラミングされているのなら、丁寧であることはあまり必要とされない。しかしロボットが人間社会で果たす役割が増えるにともって、彼らはどうやって人間たちと正しくうまくやっていくのか、という問題が生まれてくる。

MITのCSAIL(コンピューター科学人工知能研究所)の研究員Boris Katz(ボリス・カッツ)氏が、最近の研究論文で「ロボットはもうじき私たちの世界の住人になるため、私たちと人間のようにコミュニケーションをとることができるようになる必要がある」という。「彼らは、いつ自らが手伝うのか、いつ自らが何かを防ぐために何ができるのかを理解する必要があります」。

彼のチームはその研究論文を「人間と機械が社会的に対話するとはどういうことかを理解するための、初めてで極めて真剣な試み」と呼んでいる。このような主張の正当性をめぐって議論はあるだろうが、彼らが極めて初期的な段階として解こうとしている問題は疑いもなく、人間の生活の中でロボットの役割がすごく大きくなろうとしている今日、ロボット研究者たちが今後ますます真剣に考慮すべき問題だ。

研究者たちが行ったシミュレーションテストでは、ロボット同士の「リアルで予測可能な」対話を開発した。そのシミュレーションでは、1人のロボットがもう1人の仕事ぶりをウォッチし、その目標を知ろうとし、その後両者は仕事をしながら目標達成に進んだり、それを妨げたりする。

プロジェクトのリーダーでフェローのRavi Tejwani(ラヴィ・テジュワニ)氏は次のように述べている。「私たちは、2つのエージェント間の社会的な対話のモデルを作るための数学的枠組みを公開しました。あなたがロボットで、X地点に行きたいとします。そのとき私はもう1つのロボットで、あなたがX地点へ行こうとしていることを見ます。私はあなたに協力して、あなたがX地点に速く到着できるように助けます。それは、Xを動かしてあなたに近くすることかもしれません。もう1つの、もっと良いXを見つけることかもしれません。あるいはあなたがXに到着するためにやるべき何らかのアクションを、やってあげることかもしれません。私たちの公式では「how(どうやって)」を見つけるための計画ができます。また「what(何)」は、ソーシャルな対話の数学的な意味に基づいて指定します。

そのモデルは現在、比較的単純な2Dのシミュレーションだ。チームは現在、3Dバージョンに移行しようとしており、また、ニューラルネットワークを使ったロボットのプランナーを加えて、ロボットがこれらのアクションから学ぶスピードを速めようとしている。

画像クレジット:charles taylor/Getty Images

原文へ

(文:Brian Heater、翻訳:Hiroshi Iwatani)

ロボット、チップ、完全自動運転、イーロン・マスク氏のTesla AI Dayハイライト5選

Elon Musk(イーロン・マスク)氏はTesla(テスラ)を「単なる電気自動車会社ではない」と見てもらいたいと考えている。米国時間8月19日に開催されたTesla AI Day(テスラ・AI・デー)で、イーロン・マスクCEOはテスラのことを「推論レベルとトレーニングレベルの両方でハードウェアにおける深いAI活動」を行っている企業であると説明した。この活動は、自動運転車への応用の先に待つ、Teslaが開発を進めていると報じられている人型ロボットなどに利用することができる。

Tesla AI Dayは、映画「マトリックス」のサウンドトラックから引き出された45分間にわたるインダストリアルミュージックの後に開始された。そこでは自動運転とその先を目指すことを支援するという明確な目的のもとに集められた、テスラのビジョンとAIチームに参加する最優秀のエンジニアたちが、次々に登場してさまざまなテスラの技術を解説した。

「それを実現するためには膨大な作業が必要で、そのためには才能ある人々に参加してもらい、問題を解決してもらう必要があるのです」とマスク氏はいう。

この日のイベントは「Battery Day」(バッテリー・デー)や「Autonomy Day」(オートノミー・デー)と同様に、テスラのYouTubeチャンネルでライブ配信された。超技術的な専門用語が多かったのだが、ここではその日のハイライト5選をご紹介しよう。

Tesla Bot(テスラ・ボット):リアルなヒューマノイド・ロボット

このニュースは、会場からの質問が始まる前にAI Dayの最後の情報として発表されたものだが、最も興味深いものだった。テスラのエンジニアや幹部が、コンピュータービジョンやスーパーコンピュータDojo(ドージョー)、そしてテスラチップについて語った後(いずれも本記事の中で紹介する)、ちょっとした幕間のあと、白いボディスーツに身を包み、光沢のある黒いマスクで顔が覆われた、宇宙人のゴーゴーダンサーのような人物が登場した。そして、これは単なるテスラの余興ではなく、テスラが実際に作っている人型ロボット「Tesla Bot」の紹介だったことがわかった。

画像クレジット:Tesla

テスラがその先進的な技術を自動車以外の用途に使うことを語ろうとするときに、ロボット使用人のことを語るとは思っていなかった。これは決して大げさな表現ではない。CEOのイーロン・マスク氏は、食料品の買い物などの「人間が最もやりたくない仕事」を、Tesla Botのような人型ロボットが代行する世界を目論んでいるのだ。このボットは、身長5フィート8インチ(約173cm)、体重125ポンド(約56.7kg)で、150ポンド(約68kg)の荷物を持ち上げることが可能で、時速5マイル(約8km/h)で歩くことができる。そして頭部には重要な情報を表示するスクリーンが付いている。

「もちろん友好的に、人間のために作られた世界を動き回ることを意図しています」とマスク氏はいう。「ロボットから逃げられるように、そしてほとんどの場合、制圧することもできるように、機械的そして物理的なレベルの設定を行っています」。

たしかに、誰しもマッチョなロボットにやられるのは絶対避けたいはずだ(だよね?)。

2022年にはプロトタイプが完成する予定のこのロボットは、同社のニューラルネットワークや高度なスーパーコンピューターDojoの研究成果を活用する、自動車以外のロボットとしてのユースケースとして提案されている。マスク氏は、Tesla Botが踊ることができるかどうかについては口にしなかった。

関連記事:テスラはロボット「Tesla Bot」を開発中、2022年完成予定

Dojoを訓練するチップのお披露目

画像クレジット:Tesla

テスラのディレクターであるGanesh Venkataramanan(ガネッシュ・べンカタラマン)氏が、完全に自社で設計・製造されたテスラのコンピュータチップを披露した。このチップは、テスラが自社のスーパーコンピュータ「Dojo」を駆動するために使用している。テスラのAIアーキテクチャの多くはDojoに依存している。Dojoはニューラルネットワークの訓練用コンピューターで、マスク氏によれば、膨大な量のカメラ画像データを他のコンピューティングシステムの4倍の速さで処理することができるという。Dojoで訓練されたAIソフトウェアは、テスラの顧客に対して無線を通じてアップデートが配信される。

テスラが8月19日に公開したチップは「D1」という名で、7nmの技術を利用している。べンカタラマン氏はこのチップを誇らしげに手に取りながら、GPUレベルの演算機能とCPUとの接続性、そして「現在市販されていて、ゴールドスタンダードとされている最先端のネットワークスイッチチップ」の2倍のI/O帯域幅を持っていると説明した。彼はチップの技術的な説明をしながら、テスラはあらゆるボトルネックを避けるために、使われる技術スタックを可能な限り自分の手で握っていたかったのだと語った。テスラは2020年、Samsung(サムスン)製の次世代コンピューターチップを導入したが、ここ数カ月の間、自動車業界を揺るがしている世界的なチップ不足から、なかなか抜け出せずにいる。この不足を乗り切るために、マスク氏は2021年夏の業績報告会で、代替チップに差し替えた結果、一部の車両ソフトウェアを書き換えざるを得なくなったと語っていた。

供給不足を避けることは脇においても、チップ製造を内製化することの大きな目的は、帯域幅を増やしてレイテンシーを減らし、AIのパフォーマンスを向上させることにあるのだ。

AI Dayでべンカタラマン氏は「計算とデータ転送を同時に行うことができ、私たちのカスタムISA(命令セットアーキテクチャ)は、機械学習のワークロードに完全に最適化されています」と語った。「これは純粋な機械学習マシンなのです」。

べンカタラマン氏はまた、より高い帯域幅を得るために複数のチップを統合した「トレーニングタイル」を公開した。これによって1タイルあたり9ペタフロップスの演算能力、1秒あたり36テラバイトの帯域幅という驚異的な能力が実現されている。これらのトレーニングタイルを組み合わせることで、スーパーコンピューター「Dojo」が構成されている。

完全自動運転へ、そしてその先へ

AI Dayのイベントに登壇した多くの人が、Dojoはテスラの「Full Self-Driving」(FSD)システムのためだけに使われる技術ではないと口にした(なおFSDは間違いなく高度な運転支援システムではあるものの、まだ完全な自動運転もしくは自律性を実現できるものではない)。この強力なスーパーコンピューターは、シミュレーション・アーキテクチャーなど多面的な構築が行われており、テスラはこれを普遍化して、他の自動車メーカーやハイテク企業にも開放していきたいと考えている。

「これは、テスラ車だけに限定されるものではありません」マスク氏。「FSDベータ版のフルバージョンをご覧になった方は、テスラのニューラルネットが運転を学習する速度をご理解いただけると思います。そして、これはAIの特定アプリケーションの1つですが、この先さらに役立つアプリケーションが出てくると考えています」。

マスク氏は、Dojoの運用開始は2022年を予定しており、その際にはこの技術がどれほど多くの他のユースケースに応用できるかという話ができるだろうと語った。

コンピュータビジョンの問題を解決する

AI Dayにおいてテスラは、自動運転に対する自社のビジョンベースのアプローチの支持を改めて表明した。これは同社の「Autopilot」(オートパイロット)システムを使って、地球上のどこでも同社の車が走行できることを理想とする、ニューラルネットワークを利用するアプローチだ。テスラのAI責任者であるAndrej Karpathy(アンドレイ・カーパシー)氏は、テスラのアーキテクチャを「動き回り、環境を感知し、見たものに基づいて知的かつ自律的に行動する動物を、ゼロから作り上げるようなものだ」と表現した。

テスラのAI責任者であるアンドレイ・カーパシー氏が、コンピュータビジョンによる半自動運転を実現するために、テスラがどのようにデータを管理しているかを説明している(画像クレジット:Tesla)

「私たちが作っているのは、もちろん体を構成するすべての機械部品、神経系を構成するすべての電気部品、そして目的である自動運転を果たすための頭脳、そしてこの特別な人工視覚野です」と彼はいう。

カーパシー氏は、テスラのニューラルネットワークがこれまでどのように発展してきたかを説明し、いまやクルマの「脳」の中で視覚情報を処理する最初の部分である視覚野が、どのように幅広いニューラルネットワークのアーキテクチャと連動するように設計されていて、情報がよりインテリジェントにシステムに流れ込むようになっているかを示した。

テスラがコンピュータービジョンアーキテクチャーで解決しようとしている2つの主な問題は、一時的な目隠し(交通量の多い交差点で車がAutopilotの視界を遮る場合など)と、早い段階で現れる標識やマーク(100メートル手前に車線が合流するという標識があっても、かつてのコンピューターは実際に合流車線にたどり着くまでそれを覚えておくことができなかったなど)だ。

この問題を解決するために、テスラのエンジニアは、空間反復型ネットワークビデオモジュールを採用した。このモジュールのさまざまな観点が道路のさまざまな観点を追跡し、空間ベースと時間ベースのキューを形成して、道路に関する予測を行う際にAIモデルが参照できるデータのキャッシュを生成する。

同社は1000人を超える手動データラベリングチームを編成したと語り、さらに大規模なラベリングを可能にするために、テスラがどのように特定のクリップを自動ラベリングしているかを具体的に説明した。こうした現実世界の情報をもとに、AIチームは信じられないようなシミュレーションを利用して「Autopilotがプレイヤーとなるビデオゲーム」を生み出す。シミュレーションは、ソースやラベル付けが困難なデータや、閉ループの中にあるデータに対して特に有効だ。

関連記事:テスラが強力なスーパーコンピューターを使ったビジョンオンリーの自動運転アプローチを追求

テスラのFSDをとりまく状況

40分ほど待ったときに、ダブステップの音楽に加えて、テスラのFSDシステムを映したビデオループが流れた、そこには警戒していると思われるドライバーの手が軽くハンドルに触れている様子が映されていた。これは、決して完全に自律的とは言えない先進運転支援システムAutopilotの機能に関する、テスラの主張が精査された後で、ビデオに対して法的要件が課されたものに違いない。米国道路交通安全局(NHTSA)は 今週の初めにテスラが駐車中の緊急車両に衝突する事故が11件発生したことを受け、オートパイロットの予備調査を開始することを発表した。

その数日後、米国民主党の上院議員2名が連邦取引委員会(FTC)に対して、テスラのAutopilot(自動操縦)と「Full Self-Driving」(完全自動運転)機能に関するマーケティングおよび広報活動を調査するよう要請した。

関連記事
米当局がテスラのオートパイロット機能を調査開始、駐車中の緊急車両との衝突事故受け
テスラの「完全」自動運転という表現に対し米上院議員がFTCに調査を要請

テスラは、7月にFull Self-Drivingのベータ9版を大々的にリリースし、数千人のドライバーに対して全機能を展開した。だが、テスラがこの機能を車に搭載し続けようとするならば、技術をより高い水準に引き上げる必要がある。そのときにやってきたのが「Tesla AI Day」だった。

「私たちは基本的に、ハードウェアまたはソフトウェアレベルで現実世界のAI問題を解決することに興味がある人に、テスラに参加して欲しい、またはテスラへの参加を検討して欲しいと考えています」とマスク氏は語った。

米国時間8月19日に紹介されたような詳細な技術情報に加えて、電子音楽が鳴り響く中で、Teslaの仲間入りをしたいと思わない血気盛んなAIエンジニアがいるだろうか?

一部始終はこちらから。

画像クレジット:Tesla

原文へ

(文:Rebecca Bellan、Aria Alamalhodaei、翻訳:sako)

ストリーミングサービスのPlexが「音響的に似ている」曲を集めたプレイリストを作る機能を公開

メディアソフトウェアメーカーのPlexは、2020年にサブスク専用音楽アプリPlexampをリリースした。このアプリ名は、かつてのWinampに代わるものを目指すことを表している。米国時間8月12日、同社はPlexampアプリをアップデートし、Super Sonicという新機能を搭載した。これは例えば音楽のジャンルが一致するというようにメタデータだけを使うのではなく、「音響的に」似ている曲を集めたプレイリストを作れる機能だ。

同社は、ユーザーのライブラリにある曲が別の曲とどのように関連するかを音で判断するためにSuper Sonicを開発したと説明する。これは多くの曲を含むカタログにアプローチする方法のひとつで、雰囲気やトーン、テンポなどの属性に基づいて曲を分類するPandoraのMusic Genome Projectのようなものを思い起こさせる。

画像クレジット:Plex

しかし熟練の音楽学者が多くの属性をもとに曲を解析するMusic Genome Projectとは異なり、Super Sonicはテクノロジーを使う。

Plexampの新しい音響解析機能は、ニューラルネットワークとAIを活用してライブラリ中のすべての曲、アルバム、アーティストをマッピングする。Super Sonicはその解析の中から50ほどのパラメーターを抜き出して、適切に重みづけする。「音響的に似ている」とはN次元の空間において2つの点が近いことを指しているとPlexは説明する。

この新機能の設定にはCPUにかなり大きな負荷がかかり、ライブラリのサイズによるが数時間から数日かかることもある。しかし完了後はこの機能を使って音楽を発見できる。メタデータが少ない、あるいはまったくないインディーズや無名の音楽をたくさん聴く人にとっては、特に有効だろう。

解析が完了すると、新しいRelated Tracks(関連のある曲)機能で音響的に似ている曲が表示される。標準的なメタデータだけでは一致しない曲が出てきて驚くこともありそうだ。

もうひとつ、Mixes for You(あなたのためのミックス)にはユーザーがヘビロテした曲が集められ、さらに最近のお気に入りの他に音響的に似た曲も追加される。サーバーは以前に聞いていた曲をベースにしたミックスもいくつか作るので、さらにさまざまな曲が見つかる。

人気があったが数年前にメタデータプロバイダーの変更に伴って廃止されたPlex Mixに代わるものとして、新しいラジオ機能も公開する。音響的に似ている曲やアルバム全体を再生するTrack RadioとAlbum Radioに音響のデータが使われる。

画像クレジット:Plex

Super Sonic以外の新機能としては、アルバムをタイプごと(「デモ」や「ライブアルバム」など)に整理したり絞り込んだりする機能がある。またOn This Day(この日)機能では、アルバムの節目、例えばアルバムが20年前、30年前、50年前にリリースされたといったことがわかる。

画像クレジット:Plex

新しい音響解析機能を使えるのは有料のPlex Passのサブスク利用者で、macOS、Windows、LinuxのいずれかのマシンでPlex Media Server v1.24.0を動作させる必要がある。ただしARMのCPUには対応していない。

画像クレジット:Plex

Plexはパワーユーザーにもっとアピールできるサブスクリプションにしようと以前から取り組んできた。登録ユーザーはおよそ2500万人だが、パワーユーザーは多くない。しかし現在、同社の利益はサブスクの売上に完全に依存しているわけではない。無料の広告付きストリーミング市場に進出し、資金調達も実施した

現在Plexは、ストリーミング事業をレンタル、購入、サブスクリプションといった分野に拡大しようとしている。しかしSuper Sonicを見ればわかるように、Plexはデジタルメディアのコレクターや大ファンであるコアなオーディエンスにアピールするテクノロジーを今後も探り続けるだろう。

カテゴリー:
タグ:

画像クレジット:Plex

原文へ

(文:Sarah Perez、翻訳:Kaori Koyama)

テスラの北米向けModel 3とModel Yがレーダー非搭載に

北米の顧客向けに製造されるTesla(テスラ)の「Model Y(モデルY)」と「Model 3 (モデル3)」には、レーダーが搭載されなくなる。これは、機械学習を組み合わせたカメラのみを使用して、同社の先進運転支援システムやその他のアクティブセーフティ機能をサポートするようにしたいという、Elon Musk(イーロン・マスク)CEOの意向を反映した変更だ。

センサーの使用をやめるという決定は、多くのテスラの動向と同様に、業界の標準的な考え方に反している。今のところ、レーダーなしのテスラ車は、北米のみで販売される。テスラは、中国や欧州の顧客向けに製造される車両から、レーダーセンサーを削除する時期やその可能性については言及していない。

自動車メーカーは通常、レーダーとカメラを(さらにはLiDARも)組み合わせ、周囲の交通状況に合わせて車両の走行速度を調整するアダプティブ・クルーズ・コントロールや、車線維持および自動車線変更など、先進運転支援システムの機能を実現するために必要なセンシングを行っている。

しかし、以前からマスク氏は、カメラといわゆるニューラルネット処理のみで、車両を取り巻く環境で起きていることを検知・認識し、適切な対応を行うシステムの可能性を喧伝しており、このシステムにはブランド名を冠した「Tesla Vision(テスラ・ビジョン)」という名称が付けられている。

ニューラルネットとは、人間の学習の仕方を模倣した機械学習の一種で、一連の接続されたネットワークを使用してデータのパターンを識別することにより、コンピュータが学習することを可能にする、人工知能アルゴリズムの洗練された形態だ。自動運転技術を開発している多くの企業は、特定の問題を処理するためにディープニューラルネットワークを使用しているが、彼らはこのディープネットワークを壁で囲い、ルールベースのアルゴリズムを使って、より広範なシステムに結びつけている。

Whole Mars Catalog@WholeMarsBlog
ピュア・ビジョンの考え方について、もう少し詳しく教えてください。

レーダーを使わないのは時代に逆行するという意見もありますが、なぜ使わないほうがいいと判断したのでしょうか?

Elon Musk@elonmusk
レーダーと視覚が一致しないとき、あなたはどちらを信じますか? 視覚認識の方がはるかに精度が高いので、複数のセンサーを組み合わせるよりも視覚認識を倍に増やした方が良いのです。

テスラは更新したウェブサイトでレーダーからの移行について詳述し、2021年5月から切り替えを開始したと述べている。このカメラと機械学習(特にニューラルネット処理)を組み合わせた方式は「Tesla Vision」と呼ばれ、同社の車両に標準装備されている先進運転支援システム「Autopilot(オートパイロット)」と、そのアップグレード版で1万ドル(約109万円)の追加料金が必要な「FSD(フル・セルフ・ドライビング)」に使われる。テスラのクルマは自動運転ではないので、人間のドライバーが常に運転に関与し続ける必要がある。

レーダーを搭載していないテスラ車では、当初は運転支援機能が制限される。例えば、Autosteer(オートステア)と呼ばれる車線維持機能が使える速度は最高時速75マイル(時速約120キロメートル)までに制限され、最小追従距離も長くなる。また、緊急車線逸脱回避機能や、駐車場で自車を自分の側まで呼び寄せることができるSmart Summon(スマート・サモン)機能は、納車当初には利用できない可能性があると、テスラは述べている。

同社では、今後数週間のうちにワイヤレス・ソフトウェア・アップデートによって、これらの機能を復活させることを計画しているという。ただし、テスラはその具体的なスケジュールを明らかにしていない。他のAutopilotやFSDの機能は、(注文した仕様にもよるが)納車時にすべて有効になっているとのこと。

一方、Model S(モデルS)とModel X(モデルX)の新車や、北米以外の市場向けに製造されるすべてのモデルには、引き続きレーダーが搭載され、レーダーを使ったAutopilotの機能も利用できる。

テスラは「よくある質問」の中で「Model 3とModel Yは、当社の製品の中でも生産台数が多いモデルです。これらのモデルを先にTesla Visionに移行することで、膨大な実世界におけるデータを短時間で分析することが可能になり、結果的にTesla Visionをベースとした機能の展開を早めることができます」と書いている。

関連記事
マスク氏の「年末までに自動運転を実現」という発言は「エンジニアリングの現実とは一致しない」とテスラ社員
イーロン・マスク氏がビットコインでのテスラ車購入停止を指示、ツイート後ビットコインは下落中
テスラがノルウェーでの判決を受け最大約243億円の補償金支払いに直面

カテゴリー:モビリティ
タグ:TeslaModel YModel 3アメリカカナダイーロン・マスクニューラルネットワーク機械学習コンピュータービジョンオートパイロット

画像クレジット:Tesla

原文へ

(文:Kirsten Korosec、翻訳:Hirokazu Kusakabe)

MIT研究者が新たな情報に適応していく「流動」ニューラルネットワークを開発

最初の訓練を受けた後、その基礎となる動作を適応させることができる新しいタイプのニューラルネットワークは、自動運転やロボットの制御、病状の診断など、状況が急速に変化する状況において、大きな改善の鍵となる可能性がある。このようないわゆる「流動」ニューラルネットワークは、MITコンピュータ科学・人工知能研究所のRamin Hasani(ラミン・ハサニ)氏と彼のチームによって考案されたもので、訓練段階の後、実際に現場で行われる実用的な推論作業に従事する際に、AI技術の柔軟性を大幅に拡大する可能性を秘めている。

通常、ニューラルネットワークのアルゴリズムは、関連する大量のターゲットデータを与えられて推論能力を磨き、正しい応答に報酬を与えて性能を最適化する訓練段階を経ると、基本的には固定化される。しかし、ハサニ氏のチームは、彼の「流動」ニューラルネットが、新しい情報に反応して、時間の経過とともに「成功」のためのパラメータを適応させていく方法を開発した。これは、たとえば自動運転車の認知を担うニューラルネットが、晴天から大雪に変わった場合、状況の変化に対処して高いレベルの性能を維持できるようになることを意味する。

ハサニ氏とその共同研究者達が開発した方法が従来と大きく異なる点は、時系列的な適応性に焦点を当てていることだ。つまり、基本的に多数のスナップショットや時間内に固定された静的な瞬間からなる訓練データに基づいて構築されるのではなく、流動ネットワークは本質的に時系列データ、つまり孤立したスライスではなく、連続的なイメージを考慮しているということである。

このように設計されているため、従来のニューラルネットワークと比較すると、研究者による観察や研究がよりオープンになるということでもある。この種のAIは一般的に「ブラックボックス」と呼ばれている。なぜなら、アルゴリズムを開発している人たちは、入力したものや成功した行動を奨励して決定するための基準は知っていても、成功につながるニューラルネットワークの中では何が起こっているのかを正確に判断できないからだ。この「流動的」なモデルは、より透明性が高く、より少数の、しかし洗練されたコンピュートノードによって構成されるため、コンピューティングにかかるコストが低くなる。

一方、パフォーマンスの結果は、既知のデータセットから未来の値を予測する精度において、他のシステムよりも優れていることを示している。ハサニ氏と彼のチームの次なるステップは、このシステムをさらに優れたものにする最善の方法を明らかにし、実際の実用的なアプリケーションで使用できるように準備することだ。

カテゴリー:人工知能・AI
タグ:MITニューラルネットワーク

画像クレジット:imaginima / Getty Images

原文へ

(文:Darrell Etherington、翻訳:Hirokazu Kusakabe)