テスラは強力なスーパーコンピューターを使ったビジョンオンリーの自動運転アプローチを追求中

Tesla(テスラ)のElon Musk(イーロン・マスク)CEOは、少なくとも2019年頃から「Dojo」(ドージョー)という名のニューラルネットワークトレーニングコンピューターについて言及してきた。Dojoは、ビジョンオンリー(視覚のみ)の自動運転を実現するために、膨大な量の映像データを処理することができるコンピューターだとマスク氏はいう。Dojo自体はまだ開発中だが、米国時間6月22日、テスラは、Dojoが最終的に提供しようとしているものの開発プロトタイプ版となる、新しいスーパーコンピューターを公開した。

テスラのAI部門の責任者であるAndrej Karpathy(アンドレイ・カーパシー)氏が、米国時間6月21日に開催された「2021 Conference on Computer Vision and Pattern Recognition」(コンピュータービジョンとパターン認識会議2021)において、同社の新しいスーパーコンピューターを公開したのだ。このコンピューターを利用することで、自動運転車に搭載されているレーダーやライダーのセンサーを捨て去り、高品質の光学カメラを採用することが可能になる。自動運転に関するワークショップで、カーパシー氏は、人間と同じようにコンピューターが新しい環境に対応するためには、膨大なデータセットと、そのデータセットを使って同社のニューラルネットベースの自動運転技術を訓練できる、巨大なスーパーコンピューターが必要だと説明した。こうして、今回のような「Dojo」の前身が生まれたのだ。

テスラの最新世代スーパーコンピューターは、10ペタバイトの「ホットティア」NVMeストレージを搭載し、毎秒1.6テラバイトのスピードで動作するとカーパシー氏はいう。その1.8EFLOPS(エクサフロップス)に及ぶ性能は、世界で5番目に強力なスーパーコンピューターになるかもしれないと彼は語ったが、後に、スーパーコンピューティングのTOP500ランキングに入るために必要な特定のベンチマークはまだ実行していないことを認めた。

「とはいえFLOPSで考えれば、きっと5位あたりに入るでしょう」とカーパシー氏はTechCrunchに語っている。「実際に現在5位にいるのは、NVIDIA(エヌビディア)のSelene(セレーネ)クラスターで、私たちのマシンに類似したアーキテクチャを採用し、同程度の数のGPUを搭載しています(向こうは4480個で、こちらは5760個、つまりあちらがやや少ない)」。

マスク氏は、以前からビジョン(視覚)のみでの自動運転を提唱してきたが、その主な理由はレーダーやライダーよりもカメラの方が速いからだ。2021年5月現在、北米で販売されているテスラのModel YおよびModel 3は、レーダーを使用せず、カメラと機械学習を利用して、アドバンスト運転支援システムとオートパイロットをサポートしている。

レーダーとビジョンが一致しない場合、どちらを信じればよいでしょう?ビジョンの方がはるかに精度が高いのですから、センサーを混合して使うより、ビジョンを重視した方がいいでしょう。

自動運転を提供する企業の多くは、LiDARと高精細地図を使用している。つまり走行する場所の、道路の全車線とその接続方法、信号機などに関する非常に詳細な地図が必要になる。

カーパシー氏はワークショップの中で「主にニューラルネットワークを使用する、ビジョンベースの私たちのアプローチは、原理的には地球上のどこでも機能することができます」と語った。

いわば「生体コンピューター」である人間をシリコンコンピューターで置き換えることで、レイテンシーの低下(反応速度の向上)、360度の状況認識、Instagram(インスタグラム)をチェックしたりしない完璧な注意力を保ったドライバーが生まれる、とカーパシー氏はいう。

関連記事:テスラの北米向けModel 3とModel Yがレーダー非搭載に

カーパシー氏は、テスラのスーパーコンピューターがコンピュータービジョンを使ってドライバーの望ましくない行動を修正するシナリオをいくつか紹介した。例えばコンピューターの物体検知機能が働いて、歩行者を轢くことを防ぐ緊急ブレーキのシナリオや、遠くにある黄色の信号を識別して、まだ減速を始めていないドライバーに警告を送る交通制御状況に関する通知などだ。

また、テスラ車では、ペダル誤操作緩和機能と呼ばれる機能がすでに実証されている。これは、クルマが進路上の歩行者や、あるいは前方に走行できる道がないことを識別して、ドライバーが誤ってブレーキではなくアクセルを踏んだ場合に対応できる機能だ。このことによって、車の前の歩行者を救ったり、ドライバーが加速して川に飛び込んだりするのを防ぐことができる可能性が高まる。

テスラのスーパーコンピューターは、車両を取り囲む8台のカメラからの映像を毎秒36フレーム収集しており、それらは車両を取り巻く環境について非常に多くの情報を提供すると、カーパシー氏は説明する。

ビジョンオンリーのアプローチは、世界中で高精細な地図を収集、構築、維持することに比べれば拡張性が高い。しかしその一方で、物体の検出や運転を担当するニューラルネットワークが、人間の奥行きや速度への認識能力に匹敵するスピードで、膨大な量のデータを収集処理できなければならないため、課題が多いということができる。

カーパシー氏は、長年の研究の結果、この課題を教師付き学習の問題として扱うことで解決できると考えているという。カーパシー氏は、この技術をテストした結果、人口の少ない地域では人間の介入なしで運転できることがわかったが「サンフランシスコのような非常に障害物の多い環境では、間違いなくもっと苦労するでしょう」と述べている。高精細な地図や追加のセンサーなどの必要性を減らし、システムを真に機能させるためには、人口密集地への対応力を高めなければならない。

テスラのAIチームの持つ画期的技術の1つは、自動ラベル付けだ。これは、テスラのカメラでクルマから撮影された膨大な量の動画から、道路上の危険物などのラベルを自動的に付けることができるものだ。大規模なAIデータセットは、時間がかかる多くの手作業によるラベル付けを必要としてきた。特に、ニューラルネットワーク上の教師付き学習システムをうまく機能させるために必要な、きれいにラベル付けされたデータセットを手に入れようとしているときにはそれが顕著だった。

だがテスラは、この最新のスーパーコンピューターを使って、1本約10秒の動画を100万本集め、60億個の物体に奥行き、速度、加速度のラベルを付けた。これらは、1.5ペタバイトという膨大な量のストレージを占めている。確かにこれは膨大な量に思えるだろうが、テスラがビジョンシステムのみに依存した自動運転システムに求められる信頼性を実現するには、さらに多くのものが必要となる。そのため、より高度なAIを追求するために、テスラはこれまで以上に強力なスーパーコンピューターを開発し続ける必要があるのだ。

関連記事:テスラが車内カメラでAutopilot使用中のドライバーを監視

カテゴリー:人工知能・AI
タグ:TeslaElon Muskスーパーコンピュータ自動運転コンピュータービジョン機械学習

画像クレジット:Tesla

原文へ

(文: Rebecca Bellan、翻訳:sako)

投稿者:

TechCrunch Japan

TechCrunchは2005年にシリコンバレーでスタートし、スタートアップ企業の紹介やインターネットの新しいプロダクトのレビュー、そして業界の重要なニュースを扱うテクノロジーメディアとして成長してきました。現在、米国を始め、欧州、アジア地域のテクノロジー業界の話題をカバーしています。そして、米国では2010年9月に世界的なオンラインメディア企業のAOLの傘下となりその運営が続けられています。 日本では2006年6月から翻訳版となるTechCrunch Japanが産声を上げてスタートしています。その後、日本でのオリジナル記事の投稿やイベントなどを開催しています。なお、TechCrunch Japanも2011年4月1日より米国と同様に米AOLの日本法人AOLオンライン・ジャパンにより運営されています。