Scale AIが自動運転車の開発向けに無料のLIDARデータセットをリリース

高品質のデータはAIアルゴリズムの原動力だ。ラベル付けされたデータの継続的な流れがないと、ボトルネックが生じ、アルゴリズムは徐々に悪化し、システムのリスクが増す。

そのためラベル付きデータは、Zoox、Cruise、Waymoのような企業にとって非常に重要だ。自動運転車の開発・導入向けの機械学習モデルのトレーニングに必要だからだ。そのニーズがScale AI(スケールAI)の創業につながった。同社はソフトウェアと人間の力をあわせて、機械学習アルゴリズムを開発する企業向けに画像、LIDAR(光を用いる距離測定方法または装置)、地図データを処理し、ラベルを付けるスタートアップだ。Scaleの顧客基盤の大半は自動運転車技術に取り組む企業が占める。同社のプラットフォームは、Airbnb、Pinterest、OpenAIなども利用している。

新型コロナウイルス(COVID-19)パンデミックにより、データの流れが遅くなり、場合によっては止まってしまった。自動運転車開発企業が何十億もの画像を収集できる公道試験を停止したためだ。Scaleはデータの蛇口を再び開いて無料で提供するつもりだ。

同社は今週LIDARの製造元であるHesaiと協力し、自動運転の機械学習モデルのトレーニングに使えるオープンソースのデータセット「PandaSet」を発表した。学術的、商業的目的のために無償でライセンスされている。Hesaiの画像のような解像度を持つ前方向きPandarGT LIDARと、Pandar64として知られる機械的回転LIDARで収集したデータが含まれる。同社によれば、データは当局が外出禁止令を出す前にサンフランシスコとシリコンバレーの市街地を運転して収集した。

「AIと機械学習は信じられない技術であり、インパクトを与える可能性が非常に高いが、うっとうしい存在でもある」と、ScaleのCEO兼共同創業者のAlexandr Wang(アレクサンダー・ワン)氏は最近のTechCrunchとのインタビューで語った。「機械学習は間違いなく『ゴミを入れればゴミが出てくる』タイプのフレームワークだ。このアルゴリズムを強化するために本当に必要なのは高品質のデータだ。それがScaleを創業した理由であり、オープンソースの視点で業界を前進させるために今日このデータセットを使用している理由でもある」

このLIDARデータセットの狙いは、内容が豊富で密度の濃いデータセットへの無料アクセスだ。2種類のLIDARを車、バイク、信号機、歩行者であふれる複雑な都市環境で使用することでそうしたデータセットを構築できたとワン氏は述べた。

「ZooxとCruisesは、密集した都市環境でシステムがしっかりテストされているとうたっている」とワン氏は説明した。「当社はそれをコミュニティ全体に公開したかった」

画像クレジット:Scale AI

同社によれば、データセットには4万8000を超えるカメラ画像と1万6000のLIDARデータが含まれ、1つあたり8秒間で100シーンを超える。また、各シーンには28のアノテーションクラスがあり、ほとんどのシーンには37のセマンティックセグメンテーションラベルがある。たとえば、自転車や車の周りに小さな箱を配置する従来の直方体ラベルでは、LIDARデータのすべてを適切に識別することができない。Scaleは点群セグメンテーションツールを使用し、雨のような複雑なオブジェクトに正確にアノテーションする。

自動運転データをオープンソースすること自体は全く目新しいというわけではない。Aptiv(アプティブ)とScaleは昨年、自律型車両センサースイートからの大規模データセットであるnuScenesをリリースした。Argo AI、Cruise、Waymoは、研究者にもデータをリリースした数ある自動運転車開発企業の一部だ。Argo AIは精巧なデータと高解像度マップをリリースした。CruiseはWebvizと呼ばれるデータ視覚化ツールを開発した。これは、ロボットのすべてのセンサーから生データを収集し、バイナリコードを視覚化する。

Scaleの取り組みは少し異なる。たとえばワン氏は、同社のデータセットを使用するライセンスには制限がないと述べた。

「現在、高品質のラベル付きデータに対する継続的なニーズがある」とワン氏は語った。「そうしたデータへのアクセスは自動運転システムを構築する際の最大のハードルの1つだ。特に多くの自動運転開発会社がデータを収集できないときに、データへのアクセスを民主化したいと考えている」

とはいえ、Scaleが突然すべてのデータを無償で提供するわけではない。結局のところ営利企業だ。しかし今年後半には収集したデータをオープンソース化することをすでに検討している。

画像クレジット:Scale

関連記事:Uberの自動運転車ユニットがワシントンDCのマッピングを開始

Category:モビリティ

Tag:自動運転 Scale AI

[原文へ]

(翻訳:Mizoguchi

投稿者:

TechCrunch Japan

TechCrunchは2005年にシリコンバレーでスタートし、スタートアップ企業の紹介やインターネットの新しいプロダクトのレビュー、そして業界の重要なニュースを扱うテクノロジーメディアとして成長してきました。現在、米国を始め、欧州、アジア地域のテクノロジー業界の話題をカバーしています。そして、米国では2010年9月に世界的なオンラインメディア企業のAOLの傘下となりその運営が続けられています。 日本では2006年6月から翻訳版となるTechCrunch Japanが産声を上げてスタートしています。その後、日本でのオリジナル記事の投稿やイベントなどを開催しています。なお、TechCrunch Japanも2011年4月1日より米国と同様に米AOLの日本法人AOLオンライン・ジャパンにより運営されています。