AI開発のデータ不足を物理学を利用して作成した合成データで解決するRendered.ai

必要なデータを得ることができないため、ソフトウェアを提供するプロダクトやサービス、その企業が麻痺してしまうことがある。この問題を解決するために、創業2年のデータスタートアップRendered.aiは、人工衛星や医療、ロボティクス、自動車などの業界向けに合成データを作っている。

大きな意味では、合成データとは現実世界から集められるデータではなく人工的に作られるデータのことだ。Rendered.aiのCEOであるNathan Kundtz(ネイサン・クンツ)氏は最近のインタビューでこ「私たちが合成データという言葉を使うとき、実際に意味しているのは、工学的にシミュレートされたデータセットです。特に物理ベースのシミュレーションに重点を置いています」と語っている。

デューク大学で物理学の博士号を取得したクンツ氏は、衛星アンテナ開発会社であるKymeta Corporationを率いて宇宙産業に従事していた。Kymetaを退社した後、クンツ氏は他の小さな宇宙関連企業と仕事をするようになったが、彼は「ニワトリが先か、卵が先か」の問題に気づいた。

例えば、ある企業が衛星用の新しいセンサーを開発し、商品化のための資金を探しているとする。この企業は、そのセンサーが有用な知見を生み出すことができることを投資家に示す必要があるが、その洞察を得るためには、衛星を打ち上げて大量のデータを収集する必要がある。

「このデータへのアクセスがないことが、人工知能の妨げになっていました」とクンツ氏はいう。

投資家の関心

その「アクセス」を作り出すRendered.aiのアプローチは、投資家たちの関心を集めた。同社はSpace CapitalがリードしTectonic VenturesとCongruent Ventures、Union Labs、そしてUncorrelated Venturesが参加する600万ドル(約6億7000万円)のシードラウンドを調達した。

Rendered.aiは、物理ベースのアプローチの採用で、純粋に生成的な手法で合成データを作成する競合他社とは一線を画してる。競合他社は、純粋に生成的な手法で合成データを作成する。一般的には、敵対的生成ネットワーク(Generative Adversarial Network、GAN)と呼ばれるAI技術を用いて合成データのシミュレーションを行い、改良を加えていく。クンツ氏によると、新興産業ではデータがほとんどない、GANの有用性は限られているという。

企業がデータを取得する際には、コストがかかり、困難で、時間のかかる作業になるなどさまざまな要因がある。これらの問題は、合成開口レーダーで生成された画像のように、RGBでない画像の場合はさらに厄介になる。

では、物理学はこの新たな情報の生成という問題をどのように解決するのだろうか。クンツ氏は、「物理学の知識、例えば光が物体とどのように相互作用するかを支配する方程式を通して、これらのアルゴリズムを作成するプロセスに新しい情報を導入することができます。例えば、光が物体とどのように相互作用するかを支配する方程式などです」と述べている。

開発者のツールキット

Rendered.aiが開発したプラットフォームには、ノーコードの設定ツールや、顧客がデータセット上のパラメータをエンジニアリングして微調整するためのAPI、データセットのイントロスペクションやデータ分析のためのツールセットなどが含まれている。また、衛星画像など、顧客が興味を持つ特定のアプリケーションのためのスターターコードも提供している。同社はこれを「Platform as a Service」と呼ぶ。

Rendered.aiの顧客がシステムを使用するためには一定の専門知識が必要だが、その量は日に日に減少しており、資金の一部はプラットフォームを使用するために必要なスキルセットを継続的に低下させるために使用されるとクンツ氏はいう。

「私たちが目指しているのは、ブラウザーのボタンをクリックできる人なら誰でも合成データを生成でき、単なる合成データではなく、必要なタイプの合成データを実際にコントロールして、それを他の機械学習のワークフローに導入できることです」とクンツ氏はいう。

しかし、Rendered.aiは全知全能ではないため、合成データセットをもっと有効にし、アルゴリズムの機能性を良くするために必要なパラメータは事前にはわからない。そこで同社は試行錯誤の繰り返しと対話を重視して、顧客がアルゴリズムのギャップを見つけ、その盲点を理解できるようにしている。

クンツ氏によると、彼の考えでは合成データが現実データを完全に置換することはありえないが、現在の人工知能アプリケーションのますます深刻なギャップを填めることはできる。Googleのような企業は数兆の画像と山のようなデータセットに私企業としてアクセスできるが、Rendered.aiの顧客のデータ能力が、その状態にわずかに接近できるだけでも貴重だ。

Rendered.aiにはすでにひと握りの顧客がいるが、現状まだまだベータであるため、資金はプラットフォームへのアクセスを広げ、また特定業種の特定タイプのデータを作るために投じたいという。

画像クレジット:Rendered.ai

原文へ

(文:Aria Alamalhodaei、翻訳:Hiroshi Iwatani)