コンピュータビジョンチームに合成データを提供するDatagenが約61.7億円のシリーズB資金調達を実施

イスラエルで設立されたDatagen(データジェン)は、コンピュータビジョン(CV)チームのために合成データソリューションを提供するスタートアップ企業だ。同社はその事業の成長を促進するため、5000万ドル(約61億7000万円)のシリーズBラウンドを実施し、これまでの資金調達総額が7000万ドル(約86億4000万円)を超えたと発表した。今回のラウンドは新たに投資家となったScale Venture Partners(スケール・ベンチャー・パートナーズ)が主導し、パートナーのAndy Vitus(アンディ・ヴィータス)氏がDatagenの取締役に就任した。

テルアビブとニューヨークにオフィスを構えるDatagenは「実世界の環境をシミュレートすることによってわずかなコストで機械学習モデルを迅速に訓練し、AIの進歩を推進する完全なCVスタックを構築している」と、ヴィータス氏は述べている。このパロアルトに拠点を置くVCは「これはCVアプリケーションの開発とテストの方法を根本的に変えるだろう」と予測する。

11カ月前にDatagenが1850万ドル(約22億8000万円)を調達したシリーズAラウンドを支援した投資家たちも、この新たなラウンドに参加した。その中にはVCのTLV Partners(TLVパートナーズ)とSpider Capital(スパイダー・キャピタル)が含まれる。シリーズAを主導したViola Ventures(ヴィオラ・ベンチャーズ)も、今回はその成長部門であるViola Growth(ヴィオラ・グロース)を通じて参加した。さらに、コンピューター科学者のMichael J. Black(マイケル・J・ブラック)氏や、Trevor Darrell(トレバー・ダレル)氏、NVIDIA(エヌビディア)のAI担当ディレクターであるGal Chechik(ガル・チェチック)氏、Kaggle(カグル)のAnthony Goldbloom(アンソニー・ゴールドブルーム)CEOなど、AIやデータ分野の高名な人物も倍賭けを決めている。

投資家の名簿はもっと長くなる可能性があると、DatagenのOfir Zuk(オフィール・ズク)CEOはTechCrunchに語った。このラウンドは数週間前に終了したが、同スタートアップは、確認が取れていない数名の名前とともに「クローズを延期した少しの余地」を残しているという。

シリーズA以降のDatagenの主なマイルストーンの1つは、ターゲットユーザーが初期のフィードバックで要求したセルフサービス・プラットフォームの構築だったと、ズク氏は語る。これによってDatagenは、顧客がCVアプリケーションのトレーニングに必要なビジュアルデータを生成するための、より拡張性の高い方法を提供することができるようになった。

Datagenのソリューションは、フォーチュン100社や「ビッグテック」企業を含む、さまざまな組織内のCVチームや機械学習エンジニアに使用されている。その用途は多岐にわたるが、中でも特に加速している分野が4つあるとズク氏はいう。AR/VR/メタバース、車内および自動車全般、スマート会議、ホームセキュリティだ。

車内への応用は、Datagenが行っていることをより良く理解するための好例といえるだろう。これはつまり、乗員がシートベルトを着用しているかどうかなど、車内の状況を意味する。乗員やクルマの形状はさまざまであるため、そこでAIが活躍するわけだ。最初に現実世界から作成した3Dモーションキャプチャをベースに、Datagenの顧客は、例えばエアバッグの展開する位置を正確に決めるためなどに必要な膨大なデータを生成することができる。

Datagenは、ビジュアルデータに特化しているものの、特定の分野に縛られているわけではない。もし、小売業やロボット工学のユースケースが軌道に乗れば、倉庫のモーションキャプチャなど、特定の現実世界のデータを収集するだけでよい。その上のアルゴリズムや技術は、分野にとらわれないとズク氏はいう。

20年以上の歴史を持つ企業向けVCのScale Venture Partnersは、すでに自動車運転シミュレーション・プラットフォームのCognata(コグナタ)に投資しており、シミュレーションデータの分野に関しては強気だ。ズク氏も同様で「合成データは現実のデータを凌駕しつつある」という言葉でまとめた。

画像クレジット:Andriy Onufriyenko / Getty Images

原文へ

(文:Anna Heim、翻訳:Hirokazu Kusakabe)

温室栽培の作物を見守るロボットを開発したIUNU(ユーノウ)が約28.4億円を調達

正直なところ、IUNU(「ユーノウ」と発音)という社名はわかりやすいとは言えない(さらに同社の「LUNA(ルナ)」と呼ばれるロボットの存在が問題を余計に混乱させている)。しかし、このアグリテック企業は堅実な事業に取り組んでおり、シリーズBラウンドで見事な信任を得たばかりだ。米国時間3月16日のニュースでは、シアトルに拠点を置く同社が、2400万ドル(約28億4000万円)の資金を獲得したことが明らかになった。このラウンドは、Lewis & Clark Ventures(ルイス&クラーク・ベンチャーズ)が主導し、S2G Ventures(S2Gベンチャーズ)、Ceres Partners(セレス・パートナーズ)、Astanor Ventures(アスタナー・ベンチャーズ)などが参加した。

IUNUがターゲットにしているのは温室の世界だ。同社のLUNAロボットシステムは、温室の屋根の上を移動し、コンピュータビジョンを使って作物をチェックする。このシステムが問題のある場所や収穫可能な場所を検出できるので、農家は農作物の上を歩いたりしゃがんだりする必要がない。これは農場の規模が大きくなると問題になり始めることだ。

これまで我々が見てきたこの種のシステムは、より大規模な自律型ロボットの一部として、より一般的な農場に展開されるケースが多かった。しかし、確かに温室はこのような技術にとって理に適っている。屋根の上に設置したレールの上を効果的に行き来することができるからだ。

IUNUによると、同社は現在、米国の温室栽培の葉物野菜生産者の4分の1と取引しているという。従業員は現在60名で、この半年間で1.5倍に増加した。今回調達した資金は、グローバルな事業の拡大や、新製品の研究開発を強化するために使われる予定だ。

「今回の投資ラウンドは、機関投資家の当社に対する信頼を反映したものです」と、Adam Greenberg(アダム・グリーンバーグ)CEOはリリースで述べている。「この1年で農作物栽培の自動化に関する話は加速しており、我々はその先頭を走っていることを誇りに思っています」。

この手の技術では常にデータが大きな役割を果たすが、IUNUは現在、既存の展開に基づく「業界最大の生産データセット」を持っていると主張する。このような大きな資産は、作物にとって大きな問題となる前に潜在的な問題を特定するアルゴリズムを作成するために重要だ。

2021年9月、同社は2015年のStartup Battlefield(スタートアップ・バトルフィールド)で優勝したAgrilyst(アグリリスト)、後に社名を変えてArtemis(アルテミス)となったアグリテックのスタートアップ企業を買収し、データ収集能力を強化した。

画像クレジット:IUNU

原文へ

(文:Brian Heater、翻訳:Hirokazu Kusakabe)

ポケモンGOのNianticがWebAR開発プラットフォーム「8th Wall」を買収

ポケモンGOを運営する拡張現実(AR)プラットフォームのNiantic(ナイアンティック)は、WebAR開発プラットフォームの8th Wall(エイス・ウォール)を買収したことを、米国時間3月10日に発表した。Nianticにとって過去最大の買収だという。この買収は同社の開発プラットフォームを強化し、デベロッパーがARのビジョンを作るのに役立つとのことだ。

2016年に設立された8th Wallは、iOS、Androidのスマートフォン50億台、パソコン、AR / VRヘッドセットなど現在世界で数十億台のデバイスに対応しているとNianticは話した。8th Wallのプラットフォームは、Netflix(ネットフリックス)、Microsoft(マイクロソフト)、Universal Pictures(ユニバーサル・ピクチャーズ)をはじめとする数多くの企業でAR開発に使用にされている。

「Nianticは設立当初から、現実の世界で人々が繋がり、探索して新しいものと出会い、いっしょに楽しむ機会をもたらす AR 技術の提供を目指してきました」とNianticは買収を発表したブログで語った。「これを実現するため、世界で最も精密な地球の3Dマップを作成し、現実とデジタルの世界を融合しています。2021年11月にご案内した Lightshipプラットフォームとともに、すべての開発者の方々に向け、没入感のある世界最大のキャンバスを提供することで開発者の方々の創作活動をサポートしています。Niantic にとってはこれまでで最大の合併となる 8th Wall は Niantic の Lightship のビジョンを補完し、その実績のある Web AR 技術によって Lightship プラットフォームを拡充していきます」。

8th WallのファウンダーでCEOのErik Murphy-Chutorian(エリック・マーフィー=チュートリアン)氏は買収に関する自社ブログで、Nianticといっしょになることで、8th Wallはさらにツールを開発し、人々が新しい場所を発見するための魅力あるAR体験を作れるようになると語った。

「私たちが8th Wallを設立したのは、どこででもシームレスに動くことのできるARアプリケーションをデベロッパーが作るための、強力なコンピュータービジョン技術を開発するためでした」とマーフィー=チュートリアン氏は語る。「私たちはWebARを作るための完全なツール群でこれを実現しました。ウェブベースの拡張現実の可能性は非常に大きいので、これからもNianticの現実AR世界のレンズを通じて拡充を続けていきます。Nianticとともに最高の惑星規模テクノロジーを作り、今以上に魅惑的な共有体験を育てていくことを楽しみにしています」。

この買収の数カ月前、Nianticは3億ドル(約344億円)の資金調達をCoatue(コートゥー)のリードで実施し、会社価値は90億ドル(約1兆328億円)に達した。同社はこの資金を元に「現実世界のメタバース」と呼ぶものを作る計画だ。

ポケモンGOは、間違いなくNianticで最大人気のプロジェクトであり、今も成功を続け、アプリ調査会社のSensor Tower(センサータワー)によると、2020年の売上は10億ドル(約1160億円)を超えている。ただしNianticのゲームがすべて成功しているわけではない。同社は最近、「Harry Potter:Wizards Unite(ハリー・ポッター:魔法同盟)」のサービス終了を発表した。同アプリの全世界でのアプリ内購入と新規新規インストールはいずれも前年比57%減だった。

画像クレジット:Niantic

原文へ

(文:Aisha Malik、翻訳:Nob Takahashi / facebook

コンピュータービジョンでレストランのオーダーエラーを解消するAgot AI

Agot AIの共同創業者エヴァン・デサントラ氏とアレックス・リッツエンバーガー氏(画像クレジット:Agot AI)

人工知能はいろいろな業界に浸透してきたが、レストランはその中でも後発となり、その主な導入動機はパンデミックとオンラインオーダーの導入となる。

レストランのAI導入は今後も増えるだろう。2021年には米国人の60%が週に1度以上テイクアウトまたはデリバリーを注文し、31%がデリバリーサービスを利用したMarket Study Reportの予想によると、世界のレストラン管理ソフトウェアの市場は年率25%で伸び、2025年には69億5000万ドル(約8034億円)に達する

しかしながら私たちはみな、フードデリバリーが持ってきたものが注文と違うという経験をしている。そこでAgot AIは、機械学習を利用するコンピュータービジョンの技術を開発し、最初はファストフード業界を対象にして、そのようなエラーが起きないようにした。

同社は3年前にEvan DeSantola(エヴァン・デサントラ)氏とAlex Litzenberger(アレックス・リッツエンバーガー)氏が創業し、レストランテクノロジーのオペレーションの側面や、従業員の成功報酬、レストランの顧客満足度の向上などの問題解決を目指した。

画像クレジット:Agot AI

同社のプロダクトは、オンラインからのオーダーに対する正しさをリアルタイムで確認し、修正が必要なら従業員に告げる。たとえば彼らは、チーズとケチャップを加えるのを忘れていたかもしれない。

同社はその技術を発表して以来、Yum! Brandsなどの大手サービスの協力のもとに、展開を進めてきた。Yumの場合、Agotは同社とのパートナーシップにより、その20のレストランでパイロット事業を行った。パイロットの結果が良ければ、Yumの100のレストランで実装する、とAgotのCEOデサントラ氏はいう。

Yum! BrandsのチーフストラテジーオフィサーであるGavin Felder(ギャビン・フェルダー)氏は声明で次のように述べている。「同社は常に、テクノロジーを利用する革新的な方法でチームのメンバーの能力を高め、私たちのレストランにおいて彼らと顧客の両方の体験を向上させようとしてきた」。そしてパイロット事業の初期的な結果は「私たちが料理を届けているすべてのチャンネルで、顧客にオーダーに忠実で正確なメニューを届けることができるという将来的に有望な可能性を示唆している」。

Yum! Brandsは、Agotの顧客であるだけでなく投資家でもある。以前の1200万ドル(約13億9000万円)のラウンドでは、Continental Grain Co.の戦略的投資部門であるConti VenturesやKitchen Fund、そしてGrit Venturesらとともに投資に参加した。これでAgotの総調達額は1600万ドル(約18億5000万円)に達した。

Agotは新たな資金を、技術チームの拡大と、その他のファストフードブランドとのパイロット事業、およびプロダクトの機能拡張に充てたいとしている。また、機能拡張により、デリバリーだけでなく、ドライブスルーや店内での顧客体験も改善していきたい。

同社は、小規模な概念実証レベルの展開で、オペレーションの能力を示してきたため、今後はより大きな市場とオーディエンスにその技術をスケールしたいという。

Agotは成長率などを明かさないが、同社のチーフビジネスオフィサーのMike Regan(マイク・リーガン)氏によると、彼がデサントラ氏と出会ったとき、彼自身は投資家だったが、オーダーの正確さチェックが今後大きなビジネスになることをすぐに理解し、またAgotがそれに対して総合的な視野で臨んでいることを知った。「それはまさにデジタルトランスフォーメーションそのものだった」とリーガン氏は言っている。

Toastのようなレストラン管理のパイオニアや、その他のスタートアップも、2年前ほど前からこのニーズに対応するようになり、それぞれ独自のアプローチを採っているだけでなく、ベンチャー資本も獲得している。

たとえば最近の数カ月ではLunchboxDeliverectOrdaZakSunday、そしてMargin Edgeなどが新たなラウンドを発表し、レストランを新しいオーダー方式に適応させていくことに向けて大金が流れ始めたことを示唆している。

リーガン氏によると、レストラン業界の現状は「厳しい」けれども、Agotは「社歴3年のスタートアップよりもずっと先を行っている」やめ、事業の成功という点でも、また今後の2年間で大多数のファストフード企業を顧客にしていける能力でも傑出しているという。

そしてデサントラ氏は「新たな資本がAgotを次のレベルのビジネスに押し上げる」と感じている。

「初期のパイロットでは成功を証明したし、現在および将来のパートナーを相手にスケールしていけることにもエキサイトしています。新たな資金はプロダクトの機能拡張と、顧客とそのオペレーションの分析、そしてドライブスルー向けの技術開発に充てたい」とデサントラ氏はいう。

原文へ

(文:Christine Hall、翻訳:Hiroshi Iwatani)

AIが自動で動画内の顔やナンバープレートにぼかし加工し匿名化、プライバシーを保護するビデオツールのPimlocが約8.7億円調達

英国のコンピュータービジョン関連のスタートアップであるPimloc(ピムロク)は、動画の匿名化を迅速に行うAIサービスを販売するために、顔やナンバープレートのぼかしを自動化したり、その他の一連のビジュアル検索サービスを提供したりするなど、事業内容を強化してきた。同社は今回、新たに750万ドル(約8億7000万円)のシード資金を調達したと発表。このラウンドはZetta Venture Partners(ゼッタ・ベンチャー・パートナーズ)が主導し、既存投資家のAmadeus Capital Partners(アマデウス・キャピタル・パートナーズ)とSpeedinvest(スピードインベスト)が参加した。

このスタートアップ企業は、2020年10月にも180万ドル(約2億1000万円)のシード資金を調達しているが、今回の資金は欧州と米国での事業拡大と、データ法制の広がりや生体認証のプライバシーリスクに関する世論の高まりへの対応に使用されるという。後者に関しては、一例として顔認識技術のClearview AI(クリアビューAI)に対するプライバシー面からの反発などを挙げている。

Pimlocは営業、マーケティング、研究開発チームを強化するとともに、動画のプライバシーとコンプライアンスに焦点を当てた製品ロードマップの拡大のために、この資金を投じると述べている。

同社が狙うビジネスニーズは、小売業、倉庫業、工場などの業界で、安全性や効率性を高めるためにビジュアルAIの利用が拡大していることに焦点を当てている。

しかし、AIを活用した職場の監視ツールの増加は、労働者のプライバシーリスクを生み、リモートでの生体認証を導入する企業にとっては、これが法的リスクや風評被害の原因となる可能性がある。

そこでPimlocは、AIがプライバシーのために機能する第三の方法を提案している。それは「生産効率を高めるために使われるビジュアルデータを匿名化し、労働者のプライバシーを優先するために役立てる」というものだ。これについて、企業と協議しているという。

Pimlocによると、同社の「Secure Redact(セキュア・リダクト)」は、SaaSとしてまたはAPIやコンテナを介して販売されており、現地のビデオワークフローやシステムに統合することができる。この製品は、データプライバシー規制(欧州の一般データ保護規則やカリフォルニア州の消費者プライバシー法など)に準拠したビデオ証拠を提供しなければならない団体で、すでに使用されているという。

Pimlocは、顧客数を明らかにしなかったものの、CEOのSimon Randall(サイモン・ランドール)氏はTechCrunchに次のように語った。「欧州と米国を中心に輸送、製造、教育、健康、自動走行車、施設管理、法執行機関など、さまざまな分野で多くのユーザーにご利用いただいています。興味深いのは、そのすべてが同じニーズを持っているということです。つまり、CCTVでも、ダッシュボードでも、装着式カメラの映像でも、いずれもデータプライバシーやコンプライアンスのために映像の匿名化を必要としているのです」。

画像クレジット:Pimloc

原文へ

(文:Natasha Lomas、翻訳:Hirokazu Kusakabe)

中国のスマート製造業に注力するAInovationが香港でIPOを申請、李開復氏やソフトバンクも支援

中国では、人工知能に金銭を支払う顧客を見つけようとする情熱が続いている。中国のコンピュータビジョンと機械学習のスタートアップ企業で、Kai-Fu Lee(カイフ・リー、李開復)氏のSinovation Ventures(シノベーション・ベンチャーズ)とSoftBank(ソフトバンク)が出資するAInnovation(エーアイノベーション、創新奇智)は、中国の巨大な製造業を自動化しようとしている。設立からまだ4年しか経っていないこのスタートアップは、香港で株式公開の申請を行っており、その目論見書では、今後数年のうちに中国の産業お青写真で重要な位置を占めるスマートマニュファクチャリングの商業的実行可能性を垣間見ることができる。

2010年代、SenseTime(センスタイム)やMegvii(メグビー)などのコンピュータビジョン企業は、中国の公的なセキュリティのインフラに顔認証技術を提供することで、大成功を収めた。しかし、競争によって価格が下がり、監視技術をめぐる米国の制裁による圧力が強まるにつれ、中国の初期のAIスタートアップ企業は多角化を模索している。SenseTimeは教育分野に進出し、Sinovation Venturesの支援を受けるMegviiは無人倉庫保管ソリューションを事業に加えた。

関連記事:米小売大手が中国企業の防犯カメラを店舗から撤去、人権侵害を指摘される

AInnovationは、AIアプリケーションの分野では若い企業に入る。目論見書によると、IBM、SAP、Microsoft(マイクロソフト)での経験を持つCEOのXu Hui(シュー・フイ)氏が共同で設立したこのスタートアップは、2021年9月までの9カ月間に、収益の半分を製造業の顧客から得ているとのこと。同社のコンピュータビジョンモジュールとカスタマイズされたサービスは、溶融した鉄の輸送(写真)、自動車の生産ラインにおける異常の検出、半導体製造での欠陥発見などの場面で使用されている。

収益の3分の1は金融サービスによるもので、残りは小売業、通信業、その他の産業から得ている。

AInnovationのような企業は、研究室で機械学習モデルを実行する博士号取得者を雇うだけでは不十分だ。文字通り自ら身体を動かし、実際に顧客の工場を訪問して、鉄鋼メーカーや衣料品メーカーにとってどのような自動化が最も良い利益を生むのかを学ぶ必要がある。そこで同社は、主要なパートナーである大手製鉄グループのCISDIおよび国有建設会社のChina Railway No.4(中鉄四局集団有限公司)と、それぞれ2つの合弁会社を設立した。

AInnovationのコンピュータビジョン技術を用いてネジの欠陥を検出する(画像クレジット:AInnovation)

AInnovationはまだ、スマートシティの先行企業ほどの収益を上げていない。2020年の売上は4億6200万元(約83億2000万円)だったが、SenseTimeは同年に34億元(約612億円)を得た。しかし、AInnovationは急速に成長している。2021年9月までの9カ月間で、その収益は5億5300万元(約99億6000万円)に達し、2020年の合計額を上回った。

とはいえ、課題もある。1つは、同社がいくつかの重要な顧客に大きく依存していることだ。2019年と2020年に同社が5つの大口顧客から得た収益は、それぞれ約26%と31%を占めている。

中国の初期のAI参入企業が顔認識に集まったのには理由がある。そのほとんどがソフトウェア事業であるため、儲かるからだ。例えばSenseTimeの利益率は、2018年の約57%から2020年には70%以上に上昇した。

AInnovationも、かつてはソフトウェアファーストの企業だった。目論見書によると、同社の売上総利益率は、2018年には63%だったが、2019年には31%、2020年にはさらに29%まで急落している。これは、同社がソフトウェアの販売を中心としていたビジネスから、より多くのハードウェア部品を含む統合ソリューションに軸足を移したことが原因だ。ハードウェアは一般的に材料費がかさむ。また、収益性が低下したのは、顧客基盤を拡大するために「競争力のある価格で提供」したためだという。AIビジネスでは、データがその燃料となる。

どちらもまだ不採算事業である。AInnovationは、2019年に約1億6000万元(28億8000万円)、2020年に約1億4400万元(25億9000万円)の調整後純損失を計上している。これに対してSenseTimeは、同時期に10億元(約180億円)、8億7800万元(約158億円)の調整後純損失を計上している。

中国の製造業の各分野は、簡単に数十億規模の市場機会となる。問題は、AInnovationが持続的な成長と健全なビジネスモデルへの道を見つけることができるかどうかだ。

Bloomberg(ブルームバーグ)による事前の報道によると、AInnovationの株価は仮条件レンジ下限の1株あたり26.30香港ドル(約385円)で設定されているという。この価格であれば、同社は香港でのIPOによって約1億5100万ドル(約172億円)を調達することになる。

画像クレジット:AInnovation

原文へ

(文:Rita Liao、翻訳:Hirokazu Kusakabe)

スイッチサイエンスがコンピュータービジョン向けLuxonis製「OAK-D-LITE OpenCV DepthAIカメラ」2種発売開始

スイッチサイエンスがコンピュータービジョン向けLuxonis製「OAK-D-LITE OpenCV DepthAIカメラ」2種発売開始

スイッチサイエンスは1月12日、同社ウェブショップにおいてLuxonis製コンピュータービジョン用ハードウェア「OAK-D-LITE OpenCV DepthAIカメラ」の発売を開始した。自動焦点版「OAK-D-LITE OpenCV DepthAIカメラ(自動焦点版)」と「OAK-D-LITE OpenCV DepthAIカメラ(固定焦点版)」の2種類がある。直販価格は、それぞれ1万8854円(税込)。

OAK-D-LITE OpenCV DepthAIカメラは、高度なニューラルネットワークを動作させながら、ステレオカメラ2基と4Kカメラ1基で深度情報と色情報を取得できるAIカメラだ。顔認識、オブジェクト検知、オブジェクトトラッキング、Python APIの使用が可能となっている。

自動焦点版は、30cm以内の撮影対象に動的に焦点を合わせることができる(オートフォーカス)。ドローンやロボットなど、振動が大きな用途には向いていない。固定焦点版は、振動が大きい用途に対応でき、レンズが動かないためRGB深度調整にも向いている。30cmの距離で焦点が合うようになっている。

自動焦点版、固定焦点版ともに、特徴は以下のとおり。

  • リアルタイムバックグラウンド演算により動きの予測が可能
  • 12メガピクセル、JPEGエンコーディング(静止画)
  • H.264/H.265エンコーディング(4Kビデオ3.125 MB/秒、Raspberry Pi Zeroでは4K/30 fpsで録画可能)
  • 歪み除去、魚眼レンズに対応
  • オブジェクト検知、画像認識、セマンティックセグメンテーション
  • 対象のトラッキングが可能
  • MJPGエンコーディング
  • 3Dでオブジェクトのトラッキング可能
  • ステレオカメラ

電源はUSB Type-C経由で給電される。消費電力はスタンバイ時で0.6W。depthai_demo.py実行時で4W。最大時で4.5W。ビデオエンコーダーやニューラルネットワークを実行しているときに2Wの電力スパイクが発生する可能性があるとのこと。

OAK-D-LITE OpenCV DepthAIカメラ(自動焦点版)

  • 型番:LUXONIS-OAK-D-LITE-AF
  • 価格:1万8854円(税込)

OAK-D-LITE OpenCV DepthAIカメラ(固定焦点版)

  • 型番:LUXONIS-OAK-D-LITE-FF
  • 価格:1万8854円(税込)

スイッチサイエンスがコンピュータービジョン向けLuxonis製「OAK-D-LITE OpenCV DepthAIカメラ」2種発売開始

実物大の3D製品イメージで消費者のショッピング体験を向上させるAvataarが52億円調達

eコマースの顧客の大多数は、購入前に商品を見ておきたいと思っている。かつてAmazon(アマゾン)のような企業が、ファッションや家庭用品のオンライン化に苦労してきたのはそのためだ。サンフランシスコとベンガルールを拠点とするスタートアップがこの問題を解決しようとしており、事業規模拡大のため、このほど新たに資金を調達した。

AIとコンピュータービジョンのスタートアップであるAvataar(アバター)は、現地時間1月7日にシリーズBで4500万ドル(約52億円)を調達したと発表した。このラウンドはTiger Globalがリードし、既存の投資家からSequoia Capital Indiaが参加した。6年の歴史を持つこのスタートアップは、創業者兼最高経営責任者から初期に調達した金額も含め、これまでの資金調達ラウンドで約5550万ドル(約64億円)を調達した。

Avataarは、消費者直販ブランドやeコマースマーケットプレイスが製品を3D表示し、コンシューマージャーニーを形成する支援を行う。企業はAvataarのプラグアンドプレイ技術を自社システムに組み込むことができる。顧客は携帯電話のカメラを使い、リビングルームにいながら、製品の実際の大きさと雰囲気を視覚化することができる。

Avataarの創業者で最高経営責任者のSravanth Aluru(スラバント・アルル)氏はTechCrunchのインタビューで、家具や大型家電などのカテゴリーで上位2社のeコマース・マーケットプレイスを含む数多くの企業と現在提携していると述べた。同氏は、守秘義務契約を理由に、顧客企業名の公表を断った(Samsungや Pepperfryなど、Avataarとの提携を公に認めている企業もある)。

アルル氏はデモで、提携するeコマースマーケットプレイスのアプリから、ソファや机などいくつかの製品を、自分のリビングルームにドラッグ&ドロップし、家の中でバーチャルアイテムの位置を変えずに色やアイテムを変更してみせた。アイテムをインタラクティブにすることもできる。例えば、冷蔵庫をバーチャルで再現すると、ユーザーはドアを開けたり閉めたりすることができる。

ブランドは、Avataarのサービスを利用するために何か大きな変更を加える必要はない。商品画像の解像度が1080p以上であれば、Avataarがバーチャル3D版を作り上げることができるとアルル氏は話す。消費者側でも、近年発売されたiPhoneやAndroidスマートフォンなら、バーチャルオブジェクトの表示やインタラクションをサポートする計算能力とグラフィックパワーを備えている可能性が高いという。

「カメラがホームスクリーンであることを考えると、エンゲージメントの時間を著しく長くとることができます。ブランドの売り上げへのコンバージョンは3.5倍以上になっています」と同氏は語る。同社は、エンゲージメント情報を提携ブランドに提供する。提携ブランドは、顧客によりよいサービスを提供するため、さらにパーソナライズする。

アルル氏は、この技術がもたらす利点を認識し、採用する企業がますます増えてきているという。この傾向は、今後ますます強まることが予想される。

ブランド名は明かさなかったが、いくつかのスマートフォン企業はAvataarの技術を利用してバーチャルローンチを行ったという。「当社は現在、ほとんどのプラットフォームに統合されています。もし、大容量のサービスで3Dを見ているなら、それは我々が提供したものである可能性が高いと思います」と述べた。

Avataarの創業チーム。左からMayank Tiwari(マヤンク・ティワリ)CBO、Sravanth Aluru(スラバント・アルル)CEO、Prashanth Aluru(プラシャント・アルル)取締役、Gaurav Baid(ガウラブ・バイド)CPO(画像クレジット:Avataar)

2025年までに、世界人口の75%近くと、ソーシャルアプリやコミュニケーションアプリを利用するほぼすべての人が、頻繁にARを利用するようになると、Snap(スナップ)はDeloitte(デロイト)と協力した最近のレポートで述べている。同レポートによると、ARを使って買い物をする顧客はすでに1億人を超えているという。

アルル氏は、メタバースが浸透していくなかで、同社は最前線に立つための準備をしており、この分野のいくつかの主要なプレイヤーと関係を持っていると述べた。

「メタバースはすでに存在しています。Avataar.meは、最大手のブランドに規模を創造する能力をもたらし、商売を実現する道を切り開いています。ARやVR環境において非常に有望なアプリケーションです」と、Sequoia IndiaのマネージングディレクターShailesh Lakhani(シャイレーシュ・ラカーニ)氏は声明で述べた。

「スラバント、ガウラブ、マヤンクと一緒に仕事をするのは楽しく、Sequoia Capital Indiaは、彼らのシリーズBラウンドに再びコミットすることをうれしく思います」。

業界の推計によると、デジタルおよびデジタルに影響される市場は、2025年までに18兆ドル(約2090兆円)に拡大し、2Dから3Dへのコマースシフトを推進する基盤としてのプラットフォームに対し、今後10年間で500億ドル(約5兆8000億円)を超える収益化の機会を提供すると予測されている。

「史上初めて、ライブカメラ映像により、消費者の物理的な現実を検知、理解、拡張、操作することができるようになりました。当社の特許取得済みのAI・CV機能はメタバース全体の進化に適用可能ですが、先行して消費者のショッピング体験の再定義に着手しました」とアルル氏は話す。

「このプラットフォームは、自宅のモバイルデバイスやARメガネ・ウェアラブルを通して、あるいは実店舗であっても、デジタル化されたカタログという無限の通路を見て回る消費者のショッピング体験を変革します」。

Tiger GlobalのパートナーであるEvan Feinberg(エバン・ファインバーグ)氏は声明で次のように述べた。「消費者はより良いeコマース体験を求め続けています。Avataarが生み出した革新的な技術は、この需要に応えるための強力なプラグアンドプレイ・ソリューションを顧客に提供しています。デジタル世界が2Dから3Dに移行する中、Avataarとその有能な経営陣は、この急成長市場において好位置につけています」。

画像クレジット:Avataar

原文へ

(文:Manish Singh、翻訳:Nariko Mizoguchi

Intel傘下のMobileyeが自動運転に特化したSoC「EyeQ Ultra」発表

Intel(インテル)の子会社Mobileye(モービルアイ)は、乗用車、トラック、SUVに自動運転の能力を与えるために設計された、新しいスーパーコンピュータを市場に投入する。

同社は米国時間1月4日、CES 2022で、自動運転に特化した「EyeQ Ultra」という新しいシステムオンチップ(SoC)を発表した。同社によると、毎秒176兆回の演算が可能なEyeQ Ultra SoCの最初のシリコン生産は2023年末、完全な自動車グレードの生産は2025年となる見通しだ。

また、Mobileyeは先進運転支援システム(ADAS)向けの次世代EyeQシステムオンチップ「EyeQ6L」「EyeQ6H」も発表した。EyeQ6Lは、いわゆるレベル2のADASに対応するもので、2023年半ばに生産を開始する。2024年まで生産が開始されないEyeQ6Hは、ADASまたは一部の自動運転機能に対応する。この高性能チップは、あらゆる高度運転支援機能やマルチカメラ処理(駐車カメラを含む)を提供することができ、駐車の可視化やドライバーモニタリングなどのサードパーティアプリケーションをホストする予定だ。

Mobileyeは、ADASを強化するコンピュータービジョン技術を自動車メーカーに供給していることで、よく知られている。2004年に発売された最初のEyeQチップは衝突防止のために自動車に使用された。Mobileyeのビジネスは好調で、2021年末時点でEyeQ SoCの出荷数は1億個に達した。

近年、同社は自動車メーカーに対し、高度運転支援システムに必要なチップを供給する一方で、自社の自動運転車技術を開発・テストするという、いわば二重の戦略を追求してきた。2018年には、単なるサプライヤーであることにとどまらず、ロボタクシー事業にも手を伸ばした。

その2本の道は今、1本に重なろうとしている。そして、消費者向け自動運転車を「この業界の終盤戦」と表現する同社のAmnon Shashua(アムノン・シャシュア)社長兼CEOの長年の戦略を実現しようとしている。

Mobileyeは、数年前から自動運転車の技術開発を進めてきた。カメラ、レーダー、LiDAR技術に基づく冗長なセンシングサブシステムを含む同社のフル自動運転スタックを、REMマッピングシステムおよびルールベースの「責任感知型安全論(RSS、Responsibility-Sensitive Safety)」による運転方針と組み合わせる。

MobileyeのREMマッピングシステムは、EyeQ4(第4世代システムオンチップ)を搭載した一般車や商用車のデータをクラウドソースし、ADASや自動運転システムをサポートす高解像度の地図を作成する。このデータは、ビデオや画像ではなく、1キロメートルあたり約10kbの圧縮されたテキストだ。この新しいEyeQ Ultraチップの開発に貢献した地図技術にクラウド経由でアクセスし、走行可能な道路前方の最新情報をリアルタイムで提供する。

Mobileyeは、BMW、日産、Volkswagen(フォルクスワーゲン)など6社のOEMと契約し、先進運転支援システムに使用されるEyeQ4チップを搭載した車両からデータを収集する。商用車については、商業オペレーターに販売するアフターマーケット製品からデータを収集する。同社によると、現在、100万台以上の車両がREMデータを収集しており、1日あたり最大2500万キロメートルにのぼる。

EyeQ Ultraは、前世代のSoCアーキテクチャを踏襲している。Mobileyeによると、EyeQ Ultraは、EyeQ510個分の処理能力を1つのパッケージに詰め込んでいる。同社のソフトウェアで設計されたEyeQ Ultraは、追加のCPUコア、ISP、GPUと対になっており、カメラのみのシステムとレーダーとLiDARを組み合わせた2つのセンシングサブシステムからの入力と、車両の中央演算システム、高解像度REMマップ、RSS運転方針ソフトウェアからの入力を処理できるという。

自動運転可能な自動車、トラック、SUVを消費者に販売することを目指す自動車メーカーは、理論的には、このまだ販売されていないチップを使ってその目標を実行することになる。EyeQ UltraにはレーダーやLiDARなどのセンサーは搭載されていない。その代わり、入ってくる情報をすべて処理する。EyeQ Ultraチップをどのように使うかは、顧客である自動車メーカー次第だ。例えば、ある自動車メーカーは高速道路でのみ自動運転可能な新車を提供するかもしれないし、別の自動車メーカーは都市部での自動運転に焦点を絞るかもしれない。

画像クレジット:Mobileye

原文へ

(文:Kirsten Korosec、翻訳:Nariko Mizoguchi

コンピュータービジョンを利用するStreetlogicの電動自転車用衝突警告システム

Streetlogic(ストリートロジック)は、電動アシスト付きスポーツ自転車のライダーがより安全に道路を走行できるようにしたいと考えている。同社は、210万ドル(約2億3800万円)のプレシード資金を調達するとともに、主力製品であるサラウンドビューカメラの発売を発表した。このサラウンドビューカメラは、前方、側方、後方からの衝突を予測してライダーに知らせ、事故を未然に防ぐというものだ。

米国、カナダ、欧州では、2021年11月23日より、Streetlogicの電動自転車用先進運転支援システム(ADAS)の先行予約を30ドル(約3400円)の頭金で開始した。Streetlogicの創業者でありCEOでもあるJonathan Denby(ジョナサン・デンビー)氏によると、最終的な小売価格は300ドル(約3万4000円)から400ドル(約4万5000円)程度になる予定で、同システムの最初の量産ロットは2022年末までに納品される予定だ。Streetlogicの拠点であるサンフランシスコの購入者は、2022年初頭から招待制の限定的なベータ展開プログラムを通じて、いち早く同システムを試すことができる。

マイクロモビリティのADASシステムを考案したのは、Streetlogicが最初というわけではない。2020年、イスラエルのスタートアップであるRide Vision(ライドビジョン)は、同様のAIベースのシステムを発表した。このシステムは、ライダーの周囲の交通状況をリアルタイムに分析し、前方衝突警告、ブラインドスポットモニタリング、後方からの近接車両の警告などを提供する。Streetlogicと同様に、ライドビジョンのシステムは、走行を記録するだけでなく、安全に関わる事故の記録を保存して後から見直すことができるドライブレコーダーとしても機能する。

関連記事:AIベースのオートバイ用安全システムのイスラエルRide Visionが約7.3億円を調達

最近では、Luna(ルナ)やDrover AI(ドローバーAI)などのコンピュータービジョン企業が、同様のテクノロジーをVoi(ヴォイ)やSpin(スピン)などのシェアマイクロモビリティ事業者が運用するeスクーター向けに開発している。このテクノロジーは似通っているが、ターゲットとする市場が異なる。

デンビー氏はTechCrunchに対し「違いは、当社がビジョンシステムをカスタマイズして、電動自転車のライダーにスマートな安全機能を提供しているのに対し、LunaやDrover AIはビジョンシステムを使って、eスクーターのライダーが街中をより快適に走行できるようにしていることだ」と説明する。また「それらの機能は、歩道の検知や駐輪システムのルールを守ってもらうためのものであり、eスクーターのライダーが適切にシェアシステムを利用していることを示すために必要なものだ。一方、当社のADASシステムの機能は、ライダー自身の安全を重視している。例えば、交通量の多い道路を走っているときに、自分と衝突する恐れのある車を検知した場合には、早期の警告によりライダーは安全を確保できる」と述べる。

もう1つの大きな違いは、ライダーが歩道を走るなど不適切な走行をしていると、LunaやDrover AIのシステムはスクーターのOSに接続し、減速して停止させることができることだ。Streetlogicの製品は、厳密には衝突警告システムだが、特に都市部では非常に有用なツールとなる。

「安全の面では、常に周りを見ているわけではありません。無理ですよね。また、通勤途中は、自分のめい想時間のようなもので、よく考え事をしてしまいます。少なくとも私の場合、安全については考えていません。仕事に行くことや、その日にすべきことに思いを巡らしています」と、Streetlogicの初期のベータテスターの1人で、毎日電動自転車で通勤しているTaylor(テイラー)氏は、同社のウェブサイトに掲載されている体験動画の中で述べている。

米国における回避可能だった自転車の死亡者数は、2010年の793人から2019年には1089人と6%増加しており、そのうち843人は自動車との事故で亡くなっている。電動自転車の販売が伸びても、自転車に関わる死亡事故の78%が発生する都市部では、自動車は依然としてマイクロモビリティの導入を妨げる脅威だ。自動車から電動自転車への乗り換えを検討している消費者は、ADASシステムのような安全機能が備わっているかどうかを確認するとよいだろう。

デンビー氏はTechCrunchに対し「道路や都市部に自動車よりも多くの電動自転車が走っているようなすばらしい世界、ユートピアのようなビジョンを持っている」と述べる。そして「ある程度の自動車は必要だが、大部分は自転車に置き換えることができるはずだ。電動自転車を日常生活における主要な移動手段として、より頼りになるツールにすることが、ユートピアを実現するための鍵になると考えている」と続ける。

Streetlogicのシステムは、自転車の前部と後部の両方に実装されており、すべてデバイス上で処理されるコンピュータービジョンに基づいている。ライダーを取り巻く車両の動きを追跡し、ライダーが車両と衝突する可能性がある場合には早期に警告を発する。これらの処理や警告は、完全にローカルなデバイス上のシステムで行われるため、クラウドへ接続する必要はない。また、サービスが提供されていない地域にいても機能する。

ライダー目線で見たStreetlogicのコンピュータービジョン製品。自動車との衝突を警告している(画像クレジット:Streetlogic)

ライダーはまず、デバイスが発する音声による警告を聞くことになる。これは、例えばライダーの後ろにクルマが急接近してきた場合に「Car Back(後方にクルマ)」といった内容のものだ。ライダーのスマートフォンには、障害物となる可能性のある方向がひと目でわかるシンプルな視覚的警告が表示される。ただし、この機能は、ライダーがハンドルバーのホルダーにスマートフォンを装着している場合にのみ有効になる。

LunaやDrover AIは、すでに歩行者や車線などの物体を検知するシステムを持っているが、eスクーターのライダーに衝突の可能性を積極的に警告することはない。しかし、両社のテクノロジーを持ってすれば、不可能ということはないだろう。

ドローバーAIのCEOであるAlex Nesic(アレックス・ネシック)氏は、TechCrunchに対し、電動自転車の警告システムは、ハイエンド市場における「次のレベル」の機能としては意味があるものの「当社が現在注力しているシェアマイクロモビリティ用途に必要な低いコストに抑えることは難しい」と述べる。

Streetlogicにとってはまだ始めたばかりだが、デンビー氏によると、アルファテストではこのテクノロジーは「驚くほどうまく機能した」という。また、サイクリストにとって自動車との衝突やニアミスが最も多い問題であるため、今のところシステムは自動車のみを追跡しているとのことだ。

「しかし、コンピュータービジョンの良いところは、後から機能を追加できることだ」と同氏はいい「例えば、他の自転車や歩行者、道路にできた穴やひび割れ、道路に飛び出す動物などを追跡することができるようになるだろう。これらはすべて、そのうち組み入れることができる。自動車の追跡だけでも、大部分の事故を防ぐことができた」と述べる。

Streetlogicでは、これらの検知機能を組み入れるために、さらに多くのデータを収集して機械学習モデルを学習させる必要がある。今回の資金調達の主な目的はそのためだ。同社によると、プレシードラウンドには、LDV Capital(LVDキャピタル)、Track Venture Capital(トラック・ベンチャー・キャピタル)、およびLyft(リフト)の元自律走行担当副社長であるLuc Vincent(リュック・ビンセント)氏などのエンジェル投資家らが参加し、調達した資金はチームの規模拡大のために使用されるという。先週、2名のチームメンバーを新たに雇用し、現在はフルタイムの従業員6名で構成されているが、予約注文に対応することに加え、システムの成熟度向上に向けた生産性確保のために、従業員を拡充したいと考えている。

「ハードウェア面ではApple(アップル)とUber(ウーバー)から、ソフトウェア面ではCruise(クルーズ)から、精鋭が集まっている」と、デンビー氏は語る。

デンビー氏自身もUberの出身で、後にLime(ライム)に買収された同社のスクーター「Jump(ジャンプ)」のコンピュータービジョンシステムのアドバイザーを務めた他、360度アクションカメラ「Rylo(ライロ)」の開発チームを率いていた。

Streetlogicは、早期に軌道に乗せるためにB2C製品として立ち上げたが、将来的には自転車メーカーとの統合を進めていきたいと考えている。

画像クレジット:Streetlogic

原文へ

(文:Rebecca Bellan、翻訳:Dragonfly)

ソフトバンク出資のユニコーンPicsArtがR&D企業DeepCraftを買収、AI・動画編集機能の強化狙って

ソフトバンクが出資しているデジタルクリエイションプラットフォームで、2021年8月にユニコーン企業の仲間入りを果たしたPicsArt(ピクスアート)は、米国時間12月2日、R&D企業であるDeepCraftを買収することを発表した。今回の買収は、現金と株式の組み合わせで、7桁(数百万ドル、数億円)規模の金額とのことだが、正確な条件は公表されていない。

PicsArtは現在、コンシューマーとプロ両方に向けて、写真やビデオ編集をより楽しく、親しみやすいものにするためのさまざまなデジタル制作・編集ツールを提供している。PicsArtは、DeepCraftが持つAI技術分野の人材と、同社のコンピュータービジョンおよび機械学習(ML)における画期的な技術が、PicsArtのAI技術を強化し、近年のPicsArtのサービスにおける動画作成の成長をサポートするものと考えている。また、チームは、PicsArtのAI研究開発部門であるPAIR(PicsArt AI Research)にシニアレベルのリソースを追加して補完するのにも役立つとしている。

アルメニアに拠点を置くDeepCraftは動画・画像処理に特化した企業で、2017年に設立された。ちなみに、PicsArtは同国初のユニコーンだ。DeepCraftの共同創業者であるArmen Abroyan(アルメン・アブロヤン)CEOとVardges Hovhannisyan(ヴァルジス・ホフハニシャン)CTOは、AIと機械学習に20年以上を費やしており、その専門性は地元コミュニティでよく知られている。アブロヤン氏はこれまで、アルメニア共和国ハイテク産業省の副大臣、RedKiteのリードAIアーキテクト、Synopsys(シノプシス)のシニアソフトウェア開発者などを歴任してきた。一方、ホフハニシャン氏は、Synopsysで13年間、シニアR&Dエンジニアとして活躍した。

DeepCraftでは、Krisp、PatriotOne、さらにはアルメニア政府など、多くのクライアントと契約ベースで仕事をしていた。これらの仕事は終了し、チームはエレバンにあるPicsArtのオフィスで仕事を始めることになる。今回の買収により、DeepCraftの機械学習および映像分野のシニアエンジニア8名が、PicsArtに正社員として入社する。

PicsArtは、2018年にEFEKT(旧D’efekt)を買収して動画市場に参入し、近年、利用者が急増している。特に、動画を利用するソーシャルメディアのクリエイターやECショップに同社のアプリが採用されている。2021年、PicsArtのアプリで編集された動画は1億8千万本を超え、前年比で70%増となっている。現在、数千種類のエフェクトと数十種類の動画編集ツールを提供しており、AIやクラウド技術の進化に合わせてこのラインナップを増やしていく予定だという。

PicsArtは、DeepCraftのスキルセットと技術的な専門知識が、2022年に重要な焦点となるであろう動画のサポートを前進させるのにどう役立つかに特に関心を寄せている。

ただし、PicsArtは、今回の買収でDeepCraftから特定のIPを取得するわけではない、と同社はTechCrunchに語っている。

PicsArtは、DeepCraftとはさまざまな技術開発で協力関係にあったため、今回の買収に先立ち、すでに関係を築いていた。

PicsArtの共同設立者兼CTOであるArtavazd Mehrabyan(アルタバズド・メフラビヤン)氏はこう述べている。「DeepCraftはユニークで高度な技術を持つエンジニアのチームであり、当社はすでに1年以上彼らと協力して当社のコア技術を構築してきました。当社の動画機能を進化させるためにさらなる投資を行うにあたり、DeepCraftのチームが動画の未来を築く上で重要な役割を果たすことを確信しています」。

DeepCraftとの取引は、8月に同社がソフトバンク・ビジョン・ファンド2(SVF2)主導で1億3000万ドル(約146億9000万円)のシリーズCラウンドを調達して以来、PicsArtにとって初の買収となる。そのラウンドにより、同社は2019年に約6億ドル(約678億円)だった評価額からユニコーンの地位に引き上げられた。

画像クレジット:PicsArt

原文へ

(文:Sarah Perez、翻訳:Aya Nakazato)

ドラレコの映像からリアルタイムの都市のデジタルツインをつくるNexar

スマートドライブレコーダーで知られるNexarが、Qumra CapitalがリードするシリーズDのラウンドで5300万ドル(約60億4000万円)を調達した。その資金の一部は、クラウドソーシングで一般から提供されたドライブレコーダーの映像から作られ、自動車のOEM各社や都市に提供される、同社の「デジタルツイン」サービスの拡張に充てられる。

このラウンドにはState Farm VenturesやCatalyst、Banca Generali、Valorおよび以前からの投資家であるAtreides Management、Corner Ventures、Regah Ventures、Alephが参加している。

「Nexcarを始めたときから、物理的世界のGoogleになるというビジョンを持っていました。その後、多くのマシンやアルゴリズムが世界に関するデータを必要とするようになり、いずれビジョンどころか必要になると信じています」とNexarのCEOであるEran Shir(エラン・シール)氏は述べている。

Nexarのプロジェクトへの本格的な取り組みは、2019年に立ち上げた「Live Map」で始まった。サービスは、道路のリアルタイムの映像を提供し、コンピュータービジョンを使って工事や標識などの特徴をユーザーに教える。その後Nexarは、このサービスが提供する情報の層や特徴を増やしていった。2015年に創業された同社は、今では毎月1億5000万マイル(約2億4000万km)の道路映像を所有している。

今度の資金はデータの利用しやすさの向上と、ドライブレコーダーからの映像の更新サイクルを数秒に短縮して事故や道路陥没などをすばやく見つけることに使われる。たとえば、ネバダ州南部地方交通委員会はNexarのCityStreamプラットフォームを利用して、工事現場とその前後の交通量を減らしている。

また、シール氏によると、その特徴検出能力により、災害時の道路状況を早く把握可能、冬季には除雪済みの道路がわかるという。

都市行政だけでなく、この映像は自動車企業にも役に立つ。「あなたが自動車関連のOEMなら、Nexar CityStreamの『Autopilot or Supercruise(自動操縦または超高速走行)』を有効にして、障害物や事故や工事などがまったくない、長い道路区間を知ることができる。逆に工事があるときは、終了時にそれらの機能を再有効にできる」とシール氏。

Nexarのデータは、例外的な現象や衝突、異常な道路状況などを見つけられるため、自動運転車のシステムで使われるAIのモデルの訓練にも利用できる。

さらにシール氏は「3年から5年後の自動車がどうなってるか考えると、どれも自律性が極限まで達しているでしょう。そうなると、新しいタイプの地図が必要なはずです。私たちがこれから進んでいく未来には、Googleマップのような地図はもはや役に立たないでしょう」という。

画像クレジット:Nexar

[原文へ]

(文:Aria Alamalhodaei、翻訳:Hiroshi Iwatani)

フェイスクブックの研究者がAIの訓練のために何千時間もの一人称視点の動画を収集

テック企業の多くが目指しているように、ARメガネやその他のウェアラブルに搭載されたAIが人間の目を介して物事を見るようになるのであれば、未来のAIは人間の視点をきちんと理解できるようになる必要がある。自身の視点というのは当然、我々にとっては自然なものだが、意外なことに日常的な作業を映した1人称視点のビデオ映像はほとんど存在しない。そこでFacebookは、数千時間に及ぶ映像を新たなデータセットとして公開するため収集した

Facebookが取り組んだのは、現在最も優れた物体・シーン認識モデルであっても、そのほとんどが三人称視点でのみ学習されているという課題だ。つまりキッチンに立っている場面を見れば、料理をしている人として認識することができても、料理をしている人の視点から見た場合では認識する事ができない。自転車を認識するにしても、自転車が映し出されれば認識できるが、自転車に乗っている人の視点では理解ができないわけだ。我々人間にとっては当たり前のことで、これまで見過ごされてきたことだが、コンピューターにとってはまだ難しい課題なのである。

機械学習の問題を解決するには通常、データを増やすかより優れたデータを得るかのどちらかが必要になる。今回の場合は両方あっても損はないだろう。Facebookは世界中の研究パートナーに協力を依頼し、料理や買い物、靴ひもを結ぶ様子から仲間と遊んでいる様子まで、一般的な行動の1人称映像を集めた。

13のパートナー大学が9カ国700人以上の参加者から何千時間ものビデオを収集。参加者はみんなボランティアで、自身の関与やアイデンティティのレベルをコントロールすることができた。これら数千時間にもわたる映像は、研究チームによって3000時間にまで縮小され、研究チームが映像を見て編集し、手書きで注釈を加え、さらに現実世界では撮影できなかった環境を演出した独自の映像も追加された。この研究論文にそのすべてが記されている

映像はメガネ型カメラ、GoPro、その他のデバイスなどさまざまな方法で撮影されている。研究者の中には、活動している環境を同時に収録した人もいれば、視線の方向やその他の指標を追跡した人もいる。これらのデータはすべてEgo4Dと呼ばれるFacebookのデータセットにまとめられ、研究コミュニティに広く提供される予定だ。

コンピュータービジョンが物体の識別に成功しているものと、1人称映像での識別に失敗しているもの(画像クレジット:Facebook)

「AIシステムが人間と同じように環境と関わり合うためには、AI分野が1人称視点の知覚というまったく新しいパラダイムに進化する必要があります。そのためには人間の目を通したリアルタイムの動き、関わり合い、多感覚の観察の中で、AIに日常生活の動作を理解することを教えなければなりません」と、主任研究員のKristen Grauman(クリステン・グラウマン)氏はFacebookのブログ中で話している。

Facebookは1人称視点での理解力があらゆる分野でますます重要になっていると考えてはいるものの、何とも信じ難いことにこの研究とRay-Ban Storiesのスマートシェードはまったく無関係とのこと(この3Dスキャンは同社のハビタットAIトレーニングシミュレーターに使用されるかもしれないが)。

「弊社の研究では、拡張現実やロボット工学への応用を強く意識しています。特にARメガネのようなウェアラブル製品が人々の日常生活や移動に不可欠な要素になるにつれ、将来AIアシストを実現するためには1人称視点の知覚が不可欠です。もし、あなたのデバイスに搭載されているアシスト機能が、あなたの目を通して世界を理解し、生活から認知的過負荷を取り除くことができたらどれほど有益か想像してみてください」とグラウマン氏はTechCrunchに話している。

世界中から映像を集めたというのは意図的な戦略である。1つの国や文化の映像だけを集めるようでは近視眼的だ。米国のキッチンはフランスのキッチン、ルワンダのキッチン、日本のキッチンとはまるで別物であり、また同じ食材を使って同じ料理を作ったり、同じ作業(掃除や運動)をしたりしても、個人間はさることながら、文化間となれば大きく異なるのは当然である。つまりFacebookの投稿にあるように「既存のデータセットと比較して、Ego4Dのデータセットは、シーン、人、アクティビティの多様性が高く、背景、民族、職業、年齢を問わずさまざまな人に向けてトレーニングされているため、モデルの適用性が高い」のである。

Facebookの1人称視点のビデオとその環境の例(画像クレジット:Facebook)

Facebookが公開しているのはデータベースだけではない。データ収集においてこのような飛躍的な進歩がある場合、あるモデルがどれだけこの情報を活用できているかをテストしたベンチマークを公開するのが一般的になっている。例えば犬と猫の画像があったとして、どちらがどちらかを見分けるというモデルの有効性をテストした標準的なベンチマークが知りたい場合もあるだろう。

しかし今回のような場合はもう少し複雑になる。1人称視点で物体を識別するというのはそれほど難しいことではなく、目新しさや便利さもない。「これはトマトですよ」と教えてくれるARメガネなど誰が必要だろう。他のツールと同様に、ARデバイスは私たちが知らないことを教えてくれるものでなければならないのだ。そのためにARデバイスは、意図、文脈、連動したアクションなどをより深く理解する必要がある。

そこで研究者らは、1人称視点の映像を分析することで理論的に達成可能な5つのタスクを考えた。

  • エピソード記憶:物体や概念を時間と空間の中で追跡し「私の鍵はどこにあるか」といった任意の質問に答えられるようにする。
  • 予測:一連の出来事を理解することで「レシピの次の手順は何か」といった質問に答えたり「車の鍵を家に忘れた」といったことを事前に指摘したりすることができる。
  • 手と物体のインタラクション:人がどのように物を掴み、操作しているのか、またその際に何が起こっているのかを把握することで、エピソード記憶やそれを模倣したロボットの動作に反映させることができる。
  • オーディオ・ビジュアル・ダイアライゼーション:音をイベントやオブジェクトに関連付けることで、音声や音楽をインテリジェントに追跡し「カフェでかかっていた曲は何だったのか」「会議の最後に上司は何と言ったか」といった質問のソリューションに適用する(「ダイアライゼーション」が「言葉」である)。
  • 社会的相互作用:誰が誰に向かって話しているのか、何が語られているのかを理解し、他のプロセスに情報を提供する目的と、複数の人がいる騒がしい部屋で字幕を表示するなどの瞬間的な使用の両方に対応する。

当然、このような活用法やベンチマークに限られているわけではなく、上記の例はAIモデルが1人称視点のビデオで何が起きているかを実際に理解しているかどうかをテストするための初期アイデアに過ぎない。論文に記載されている通り、Facebookの研究者らはそれぞれのタスクについてベースレベルの実行を行い、それを出発点としている。さらにこの研究をまとめた動画には、それぞれのタスクが成功した場合を想定した、非現実的とも言えるような例が挙げられている。

現在公開されているデータは、25万人の研究者が手作業で丹念に注釈を加えたという3000時間ものデータ数にははるか及ばないものの、まだ成長の余地があるとグラウマン氏は指摘する。今後もデータセットを増やしていく予定であり、パートナーも積極的に増やしていくという。

このデータの活用に興味がある読者は、Facebook AI Researchのブログをチェックして論文に掲載されている莫大な数の人々の1人に連絡を取ってみるといい。コンソーシアムが正確な方法を確定した後、数カ月以内に発表される予定だ。

画像クレジット:Facebook

原文へ

(文:Devin Coldewey、翻訳:Dragonfly)

コンピュータービジョンにとどまらず企業の非構造化データを管理するClarifaiが68億円調達

Clarifai(クラリファイ)は、開発者、ビジネスオペレーター、データサイエンティストの日常に人工知能を導入し、モデル開発の自動化と高速化を実現を目指している。

Matt Zeiler(マット・ザイラー)氏は2013年、ニューヨークを拠点とし、コンピュータービジョンに特化した同社を創業した。2016年の3000万ドル(約34億円)のシリーズB以来、画像、ビデオ、テキスト、オーディオデータファイルといった企業の非構造化データを対象とした新機能や製品を展開している。

新機能には、自然言語処理、音声認識、スキャン、そして2020年発表した自動データラベリング機能「Scribe」などがある。また、高出力サーバーからカメラ、ドローンまで、さまざまなローカルハードウェアを使用して、データストリームの上にAIを重ねる「Edge AI」機能も展開している。同社は、10月20日に開催される深層学習の年次カンファレンス「Perceive 2021」で、さらに多くの情報を公開する予定だ。

こうした活動の中で、またこれらを継続すべく、Clarifaiは10月15日に6000万ドル(約68億4000万円)のシリーズCラウンドを発表した。New Enterprise Associatesが主導し、既存の投資家からMenlo Ventures、Union Square Ventures、Lux Capital、LDV Capital、Corazon Capital、NYU Innovation Venture Fund、新規の投資家としてCPP Investments、Next Equity Partners、SineWave Ventures、Trousdale Capitalが参加した。今回のラウンドで、同社の資金調達総額は1億ドル(約114億円)に達した。

「私たちは、追加の資金調達をせずに、なんとか長い間を過ごしてきました」とザイラー氏はTechCrunchに語った。「当社は、コストを抑えて効率的に運用しながら、収益を大きく伸ばしてきました。そして、チャンスを迎え、資金を調達しました」。

そのチャンスには、優れた法人向け販売チームを立ち上げることも含まれていた。会社設立当初は市場が未成熟だったため、中小企業や個人への販売から始めた。現在では、市場の成熟化に伴い、フォーチュン500の企業と取引を行っている。

同社にとって「非構造化データ」とは、画像や動画、テキストなど、人間の脳は得意とするが、コンピューターは苦手とするデータのことだ。実際、企業のデータの95%は非構造化データであり、Clarifaiに「大きなチャンス」をもたらしているとザイラー氏は話す。

そうしたシグナルを大企業が市場に発するようになったタイミングで、シリーズCを実現した。また、同社はSnowflakeと提携し、Snowflakeが最近リリースした非構造化データ支援とClarifaiを連携させるための統合を行った。

「Snowflakeは、構造化データに関して1000億ドル(約11兆円)規模のビジネスを展開していますが、今は非構造化データにも取り組んでいます」とザイラー氏は付け加えた。「顧客がSnowflakeでデータを保存している場合、そこから価値を得ることができますが、それを意味のあるものにするためにはClarifaiのAIが必要です」。

Clarifaiの製品パイプライン。画像クレジット:Clarifai

一方、同社は2020年1年間で収益を2倍以上に伸ばし、ユーザー数も13万人を突破した。今回のシリーズCの資金調達により、現在100人のグローバルチームの規模を来年までに倍増させる計画だ。

また、営業やマーケティング、国際的な事業拡大にも投資する。同社は、すでにエストニアにオフィスを構えているが、ザイラー氏は多くの顧客を獲得しているオーストラリア、インド、トルコも視野に入れている。また、最初の顧客を獲得したばかりのEdge AI製品にも引き続き取り組む。

今回の投資の一環として、NEAのパートナーであるAndrew Schoen(アンドリュー・ショーン)氏がClarifaiの取締役会に加わる。同社は数年前から注目されていたが、ショーン氏は当時、投資には早すぎると感じていた。

「最初の頃、AIの風は構造化データを中心に吹いていました。データの90%は非構造化でしたから、これはすぐに手に入る果実だと言えました」とショーン氏は語った。「エコシステムが成熟した今、企業は構造化データからできる限りのことを絞り出したことがボトルネックになっていることに気づきました。今、企業の手元には使えない非構造化データが残り、それがきちんと整理されていません。Clarifaiは、この問題を解決することを目的としています」。

ショーン氏は、ClarifaiがAIと機械学習を解明し、民主化すると考えている。同社は早くから非構造化データに着目していたため、アーリーアダプターを獲得することができた。現在ではこの分野をリードしている。

さらにショーン氏は、同社の収益予測は過去12カ月の間に変曲点を迎え、ビジネスは「順調に成長している」という。

「Clarifaiはこれまで、顧客を獲得し、市場を教育しなければなりませんでした。今では市場に対して自社の製品をプッシュするのではなく、プル型になっています。企業側がソリューションを探し、Clarifaiが適切な製品だと見ているのです」と付け加えた。

画像クレジット:Yuichiro Chino / Getty Images

原文へ

(文:Christine Hall、翻訳:Nariko Mizoguchi

アルゴリズムで学習者の理解度に合ったSTEM教育を行うNumeradeのショート動画サービス

現在、注目を集めるEdTech分野の起業家たちは、テストの技術や情報保持の在り方など、現代の学習に関連するほぼすべての要素について、その構造や影響を再定義しようとしている。しかし、最も人気のある製品は、一見シンプルなもの、つまり、オールマイティな個別指導なのかもしれない。2018年に設立されたEdTech企業、Numerade(ヌーマレイド)は、拡張可能かつ高品質な個別指導に挑戦し、1億ドル(約110億円)の評価を受けたばかりだ。

方程式や実験の仕組みを解説する短編動画のサブスクリプションを販売するNumeradeは、アルゴリズムを使って学習者の理解の仕方に合わせた説明を行う。共同設立者であるCEOのNhon Ma(エヌホン・マ)氏によると、コンテキストで説明する非同期型のコンテンツに焦点を当てることで、高品質な個別指導を手頃な価格で提供することが可能になるという。

「本当の教育には、視覚と聴覚だけでなく、生徒が実際に学習する際の言葉で伝えるというコンテキストも含まれます」とマ氏。Numeradeは、Wolfram AlphaのようなロボットQ&Aやステップバイステップの回答プラットフォームではなく、実際に科学をソリューションに統合してユーザーに伝えるプラットフォームにしたいと考えている。

7月下旬、NumeradeはIDG Capital(アイデージーキャピタル)、General Catalyst(ゼネラルカタリスト)、Mucker Capital(マッカーキャピタル)、Kapor Capital(カパーキャピタル)、Interplay Ventures(インタープレイベンチャーズ)などの投資家や、Margo Georgiadis(マーゴ・ジョージアディス、Ancestry(アンセストリー)の元CEO)、Khaled Helioui(ハレド・ヒリオリ、Bigpoint Games(ビッグポイントゲームズ)の元CEOでUber(ウーバー)のエンジェル投資家)、Taavet Hinrikus(ターベット・ヒンリクス、Wise(ワイズ)の創業者)などの戦略的投資家が参加するラウンドで、評価額1億ドル(約110億円)で2600万ドル(約28億7000万円)を調達したことを発表した。

マ氏は「同期型の個別指導には需要と供給のメカニズムの縛りがあります。優秀な家庭教師の時間は限られていて、割増料金を要求されることもあり、全体的に市場の供給側の制約になっています」と説明する。一部の企業では、効率化のために複数の生徒を1人の教師に割り当てるグループレッスンオプションも採用されているが、マ氏は「これは本当に時代遅れで、教師の質を損なうものだ」と考えている。

ライブ授業やWolfram Alphaのような答えを教えるだけのシステムを避けてきたNumeradeだが、第3の選択肢として動画を採用した。動画はEdTechの分野では目新しいものではなく、現在は主に、CourseraやUdemyなどの大規模オープンオンラインコースのプロバイダーや、MasterClassやOutschoolなどの「エデュテインメント(エデュケーションとエンターテインメントを合わせた造語)」プラットフォームが動画を利用している。Numeradeは、教師または教育者主導で「Fundamentals of Physics(物理学の基礎)」の第2章にある問題を中心に動画を作成しようと考えている。

Numeradeの動画で学ぶ学生(画像クレジット:Numerade)

Numeradeには、基礎的な知識を得るためのブートキャンプの動画、手順に焦点を当ててその知識をスキルに変えるステップバイステップの動画、これらの情報がどれだけ理解できたかを評価するクイズという3つの主要製品がある。

しかし、このスタートアップの真の狙いは、どの学生にどの動画を見せるかを決定するアルゴリズムにある。マ氏は「深層学習」や「コンピュータビジョン」「オントロジー」といった言葉を使ってアルゴリズムの仕組みを説明するが、つまりは教育動画にTikTok並みの特殊性を持たせ、ユーザーの過去の行動を利用して、学習スタイルに合うコンテンツを適切に提供したい、ということだ。

Numeradeは、ステップ・バイ・ステップの動画で脳が問題のパターンや多様性を理解することで、最終的には答えをよりよく理解できるようになると考えている。同社のアルゴリズムは主にクイズで利用され、あるトピックに対する学生の成績を確認し、その結果をモデルに入力して、新しいブートキャンプやクイズをより適切に提供できるようにする。

「当社のモデルでは、まず学生の強みと弱みを理解し、次に関連する概念的、実践的、評価的なコンテンツを表示して、主題に対する学生の知識を構築して学生の成長と学習をサポートします。アルゴリズムは、動画の構造化データを解析し、学生ごとのニーズに合わせた教育スタイルを提供することができます」とマ氏。

現在のところ、Numeradeのアルゴリズムは予備的なもののようだ。ユーザーが自分に合うコンテンツの恩恵を受けるためには、有料会員になって、十分な利用履歴を稼ぐ必要がある。それができたとしても、学生が前回のクイズで間違えたコンセプトを再表示する以外に、このアルゴリズムがどのようにその学生に合うコンテンツを提供できるのかは明らかではない。

Numeradeの計画も野心的な前提の上に成り立っている。すなわち、学生はコンセプトを学びたいのであって、先延ばしにしていた宿題を終わらせるために急いで答えを知りたいのではない、というものだ。マ氏は、Numeradeの動画の視聴時間はその動画の長さの2~3倍にもなり、これは学生が単にスキップして答えにたどり着くだけでなく、コンテンツと向き合っていることを意味している、と説明する。

Wolfram Alphaに対抗しようとしているのはNumeradeだけではない。過去1年間、Quizlet(クイズレット)やCourse Hero(コースヒーロー)といったEdTechのユニコーン企業は、AIを搭載したチャットボットやライブ電卓に多額の投資を行ってきたが、Course Heroの手法は主にNumeradeのような企業を買収することだった。これらのプラットフォームは、テクノロジーを駆使した個別指導のセッションでは、人間関係の構築や時間ではなく、スピードとシンプルさを優先すべきだという考えに基づいて構築されている。週に一度、数学の家庭教師のところに行くことを嫌がる学生でも、数学試験の数時間前の真夜中に、丁寧に答えを説明してくれるプラットフォームを利用するかもしれない、という考えだ。

アルゴリズムの進化があまり進んでいるとはいえず、競争も激しい分野にもかかわらず、Numeradeの新しい投資家と、収益をもたらす能力は期待がもてる。具体的な内容は明かされていないが、マ氏によると、同社は年間経常収益が8桁(日本円では10億円)目前だという。現在の加入者ベースで少なくとも1000万ドル(約11億5000万円)以上の年間収益を上げていることだ。マ氏は、Numeradeの最大の競争力は「視点」だと考えている。

「商業的なSTEM(Science:科学、Technology:技術、Engineering:工学、Mathematics:数学)教材に対するよくある批判は、モジュール化されすぎている、というものです。教科書では物理を単独で教えています」とマ氏は話す。「私たちのアルゴリズムはそうではありません。私たちはSTEMを連動したエコシステムとして扱います。数学、物理、化学、生物学の概念は全面的に関連しているのです」。

画像クレジット:Westend61 / Getty Images

原文へ

(文:Natasha Mascarenhas、翻訳:Dragonfly)

東京大学がシンクロダンスの練習支援システムSyncUp発表、コンピュータービジョン技術でポーズ・動きのズレ可視化

東京大学がシンクロダンスの練習支援システム「SyncUp」発表、コンピュータービジョン技術でポーズ・動きのズレを可視化

SyncUpインターフェース全体図。画面上部左にダンス動画、上部右はポーズのズレを可視化する動画上にオーバーレイを示している。掲載写真の例では、左腕がダンサー間で大きくずれているため、赤色のオーバーレイが表示されている。また画面下部では、ポーズと動きのタイミングのズレをグラフで示したものがユーザーに提示している

東京大学大学院工学系研究科の矢谷浩司准教授、周中一(ジョウ・ツォンガイ。Zhongyi Zhou)氏、徐安然(ズ・アンラン。Anran Xu)氏は9月28日、コンピュータービジョン技術を応用したシンクロダンスのポーズのズレを可視化する練習支援システム「SyncUp」(シンクアップ)の構築を発表した(SyncUp: Vision-based Practice Support for Synchronized Dancing)。

SyncUpは、コンピュータービジョン技術により抽出されたスケルトンデータをもとに、体の各部位の相対的な位置の差異を定量的に検出することで、ダンサー間のポーズの類似性を推定する。またシンクロダンスでは、常に全員が同じ動きをするとは限らない。その場合はどれだけ同期性が高いかシンクロ感が出る。そこで、各ダンサーがどのタイミングで体の部位を動かしているかも定量的に推定するアルゴリズムを実装しているという。つまり、体の動きとタイミングの両方の差異がわかる。

特別な機器は必要とせず、ダンスの練習動画をアップロードするだけで使えるため、アマチュアのダンサーにも気軽に利用できるとのことだ。タイミングや動きのズレは、グラフ化されると同時に、実際の動画の上にオーバーレイとしてズレている体の部位やズレの程度が示される。

東京大学がシンクロダンスの練習支援システム「SyncUp」発表、コンピュータービジョン技術でポーズ・動きのズレを可視化

オーバーレイの例。ポーズのズレの大きさに応じて色が変化する。赤色に近い色ほど、ズレが大きいことを示す

実験を行った結果、SyncUpの認識結果がダンサーの主観的な評価とおおむね一致したとのこと。練習の効率が上がるほか、ダンサー同士のコミュニケーションが円滑になるという。また実験では、この技術を応用して、うまく踊れた部分だけを自動抽出し、ハイライト動画を生成してSNSなどで公開する方法の可能性も確認された。

同研究科では、SyncUpを「人々の芸術的表現を支援する人工知能技術の新しい応用を示すもの」としている。

ノーコードで非技術者でも使えるコンピュータービジョンを提供するMobius

ベルリンのMobius Labsが、同社のコンピュータービジョン訓練プラットフォームの需要増に応えるために、520万ユーロ(約6億8000万円)の資金調達を完了した。このシリーズAの投資ラウンドをリードしたのはVentech VCで、これにAtlantic LabsとAPEX Ventures、Space Capital、Lunar Ventures、および一部のエンジェル投資家が参加した。

ユーザーは同社が提供しているSDKにより、若干の訓練データのあるカスタムのコンピュータービジョンモデルを自分で作ることができる。一般的な類似製品として売られているソフトウェア製品には、ユーザーの特殊なユースケースに応じた細かいカスタム化ができないものが多い。

また同製品は「ノーコード」を謳っており、非技術系のユーザーでも使えるという。

Mobius LabsのプラットフォームはSDKであり、オンプレミスでもオンデバイスでもどちらでもデプロイできる。顧客がクラウドサービスに接続してAIツールを利用する、というタイプの製品ではない。

CEOでチーフサイエンティストのAppu Shaji(アップ・シャジ)氏は、次のように語る。「弊社のカスタム・トレーニング・ユーザー・インターフェースは、極めてシンプルで使いやすく、事前に何らかの技術知識を必要とすることはまったくありません。このところ私たちの目に入ってくるトレンドは、AIから最大の価値を引き出せるのは技術系の人間ではない、ということです。むしろ多いのは、報道やクリエイティブエージェンシーで仕事をしているコンテンツマネージャーや、宇宙企業のアプリケーションマネージャーなどです。日常的に、視像(ビジョン)の最も近いところにいるのが彼らであり、彼らはAIのエキスパートやデベロッパーチームが助けに来るのを待たずに仕事をしています」。

2018年に創業したMobius Labsでは、現在、30社の顧客企業がそのツールを使ってさまざまなユースケースを実装している。その用途は、カテゴリー分類やリコメンデーション、予測、そして一般的に「ユーザーやオーディエンスを彼らのニーズに合った視覚的コンテンツに接続する」ことだ。当然のことながら、報道や放送、ストックフォトなどの利用が多いが、実際には同社ユーザーの業界はもっと多様で、それぞれが同社の成長に寄与している。

ユーザー企業の規模も多彩で、スタートアップや中小企業もいる。ただしメインは、大量のコンテンツを扱うグローバルなエンタープライズだ。そのため、今でもメディアやビデオ関連の利用が最も多い。しかしながらそれでも、現在の同社は地理空間情報や地球観測といった多様な業種をターゲットとして狙っている。

現在の社員数は30名だが、過去1年半で倍増している。今度の資金で、今後1年以内にさらに倍増し、特にヨーロッパと米国を中心に地理空間情報方面の顧客を開拓したい、という。売り上げも前年比で倍増しているが、顧客をより多分野に広げることにより、さらなる増大を狙っている。

「主な対象業種はビジュアルデータの扱い量が多い業種です。ビジュアルデータの扱い量が多いという点では、地理空間情報の分野を逃すべきではありません。しかし、彼らが持つ膨大な量の生のピクセルデータは、写真などと違って他の役には立たないものだけどね」とシャジ氏はいう。

「彼らが私たちのプラットフォームを利用する例として、川に沿った地域の広がりを調べたければ、衛星からデータを集めて、それらを整列しタグづけして分析するだろう。今はそれを、手作業で行っている。私たちが開発した技術を、いわば軽量級のSDKとして使えば、それを衛星上に直接デプロイして、機械学習のアルゴリズムで分析できる。現在、実際に私たちはそのような観測画像分野の衛星企業と一緒に仕事をしています」。

シャジ氏が主な競合他社として挙げるのは、ClarifaiGoogle Cloud Vision APIだ。「どちらも大きくて強い相手ですが、彼らにできないことが私たちにはできます。彼らのソリューションと違い、私たちプラットフォームはコンピュータービジョンの専門家でない人が利用できる。機械学習のモデルの訓練を、技術者でない人が誰でもできるようになれば、コンピュータービジョンに誰もがアクセスでき、理解できます。仕事の肩書はなんでもいい」とシャジ氏はいう。

関連記事
Googleの画像認識/分類API、Cloud Vision APIが誰でも使える公開ベータへ
Clarifaiが3000万ドルを調達、ビジュアル検索技術をディベロッパーへ

「もう1つの重要な差別化要因は、クライアントデータの扱い方です。私たちはソリューションをSDKの形で提供するため、オンプレミスで完全にローカルにクライアントのシステム上で動作します。データが、当社に戻ってくることはありません。私たちの役割は、人々が自分でアプリケーションを構築し、自分たちのものにできるようにすることです」。

コンピュータービジョンのスタートアップはここ数年、買収のターゲットとして人気がある。一部のITサービス企業は「コンピュータービジョン・アズ・ア・サービス」を看板に掲げるスタートアップを買って自分のメニューを増やそうとしている。またAmazonやGoogleのような巨人は、自前のコンピュータービジョンサービスを提供している。しかしシャジ氏によると、この技術は今までとは異なる段階にあり、「大量採用」の準備が整っていると指摘している。

「私たちが提供しようとしているのは、技術者に力をつけるソリューションではなく、クライアント自身がアプリケーションを自分で作れるためのソリューションです」とシャジ氏は現在の競合状況についていう。「私たちのソリューションはオンプレミスで動き、私たちがクライアントデータを見ることはないため、データのプライバシーも完全です。しかも軽量級の使いやすいソリューションであるため、スマートフォンでもラップトップでも、あるいは衛星上でも、さまざまなエッジデバイスにデプロイできます」。

投資家を代表してVentech VCのパートナーStephan Wirries(ステファン・ウィリーズ)氏は次のように語っている。「Mobius LabsのAppuと彼のチームは、コンピュータービジョンの分野では他に類のないものです。そのSuperhuman Visionと呼ばれるプラットフォームは、感動的なほど革新的であり、新しいオブジェクトを見つけるための訓練が比較的簡単にできるし計算効率もいい。今後さまざまな産業がAIによって変わっていく中で、Mobius Labsはヨーロッパのディープテクノロジーの革新的なリーダー兼教育機械にもなることができるだろう。

関連記事:Googleの画像認識/分類API、Cloud Vision APIが誰でも使える公開ベータへ

画像クレジット:Yuichiro Chino/Getty Images

原文へ

(文:Natasha Lomas、翻訳:Hiroshi Iwatani)

【コラム】データサイエンティストは恐れずに新しい分野に挑戦せよ

編集部注:本稿の執筆者Ilyes Kacher(イリエス・カーシャー)氏は、商品画像をオンラインで一括編集するAIベースのプラットフォーム、autoRetouch(オートレタッチ)のデータサイエンティスト。

ーーー

私はフランス出身のデータサイエンティストで、コンピュータービジョンの研究技師としての経験を日本で積んだ後、母国に戻った。しかし今、私はコンピュータービジョンのハブとは思えないドイツのシュツットガルトでこれを書いている。

ただし、みなさんが想像するであろうドイツの自動車技術の仕事をしているのではない。代わりに、パンデミック下の驚きべきチャンスを最もありそうもない場所で私は見つけた。そこはシュツットガルトのeコマースに特化したAI駆動の画像編集スタートアップで、あらゆる小売製品のデジタルイメージングプロセスを自動化している。

日本での経験は、仕事で海外に移住することの難しさを私に教えた。日本では、プロフェッショナルネットワークとの接点を持つことが往々にして必要だ。しかしここヨーロッパでは、多くの都市にアクセスできることが利点だ。パリ、ロンドン、ベルリンなどの都市は、特定技術のハブとして知られていると同時に、多様な雇用機会を提供している。

パンデミックのために完全リモートワークが増加している中、職探しの範囲を広げることで、興味にあう機会がより多く提供される。

意外な分野で価値を見つける、たとえば小売業

私は今、高級小売業からスピンオフしたテック企業で、自分の専門技術を製品画像に応用している。データサイエンティストの視点からアプローチすることで、私は小売業のように巨大で確立した業界への新たな応用に価値を認識見出した。

ヨーロッパには世界的に有名なブランドがいくつもあり、中でもアパレルと靴が代表的だ。その豊かな経験が、数十億の製品と数兆ドル(数百兆円)の市場にイメージング技術を応用するチャンスを生み出している。小売企業の利点は、定常的に画像を処理することで、AI企業が収益を上げ、利益を上げる可能性もあるベースを作ってくれていることだ。

もう1つ、探求すべき分野として、研究開発部門の一部にあることの多い独立部門がある。私は相当数のAIスタートアップが、非常にニッチなクライアントの研究コストとその結果得られる収益のために利益を上げていない分野に取り組んでいるところを見てきた。

データを持っている企業は収益見込みのある企業

私が特にこのスタートアップに惹かれたのは、そのデータアクセスの可能性だった。データはそれ自体非常に高価であり、多くの企業は限られたデータしか利用できない。B2BやB2Cレベル、中でも小売業やフロントエンドのユーザーインターフェースに関わるデジタルプラットフォームと直接つながりのある企業は狙いどころだ。

こうした顧客エンゲージメントデータを活用することは全員の利益になる。将来の研究開発や分野内のその他のソリューションに応用できる他、自社の他部門と協力して弱点を解決することにも使える。

さらにこれは、ブランドが影響を与えるユーザーの関連分野への関心が高ければ高いほど収益の可能性が大きくなることを意味している。私からのアドバイスは、データがすでに管理可能なシステムに保存され、アクセスが容易な企業を探すことだ。そういうシステムは研究開発に有用だ。

難しいのは、多くの企業がそういうシステムを導入していないこと、あるいはシステムを活用できるスキルを持つ人がいないことだ。もし、深い洞察を語れなかったり、システムが未導入の会社があったら、データ活用の方法を導入するチャンスを探してみて欲しい。

ヨーロッパでは最善策には自動化プロセスの開発が関わっている

私は、プロセスとコアシステムを作るチャンスをくれるアーリーステージ企業の成功の秘訣を知っている。私が働いていた会社は、入社当時まだ新しく、ある分野のためにスケーラブルなテクノロジーを開発する仕事をしていた。チームが解決すべき課題はすでに解決していたが、山ほどあるその他の問題を解決するために行うべきプロセスはたくさんあった。

1年に渡る大量一括画像編集を自動化するプロジェクトは、開発しているAIが、同時に複数の可変要素(複数の画像とワークフロー)を横断して独立に動くことように作られていれば、既存の有名ブランドには出来ないことをするテクノロジーだということを教えてくれた。ヨーロッパでこれを実行している企業はほとんどないため、それができる人材は切望されている。

というわけで、ちょっとしたカルチャーショックを恐れることなく、飛び込んでみてはいかがだろうか?

関連記事
コンピュータビジョンとAIで服のフィット感をより正確に見られる仮想試着室「Revery.ai」
ロボット、チップ、完全自動運転、イーロン・マスク氏のTesla AI Dayハイライト5選
インテルが3D深度カメラ「RealSense」事業を閉鎖へ、コア事業に注力の戦略
画像クレジット:Warit Silpsrikul/EyeEm / Getty Images

原文へ

(文:Ilyes Kacher、翻訳:Nob Takahashi / facebook

コンピュータビジョンとAIで服のフィット感をより正確に見られる仮想試着室「Revery.ai」

ウェブサイトで洋服のサイズやフィット感を確認する作業は、時としてオンラインショッピングの楽しみを奪ってしまう。そこでRevery.aiは、コンピュータビジョンとAIを活用したツールを開発し、より良いオンラインドレッシングルーム体験を実現しようとしている。

イリノイ大学Center for Computer ScienceのアドバイザーであるDavid Forsyt(デビッド・フォーサイス)博士の指導のもと、博士課程の学生であるKedan Li(ケダン・リー)氏、Jeffrey Zhan(ジェフリー・チャン)氏、Min Jin Chong(ミン・ジン・チョン)氏からなるチームは、既存のカタログ画像を利用して、従来のバーチャルドレッシングルームでは困難であった、毎週100万着以上の規模の処理を行う初めてのツールを作成しているとリー氏はTechCrunchに語った。

Revery.aiの共同ファウンダーのジェフリー・チャン氏、ミン・ジン・チョン氏、ケダン・リー氏(画像クレジット:Revery.ai)

カリフォルニアを拠点とするReveryは、Y Combinator(Yコンビネータ)の2021年夏のコホートに参加しており、8月末のプログラム終了を目指している。YCは、同社に12万5000ドル(約1370万円)投資している。リー氏によると、同社はすでに2年間のランウェイを持っているが、150万ドル(約1億6500万円)のシードラウンドを調達することで成長を加速させ、大手小売業者に対してより成熟した企業であることをアピールしたいと考えているという。

Reveryの前には、リー氏はパーソナライズされたメールの分野で別のスタートアップに取り組んでいたが、すでに大手レガシー企業の無料版があったため、うまく機能させることができなかった。独占が少なく、テクノロジーを収益化できる分野を探していたところ、ファッションに興味を持ったという。別のアドバイザーと協力してワードローブコレクションを始めたが、そのアイデアは頓挫してしまった。

チームは、フォーサイス教授との共同作業でエンジンがかかり、すでにウェブサイトに画像を掲載しておりユーザーはいるが、コンピュータビジョンの側面を求めていたB2B顧客をターゲットに、技術のイテレーションを数回行っている。

多くの競合他社は、3Dモデリングや画像を手作業で加工してモデルに重ね合わせる方法を採用しているが、Reveryはディープラーニングとコンピュータビジョンを活用することで、服のドレープ性を高め、さらにユーザーは肌のトーンや髪型、ポーズなどをカスタマイズして自分に似せたモデルを作ることができる。また、完全に自動化されており、何百万ものSKUを扱うことができ、数週間で顧客に提供することができる。

同社のバーチャルドレッシングルームは現在、東南アジア最大級のファッション企業であるZalora-Global Fashion Groupを含む多くのファッションECプラットフォームで利用されている、とリー氏はいう。

Revery.aiランディングページ(画像クレジット:Revery.ai)

「こんなに良い結果が出ているのはすごいことです」と彼は付け加えた。「お客様からは、3〜5倍といった、これまでになかったような高いコンバージョン率の報告を受けています。ZaloraでABテストを行ったところ、380%の増加が見られました。これから当社の技術をZaloraのすべてのプラットフォームに展開していくことを大変うれしく思っています」。

この技術は、2020年、パンデミックの影響でオンラインショッピングが急増した時期に登場した。米国だけでも、2020年にはファッションリテール売上高の29.5%をeコマースファッション業界が占めており、2021年に同市場の価値は1000億ドル(約11兆円)に達すると予想されている

Reveryは「オンラインレースで勝つためのロードマップにこれを入れている」40社以上のリテーラーとすでに交渉中です、とリー氏はいう。

同社はこれからの1年、より多くの顧客に採用され、本番運用を開始することに焦点を当てている。競合他社との差別化を図るために、リー氏は、リテーラーから求められているボディタイプ機能を搭載したいと考えている。このような技術は、多様な体型のモデルがあまり存在しないため、難度が高いと彼は語った。

Reveryがユーザーにアバターを作成して服の見え方を確認できる機能を提供するためには、自社で独自のデータを収集する必要があると同氏は考えている。

「もしかしたら今見ているのは実際に大きな波の始まりで、そのニーズに応える適切な製品を私たちは持っているのかもしれません」と彼は付け加えた。

関連記事
スニーカー特化フリマ「スニーカーダンク」運営が約62億円調達、「モノカブ」を買収しグローバル展開を加速
グッチがRobloxとの新パートナーシップで2週間限定の仮想空間とデジタルアイテムを提供
ファストファッション「SHEIN」がアマゾンを抜き米国で最もインストールされたショッピングアプリに
画像クレジット:Getty Images

原文へ

(文:Christine Hall、翻訳:Aya Nakazato)

ロボット、チップ、完全自動運転、イーロン・マスク氏のTesla AI Dayハイライト5選

Elon Musk(イーロン・マスク)氏はTesla(テスラ)を「単なる電気自動車会社ではない」と見てもらいたいと考えている。米国時間8月19日に開催されたTesla AI Day(テスラ・AI・デー)で、イーロン・マスクCEOはテスラのことを「推論レベルとトレーニングレベルの両方でハードウェアにおける深いAI活動」を行っている企業であると説明した。この活動は、自動運転車への応用の先に待つ、Teslaが開発を進めていると報じられている人型ロボットなどに利用することができる。

Tesla AI Dayは、映画「マトリックス」のサウンドトラックから引き出された45分間にわたるインダストリアルミュージックの後に開始された。そこでは自動運転とその先を目指すことを支援するという明確な目的のもとに集められた、テスラのビジョンとAIチームに参加する最優秀のエンジニアたちが、次々に登場してさまざまなテスラの技術を解説した。

「それを実現するためには膨大な作業が必要で、そのためには才能ある人々に参加してもらい、問題を解決してもらう必要があるのです」とマスク氏はいう。

この日のイベントは「Battery Day」(バッテリー・デー)や「Autonomy Day」(オートノミー・デー)と同様に、テスラのYouTubeチャンネルでライブ配信された。超技術的な専門用語が多かったのだが、ここではその日のハイライト5選をご紹介しよう。

Tesla Bot(テスラ・ボット):リアルなヒューマノイド・ロボット

このニュースは、会場からの質問が始まる前にAI Dayの最後の情報として発表されたものだが、最も興味深いものだった。テスラのエンジニアや幹部が、コンピュータービジョンやスーパーコンピュータDojo(ドージョー)、そしてテスラチップについて語った後(いずれも本記事の中で紹介する)、ちょっとした幕間のあと、白いボディスーツに身を包み、光沢のある黒いマスクで顔が覆われた、宇宙人のゴーゴーダンサーのような人物が登場した。そして、これは単なるテスラの余興ではなく、テスラが実際に作っている人型ロボット「Tesla Bot」の紹介だったことがわかった。

画像クレジット:Tesla

テスラがその先進的な技術を自動車以外の用途に使うことを語ろうとするときに、ロボット使用人のことを語るとは思っていなかった。これは決して大げさな表現ではない。CEOのイーロン・マスク氏は、食料品の買い物などの「人間が最もやりたくない仕事」を、Tesla Botのような人型ロボットが代行する世界を目論んでいるのだ。このボットは、身長5フィート8インチ(約173cm)、体重125ポンド(約56.7kg)で、150ポンド(約68kg)の荷物を持ち上げることが可能で、時速5マイル(約8km/h)で歩くことができる。そして頭部には重要な情報を表示するスクリーンが付いている。

「もちろん友好的に、人間のために作られた世界を動き回ることを意図しています」とマスク氏はいう。「ロボットから逃げられるように、そしてほとんどの場合、制圧することもできるように、機械的そして物理的なレベルの設定を行っています」。

たしかに、誰しもマッチョなロボットにやられるのは絶対避けたいはずだ(だよね?)。

2022年にはプロトタイプが完成する予定のこのロボットは、同社のニューラルネットワークや高度なスーパーコンピューターDojoの研究成果を活用する、自動車以外のロボットとしてのユースケースとして提案されている。マスク氏は、Tesla Botが踊ることができるかどうかについては口にしなかった。

関連記事:テスラはロボット「Tesla Bot」を開発中、2022年完成予定

Dojoを訓練するチップのお披露目

画像クレジット:Tesla

テスラのディレクターであるGanesh Venkataramanan(ガネッシュ・べンカタラマン)氏が、完全に自社で設計・製造されたテスラのコンピュータチップを披露した。このチップは、テスラが自社のスーパーコンピュータ「Dojo」を駆動するために使用している。テスラのAIアーキテクチャの多くはDojoに依存している。Dojoはニューラルネットワークの訓練用コンピューターで、マスク氏によれば、膨大な量のカメラ画像データを他のコンピューティングシステムの4倍の速さで処理することができるという。Dojoで訓練されたAIソフトウェアは、テスラの顧客に対して無線を通じてアップデートが配信される。

テスラが8月19日に公開したチップは「D1」という名で、7nmの技術を利用している。べンカタラマン氏はこのチップを誇らしげに手に取りながら、GPUレベルの演算機能とCPUとの接続性、そして「現在市販されていて、ゴールドスタンダードとされている最先端のネットワークスイッチチップ」の2倍のI/O帯域幅を持っていると説明した。彼はチップの技術的な説明をしながら、テスラはあらゆるボトルネックを避けるために、使われる技術スタックを可能な限り自分の手で握っていたかったのだと語った。テスラは2020年、Samsung(サムスン)製の次世代コンピューターチップを導入したが、ここ数カ月の間、自動車業界を揺るがしている世界的なチップ不足から、なかなか抜け出せずにいる。この不足を乗り切るために、マスク氏は2021年夏の業績報告会で、代替チップに差し替えた結果、一部の車両ソフトウェアを書き換えざるを得なくなったと語っていた。

供給不足を避けることは脇においても、チップ製造を内製化することの大きな目的は、帯域幅を増やしてレイテンシーを減らし、AIのパフォーマンスを向上させることにあるのだ。

AI Dayでべンカタラマン氏は「計算とデータ転送を同時に行うことができ、私たちのカスタムISA(命令セットアーキテクチャ)は、機械学習のワークロードに完全に最適化されています」と語った。「これは純粋な機械学習マシンなのです」。

べンカタラマン氏はまた、より高い帯域幅を得るために複数のチップを統合した「トレーニングタイル」を公開した。これによって1タイルあたり9ペタフロップスの演算能力、1秒あたり36テラバイトの帯域幅という驚異的な能力が実現されている。これらのトレーニングタイルを組み合わせることで、スーパーコンピューター「Dojo」が構成されている。

完全自動運転へ、そしてその先へ

AI Dayのイベントに登壇した多くの人が、Dojoはテスラの「Full Self-Driving」(FSD)システムのためだけに使われる技術ではないと口にした(なおFSDは間違いなく高度な運転支援システムではあるものの、まだ完全な自動運転もしくは自律性を実現できるものではない)。この強力なスーパーコンピューターは、シミュレーション・アーキテクチャーなど多面的な構築が行われており、テスラはこれを普遍化して、他の自動車メーカーやハイテク企業にも開放していきたいと考えている。

「これは、テスラ車だけに限定されるものではありません」マスク氏。「FSDベータ版のフルバージョンをご覧になった方は、テスラのニューラルネットが運転を学習する速度をご理解いただけると思います。そして、これはAIの特定アプリケーションの1つですが、この先さらに役立つアプリケーションが出てくると考えています」。

マスク氏は、Dojoの運用開始は2022年を予定しており、その際にはこの技術がどれほど多くの他のユースケースに応用できるかという話ができるだろうと語った。

コンピュータビジョンの問題を解決する

AI Dayにおいてテスラは、自動運転に対する自社のビジョンベースのアプローチの支持を改めて表明した。これは同社の「Autopilot」(オートパイロット)システムを使って、地球上のどこでも同社の車が走行できることを理想とする、ニューラルネットワークを利用するアプローチだ。テスラのAI責任者であるAndrej Karpathy(アンドレイ・カーパシー)氏は、テスラのアーキテクチャを「動き回り、環境を感知し、見たものに基づいて知的かつ自律的に行動する動物を、ゼロから作り上げるようなものだ」と表現した。

テスラのAI責任者であるアンドレイ・カーパシー氏が、コンピュータビジョンによる半自動運転を実現するために、テスラがどのようにデータを管理しているかを説明している(画像クレジット:Tesla)

「私たちが作っているのは、もちろん体を構成するすべての機械部品、神経系を構成するすべての電気部品、そして目的である自動運転を果たすための頭脳、そしてこの特別な人工視覚野です」と彼はいう。

カーパシー氏は、テスラのニューラルネットワークがこれまでどのように発展してきたかを説明し、いまやクルマの「脳」の中で視覚情報を処理する最初の部分である視覚野が、どのように幅広いニューラルネットワークのアーキテクチャと連動するように設計されていて、情報がよりインテリジェントにシステムに流れ込むようになっているかを示した。

テスラがコンピュータービジョンアーキテクチャーで解決しようとしている2つの主な問題は、一時的な目隠し(交通量の多い交差点で車がAutopilotの視界を遮る場合など)と、早い段階で現れる標識やマーク(100メートル手前に車線が合流するという標識があっても、かつてのコンピューターは実際に合流車線にたどり着くまでそれを覚えておくことができなかったなど)だ。

この問題を解決するために、テスラのエンジニアは、空間反復型ネットワークビデオモジュールを採用した。このモジュールのさまざまな観点が道路のさまざまな観点を追跡し、空間ベースと時間ベースのキューを形成して、道路に関する予測を行う際にAIモデルが参照できるデータのキャッシュを生成する。

同社は1000人を超える手動データラベリングチームを編成したと語り、さらに大規模なラベリングを可能にするために、テスラがどのように特定のクリップを自動ラベリングしているかを具体的に説明した。こうした現実世界の情報をもとに、AIチームは信じられないようなシミュレーションを利用して「Autopilotがプレイヤーとなるビデオゲーム」を生み出す。シミュレーションは、ソースやラベル付けが困難なデータや、閉ループの中にあるデータに対して特に有効だ。

関連記事:テスラが強力なスーパーコンピューターを使ったビジョンオンリーの自動運転アプローチを追求

テスラのFSDをとりまく状況

40分ほど待ったときに、ダブステップの音楽に加えて、テスラのFSDシステムを映したビデオループが流れた、そこには警戒していると思われるドライバーの手が軽くハンドルに触れている様子が映されていた。これは、決して完全に自律的とは言えない先進運転支援システムAutopilotの機能に関する、テスラの主張が精査された後で、ビデオに対して法的要件が課されたものに違いない。米国道路交通安全局(NHTSA)は 今週の初めにテスラが駐車中の緊急車両に衝突する事故が11件発生したことを受け、オートパイロットの予備調査を開始することを発表した。

その数日後、米国民主党の上院議員2名が連邦取引委員会(FTC)に対して、テスラのAutopilot(自動操縦)と「Full Self-Driving」(完全自動運転)機能に関するマーケティングおよび広報活動を調査するよう要請した。

関連記事
米当局がテスラのオートパイロット機能を調査開始、駐車中の緊急車両との衝突事故受け
テスラの「完全」自動運転という表現に対し米上院議員がFTCに調査を要請

テスラは、7月にFull Self-Drivingのベータ9版を大々的にリリースし、数千人のドライバーに対して全機能を展開した。だが、テスラがこの機能を車に搭載し続けようとするならば、技術をより高い水準に引き上げる必要がある。そのときにやってきたのが「Tesla AI Day」だった。

「私たちは基本的に、ハードウェアまたはソフトウェアレベルで現実世界のAI問題を解決することに興味がある人に、テスラに参加して欲しい、またはテスラへの参加を検討して欲しいと考えています」とマスク氏は語った。

米国時間8月19日に紹介されたような詳細な技術情報に加えて、電子音楽が鳴り響く中で、Teslaの仲間入りをしたいと思わない血気盛んなAIエンジニアがいるだろうか?

一部始終はこちらから。

画像クレジット:Tesla

原文へ

(文:Rebecca Bellan、Aria Alamalhodaei、翻訳:sako)