Zoom・Teams・TikTok対応、AIで自分の外観をDXできる「xpression camera」正式版リリース―1.5億円の資金調達も

Zoom・Teams・TikTok対応、AIで自分の外観をDXできる「xpression camera」正式版リリース―1.5億円の資金調達も

「学習し模倣するAI」を「想像し創造するAI」へ進化させることをミッションに掲げるテック企業EmbodyMe(エンボディーミー)は、ビデオ会議などで自分の映像を別のものに置き換えられる「xpression camera」(エクスプレッションカメラ)の正式版をリリースした。WindowsとMacに対応し、無料で使うことができる。アプリはこちらからダウンロードできる。

また同社は、FreakOut Shinsei Fund、DEEPCORE、キャナルベンチャーズ、山口キャピタルを引受先として、1億5000万円の資金調達を実施したことも発表した。

xpression cameraは、使いたい画像が1枚あれば、それをAIにより自分の外観と置き換えて、リアルタイムでコミュニケーションができるようになるというツール。Zoomのほかに、Teams、YouTube、TikTokなどあらゆるビデオアプリで利用できる。たとえばパジャマ姿でも、スーツを着た自分の画像に置き換えてリモート会議に参加するということが可能になる。自分だけでなく、顔として認証されるものなら、絵画や動物の写真を使うこともできる。

 

2020年9月からベータ版を提供していたが、AIのコアエンジンを一新してクオリティーを高め、バーチャル背景などの機能も追加した。映像の録画・読み込み・画像検索・バーチャル背景の編集が可能な有料版の「Pro Plan」もある。さらに、企業向けの「Enterprise Plan」の提供も予定しており、現在はパイロットプログラムへの参加企業を募集している。

EmbodyMeは、「最終的にはAIで目に見えるあらゆるものを誰もが自由自在に作り出せるツールになることを目標とし、今まで想像もできなかったようなまったく新しいメディア、業界をも創造していきます」と話している。

コンピュータビジョンチームに合成データを提供するDatagenが約61.7億円のシリーズB資金調達を実施

イスラエルで設立されたDatagen(データジェン)は、コンピュータビジョン(CV)チームのために合成データソリューションを提供するスタートアップ企業だ。同社はその事業の成長を促進するため、5000万ドル(約61億7000万円)のシリーズBラウンドを実施し、これまでの資金調達総額が7000万ドル(約86億4000万円)を超えたと発表した。今回のラウンドは新たに投資家となったScale Venture Partners(スケール・ベンチャー・パートナーズ)が主導し、パートナーのAndy Vitus(アンディ・ヴィータス)氏がDatagenの取締役に就任した。

テルアビブとニューヨークにオフィスを構えるDatagenは「実世界の環境をシミュレートすることによってわずかなコストで機械学習モデルを迅速に訓練し、AIの進歩を推進する完全なCVスタックを構築している」と、ヴィータス氏は述べている。このパロアルトに拠点を置くVCは「これはCVアプリケーションの開発とテストの方法を根本的に変えるだろう」と予測する。

11カ月前にDatagenが1850万ドル(約22億8000万円)を調達したシリーズAラウンドを支援した投資家たちも、この新たなラウンドに参加した。その中にはVCのTLV Partners(TLVパートナーズ)とSpider Capital(スパイダー・キャピタル)が含まれる。シリーズAを主導したViola Ventures(ヴィオラ・ベンチャーズ)も、今回はその成長部門であるViola Growth(ヴィオラ・グロース)を通じて参加した。さらに、コンピューター科学者のMichael J. Black(マイケル・J・ブラック)氏や、Trevor Darrell(トレバー・ダレル)氏、NVIDIA(エヌビディア)のAI担当ディレクターであるGal Chechik(ガル・チェチック)氏、Kaggle(カグル)のAnthony Goldbloom(アンソニー・ゴールドブルーム)CEOなど、AIやデータ分野の高名な人物も倍賭けを決めている。

投資家の名簿はもっと長くなる可能性があると、DatagenのOfir Zuk(オフィール・ズク)CEOはTechCrunchに語った。このラウンドは数週間前に終了したが、同スタートアップは、確認が取れていない数名の名前とともに「クローズを延期した少しの余地」を残しているという。

シリーズA以降のDatagenの主なマイルストーンの1つは、ターゲットユーザーが初期のフィードバックで要求したセルフサービス・プラットフォームの構築だったと、ズク氏は語る。これによってDatagenは、顧客がCVアプリケーションのトレーニングに必要なビジュアルデータを生成するための、より拡張性の高い方法を提供することができるようになった。

Datagenのソリューションは、フォーチュン100社や「ビッグテック」企業を含む、さまざまな組織内のCVチームや機械学習エンジニアに使用されている。その用途は多岐にわたるが、中でも特に加速している分野が4つあるとズク氏はいう。AR/VR/メタバース、車内および自動車全般、スマート会議、ホームセキュリティだ。

車内への応用は、Datagenが行っていることをより良く理解するための好例といえるだろう。これはつまり、乗員がシートベルトを着用しているかどうかなど、車内の状況を意味する。乗員やクルマの形状はさまざまであるため、そこでAIが活躍するわけだ。最初に現実世界から作成した3Dモーションキャプチャをベースに、Datagenの顧客は、例えばエアバッグの展開する位置を正確に決めるためなどに必要な膨大なデータを生成することができる。

Datagenは、ビジュアルデータに特化しているものの、特定の分野に縛られているわけではない。もし、小売業やロボット工学のユースケースが軌道に乗れば、倉庫のモーションキャプチャなど、特定の現実世界のデータを収集するだけでよい。その上のアルゴリズムや技術は、分野にとらわれないとズク氏はいう。

20年以上の歴史を持つ企業向けVCのScale Venture Partnersは、すでに自動車運転シミュレーション・プラットフォームのCognata(コグナタ)に投資しており、シミュレーションデータの分野に関しては強気だ。ズク氏も同様で「合成データは現実のデータを凌駕しつつある」という言葉でまとめた。

画像クレジット:Andriy Onufriyenko / Getty Images

原文へ

(文:Anna Heim、翻訳:Hirokazu Kusakabe)

マイクロソフトがZ-Codeを使ってAI翻訳サービスを改善

Microsoft(マイクロソフト)は米国時間3月22日、同社の翻訳サービスを改訂したことを発表した。新しい機械学習技法によって、多数の言語間における翻訳が著しく改善されるという。「spare Mixture of Expert(Mixture of Expertを出し惜しみする)」アプローチを使用するという同社のProject Z-Code(プロジェクト・ズィー・コード)を基盤とする新モデルは、盲検法評価で同社の以前のモデルより3~15%高いスコアを記録した。Z-CodeはMicrosoftのXYZ-Codeイニシアチブの一環で、複数の言語を横断してテキスト、視覚、音声を組み合わせることによって、これまで以上に強力で有効なAIシステムを作る。

「Mixture of Experts」はまったく新しい技法というわけではないが、翻訳の場面では特に有効だ。システムはまず、タスクを複数のサブタスクに分割し、それぞれを「expert(エキスパート)」と呼ばれるより小さい特化したモデルに委譲する。次に、どのタスクをどのexpertに委譲するかを、独自の予測に基づいてモデルが決定する。ごく簡単にいうなら、Mixture of Expertsは複数のより特化されたモデルを内包するモデルと考えることができる。

画像クレジット:Microsoft

「Z-Codeを使うことで、驚くほどの進展が見られました。それは、単一言語と複数言語のデータに対して転移学習(transfer learning)とマルチタスク学習の両方を使って最先端の言語モデルを作ることができたからです。これで品質と性能と効率性の最善の組み合わせを顧客に届けることができます」とMicrosoftのテクニカルフェロー兼Azure(アジュール)AI最高技術責任者のXuedong Huang(シュードゥン・ホァン)氏はいう。

この結果、例えば、10種類の言語間で直接翻訳することが可能になり、複数のシステムを使う必要がなくなる。すでにMicrosoftは固有表現抽出、文章要約、カスタム文章分類、キーワード抽出など、同社AIシステムの他の機能の改善にZ-Codeモデルを使い始めている。しかし、翻訳サービスにこのアプローチを利用したのはこれが初めてだ。

翻訳モデルは伝統的に著しく巨大で、製品環境に持ち込むことは困難だった。しかしMicrosoftのチームはsparse(スパース)アプローチを採用し、タスクごとにシステム全体を動かす代わりに、少数のモデルパラメータのみを起動する方法を選んだ。「これによって大幅にコスト効率よく実行できるようになります。家の暖房を1日中全開されるのではなく、必要な部屋を必要な時だけ暖めるほうが安くて効率がよいのと同じことです」とチームがこの日の発表で説明した。

画像クレジット:Keystone/Getty Images / Getty Images

原文へ

(文:Frederic Lardinois、翻訳:Nob Takahashi / facebook

不正経費自動検知クラウドStena Expense、飲食店の相場価格から会議費・交際費の異常利用を検知するAI機能を追加

不正経費自動検知クラウドStena Expense、飲食店の相場価格から会議費・交際費の異常利用を検知するAI機能を追加

AI活用検知クラウドやサイバーセキュリティ技術を開発・提供するChillStackは3月15日、個人立替領域の不正経費自動検知クラウド「Stena Expense」(ステナエクスペンス)において、飲食店で会議費・交際費として使用された経費が一般的な相場金額から大きく逸脱していないかを判定・抽出する新機能の実装と提供開始を発表した。

今回の新機能では、外部APIとの連携により、飲食店で使用された経費(交際費・会議費に該当する明細)が、該当店舗の1人あたりの相場金額から大きく逸脱していないかを同社独自AIで識別・抽出する。飲食店データベースと連携したStena独自のAI識別エンジンが飲食店データベースを照合して金額の妥当性を判断するという。

不正経費自動検知クラウドStena Expense、飲食店の相場価格から会議費・交際費の異常利用を検知するAI機能を追加

Stena Expenseは、企業における個人立替経費の申請・承認データを元に、AIが自動的に不正や不適切な経費利用を検知する。経費の重複申請や交通費の水増しといった不正検出に加えて、個々の従業員の申請履歴を踏まえて判断することで、「特定個人との多頻度利用」や「特定店舗での多頻度利用」といった不適切もしくは異常と推察される経費利用も検出できる。AI技術を活用することで、人の目では不可能な時系列的・網羅的に経費申請というビッグデータの解析を行い、間接部門の生産性とガバナンス向上を実現する。

主な特徴

  • 経費の承認・チェック業務の負担を増やすことなく、全データの網羅的かつ時系列での精査が可能
  • 申請履歴・傾向を踏まえたチェックにより、経費利用の妥当性確認が可能
  • 不正・不適切・異常の根拠が表示されるため、原因・理由が明瞭
  • 経理部門・業務部門のどちらも使える分かりやすいウェブUI

2018年11月設立のChillStackは、「AIで守り、AIを守る」というビジョンを掲げ、AIで進化させたサイバーセキュリティ技術、AI自身を守るセキュリティなどの技術開発・提供を行っている。Stena Expenseをはじめ、AI技術を活用した不正検知システム「Stena」シリーズを展開している。

農作物の生育状態を高速・定量的に測定するフェノタイピング用ローバー開発、設計などをオープンソースとして公開

農作物の生育状態を高速に定量的に測定するフェノタイピング用ローバー開発、設計とソフトをオープンソースとして公開

東京大学などによる研究グループは3月10日、植物の形態的、生理的な性質(表現型:フェノタイプ)を観測する自走式装置「高速フェノタイピングローバー」を開発し、その設計をオープンソース・ハードウェアとして公開したと発表した。

近年、地球規模の気候変動や有機農法の拡大などを受け、作物の品種や栽培方法を改良するニーズが増えているという。そのためには、まず農作物などの植物の生育状態を精密・大量に測定する表現型測定(フェノタイピング)が必要となるのだが、これまで人の手と目で行われており、大変に非効率なために、IT技術を活用した効率化が求められてきた。

またすでに、ドローンや大型クレーンを使って作物を撮影し測定を行うシステムは存在するものの、一般に広い農場を対象としており、日本の畑のように狭い場所での導入は難しい。そこで、東京大学大学院農学生命科学研究科附属生態調和農学機構(郭威特任准教授)、京都大学チューリッヒ大学横浜市立大学による共同研究グループは、場所や条件を選ばずに導入できる地上走行型のローバーを開発した。

この「高速フェノタイピングローバー」は、四輪で走行しながら大量の写真を撮影する。その画像を解析することで、さまざまな表現型を取得でき、応用目的は多岐にわたるという。地上の近距離から撮影するため、ドローンの画像よりも細部まで確認できる。また、ドローンの風圧で果実が落下したり、植物があおられてしまうといった心配もない。ただ、起伏が激しい場所や水田などではドローンのほうが優れているため、このシステムとドローンを組み合わせてデータの質を最大化するのがよいとしている。

また、リアルタイムで画像処理ができる小型コンピューターを搭載し、地上に設置した目印を頼りに畝に沿って移動できる走行アシスト機能も備わっているため、GPSに依存しない。建物に隣接していたり、電波が妨げられる場所でも問題なく使える。

試験運用で撮影した画像から、小麦の出穂の様子を測定

試験運用で撮影した画像から、小麦の出穂の様子を測定

研究グループは、京都大学の小麦の圃場で実験を行ったところ、多数の系統の生育状態を撮影し、深層学習モデルで画像を解析して、小麦が出穂する様子の定量的な測定に成功した。また、日本の畑でよく見られる、道路から水路などをまたいで畑に入るための持ち運び式のスロープでの移動が可能であることも確認できた。

開発した高速フェノタイピングローバーの3D図面。自由に回転や拡大、改変できるデータファイルを論文で公開した

開発した高速フェノタイピングローバーの3D図面。自由に回転や拡大、改変できるデータファイルを論文で公開した

この「高速フェノタイピングローバー」は、様々な条件や用途に合わせて組み立てたり改良したりできるように、市販のパーツのみで作られていて、3D図面、パーツリスト、ソフトウェアなどは論文中においてオープンソース・ハードウェアとして公開されている(GitHub)。

カメラだけを使う低コスト短期工事の自律型リテール技術AiFiがヨーロッパ各国に展開

コンタクトレスのお店はとくにヨーロッパで伸びているが、1月に開店したアトランタのNourish + Bloom Marketのように、アメリカでもちらほらと見かけるようになった。本稿では、そんなストアがAmazon Go7-ElevenWalmartなどのテリトリーに入り込んできたことを指摘したい。

これらキャッシャーレス(レジなし)ストアの技術を支えているのは、SenseiStandard CognitionZippinGrabango、そしてTrigoなどのスタートアップで、最近は全員がベンチャー資本を導入して技術の進歩を目指している。

VCが投資をした最新の企業がAiFiで、同社はリテイラーが高いコスパで自律型ショッピングを展開しスケールできるようにする。対象は食料品店やスポーツのスタジアム、コンビニエンスストアなどで、重さを秤る棚などがなくカメラだけを使うので、稼働までの費用と時間が相当少ない、と共同創業者でCEOのSteve Gu氏は言っている。

しかもその高度な追跡アルゴリズムは900平米のスペースをカバーし、また、アプリやクレジットカード、ゲート方式、そのハイブリッドなど、いろんなショッピング方法をサポートする。

サンタクララのAiFiはシリーズBで6500万ドルを調達し、それにはリテイルのパートナーAldiやZabka、そしてVerizon Venturesが参加した。後者は、AiFiが5Gの技術を使えるようにした。

このラウンドで同社の総調達額は8000万ドルになり、今年はAiFiがステルスを脱してから4年目、Gu氏の言う「プレ・シリーズB」から2年後になる。

Gu氏によると、新たな資金の主な用途は、同社のデプロイメントのチームを強化して、お店の立ち上げをもっと速く効率的にすることだ。この、展開に要する時間に関しては、Gu氏はAiFiが従来の公式を破ったと信じている。2020年には、お店がお客を迎えられるまでに6か月を要したが、今の同社はそれを1週間足らずに縮小している。

このほかさらに、製品開発と機能の強化にも新たな資金を投じていくつもりだ。

氏は曰く、「自律型チェックアウトはまだ始まったばかりだ。弊社が得たデータを見ると、人びとは自律店の管理方式をeコマースのWebサイトと同じもののように見始めている」。

今回の資金は、AiFiが成長を経験しているときに投入された。2年前の同社には一般的に利用されるお店が一軒もなかったが、いまではZabka(ポーランドのコンビニ)の30店を含めて40店ある。初めのころ、最大のお店は300平米弱だったが、今年の1月にはロンドンにその倍の面積のAldi(ドイツのディスカウント店)のストアを開店した。

昨年の11月にはAiFiはパリに進出し、カルフール(Carrefour)のコンセプトストア10/10 Flash(10秒で買って10秒で払う)を初めて手がけた。さらにNFLのスタジアムや音楽フェスティバルにも採用され、接客に要する時間と行列の待ち時間を半減し、一人あたりの売り上げを170%増やした。

Gu氏によると、AldiとCarrefourとZabkaは、コンピュータービジョンを利用した自律店が世界でもっとも多いが、目下同社はCompass Groupとの協働で、アイルランドで初めてのフリクションレスストアMarket x Flutterを準備中だ。

この間AiFiの年商は5〜6倍に増加し、社員数も2020年の40名から全世界で115名に増えた。

一方Gu氏によると、パンデミックで多くのリテイラーと消費者の両方が自律店の重要性を理解するようになった。とくに人手不足に悩む小売店にとって、都合の良い方式だ。

また、「Great Resignation(大退職時代)」による労働力不足は実はリテイラーを苦しめる第二波で、第一波は、人びとがお店で物に触りたくないから来店が減るという現象だった、とMoor InsightsのリテールテクノロジーアナリストMelody Brue氏が言っている。

しかし、お店のチェックアウト時間が減って購入量が増えるという、AiFiのパイロット時点のデータを彼女も認める。また、小さなお店ではサプライチェーンの管理が改善されて在庫管理が精密になる、という利点もある。

Brue氏はこう言っている: 「顧客の買い物の仕方に関するデータは大量にある。中でも重要なのは、お店のどこでたくさん買い物をして、どんな商品がいちばん売れるか、というデータだ。自律店では、店長などが人力でデータを集めていたときに比べると、もっとたくさんの情報が得られる。人力のデータ収集は時間がかかり、ポテトチップは2番通路よりも4番通路がよく売れるなんてことを、見つけにくい」。

自立型リテールという分野には、今でも投資が続いている。たとえば数週間前には、フランスの新興コンビニエンスストアBoxyが2800万ドルの調達を発表し、またWalmartなどの仕事をしているFocal Systemsも、そのリテールオートメーション技術で2580万ドルを調達した。

Brue氏はさらに続けて、「今はオートメーションと人工知能とリテールに投資が集中している。またある意味では、それらのフィンテック成分があるとも言える。AiFiへの最初の投資が小さかったように、ちょっと水に足をつけてみて様子を見る、という側面もあったが、今や大きな投資になっている。過去2年のVCたちの投資は、人びとの生活に便利と効率をもたらすという、テーマに惹かれての投資だった。そして金融とリテールの視野で見れば、今やブームになりつつある」、と言っている。

(文:Christine Hall、翻訳:Hiroshi Iwatani)
画像クレジット: AiFi/ワルシャワのZabkaの店の例

[原文へ]

数千年にわたり損なわれていた古代ギリシャの碑文の完成をAIが支援

古代ギリシャ語の研究者にとって、頼りとする原文が数千年前のものという古さゆえに、修復不可能なほど損傷しているというようなことはよくある。DeepMind(ディープマインド)が開発した機械学習モデル「Ithaca(イサカ)」が、歴史家にとって新しい強力なツールになるかもしれない。失われた単語や文章の位置と書かれた年代を驚くほど正確に推測する。AIの珍しい応用例だが、その有用性が技術分野以外でも発揮されることを証明している。

不完全な古文書は、劣化した物質に関するさまざまな分野の専門家が関わる問題だ。原文は石、粘土、パピルスに刻まれている。アッカド語、古代ギリシャ語、リニアA言語で、食料品店の請求書から英雄の旅まで、あらゆることが書かれている。いずれの文書にも共通するのは、数千年の間に蓄積された損傷だ。

文字が磨り減ったり、ちぎれたりしてできた空白は「欠落」と呼ばれ、短いものでは1文字、長いものでは1章、あるいは1つの物語全体が欠落していることもある。欠落を埋めるのは簡単でも不可能でもないが、その間のどこからか始めなければならない。ここでIthacaの出番となる。

Ithaca(オデュッセウスの故郷の島から名づけられた)は、古代ギリシャの膨大なテキストで訓練されており、不足している単語やフレーズが何であるかだけでなく、それがどのくらい古いものか、どこで書かれたかも推定できる。ただ、それだけで叙事詩の全巻を埋めることはできない。これは、この種のテキストを扱う人たちのためのツールであり、解決策ではない。

「Nature(ネイチャー)」誌に掲載された論文では、ペリクシア時代のアテネの勅令を例にとって、その有効性を実証した。紀元前445年に書かれたと考えられているこの勅令は、Ithacaのテキスト分析によれば、実際には紀元前420年前後のものであり、より新しい証拠と一致している。大したことには聞こえないかもしれないが、もし権利章典が実際には20年後に書かれたとしたらと想像してほしい。

画像クレジット:DeepMind

テキストそのものについては、専門家による1回目の結果は、正解が約25%だった。決して優秀とは言えない。もちろん、テキストの復元は午後のお遊びではなく、長期的なプロジェクトであることは言うまでもない。しかし、人間とIthacaの組み合わせでは、すぐに72%の精度を達成することができた。これは他のケースでもよく見られることだ。究極的には人間の精度の方が高いものの、行き詰まりを素早く排除したり、出発点を示唆したりして、プロセスを加速できる。医療データの場合、AIがすぐに気づくような異常を人間は見落としがちだが、最終的に詳細に気づき、正しい答えを見つけるのは人間の専門知識だ。

Ithacaは、手元に欠落の多い古代ギリシャ語のテキストがあれば、このサイトで簡易版を試せる。また、そこで提示されている複数の例から1つを使って、空白がどのように埋められるのかを見ることもできる。長い文章や、10文字以上欠けている場合は、このColabノートブックで試してみてほしい。コードはGitHubのこのページで公開されている。

古代ギリシャ語はIthacaがはっきりと結果を出せる分野だが、チームはすでに他の言語についても懸命に取り組んでいる。アッカド語、デモティック語、ヘブライ語、マヤ語はすべてリストに載っており、今後さらに増えると期待される。

「Ithacaは、人文科学における自然言語処理と機械学習の貢献の可能性を示しています」と、このプロジェクトに携わったアテネ大学のIon Androutsopoulos(イオン・アンドラウトソプロス)教授は話す。「この可能性をさらに実証するためにIthacaのようなプロジェクトがもっと必要ですが、それだけでなく、人文科学とAI手法の両方をよく理解している将来の研究者を育てる適切なコースや教材も求められます」。

画像クレジット:Image Credits: Wikimedia Commons under a CC BY 2.0 license.

[原文へ]

(文:Devin Coldewey、翻訳:Nariko Mizoguchi

RPAソフト市場の成長は2023年から横ばいになるとフォレスターが予測

2021年、RPA(ロボティック・プロセス・オートメーション)は大人気で、マーケットリーダーのUiPathが大きな評価額で上場し、また大きな安定企業が小さなベンダーの買収を始めるなど、話題も多かった。しかしそれでも、RPAは以前から常によりインテリジェントでノーコードな方法へと移行していく前にレガシーのプロセスを扱う、過渡期的な自動化ソリューションと考えられてきた。

Forrester Researchの最新データもそんな説を支持し、RPAの市場は2025年に65億ドル(約7560億円)に達するが、しかしその頃から企業はAIを本格的に導入したオートメーションのソリューションへ移行していくため、RPAの成長は横ばいになると予想している。

RPA市場に関する最新の報告で、同社は次のように述べている。「2021年のすごい成長は2022年も続くと予想される。それはパンデミックを契機とする自動化の需要や目下進行中のデジタルトランスフォーメーションの事業によるものだ。しかし2023年以降は、成長率は横ばいになっていくだろう」。

2018年の報告書は、2019年の市場を11億ドル(約1280億円)と予想しているため、2025年の65億ドルという予想は確かに大きいが、しかしSalesforce1社の直近の四半期の売上が70億ドル(約8143億円)であるため、それに比べればまだかなり小さい。

複雑なソリューションの実装を助けるサービスの市場は、RPAのソフトウェアの売上に比べて相当堅調な成長が予想されている。Forresterによると、RPA関連のサービスの売上は2025年に160億ドル(約1兆8614億円)に達して、それらに実装を助けてもらうRPAソフトウェア本体の売上のほぼ3倍になる。サービスとソフトウェアを合わせれば、2025年は250億ドル(約2兆9085億円)という、はるかに大きな市場規模になる。

画像クレジット:Forrester Research

ForresterのアナリストであるLeslie Joseph(レスリー・ジョセフ)氏による、サービスの売上の定義は「サービスのベンダーが、プロダクトに関するコンサルティングや開発、実装、メンテナンス、サポートなどのサービスを提供して得る売上」だ。サービスベンダーとは、AccentureやIBMやEYのような、システムインテグレーターやコンサルティングやアドバイスを提供する企業だ。彼らが、RPAソフトウェアのパートナーやリセラーのこともある。

Forresterの予想では、これまでRPAソフトウェアへ行っていたお金の一部が広義のAIオートメーションソリューションへ行くようになる。なお、RPAの「R」はロボティクスだが、それは本当の意味のAIではない。この場合のロボットとは、一連の高度な手作業に多くを依存していたタスクをを完遂する、スクリプトのようなものだ。それと比較するとノーコードのオートメーションによるソリューションは、ワークフローを容易に作れて、おそらくコンサルティングの助けが要らないものだ。AIがタスクをインテリジェントに実装する方法を提供し、これまでのように本格的で高度なコーディングによって定義された一連のワークを次々こなしていくのではなく、データに基づくステップを踏んでいく。

UiPathが2021年に350億ドル(約4兆707億円)の評価額で、IPOの前の最後のプライベートな資金調達として7億5000万ドル(約872億円)を調達したとき、投資家たちは熱狂したが、しかしそれでもこの下落が起こっている。米国時間3月9日の同社の時価総額は150億ドル(約1兆7438億円)ほどで、2021年は年間を通してソフトウェア企業が株式市場で不振だったことを考慮に入れたとしても、確かに急落だといえる。

一方、SAPがSignavioを買収し、ServiceNowがIntellibotを買収、そしてSalesforceがServicetraceを持っていくといった重要な整理統合もあった。RPA専業ベンダーのトップスリーの1つであるBlue Prismは、Vista Equityのパートナーたちからの申し出を断った後で、SS&Cからの16億ドル(約1860億円)を受け入れた。この取引は今月後半に完了すると予想されている。

RPA市場について2021年に5社の投資家にアンケートした際、特にRPAという技術の有意性が長期的にはいかにして担保されるかを聞いた。投資家たちの答えは、市場が今後も継続的に大きくなる、というものだったが、Forresterが正しければ、顧客が最新のAIによるオートメーションサービスを求めるにともなって、市場は変わっていくかもしれない。

画像クレジット:Sean Gladwell/Getty Images

原文へ

(文:Ron Miller、翻訳:Hiroshi Iwatani)

Strong Computeは機械学習モデルのトレーニングを「100倍以上高速化」できると主張する

ニューラルネットワークのトレーニングには、市場で最も高速で高価なアクセラレータを使ってさえも、多大な時間がかかる。だから、多くのスタートアップ企業が、ソフトウェアレベルでプロセスを高速化し、学習プロセスにおける現在のボトルネックをいくつか取り除く方法を検討していることも、不思議ではないだろう。オーストラリアのシドニーに拠点を置くスタートアップで、最近Y Combinator(Yコンビネーター)の22年冬クラスに選抜されたStrong Compute(ストロング・コンピュート)は、学習プロセスにおけるこのような非効率性を取り除くことによって、学習プロセスを100倍以上高速化することができると主張している。

「PyTorch(パイトーチ)は美しいし、TensorFlow(テンソルフロー)もそうです。これらのツールキットはすばらしいものですが、そのシンプルさ、そして実装の容易さは、内部において非効率的であるという代償をもたらします」と、Strong ComputeのCEO兼創設者であるBen Sand(ベン・サンド)氏は語る。同氏は以前、AR企業のMeta(メタ)を共同設立した人物だ。もちろん、Facebook(フェイスブック)がその名前を使う前のことである。

一方では、モデル自体を最適化することに注力する企業もあり、Strong Computeも顧客から要望があればそれを行うが、これは「妥協を生む可能性がある」とサンド氏は指摘する。代わりに同氏のチームが重視するのは、モデルの周辺にあるものすべてだ。それは長い時間をかけたデータパイプラインだったり、学習開始前に多くの値を事前計算しておくことだったりする。サンド氏は、同社がデータ拡張のためによく使われるライブラリのいくつかを最適化したことも指摘した。

また、Strong Computeは最近、元Cisco(シスコ)のプリンシパルエンジニアだったRichard Pruss(リチャード・プルス)氏を雇用し、すぐに多くの遅延が発生してしまう学習パイプラインのネットワークボトルネックを除去することに力を注いでいる。もちろん、ハードウェアによって大きく違うので、同社は顧客と協力して、適切なプラットフォームでモデルを実行できるようにもしている。

「Strong Computeは、当社のコアアルゴリズムの訓練を30時間から5分に短縮し、数百テラバイトのデータを訓練しました」と、オンライン顧客向けにカスタム服の作成を専門とするMTailor(Mテイラー)のMiles Penn(マイルス・ペン)CEOは語っている。「ディープラーニングエンジニアは、おそらくこの地球上で最も貴重なリソースです。Strong Computeのおかげで、当社の生産性を10倍以上に向上させることができました。イテレーション(繰り返し)とエクスペリメンテーション(実験)の時間はMLの生産性にとって最も重要な手段であり、私たちはStrong Computeがいなかったらどうしようもありませんでした」。

サンド氏は、大手クラウドプロバイダーのビジネスモデルでは、人々ができるだけ長くマシンを使用することに依存しているため、彼の会社のようなことをする動機は一切ないと主張しており、Y Combinatorのマネージングディレクターを務めるMichael Seibel(マイケル・サイベル)氏も、この意見に同意している。「Strong Computeの狙いは、クラウドコンピューティングにおける深刻な動機の不均衡です。より早く結果を出すことは、クライアントから評価されても、プロバイダーにとっては利益が減ることになってしまうのです」と、サイベル氏は述べている。

Strong Computeのベン・サンド氏(左)とリチャード・プルス氏(右)

Strong Computeのチームは現在、依然として顧客に最高のサービスを提供しているが、その最適化を統合してもワークフローはあまり変わらないので、開発者はそれほど大きな違いを感じないはずだ。Strong Computeの公約は「開発サイクルを10倍にする」ことであり、将来的には、できる限り多くのプロセスを自動化したいと考えている。

「AI企業は、自社のコアIPと価値がある、顧客、データ、コアアルゴリズムに集中することができ、設定や運用の作業はすべてStrong Computeに任せることができます」と、サンド氏は語る。「これにより、成功に必要な迅速なイテレーションが可能になるだけでなく、確実に開発者が企業にとって付加価値のある仕事だけに集中できるようになります。現在、開発者は複雑なシステム管理作業のML Opsに、最大で作業時間の3分の2も費やしています。これはAI企業では一般的なことですが、開発者にとって専門外であることが多く、社内で行うのは合理的ではありません」。

おまけ:下掲の動画は、TechCrunchのLucas Matney(ルーカス・マトニー)が、サンド氏の以前の会社が開発したMeta 2 ARヘッドセットを2016年に試した時のもの。

画像クレジット:Viaframe / Getty Images

原文へ

(文:Frederic Lardinois、翻訳:Hirokazu Kusakabe)

【コラム】メタバースで優先されるべき課題は「責任あるAI」

最近のBloomberg Intelligence(ブルームバーグ・インテリジェンス)の調査によると、メタバースには8000億ドル(約92兆円)の市場規模があるそうだ。実際にメタバースとは何なのか、ということについては、多くの人が議論しているところではあるが、これだけの金と好奇心に取り巻かれているものだから、誰もが話題にしたがるのも当然だろう。

メタバースではAIが、特に私たちが他者とコミュニケーションを取る際に、重要な役割を果たすことは間違いない。私たちはこれまで以上に他者とつながりを持つようになるだろうが、政府や規範、倫理規定に縛られないAIは、邪悪な影響をもたらす可能性がある。元Google(グーグル)CEOのEric Schmidt(エリック・シュミット)氏が最近問いかけたように「誰がルールを決めるのか?」ということだ。

AIの影響を理解する

AIアルゴリズムは、偏向のある人間によって作られるため、作成者の思考パターンや偏見に従うように作られることがあり、しかも、それが増殖していくことがある。AIが性差別を生み出す、例えば、女性よりも男性に大きなクレジットカードの限度額が与えられたり特定の民族がより不当な差別を受ける傾向にあることは、我々がこれまで見てきたとおりだ。より公平な、繁栄するメタバースを作るためには、偏向を生み出し、それを永続させるダークなAIのパターンに対処する必要がある。しかし、誰がそれを決定するのだろう? そして、人間はどうやって偏向を回避できるのだろうか?

この「野放しのAI」を緩和するための解決策は、すべての組織で倫理基準を策定することだ。私たちの見解では、ダークAIのパターンは侵略的になる可能性が高い。ほとんどのAIは倫理的な監視なしに開発されているが、メタバースではこれを変えなければならない。

AIをメタバースにおけるメッセージの翻訳に活用する

私は、1人の熱心な語学学習者として、また、AIと人間を使って人々をグローバルにつなぐ会社の創設者として、誰もが複数の言語を話すスーパーポリグロットになれるという可能性に胸を踊らせている。だが、さらに興味があるのは、そのAIがどのように機能するかを理解することだ。

メタバースでは、多くのユーザーが各々の言語でコミュニケーションすることになるだろうが、AIによる言語翻訳が利用できる可能性もある。しかし、AIを使った言語テクノロジーは、我々が注意しなければ、偏向を永続させてしまうおそれがある。その言語AIが、倫理的であるようにきちんと訓練されていることも、確認する必要がある。

例えば、ジョーのアバターがミゲルのアバターと話したがっているが、ジョーとミゲルは同じ言語を話さないという状況を想像してみよう。AIは彼らのメッセージをどのように翻訳するのだろうか? そのまま言葉を直訳するのだろうか? それとも、文字通りに訳すのではなく、メッセージを受け取った人が理解できるように、その人の意図に沿った翻訳をするのだろうか?

人間と機械の境界線を曖昧にする

メタバースでは、いかに私たちが「人間的」かということが重要になるだろう。企業は言語テクノロジーを使って、会話を異なる言語にすばやく翻訳することで、オンラインコミュニティ、信頼、インクルージョンの創出に役立つことができる。

しかし、私たちが選ぶ言葉に気をつけなければ、テクノロジーは偏見を生み、不作法な行動を許すことにもなりかねない。どのようにかって?あなたは3歳児がAlexa(アレクサ)に話しかけているのを聞いたことがあるだろうか?それはとても「感じが良い」とは言えない。人は、自分がやり取りしている相手が本物の人間ではなくテクノロジーであるとわかると、礼儀正しくする必要を感じなくなる。だから顧客は、チャットボットやAmazon(アマゾン)のAlexa、電話の自動応答などに対して失礼な態度を取るのだ。それはさらにエスカレートしてしまう可能性がある。理想とする世界は、言語のためのAIが、人間を正確に表現するために必要なニュアンスや共感を捉えるようになり、それによってメタバースが人間とテクノロジーがともに栄える場所となることだ。

メタバースの非人間的なAIは、ネガティブにもなりかねない。適切な言語は、リアルで感情的なつながりと理解を生み出すことができる。AIを活用した言語運用によって、適切なメッセージはブランドを人間的に感じさせるために役立つ。ブランドが瞬時に多言語でコミュニケーションできるようにするための技術は、極めて重要なものになるだろう。顧客の信頼は母国語によって築かれると、私たちは考えている。しかし、ボーダーレスでバーチャルな社会は、どうやって母国語を持つことができるだろうか? そして、そんな環境は、どうやって信頼を生み出すことができるのだろうか?

先述したとおり、メタバースは企業にとって、バーチャルな世界で露出を増やすことができる大きな可能性を秘めている。人々はすでにバーチャル・ファッションにかなりの大金を投じるようになっており、この傾向は間違いなく続くだろう。ブランドは、実際に会って交流するよりも本物らしい、あるいはそれ以上に魅力を感じられるような、オンライン体験を作り出す方法を見つける必要がある。これは越えるのが大変な高いハードルだ。スマートな言語コミュニケーションは、そのために欠かせないものとなるだろう。

メタバースが最終的にどのようなものになるかは、誰にもわからない。しかし、AIがある集団に他より過度な影響を与えたり、AIが自社製品の人間性を失わせた、なんてことで記憶される企業には誰もなりたくないはずだ。AIは良い意味でパターンを予測する能力がどんどん向上するだろう。しかし、野放しにしておくと、AIはメタバースにおける私たちの「生き方」に深刻な影響を与える可能性がある。だからこそ、責任あるAI、倫理的なAIのための倫理が必要なのだ。

AIが、言語やチャットボット、あるいはブランドの仮想現実に多用されていくと、それによって顧客が信頼や人間らしさの感情を失う機会も増えるのだ。私たちがメタバースで平和に「生きる」ことができるように、AIの研究者や専門家が企業と協力して、責任あるAIの枠組みに解決を見出すことが求められている。

編集部注:本稿を執筆者Vasco Pedro(ヴァスコ・ペドロ)氏はAIを利用して人間が編集を行う翻訳プラットフォーム「Unbabel(アンバベル)」のCEO。

画像クレジット:japatino / Getty Images

原文へ

(文:Vasco Pedro、翻訳:Hirokazu Kusakabe)

アニメーションと音声で写真に生命を吹き込む、MyHeritageとD-IDが提携し故人が話す動画が作成可能に

2021年、家系調査サービスのMyHeritageが、故人の顔写真を動画化できる斬新な「ディープフェイク」機能を導入して話題になった。TikTokのユーザーたちはいち早くその技術に反応して、動画を投稿し、自分が会ったこともない親戚やまだその死を悲しんでいる故人を蘇らせて、「ディープノスタルジア」と呼んだ。今日まで、1億枚以上の写真がこの機能で動画になった。そしてその機能が進化した。米国時間3月3日、MyHeritageはパートナーのD-IDとともに「ディープノスタルジア」を拡張した「ライブストーリー」機能をローンチした。写真の人物を生き返らせるだけでなく、彼らに話をさせるのだ。

MyHeritageが技術をライセンスしたD-IDはテルアビブのスタートアップで、AIとディープラーニング利用した再現動画の技術で特許を取得している。

D-IDの技術は、APIを通じて開発者に提供され、メディア、教育、マーケティングなど、さまざまなライセンシーに利用されています。例えばWarner Bros.(ワーナー・ブラザーズ)は、D-IDを利用して、ユーザーが映画の予告編をアニメーション写真でパーソナライズできるようにしたり、ハリー・ポッター展のために協力した。Mondelēz International、広告代理店のPublicis、Digitas Vietnamは、地元の祭りのマーケティング活動でD-IDと提携している。インドの短編動画アプリJoshは、顔アニメーションの技術をクリエイティブツールとして統合した。また、非営利団体や政府も、さまざまな啓発キャンペーンにこの技術を利用している。

MyHeritageは、こライブストーリーでD-IDの最新AI技術をユーザー向けに利用している。この機能を使うためには、ユーザーはまず無料でMyHeritageのアカウントを無料で作成することができ、その技術を何度か無料で試用できる。その後は、有料のサブスクリプションでライブストーリーを無制限に利用できる。

本技術で先祖の人生を物語にしたり、それを本人に語らせることもできる。それを可能にするのが、D-IDの特許取得技術Speaking Portrait Technology(肖像発話技術)だ。アップロードされた写真をもとにナレーション入りの動画を作り、それを合成音声生成装置にかける。語られるストーリーは、ユーザーが提供したテキストだ。

 

言葉と唇の動きが同期するためにD-IDは、人が話している動画のデータベースでニューラルネットワークを訓練した。言語は、どんな言語でもよいというが、MyHeritageは10種ほどの方言や、性による声の違いを含む31言語をサポートしている。

D-IDの共同創業者でCEOのGil Perry(ギル・ペリー)氏によると「優秀な技術であるためドライバービデオは不要です」という。つまり、本物の人物の動きを動画で撮影し、それを静止画像にマップする処理は不要だ。「テキストと写真があれば、その人が話している動画ができ上がります」という。「ただし、まだ完璧な技術ではありません。現状は、本当に良質なリップシンクらしいものを作ったにすぎません」とのこと。

そうやって作成されたライブストーリーは、それを見たり、友だちと共有したり、ソーシャルメディアに投稿することができる。テキストを編集し、さらに話をカスタマイズし、別の声を選んだり、自分が録音したオーディオをアップロードしてもいい。

画像クレジット:D-ID

D-IDの長期的な展望は、この技術をメタバースの環境で使うことだ。メタバースであれば顔だけでなく、デジタルアバターを動画にできるし、体全体の動きを3Dで表現できる。ペリー氏はユーザーが自分の幼児期や家族、歴史的人物の写真をアップロードして、それらをメタバースで動かし、会話をさせることもできると考えている。

「子どもたちがAlbert Einstein(アインシュタイン)と会話して、彼の話を聞いたり、彼に質問したりすることもできるでしょう。しかも彼は疑問に答えてくれます。さらにユニバーサル翻訳であれば、アインシュタインはユーザーの母国語で会話することもできるはずです」。

もちろんそんな技術は何年も先のことだが、実現するとすれば、それらはディープノスタルジーやライブストーリーのような、今日開発したコンセプトに基づいて作られることとなる。

MyHeritageとD-IDはそれぞれ、この技術を別々のやり方でデモする独自のアプリを世に送り出す。D-IDによると、それは数週間後だという。

MyHeritageのライブストーリー機能は本日、米国時間3月3日、家族史テクノロジーのカンファレンスRootsTechで発表された。デスクトップとモバイルウェブ、MyHeritageのモバイルアプリで利用できる。

MyHeritageの創業者でCEOのGilad Japhet(ギラッド・ジャフェ)氏は、ライブストーリーのローンチに関する声明で次のように述べている。「最新機能で、MyHeritageは今後もオンライン家族史の世界をビジョンとイノベーションの両方でリードし続けることになります。AIを利用して歴史的な写真に新しい命を吹き込むことはユニークな機能であり、何百万もの人が先祖や愛する故人との感情的な結びつきを掘り起こし一新することができます。家系の本質は家族史の表現と保存にあり、私たちは世界に向けて家系の楽しさと魅力を伝えていきたい」。

D-IDは、Sella Blondheim(セラ・ブロンドハイム)氏とEliran Kuta(エリラン・クタ)氏が創業。現在、チームは32名で今後は米国や英国、シンガポール、そしてイスラエルでそれぞれ現地の人数を増やし、社員数を倍増したいと考えている。

画像クレジット:D-ID

原文へ

(文:Sarah Perez、翻訳:Hiroshi Iwatani)

農研機構、栽培施設内を無人走行し果実の収穫量をAIで予測する「着果モニタリングシステム」

農研機構、栽培施設内を無人走行し果実の収穫量をAIで予測する「着果モニタリングシステム」

農業・食品産業技術総合研究機構(農研機構)は施設栽培向けに、着果を監視し収穫量を予測するAIシステム「着果モニタリングシステム」を開発。従来対象のトマトに加え、パプリカにおいて実用化の目途がたったと3月1日に発表した。モニタリング装置を施設内で無人走行させ、収穫可能な果実数を推定することで、管理や収穫に必要な人員を効率的に配置できるようになる。

施設園芸の大規模化が進んでいるが、大規模生産法人では生産コストの約3割が人件費とされている。特に収穫には多くの時間がかかるため、収穫作業の効率化が経営改善に大きく影響する。だが作業を効率化するためには、収穫に必要な人員の数や配置を適切に計画する必要があり、それには収穫できる果実の位置や数を適切に予測することが重要となる。

農研機構が開発したこのシステムは、着果モニタリング装置を搭載した高所作業車を施設内で無人走行させながら植物を撮影し、その画像をつなげた展開画像をAIで分析することで、収穫可能な果実を自動検出するというものだ。深層学習により構築した果実検出モデルにより、画像から果実を検出。画像の色から果実の成熟度を評価し、成熟順に分類。そこから収穫可能な果実の数と位置を割り出し、管理や収穫に必要な人員の効率的な配置を策定できるようにする。

この技術はトマトを対象に開発されてきたが、パプリカでも実用化の目途がついた。大規模パプリカ生産法人で試験を行ったところ、同システムが収穫可能と判断した果実の数と、翌週の実際の収穫量とがほぼ一致した。そこで農研機構は、3月9日から12日まで東京ビッグサイトで開催される「国際ロボット展2022」にこのシステムを出展することにした。

同開発機は、2022年度以降の実用化を目指すという。また今後は、作業者の違いによって生じる収穫作業時間の予測誤差の低減、予測適応時間の拡大を図り、トマトとパプリカ以外の作物の適用可能性、着花計測、病害虫や整理障害株の検出、葉面積計測など、汎用的な画像収集装置としての利用も検討する予定。

世界最大級の食品会社が新製品を開発するとき、まず相談するAIデータ分析「Tastewise」

Tastewiseの共同設立者アロン・チェン氏とエイエル・ガオン氏(画像クレジット:Hadar Berl)

食品を市場に出す適切な時期を調査することは、従来はアンケートやフォーカスグループを通じて行われてきたが、Tastewise(テイストワイズ)はこれをテクノロジーでより良く実現できると考えている。

イスラエルに拠点を置く同社は、人工知能(AI)によるデータ分析を開発し、食品ブランドが次のヘルシー、持続可能でおいしい製品について、製品開発、マーケティング、小売販売に関するよりスマートな意思決定を行えるよう支援している。また、世界中の100万以上のレストランをモニタリングし、食品ブランドとその食品を試したがっている人々を結びつけている。

Tastewiseは過去5年間で、Nestlé(ネスレ)、PepsiCo(ペプシコ)、Kraft Heinz(クラフトハインツ)、Campbell’s(キャンベル)、JustEgg(ジャストエッグ)など、トップクラスの食品・飲料メーカーや新進気鋭のフードテック系スタートアップからなる顧客ベースを持つまでに成長した。

そしてこのたび同社は、新たにシリーズAで1700万ドル(約19億6400万円)の資金を確保した。Disruptiveがこのラウンドをリードし、既存投資家であるPeakBridgeとPICO Venture Partnersに加わった。今回の資金調達により、Tastewiseの累計調達額は2150万ドル(約24億8400万円)に達した。

Tastewiseの共同創業者兼CEOであるAlon Chen(アロン・チェン)氏は、12歳のときから独学でコードを書き始めたエンジニアで、5年前に母親のシャバット(安息日)のディナーから会社のアイデアを得た後、Google(グーグル)でのキャリアを捨てたという。

「母はすばらしいシャバットディナーを作るのですが、私たち家族にその週の食事のニーズ(好みやアレルギー、栄養ニーズなど)を聞いてくるようになったのです」とチェン氏。「共同創業者のEyal Gaon(エイエル・ガオン)とともに、消費者の食生活のニーズが以前よりとても早く変化していることに気づかされました。21世紀になっても、毎年発売される3万個の新商品のうち、9割が失敗しているのです。画一的なアプローチは、もはや不可能なのです」。

同氏は、最も革新的なフードテック企業でさえ、いまだに時代遅れの小売データに頼って商品戦略を考えており、正しいデータから始めなければ、間違った答えが返ってくることを説明した。

そこでチェン氏とガオン氏は、食品・飲料企業がより健康的な食品、新しいフレーバー、植物由来のバリエーションなどで10兆ドル(約1155兆円)規模の業界をディスラプトし、新製品の販売と採用を加速させる方法でそれを実現できるよう、データ専用のプラットフォーム構築に乗り出した。

2017年にスタートして以来、2020年と2021年に増資を行ったTastewiseは無駄のない運営を行っているとチェン氏はいう。同社は2020年から2021年にかけて売上を3倍に拡大し、現在は米国やイギリスだけでなく、インド、オーストラリア、ドイツ、カナダ、フランスへとデータと人材の拡充を進めている。

米国とイスラエルではすでに従業員数を2倍に増やし、食品・飲料ブランド上位100社のうち15%近くと、数十社のフードテックスタートアップと協業しているという。

「Tastewiseを始めた当初、フードテックはまだ存在しておらず、食品・飲料の予測分析について投資家と話を始めたとき、これが未来だと話していました」とチェン氏は語る。「私たちは、世界がデータを取得し、食品業界を改善し、よりヘルシーでおいしいものを作る手助けをしなければなりません」。

原文へ

(文:Christine Hall、翻訳:Den Nakano)

Ambient.aiはAIを活用したビルセキュリティで偏見やプライバシーによる落とし穴をふさぐ

「ちょっと、そこは入れませんよ」。建物とカメラをいくつか通過すると、セキュリティの仕事はすぐに複雑で途方もない状況になる。誰が一度にすべての場所を見張り、間に合うように人を送って問題を防ぐことができるだろうか。Ambient.aiはAIでそうできると最初に主張したわけではないが、最初に実際に大きな規模でそうしたのかもしれない。そして、成長を続けるために5200万ドル(約59億1000万円)を調達した。

昨今の業務処理問題は、誰でも指摘できる種類のものである。現代の会社や学校にある幾十幾百ものカメラからは膨大な量の映像やデータが生み出され、専門のセキュリティチームでもすべてを把握するのは困難だろう。結果として、重要な事象が発生してもそれを見逃すだけでなく、間違ったアラームや音に耳を向けてしまう可能性もある。

「犠牲者はいつも、誰かが助けに来てくれることを期待してカメラを見るが、実情はそうではない」と、Ambient.ai(アンビエント.ai)のCEO兼共同創業者、Shikhar Shrestha(シカー・シュレスタ)氏はTechCrunchに語った。「ベストの状態でも、インシデントが起きるのを待っていて、ビデオを見て、そこで仕事をするわけです。カメラはあり、センサーはあり、警備員もいる。欠けているのは、仲立ちをする頭脳です」。

明らかに、シュレスタ氏の会社は頭脳の提供を目指している。セキュリティのライブ映像の中央処理装置によって、問題が発生したら即座に適切な担当者に通知できる。そうした努力を危険にさらす先入観はない。顔認識もしない。

以前にもこの特定のアイデアに取り組む例はあったが、これまでのところ本気で採用した例はない。シュレスタ氏によれば、第1世代の自動画像認識は単純な動作検出で、画面上の画素に動きがあるかどうかを確認するにすぎず、木なのか家宅侵入者なのかも見分けられなかった。次に来たのが、深層学習を使用した物体認識だった。手に銃を持っているのか、窓が割れているのか識別できた。これは役に立つことがわかったが、限界があり、維持に少々手がかかった。状況や物に対して特別なトレーニングがたくさん必要だった。

「ビデオを理解するために人が行うことを見て、他の情報も大量に取り入れることにしました。座っているのか、立っているのか、ドアを開けているのか、歩いているのか、走っているのか、屋内にいるのか、屋外にいるのか、昼間か夜間か、といったことです。私たちは、そうしたことをすべて一緒にして状況を総合的に理解します」と、シュレスタ氏は説明した。「私たちは、コンピューターの映像インテリジェンスを使って映像の事象全体をマイニングします。あらゆるタスクを分解してそれをプリミティブと呼びます。相互作用や物体などです。その後、それらの構成要素を結びつけて「シグネチャ」を作成します」。

Ambient.aiのシステムでは、行動の要素を使用し、それらの要素を相互に結びつけて、それが問題になるかどうか示す(画像クレジット:Ambient.ai)

シグネチャは「夜間に長時間車内で座っている人物」や、誰ともやり取りせずにセキュリティチェックポイントの傍らに立っている人物」のようなもので、数は任意である。チームによって調整・追加されたものや、モデルによって独自に追加されたものがある。シュレスタ氏は「管理された半教師あり手法の一種」と説明した。

AIを使用して一度に100のビデオストリームをモニタリングすることのメリットは明らかだ。何か悪いことが起きる見当をつける点でAIの出来がたとえ人間の80%だとしてもである。注意散漫、疲労、目が2つしかないといった弱点がないAIは、時間やフィード数の制限なしに成功のレベルを上げることができる。これは、成功の機会が実際にかなり大きいということだ。

銃だけを探す初期のAIシステムでも数年前から同じことが言われていたかもしれないが、Ambient.aiが目指しているのはもっと総合的なものである。

「私たちは意図的に、プライバシーの考えを中心にしてプラットフォームを構築しました」と、シュレスタ氏は述べた。AIを活用したセキュリティというと「人はすぐに顔認識が含まれているものと考えるが、私たちの手法ではこの大量のシグネチャイベントがあり、顔認識を必要としないリスク指標を利用できます。何が起きるかを示す画像やモデルは1つだけではありません。これらのさまざまな要素をすべて活用して、システムの記述レベルを上げることができます」。

基本的にこれは、各個人の認識活動を最初から先入観のないものに保つことによって行われる。例えば誰かが座っているか立っているか、どれくらい長くドアの外で待っているか、といった行動をそれぞれ監査し、発見して、構成やグループ全体で検出できた場合、そうした推測の総和も同様に先入観のないものになる。このように、システムの構造上、先入観は削減される。

しかし、先入観は潜行的で複雑であると言わなければならず、先入観を認識して軽減する能力は最先端には後れを取っている。それでも、直感的に言って、シュレスタ氏が述べたように「先入観で見られるものに関する推測のカテゴリーがない場合、そのようにして先入観が入り込むことはない」というのは本当のように思える。そうであることを望む。

Ambient.ai共同創業者。左はCTOのVikesh Khanna(ビケシュ・カナ)氏、右はCEOのシカー・シュレスタ氏(画像クレジット:Ambient.ai)

いくつかのスタートアップが同じように登場しては消えていったのを見てきたので、こうしたアイデアを記録で実証することは重要だ。Ambient.aiは比較的静かにしてきたにもかかわらず、製品に関するその仮説の証明に役立ってきた活発な顧客が多数いる。もちろん、過去2年間は厳密には通常の業務ではなかったが、効果がないのであれば「時価総額で米国最大級のテック企業の5社」が顧客になるというのは考えにくい(しかし現にそうである)。

名前の挙げられていない「Fortune(フォーチュン)500テクノロジー企業」のテストで、認証を受けた人のすぐ後からセキュリティで保護されたエリアに入る「共連れ」を減らすことを目指していた。そんなことをする人はいないと思うだろうか。何と、最初の週に2000のインシデントが特定された。しかし、事象のGIFをほぼリアルタイムでセキュリティ担当者に送信し、セキュリティ担当者はおそらく違反者に警告したのだろう。数字は週に200まで減少した。今は週に10である。おそらく私のような人間によるのであろう。

画像クレジット:Ambient.ai

Ambient.aiがドキュメント化した別のテストケースでは、学校のセキュリティカメラが、放課後に誰かがフェンスによじ登っている様子を捉えた。即座に映像が警備責任者に送信され、警察に通報された。その男には前科があることが判明した。ここで強調したいのは、学校を封鎖する必要があるということではなく(これはそうするのに役立つだろう)、そのドキュメントの中で述べられている別のことである。それは、システムが「誰かがフェンスによじ登っている」という認識と「これは8:45の少し前によく起きる」というような他のことを結びつけることができるということだ。だから、子どもが近道しても警察に通報されることはない。またAIは、よじ登ることと、落ちることと、ぶらつくこととを区別することもできる。こうしたことは、状況によって問題になったり、ならなかったりする。

Ambient.aiの主張では、システムの柔軟性は一部こうした「プリミティブ」による。プリミティブは現場の必要に応じて簡単に再調整が可能で、例えば誰かがフェンスによじ登っても、落ちない限りかまわない。また「あっ、これは誰かがフェンスを切断しているようだ」といった新しい状況を学習することもできる。チームは現在、約100の疑わしい行動の「シグネチャ」を持っており、今後1年でそれを倍に増やすつもりだ。

既存の警備人員の電話や無線機の呼び出しが鳴る機会を制御することで、既存の警備人員の効率が向上すれば、時間の節約になり、結果も良くなる(Ambient.aiは、日常的なアラームの数が概して85~90パーセント削減されると述べている)。また、AIを活用した映像のカテゴリー分類は記録やアーカイブにも役立つ。「夜間にフェンスによじ登る人の映像をすべてダウンロードしなさい」と命令する方が、5000時間手作業でスクラブするよりずっと簡単だ。

5200万ドル(約59億1000万円)のラウンドはa16z(アンドリーセン・ホロウィッツ)が取りまとめたが、Ron Conway(ロン・コンウェイ)氏、Y Combinator(Yコンビネーター)のAli Rowghani(アリ・ローガニ)氏、Okta(オクタ)共同創業者のFrederic Kerrest(フレデリック・ケレスト)氏、CrowdStrike(クラウドストライク)CEOのGeorge Kurtz(ジョージ・カーツ)氏、Microsoft(マイクロソフト)CVPのCharles Dietrich(チャールズ・ディードリッヒ)氏、その他数名の自分が何に投資しているかわかっている個人投資家の名前もあった。

「今は異色の時代です。セキュリティに携わる者はもっと多くのことを行うように期待されています。誰かがすべてのフィードを見守っている必要はないという基本的な提案は普遍的なものになりました」と、シュレスタ氏は述べた。「私たちは1200億ドル(約13兆6000億円)という多額のお金をセキュリティに費やしています。そこに結果が出ていないのはまともではありません。私たちはインシデントを防ぐことができていません。すべての道が一点に収束しているように感じます。組織が採用できる、将来も有効に使い続けられるセキュリティを提供できるプラットフォームになりたいと思っています」。

画像クレジット:Ambient.ai

原文へ

(文:Devin Coldewey、翻訳:Dragonfly)

「もっと早く知りたかった」、Gesundが医療アルゴリズム検証データを提供するために2.3億円を調達

医療アルゴリズムを開発することと、それが本当に機能することを証明することは、まったく別の話だ。そのためには、入手しにくいある重要なものが必要だ。医療データである。現在、とあるスタートアップ企業が、そのようなデータを、検証研究を容易にするツールとともに提供する準備を整えている。

今週、2021年に創業されたGesund(ゲズンド)が、500 Globalが主導する200万ドル(約2億3000万円)のシードラウンドでステルスから浮上した。CEOで創業者のEnes Hosgor(エネス・ホスゴー)氏はTechCrunchに対して、同社はすでに多くの実績を残していて、実行可能なプラットフォーム、30社の見込み顧客との取引、今四半期の売上見込みなどを見込んでいると語る。

基本的にGesundは、医療アルゴリズムを開発するAI企業や、自身のモデルをテストするアカデミアのためのCRO(Contract Research Organization、医薬品開発業務受託機関)なのだ。一般のCROが医薬品や医療機器企業向けの臨床試験をデザインするのと同じように、Gesundのプラットフォームは、AI企業が自社の製品をテストするためのデータをキュレーションし、その比較をスムーズに行うためのITインフラを構築する。

ホスゴー氏は「私たちは、自分たちを機械学習運用企業だと考えています」という。「私たち自身はアルゴリズムを手がけません」。

医療アルゴリズムは、学習させるデータがあってこそ役に立つが、多様で有用なデータセットの入手は困難であることが知られている。例えば、2020年にJAMAで発表された研究では、放射線科、眼科、皮膚科、病理科、消化器科などの分野にわたる深層学習アルゴリズムを説明した74の科学論文を分析し、これらの研究で使われたデータの71%がニューヨーク州、カリフォルニア州、マサチューセッツ州からもたらされたものだということを報告している。

実際、米国の34の州は、これらのアルゴリズムの学習に使用したデータを提供しておらず、より広い母集団に対する一般化の可能性が疑問視されている。

また、この問題は医療機関の種類を越えて存在している。大規模かつ権威ある大学病院で収集されたデータを使ってアルゴリズムを学習させることは可能だ。しかし、それを地域の小さな病院に導入しようと思っても、そうしたまったく異なる環境ではうまくいく保証はない。

BMJに発表された152件の研究のメタレビューによれば、アルゴリズムを訓練するために使用されるデータセットは、一般的に、必要とされるものよりも小さいという。当然ながら、アルゴリズムの成功例もあるものの、これは業界全体の問題なのだ。

テクノロジーだけでこれらの問題を解決することはできない。そもそも、そこにないデータを分類したり、提供したりすることはできないのだ。ヨーロッパ人以外の祖先を持つ人々の遺伝子研究が、非常に不足していることを考えてみて欲しい。しかしGesundは、既存のデータへのアクセスを容易にし、データ共有の新たな道を開くパートナーシップを構築するという、テクノロジーを役立てられる可能性のある問題に焦点を絞っている。

Gesundの検証プラットフォームの画面

Gesundのデータパイプラインは「各臨床施設と締結している、データ共有契約」に基づいているとホスゴー氏はいう。現在、Gesundはシカゴ大学医療センター、マサチューセッツ総合病院、ベルリンのシャリテ大学で収集された画像データにフォーカスしている(同社は今後、放射線医学以外の分野にも拡大する計画だ)。

機械学習アプリケーションで使用するためのデータの集約と配信は、Nightingale Open Science Project(ナイチンゲール・オープンソースプロジェクト)のような、研究者に臨床データセットを無料で提供する他の企業によっても行われている(物議を醸しているGoogleの「Project Nightingale」[プロジェクト・ナイチンゲール]とは提携していない)。だが、データそのものも重要な要素だが、実はホスゴー氏が秘密兵器と見ているのは、同社のテクノロジー・スタックなのだ。

「誰もがクラウドでML(機械学習)をやっています。ですが、一般的な医療機関はクラウドを持っていないので、すべてが失われてしまうのです」とホスゴー氏はいう。「そこで私たちは、病院のファイアウォール内に設置できる技術スタックを構築しました。これは機械学習にはつきもののサードパーティのマネージドサービスには一切依存していません」。

そこを起点として、プラットフォームには「ローコード」のインターフェイスが搭載されている。つまり、医師や医療機関は、基本的に必要なデータセットをドラッグ&ドロップし、そのデータに対して自身のアルゴリズムをテストすることができるのだ。

ホスゴー氏は「創業して約6カ月ですが、すでに本格的に走っています。私たちは開発した最初の製品は、クラウドリソースにアクセスできない高度なコンプライアンス環境において、モデルの所有者がデータに対して自身のアルゴリズムを実行し、正確なメトリクスをその場で生成できるようにするものです。それが私たちの強みなのです」と説明する。

現時点では、GesundはNightingaleと同様に、一部のサービスを無料で提供している。同社のCommunity Edition(コミュニティエディション)では、手持ちのアルゴリズムがある研究者たちが、自分たちのアルゴリズムを無料でテストできる(ただし、自分たちのデータセットをアップロードする必要がある)。

一方、同社の「プレミアム」版の費用を払うのは、AI企業だ。これによって、お金を払っている顧客は、独自のデータセットにアクセスできるようになるとホスゴー氏はいう。そして、必要なデータにはお金を払うという実績もある。現在、Gesundは30の潜在顧客との交渉中だとしていて、今期中に収益を上げる予定だという。

「私たちは2021年11月にシカゴで開催されたRSNAに出席しましたが、話を聞いたあらゆるAI企業から『ああ、もっと早く知りたかったです』という発言を聴きました」。

現在Gesundが調達した資金は今回の200万ドル(約2億3000万円)のプレシードラウンドだけだが、ホスゴー氏は2022年中に再び資金調達を行えることを期待している。近い将来、同社は研究開発に注力しつつ、米国および欧州における臨床提携を拡大する予定だ。

画像クレジット:Gesund

原文へ

(文:Emma Betuel、翻訳:sako)

ML可観測性プラットフォームのAporiaが約28.8億円のシリーズA資金を調達

テルアビブに拠点を置くAporia(アポリア)は、企業がAIベースのサービスを監視・説明できるように支援するスタートアップ企業だ。同社は米国時間2月23日、Tiger Global(タイガー・グローバル)が主導する2500万ドル(約28億8000万円)のシリーズA資金調達ラウンドを実施したことを発表した。このラウンドには、新たに投資に加わったSamsung Next(サムスン・ネクスト)の他、以前の投資家であるTLV Partners(TLVパートナーズ)とVertex Ventures(ヴァーテックス・ベンチャーズ)も参加、同社の調達資金総額は3000万ドル(約34億6000万円)に達した。

2021年サービスを開始した当初は、オブザーバビリティ(可観測性)プラットフォームであることに正面から取り組んでいた同社だが、それからチームはその網を少し広げ、フルスタックのML(機械学習)モニタリング・プラットフォームとなっていった。

「今のところ、私たちのソリューションには4つの柱があります」と、Aporiaの共同創業者兼CEOであるLiran Hason(リラン・ハソン)氏は説明する。「1つ目の柱は可視性、つまりダッシュボード機能のようなもので、予測値などを見ることができます。2つ目は、かなり新しいものですが、説明可能性です。すでに何人かのユーザーには使っていただいています。3つ目がモニタリング、そして4つ目が自動化ですが、これも新しいものです」。

自動化は、もちろん、どのような監視サービスにとっても、明白な次のステップである。ユーザーは普通、受け取ったアラートに対して、何らかのアクションを起こしたいと思うからだ。Aporiaは、すでにその監視サービスにドラッグアンドドロップツールを取り入れていたので、この機能もすぐに追加できた。この自動化機能を拡張して、より複雑なユーザーケースに対応できるようにしたいと、ハソン氏は言及している。

また、説明可能性も、顧客からのフィードバックを基に追加した機能だ。企業には規制当局から、自社のAIモデルが何を行っているかを説明できるように求める圧力が増している。Aporiaは、モデルがなぜそのような予測をするのか、また、さまざまな入力パラメータがどのように予測に寄与しているのかを、ユーザーが理解できるように支援する。

フルスタックなML可観測性プラットフォームになるというミッションは、顧客の心に響いているようだ。Aporiaによると、同社のサービスを利用する顧客の数は、直近の半年間だけで600%増加したという。現在はその顧客に、Lemonade(レモネード)やArmis(アーミス)などの企業が含まれている。

「Aporiaは起ち上げ以来、信じられないような成長を見せ、驚くべき勢いで、急速にMLの可観測性の分野におけるリーダーとなっています」と、Tiger GlobalのパートナーであるJohn Curtius(ジョン・クルティウス)氏は述べている。「グローバル企業の経営幹部は、人工知能のメリットと、それが事実上すべての産業にどれほど影響を与えているかを理解していますが、リスクによって夜も眠れない状態になっています。Aporiaは、すべての組織が、AIの責任ある利用を保証するために求めるソリューションになると位置付けられます」。

画像クレジット:Aporia

原文へ

(文:Frederic Lardinois、翻訳:Hirokazu Kusakabe)

AIチャットボット「りんな」を手がけるrinnaの対話エンジン搭載キャラがDMM GAMESで配信中の恋愛ゲームに登場

AIチャットボット「りんな」を手がけるrinnaの対話エンジン搭載キャラが恋愛ゲーム「プラスリンクス」に登場

AIチャットボット「りんな」を提供するrinnaは2月22日、EXNOA運営・DMM GAMES配信のリアルチャット恋愛ブラウザゲーム「プラスリンクス ~キミと繋がる想い~」において、rinnaが開発した対話エンジンを搭載したAIキャラクター「足繋逢」(あししげく あい)が実装されたと発表した。

プラスリンクス ~キミと繋がる想い~は、街で出会ったヒロイン達とチャットによる自由な会話を通して関係を深めるという恋愛ゲーム。今回追加の足繋逢もそのヒロインの1人となる。彼女は自分の声では話せず、AI登載犬型ロボット「真希奈」を介してコミュニケーションを取るというキャラクター。会話は基本的にAI任せにしており、本人ががんばることもあるとのこと。

rinnaによると、足繋逢は、プラスリンクスが培ったノウハウをAIが学習し生まれたものという。会話のベースは、rinnaが提供するSTC(Style Transfer Conversation)モデルにより即時応答する。STCモデルとは、大規模データから構築した事前学習済みのモデルに、キャラクターの性格や口調を反映した学習データを追加学習させたモデル。

このSTCモデルによる応答文の出力後、表情、記号、ボイス、スタンプなど応答文内容に最適な表現をClassifierモデルが出力する。Classifierモデルとは、ゲーム内のグラフィック表現の演出に関する法則性を学習させた分類モデルとなっている。今回の場合は、STCモデルによるテキストに応じて、AIキャラクターとしての最適な表現を出力する。表情の変化や各種演出は、キャラクターに合わせてカスタマイズ可能で、足繫 逢の性格を再現するのに最適なカスタマイズを実装しているそうだ。

STCモデルとClassifierモデルはRCP(Rinna Character Platform)上で連携しており、AIがプレイヤーの入力に対して即時応答するテキストチャットを可能にしている。これによりプレイヤーは、ゲーム内のキャラクターとリアルタイムでやり取りしているかのような体験を楽しめるという。

今後の展開として、現在rinnaが研究開発中の新しいAIモデルとの併用準備を進めているとのこと。この実装によって、より多彩なチャットのやり取りが可能になるという。単一のキャラクターとチャットを継続していくことで変化するAIモデルの開発も検討しているそうだ。

米著作権局、AIが生成したアート作品に対する著作権取得の申請を2019年に続き却下―「人間が作った作品」要件を満たさず

米著作権局、AIが生成したアート作品に対する著作権取得の申請を2019年に続き却下―「人間が作ったもの」要件を満たさず

Stephen Thaler/Creativity Machine

米著作権局(USCO)は、人工知能が生み出した芸術作品に対する著作権取得の申請を2019年につづいて再び却下しました。これは自らが開発した人工知能(AI)が生み出した”アート作品”に関して、各国での著作権取得を試みているImagination EnginesのCEO、スティーブン・タラー博士による最新の試みでしたが、USCOは前回と同様「著作権は人間によって作られた作品でなければ認められない」としています。

今回、タラー博士はAIによって作成された「A Recent Entrance to Paradise」と題した芸術作品の著作権取得を目指していました。今回の”アート作品”は「Creativity Machine」と呼ばれるAIによって生み出されたものですが、これをCreativity Machineの所有者に雇用されて生み出された作品として登録申請していました。また、2019年の裁定に対しても、「人間の著作物」という要件は憲法違反ではないかと主張しています。

しかし、USCOの見解としては「人間の心と創造的な表現の結びつき」が著作権の重要な要素であり、また過去の同種の裁判、たとえば猿がシャッターボタンを押して撮られた写真についての裁判でも「人間以外による表現物は著作権保護対象外」だとする判断が一貫して下されて来たとしました。

ただ、芸術作品ではないもののタラー博士による「AIの権利取得の試み」が認められた例も、いくつか存在します。博士は昨年、世界各国で「DABUS」と名付けられたAIによって考案されたいくつかの発明に関して特許出願を行いました。これに対し、米国特許商標庁、英国知的財産庁、欧州特許庁などはやはり発明者が人間でないことから出願を却下する判断を下していました。しかしオーストラリアでは、AIが考案した発明に関する特許申請においてAIを発明者と認めることができる可能性があると裁判所が判断し、南アフリカでは実際に特許も認められたことが伝えられました

とはいえ、なにかの製品の動作や仕組みを定義する発明とは異なり、芸術作品は創作者のユニークな発想や才能によって生み出されるものとの考え方が強く、やはり人間ではないものに著作権を与えることは難しそうです。

(Source:United States Copyright Office(PDF)。Via the VergeEngadget日本版より転載)

製造業の研究開発・生産技術領域での課題解決をAI・機械学習で支援するSUPWATが1.5億円調達

製造業の研究開発・生産技術領域においてAI・機械学習などを活用し研究開発現場の課題解決に向けた事業を展開するSUPWAT(スプワット)は、2月24日、シードラウンドで総額約1億5000万円の資金調達を行った。引受先はScrum Ventures、DEEPCOREとなる。

現在、SUPWATは製造業への深い知見を活用しながら、製造領域に対して機械学習などの技術を適用する「メカニカル・インフォマティクス技術」で研究開発現場の課題解決に向けた事業を展開。製造業の研究開発領域において誰でも簡単に定量的な判断ができるようになるサービスであるAIや機械学習を活用したSaaS型プラットフォーム「WALL」などを提供している。さらに同社は、受託研究開発としてNEDO/東京大学生産技術研究所と共同で「水素タンク」最適設計の研究にも採択され、、機械学習・AI技術を用いた最適設計技術を提供している。

調達した資金で、既存のサプライチェーンマネジメントの概念を変え、SUPWATが掲げるビジョンである「知的製造業の時代を創る」のために、エンジニアを中心とした採用を強化していくとのこと。

また、今回の発表に合わせてコンピュータービジョン・機械学習の応用研究やプロダクト開発、組織マネジメント、技術ブランディングなどを行うABEJAの共同創業者でCTOを務めた緒方貴紀氏が、SUPWATの技術顧問に就任する。

スクラムベンチャーズのプリンシパル黒田健介氏はリリースで「研究開発の現場では日々、担当者の勘と経験をもとにした仮説構築、それに基づいたマニュアルでの実験作業、実験データのCSVでのローカル管理・分析が行われており、クラウドや機械学習等 を用いた高度化・効率化の余地がいまだに大きく残されています。【略】高い技術力と現場への深い理解を併せ持つSUPWAT創業チームに、緒方さんという心強い味方も加わり、日本が誇る製造業という巨大産業のアップデートに挑みます」と述べている。

BTS所属のHYBEも注目、AI使った合成アバターをクリエイター向けに提供する韓国Neosapience

人工知能(AI)を活用した音声・映像技術は、近年、着実に人気を集めている。韓国のスタートアップ、Neosapience(ネオサピエンス)は、ユーザーがスタジオで録音や編集をすることなく、テキストを動画に変換できる合成音声・動画プラットフォーム「Typecast」を開発した。

Neosapienceは米国時間2月22日、成長を加速させ、新たな地域(特に米国)での事業を拡大するために、シリーズBラウンドで2150万ドル(約24億7400万円)を調達したと発表した。BRV Capital Managementが主導した今回の資金調達により、同社の累計調達額は約2670万ドル(約30億7200万円)に達した。本ラウンドには他にも、Stic Ventures、Quantum Venturesが参加した。既存投資家であるCompany K Partners、Albatross Investment Capital、Daekyo Investment、TimeWorks investmentsも参加した。

Neosapienceの共同創業者兼CEOであるTaesu Kim(キム・テス)氏はこう述べている。「今回の資金調達により、リーチを拡大し、限界をさらに押し広げることができます。より少ない労力でコンテンツを作ることを可能にするだけでなく、AIを使ったバーチャルアクターを誰もが利用できるようになるという我々のビジョンを実行することが可能になります」。

元Qualcomm(クアルコム)のエンジニアが集まって2017年に設立した同社は、韓国語と英語の170人のバーチャル声優を提供するAIボイスサービスプロバイダーとしてスタートした。2022年1月には、実在の人物のように見えるAIを活用した合成動画(アバター)機能を追加した。日本語やスペイン語など、他の言語も追加していく予定だという。

画像クレジット:Neosapience

同社のユーザーの大多数は主にクリエイターや企業のクライアントで、ビジネスやVlog、ゲームなどの個人的なチャンネルのためにビデオやオーディオコンテンツを作成するためにこのツールを使用していると、キム氏はTechCrunchに語った。企業クライアントには、韓国のボーイズグループBTSの声を作りたいと考えている、同グループが所属するHYBE Entertainmentの子会社HYBE EDUのようなメディアやエンターテインメント企業の他、オーバーザトップ(OTT)プラットフォームも含まれている。また、複数の電子書籍プラットフォームがTypecastを利用して、同社のAI声優が作成したさまざまなオーディオブックを提供していると、同氏は説明してくれた。ユーザーは、実際の俳優を雇う代わりにTypecastのアバターを使用することで、音声品質を維持しながらコストと時間を削減できるという。

「クリエイターが当社のサービスを使って、より多くの、より良いコンテンツを作ることを支援したいと考えています。クリエイターエコノミー全体が我々にとっては対応可能な市場であり、その規模は1040億ドル(約11兆9700億円)と推定されています」とキム氏はいう。

画像クレジット:Neosapience

競合他社との違いの1つは、人間のような感情の表現、話し方、韻律制御、ボーカル、ラップボイス技術など、Typecastの高度な技術にあるとキム氏は語る。

BRV Capital ManagementのマネージングディレクターであるYeemin Chung(チョン・イェミン)氏は、声明で次のように述べている。「人間の感情をテクノロジーによって表現することは、これまで非常に難しいことでした。「Neosapienceは、音声・映像合成の分野で先頭を走り続け、個人のクリエイターやエンターテインメントのための商業インフラの構築に成功しました。世界中のメディア企業は、デジタルコンテンツやバーチャルコンテンツの制作に感情を組み込む方法を革新するために、(この技術に)簡単にアクセスすることができます」。

Neosapienceのユーザーは現在、100万人以上いるという。過去2年間、2019年11月のローンチ以来、その収益は毎月約18%の成長を遂げている。同社の従業員は1月時点で41人。

「この1年で急速に成長しましたが、AIを活用したバーチャルヒューマンと、その合成メディアやインタラクティブコンテンツへの応用において、誰もが認めるグローバルリーダーになるために、さらに邁進する機会があると考えています」とキム氏は語った。

関連記事:実在しているような合成アバターがしゃべるプレゼン動画を簡単に作れるSynthesiaの技術

画像クレジット:Neosapience

原文へ

(文:Mike Butcher、翻訳:Den Nakano)