Google Cloudが自然言語処理スタートアップCohereと提携しインターフェースの革新を目指す

Google CloudCohereとの複数年のパートナーシップを発表した。このアーリーステージスタートアップは、デベロッパーが自分のアプリケーションに自然言語処理(NLP、Natural Language Processing)をさまざまなかたちで組み込めるために、そのプラットフォームを提供している。ソリューションはインフラストラクチャのリソースを大量に必要とするため、Google Cloud Platform(GCP)がパートナーシップに基づいてそれらを提供していくことになる。

両社はまた、市場化のための取り組みも共同で計画し、それによりCohereはスタートアップとしての力をつけ、GCPの営業チームの力を借りてそのユーザー数や売上を伸ばしていく意向だ。

Google CloudのCEOであるThomas Kurian(トーマス・クリアン)氏によると、CohereはGoogle CloudのTensor Processing Unit(TPUs)チップのすばらしいユースケースを提供しており、Googleが内部で行ってきたことをベースとして利用している。

「第一に、これは私たちがGoogleで自分たちが使うために作ってきた技術の完璧な例です。私たちは現在、それらを他のプラットフォームが利用できるようにクラウド上で提供していません。しかしCohereのケースでは、利用できる能力を彼ら自身が見つけて、モデルを構築し、それらをTPUsの上で訓練しています。そのことによって彼らには、極めて差別化された能力が備わっています」とクリアン氏はいう。

Cohereの共同創業者でCEOのAidan Gomez(エイダン・ゴメス)氏は以前Google Brainにいた。同氏によると、彼の企業は、この高度なテクノロジーをすべてのデベロッパーが利用できるためのNLPソリューションを作ろうとしている。「私たちは大量のデータをほじくり返して巨大なモデルを作り、それらをTPUの巨大なポッドで訓練しています。また、その極端に大きなモデルをほとんどどんなプロダクションシステムでもレイテンシーの許容範囲に収めるために、最適化にも努めている」と語る。

彼によると、ワークロードを最適化することによって、Cohereはこの高度な技術のすべてへのアクセスをオープンにし、デベロッパーがモデルにアクセスでき、Cohereが提供しているモデルに基づいてNLPベースのソリューションを構築できるようにしている。今起こりつつある重要なシフトは、テキストベースのUIから、自然言語による対話的なインターフェースへの移行であり、Cohereなどはその変化の動因の1つだ。

クリアン氏は続けて「今の最先端技術では、大多数の人たちのコンピューターの使い方がGUIや画面を介するものになりつつあります。しかし多くの人は、コンピューターをたった1つの使い方で体験したいとは思っていません。彼らはコンピューターといろいろな方法、しかも自然な方法で対話したいと望んでいるため、人びとがシステムと対話する方法の進化の次の大きな段階は言葉だ」という。

三大クラウドのCEOが、ただのいちスタートアップとの提携で記者発表を行なうなどまずあることはない。しかしクリアン氏によると、TPUの使い方としてこれは特別に強力でクリエイティブな例だ。「Cohereの技術を実際に使ってみれば、それがとてもエレガントに動くことに気づくでしょう。それは、Aidanのチームが作ったソフトウェアと、TPUが提供する計算インフラストラクチャの組み合わせによるものだ」とGoogle Cloudのトップはいう。

Cohereは2019年に、ゴメス氏とNick Frosst(ニック・フロスト)氏とIvan Zhang(イワン・チャン)氏がトロントで創業した。同社はこれまで、Index VenturesやRadical Ventures、Section 32、そしてAIエンジェルの人名録のトップを飾るような著名エンジェル、Geoffrey Hinton(ジェフリー・ヒントン)氏やFei-Fei Li(フェイ・フェイ・リー)氏などから、計4000万ドル(約45億7000万円)を調達している。

画像クレジット:Michael Short/Bloomberg/Getty Images

原文へ

(文:Ron Miller、翻訳:Hiroshi Iwatani)

開発者が適切な機械学習モデルを見つけられるようにするCatalyzeXが約1.9億円調達

電気自動車の駆動用などで需要が高まるネオジム磁石、NIMSが最小限の実験と機械学習による最適な製作条件の予測に成功

機械学習の利用が爆発的に増えている今日では、モデルの数もたいへん多く、デベロッパーは選択に苦労している。Googleで検索しようとしても、それは機械学習のモデルを検索するために設計された検索エンジンではない。そこで、CatalyzeXが登場した。それは、デベロッパーが抱えるデータにもっとも適したモデルを見つけるのを助けてくれるだけでなく、単純なインターフェースでそのコードへの直接のリンクを提供する。

このアーリーステージのスタートアップが米国時間11月16日、164万ドル(約1億9000万円)のシードラウンドを発表した。Unshackled Ventures、Kepler Ventures、On Deck、Basecamp Fund、Abstraction Capital、Unpopular Ventures、Darling Venturesそして多くの業界のエンジェルたちが参加している。

同社の共同創業者である2人の兄弟、Gaurav Ragtah(ガウラヴ・ラグタ)氏とHimanshu Ragtah(ヒマンシュウ・ラグタ)氏は、すでに大量の研究が為されていることを見て、デベロッパーが現在、持っているデータと目的に最もふさわしいモデルを容易に見つけられるためのツールを作ろうと思い立った。

CEOのガウラヴ・ラグタ氏によると「私たちが作ったプラットフォームは、特定のユースケースに適したさまざまなテクニックと利用可能なモデルをすべて簡単に検索して、ワンクリックでそのコードへジャンプできる。これまでのように『良いテクニックを見つける』ことと、『それを実際に実装しているコードを見つける』ことの間にある苦労を少なくします」という。

CatalyzeXの検索結果ページ(画像クレジット:CatalyzeX)

目的に応じて最適を発見する、それは、どんなタイプの調査にもいえることだが、若きスタートアップである彼らが機械学習に集中したのは、応用範囲が極めて広いからだ。このようなプラットフォームを構築する経験を通じて彼らは、どのユースケースにはどんなタイプの調査研究が最も適切かを知り、ユーザーにとってもっとも適切なものを自動的に浮かび上がらせる。

同社の各週のアクティブユーザーは3万ほどだが、ユーザーの研究調査のタイプとそれに適したモデルを正しく精密にマッチングできるためには、いわゆる臨界質量に達することが必要だ、と彼らも知っている。そこで当面彼らは、そのツールに組み込んだ技術、たとえばクローラーとかアグリゲーターなどを利用して、そのプロセスをより活性化している。

兄弟は、1940年代後期に英国がインドとパキスタンを分割したときの難民たちのためのニューデリーの地域で生まれ育った。祖父母たちがそこに入植し、最初はテント生活だったがやがて家を建てた。ガウラヴ氏は2009年に奨学金で渡米し、その後、ヒマンシュウ氏も後を追った。2人は米国のテクノロジー企業に就職し、機械学習のプロジェクトで仕事をした。そして、そこで見た調査研究の問題点から、それらを解決するソリューションとしてCatalyzeXを着想した。

現在、社員は彼ら2人だけだが、そのアイデアが実を結ぶことを期待して人を増やし、ツールを構築していくつもりだ。彼ら自身の出自からして、雇うのはマイノリティの人たちにしたいと考えている。

「ありとあらゆる背景を抱えた人たちと仲良くしたいといつも努力をしてきましたが、人を雇うという話ならそのための求人求職パイプラインで、多様なバックグラウンドの人びとを見つけるしかありません。ベストの人材を多様なバックグラウンドから見つけられなかったら、それは私たちにとっての不利になります」と彼は言っている。

同社のウェブサイトからツールにアクセスできる。また、ChromeとFirefox用のブラウザーエクステンションもある。

画像クレジット:Jonathan Kitchen/Getty Images

原文へ

(文:Ron Mller、翻訳:Hiroshi Iwatani)

話し方・表情・言葉の内容からモテ因子「魅力的な個性」を見つけるアプリMOTESSENSEをNTTが開発・実証実験を開始

話し方・表情・仕草からモテ因子・魅力的な個性を見つけるアプリ「MOTESSENSE」をNTTが開発・実証実験を開始NTT(日本電信電話)は11月15日、人の個性をAIで診断し、その人の個性的な魅力を発見するアプリケーション「MOTESSENSE」(モテッセンス)を開発したことを発表した。多様なジャンルの個性的な人たちに使ってもらい、個性の発見に役立つかどうかを検証する実証実験も開始する。

シチュエーションに応じたロールプレイを行い、その様子をカメラとマイクが記録する。そこから、話し方、表情、仕草、言葉の内容などを総合的にAIで診断することで、「モテ因子」(魅力的な個性に関する因子)を見つけ出すという。魅力は、NTTによれば「見た目や地位などに対して、画一的に定義される」ことがあるが、このアプリケーションは、他人と比較して個性的な点にこそ魅力があると考える。この自動診断には、先日NTTが発表した、音声音響、画像映像、自然言語といったマルチメディアを統合的に扱うことで、人間に近い情報処理機構を実現する次世代メディア処理AI「MediaGnosis」(メディアノーシス)が使われている。

これは、多様性の尊重が「互いを受け入れ、個性や価値観の違いを受け入れるだけでなく、それらを融合させ、高め合うことで、社会を前進させるための鍵になる」と考えるNTTが、多様性の時代における個人の幸福の形成を目指すものとして開発したものだ。実証実験では、「診断結果について世の中の人に知ってもらうことにより、社会の多様性を再認識してもらう」ことを目指すとNTTでは話している。

AIを活用しブランド・小売業者向けCRMを自動化するOmetriaが約45.5億円調達

ヤプリがノーコードの顧客管理システム「Yappli CRM」を提供開始、ポイント・電子マネーの発行やマーケ施策をワンストップで

2019年にシリーズBで2100万ドル(約23億9000万円)を調達したOmetriaは、ブランドや小売業者がマーケティングメッセージをパーソナライズできる「AIを活用した」カスタマーマーケティングプラットフォームを提供していた。

今回同社は、InfraVia GrowthがリードするシリーズCのラウンドで4000万ドル(約45億5000万円)を調達した。これには、従来からの投資家であるOctopus VenturesやSonae IM、Summit Action、Adjuvo、Columbia Lake Partners、さらに会長のLance Batchelor(ランス・バチェラー)氏ら初期の投資家も参加した。同社の資金調達額は、これで7500万ドル(約85億4000万円)になる。

同社によると、特に現在、消費者データの共有のされ方や共有先について、消費者自身がコントロールを握るようになってるため、この資金で同社のプロダクトとエンジニアリングのチームのサイズを今の3倍にするという。

新しいスタッフも雇用した。新しいチーフテクノロジーオフィサー(CTO)はSizmekのCTOだったMarkus Plattner(マーカス・プラットナー)氏、最高収益責任者は元App Annieの専務取締役Paul Barnes(ポール・バーンズ)氏、マーケティングのトップCMOは元Simon DataでTinycluesのMichelle Schroeder(ミシェル・シュローダー)氏だ。

OmetriaのCEOで創業者のIvan Mazour(イワン・マズア)氏によると「リテールのマーケターたちはみんな異口同音に個人化の重要性を主張してきましたが、消費者の1人としてインボックスを見るかぎり、マーケティングテクノロジーのベンダーはどこもそれを実現していません。その顧客体験のギャップの原因は、彼らのテクノロジースタックにある。Ometriaは、そのギャップを埋めるために創業されました」という。

InfraVia CapitalのパートナーであるGuillaume Santamaria(ギヨーム・サンタマリア)氏は「コマースの成功は、優れた顧客体験を作り出してブランドを差別化する能力にかかっています。Ometriaは、それを達成するためのソリューションを提供しています」という。

Ometriaの主な競合相手は、メールサービスのEmarsysやSailthru、Selligent、Bronto、Dotmailerなど、消費者行動マーケティングツールのCloudIQやSaleCycle、Yieldify、そしてカスタマーインサイトのMore2やAgileOneなどとなる。

同社の「共同マーケター」プラットフォームは、データサイエンスを利用して個人化されたマーケティング体験を作り最適化する。その主な顧客企業は、Steve Madden、Aden + Anais、Pepe Jeans、MADE.com、Notonthehighstreet.com、Hotel Chocolat、Feeluniqueなどだ。

さらにマズア氏は「現在、リテールのマーケターたちは、顧客の期待に沿えないという問題を抱えています。100万の人間がいて、30種類のタッチポイントがあると考えると、その多様性が膨大な数であることがわかるでしょう。それはSMSやメールだけではありません。このニーズに応える方法は、人間とマシン / コンピューターインテリジェンスのハイブリッドだけです」と付け加えた。

画像クレジット:Ometria

原文

(文:Mike Butcher、翻訳:Hiroshi Iwatani)

地球のデジタルツインを開発する豪Blackshark.aiが約22億円を調達、MSのFlight Simulatorにも採用

オーストリアのスタートアップであるBlackshark.ai(ブラックシャーク・エーアイ)は、「Microsoft Flight Simulator」に搭載されている「デジタル地球」を開発した企業だ。同社は、地球のレプリカ技術の開発と拡張のために2000万ドル(約22億円)を調達した。地球の「デジタルツイン」の潜在的な用途は多様で、同社はGoogle(グーグル)のようなマッピング大手より先行している。

2020年の「Flight Simulator」では(100%ではないにしても)完全に横断可能で、驚くほど正確な地球を世界に見せてくれた。TechCrunchは「技術的な驚異」と表現し、それがどうやって作られたのか後に詳細を報じた。

Blackshark.aiは、ゲームスタジオBongfish(ボンフィッシュ)からスピンアウトした会社で、創業者でCEOのMichael Putz(マイケル・プッツ)氏によると、世界構築技術をゲーム環境以外にも応用することを目指している。Blackshark.aiの技術の基本は、機械学習とちょっとした賢い推測、そして大量のコンピューティングパワーを使って、広く利用可能な2D画像を正確な3Dに変えることだ。

基本的にBlackshark.aiのシステムは、最適ではない照明や不完全な画像であっても、さまざまな建物が上からどのように見えるかをしっかりと理解する。Blackshark.aiが構築した機械学習システムは、近隣の環境(住宅地と商業地)、屋根の種類(傾斜した屋根と平らな屋根)、空調設備の有無などの要素を考慮して、不完全な輪郭を推定する。これらすべての情報をもとに、建物のもっともらしい3D再現を行う。

難しいのは、一度だけではなく、定期的に何億回も繰り返して、地球上のすべての建物の最新の3D表現を作成することだ。プッツ氏は次のように説明する。「その作業のためのコンピューティングパワーをすべて購入できたとしても、それを動かすためのバックエンドを構築するのは大変なことです。これは私たちが直面した現実的な問題でした」。

プッツ氏らの解決策は、AIを搭載したサービスによく必要とされるように、最適化だった。同氏によると、地球上のすべての建物の3Dモデルを計算するプロセスは、もともと約1カ月の時間を要していたが、今では約3日で済むようになり、約300倍の加速を実現している。

人工衛星からの新しい画像をもとに定期的に更新できるこのような機能は、Blackshark.aiのビジネス提案にとって非常に重要だとプッツ氏は説明した。GoogleやApple(アップル)の地図に見られるような3D地図データの多くは写真測量をベースにしている。これは、複数の航空写真を組み合わせて、目のように視差データを比較して大きさや奥行きを判断する航空写真で、写真が撮影された時点ではすばらしいデータとなる。

2年前ではなく先週のシカゴのある一角の様子を3Dマップで表現したい、そしてそのレベルの最新情報をできるだけ多くの地球上の人々に提供したい、と考えた場合、現在では衛星画像しか選択肢がない。しかし、そのためには前述の2Dから3Dへの変換が必要になる。

パッツ氏は、Blackshark.aiの3DマップとGoogleやAppleの3Dマップは、表面的には似ているが、実際には競合するものではないと指摘する。リアルな「キャンバス」を提供するという点では同じだが、その意図は大きく異なる。

「Googleマップは、ローカルビジネスのためのキャンバスです。同社とそのユーザーの両方にとって重要なのは、場所、レビュー、道順などです」とパッツ氏は話す。「私たちは、たとえば気候変動のユースケースである洪水についてシアトルの3Dデータを提供していますが、水の物理学や流体シミュレーションを専門とする人たちは、現実世界をキャンバスとして描くことができます。私たちの目標は、検索可能な地球の表面になることです」。

画像クレジット:Blackshark.ai

サンディエゴのとある地区で利用できる平らな屋上の総面積はどれくらいか? 4000平方メートルのスペースが空いている地方空港は? 山火事のリスクがあるエリアは、更新された風モデルとどのように重なっているか? このように、活用法を思いつくのは難しいことではない。

「これは、考えれば考えるほどユースケースが出てくるアイデアの1つです」とプッツ氏は話す。「政府機関、災害救助、スマートシティ、自動車や飛行機などの自律型産業などで応用できます。これらの産業はすべて人工的な環境を必要とします。単に『これをやりたい』ということではなく、必要とされていることでした。そして、この2D-3Dは巨大な問題を解決する唯一の方法なのです」。

今回の2000万ドルのラウンドは、M12(Microsoftのベンチャーファンド)とPoint72 Venturesがリードした。プッツ氏は、アドバイザーとしておなじみの顔ぶれが参加したことに感激した。Google Earthの共同創業者であるBrian McClendon(ブライアン・マクレンドン)氏、Airbus(エアバス)の元CEOであるDirk Hoke(ダーク・ホーク)氏、Y Combinator(Yコンビネーター)の元COOで現在はApplied Intuition(アプライド・インチュイション)のCEOであるQasar Younis(カサール・ユーニス)氏らだ(これらの人々は助言をしているのであって、取締役会に参加しているわけではない)。

事業の拡張はプロダクトを作り上げるというより、市場投入のことだ。もちろん、エンジニアや研究者を増やすことは必要だが「賢いスタートアップ」から「3D合成地球の世界的プロバイダー」になることを急がなければ、他の賢いスタートアップに美味しいところを持っていかれるかもしれない。そこで、営業とサポートのチーム、そして「ハイパースケーリング・コンパニオンの残りの部分」も編成する、とプッツ氏は話した。

同氏が挙げた明白なユースケースの他に、想像できるかと思うが、メタバースアプリケーションの可能性もある。ただし、これはでたらめではなくアイデアだ。ゲームから旅行ガイドまで、おもしろいAR/VR/その他のアプリケーションが、最近レンダリングされた地球のバージョンをベースに、仮想体験をしたいと思えばそれが可能になる。それだけでなく、地球以外の世界も同じ方法で生成することができるため、もしあなたが地球のレイアウトを崩して新しい惑星を作りたいと思ったら(誰がそれを非難できるだろう)、今週中にはそうすることができる。すばらしいことではないか?

新しい資金が使われるようになれば、地球の表面で行われている複雑なマーケットやプロセスの新世代のより詳細なシミュレーションに「Powered by Blackshark.ai」などと表示されるようになるだろう。

画像クレジット:Blackshark.ai

原文へ

(文:Devin Coldewey、翻訳:Nariko Mizoguchi

NVIDIAが多機能でリアルなAIアバター・AIアシスタントが作れるプラットフォーム「Omniverse Avatar」を発表

NVIDIAは11月9日、仮想コラボレーションとリアルタイムシミュレーションのためのプラットフォーム「NVIDIA Omniverse」(オムニバース)上で使えるインタラクティブなAIアバターが作れる機能「Omniverse Avatar」(アバター)を発表した。

Omniverse Avatarは、単にインタラクティブに動かせるレンダリングされた3Dキャラクターを作るだけではなく、音声、AI、自然言語理解、レコメンデーションエンジン、シミュレーションといったNVIDIAのテクノロジーが駆使され、見たり、聞いたり、多言語で話したりができるAIアシスタントとして機能する。NVIDIAの創業者でCEOのジェンスン・フアン氏はこれを、「インテリジェントな仮想アシスタントの夜明け」と称している。

NVIDIA Omniverseの新機能として追加された「Omniverse Avatar」には、次の要素が盛り込まれている。

  • 音声認識:複数言語の音声を認識するソフトウェア開発キット「NVIDIA Riva」をベースに会話の応対を行う
  • 自然言語理解:「NVIDIA Megatron 530B大規模言語モデル(Large Language Model)」をベースに、複雑な文書の作成、幅広い分野の質問への回答、長いストーリーの要約、他言語への翻訳などを行う
  • レコメンデーション エンジン:大量のデータを処理し、賢明な提案を行うことを可能にするディープラーニング レコメンデーション システムを構築するためのフレームワーク「NVIDIA Merlin」を利用
  • 認知機能:ビデオ分析用のコンピュータービジョン・フレームワーク「NVIDIA Metropolis」を活用
  • アバターのアニメーション:2Dおよび3DのAIによるフェイシャルアニメーションとレンダリングの技術「NVIDIA Video2Face」と「NVIDIA Audio2Face」を使用
  • これらの技術がアプリケーションに組み込まれ、「NVIDIA Unified Compute Framework」を使ってリアルタイムで処理される

フアン氏のアバターを使ったデモでは、同僚とのリアルタイムの会話が披露され、生物学や気象科学などの話題について語った。また、別のデモでは、レストランの2人の客にカスタマーサービス担当アバターが対応し、ベジタブルバーガーとフライドポテトと飲み物の注文を受けることができた。さらに、騒々しいカフェでビデオ通話をする女性の音声を正確に聞き取り、その言葉をリアルタイムで書き写し、その女性と同じ声とイントネーションで、ドイツ語、フランス語、スペイン語に翻訳して見せたとのことだ。

【コラム】AIのトレードオフ:強力なパワーと危険な潜在的バイアスのバランス

新たなAIツールのリリースが続く現在、有害なバイアスが存続するリスクがますます高まっている。特に、今までAIアルゴリズムのトレーニングに使用されてきた社会的・文化的規範の多くが改めて認識された2020年以降、このリスクは増大し続けると考えられる。

膨大な量のトレーニングデータを元に本質的に強力な基本モデルがいくつか開発されているが、有害なバイアスのリスクは残存している。私たちはこの事実を認識する必要がある。

認識すること自体は簡単だろう。理解すること、そして将来のリスクを軽減することははるかに困難だ。AIモデルの開発にともなうリスクをより正しく理解するためには、まずバイアスの根源を確実に知る必要がある。

バイアスの隠された原因

現在のAIモデルは、事前に学習されたオープンソースであることが多く、研究者や企業はAIをすばやく導入し、個々のニーズに合わせて調整することができる。

このアプローチではAIを商業的に利用しやすくなるが、真の弱点もここにある。つまり、業界や地域を問わず、AIアプリケーションの大半が一握りのモデルに支えられているのだ。これらのAIモデルは、検出されていないバイアス、あるいは未知のバイアスから逃れられず、これらのモデルを自分のアプリケーションに適応させることは、脆弱な基盤の上で作業することを意味する。

スタンフォード大学のCenter for Research on Foundation Models(CRFM)が最近行った研究によると、これらの基本モデルやその基礎となるデータに偏りがあると、それが使用されるアプリケーションにも引き継がれ、増幅される可能性があるという。

例えばYFCC100MはFlickrで公開されているデータセットで、一般的にモデルの学習に利用される。このデータセットの人物画像を見ると、全世界(であるはず)の画像が米国に大きく偏っていて、他の地域や文化の人々の画像が不足していることがわかる。

このように学習データに偏りがあると、AIモデルの出力に、白人や欧米の文化に偏るといった過小評価や過大評価のバイアスがかかる。複数のデータセットを組み合わせて大規模なトレーニングデータを作成すると、透明性が損なわれ、人や地域、文化がバランス良く混在しているかどうかを知ることがますます困難になる。結果として重大なバイアスが含まれたAIモデルが開発されてしまうのは当然と言えるだろう。

さらに、基本となるAIモデルが公開されても、通常、そのモデルの限界に関する情報はほとんど提供されない。潜在的な問題の検出はエンドユーザーによるテストに委ねられているが、このステップは往々にして見過ごされる。透明性と特定のデータセットの完全な理解がなければ、女性や子ども、発展途上国の出力結果が偏るといったAIモデルの限界を検出することは困難だ。

Getty Images(ゲッティイメージズ)では、さまざまなレベルの能力を持つ人、性的流動性、健康状態など、実存して生活している人物の画像を含む一連のテストで、コンピュータビジョンモデルにバイアスが存在するかどうかを評価している。すべてのバイアスを検出することはできないが、包括的な世界を表現することの重要性を認識し、存在する可能性のあるバイアスを理解し、可能な限りそれに立ち向かうことが重要だと考えている。

メタデータを活用してバイアスを軽減する

具体的にはどうすれば良いのだろうか?Getty ImagesでAIを使用する際は、まずトレーニング用データセットに含まれる人物の年齢、性別、民族などの内訳を確認することから始める。

幸いなことに、Getty Imagesがライセンスを供与するクリエイティブコンテンツでは、モデルリリース(写真の被写体による当該写真を公表することへの許諾)を要求しているので、この確認が可能である。そして、写真のメタデータ(データを記述する一連のデータ、データに関するデータ)に自己識別情報を含めることで、Getty ImagesのAIチームは何百万枚、何千万枚もの画像を自動的に検索し、データの偏りを迅速に特定できる。オープンソースのデータセットは、メタデータの不足によって制約を受けることが多い。複数のソースのデータセットを組み合わせてより大きなデータセットを作ろうとすると、メタデータの不足という問題はさらに悪化する。

しかしながら、現実としては、すべてのAIチームが膨大なメタデータにアクセスできるわけではないし、Getty Imagesも完璧ではない。より強力なモデルを構築するためにトレーニングデータセットを大きくすればするほど、そのデータに含まれる歪みやバイアスの理解は犠牲になってしまう、という本質的なトレードオフが存在するのだ。

世界中の産業や人々がデータに依存している現在、AI業界はこのトレードオフを克服する方法を見つける必要がある。鍵となるのは、データを中心としたAIモデルをもっと注視していくことであり、その動きは徐々に活発になっている

私たちができること

AIのバイアスに対処するのは簡単ではなく、今後数年間はテクノロジー業界全体で協力していく必要があるが、小さいながらも確実な変化をもたらすために、実務者が今からできる予防的な対策がある。

例えば基本となるモデルを公表する際には、その基礎となったトレーニングデータを記述したデータシートを公開し、データセットに何が含まれているかの記述統計(データの特徴を表す数値)を提供することが考えられる。そうすれば、ユーザーはモデルの長所と短所を把握することが可能で、情報に基づいた意思決定を行えるようになる。このインパクトは非常に大きいはずだ。

前述の基本モデルに関するCRFMの研究では「十分なドキュメンテーションを提供するための、コストがかかり過ぎず、入手が困難ではない適切な統計情報は何か?」という問題が提起されている。ビジュアルデータでいえば、メタデータとして年齢、性別、人種、宗教、地域、能力、性的指向、健康状態などの分布が提供されれば理想的だが、複数のソースから構成された大規模なデータセットでは、コストがかかり過ぎ、入手も困難である。

これを補完するアプローチとして、基本モデルの既知のバイアスや一般的な制約をまとめたリストにアクセスできるようにする。簡単にアクセスできるバイアステストのデータベースを開発し、そのモデルを使用するAI研究者に定期的にアクセスしてもらうこともできるだろう。

この例としては、Twitter(ツイッター)は先ごろ、AIのエキスパートにアルゴリズムのバイアスを検出してもらうというコンペを開催した。繰り返しになるが、認識と自覚はバイアスを緩和するための鍵である。このコンテストのような取り組みが、あらゆる場面でもっと必要だ。このようなクラウドソーシングを定期的に実践すれば、個々の実務者の負担も軽減することができる。

まだ答えがすべて出ているわけではないが、より強力なモデルを構築していくためには、業界として、使用しているデータをしっかりと見直す必要がある。強力なモデルではバイアスが増幅されるから、モデル構築の際に自分が果たすべき役割を受け入れなければならない。特に、AIシステムが実際の人間を表現したり、人間と対話したりするために使用される場合は、使用しているトレーニングデータをより深く理解する方法を模索することが重要だ。

このように発想を転換すれば、どのような規模でもどのような業種でも、歪みをすばやく検出し、開発段階で対策を講じてバイアスを緩和することが可能だ。

編集部注:本稿の執筆者Andrea Gagliano(アンドレア・ガリアーノ)氏は、Getty Imagesのデータサイエンス部門の責任者。

画像クレジット:Hiroshi Watanabe / Getty Images

原文へ

(文:Andrea Gagliano、翻訳:Dragonfly)

Landing AIがデータセントリックMLOpsツールで次世代AIを実現するため約64.5億円の資金を確保

Landing AI(ランディングAI)は、主力製品の発売からわずか1年余りで、製造業者がより簡単かつ迅速に人工知能システムを構築・導入できるツールの開発を続けるために、5700万ドル(約64億5000万円)のシリーズA資金を獲得した。

元GoogleとBaiduのAI第1人者であるAndrew Ng(アンドリュー・ン)氏が立ち上げた同社は、AIとディープラーニングを応用して製品の欠陥をより迅速かつ正確に見つけることができる目視検査ツール「LandingLens」を開発した。

ン氏は、産業界はAIの構築にデータセントリック(=データ中心)アプローチを採用すべきだと述べている。これは、メーカーがAIモデルに何をすべきかを教えるためのより効率的な方法を提供するもので、マウスを数回クリックするだけで高度なAIモデルを1日足らずで構築できるノーコード / ローコード機能を備えている。

「我々はデータセントリックAIのムーブメントをキックオフし、他の企業がそれを話題にし始めたことを非常に喜ばしく思っています」。と同氏はTechCrunchに語った。「製造業では、工場ごとに異なることをしているので、多くのマンパワーを雇うことなく、1万社のメーカーが1万種類のモデルを作るのをいかに支援するかが問題になります」。

創業者兼CEOのアンドリュー・ン氏(画像クレジット:Landing AI)

マッキンゼーの調査によると、AIは2030年までに世界の経済に13兆ドル(約1470兆円)の実現価値を生み出すと予想されている。ン氏は、さまざまなAIモデルを構築することが依然として困難であるため、まだその多くが実現されていないと語る。

同氏は、Landing AIがこれらのモデルを構築するためのコードを解明したと考えており、製品のマーケットフィットを確認し、製品をより良くするためにチームを拡張できるようにしたいと考え、シリーズAラウンドを調達した。

インダストリアルIoT(IIoT)に特化した投資会社であるMcRock Capitalがこのラウンドを主導し、Insight Partners、Taiwania Capital、Canadian Pension Plan Investment Board(CPP Investments)、Intel Capital、Samsung Catalyst Fund、Far Eastern GroupのDRIVE Catalyst、Walsin Lihwa、AI Fundが参加した。

Landing AIは製品の構築に向けて前進しているが、ン氏は、同社がデータセントリックAIムーブメントの初期段階にあることから、さらなる進歩を遂げ、まだ不足している技術を革新していきたいと述べている。

例えば、以前、3億5千万のデータポイントを持つ音声認識システムを構築した際、それだけ多くのデータポイントのために発明されたAI技術は、欠陥を見つけるための画像が限られている製造現場ではうまく機能しないことがわかったという。データセントリックな動きの一環として、50枚以下の画像を活用して、何が欠陥なのかを明確に示すことで、ドメインエキスパートを支援するツールを開発している。

ン氏は次のように述べている。「当社はこれが機能する段階に達しており、すべてをスケールアップしたいと考えています。どうやってレシピを解読してAIを他の業界に持っていくか、何年も前から関心を持ってきましたが、データセントリックAIでようやくそれが実現しつつあります」。

画像クレジット:Landing AI

原文へ

(文:Christine Hall、翻訳:Aya Nakazato)

スカイディスクとトヨタ自動車九州、品質検査で「音」を聞き分けるAI異音検査システムを共同開発し本稼働開始

スカイディスクとトヨタ自動車九州、品質検査で「音」を聞き分けるAI異音検査システムを共同開発し本稼働開始スカイディスクトヨタ自動車九州は11月4日、レクサスを生産するトヨタ九州宮田工場の検査ラインにおいてAIを活用した異音検査システムを2021年8月から導入し、本稼働を開始したと発表した。異音検査のAI活用は、設備保全分野で多数の事例があるものの、品質検査分野での実装は国内初という(2021年10月までに公開された実証実験を除く、AI実装の事例対象。スカイディスク調べ)。

レクサス完成車の検査項目の1つに、走行中に車内で異音がしないか最終確認する「車内異音検査」があり、この車内異音の検査工程にAI異音検査システムを導入した。今後は、今回の実績を基に宮田工場内の別の検査ラインへの導入を検討する。

トヨタ九州宮田工場は、レクサス製造拠点として各工程に熟練工を配し、世界トップレベルの品質を守り続けているという。ただ、出荷前の検査項目である異音検査は、検査員の聴覚で「音」を聞き分ける官能検査であるため、個人の聴力に影響を受けやすい工程となっていた。また将来予想される検査員の高齢化による聴力の衰えや個人差に対応するため、2018年1月からAI化の検討を開始したという。

スカイディスクが開発した音に特化したAI分析ソリューションは、検査走行中の車内の音データを人の聴覚特性に基づいて分類し、抽出された約1万個以上の特徴量から異音を判定するAIモデルを作成するというもの。今回の取り組みでは、スカイディスクとトヨタ九州が、AI分析ソリューションをレクサス製造ラインに合わせてカスタマイズし、AI異音検査システムを共同開発した。

システム概要と導入ステップ

スカイディスクのAI分析ソリューションでは、対象の音に合わせたマイク選定が重要という。そこで今回は、新たに車内異音用に集音マイクを選定し、異音検査における音データをデータベース化した。データに基づいた安定した検査品質の実現のため、熟練検査員の経験や判断をAIに学習させて、検査精度を高めたそうだ。

2018年4月から、実際の工程でAI異音検査システムの検証を開始。実運用に向けて繰り返し精度向上に取り組むとともに、システム構築を含めた最終調整を実施した。検査精度が安定的に確保できたことから、2021年8月に本稼働を開始した。

両社は、このAI異音検査システムの開発・導入により、検査員の聴覚に依存していた検査工程の属人化解消・品質安定化を実現したとしている。また、検査作業者の耳の負担や凹凸のある検査路面を運転する際の身体的負担も低減できたそうだ。高い検査品質が求められる最終検査工程かつ、特に人の身体能力に依存し標準化が困難だった異音検査で導入できた実績を基に、今後は他の検査工程への展開も検討するそうだ。スカイディスクとトヨタ自動車九州、品質検査で「音」を聞き分けるAI異音検査システムを共同開発し本稼働開始

一般に、官能検査による検査工程は、熟練検査員の経験により不良原因まで推測されるなど、品質管理の向上に寄与してきた歴史があり、検査員が音を聞いて良品・不良品を判断する異音検査もその1つとなっている。しかし異音検査では、人の聴覚で聞き分けるために定量的な判定基準を設けることが難しく、また検査対象の「音データ」が蓄積されていないため、検査員同士での共有・継承が困難だ。

スカイディスクによると、これら課題をAI分析ソリューションで解決するには、まずは適切なデータ収集(集音)から着手する必要があるという。ものづくり現場の様々な制約条件を考慮した上で、AI開発に最適なデータ収集、ハードウェア・設備を含めたワークフロー設計・開発まで取り組むことで、AI実装による課題解決が実現したとしている。

グーグルの親会社アルファベットがAIを活用して創薬に挑むIsomorphic Labsを設立

創薬の分野はAIの能力によって超高速化が進んでいる。複数の企業がさまざまな方法でAIを応用し、膨大な実際上の課題を、扱いやすい情報の問題に変えている。最近の動きとして、Google(グーグル)の親会社であるAlphabet(アルファベット)が、DeepMind(ディープマインド)のトップであるDemis Hassabis(デミス・ハサビス)氏の下でIsomorphic Labs(アイソモルフィックラボ)を設立し、この有望な新分野に挑戦する。

この会社については、初公開のブログ記事と、それに付随するごく一般的なFAQでは、ほとんど何も明らかにされていない。同社の目的は「生体システムを第一原理から理解し、病気治療の新方法を発見する計算プラットフォームを開発する」ことだ。

もちろん、この設立宣言には、いくつかの前提条件が織り込まれている。その中でも最も重要なのは、創薬に適した方法で生体システムを計算機上でシミュレートすることが可能であるという前提だ。

過去5年ほどの間に、よく似た目標を追求するために、複数の大企業が形成され、何億ドル(何百億円)もの資金が投入されたが、目に見える革命や、これまで治療不可能だった病気の特効薬をAIが発見したというようなことはなかった。その理由について考察することは本稿の範囲を超えているが(近い将来、Isomorphic Labsが取り組むことになるだろう)、AIシステムというものは奇跡の工場ではなく、いまだに膨大な時間・資金・試験管を必要とする長く複雑なプロセスの一部に過ぎないことは明らかだ。

ハサビス氏も馬鹿ではない。同氏は生物学を「情報処理システムです。ただし、非常に複雑で動的な」とやや楽観的に表現しているが(この分野の読者は下にスクロールしてコメント欄に向かっていることだろう)、直後にやや穏やかな言葉に置き換えた。

生物学はあまりにも複雑で混沌としているので、単純な数式では表現できないものです。しかし、物理学を記述する適切な言語は数学だということがわかったように、AIを応用する対象として生物学が最適だということが明らかになるかもしれません。

情報システムと生物システムには共通の構造があるのではないかという考えから「Isomorphic Systems(同型のシステム)」と名づけられた。同型とは、形は似ているが起源が異なるという意味だ。

同氏の説明の背景には、2020年、生物学者の度肝を抜いた、DeepMindのAI搭載タンパク質折り畳み構造解析システム「AlphaFold」が有効だとわかり、非常に複雑な分野で新たな常識を生み出すことに貢献したことがあるのは間違いない。

DeepMindの学習システムが汎用性や知識の伝達に特に親和性があることが明らかになりつつある。さまざまなタスクに再利用できる構造を持つということだ。AlphaFoldの成功が示すように、生物学的システムがこの種のシミュレーションや分析に適しているとすれば、ハサビス氏による検証は同社の幅広い能力を証明することになるかもしれない。

しかし、それが実現するのはしばらく先のことだろう。DeepMindがAI研究でスタートダッシュを見せたとしても、Isomorphicは基本的にこの問題をゼロから始めることになる(今後も両社は別々の会社として存在する見込みだが、研究結果は共有される可能性がある)。Isomorphicは、採用により「世界レベルの学際的なチーム」を構築しており、おそらく1~2年後には、同社の野望から生まれる成果の最初の兆候を目にすることができるだろう。

画像クレジット:Isomorphic Labs

原文へ

(文:Devin Coldewey、翻訳:Nariko Mizoguchi

「機械学習データセットのためのGoogleフォト」実現加速のためScale AIがSiaSearchを買収

Scale AI(スケールAI)は、欧州でのリーチ拡大と最新製品の開発スピードアップに貢献する小規模なスタートアップを買収した。

買収にともなう合意条件は明らかにされていない。

欧州のベンチャースタジオMerantixからスピンアウトしたSiaSearchは、先進運転支援システムや自動運転システムが取得するペタバイト規模のデータの検索エンジンとして機能するデータ管理プラットフォームを構築している。すでにフォルクスワーゲンやポルシェなどの大手自動車メーカーと提携しているこのスタートアップは、車両群が収集した生センサーデータのインデックスを自動作成し、構造化することができる。

その機能は、Scale AIの既存の技術とうまく調和している。Scale AIは、ソフトウェアと人を使って、画像、テキスト、音声、ビデオデータにラベルを付け、機械学習アルゴリズムを構築する企業に提供している。Scale AIは当初、自律走行車メーカーに、機械学習モデルのトレーニングに必要なラベル付きデータを提供することを目的として設立された。これにより、ロボタクシー、自動運転トラック、倉庫やオンデマンド配送に使用される自動ロボットなどの開発・展開が可能になる。しかし、同社はデータラベリングにとどまらず、データマネジメントのプラットフォームとしての役割を果たしている。政府、金融、EC、エンタープライズなどの他の業界にもサービスを提供しており、現在はAirbnb(エアビーアンドビー)、DoorDash(ドアダッシュ)、Pinterest(ピンタレスト)などの企業と提携している。

ベルリンを拠点とするSiaSearchは、Scale AIの共同創業者兼CEOであるAlexandr Wang(アレクサンダー・ワン)氏が以前「我々の未来の最初の製品」と呼んだNucleusの構築において、特に有益な存在となり得る。ワン氏によると、SiaSearchチームをNucleusの活動に組み込むことを計画しているという。

Nucleusは、ワン氏が「機械学習データセットのためのGoogleフォト」と呼ぶAI開発プラットフォームだ。この製品は、膨大なデータセットを整理、管理し、モデルのテストやパフォーマンス測定などを行うための手段を顧客に提供する。SiaSearchによって、Scale AIは取り組みを加速させ、さらには機械学習のライフサイクル全体をサポートするために機能を拡張することができる、とワン氏はいう。

今後の目的は、SiaSearchの技術をNucleusに組み込み、自動車やAV技術以外でも、あらゆるAI開発者が使用できる完全なデータエンジンを提供することだ。これは、ロボットメーカーや自動車メーカーなど、データの取得、ラベル付け、整理だけでなく、自社製品のアルゴリズムを改善するために必要な新しい種類のデータを継続的に再定義するための追加ツールが必要な企業にとって、非常に有用なものとなるだろう。

ワン氏は、Tesla(テスラ)が同社の先進運転支援システム「オートパイロット」の改良のためにデータエンジンのコンセプトを率先して導入したことを指摘し、これはテスラが行ってきたことに似ています、と語った。

ワン氏は、自動車メーカーやロボットメーカーは、車両やロボットなどのフリートが拡大するにつれ、膨大な量のデータをどのように活用するかに頭を悩ませていると語る。これらのデータをすべてクラウドにアップロードするだけでも、文字通り何十億ドル、何百億ドル(何千億円、何兆円)ものコストがかかると同氏はいう。

「基本的に、すべてのAIチームが求めているのは、いかにして機械学習の開発を加速させ、Teslaのようにデータセットの取り組みを加速させるかということです」とワン氏。「当社は、Teslaが持っているのと同じように、モバイルフリートから最も関連性が高く、最も興味深いデータを使って、常にアルゴリズムをスーパーチャージできるというスーパーパワーを彼らに与えようとしているのです」。

画像クレジット:Scale AI

原文へ

(文:Kirsten Korosec、翻訳:Aya Nakazato)

AIアプリケーションのためのストリーミングデータベースを構築するActiveloopが約5.7億円調達

Y Combinatorの2018年夏季から巣立ったActiveloopは、メディアに特化した人工知能アプリケーションのために特別に設計されたデータベースを開発している。米国時間11月2日、同社は 468 CapitalとCM Venturesがリードする500万ドル(約5億7000万円)のシード投資を発表した。これにはTribe CapitalとShasta Ventures、およびテクノロジー業界のさまざまなエンジェルたちが参加した。

同社の創業者でCEOのDavit Buniatyan(ダビット・ブニアティヤン)氏によると、同社は彼がプリンストン大学で行っていた研究から生まれた。そのとき彼は、AIのユースケースのために特別に設計された、画像や動画など非定型データのストリーミングデータベースが必要だと感じていた。同社はこの度、商用プロダクトのアルファバージョンを立ち上げている。

「私たちのAIのためのデータベースは、具体的には、データを極めて効率的に保存し、これを機械学習のアプリケーションや、コンピュータービジョン、音声処理、NLP(自然言語処理)などのモデルの訓練へストリーミングするレイターです」とブニアティヤン氏は説明している。

実用面では、ビデオやオーディオなどのデータをマシンが理解できる数学的表現に変換するためのオープンソースのAPIだ。さらにそのAPIでデータの異なるバージョンを追跡でき、そして最終的にはそれを、Amazon S3のようなにリポジトリに保存できる。

データがストリーミングで入手できれが、データサイエンティストやデベロッパーはこれまでのようにすべてのデータを手元のノートパソコンにダウンロードする必要もなく、それをモデルが使うために送ることもできる。Netflixでムービーを自分のところへストリーミングするのと同じで、自分のローカルマシンには何もダウンロードしない。

Activeloopの画像データベース(画像クレジット:Activeloop)

彼によると、このオープンソースプロジェクトには55名のコントリビューターがいて、コミュニティのメンバーはおよそ700名いる。そのプログラムはこれまでに30万回ダウンロードされた。

彼がデータをストリーミングしようと思いついたのは、プリンストンの神経科学研究所で大量のデータを扱っていたときだ。彼は、ファイルでは大きすぎると悟った。それをダウンロードするのは非実用的であり、むしろストリーミングするやり方を思いついて、それがActiveloopのベースになった。

現在、社員は15名だが、5〜6名の高度な技術者を求めている。彼が同社を創るときには、人材のダイバーシティをできるかぎり心がけた。たとえばエンジニアリング担当の副社長は女性だ。最近ではエチオピア出身のエンジニアを雇用しようとしたが、彼は結局断った。ブニアティヤン氏によれば、有能な人材であれば性別や人種や国籍などはまったく関係ないし、気にもしないという。

「人の出自や生まれつきなどはどうでもいい。重要なのは、我が社のミッションに貢献してくれるかだけです。私はこの会社をインパクトのある企業に育てたいので、そのための人材が欲しいのです」。

APIはオープンソースだが、この度アルファをリリースした商用プロダクトは、ストリーミングデータへのSQLクエリなど、いろいろな機能が加わっている。それらはオープンソースプロダクトにはない。同社はまだ売上を計上していないが、2022年の第1四半期には商用バージョンをリリースしたい意向だ。

画像クレジット:Activeloop

原文へ

(文:Ron Miller、翻訳:Hiroshi Iwatani)

Facebookが10億以上のユーザーの顔認識データを削除する

社名を変えてからわずか数日後にFacebookは、この世界最大のソーシャルネットワークが10億以上の人びとに関して集めた、いちばん心配なデータ集合を削除する計画を発表した。

火曜日のブログでFacebookの、その名も新たな親会社Metaは、同社の顔認識システムの部門を閉鎖し、顔を写真とビデオで突き合わせるために使っていた10億あまりの顔認識テンプレートの集まりを削除する、と説明した。Facebookは今後、このシステムにオプト・インしていたユーザーのマッチングを行わない。

Facebookは、写真に名前を自動的にタグ付けするために2010年に顔認識を導入した。この機能はローンチ時に自動的に有効になり、Facebookは2019年にやっと、システムを明示的にオプトインにした。それにより、同社が10億を超える顔認識プロフィールをどうやって編纂していたかも明らかになった。

ブログでFacebookの人工知能担当副社長Jerome Pesenti氏がこう述べている: 「今後に関しても、顔認識技術が強力なツールであるという認識は持ち続けるだろう。たとえば、人びとのアイデンティティを確認する必要があったり、詐欺やなりすましを防がなければならない。しかし、顔認識が役に立つ多くの具体的な事例は、この技術全体に対する懸念の高まりと比較して、その重要性の軽重を秤にかける必要がある」。

Pesenti氏によると、Metaの顔認識を制限するという決定により、顔認識技術を取り巻く環境が不確定になり、ごく一部のアプリケーションしか使えなくなるだろう、という。

現時点では、Facebookの顔認識システムはおそらく、その価値よりもトラブルの方が大きい。米国における、オンラインのプライバシーを規制する多くの提案は、その多くが、特に国のレベルでは仮説にとどまっており、既存の法律では、顔認識技術の利用が一層複雑になるだろう。たとえばイリノイ州のプライバシー法Biometric Information Privacy Act(BIPA)は、一部のテクノロジー大手の動きを制約しようとしている。

今年の初めにはFacebookがBIPAにより、イリノイ州民の写真を同意なく顔認識を使って同定したとして、6億5000万ドルの支払いを命じられた。議論を招いている顔認識企業Clearview AIも現在、同州でBIPAの訴訟に直面している。またFTCは、Facebookの顔認識の利用を欺瞞的なプライバシー実践と呼び、50億ドルという記録破りの、強制力を欠く調停案を提示している。

顔認識から撤退するFacebookの決定は、同社のメタバースをめぐる大きな社名変更と期を一にする象徴的なジェスチャーだ。Facebookのプライバシーとモデレーションの失敗に関するコンセンサスは、同社のビジネスにまったく傷を与えていない。しかし同社の次の章が社名変更であろうとなかろうと、それに続くものは大衆の不信と迫り来る規制だ。

今やMetaという名前で知られるようになった企業が自分を、次のインターネット時代における信頼される奉仕者として立て直そうとしているが、そのためには自身の努力が必要だ。これまでのプライバシーの汚名から、一部の重荷を捨てる試みは、狡猾なそぶりだ。それは、ユーザーの究極の勝利でもある。その突然の心変わりを、誰も買わないだろうが。

関連記事: フェイスブックがイリノイ州のプライバシー保護法をめぐる集団訴訟で約694億円支払う

関連記事: フェイスブックが「Meta」に社名変更、メタバースを中核事業に

(文:Taylor Hatmaker、翻訳:Hiroshi Iwatani)
画像クレジット: Kelly Sullivan/Stringer / Getty Images

[原文へ]

OctoMLが機械学習のアクセラレーションプラットフォームのために巨額約96.5億円調達

OctoMLはシアトルのスタートアップで、企業の機械学習モデルの最適化と多様な実行環境による実用展開を助けている。米国時間11月1日、同社は、Tiger Global ManagemenがリードするシリーズCのラウンドで8500万ドル(約96億5000万円)を調達したことを発表した。これまでの投資家であるAdditionとMadrona Venture GroupおよびAmplify Partnersもこのラウンドに参加した。これで同社の調達総額は1億3200万ドル(約149億9000万円)となり、その中には2021年初めのシリーズBの2800万ドル(約31億8000万円)も含まれている。

同社の共同創業者はCEOのLuis Ceze(ルイス・セゼ)氏とCTOのTianqi Chen(ティアンキ・チェン)氏、CPOのJason Knight(ジェイソン・ナイト)氏、チーフアーキテクトのJared Roesch(ジャレッド・ローシュ)氏、そしてテクノロジーパートナーシップ担当副社長Thierry Moreau(ティエリー・モロー)氏らで、彼らは、オープンソースの機械学習コンパイラーフレームワークApache TVMの作者でもある。TVMは現在、AmazonやMicrosoft、Facebookなどが使っている。OctoMLは、TVMの、機械学習モデルを自動的に最適化し、ほとんどどんなハードウェアでも動くようにする能力をベースにしている。

セゼ氏によると、シリーズAを調達して以降のOctoMLは、QualcommやAMD、Armなど多くのハードウェアパートナーと契約を交わした。同社はまた最近、ビデオコンテンツのモデレーションの大規模な展開に関して、Microsoftと協働している。同社によると、ユーザーはGlobal 100社の企業が多く、たとえばトヨタは、同社のサービスを利用するようになってからMLモデルのパフォーマンスを2倍から10倍向上させている。

2021年初めのシリーズBのころの同社は、同社のSaaSプラットフォームのアーリーアダプターがわずかにいる程度だった。しかし本日の発表に先立ってセゼ氏は、そのサービスがまだ一般的な可用性に達していない、と述べた。それでも現在、OctoMLはともに仕事をする顧客の数が多くなり、そのプラットフォーム上で彼らが成功するよう注力に努めている。

セゼ氏によると、モデルが増殖しより高度になると、それらをクラウドで動かす費用も高くなる。そこで、そういうモデルを最適化できるシステムは直ちに、同社の顧客が達成しているようなコスト削減に向かうことになる。「コストだけでなく持続可能性の問題です。同じハードウェアの上で何かを従来の倍速で動かせるのなら、それは半分のエネルギーしか使わないということであり、スケールにインパクトを及ぼします」とセゼ氏はいう。また彼によると、大きなクラウドプロバイダーでもハイエンドなGPUのデプロイにはチップの不足も相まって容量的に限界があり、モデルを別のGPUや、あるいはCPUにさえ、移すこと、すなわちハードウェアの多様化に新たなアドバンテージがありうる。

セゼ氏によると、現時点では新たな資金調達の必要性はなかったが、現在順調ではあるものの万一に備えておくべきだと結論した。「新たなハードウェアの立ち上げやクラウドの能力拡張など、万一に備えておくべき部分はいくつもあります。これまでは『もっと速くしておけたし、そうすればこの仕事を取れたのに』の連続でした。ビジネスのチャンスはいつも目の前にあるが、それらに全部対応するためには、もっと速くスケールすべきだ」とセゼ氏は語る。

そういうチャンスをものにして新たな顧客を獲得するためには、今回の資金で迅速に技術と営業の両方を拡大する必要がある。また、パートナーのエコシステムも築いていきたい。

Tiger GlobalのパートナーであるJohn Curtius(ジョン・クルティウス)氏は次のように語る。「企業や組織が次世代のAIモデルとアプリケーションを構築するやり方に、OctoMLはとても深い変化を作り出そうとしている。ユーザーが依存しているすべてのハードウェアベンダーにわたって統一的なデプロイライフサイクルを実現しようとするOctMLのビジョンは、MLのデプロイのコスト効率を上げ、もっと多くの開発者がアクセスできるものにしていく。OptMLのLuisらの共同創業者チームがTigerのポートフォリオに来てくれたことは本当にすばらしいし、その成長の次の章では、私たちも重要な役を演じたい」。

関連記事
機械学習モデルをデバイスごとに最適化してスピードを上げるOctoMLがシリーズBで30.5億円調達
機械学習モデルをさまざまなハードウェアに合わせて最適化するOctoMLが16億円相当を調達

画像クレジット:Zhang Jingang/VCG / Getty Images

原文へ

(文:Frederic Lardinois、翻訳:Hiroshi Iwatani)

マイクロソフト、新しくAzure OpenAI Serviceを通じ言語AI「GPT-3」を招待制で提供開始

Microsoft(マイクロソフト)は米国時間11月2日、Azure OpenAI Serviceの提供開始を発表した。Azure OpenAI Serviceとは、その名の通り、OpenAIの機械学習モデルをAzureプラットフォーム上で利用できるようにするものだ。具体的には、OpenAIの画期的な大規模自然言語処理モデルである「GPT-3」が対象となる。GPT-3は、適切な環境下であれば、わずかなプロンプトで人間のようなテキストを生成することができる。

しかし、少なくとも今のところ、すべてのAzureユーザーがアクセスできるわけではない(たとえお金を払う用意があっても)。アクセスは招待制で「AI技術を使用するための責任ある原則と戦略を取り入れた、明確に定義されたユースケースを実装する予定の顧客」が対象とのこと。Microsoftは、GPT-3の悪用や誤用のケースを見つけるための安全性モニタリングと分析を提供し、GPT-3をベースにしたチャットボットが(たとえそれに値するとGPT-3が考えたとしても)重役に悪態をつき始めたりしないようにするためのフィルターを提供する。

画像クレジット:Microsoft

ここで注目に値するのは、OpenAI自体は2020年、すでにGPT-3のAPIを公開していることだ。ただし、まだウェイティングリストがある。MicrosoftもGPT-3を使って、デベロッパーのコード作成を支援する「GitHub Copilot」ツールをすでに構築している。しかし、Azure以外でGPT-3にアクセスする方法はすでにあるが、Microsoftは「セキュリティ、アクセス管理、プライベートネットワーク、データ処理の保護、またはスケーリング能力の追加レイヤー」を提供できるとしている。

Microsoftは2019年にOpenAIに10億ドル(当時約1080億円)を投資し、GPT-3のライセンスを取得しているので、今、より広い範囲の製品に導入しようとしているのは驚くことではない。

OpenAIのSam Altman(サム・アルトマン)CEOはこう語った。「GPT-3は、自然言語のための最初の強力な汎用モデルであることを証明しました。1つのモデルであらゆることに使えるので、非常に簡単に試すことができ、デベロッパーにとって使いやすいものです。以前から、可能な限り広くスケーリングする方法を見つけたいと思っていました。その点が、Microsoftとのパートナーシップで最も期待していることです」。

画像クレジット:Westend61 / Getty Images

原文へ

(文:Frederic Lardinois、翻訳:Aya Nakazato)

バルテックの全通話録音システム「MOT/PBX V4」がRevCommの音声解析AI採用、音声テキスト化が可能に

バルテックの全通話録音システム「MOT/PBX V4」がRevCommの音声解析AI採用、音声テキスト化が可能に

通信機器やソフトウェアの開発販売を行うバルテックは11月2日、MOT/PBXの全通話録音システム「MOT/PBX V3」に、RevComm(レブコム)の音声解析AI「MiiTel」(ミーテル)のAPIサービスを導入した「MOT/PBX V4」をリリースした。

MOT/PBXとは、ビジネスフォンに変わる次世代型ビジネスフォンとしてバルテックが提供している、法人向け電話サービス。スマートフォンやパソコンを内線化して、外線通話、FAX、チャットなどに対応できるようにするものだ。MOT/PBX V4は外線通話に対する全通話録音が可能な上、RevCommが提供する音声解析AI「MiiTel Speech API」を実装したことで音声テキスト化が行えるようになった。

MiiTel Speech APIの特徴は、録音された会話の音声ファイルをAIで自動的に解析し、会話内容の全文書き起こしに加え、話し方の速さ、抑揚、その他の特徴を可視化できること。電話営業や顧客対応がリアルタイムで解析されるため、オンライン商談の成約率の向上などにつなげられる。

保存された通話データには、通話開始時間、通話時間、相手先電話番号情報が含まれる。また、データはリスト管理され、検索画面で必要な音声を再生したり、削除やバックアップなども行える。通話のテキスト化は、これまでは録音を聞きながら後から文字起こしする必要があり、発言内容の確認などにも手間がかかったが、そこが丸ごと自動化され、時間が大幅に節約される。

バルテックでは、コールセンターなどでの顧客クレームの共有やリスク回避、秘書や電話担当スタッフの依頼事項に対する伝達の補い、エビデンスを残すことによるコンプライアンス遵守といった利点を挙げている。

 

Mantraがマンガ特化の多言語翻訳システムで小学館「マンガワン」英語版展開を支援、海賊版サイトの作品取り下げにも寄与

暗号資産・ブロックチェーン業界の最新1週間(2020.11.8~11.14)

マンガに特化したAI翻訳技術の研究・開発を行うMantra(マントラ)は11月1日、小学館のマンガ配信サイト「マンガワン」の英語版展開を、多言語翻訳システム「Mantra Engine」で支援すると発表。共同による取り組みを開始した。


マンガワンの海外展開は、海外で広く普及している海賊版への対処でもある。Mantraが2021年に行った調査では、小学館が出版したマンガのうち、正規の手続きを踏んで翻訳された公式版に対して、海外海賊版は約5倍の量が流通していることがわかった。なかでも、「ケンガンアシュラ」と「ケンガンオメガ」のシリーズは、確認できた海外海賊版サイトだけでも閲覧回数が1億回を超えていた。

ただ、海賊版の制作者に対するアンケートでは、公式な翻訳版がないためという回答が67.7%あり、大好きなマンガを広めたいという気持ちが強い熱烈なファンによる行為であることがわかる。その証拠に、「ケンガンアシュラ」「ケンガンオメガ」の公式な翻訳版の配信予定が発表されると、海外海賊版制作グループは海賊版の制作を停止し、公開済みエピソードの配信取り下げを発表したという。

小学館では、そうした熱烈なファンの力を活用して、正規の翻訳版制作に取り組んでいる。上記の理由から、公式版の公開が急がれるが、そこでMantra Engineの能力が活かされることになる。このシステムでは、翻訳担当者に原稿データを送ることなくウェブブラウザー上で作業が行えるほか、AI技術による支援機能により安全性と効率性が両立され、制作時間が従来の約半分に短縮されるとのことだ。

翻訳を行うのは、Mantraが個別に面談し協力を依頼したマンガファン。彼らはMantra Engineで作業を行った英語版は、英語圏向けマンガ配信サービス「Comikey」から日本語版と同時に公開される。

フェイスクブックの研究者がAIの訓練のために何千時間もの一人称視点の動画を収集

テック企業の多くが目指しているように、ARメガネやその他のウェアラブルに搭載されたAIが人間の目を介して物事を見るようになるのであれば、未来のAIは人間の視点をきちんと理解できるようになる必要がある。自身の視点というのは当然、我々にとっては自然なものだが、意外なことに日常的な作業を映した1人称視点のビデオ映像はほとんど存在しない。そこでFacebookは、数千時間に及ぶ映像を新たなデータセットとして公開するため収集した

Facebookが取り組んだのは、現在最も優れた物体・シーン認識モデルであっても、そのほとんどが三人称視点でのみ学習されているという課題だ。つまりキッチンに立っている場面を見れば、料理をしている人として認識することができても、料理をしている人の視点から見た場合では認識する事ができない。自転車を認識するにしても、自転車が映し出されれば認識できるが、自転車に乗っている人の視点では理解ができないわけだ。我々人間にとっては当たり前のことで、これまで見過ごされてきたことだが、コンピューターにとってはまだ難しい課題なのである。

機械学習の問題を解決するには通常、データを増やすかより優れたデータを得るかのどちらかが必要になる。今回の場合は両方あっても損はないだろう。Facebookは世界中の研究パートナーに協力を依頼し、料理や買い物、靴ひもを結ぶ様子から仲間と遊んでいる様子まで、一般的な行動の1人称映像を集めた。

13のパートナー大学が9カ国700人以上の参加者から何千時間ものビデオを収集。参加者はみんなボランティアで、自身の関与やアイデンティティのレベルをコントロールすることができた。これら数千時間にもわたる映像は、研究チームによって3000時間にまで縮小され、研究チームが映像を見て編集し、手書きで注釈を加え、さらに現実世界では撮影できなかった環境を演出した独自の映像も追加された。この研究論文にそのすべてが記されている

映像はメガネ型カメラ、GoPro、その他のデバイスなどさまざまな方法で撮影されている。研究者の中には、活動している環境を同時に収録した人もいれば、視線の方向やその他の指標を追跡した人もいる。これらのデータはすべてEgo4Dと呼ばれるFacebookのデータセットにまとめられ、研究コミュニティに広く提供される予定だ。

コンピュータービジョンが物体の識別に成功しているものと、1人称映像での識別に失敗しているもの(画像クレジット:Facebook)

「AIシステムが人間と同じように環境と関わり合うためには、AI分野が1人称視点の知覚というまったく新しいパラダイムに進化する必要があります。そのためには人間の目を通したリアルタイムの動き、関わり合い、多感覚の観察の中で、AIに日常生活の動作を理解することを教えなければなりません」と、主任研究員のKristen Grauman(クリステン・グラウマン)氏はFacebookのブログ中で話している。

Facebookは1人称視点での理解力があらゆる分野でますます重要になっていると考えてはいるものの、何とも信じ難いことにこの研究とRay-Ban Storiesのスマートシェードはまったく無関係とのこと(この3Dスキャンは同社のハビタットAIトレーニングシミュレーターに使用されるかもしれないが)。

「弊社の研究では、拡張現実やロボット工学への応用を強く意識しています。特にARメガネのようなウェアラブル製品が人々の日常生活や移動に不可欠な要素になるにつれ、将来AIアシストを実現するためには1人称視点の知覚が不可欠です。もし、あなたのデバイスに搭載されているアシスト機能が、あなたの目を通して世界を理解し、生活から認知的過負荷を取り除くことができたらどれほど有益か想像してみてください」とグラウマン氏はTechCrunchに話している。

世界中から映像を集めたというのは意図的な戦略である。1つの国や文化の映像だけを集めるようでは近視眼的だ。米国のキッチンはフランスのキッチン、ルワンダのキッチン、日本のキッチンとはまるで別物であり、また同じ食材を使って同じ料理を作ったり、同じ作業(掃除や運動)をしたりしても、個人間はさることながら、文化間となれば大きく異なるのは当然である。つまりFacebookの投稿にあるように「既存のデータセットと比較して、Ego4Dのデータセットは、シーン、人、アクティビティの多様性が高く、背景、民族、職業、年齢を問わずさまざまな人に向けてトレーニングされているため、モデルの適用性が高い」のである。

Facebookの1人称視点のビデオとその環境の例(画像クレジット:Facebook)

Facebookが公開しているのはデータベースだけではない。データ収集においてこのような飛躍的な進歩がある場合、あるモデルがどれだけこの情報を活用できているかをテストしたベンチマークを公開するのが一般的になっている。例えば犬と猫の画像があったとして、どちらがどちらかを見分けるというモデルの有効性をテストした標準的なベンチマークが知りたい場合もあるだろう。

しかし今回のような場合はもう少し複雑になる。1人称視点で物体を識別するというのはそれほど難しいことではなく、目新しさや便利さもない。「これはトマトですよ」と教えてくれるARメガネなど誰が必要だろう。他のツールと同様に、ARデバイスは私たちが知らないことを教えてくれるものでなければならないのだ。そのためにARデバイスは、意図、文脈、連動したアクションなどをより深く理解する必要がある。

そこで研究者らは、1人称視点の映像を分析することで理論的に達成可能な5つのタスクを考えた。

  • エピソード記憶:物体や概念を時間と空間の中で追跡し「私の鍵はどこにあるか」といった任意の質問に答えられるようにする。
  • 予測:一連の出来事を理解することで「レシピの次の手順は何か」といった質問に答えたり「車の鍵を家に忘れた」といったことを事前に指摘したりすることができる。
  • 手と物体のインタラクション:人がどのように物を掴み、操作しているのか、またその際に何が起こっているのかを把握することで、エピソード記憶やそれを模倣したロボットの動作に反映させることができる。
  • オーディオ・ビジュアル・ダイアライゼーション:音をイベントやオブジェクトに関連付けることで、音声や音楽をインテリジェントに追跡し「カフェでかかっていた曲は何だったのか」「会議の最後に上司は何と言ったか」といった質問のソリューションに適用する(「ダイアライゼーション」が「言葉」である)。
  • 社会的相互作用:誰が誰に向かって話しているのか、何が語られているのかを理解し、他のプロセスに情報を提供する目的と、複数の人がいる騒がしい部屋で字幕を表示するなどの瞬間的な使用の両方に対応する。

当然、このような活用法やベンチマークに限られているわけではなく、上記の例はAIモデルが1人称視点のビデオで何が起きているかを実際に理解しているかどうかをテストするための初期アイデアに過ぎない。論文に記載されている通り、Facebookの研究者らはそれぞれのタスクについてベースレベルの実行を行い、それを出発点としている。さらにこの研究をまとめた動画には、それぞれのタスクが成功した場合を想定した、非現実的とも言えるような例が挙げられている。

現在公開されているデータは、25万人の研究者が手作業で丹念に注釈を加えたという3000時間ものデータ数にははるか及ばないものの、まだ成長の余地があるとグラウマン氏は指摘する。今後もデータセットを増やしていく予定であり、パートナーも積極的に増やしていくという。

このデータの活用に興味がある読者は、Facebook AI Researchのブログをチェックして論文に掲載されている莫大な数の人々の1人に連絡を取ってみるといい。コンソーシアムが正確な方法を確定した後、数カ月以内に発表される予定だ。

画像クレジット:Facebook

原文へ

(文:Devin Coldewey、翻訳:Dragonfly)

インドやフィリピンなどアクセントが異なる英語の認識が向上した音声認識モデル「Speechmatics」

ここ数年、スマートスピーカーや運転支援モードの普及に伴って、音声認識は便利なものから重要なものへと変化してきたが、誰の声でも同じようにきちんと認識できるわけではない。Speechmatics(スピーチマティック)は、最も包括的で正確なモデルを持っていると主張する。特に一般的な米国のアクセント以外のスピーチに関しては、Amazon(アマゾン)やGoogle(グーグル)などを凌駕しているという。


同社は、2019年にスタンフォード大学で行われた「Racial Disparities on Speech Recognition(音声認識における人種格差)」と題した研究の内容から精度の問題関心が向いたと説明している。たとえばAmazon、Apple(アップル)、Google、IBM、Microsoft(マイクロソフト)の音声エンジンは「人種による大きな格差が見られている。たとえば平均ワードエラー率(WER)をみると、白人話者に対しては0.19であったのに対し、黒人の話者の場合は0.35だった」とある。つまりイマイチってことだ!

この差の原因は、システムの学習に使用したデータセットに多様性がないことが一因であると考えられる。結局、データの中に黒人の話者が少なければ、モデルはそのようなスピーチパターンを学習することができない。これは、他のアクセントや方言を使う話者についても同じことがいえる。英国はいうまでもなく、米国にはさまざまなアクセントがあるので「すべての人たち」のためのサービスを提供すると主張する企業は、そのことを認識する必要がある。

ともあれ英国のSpeechmaticsは、その最新モデルでアクセント違いの英語を正確に聞き取ることを最優先にしており、他のモデルを圧倒できると主張している。スタンフォード大学の研究で使用されたのと同じデータセット(ただし、最新バージョンの音声ソフトウェアを使用)に基づいて「Speechmaticsは、アフリカ系米国人の声に対して、Googleの68.7%およびAmazonの68.6%と比較して、82.8%という総合的な正確性を達成できた」と同社はプレスリリースに記している

同社によれば、この成功は、音声認識モデルの作成に比較的新しいアプローチを採用したことによるものだという。従来、機械学習システムにはラベル付きのデータが提供されていた。これは、音声ファイルにメタデータやテキストファイルが付随したものだ、通常はそうした付随データの書き起こしは人間が行いチェックもしている。猫の検出アルゴリズムでは、画像とともに、どの画像に猫が写っているか、どこに猫が写っているかなどのデータが付随する。これが教師あり学習で、用意された2つの形式のデータの相関関係をモデルが学習する。

Speechmaticsはデータセット、学習効率、計算能力の向上にともない、近年注目されている自己教師あり学習を採用している。同学習法は、ラベル付きのデータに加えて、ラベルのない生のデータを大量に使用し、より少ないガイダンスで独自の音声「理解」力を構築していく。

関連記事:「常識」獲得に向け少しずつ進化するコンピュータービジョン、フェイスブックの最新研究

今回のモデルでは、基本的な理解力を得るために約3万時間のラベル付きデータで学習が行われた後、YouTubeやポッドキャストなどのコンテンツから得られた110万時間の公開音声が投入された。こうした収集方法は多少グレーゾーンだ、なぜなら他者の商用音声認識エンジンのトレーニングに自分のポッドキャストが使われることには、誰も明確に同意はしていないからだ。しかし、OpenAI(オープンAI)のGPT-3の訓練に「インターネット全体」が使われたように、多くの人によってそのような使い方が行われている(まあ、まだ私個人の声をマスターしてはいないが)。

Speechmaticsのモデルは、米国の黒人話者に対する精度を向上させただけでなく、子どもの聞き取り能力も向上させ(約92%の精度、これに対してGoogleやDeepgramでは約83%の精度)、インド人、フィリピン人、南部アフリカ人、そしてスコットランド人なども含めた世界中のアクセントの異なる英語に対して、小さいながらも大きな改善が見られたとしている。

このモデルは他にも何十もの言語をサポートしており、その多くで他のエンジンに対する競争力を誇っている。これは単なる英語認識モデルではなく、英語をリンガフランカ(「国際共通語」の意、今となっては失笑を買うほど不適当な慣用句だが)として使うことを考えると、アクセントは特に重要な意味を持つ。

Speechmaticsが挙げた数字は先進的なものだが、AIの世界は信じられないほどの速さで動いているため、2022年以降さらに飛躍することがあっても不思議ではない。たとえばGoogleは、発話の不自由な人でもエンジンを使えるようにするための努力をしている。最近では、インクルージョンはすべてのAIワークにおいて重要な役割を果たしており、企業が互いにしのぎを削るところを見られるのは良いことだ。

関連記事:GoogleがProject Euphoniaの包括的な音声認識を支えるAIの詳細を発表

画像クレジット:drafter123/Getty Images

原文へ

(文:Devin Coldewey、翻訳:sako)

音楽や演者、感覚の動き・表情などで空間を即興で演出するHumanoid DJが大塚愛とスペシャルライブ

先に開催されたMicrosoft Japan Digital Days。4日間にわたるイベントでは、組織の競争力を高める最新事例とソリューションというビジネスやテクロノジーに関する130以上のセッションが行われた。

その「締め」、クロージングイベントとしてエイベックスのAI DJ「Humanoid DJ」とミュージシャン大塚愛氏によるスペシャルライブも開催された。

Humanoid DJ(ヒューマノイド DJ)」とはAI DJである「LUCY」が観客の感情を解析し、機械、データ、ネットワークとも繋がり、姿形や空間自体も変容させ一期一会な空間を演出するというプロジェクトのこと。クリエイティブカンパニー「NAKED, INC.」と総合エンタテインメント企業エイベックスが作り出したものだ。

オンラインで開催された今回は演者である大塚愛さんの表情や動き、そしてプレイヤーのキーボード演奏、さらに本イベントのハッシュタグ「#MSDD2021」が付けられたツイートを、Humanoid DJが読み取り、その場、その場で演出していく。投影されるツイート内の言葉やイメージ画像の選択し動かしているのはLUCYだ。「このシステムはMicrosoft Azure上にある。

そもそもライブイベントは一期一会なものであり、ミュージシャンが同じで演奏する楽曲は同じでもまったく同じ演奏にはならないということはあるが、即興でつくり出される空間は、できては消えていく特別なものであると感じられる。

コロナ禍で音楽イベントが、オンラインで開催された。今後、これまでのようにリアルでのライブも戻ってくるだろうが、各種イベントと同じくオンライン配信も並行して行うハイブリッド型が増えるのではないだろうか。オンラインは「生」の良さにおいては「リアルでのライブ」に負ける部分もあるが、場所を問わずに気軽に参加できるといったメリットも大きい。またオンラインであれば、アーティストが豆粒のように小さい……といった状況もないので、空間をつくり出す「Humanoid DJ」とも相性がいいはずだ。

非常に未来的な演出だが、仕組みはでき上がっていること、コロナ禍でのオンラインイベントの増加など条件は整っている。今後すぐに、さまざまなイベントでHumanoid DJの「プレイ」を楽しめるようになるかもしれない。