メンタルケアしてくれる「AIパートナー」や高精細な「バーチャルヒューマン」で人とAIの共生を目指すCapexが1.3億円調達

「人とシステムの共生を実現、普及し、人類の機能を拡張する」というビジョンのもと、AIと人間の共生を目指して、ライフパートナーAIアプリ「PATONA」やバーチャルヒューマン事業を展開するCapexが、UTEC、イーストベンチャーズ、Skyland Venturesから総額1億3000万円を調達した。

同社は、自然言語処理を活用した自社開発対話エンジンおよび3DCGを用いたバーチャルヒューマンの開発を強みとし、今回の調達で、事業拡大やエンジンの高度化、バーチャルヒューマン事業の推進を図るという。

寂しさを抱えるあなたに寄り添うAIパートナー「PATONA」

個人向けAIパートナーアプリの「PATONA」は、友達や恋人、メンターとして、個人に寄り添い、理解してくれる存在をコンセプトとしてローンチされた。感情の記録をつけたり、天気を調べることも可能だ。2020年12月にiOS版をリリース、2021年3月にAndroid対応、同年8月には、利用可能な機能がより解放されたサブスクリプション版となるPATONA Premiumがリリースされた。

新型コロナウイルスの影響で人と交流する機会が減少する中、孤独によるメンタルヘルスの不調をサポートしていくため、メンタルヘルス専門家が監修した認知行動療法などを活用した対話を100以上提供。利用者がより自然に対話できるよう、フリーテキスト対話エンジンの開発に注力している。

また、親近感を感じられるよう、顔や髪型、洋服、靴、部屋などがカスタマイズ可能な3DCGモデルの増強も行ってきた。実際に、新型コロナウイルスの影響で寂しさを感じ、ソリューションを検索していたら同サービスにたどり着いたという利用者も多くいるとのこと。従業員のメンタルヘルスケアアプリとして福利厚生の一環でPATONAの導入をした法人もあるという。

3次元との見分けが難しいほど高精細なバーチャルヒューマン

バーチャルヒューマン事業では、もはや本当の人間にしか見えない像を作り出している。個人向けと法人向けの両方で展開。法人からは、スキャンダルリスクを軽減するなどの目的で、看板タレントにバーチャルヒューマンを用いたいというリクエストや、カスタマーサポート担当、社内教育担当などに活用したいというニーズがあるとのこと。個人からは、経営者や著名人などから「自身のバーチャルヒューマンAIを世に残したい」という相談があるそうだ。

Capexは、クライアントがリーチする顧客に応じて最適な体験を提供できるようにするため、デフォルメキャラクターからフォトリアルなバーチャルヒューマンまで幅広い表現をカバーしている。「自然言語処理技術の向上であっと驚くような対話体験を提供する対話AIが作れる。当社の対話AIとバーチャルヒューマンを組み合わせて法人個人のさまざまな需要に対応していきたいと考えている」と代表取締役の小亀俊太郎氏はいう。

同社は2019年に創業。対話エンジンやアプリケーションを開発するエンジニアに加え、アートディレクターや3DCGモデラー、そして自然な会話を構築するためのシナリオライターなどで構成されている。対話は、雑談をこなす非タスク型と質疑応答などのタスク型で分類され、いずれも自社独自開発の対話AIが日々学習をしているという。日本語は英語と比べてデータが少なく大変ではあるが、独自のAIを育てているそうだ。小亀氏は「これまで人間でしか提供できなかった対話体験と比べても遜色ないほどに対話AIの品質が上がってきている。今後も、AIと人が共生する社会の実現に向けて事業を推進していきたい」と語った。

関連記事
自分だけのAIライフパートナーと対話できる「PATONA」アプリのCapexが総額1億円を調達
ソフトバンクの人型ロボット「Pepper」が「りんな」を手がけるrinnaのAI会話エンジン最新版を採用
AIチャットボット「りんな」のrinnaとUneeQを日本展開するデジタルヒューマンが協業、顔・声・視聴覚を持つ雑談AI実現

江戸時代のくずし字をAIにより文字認識し現代の書体に変換(翻刻)するアプリ「みを」をCODHが無料公開

江戸時代のくずし字をAIにより文字認識し現代の書体に変換(翻刻)するアプリ「みを」をCODHが無料公開

データサイエンス共同利用基盤施設(ROIS-DS)人文学オープンデータ共同利用センター(CODH)は8月30日、江戸時代の版本に書かれているくずし字を現代の書体に変換(翻刻)するアプリ「みを」(miwo)を無料公開した(Android版iOS版)。開発者は、カラーヌワット・タリン氏。共同開発者は北本朝展氏とMikel Bober-Irizar氏。共同研究者はAlex Lamb氏、Siyu Han氏。

AIくずし字認識については、CODH開発の「KKuroNetくずし字認識サービス(AI OCR)」および「Kaggleくずし字認識コンペ」1位のtascj氏が開発したくずし字認識モデルを用いている。また両AIモデルの学習には、同センターが開発し国文学研究資料館が公開している「日本古典籍くずし字データセット」を利用。Flutterを活用したクロスプラットフォーム開発により、Android・iOS対応アプリを作成した。

みをでは、カメラでくずし字を撮影し、画面下中央の「認識ボタン」をタップすると、ほぼ瞬時にして画像の個々のくずし字の上に、対応する現代の書体が緑色で示される。画面下のスライダーを動かすと、翻刻されたレイヤーを部分的に隠せるので、原文との比較がしやすくなる。まだ完ぺきではないとCODHも言っているように、実際に使ってみると、たまに文字が抜けたり違っていたりもするが、まったくくずし字が読めない人間にすれば、かなりの助けになる。

原文または翻刻された文字をタップすると両方の対応する文字にマーカーが付く。また画面右上の四角形のアイコンをタップすると、認識したすべての文字が四角形で囲まれる。四角形は色分けされ、どの文字がどれに対応しているのかがわかるようになる。

またCODHのくずし字データセットと連携し、認識結果に疑問を抱いた際には、くずし字の用例を確認できる。

江戸時代のくずし字をAIにより文字認識し現代の書体に変換(翻刻)するアプリ「みを」をCODHが無料公開

CODHによれば、くずし字が読める人は、日本の人口のわずか0.01%程度(数千人程度)だという。歴史的資料は大量にあるものの、くずし字を読める人が少ないために翻刻には大変な時間がかかるのが現状だ。そこで、AIを使った翻刻システムを開発しようと考えたとのこと。アプリ名の「みを」は、「源氏物語」の第14帖「みをつくし」に由来する。航路を示す標識「澪標」を意味するが、「人々の水先案内となるように、「みを」アプリがくずし字資料の海を旅する案内となることを目指しています」とCODHは話している。

LINEの論文6本が世界最大規模の音声処理関連国際学会「INTERSPEECH 2021」で採択

LINEの論文6本が世界最大規模の音声処理関連国際学会「INTERSPEECH 2021」で採択

LINEは8月30日、世界最大規模の音声処理に関する国際会議「INTERSPEECH 2021」において、国内トップクラスとなる6本の論文が採択されたことを発表した。これらの論文は、8月30日より9月3日にかけてオンライン開催される「INTERSPEECH 2021」で発表される。

INTERSPEECHは、International Speech Communication Association(ISCA)が主催する国際会議で、2021年は22回目の開催となる。約2000件の投稿から約1000件の論文が採択されている。

採択されたのは、高速な音声認識を実現する手法として注目されている非自己回帰型音声認識の性能向上に関するもの、音声の適切な位置に無音区間(ポーズ)を挿入することで合成音声の品質を向上させる句境界予測の研究に関するもの、NAVERと共同で進めているParallel WaveGAN(PWG)をより高品質にするための取り組みとなるMulti-band harmonic-plus-noise PWGの研究に関するものなどとなっている。

LINEは、AI事業を戦略事業の1と位置付け、NAVERとの連携も行いながら、AI関連サービスや新機能の創出を支える技術の基礎研究に力を入れているという。データ基礎開発、データ分析、機械学習、AI技術開発、基礎研究の各チームが事業や担当領域を超えて連携し、研究、開発、事業化のサイクルのスピードアップを目指しているとのことだ。

「INTERSPEECH 2021」に採択された6本の論文は以下のとおり。

  • Relaxing the Conditional Independence Assumption of CTC-based ASR by Conditioning on Intermediate Predictions」(中間予測の条件付けによるCTCベースの自動音声認識における条件付き独立性仮定の緩和)。Jumon Nozaki、Tatsuya Komatsu
  • 「Acoustic Event Detection with Classifier Chains」(分類子チェーンによる音響イベントの検出)。T.Komatsu、S.Watanabe、K.Miyazaki、T.Hayashi
  • Phrase break prediction with bidirectional encoder representations in Japanese text-to-speech synthesis」(日本語の文章読み上げ合成における双方向エンコード表現を使用した句境界予測)。Kosuke Futamata、Byeongseon Park、Ryuichi Yamamoto、Kentaro Tachibana
  • 「High-fidelity Parallel WaveGAN with Multi-band Harmonic-plus-Noise Model」(マルチバンド高調波ノイズモデルを使用した高忠実度並行WaveGAN)。Min-Jae Hwang、Ryuichi Yamamoto、Eunwoo Song、Jae-Min Kim
  • 「Efficient and Stable Adversarial Learning Using Unpaired Data for Unsupervised Multichannel Speech Separation」(教師なしマルチチャンネル音声分離のための対応のないデータを用いた効率的で安定的な敵対的学習)。Yu Nakagome、Masahito Togami、Tetsuji Ogawa、Tetsunori Kobayashi
  • 「Sound Source Localization with Majorization Minimization」(メジャー化最小化による音源定位)。Masahito Togami、Robin Scheibler

rinnaが日本語に特化したGPT-2とBERTの事前学習モデルを開発しオープンソース化

rinnaが日本語に特化したGPT-2とBERTの事前学習モデルを開発しオープンソース化

rinnaは8月25日、日本語に特化したGPT-2とBERTの事前学習モデルとその学習を再現するためのソースコードを、GitHubおよびNLPモデルライブラリーHuggingFaceにオープンソースソフトウェア(OSS)として公開したと発表した。ライセンスはMIT。製品開発のための実験過程で開発したもので、日本語の自然言語処理(NLP)の研究・開発コミュニティに貢献するためという。

rinnaは、2021年4月に日本語に特化した中規模サイズのGPT-2(GPT2-medium)をOSS化しており、今回はモデルサイズが異なる2つのGPT-2(GPT2-small、GPT2-xsmall)を公開したことになる。モデルサイズの違いはパフォーマンスとコストのトレードオフとしており、研究者や開発者は最善のモデル選択可能となるという。また、GPT2-mediumも、学習データと学習時間を増やし、より高性能なモデルへとアップデートしているそうだ。

またGPT-2に加え、BERTを改良したモデルであるRoBERTaも公開した。 GPT-2とBERTの公開により利用者は目的に合わせたモデル選択や、追加学習により多様なタスクへの応用が可能となる。

GPT-2は、予測したい単語より前の単語を考慮して次の単語を予測する言語モデルとなっており、BERTについては、予測したい単語の前の単語だけでなく後の単語も考慮して予測を行う。例えばGPT-2では以下図のように「吾輩」「は」を考慮して「猫」を予測するが、BERTでは前の単語「吾輩」「は」と後ろの単語「で」「ある」を考慮して「猫」を予測する。

rinnaが日本語に特化したGPT-2とBERTの事前学習モデルを開発しオープンソース化

また、今回公開のRoBERTaはBERTを改良したモデルにあたり、BERTより高い性能が報告されているという。RoBERTaを用いて、「4年に1度、[MASK]は開催される。」の[MASK]部分を予測すると、オリンピックやワールドカップといった4年に1度開催されるイベントが上位に予測される。

rinnaが日本語に特化したGPT-2とBERTの事前学習モデルを開発しオープンソース化

文章生成タスクにおいては、文章を1単語ずつ順次予測するGPT-2が用いられるものの、文章分類タスクなどの文章全体を考慮したタスクにおいては、BERTが利用される。文章分類タスクの他にも、質問応答タスクや固有表現認識タスクなど多様なタスクに適用することが可能という。

rinnaの研究チームが開発する大規模な事前学習モデルは、すでに同社製品で広く利用しているという。同社は今後も、AIに関する研究を続け、高性能な製品を開発するとともに、研究・開発コミュニティに貢献するために、研究成果を公開していく予定としている。他社との協業も進めることで、AIの社会実装の拡大を目指す。

rinnaの日本語事前学習モデルの特徴

    • 学習データとして、日本語CC-100と日本語Wikipediaの計75GBのオープンソースデータを使用
    • 8つのNVIDIA Tesla V100 GPUを用いて、75GBの日本語テキストを最大45日間かけ学習。その結果、すべてのモデルにおいて、十分に学習された汎用性があるモデルとなっているという。学習された事前学習モデルはHuggingFaceにおいてMITライセンスで公開
    • 事前学習モデルの学習に用いたソースコードはGitHubにMITライセンスで公開。利用者は、日本語CC-100とWikipediaのオープンソースデータを用いることで、自分のマシンでrinnaによる結果を再現可能
    • GPT-2ではモデルサイズが異なるGPT2-medium(3.36億パラメータ)、GPT2-small (1.10億パラメータ)、GPT2-xsmall (0.37億パラメータ)の3つのモデルを公開。またBERTを改良したRoBERTa (1.10億パラメータ)も公開
    • 利用者の目的に沿った多様なタスク(ドメインに特化した文章生成、文章分類、質問応答など)について、rinnaが公開した事前学習モデルを用いた追加学習により実現できる

Zendeskがカスタマーサービス機能向上のためAIオートメーションスタートアップCleverlyを買収

カスタマーサービスの機能をさらに充実させようとしているZendeskは米国時間8月26日、アーリーステージのAIスタートアップであるCleverlyの買収を発表した。

金額などの条件は非公開で、Cleverlyの資金の規模についてもこれまで完全には明らかにされていない。2019年に創業したCleverlyの拠点はポルトガルのリスボンで、同社のサイトによるとEUの研究・イノベーションプログラムであるHorizon 2020から資金提供を受けている。

TechCrunchが2021年1月に掲載したリスボンのスタートアップシーンを紹介する記事の中で、Indico Capital PartnersのパートナーであるStephan Morais(ステファン・モライス)氏がこの地域で最も注目するディープテック企業の1つとしてCleverlyを取り上げた。

関連記事:新型コロナに対抗する投資家たち、ポルトガル投資家にインタビュー(前編)

Cleverlyの製品プラットフォームでは、寄せられたサービスリクエストに自動でタグ付けしてワークフローを分類するトリアージ機能など、AIを活用した機能が提供されている。また、同社がAIによる人間の強化と呼んでいる、カスタマーサービス担当者が問い合わせに対して適切な回答をするのに役立つ支援機能もある。同社のテクノロジーはすでにZendeskの他Salesforceとも統合されている。

ZendeskがCleverlyを買収する理由について、Zendeskの製品担当EVPであるShawna Wolverton(シャウナ・ウルバートン)氏はTechCrunchへのメールで、両社はカスタマーサービスの将来について同じようなビジョンを持っていると記した。

同氏は「CleverlyとZendeskはAIを民主化したいと考えています。両社は企業にデータサイエンティストがいなくてもすぐにAIの活用を始められる実用的なアプリケーションを開発できます」と述べている。

ウルバートン氏は、AIはカスタマーエクスペリエンスのチームが優れたカスタマーサービスを提供するのに役立つという。同氏は、インテリジェントなソフトウェアによって人とAIが緊密に連携し、次世代の優れたカスタマーエクスペリエンスが広く実現するだろうと期待する。

同氏によれば、Cleverlyのチーム全員を2021年8月30日からZendeskに迎えるという。Cleverlyの創業者であるChristina Fonseca(クリスティーナ・フォンセカ)氏は製品担当VPに、Pedro Coelho(ペドロ・コエーリョ)氏は機械学習の主任エンジニアリングリードになる。

Zendeskにはすでに顧客との対話の自動化、サービス担当者の生産性向上、業務の効率アップにAIを活用する機能がある。例えばAnswer Botは顧客の問い合わせに対する答えをZendeskのナレッジベースから引き出すチャットボットだ。ZendeskのContent CuesはAIを利用して自動でサポートチケットを検討することに加え、ユーザーの利便性を高めるためにヘルプセンターのコンテンツをアップデートした方がよいカ所を見つけることもできる。

ウルバートン氏は「Cleverlyと協力することで我々は重要なインサイトを自動化し手作業をさらに減らしワークフローを改善して、サポートチーム全体をもっとハッピーに、もっと生産的にする幅広い機能を提供できるようになるでしょう。我々のチームが動き始めたらさらにニュースをお知らせできると思います」と述べた。

Zendeskの2021年のビジネスは好調で、業績発表によれば第2四半期の売上は前年同期比29%増の3億1820万ドル(約349億7000万円)だった。

関連記事
電話対応をリアルタイムでサポート、カスタマーサービス向け会話型AIを開発するLevel AIが約14.3億円獲得
問い合わせ対応ソフトShelf.ioが過去1年間でARR4倍に、57.7億円という巨額のシリーズBを完了
Facebookが過去最大1000億円でスタートアップのKustomerを買収、カスタマーサービス事業の強化を目指す
画像クレジット:Bloomberg / Getty Images

原文へ

(文:Sean Michael Kerner、翻訳:Kaori Koyama)

Otter.aiの自動文字起こし機能がMicrosoft Teams、Google Meet、Cisco Webexにも対応

AIを利用して音声の書き起こしをするサービスOtter.aiが、そのOtter Assistantプロダクトの機能をMicrosoft TeamsとGoogle Meet、そしてCisco Webex向けに拡張する。当初、5月にはZoomのユーザー向けのプロダクトだったが、今後はいろいろなプラットフォームに参加して会議の書き起こしができる。会議にOtterのユーザーがいなくてもよい。

関連記事:Zoomの会議を自動で文字起こしできるOtter.aiの新しいアシスタント機能

Otter Assistantはカレンダー上の会議に自動的に参加して書き起こしを行い、会議の参加者に共有する。会議に出られなかった人も、後でその内容がわかる。複数の会議が重なっているときや、長い会議のごく一部を知りたいときなどにも、Otter Assistantは便利だ。

この最新のツールを利用するためには、まず自分のカレンダーとOtter Assistantのサービスを同期させる。そうするとAssistantは自動的に今後のすべての会議に参加する。透明性を確保するために、会議ではAssistantも1人の参加者として記録される。

Otter.aiの共同創業者でCEOのSam Liang(サム・リャン)氏が声明で「自宅やモバイルなどのリモートを併用するハイブリッドの仕事スタイルがますます普及しているため、Otterはチームのコミュニケーションとコラボレーションを改善するツールとして重宝されています。しかもこれからは、いろいろな人がいろいろなやり方で会議に参加していてもOtterは簡単確実に対応できるため、すごく便利になったと思います」と述べている。

今回の統合により、1つの会議にいろいろな人がさまざまなプラットフォームから参加していても、Otter Assistantは1カ所で十分に内容を記録できる。Otter Assistantを使えるのは、Otter.ai Businessのユーザーだ。その料金は月額20ドル(約2200円)からで、二要素認証や高度な検索、音声のインポート、ボキャブラリーのカスタム化、共有している発話者の識別などの機能がある。

関連記事
Zoomの会議を自動で文字起こしできるOtter.aiの新しいアシスタント機能
AI利用のリアルタイム英語音声文字起こし「Otter. ai」とNTTドコモが日本向け法人プラン独占販売契約
画像クレジット:Otter

原文へ

(文:Aisha Malik、翻訳:Hiroshi Iwatani)

不動産の物件確認をAIで自動化する「スマート物確」のライナフがLIFULL HOME’Sと「おとり広告」撲滅の取り組み

不動産の物件確認をAIで自動化する「スマート物確」のライナフがLIFULL HOME’Sと「おとり広告」撲滅の取り組み

ライナフは8月26日、LIFULL(ライフル)とともに、不動産・住宅情報サイト「LIFULL HOME’S」に掲載された、顧客を寄せ付けるために表示される架空広告「おとり広告」を自動的に非掲載にする取り組みを、三菱地所ハウスネット協力のもと実施した。不動産における物件情報の透明性・精度の向上を目的とするものという。

また同実証実験の結果として、特に東京都23区の副都心部エリアで、1人暮らし向け物件が非掲載対象のボリュームゾーンであることもわかった。

物件情報サイトに掲載される物件広告の多くは、物件を仲介する各仲介会社によって掲載・非掲載の情報更新が行われる。仲介会社は、定期的に管理会社へ電話などで物件確認(物確)をすることで、その物件の最新情報を取得し、広告掲載に反映している。

ただそのつど手動で更新作業を行うため、どうしてもタイムラグが発生してしまい、意図せず成約済みの広告が掲載されたままになってしまうことがあるという。またその状態を悪用し、人気物件の広告をあえて掲載させたままにし、意図的に問い合わせを増やす行為も一部で横行している。

こうした悪質な広告を「おとり広告」といい、不動産業界において根深い問題となっている。おとり広告については、宅地建物取引業法32条、不動産の表示に関する公正競争規約の21条によって禁止されており、物件の実在有無に関わらず、取引のできない物件や、取引する意志のない物件広告などが該当するという。

ライナフは、これまでも不動産業界の健全化のためにIT技術の提供やパートナー企業との協業を通じて取り組んでおり、今回長らくまん延するおとり広告排除に向けて、LIFULL HOME’Sと連携し、自動非掲載にできる仕組みを導入した。

ライナフが提供する「スマート物確」と「LIFULL HOME’S」をシステム連携

取り組み内容は、ライナフのAIによって物件確認を自動化するサービス「スマート物確」とLIFULL HOME’Sをシステム連携させることで、自動でLIFULL HOME’Sに掲載される「おとり広告」を非掲載にするというもの。スマート物確から得られる、管理会社が保有する入居の募集・非募集の情報をLIFULL HOME’Sと照合することで、人の手を介すことなくLIFULL HOME’Sへの物件広告を非掲載にできるとしている。

また今回、スマート物確を利用する三菱地所ハウスネット協力のもと、スマート物確に登録されている約1万5000戸の管理物件を対象に実証実験を行った。その結果、1カ月間で1000戸以上の非掲載対象の広告を検知し、非掲載処理を実施した。また、非掲載対象のボリュームゾーンが、東京都23区の副都心部エリア、家賃が10万円〜12万円台、1人暮らし向けの物件であることがわかったという(検知されたLIFULL HOME’S掲載物件を賃料・間取り・エリアで件数集計した結果より。集計期間:2021年5月12日〜6月30日)。

ライナフは、同取り組みによって、仲介会社は管理会社へ物確する手間がなくなることに加え、手動の情報更新作業がなくなるため人為的なミスがなくなり、業務効率化が図れるとしている。

さらにライナフは、企業としてのコンプライアンス遵守を挙げている。消費者に対しては、誤った広告表示がなくなることで、正しい情報を発信できるようになる。スマート物確とのシステム連携によって自動管理が可能になるため、管理会社・仲介会社・消費者に至るまで、物件情報の透明性・統一性を保てるとしている。

2014年11月設立のライナフは、AIとIoTの最新技術を活用した不動産管理ソリューション「ライナフスマートサービス」を展開。美和ロックと共同開発の住宅向けスマートロック「NinjaLockM」をはじめ、入居前のリーシング業務から入居後の物件管理に至るまで、不動産管理業務を効率化するサービスを提供している。

スマート物確は、AIによる音声案内で物件の確認応対を自動化するサービス。あらかじめ管理する物件情報をスマート物確に登録しておくことで、24時間365日、物件確認の電話にAIが応答するという。電話に加え、LINEでも物確が可能。

電話対応をリアルタイムでサポート、カスタマーサービス向け会話型AIを開発するLevel AIが約14.3億円獲得

Level AIは、Alexaプラダクトチームの元メンバーが立ち上げたアーリーステージのスタートアップ企業で、顧客とのやり取りをリアルタイムに理解することで、企業がカスタマーサービスの電話対応をより迅速に対処できるよう支援したいと考えている。

同社は米国時間8月25日、Battery Venturesを中心とした1300万ドル(約14億3100万円)のシリーズAを発表するとともに、シード投資家のEniac、Village Global、および無名のエンジェル投資家からの支援を得て、一般公開を開始した。BatteryのNeeraj Agrawal(ニーラジ・アグラワル)氏は、今回の契約に基づき、同社の取締役に就任する。同社の報告によると、初期の200万ドル(約2億2000万円)の資金調達を含め、現在1500万ドル(約16億5100万円)を調達しているとのことだ。

創業者のAshish Nagar(アシシュ・ナガー)氏は、Amazon(アマゾン)のAlexaチームでプロダクトの運営に携わり、Alexaに今よりさらに進化した人間らしい会話をさせるための実験的なプロジェクトに取り組んでいた。技術がまだそこまで到達していないため実現はしなかったが、会話型AIへの理解を深めることができ、2019年にはその知識をカスタマーサービス領域に生かすためにLevel AIを立ち上げた。

「私たちのプロダクトは、電話対応のスタッフがより良いパフォーマンスを発揮し、顧客からの問い合わせをより迅速に解決し、より迅速にそれらを対処できるようリアルタイムでサポートする。そして通話後には、その通話の品質管理やトレーニング監査を行っている監督者が、5~10倍速く仕事ができるようになる」とナガー氏は説明する。

同氏によると、Level AIソリューションにはいくつかの工程が含まれるという。1つ目は、会話の内容をテクノロジーが理解できるように意味のある塊に分解して、リアルタイムに理解することだ。そして、その情報をもとに、バックグラウンドで稼働しているワークフローと照合し、有用なリソースを提供する。最後に、収集したすべての会話データを使って、企業がこれらの活動から学ぶのを支援する。

「すでにあるすべての通話データ、メールデータ、チャットデータを新しいレンズで見ることで、スタッフをより効果的にトレーニングでき、プロダクトマネージャーなど、ビジネスの他の分野にも新たな識見を提供することができる」とナガー氏はいう。

これは、感情を見たり、使われているキーワード分析を用いて行動や理解を促すものではないということを明確に強調している。それは、顧客の問題が解決するよう、通話のやりとりの中の言語を本当の意味で理解しようとし、より適切な情報をスタッフに提供することだと言っている。そのためには、人の意図をモデル化し、記憶し、同時に複数のことを理解する必要がある。これは彼がいうように、そもそも人間がどのように対話するのかということであり、これがまさに会話型AIが模倣しようとしていることでもある。

まだ完全ではないが、技術の進歩が許す限り、これらの問題の解決に1つ1つ取り組んでいる。

同社は2018年に立ち上がり、最初のアイデアはフロントラインで働く人たちのための音声アシスタントを作ることだったが、ナガー氏は顧客と話しているうちに、本当の需要はここではなく、会話型AIを使って人間の労働者を増強させること、それが特にカスタマーサービスにあるということを知った。

彼は代わりにそれを作ることに決め、2020年3月にはプロダクトの初期バージョンを発表した。現在、同社には米国とインドに分散して27名の従業員が在籍しているが、ナガー氏はリモートでどこでも採用できることで、社内の多様性を推進しつつ、最高の人材を獲得できると信じている。

今回のラウンドでリードインベスターを務めるアグラワル氏は、同社を、正しい情報をリアルタイムでスタッフに提供するという根本的な課題の解決に取り組む会社だと考えている。「彼が作ったものは、リアルタイムであることを念頭に置いている。これは、カスタマーサービスのスタッフを支援するための聖杯のようなものだ。通話が終わった後に情報を提供することもでき、それはそれで便利だが、(中略)通話中に情報を提供することで真の価値を発揮する。そこに本当の意味でのビジネス価値がある」と彼はいう。

ナガー氏は、この技術が営業など他の業務にも応用できることを認めているが、当面はカスタマーサービスに注力していくつもりだ。

関連記事
問い合わせ対応ソフトShelf.ioが過去1年間でARR4倍に、57.7億円という巨額のシリーズBを完了
アップルがSiri改善のためフィードバック収集アプリ「Siri Speech Study」をひそかに提供開始
「音声認識AIの競争に対する懸念が高まっている」とEUが発表
画像クレジット:lankogal / Getty Images

原文へ

(文:Ron Miller、翻訳: Akihito Mizukoshi)

機械学習で消費者トレンドをリアルタイムとらえ企業の迅速な対応をサポートするAi Palette

消費者製品の製品開発は、調査やプロトタイピングやテストなどで2年以上を要する場合もある。しかしソーシャルメディアのある社会では、人びとはトレンドがもっと早く店頭でカタチになることを期待している。2018年に創業されたAi Paletteは、機械学習を利用してトレンドをリアルタイムで発見し、早ければ数カ月でその商品開発を実現させる。すでにクライアントとしてDanone(ダノン)やKellogg’s(ケロッグ)、Cargill(カーギル)、Dole(ドール)などを抱える同社は、米国時間8月24日、pi VenturesとExfinity Venture Partnersがリードする応募超過のシリーズAで440万ドル(約4億8000万円)を調達したことを発表した。

このラウンドにはさらに、これまでの投資家であるフードテックのベンチャーAgFunderとDecacorn Capital、そして新たな投資家としてAnthill Venturesが参加した。これでAi Paletteの総調達額は、2019年のシードラウンドを含めて550万ドル(約6億円)になる。

Ai Paletteはシンガポールに本社があり、主な技術者たちはベンガルールにいる。顧客ベースは東南アジアに始まり、その後中国や日本、米国、ヨーロッパへと拡大した。

関連記事:人が食べる限りなくならない、フードテック投資機会の現在とこれから

Ai Paletteは現在15の言語をサポートし、したがって多くの種類のAIベースのツールを利用して消費者向けパッケージ製品(CPG)のトレンドを予想できる。今回の投資は主に市場拡大と、特にデータサイエンス方面の技術者の増員に当てられる。

Ai Paletteを2018年に創業したCEOのSomsubhra GanChoudhuri(ソンブラ・ガンチョウドリ)氏とCTOのHimanshu Upreti(ヒマンシュウ・ウプレティ)氏は、ロンドンのインキュベーター / アクセラレーター事業であるEntrepreneur Firstで出会った。それまでガンチョウドリ氏は、世界最大の香料メーカーGivaudanで営業とマーケティングを担当していた。その仕事を通じて彼は、スナックやファストフードや包装製品などさまざまな消費者製品のイノベーションの過程を見てきた。彼は見てきた企業の多くが、2年という製品のイノベーションサイクルでは需要に追いつけないことを理解し始めていた。そこで以前Visaなどで仕事をしたことのある、高度な機械学習とビッグデータ分析のエキスパートであるウプレティ氏は、数ペタバイトという大量のデータを処理できるモデルを作った。

Ai Paletteの最初のプロダクトであるForesight Engineは、原材料や香味などのトレンドを調べて、その人気の理由を分析し、需要の継続期間を予想する。それはまた、まだ満たされていない需要である意味する「空白の商機」を見つける。例えば、新型コロナ(COVID-19)の流行で、人々の食生活が変わった。1日に6回もテレビを観ながら健康スナックを食べるようになったため、企業は新しい種類の製品を発売するチャンスがあるとガンチョウドリ氏はいう。

ウプレティ氏によると、Foresight Engineは状況に即した情報も提供できる。「例えば、ある食品が外出先で食べられているのか、それともカフェで食べられているのか。社会的的に消費されているのか、個人的に消費されているのか。子供の誕生日会では何が流行っているのか?特定の製品や成分について、画像は製品の組み合わせや製品のフォーマットに関する情報を提供します」。

このプラットフォームが利用するデータのソースは、ソーシャルメディア、検索、ブログ、レシピー、メニュー、企業のデータなどさまざまだ。ガンチョウドリ氏によると「各市場で人気の高いデータセットは分析に際してプライオリティを上げる。たとえば地元のレシピやフードデリバリーアプリには、そのときのトレンドが見られることが多い。そしてそれらのデータを時系列で追えば、かなり高い確度で成長の軌跡を判断できる」。

たとえばAi Paletteが新製品開発に貢献した例として、特定の国のポテトチップやソーダが挙げられる。彼らはForesight Engineを使って人気上昇中のトレンドを知るだけでなく、長期的な人気になりそうなものを知り、無駄な投資を避けようとした。

パンデミックの間、Ai Paletteの顧客の多くが、そのツールを使って新しいトレンドや消費者の行動パターンに応じようとした。中でも多くの市場で関心が高かったのは、健康食品や免疫力を高める食材だ。たとえば東南アジアではレモンとにんにくの需要が増え、米国ではアセロラやマリファナがトレンドになった。

一方、中国では健康より味が優先されたとガンチョウドリ氏はいう。「おそらく平常時感覚への回帰が優先されたのではないか」とのこと。さらにインドでは、パンデミック対策として商店は棚持ちの良い商品を歓迎したが、消費者の多くは退屈をまぎらわすために、一風変わったスナックを求め、中でもキムチなどの韓国系香辛料に人気があった。

Ai Paletteは使える言語が多いため、機械学習を利用する他のトレンド予測プラットフォームとの差別化という点で有利だ。現在サポートしている言語は、英語、簡体中国語、日本語、韓国語、タイ語、ベトナム語、インドネシア語、マレー語、タガログ語、スペイン語、フランス語、ドイツ語となる。今後はヨーロッパ各国やメキシコ、ラテンアメリカ、中東もターゲットにする予定だという。

画像クレジット:Ai Palette

原文へ

(文:Catherine Shu、翻訳:Hiroshi Iwatani)

東京大学齊藤研究室とバベルがAIエンジニアコミュニティ設立、wav2vec 2.0利用し日本語関連OSSプロジェクト開始

東京大学齊藤研究室とバベルがAIエンジニアコミュニティ設立、wav2vec 2.0利用し日本語関連OSSプロジェクト開始

AIオートメーション技術を軸にグローバルで事業展開を行うバベルは8月24日、東京大学大学院工学系研究科齊藤研究室(東京大学 齊藤研究室)と、誰でも参加可能なAIエンジニアコミュニティ「AI Automation Lab」(AIオートメーション・ラボ)を設立。日本語学習済みAIモデルのオープンソースソフトウェア(OSS)化を前提とする日本語音声書き起こし・会話の解析技術の共同研究を開始したと発表した。ベースとなるモデルとして、音声認識フレームワーク「wav2vec 2.0」を利用し、日本語に合わせて調整する。

wav2vec 2.0と呼ばれる書き起こしのモデルは、大規模なラベルなしデータを利用した事前学習を行うことで、少数のラベル付きデータセットでも高精度の書き起こしが可能という。日本語のような少数派の言語では、大規模なラベル付きデータを学習に利用することが困難な状況なものの、wav2vec 2.0はまさにそのような状況にある言語に適しているとした。

AI Automation Labには、connpass上の「AI Automation Lab(AI オートメーション・ラボ)」より参加できる。

昨今「音声書き起こし」に関する技術は全世界で著しく発展しており、英語や中国語を中心とした各国の言語に対して、wav2vec 2.0などの最新の学習済みAIモデルがOSSで公開され、それらを活用した最新のAIプロダクトが数多く開発されている。

一方日本においては、言語の壁の影響により関連するAI技術発展に乗り遅れ、最新のAI技術の恩恵を享受できていないという課題が存在しているという。情報処理推進機構(IPA)「AI白書2020」によると、すでにAIを導入している企業は4.2%、AI導入に興味はあるがまだ導入していない企業は78.3%という。

今後、最新のディープラーニング・モデルを日本語で扱うためには、莫大なGPUコストと時間のかかる日本語の追加学習が必要となり、その開発には一定の研究規模や開発環境が求められる。

そこで今回、東京大学 齊藤研究室とバベルが共同でAIエンジニアコミュニティAI Automation Lab(AIオートメーション・ラボ)で研究開発を行うことで、その開発の知見を日本で活躍するAIエンジニア・AI技術開発に携わる方々と共有し、さらにその成果となる日本語学習済みモデルをOSSとして無料公開することで、広く日本語ユーザーが最新AIモデルの恩恵を受けられる環境作りに貢献する。学術研究を含めて日本のAI分野の発展に寄与するとしている。

東京大学 齊藤研究室は、物理学と応用物理学の両者にまたがる量子物性の最先端の開拓を標榜し、次世代電子技術の基本物理原理を築く先端研究と世界で活躍する人材の輩出で科学技術と社会に貢献。スピントロニクス、量子ナノ系の研究に加え、最近では量子物理と情報物理を応用した新しいAI科学領域の研究を行っている。

バベルは、「世界中の人々の役に立つ事業を創り続ける」というミッションのもと、AI オートメーションを軸にユーザーエンゲージメントを最大化させ、ステークホルダー全員に感動を届ける事で世界をより良くするためにグローバルに事業展開している。

コンピュータビジョンとAIで服のフィット感をより正確に見られる仮想試着室「Revery.ai」

ウェブサイトで洋服のサイズやフィット感を確認する作業は、時としてオンラインショッピングの楽しみを奪ってしまう。そこでRevery.aiは、コンピュータビジョンとAIを活用したツールを開発し、より良いオンラインドレッシングルーム体験を実現しようとしている。

イリノイ大学Center for Computer ScienceのアドバイザーであるDavid Forsyt(デビッド・フォーサイス)博士の指導のもと、博士課程の学生であるKedan Li(ケダン・リー)氏、Jeffrey Zhan(ジェフリー・チャン)氏、Min Jin Chong(ミン・ジン・チョン)氏からなるチームは、既存のカタログ画像を利用して、従来のバーチャルドレッシングルームでは困難であった、毎週100万着以上の規模の処理を行う初めてのツールを作成しているとリー氏はTechCrunchに語った。

Revery.aiの共同ファウンダーのジェフリー・チャン氏、ミン・ジン・チョン氏、ケダン・リー氏(画像クレジット:Revery.ai)

カリフォルニアを拠点とするReveryは、Y Combinator(Yコンビネータ)の2021年夏のコホートに参加しており、8月末のプログラム終了を目指している。YCは、同社に12万5000ドル(約1370万円)投資している。リー氏によると、同社はすでに2年間のランウェイを持っているが、150万ドル(約1億6500万円)のシードラウンドを調達することで成長を加速させ、大手小売業者に対してより成熟した企業であることをアピールしたいと考えているという。

Reveryの前には、リー氏はパーソナライズされたメールの分野で別のスタートアップに取り組んでいたが、すでに大手レガシー企業の無料版があったため、うまく機能させることができなかった。独占が少なく、テクノロジーを収益化できる分野を探していたところ、ファッションに興味を持ったという。別のアドバイザーと協力してワードローブコレクションを始めたが、そのアイデアは頓挫してしまった。

チームは、フォーサイス教授との共同作業でエンジンがかかり、すでにウェブサイトに画像を掲載しておりユーザーはいるが、コンピュータビジョンの側面を求めていたB2B顧客をターゲットに、技術のイテレーションを数回行っている。

多くの競合他社は、3Dモデリングや画像を手作業で加工してモデルに重ね合わせる方法を採用しているが、Reveryはディープラーニングとコンピュータビジョンを活用することで、服のドレープ性を高め、さらにユーザーは肌のトーンや髪型、ポーズなどをカスタマイズして自分に似せたモデルを作ることができる。また、完全に自動化されており、何百万ものSKUを扱うことができ、数週間で顧客に提供することができる。

同社のバーチャルドレッシングルームは現在、東南アジア最大級のファッション企業であるZalora-Global Fashion Groupを含む多くのファッションECプラットフォームで利用されている、とリー氏はいう。

Revery.aiランディングページ(画像クレジット:Revery.ai)

「こんなに良い結果が出ているのはすごいことです」と彼は付け加えた。「お客様からは、3〜5倍といった、これまでになかったような高いコンバージョン率の報告を受けています。ZaloraでABテストを行ったところ、380%の増加が見られました。これから当社の技術をZaloraのすべてのプラットフォームに展開していくことを大変うれしく思っています」。

この技術は、2020年、パンデミックの影響でオンラインショッピングが急増した時期に登場した。米国だけでも、2020年にはファッションリテール売上高の29.5%をeコマースファッション業界が占めており、2021年に同市場の価値は1000億ドル(約11兆円)に達すると予想されている

Reveryは「オンラインレースで勝つためのロードマップにこれを入れている」40社以上のリテーラーとすでに交渉中です、とリー氏はいう。

同社はこれからの1年、より多くの顧客に採用され、本番運用を開始することに焦点を当てている。競合他社との差別化を図るために、リー氏は、リテーラーから求められているボディタイプ機能を搭載したいと考えている。このような技術は、多様な体型のモデルがあまり存在しないため、難度が高いと彼は語った。

Reveryがユーザーにアバターを作成して服の見え方を確認できる機能を提供するためには、自社で独自のデータを収集する必要があると同氏は考えている。

「もしかしたら今見ているのは実際に大きな波の始まりで、そのニーズに応える適切な製品を私たちは持っているのかもしれません」と彼は付け加えた。

関連記事
スニーカー特化フリマ「スニーカーダンク」運営が約62億円調達、「モノカブ」を買収しグローバル展開を加速
グッチがRobloxとの新パートナーシップで2週間限定の仮想空間とデジタルアイテムを提供
ファストファッション「SHEIN」がアマゾンを抜き米国で最もインストールされたショッピングアプリに
画像クレジット:Getty Images

原文へ

(文:Christine Hall、翻訳:Aya Nakazato)

企業のコンプライアンス対応を自動化するRegologyのプラットフォーム

どこの国にも独自の法律、規則、規制があり、それらは定期的に変更されるので、そのすべてに対応することは非常に困難だ。そのため、通常は大勢のスタッフが事に当たり、スプレッドシートを埋めていくような、非効率的な手順が必要とされる。アーリーステージのスタートアップ企業であるRegology(レゴロジー)は、この問題にAIアルゴリズムによる自動化を導入することで、このような状況を変えたいと考えている。

同社は米国時間8月19日、Acme Capital(アクメ・キャピタル)が主導するシリーズAラウンドで、800万ドル(約8億8000万円)の資金を調達したと発表。この投資ラウンドには、既存投資家のGagarin Capital(ガガーリン・キャピタル)とPine Wave Investments(パイン・ウェーブ・インベストメント)も参加した。

当社の共同設立者でCEOを務めるMukund Goenka(ムクンド・ゴエンカ)氏は、15年以上にわたり銀行業務に携わってきた経験の持ち主で、規制に対応することの難しさと、対応できなかった場合の財務上の影響を目の当たりにしてきた。そして、大規模な国際的企業に、各国の無数の規制に対応する方法を提供するために、Regologyを設立した。

ゴエンカ氏によると、同氏の会社は法律のデータベースを作成することから始まったという。「当社では、常に更新される非常に大規模な法律のデータベースを構築しており、これは5つの大陸と多くの国や地域をカバーしています。また、法案から法律、規制に至る法律制定の全プロセスや、多くの機関とその定期的な更新を毎日カバーしています。さらに、さまざまな業界や項目の分野もカバーしています」と、ゴエンカ氏は説明する。

しかし、この会社はそれだけで止まらない。顧客の企業がビジネスを行っているあらゆる場所で、コンプライアンスを自動化するフレームワークを提供し、顧客が長期的にコンプライアンスを維持できるように、常に法律やアップデートを確認しているのだ。同社のターゲットはフォーチュン500の大企業であり、ゴエンカ氏は具体的な企業名を挙げることはできなかったが、最大手のハイテク企業や銀行が含まれていると述べている。

2017年に創設された同社は、現在20名の正社員を抱えており、年内には少なくともその倍に増員することを計画している。すでに25カ国の規制環境に目を配っている同社の事業においては、多様性が不可欠であると、ゴエンカ氏はいう。それぞれの国がどのように機能しているかを理解することは、同社の事業にとって不可欠であり、そのためには多様な人材が必要となる。

ゴエンカ氏によると、同社は新型コロナウイルスが流行するずっと前からリモートで業務を行っているという。今でもパロアルトに小さなオフィスがあるが、オフィスを再開しても問題ないと判断された場合でも、ほとんどの業務でリモートを維持するつもりだという。

関連記事
ROXXの月額制リファレンスチェックサービス「back check」が新機能コンプライアンスチェックを提供開始
【コラム】プログラマティック広告における広告詐欺と消費者プライバシー乱用との戦い方
政府機関など対象に暗号資産犯罪やマネロンの検知・防止ツールを提供するチェイナリシスが約110億円調達
画像クレジット:anyaberkut / Getty Images

原文へ

(文:Ron Miller、翻訳:Hirokazu Kusakabe)

心電図読み取りAIを開発するCardiomaticsが約3.5億円を調達

ポーランドを拠点とするヘルステックAIスタートアップのCardiomatics(カーディオマティクス)が、心電図読み取り自動化技術の普及に向け、シードで320万ドル(約3億5200万円)を調達したと発表した。

このラウンドは、中東欧のVCであるKayaがリードし、Nina Capital、Nova Capital、Innovation Nestも参加した。

シード資金には、ポーランド国立研究開発センターからの100万ドル(約1億1000万円)の非エクイティーの助成金も含まれている。

2017年創業の同社は、心臓専門医や臨床医などの医療従事者が心電図を解釈する際に、診断を迅速化・効率化するクラウドツールを販売している。約20種類の心臓の異常や疾患を検出・分析する作業を自動化し、訓練を受けた人間の専門家が行うよりも早く、スキャンに関するレポートを数分で作成するソフトウェアだ。

Cardiomaticsは、自社の技術がヘルスケアへのアクセスの大衆化に貢献しているとアピールしている。このツールにより、心臓専門医はワークフローを最適化し、より多くの患者を診察・治療できるようになる。また、総合診療医や小規模な診療所では、患者を専門病院に紹介することなく、心電図分析を提供できるとしている。

このAIツールは、これまでに300万時間以上の心電図信号を商業的に分析しており、スイス、デンマーク、ドイツ、ポーランドなど10カ国以上・700以上のクライアントに利用されているという。

このソフトウェアは、現段階で25台以上の心電図モニター機器と統合することができる。既存の医療用ソフトウェアとの差別化を図るため、最新のクラウドソフトウェアインターフェースを提供しているとアピールしている。

AIが読み取る心電図の精度はどのように検証されているのか、同社は次のように話す。「アルゴリズムの開発に使用しているデータセットには、約10万人の患者の100億回以上の心拍数が含まれており、体系的に増やしています。データセットの大部分は当社が独自に構築したもので、残りは一般に公開されているデータベースです」

「データの90%はトレーニングセットとして、10%はアルゴリズムの検証とテストに使用しています。データ中心のAIの常として、テストセットを非常に重要視しており、クライアントからのシグナルを可能な限り表現しているかどうかを確認しています。私たちは、アルゴリズムとデータの両方を継続的に開発する中で、アルゴリズムの精度を月1回の頻度で実験的にチェックしています。当社のクライアントも臨床現場で毎日チェックしています」

Cardiomaticsは、今回のシード資金を、製品開発への投資、既存市場での事業活動拡大、新規市場参入のための準備に使用すると述べている。

「今回のラウンドで調達した資金は、市場をリードするAI技術のスケールアップや、医師への最高の体験の提供など、欧州全域における速いペースでの拡大計画を支えるために使います。新しい市場に投入する製品も準備します。将来の計画には、FDA(米食品医薬品局)認証の取得や米国市場への参入も含まれています」と付け加えた。

このAIツールは、2018年に欧州の医療機器認証を取得した。ただし、欧州連合の医療機器とAIに関する規制は進化を続けており、今年初め(5月)には、欧州連合の医療機器指令(現EU医療機器規則)が更新された。

また、新しいAIアプリケーションのためのリスクベースのフレームワーク(別名「人工知能法」)も登場し、CardiomaticsのようなAIヘルステックツールに対するコンプライアンス上の要求が拡大している。安全性、信頼性、自動化された結果に偏りがないことを実証するなどの要件が導入されようとしている。

規制の状況について同社はこう答えた。「2018年に発売したとき、私たちは欧州で医療機器として承認された最初のAIベースのソリューションの1つでした。ペースに遅れないように、私たちは欧州の状況と、AIのアプリケーションを規制するためのリスクベースのフレームワークの立法化のプロセスを注意深く観察しています。また、近々導入される可能性のある規制や要件の草稿も注視しています。人工知能に関する新たな基準や要件が導入された場合には、直ちに会社や製品の運用へと導入し、製品の信頼性と安全性を確保するための必要な証拠とともに、文書化とアルゴリズムの検証を進めていきます」

だが、心電図読み取りアルゴリズムの有効性を客観的に測定することは困難であることも認めた。

「アルゴリズムの有効性を客観的に評価することは非常に困難です」と同社はTechCrunchに話した。「ほとんどの場合、1台のデバイスで登録された、特定の患者グループの狭い範囲のデータを使って評価します。我々は、さまざまなグループの患者の、異なる記録装置からの信号を受け取ります。私たちは、この効果を評価する方法に取り組んでいます。当社のアルゴリズムなら、記録装置やテスト対象となる社会集団など、研究に伴う様々な要因に関わらず、確実に有効性を評価することができるでしょう」

「解析を医師が行う場合、心電図の解釈は、経験、規律、芸術の産物となります。人間が心電図を解釈するときは曲線を見ます。それは視覚的な層として機能します。アルゴリズムは絵ではなく数字の流れを見るので、タスクは数学的な問題になります。しかし、結局のところ、この領域に関する知識がなければ、効果的なアルゴリズムを開発することはできません」と同社は付け加えた。「私たち医療チームの知識と経験がCardiomaticsの芸術作品です。アルゴリズムは、心臓内科医が生成したデータでもトレーニングされていることを忘れてはなりません。医療従事者の経験し機械学習には強い相関関係があります」。

カテゴリー:
タグ:

画像クレジットScience Photo Library / Getty Image

[原文へ]

(文:Natasha Lomas、翻訳:Nariko Mizoguchi

ロボット、チップ、完全自動運転、イーロン・マスク氏のTesla AI Dayハイライト5選

Elon Musk(イーロン・マスク)氏はTesla(テスラ)を「単なる電気自動車会社ではない」と見てもらいたいと考えている。米国時間8月19日に開催されたTesla AI Day(テスラ・AI・デー)で、イーロン・マスクCEOはテスラのことを「推論レベルとトレーニングレベルの両方でハードウェアにおける深いAI活動」を行っている企業であると説明した。この活動は、自動運転車への応用の先に待つ、Teslaが開発を進めていると報じられている人型ロボットなどに利用することができる。

Tesla AI Dayは、映画「マトリックス」のサウンドトラックから引き出された45分間にわたるインダストリアルミュージックの後に開始された。そこでは自動運転とその先を目指すことを支援するという明確な目的のもとに集められた、テスラのビジョンとAIチームに参加する最優秀のエンジニアたちが、次々に登場してさまざまなテスラの技術を解説した。

「それを実現するためには膨大な作業が必要で、そのためには才能ある人々に参加してもらい、問題を解決してもらう必要があるのです」とマスク氏はいう。

この日のイベントは「Battery Day」(バッテリー・デー)や「Autonomy Day」(オートノミー・デー)と同様に、テスラのYouTubeチャンネルでライブ配信された。超技術的な専門用語が多かったのだが、ここではその日のハイライト5選をご紹介しよう。

Tesla Bot(テスラ・ボット):リアルなヒューマノイド・ロボット

このニュースは、会場からの質問が始まる前にAI Dayの最後の情報として発表されたものだが、最も興味深いものだった。テスラのエンジニアや幹部が、コンピュータービジョンやスーパーコンピュータDojo(ドージョー)、そしてテスラチップについて語った後(いずれも本記事の中で紹介する)、ちょっとした幕間のあと、白いボディスーツに身を包み、光沢のある黒いマスクで顔が覆われた、宇宙人のゴーゴーダンサーのような人物が登場した。そして、これは単なるテスラの余興ではなく、テスラが実際に作っている人型ロボット「Tesla Bot」の紹介だったことがわかった。

画像クレジット:Tesla

テスラがその先進的な技術を自動車以外の用途に使うことを語ろうとするときに、ロボット使用人のことを語るとは思っていなかった。これは決して大げさな表現ではない。CEOのイーロン・マスク氏は、食料品の買い物などの「人間が最もやりたくない仕事」を、Tesla Botのような人型ロボットが代行する世界を目論んでいるのだ。このボットは、身長5フィート8インチ(約173cm)、体重125ポンド(約56.7kg)で、150ポンド(約68kg)の荷物を持ち上げることが可能で、時速5マイル(約8km/h)で歩くことができる。そして頭部には重要な情報を表示するスクリーンが付いている。

「もちろん友好的に、人間のために作られた世界を動き回ることを意図しています」とマスク氏はいう。「ロボットから逃げられるように、そしてほとんどの場合、制圧することもできるように、機械的そして物理的なレベルの設定を行っています」。

たしかに、誰しもマッチョなロボットにやられるのは絶対避けたいはずだ(だよね?)。

2022年にはプロトタイプが完成する予定のこのロボットは、同社のニューラルネットワークや高度なスーパーコンピューターDojoの研究成果を活用する、自動車以外のロボットとしてのユースケースとして提案されている。マスク氏は、Tesla Botが踊ることができるかどうかについては口にしなかった。

関連記事:テスラはロボット「Tesla Bot」を開発中、2022年完成予定

Dojoを訓練するチップのお披露目

画像クレジット:Tesla

テスラのディレクターであるGanesh Venkataramanan(ガネッシュ・べンカタラマン)氏が、完全に自社で設計・製造されたテスラのコンピュータチップを披露した。このチップは、テスラが自社のスーパーコンピュータ「Dojo」を駆動するために使用している。テスラのAIアーキテクチャの多くはDojoに依存している。Dojoはニューラルネットワークの訓練用コンピューターで、マスク氏によれば、膨大な量のカメラ画像データを他のコンピューティングシステムの4倍の速さで処理することができるという。Dojoで訓練されたAIソフトウェアは、テスラの顧客に対して無線を通じてアップデートが配信される。

テスラが8月19日に公開したチップは「D1」という名で、7nmの技術を利用している。べンカタラマン氏はこのチップを誇らしげに手に取りながら、GPUレベルの演算機能とCPUとの接続性、そして「現在市販されていて、ゴールドスタンダードとされている最先端のネットワークスイッチチップ」の2倍のI/O帯域幅を持っていると説明した。彼はチップの技術的な説明をしながら、テスラはあらゆるボトルネックを避けるために、使われる技術スタックを可能な限り自分の手で握っていたかったのだと語った。テスラは2020年、Samsung(サムスン)製の次世代コンピューターチップを導入したが、ここ数カ月の間、自動車業界を揺るがしている世界的なチップ不足から、なかなか抜け出せずにいる。この不足を乗り切るために、マスク氏は2021年夏の業績報告会で、代替チップに差し替えた結果、一部の車両ソフトウェアを書き換えざるを得なくなったと語っていた。

供給不足を避けることは脇においても、チップ製造を内製化することの大きな目的は、帯域幅を増やしてレイテンシーを減らし、AIのパフォーマンスを向上させることにあるのだ。

AI Dayでべンカタラマン氏は「計算とデータ転送を同時に行うことができ、私たちのカスタムISA(命令セットアーキテクチャ)は、機械学習のワークロードに完全に最適化されています」と語った。「これは純粋な機械学習マシンなのです」。

べンカタラマン氏はまた、より高い帯域幅を得るために複数のチップを統合した「トレーニングタイル」を公開した。これによって1タイルあたり9ペタフロップスの演算能力、1秒あたり36テラバイトの帯域幅という驚異的な能力が実現されている。これらのトレーニングタイルを組み合わせることで、スーパーコンピューター「Dojo」が構成されている。

完全自動運転へ、そしてその先へ

AI Dayのイベントに登壇した多くの人が、Dojoはテスラの「Full Self-Driving」(FSD)システムのためだけに使われる技術ではないと口にした(なおFSDは間違いなく高度な運転支援システムではあるものの、まだ完全な自動運転もしくは自律性を実現できるものではない)。この強力なスーパーコンピューターは、シミュレーション・アーキテクチャーなど多面的な構築が行われており、テスラはこれを普遍化して、他の自動車メーカーやハイテク企業にも開放していきたいと考えている。

「これは、テスラ車だけに限定されるものではありません」マスク氏。「FSDベータ版のフルバージョンをご覧になった方は、テスラのニューラルネットが運転を学習する速度をご理解いただけると思います。そして、これはAIの特定アプリケーションの1つですが、この先さらに役立つアプリケーションが出てくると考えています」。

マスク氏は、Dojoの運用開始は2022年を予定しており、その際にはこの技術がどれほど多くの他のユースケースに応用できるかという話ができるだろうと語った。

コンピュータビジョンの問題を解決する

AI Dayにおいてテスラは、自動運転に対する自社のビジョンベースのアプローチの支持を改めて表明した。これは同社の「Autopilot」(オートパイロット)システムを使って、地球上のどこでも同社の車が走行できることを理想とする、ニューラルネットワークを利用するアプローチだ。テスラのAI責任者であるAndrej Karpathy(アンドレイ・カーパシー)氏は、テスラのアーキテクチャを「動き回り、環境を感知し、見たものに基づいて知的かつ自律的に行動する動物を、ゼロから作り上げるようなものだ」と表現した。

テスラのAI責任者であるアンドレイ・カーパシー氏が、コンピュータビジョンによる半自動運転を実現するために、テスラがどのようにデータを管理しているかを説明している(画像クレジット:Tesla)

「私たちが作っているのは、もちろん体を構成するすべての機械部品、神経系を構成するすべての電気部品、そして目的である自動運転を果たすための頭脳、そしてこの特別な人工視覚野です」と彼はいう。

カーパシー氏は、テスラのニューラルネットワークがこれまでどのように発展してきたかを説明し、いまやクルマの「脳」の中で視覚情報を処理する最初の部分である視覚野が、どのように幅広いニューラルネットワークのアーキテクチャと連動するように設計されていて、情報がよりインテリジェントにシステムに流れ込むようになっているかを示した。

テスラがコンピュータービジョンアーキテクチャーで解決しようとしている2つの主な問題は、一時的な目隠し(交通量の多い交差点で車がAutopilotの視界を遮る場合など)と、早い段階で現れる標識やマーク(100メートル手前に車線が合流するという標識があっても、かつてのコンピューターは実際に合流車線にたどり着くまでそれを覚えておくことができなかったなど)だ。

この問題を解決するために、テスラのエンジニアは、空間反復型ネットワークビデオモジュールを採用した。このモジュールのさまざまな観点が道路のさまざまな観点を追跡し、空間ベースと時間ベースのキューを形成して、道路に関する予測を行う際にAIモデルが参照できるデータのキャッシュを生成する。

同社は1000人を超える手動データラベリングチームを編成したと語り、さらに大規模なラベリングを可能にするために、テスラがどのように特定のクリップを自動ラベリングしているかを具体的に説明した。こうした現実世界の情報をもとに、AIチームは信じられないようなシミュレーションを利用して「Autopilotがプレイヤーとなるビデオゲーム」を生み出す。シミュレーションは、ソースやラベル付けが困難なデータや、閉ループの中にあるデータに対して特に有効だ。

関連記事:テスラが強力なスーパーコンピューターを使ったビジョンオンリーの自動運転アプローチを追求

テスラのFSDをとりまく状況

40分ほど待ったときに、ダブステップの音楽に加えて、テスラのFSDシステムを映したビデオループが流れた、そこには警戒していると思われるドライバーの手が軽くハンドルに触れている様子が映されていた。これは、決して完全に自律的とは言えない先進運転支援システムAutopilotの機能に関する、テスラの主張が精査された後で、ビデオに対して法的要件が課されたものに違いない。米国道路交通安全局(NHTSA)は 今週の初めにテスラが駐車中の緊急車両に衝突する事故が11件発生したことを受け、オートパイロットの予備調査を開始することを発表した。

その数日後、米国民主党の上院議員2名が連邦取引委員会(FTC)に対して、テスラのAutopilot(自動操縦)と「Full Self-Driving」(完全自動運転)機能に関するマーケティングおよび広報活動を調査するよう要請した。

関連記事
米当局がテスラのオートパイロット機能を調査開始、駐車中の緊急車両との衝突事故受け
テスラの「完全」自動運転という表現に対し米上院議員がFTCに調査を要請

テスラは、7月にFull Self-Drivingのベータ9版を大々的にリリースし、数千人のドライバーに対して全機能を展開した。だが、テスラがこの機能を車に搭載し続けようとするならば、技術をより高い水準に引き上げる必要がある。そのときにやってきたのが「Tesla AI Day」だった。

「私たちは基本的に、ハードウェアまたはソフトウェアレベルで現実世界のAI問題を解決することに興味がある人に、テスラに参加して欲しい、またはテスラへの参加を検討して欲しいと考えています」とマスク氏は語った。

米国時間8月19日に紹介されたような詳細な技術情報に加えて、電子音楽が鳴り響く中で、Teslaの仲間入りをしたいと思わない血気盛んなAIエンジニアがいるだろうか?

一部始終はこちらから。

画像クレジット:Tesla

原文へ

(文:Rebecca Bellan、Aria Alamalhodaei、翻訳:sako)

ソフトバンクの人型ロボット「Pepper」が「りんな」を手がけるrinnaのAI会話エンジン最新版を採用

ソフトバンクの人型ロボット「Pepper」が「りんな」を手がけるrinnaのAI会話エンジン最新版を採用

rinnaは8月20日、法人向けAIチャットボット開発プラットフォーム製品「Rinna Character Platform」新バージョンが、ソフトバンクロボティクスのヒューマノイドロボット「Pepper」(ペッパー)に採用されたと発表した。

rinnaは、MicrosoftのAI&リサーチ部門でAIチャットボットの研究を行っていたチームがスピンアウトして2020年6月に設立したAI開発企業。ディープラーニング技術を活用し、AIが文脈に応じた会話文を自動生成して人間と自然に会話する「共感チャットモデル」、AIが話し声や歌声で豊かに感情表現することを可能にする「音声合成システム」などの技術を発表してきた。これら技術は、rinnaが運営するLINE上のAIチャットボット「りんな」、法人向けAIチャットボット開発プラットフォーム製品「Rinna Character Platform」に応用されている。

Rinna Character Platformは、会話内容や音声表現をカスタマイズしてキャラクター性を持たせたAIチャットボットを開発可能。2021年春リリースの新バージョンでは、新開発のチャットエンジン「Style Transfer Chat」(STC)を使用することで、大規模会話データから構築した事前学習済みモデルに、作り上げたいキャラクターの性格や口調を反映した少量の会話データを追加学習させるだけで、キャラクター性を反映した自由会話が可能という。

また新バージョンでは、外部サービスと柔軟に連携でき、WebHookフィルターを利用しユーザーが自由に機能を拡張可能。カスタム機能はどのような言語でも開発可能という。カスタム機能とチャットボットのサーバーを分離し、チャットボットの各モジュールを小さくシンプルにすることで、耐障害性とセキュリティも向上させた。

ソフトバンクロボティクスのPepperでは、2019年からRinna Character Platformを採用しているという。同新バージョンの最新チャットモデルの効果により、Pepperの会話機能が向上し、Pepperが提供するサービスの顧客満足度が高まることが期待されるとしている。また、Rinna Character Platformの新しいアーキテクチャによってシステムの導入が容易になるとともに運用効率と耐障害性が向上し、自由会話のAIチャットボットをより低コストで安定したサービスとして提供できるようになるとした。

特別なハードウェアを使わずに誰でもAIの開発ができるようにするThirdAIの技術

ヒューストンに拠点を置くThirdAI(サードAI)という企業は、GPU(グラフィックス・プロセッシング・ユニット)のような特殊なハードウェアを必要とせずに深層学習技術を高速化するツールを構築している。同社はシード資金として600万ドル(約6億6000万円)を調達した。

Neotribe Ventures(ネオトライブ・ベンチャーズ)、Cervin Ventures(セルヴァン・ベンチャーズ)、Firebolt Ventures(ファイアボルト・ベンチャーズ)が共同で主導したこの出資は、従業員の増員とコンピューティングリソースへの投資に使用すると、Third AIの共同創業者でCEOを務めるAnshumali Shrivastava(アンシュマリ・シュリヴァスタヴァ)氏はTechCrunchに語った。

数学の素養があるシュリヴァスタヴァ氏は、もともと人工知能や機械学習に興味があり、特にAIをより効率的に開発する方法について再考していた。それはライス大学に在籍していた時に、AIでディープラーニング(深層学習)をどうやって実行するかについて検討したことがきっかけだった。そして2021年4月、同氏はライス大学の大学院生たちとThirdAIを起ち上げた。

ThirdAIの技術は「深層学習へのよりスマートなアプローチ」を目的に開発されたもので、大規模なニューラルネットワークを学習させる際に、アルゴリズムとソフトウェアの革新的な技術を用いて、汎用の中央処理装置(CPU)をGPUよりも高速に機能させることを目指していると、シュリヴァスタヴァ氏はいう。多くの企業は何年か前にCPUを放棄し、高解像度の画像や動画をより迅速に同時レンダリングできるGPUを用いるようになっている。しかし、GPUにはあまり多くのメモリが搭載されていないため、ユーザーがAIを開発しようとすると、ボトルネックになることが多いとシュリヴァスタヴァ氏は語る。

「深層学習の状況を見ると、技術の多くは1980年代から使われているものであり、市場の大部分、約80%がGPUを使用し、高価なハードウェアと高価なエンジニアに投資して、AIの魔法が起こるのを待っているのです」と、同氏は続けた。

シュリヴァスタヴァ氏と彼のチームは、将来的にAIがどのように開発されていく可能性が高いかを検討し、GPUに代わるコストを抑えた方法を生み出したいと考えた。彼らのアルゴリズム「サブリニア・ディープラーニング・エンジン(劣線形深層学習エンジン)」は、専用のアクセラレーション・ハードウェアを必要としないCPUをGPUの代わりに使用する。

Neotribeの創業者兼マネージングパートナーであるSwaroop “Kittu” Kolluri(スワループ・”キットゥ”・コルリ)氏は、この種の技術はまだ初期段階にあると述べている。現行のやり方は手間とコストと時間がかかる。例えば、より多くのメモリを必要とする言語モデルを実行している会社では問題が発生するだろうと、同氏は続けた。

「そこにThirdAIの出番があります。今までできなかったことが可能になるのです」と、コルリ氏は語る。「それが、我々が出資しようとした理由でもあります。コンピューティングだけでなく、メモリも含めて、ThirdAIの技術は誰でもそれができるようにします。ゲームチェンジャーになるでしょう。深層学習に関する技術がもっと洗練されるようになってくれば、可能性は無限に広がります」。

AIはすでに、ヘルスケアや地震データ処理など、最も困難な問題のいくつかを解決する能力を備えた段階にあるが、AIモデルの実行が気候変動に影響を与えるという問題もあると、同氏は指摘する。

「深層学習モデルを訓練することは、1人で5台の自動車を所有するよりもコストがかかります」と、シュリヴァスタヴァ氏は語る。「AIの拡大に向けて、我々はそういうことについても考える必要があります」。

関連記事
OpenAIが自然言語AIコーダーのCodexをアップグレード、プライベートベータを開始
一般的なAIモデルを10分の1に圧縮できるというLatent AIが約21億円調達、IoT、エッジAIへの活用に期待
異音検知プラットフォームや議事録自動作成システムを手がける音声認識AIスタートアップ「Hmcomm」が4.2億円調達

カテゴリー:人工知能・AI
タグ:ThirdAI人工知能深層学習資金調達機械学習

画像クレジット:Jeff Fitlow/Rice University

原文へ

(文:Christine Hall、翻訳:Hirokazu Kusakabe)

OpenAIが自然言語AIコーダーのCodexをアップグレード、プライベートベータを開始

OpenAI(オープンエーアイ)は、2021年7月に発表したAIを活用したコーディングアシスタントのCodex(コーデックス)に、すでにいくつかの大きな変更を加えている。現在システムは、平易な英語のコマンドを受け入れ、実際に動作するコードをリアルタイムで出力する。変数に名前をつける必要すらなくゲームやウェブアプリを作成できるようにするのだ。数少ない幸運なコーダーたちは(そしてご想像できるようにノンコーダーたちも)、無償のプライベートベータで提供される新しいCodex APIを使って、その使い心地を試すことができる。

Codexが、OpenAIの多用途言語エンジンであるGPT-3であることはよく知られているが、特に通常の文書ではなくコード生成に向けてのみ訓練されたものである。これにより、コードの行を完成させたり、セクションを完全に生み出したりすることができる。とはいえ、最初発表されたときには、ノンコーダーが実際に対話して利用できるようなものではなかった。

この状況が今回の新しいAPIでは変わった。たとえば「ボールを画面の端で跳ね返らせる」とか「パブリックAPIを使用してそのデータをダウンロードし、日付で並べ替える」といった日常的なリクエストを解釈し、複数のプログラミング言語の1つで実際に動くコードを生成するのだ。

私はOpenAIの共同創業者であるGreg Brockman(グレッグ・ブロックマン)CTOと、CodexのリーダーであるWojciech Zaremba(ボイチェフ・ザレンバ)氏が、簡単なゲームをゼロから作成しながら、舞台裏で何が起こっているのかを説明するライブデモに参加した。

「プログラミングとは、目標を考えて部分へと分割し、そして分割された部分のためのコードを実際に作成していくことです」とブロックマン氏は説明した。Codexの目的は、コーダーが後者よりも前者の部分により多くの時間を費やせるようにすることだ。結局のところ、膨大な量のコードが、他人が以前に行ったことを真似たり完全にコピーしたりしている。もちろんそれも創造的な行為ではあり得る。だが少しばかりのコードのテストのために行うウェブサーバーの展開のような基本的な作業に、想像力を駆使する人はいないだろう。ブロックマン氏はそのことを「次のことを表示するウェブページを作成せよ」といった感じのシンプルな一行で実現してみせた。

画像クレジット:OpenAI

1秒後には、その要求を完全に標準的な方法で実現する10行ほどのJavaScript(ジャバスクリプト)プログラムが生成された。

「これはプログラミングの中でも面倒な部分です」とブロックマン氏はいう。「私はこの種のコードをおそらく数十回以上書きましたが、どのようにやっていたかを正確には覚えていないのです。私はこうしたAPIを正確には知りませんし、覚える必要もないのです。少ないキーストロークや操作手順で、同じことを簡単に行うことができるようになるのです」。

Codexは、基本的にGitHub(ギットハブ)上のすべての公開コードを中心に用いてトレーニングされているので、標準的な作法を熟知している。そこでは、ウェブサーバー、キーボードコントロール、オブジェクト操作、アニメーションなどのコードが何百回も誰かによって書かれているのだ。また、自然言語側ではGPT-3が持つ通常の理解能力が備わっているので「それを小さくしてトリミングして」といってから「それの水平位置を左右の矢印キーで制御せよ」といった場合に「それ(it)」が同じものを指していることをシステムは理解することができる。

また、同システムは数キロバイトに相当する自分自身のコーディングコンテキストを知っているために、準拠する必要のある命名規則、ユーザーの入力が暗示する既存の境界と要求およびその他の情報を認識している。

また、コードコーパスに埋め込まれている一般的知識も認識している。例えばブロックマン氏がシステムに対して「丸石を空から落とせ」と命じたとき、システムは、ほとんどキャンバス上に何も定義されていない状況にも関わらず「空」が何であるかを尋ね返してこなかった。システムは画面の上部から丸石を落としただけでなく、通常の物体のように落下速度を加速させた。これは、他の用途や状況から「落下」と「空」が何を意味するかを最もうまく推測できたからだ。

画像クレジット:OpenAI

数年前に、博士論文のために今回のシステムの機能限定版を作成していたザレンバ氏は、マイクロソフトワード用のCodexプラグインのデモを行いながら「これは、既存のソフトウェアと対話するための新しい方法を提供すると思います」と語った。もちろん、ワードプロセッサの多くのタスクは自動されているが、たとえば奇妙なフォーマットの問題が発生して、100カ所以上の異なる場所を修正したくなった場合はどうだろうか?「すべてのテキストを同じサイズとフォントにして、ダブルスペースをシングルにせよ」と入力すると、迷子になったスタイルを削除し「通常」と見なされる可能性が最も高いサイズとフォントを選択するのだ。そして「すべての見出しを24ポイントで太字にせよ」と入力すると、猛然と処理をこなしてくれるというわけだ。

ここで注意しておきたいのは、この種のことは多くの人にとって便利なことには違いないが、身体障がいなどのためにこれらのことを行えない人にとっては非常に重要だということだ。音声コマンドまたはジョイスティックを使用してワードプロセッサを操作している場合には、上記のような複雑なタスクを実行できれば非常に役立つ。盲目のコーダーは、他の人と同じように、標準のパブリックテストサーバーにパッチを適用できるが、Stack Overflowを探すこと、最適なコード断片の取得、構文の確認、関連する変数の変更などのプロセスは、ほぼ確実に長くなる。

そして、上から指示された構文や慣習の範囲内で作業する人にとっては、ドキュメントをモデルに与えることで、簡単にCodexがそれらを反映するようにすることができる。Codexは、コードをある言語から別の言語に変換して移植することもできる。これは、翻訳エンジンがスペイン語をフランス語に変換するのとほぼ同じやりかただ。

ブロックマン氏は、GPT-3の場合と同様に、これらは可能なことのほんの一部に過ぎず、開発者が思いつくものに驚かされることを望んでいるという(実際、OpenAIはAI Dungeon[AIダンジョン]の登場は予測していなかった)。ベータ版はGPT-3のベータ版と同様に非公開のものとなるが、開発者は自分のプロジェクトを説明して利用を申請することができる。Codexチームがその申請をレビューして招待を決めることになる。最終的にこのAPIは有料の公開APIになる予定だが、そのタイミングと価格はまだ決定されていない。

関連記事
GitHubがコーディングの提案を行う新しいAIツールをプレビュー
人間が操り理解できる大型AIの条件を探るOpenAIメンバーが創設したAI研究機関「Anthropic」
OpenAIの約109億円スタートアップファンドはマイクロソフトがパートナー

カテゴリー:人工知能・AI
タグ:OpenAIベータ版GPT-3コーディングノーコード

画像クレジット:OpenAI

原文へ

(文: Devin Coldewey、翻訳:sako)

一般的なAIモデルを10分の1に圧縮できるというLatent AIが約21億円調達、IoT、エッジAIへの活用に期待

およそ1年前、TechCrunchのBattlefieldコンペティションの最中に、Latent AI(レイテントAI)がひと握りの投資家たちに向けてプレゼンを行った。Latent AIはカリフォルニア州メンローパークに拠点を置く現在3歳の企業だ。同社はそのコンペティションでは勝つことができなかったが、その後他の投資家たちからの興味を惹きつけることに成功した。同社はこのたび、Future VenturesとBlackhorn Venturesが主導しBooz Allen、 Lockheed Martin、 40 North Ventures、Autotech Venturesが参加したシリーズA資金調達で、1900万ドル(約21億円)を調達した。これで同社は、合計で2250万ドル(約24億9000万円)を調達した。

支援者たちは、何に対して資金提供を行っているのだろうか?同社は、ハードウェアの制約やエッジデバイスに通常見られる安価なチップに影響を受けず、エッジAIニューラルネットワークをトレーニング、適応、展開するように設計されたソフトウェアを開発しているという。また、環境や運用状況に基づいて、電力を節約し必要なものだけを実行できる「注意メカニズム」のおかげで、精度を大幅に落とすことなく、一般的なAIモデルを10分の1に圧縮できるのだともいう。話はそこで終わらず、そのソフトウェアの利用者(エッジデバイスの開発者)が、ほぼ待ち時間ゼロですべてを実行できることを約束している(「待ち時間=レイテンシー」がゼロになるというところから会社名が来ている)。

ベテランの投資家でFuture Venturesの共同創業者のSteve Jurvetson(ステーィブ・ジャーベットソン)氏が、考えられる応用について語っている。「防犯カメラや家電製品の中で顔検出アルゴリズムがローカルに動作したり、Siri(シリ)のような音声インターフェースがネットワークに接続されていなくても瞬時に動作したりすることを考えてみてください」。

確かに、Latent AIが開発している種類の技術を必要としている市場は成長している。実際、さきほど行ったインタビューで、共同創業者でCEOのJags Kandasamy(ジャグス・カンダサミー)氏は、詳しく語ることは拒んだものの、Booz Allen(ブーズ・アレン)氏のような戦略的投資家のおかげもあって米国政府がすでに顧客であることを示唆した (2021年7月のプレスリリースに掲載されたブーズ・アレン氏のLatent AIへの投資に関する記事の中で、とある政府サービス機関のSVPが「データを収集、分析、迅速に処理する能力が米国の国防戦略の中核である」と述べている)。

また別の戦略的投資家であるLockheed Martin(ロッキード・マーティン)は、米軍の陸、海、空、宇宙、サイバー、電磁スペクトルの各ドメインにわたる状況認識を改善するために役立つAIテクノロジーを見つけることに強く焦点を当てているため、同スタートアップへの魅力を簡単に理解できる。

カンダサミー氏はまた、とあるスキーメーカーが、Google Glass(グーグルグラス)のような拡張現実ゴーグルでLatent AIの技術を使用していることについて語り、Latent AIが消費者マーケットでもチャンスを探っていることを示唆した。

もちろん、現在世界がデータ収集デバイスで溢れていること、そしてそのデータを遠くのクラウドとの間でやり取りすることなく実行可能にすることに大きな関心が寄せられていることを考えると、Latent AIと同じ目的を持つ企業やプロジェクトは多い。その中の代表的なものには、TensorFlow(テンソルフロー)のようなオープンソースツール、Xilinx(ザイリンクス)のようなハードウェアベンダー、 OctoML(オクトML)やDeeplite(ディープライト)のようなライバルのスタートアップがある。

カンダサミー氏は、それらのすべてが、何らかの形で不足しているのだと主張している。TensorFlowについては、それを利用する開発者は、本番環境へのデプロイに関してはコミュニティのサポートしか受けられないと彼はいう。世界のチップメーカーについては、彼らは自分たちのハードウェアに焦点を合わせていて、垂直統合されていないという。ではその他のライバルたちはどうだろう?彼らは、圧縮またはコンパイルのどちらかに焦点を合わせていて、両方に注意を向けてはいないとカンダサミー氏はいう。

いずれにせよ、Latent AIには、投資家が好むような裏話がある。連続起業家のカンダサミー氏は、その最後のスタートアップをAnalog Devices(アナログデバイシズ)に売却した後、2018年にSRI International(SRIインターナショナル)の客員起業家(EIR、entrepreneur in residence)となった。そこで彼はすぐに、同研究機関の技術ディレクターを10年近く務め、低電力高性能コンピューティング、コンピュータービジョン、そして機械学習を専門とするSek Chai(セック・チャイ)氏によって開発された技術に驚かされた。その後すぐに、カンダサミー氏はチャイ氏にLatent AIの創業を促し、存在する障壁を取り除き始めた。

さて、こうして新たな資金と、少数ではあるが増えつつある顧客(サブスクリプションベースでツールアクセスし最終的にはオンプレミスに展開を行う)を前にして、Latent AIに突きつけられた問は、現在の15人の体制が現在および将来のライバルに先んじるために、十分な力と速さを持っているのかということだ。

ジャーベットソン氏は、もちろん同社が良い位置にあると考えている。彼は、SRI Internationalの諮問委員会メンバーを10年以上務めており、Siriのような多くのテクノロジーが開発され、組織からスピンアウトされるのを見てきた。

「これは私が投資した唯一のものです」と彼はいう。

カテゴリー:人工知能・AI
タグ:Latent AISRI InternationalエッジAIIoT

画像クレジット:NicoElNino/Getty Images

原文へ

(文: Connie Loizos、翻訳:sako)

異音検知プラットフォームや議事録自動作成システムを手がける音声認識AIスタートアップ「Hmcomm」が4.2億円調達

異音検知プラットフォームや議事録自動作成システムを手がける音声認識AIスタートアップ「Hmcomm」が4.2億円調達

Hmcomm(エイチエムコム)は8月10日、シリーズC追加ラウンドとしての第三者割当増資と金融機関からの融資による合計4億2000万円の資金調達を発表した。引受先は、J&TC Frontier、協和、芙蓉総合リース。

Hmcommは、「音から価値を創出し、革新的なサービスを提供することにより社会に貢献する」との企業理念の下「音のIoTソリューションの社会実装」を目指す、産業技術総合研究所(産総研)発のスタートアップ。その社名は、「Human Machine Communication」(人と機械のコミュニケーション)に由来する。主なサービスに、音で異常を検知する異音検知プラットフォーム「FAST-D」、AI音声による自動応答を行う「Terry」、議事録自動作成システム「ZMEETING」などがある。また、通話内容を自動的に要約してオペレーター業務の可視化し、AIが対応の分析を行うコールセンター業務の効率化や高度化を実現するサービスも行っている。

今回調達した資金は、業容拡大に向けたAI人材の確保、開発環境の充実、研究開発の推進、さらには基盤技術の深耕、新サービス開発のための先行投資にあてるとのこと。

関連記事
マイクロソフトが過去2番目規模で文字起こし大手Nuance Communications買収、ヘルスケア分野のクラウドを強化
AI翻訳機「ポケトーク」が音声を翻訳し本体とウェブブラウザーに文字表示を行う「ハンズフリー翻訳(β版)」を新搭載
AI利用のリアルタイム英語音声文字起こし「Otter. ai」とNTTドコモが日本向け法人プラン独占販売契約
議事録自動作成用AIツール26種類をまとめた「議事録作成AIカオスマップ」が公開

日本語に特化したAI文字起こしサービス「Rimo Voice」が登場、1時間の保存音声を最短5分でテキスト化
会議や講演の音声をAIで自動的に文字起こしする「Smart書記」が8500万円を調達
“音”を元にスマホで3分で設備機器の異常を診断、スカイディスクの「スマート聴診棒」ベータ版

カテゴリー:人工知能・AI
タグ:音声認識 / Voice Recognition(用語)産総研 / AIST(組織)Hmcomm(企業)文字起こし / Transcribe(用語)資金調達(用語)日本(国・地域)

京都発HACARUSの衛星画像分析AIがドイツ「INNOspace Masters」イノーベション・コンペで2位受賞

京都発HACARUSの衛星画像分析AIがドイツINNOspace Mastersイノーベション・コンペで2位受賞

京都発のAIソリューションカンパニーHACARUS(ハカルス)は8月5日、ドイツで開かれた第6回「INNOspace Masters」イノベーション・コンペティションにおいて、ドイツ鉄道会社DB Netz AG主催のインフラ保守関連コンペで2位を受賞したことを発表した。

INNOspace Mastersは、「宇宙と地球との持続可能なインフラのためのイノベーション」をテーマにドイツ航空宇宙センターが毎年開催しているコンペティション。今回は2020年10月から2021年2月にかけて実施された。そこではドイツ航空宇宙センターやエアバスなど、4つの企業(団体)が課題を出しており、HACARUSはドイツの鉄道会社DB Netz AGによる主に鉄道関連のインフラ整備技術に関する課題に挑戦した。

HACARUSは、同社のスパースモデリング技術(少ないデータから全体像を把握する技術)を応用して、インフラ設備の状態を衛星画像で即座に分析、遠隔操作による監視と保守を行うAIシステムを提案した。構築後も状況の変化に柔軟に対応し、設備の現状を俯瞰した状態で把握できるというものだ。

また、「ヒートマップやバウンディングボックスなどのスマート機能」により設備の監視や保守が簡単に行え、一定の間隔で行う定期メンテナンスを行う従来方式から、設備の実際の状況にあわせてその時々で対処する保守システムへ転換できるという。

HACARUS代表取締役CEOの藤原健真氏は、「少ないデータで使えるAIを構築できる」同社の強みを、製造業や医療以外の分野にも応用できることを明白に示せたと話している。

関連記事
HACARUSと東京大学がアルツハイマー病やパーキンソン病の治療法開発を目指すAI創薬研究を開始
医療・産業分野でAIソリューション開発を手がけるHACARUSが累計13億円のシリーズB調達
AIスタートアップのHACARUSが大阪ガスから数億円規模の資金調達、Daigasグループのシステムを開発へ
目に見えないブラックホールの撮影を可能にした「スパースモデリング」とは
“ディープラーニングで解決できない課題”に独自AIで挑むハカルスが1億円を調達
少量のデータから特徴を抽出する独自AI開発、ハカルスが1.7億円を調達
企業向けウェルネスサービスも提供開始、ハカルスが5000万円を追加で調達

カテゴリー:人工知能・AI
タグ:AI / 人工知能(用語)コンペティション(用語)スパースモデリング(用語)HACARUS(企業)日本(国・地域)