AIを使った超音波分析の拡大を目指すイスラエルのヘルステックDiAが約15億円調達

独自の光超音波3Dイメージング技術を手がけるLuxonusが約4.3億円調達、2022年に医療機器の開発・生産および薬事申請準備

イスラエルに拠点を置くAIヘルステック企業DiA Imaging Analysisは、深層学習と機械学習を利用して超音波スキャンの分析を自動化している。同社はこのほど、シリーズBのラウンドで1400万ドル(約15億3700万円)を調達した。

DiAの前回の資金調達から3年後に行われた今回の投資ラウンドには、新たにAlchimia Ventures、Downing Ventures、ICON Fund、Philips、XTX Venturesが参加し、既存投資家としてCE Ventures、Connecticut Innovations、Defta Partners、Mindset Ventures、Shmuel Cabilly(シュムール・カビリー)博士らが名を連ねている。同社のこれまでの総調達額は2500万ドル(約27億4500万円)に達している。

今回の資金調達により、DiAはプロダクト範囲の拡大を継続し、超音波ベンダー、PACS / ヘルスケアIT企業、リセラー、ディストリビューターとのパートナーシップの新規構築や拡充を進めるとともに、3つの地域市場でのプレゼンスを強化していく。

このヘルステック企業は、AIを利用したサポートソフトウェアを臨床医や医療従事者に販売し、超音波画像のキャプチャと分析を支援している。このプロセスを手動で行うには、人間の専門家がスキャンデータを視覚的に解釈する必要がある。DiAは、同社のAI技術を「今日行われている手動および視覚による推定プロセスから主観性を取り除く」ものだと強調している。

同社は、超音波画像を評価するAIを訓練して、重要な細部の特定や異常の検出を自動的に行えるようにしており、心臓にフォーカスしたものを含む、超音波分析に関連する各種の臨床要件を対象とした広範なプロダクトを提供している。心臓関連のプロダクトには、駆出率、右心室のサイズと機能などのアスペクトの測定と分析の他、冠動脈疾患の検出支援などを行うソフトウェアがある。

また、超音波データを利用して膀胱容積の測定を自動化するプロダクトもある。

DiAによると、同社のAIソフトウェアは、人間の目が境界を検出して動きを認識する方法を模倣しており「主観的」な人間の分析を超える進歩につながるもので、スピードと効率の向上も実現するという。

「当社のソフトウェアツールは、正しい画像の取得と超音波データの解釈の両方を必要とする臨床医を支援するツールです」とCEOで共同創業者のHila Goldman-Aslan(ハイラ・ゴールドマンアスラン)氏は語る。

DiAのAIベースの分析は、現在北米や欧州を含む約20の市場で利用されている(中国ではパートナーが自社のデバイスの一部として同社のソフトウェアの使用の承認を取得したと同社は述べている)。DiAは、チャネルパートナー(GE、Philips、コニカミノルタなど)と協力して市場開拓戦略を展開しており、チャネルパートナーは自社の超音波システムやPACSシステムに追加する形で同社のソフトウェアを提供している。

ゴールドマンアスラン氏によると、現段階で3000を超えるエンドユーザーが同社のソフトウェアへのアクセスを有している。

「当社の技術はベンダーニュートラルであり、クロスプラットフォームであることから、あらゆる超音波デバイスやヘルスケアITシステム上で動作します。そのため、デバイス企業およびヘルスケアIT / PACS企業の両方と10社以上のパートナーシップを結んでいます。当該分野には、このような機能、商業的牽引力、これほど多くのFDA・CE対応のAIベースソリューションを持つスタートアップは他にありません」と同氏は述べ、さらに次のように続けた。「現在までに、心臓や腹部領域のための7つのFDA・CE承認ソリューションがあり、さらに多くのソリューションが準備されています」。

AIのパフォーマンスは、当然ながら訓練されたデータセットと同等である。そして、ヘルスケア分野での有効性は特に重大な要素である。トレーニングデータに偏りがあると、トレーニングデータにあまり反映されていない患者群で疾患リスクを誤診したり過大評価したりする、欠陥のあるモデルにつながる可能性がある。

AIが超音波画像の重要な細部を突き止めるためにどのような訓練を受けているのかと聞かれて、ゴールドマンアスラン氏はTechCrunchに次のように答えている。「私たちは多くの医療施設を通じて何十万もの超音波画像にアクセスできますので、自動化された領域から別の領域にすばやく移動する能力があります」。

「各種のデバイスからのデータに加えて、異なる病理を持つ多様な集団データも収集しています」と同氏は付け加えた。

「『Garbage in Garbage out(ゴミからはゴミしか生まれない)』という言葉があります。重要なのは、ゴミを持ち込まないことです」と同氏はいう。「当社のデータセットは、数人の医師と技術者によってタグ付けされ、分類されています。それぞれが長年の経験を持つ専門家です」。

「また、誤って取り込まれた画像を拒否する強力な拒否システムもあります。このようにして、データがどのように取得されたかに関する主観的な問題を克服しています」。

注目すべき点は、DiAが取得したFDAの認可が市販前通知(510(k))のクラスII承認であることだ。ゴールドマンアスラン氏は、自社プロダクトの市販前承認(PMA)をFDAに申請していない(また申請する意思もない)ことを認めている。

510(k)ルートは、多様な種類の医療機器を米国市場に投入する承認を得るための手段として広く利用されている。しかし、それは軽薄な体制として批判されており、より厳格なPMAプロセスと同じレベルの精査を必要としないことは確かである。

より大きなポイントは、急速に発展しているAI技術の規制は、それらがどのように適用されているかという点で遅れをとっている傾向があるということだ。巨大な展望が確実に開かれているヘルスケア分野への進出が増えている一方、まことしやかなマーケティングの基準を満たすことに失敗した場合の深刻なリスクもある。つまり、デバイスメーカーが見込んだ展望と、そのツールが実際にどれだけの規制監督下に置かれているかということの間には、依然としてギャップのようなものが存在している。

例えば、欧州連合(EU)では、デバイスの健康、安全性、環境に関するいくつかの基準を定めているCE制度において、一部の医療デバイスはCE制度の下での適合性についての独立した評価が必要になるが、実際にはそれらが主張する基準を満たしているという独立した検証が行われることなく、単にメーカーが適合性の宣言を求められるだけの場合もある。しかし、AIのような新しい技術の安全性を規制する厳格な制度とは考えられていない。

そこでEUは、来るべきAI規制法案(Artificial Intelligence Act:AIA)の下で「高リスク」と見なされたAIのアプリケーションに特化して、適合性評価の層を追加することに取り組んでいる。

DiAのAIベースの超音波解析のようなヘルスケアのユースケースは、ほぼ確実にその分類に該当するため、AIAの下でいくつかの追加的な規制要件に直面することになる。しかし現時点では、この提案はEUの共同立法者によって議論されているところであり、AIのリスクの高いアプリケーションのための専用の規制制度は、この地域では何年も効力を発揮していない状態にある。

画像クレジット:DiA Imaging Analysis

原文へ

(文:Natasha Lomas、翻訳:Dragonfly)

AIを使った超音波分析の拡大に注力するイスラエルのヘルステックDiAが約15億円調達

イスラエルに拠点を置くAIヘルステック企業DiA Imaging Analysisは、深層学習と機械学習を利用して超音波スキャンの分析を自動化している。同社はこのほど、シリーズBのラウンドで1400万ドル(約15億3700万円)を調達した。

DiAの前回の資金調達から約3年後に行われた今回の投資ラウンドには、新たにAlchimia Ventures、Downing Ventures、ICON Fund、Philips、XTX Venturesが参加し、既存投資家としてCE Ventures、Connecticut Innovations、Defta Partners、Mindset Ventures、Shmuel Cabilly(シュムール・カビリー)博士らが名を連ねている。同社のこれまでの総調達額は2500万ドル(約27億4500万円)に達している。

今回の資金調達により、DiAはプロダクト範囲の拡大を継続し、超音波ベンダー、PACS / ヘルスケアIT企業、リセラー、ディストリビューターとのパートナーシップの新規構築や拡充を進めるとともに、3つの地域市場でのプレゼンスを強化していく。

このヘルステック企業は、AIを利用したサポートソフトウェアを臨床医や医療従事者に販売し、超音波画像のキャプチャと分析を支援している。このプロセスを手動で行うには、人間の専門家がスキャンデータを視覚的に解釈する必要がある。DiAは、同社のAI技術を「今日行われている手動および視覚による推定プロセスから主観性を取り除く」ものだと強調している。

同社は、超音波画像を評価するAIを訓練して、重要な細部の特定や異常の検出を自動的に行えるようにしており、心臓にフォーカスしたものを含む、超音波分析に関連する各種の臨床要件を対象とした広範なプロダクトを提供している。心臓関連のプロダクトには、駆出率、右心室のサイズと機能などのアスペクトの測定と分析の他、冠動脈疾患の検出支援などを行うソフトウェアがある。

また、超音波データを利用して膀胱容積の測定を自動化するプロダクトもある。

DiAによると、同社のAIソフトウェアは、人間の目が境界を検出して動きを認識する方法を模倣しており「主観的」な人間の分析を超える進歩につながるもので、スピードと効率の向上も実現するという。

「当社のソフトウェアツールは、正しい画像の取得と超音波データの解釈の両方を必要とする臨床医を支援するツールです」とCEOで共同創業者のHila Goldman-Aslan(ハイラ・ゴールドマンアスラン)氏は語る。

DiAのAIベースの分析は、現在北米や欧州を含む約20の市場で利用されている(中国ではパートナーが自社のデバイスの一部として同社のソフトウェアの使用の承認を取得したと同社は述べている)。DiAは、チャネルパートナー(GE、Philips、コニカミノルタなど)と協力して市場開拓戦略を展開しており、チャネルパートナーは自社の超音波システムやPACSシステムに追加する形で同社のソフトウェアを提供している。

ゴールドマンアスラン氏によると、現段階で3000を超えるエンドユーザーが同社のソフトウェアへのアクセスを有している。

「当社の技術はベンダーニュートラルであり、クロスプラットフォームであることから、あらゆる超音波デバイスやヘルスケアITシステム上で動作します。そのため、デバイス企業およびヘルスケアIT / PACS企業の両方と10社以上のパートナーシップを結んでいます。当該分野には、このような機能、商業的牽引力、これほど多くのFDA・CE対応のAIベースソリューションを持つスタートアップは他にありません」と同氏は述べ、さらに次のように続けた。「現在までに、心臓や腹部領域のための7つのFDA・CE承認ソリューションがあり、さらに多くのソリューションが準備されています」。

AIのパフォーマンスは、当然ながら訓練されたデータセットと同等である。そして、ヘルスケア分野での有効性は特に重大な要素である。トレーニングデータに偏りがあると、トレーニングデータにあまり反映されていない患者群で疾患リスクを誤診したり過大評価したりする、欠陥のあるモデルにつながる可能性がある。

AIが超音波画像の重要な細部を突き止めるためにどのような訓練を受けているのかと聞かれて、ゴールドマンアスラン氏はTechCrunchに次のように答えている。「私たちは多くの医療施設を通じて何十万もの超音波画像にアクセスできますので、自動化された領域から別の領域にすばやく移動する能力があります」。

「各種のデバイスからのデータに加えて、異なる病理を持つ多様な集団データも収集しています」と同氏は付け加えた。

「『Garbage in Garbage out(ゴミからはゴミしか生まれない)』という言葉があります。重要なのは、ゴミを持ち込まないことです」と同氏はいう。「当社のデータセットは、数人の医師と技術者によってタグ付けされ、分類されています。それぞれが長年の経験を持つ専門家です」。

「また、誤って取り込まれた画像を拒否する強力な拒否システムもあります。このようにして、データがどのように取得されたかに関する主観的な問題を克服しています」。

注目すべき点は、DiAが取得したFDAの認可が市販前通知(510(k))のクラスII承認であることだ。ゴールドマンアスラン氏は、自社プロダクトの市販前承認(PMA)をFDAに申請していない(また申請する意思もない)ことを認めている。

510(k)ルートは、多様な種類の医療機器を米国市場に投入する承認を得るための手段として広く利用されている。しかし、それは軽薄な体制として批判されており、より厳格なPMAプロセスと同じレベルの精査を必要としないことは確かである。

より大きなポイントは、急速に発展しているAI技術の規制は、それらがどのように適用されているかという点で遅れをとっている傾向があるということだ。巨大な展望が確実に開かれているヘルスケア分野への進出が増えている一方、まことしやかなマーケティングの基準を満たすことに失敗した場合の深刻なリスクもある。つまり、デバイスメーカーが見込んだ展望と、そのツールが実際にどれだけの規制監督下に置かれているかということの間には、依然としてギャップのようなものが存在している。

例えば、欧州連合(EU)では、デバイスの健康、安全性、環境に関するいくつかの基準を定めているCE制度において、一部の医療デバイスはCE制度の下での適合性についての独立した評価が必要になるが、実際にはそれらが主張する基準を満たしているという独立した検証が行われることなく、単にメーカーが適合性の宣言を求められるだけの場合もある。しかし、AIのような新しい技術の安全性を規制する厳格な制度とは考えられていない。

そこでEUは、来るべきAI規制法案(Artificial Intelligence Act、AIA)の下で「高リスク」と見なされたAIのアプリケーションに特化して、適合性評価の層を追加することに取り組んでいる。

DiAのAIベースの超音波解析のようなヘルスケアのユースケースは、ほぼ確実にその分類に該当するため、AIAの下でいくつかの追加的な規制要件に直面することになる。しかし現時点では、この提案はEUの共同立法者によって議論されているところであり、AIのリスクの高いアプリケーションのための専用の規制制度は、この地域では何年も効力を発揮していない状態にある。

関連記事
欧州がリスクベースのAI規制を提案、AIに対する信頼と理解の醸成を目指す
心電図読み取りAIを開発するCardiomaticsが約3.5億円を調達

画像クレジット:DiA Imaging Analysis

原文へ

(文:Natasha Lomas、翻訳:Dragonfly)

ソシオネクストが深層学習を用いたSLAM処理を大幅に高速化、画像認識による自律制御がエッジ機器でも可能に

ソシオネクストが深層学習を用いたSLAM処理を大幅に高速化、画像認識による自律制御がエッジ機器でも可能に

SoC(システム・オン・チップ)の設計開発を行うソシオネクストは10月12日、自動運転車やロボットなど自律制御を行う装置に欠かせないSLAM(自己位置推定と環境地図作成を同時に行う)処理に必要な時間を、従来技術の約1/60に短縮できる手法を開発したことを発表した。これは、東北大学大学院情報科学研究科システム情報科学専攻、岡谷貴之教授の研究ブループとの共同研究によるもの。

SLAMは、自動車などではLiDAR(ライダー:レーザーで画像検出と測距を行うシステム)を用いたものと、カメラ映像で行うVisual SLAMとに大別される。Visual SLAMは、安価なカメラで行えることと、画像処理技術が発達したことから応用が広がっている。さらに深層学習を使った画像認識技術の発展もこれを手伝っている。

しかし、深層学習による画像処理では、画像から抽出された3次元点群と観測データをすり合わせて画像の正確な3次元復元を行うバンドル調整(BA。Bundle Adjustment)という、膨大な計算処理が必要となる。そのため、エッジ機器のようなCPU処理能力に制約のある環境では、Visual SLAMは難しかった。

そこでソシオネクストの研究チームは、「グラフネットワーク(Graph Network。GN)を用いた推論による近似計算手法」を提案。これにより従来方式(g2o)と比較して「計算量を抑えた推論処理」が可能となり、処理時間は1/60となった。

ソシオネクストが深層学習を用いたSLAM処理を大幅に高速化、画像認識による自律制御がエッジ機器でも可能に

計算量が減ったことで、CPUの負担や、それにともなうシステムの消費電力も抑えられる。そのため小さなエッジ機器でも高度なVisual SLAM処理が可能となり、応用の範囲が大きく広がる。ソシオネクストでは、この新しい推論手法による処理効率の向上を、画像認識以外の新しい顧客アプリケーションへの応用も検討すると話している。

もうビデオ会議用の服装に悩まずにすむ!? 東京大学が体形・姿勢にリアルタイムで対応する仮想試着システムを開発

もうビデオ会議用の服装に悩まない!? 東京大学が体形・姿勢にリアルタイムで対応する仮想試着システムを開発

東京大学大学院情報理工学系研究科創造情報学専攻五十嵐健夫研究室は10月8日、多様な体形や姿勢にリアルタイムで対応する高品質な仮想試着システムの開発を発表した。オンラインショップなどでも仮想試着や、体を動かしても違和感のない映像が作られるため、ビデオ会議に仮想衣服を着用して参加するといったことが可能になるという。

既存の仮想試着システムの研究には、3D CGを用いたものや、画像ベースのものがある。しかし、CGでは写実的な画像の生成が難しく、画像ベースのものは、1つの深層学習モデルで異なる衣服の試着画像を生成するため、リアルタイムで高品質な画像を生成するのが難しい。それに対して、五十嵐健夫研究室が提案するシステムは、「特定の衣服の画像の生成に対象を絞って深層学習モデルを構築」するという手法でこれらの問題を克服した。

大まかな処理の流れはこうだ。試着者は、特別な柄の服(計測服)を着てカメラの前に立つと、深度センサー付きカメラで撮影される。その色と深度情報から、試着する服の画像が、服の部分と体の部分に分けられる。次に試着服の部分の領域分割を行い、画素の値に対応するラベル付き画像に変換される。そこから、深層学習モデルの一種である画像変換ネットワーク(画像を入力すると色づけなどの変換を施した画像が出力される)を使って試着する服の画像が生成される。それを試着者の体の画像と合成する。

ここで使われる画像変換ネットワークは、膨大な量の入力画像で訓練する必要があるが、入力画像と出力画像は、体形と姿勢が同一でなければならないため、人を使って行うのが極めて難しい。そこで同研究室では、この目的のために、人の体形(胴体の厚さと横幅)や姿勢を数値的に制御できるロボットマネキンも開発した。

もうビデオ会議用の服装に悩まない!? 東京大学が体形・姿勢にリアルタイムで対応する仮想試着システムを開発

写真左3枚が体形の変化。右4枚が姿勢の変化

これにより、計測服を着た試着者の画像から、衣服のサイズやポーズに応じた衣服の詳細な変形の様子をリアルタイムで画像に生成できるため、オンライショップでの試着や、テレビ会議で仮想的な衣服を着るといった応用が可能になる。今後は、長袖と半袖など構造的に大きく異なる衣服への対応、光源などが異なる撮影条件での制御、より自由度の高いマネキンの開発、生成画像向上のための計測服の最適化などに取り組んでゆくとしている。もうビデオ会議用の服装に悩まない!? 東京大学が体形・姿勢にリアルタイムで対応する仮想試着システムを開発

この研究結果は、10月10日にバーチャル開催されるるユーザーインターフェース分野の国際会議「ACM UIST 2021」にて発表される予定。

小売業の未来「会話型コマース」を構築するWizardが正式な立ち上げに先立ち約55.8億円調達

2021年初めにWalmart(ウォールマート)の米国eコマース部門の責任者を退任したMarc Lore(マーク・ローレ)氏は、eコマース分野の新しいスタートアップ企業である「Wizard(ウィザード)」を支援している。ローレ氏は「会話型コマース」分野のB2BスタートアップであるWizardの共同設立者、取締役会会長、投資家としての役割を担っている。Wizardは、将来のモバイルコマースはテキストで行われると信じている。同社の正式な立ち上げに先立ち、米国時間10月6日、同社はNEAのTony Florence(トニー・フローレンス)氏が主導する5000万ドル(約55億7600万円)のシリーズAを発表した。

関連記事:EC界の寵児マーク・ローリー氏がJet.comを3115億円で売却し4年余りでWalmart退社

このラウンドには、ローレ氏とAccel(アクセル)も参加している。フローレンス氏、ローレ氏、AccelのSameer Gandhi(サミアー・ガンジー)氏は、Wizardの共同創業者兼CEOであるMelissa Bridgeford(メリッサ・ブリッジフォード)氏とともに役員を務めている。

このスタートアップは、興味深い創業ストーリーを持っている。というのも、多くの人が思っているほど新しい企業ではないからだ。

かつてニューヨークで金融のキャリアを捨てたブリッジフォード氏は、オースティンを拠点とするStylust(スタイラスト)を設立・運営し、消費者が買い物をする際のアシスタントを提供することを目的としたテキストベースのショッピングプラットフォームを提供していた。ユーザーは、スクリーンショットや写真をテキストで送信すると、ウェブサイトにアクセスすることなく、テキスト上で購入可能な商品のオススメを受けることができる。Stylustは、AIと画像認識機能を活用して、消費者に購入すべき商品の選択肢を提供した。また、StylustにはB2Bの要素もあり、ブランドに「ワンテキストチェックアウト」の体験を約束している。キャッシュとして残っていた同社のウェブサイトによると、同社は35%のコンバージョン率、もしくはウェブベースの商取引の10倍のパフォーマンスを謳っていた。

WizardはStylustを「買収した」と言っているが、チーム全体(9月に最高責任者として新たに採用された数名を除く)はStylustで働いていた社員で構成されている。買収当時、Wizard は市場に製品を出していなかった。

厳密にいうとまったく新しい会社ではあり、現在はローレ氏のeコマースにおける経験に頼ることができ、一流の投資家の支援を受けることができる。

ブリッジフォード氏は、Wizardを「我々のビジョンをより大きなスケールで構築し、リテールテックの分野で非常に優れたビジョンを持ち、実績のある創業者であり、実績のある経営者であるマーク氏とパートナーを組むことができる」機会だと表現している。

「会話型コマースが小売業の未来であるというビジョンを、私たちは共有しています」とブリッジフォード氏は付け加えている。

しかし、同社はまだ製品の詳細については語っていない。その代わり、このB2Bサービスについて、ブランドや小売業者が消費者とテキストで取引できるようにするものだと説明している。このサービスは、加入から検索、支払い、配送、さらには再注文までカバーした、モバイルでの「エンド・ツー・エンドのショッピング体験」と位置づけられている。

これらのテキストベースのチャットは、これまでのメッセージングアプリのチャットボットとの煩わしいやりとりとは違うと、ブリッジフォード氏は主張している。

「私たちは、自動化と人間味の組み合わせによって、最適なユーザー体験を提供すると同時に、バックエンドには拡張性のある強力なテクノロジーを構築することができました。それこそが『聖杯』なのです」と彼女は説明している。「これこそが、会話型コマースの未来像なのです。私たちは、チャット機能や自然言語処理を組み込んでいます。これらの技術はどれも急速に進歩しているものです」。

言い換えれば、1、2年前にチャットボットで経験したイライラするような体験は、今日の体験ではないかもしれないということだ。

「このテクノロジーの最終目標は、実際にはテクノロジーによって実現されているにもかかわらず、人間と話しているように感じさせることです」とブリッジフォード氏は付け加えた。

Stylustは、今回の買収により、Wizardとのブランド提携をもたらした。

以前の Stylust のウェブサイトには、Laughing Glass Cocktails(ラフィング・グラス・カクテル)Desolas Mezcal(デソラス・メスカル)Pinhook Bourbon(ピンフック・バーボン)Marsh House Rum(マーシュ・ハウス・ラム)Neft Vodkas (ネフト・ウォッカ)などの顧客情報が掲載されていた。また、Austin Biz Journalの特集では、ワインやスピリッツの小売に力を入れていることが紹介されていた。しかし、Florida Funders(フロリダ・ファンダーズ)が2020年にStylustを支援するという記事では、Neiman Marcus(ニーマン・マーカス)、Walmart、Sephora(セフォラ)、Allbirds(オールバーズ)などの一流小売店との関係が記されていた。

Wizardとどことの関係が継続されるのか、また、アルコールブランドや他の小売業者に焦点を当てていくのかは、同社が資金調達以降の事業に関する詳細について言及を避けているため、不明だ。

同社は、今回の資金をAI、機械学習、自然言語処理などの分野や、営業、財務、業務などの非技術系の職務における採用に充てる予定だ。その中でも特に注目しているのが、チーフピープルオフィサー(最高人事責任者)の採用だ。現在のチームは、ニューヨークとオースティンにあるオフィスで働いているが、Wizardはリモートの技術チームのポジションの空きを埋めるために全国で採用活動を行っているとのことだ。

Wizardには、特にテキストマーケティングの分野で、同社のビジネスの特定の側面に対応するサービスを提供する競合他社がすでに存在する。しかし、もっと広く言えば、消費者がメッセージを介してブランドと交流する方法は他にもあり、それらが時間の経過とともにより完全な形の製品へと進化する可能性もある。現在、消費者はFacebook(フェイスブック)やInstagram(インスタグラム)などのソーシャルメディアで商品を見つけ、商品に関する質問をMessengerやダイレクトメッセージで行うことが多い。WhatsApp(ワッツアップ)は、消費者がアプリ内で直接製品やサービスを発見できるよう、企業向けの製品カタログを構築している。Apple(アップル)もBusiness Chatでこの市場に参入し、すでにiMessageのチャットで購入できるようになっている。

Wizardは、専用のメッセージングアプリや、例えばiMessageを搭載したiPhoneを必要とせず、SMSに注力することで、競合他社との差別化を図ることができる。しかし、テキストベースのスパム詐欺増加しているSMSに賭けることは、よりリスクの高い賭けでもある。しかし、ローレ氏はそれをいとわない。

「これまでのキャリアのほとんどをeコマースで過ごしてきた私にとって、会話型コマースが小売業の未来であることは明らかでした」とローレ氏はいう。「ディープラーニングが普及していく中で、極度にパーソナライズされた会話型のショッピング体験を実現する能力は、人々の買い物の仕方を変えていくでしょう。メリッサ氏とWizardのチームが構築しているものは、その変革をリードするものだと確信しています」と述べている。

画像クレジット:racorn Shutterstock

原文へ

(文:Sarah Perez、翻訳:Akihito Mizukoshi)

アルゴリズムで学習者の理解度に合ったSTEM教育を行うNumeradeのショート動画サービス

現在、注目を集めるEdTech分野の起業家たちは、テストの技術や情報保持の在り方など、現代の学習に関連するほぼすべての要素について、その構造や影響を再定義しようとしている。しかし、最も人気のある製品は、一見シンプルなもの、つまり、オールマイティな個別指導なのかもしれない。2018年に設立されたEdTech企業、Numerade(ヌーマレイド)は、拡張可能かつ高品質な個別指導に挑戦し、1億ドル(約110億円)の評価を受けたばかりだ。

方程式や実験の仕組みを解説する短編動画のサブスクリプションを販売するNumeradeは、アルゴリズムを使って学習者の理解の仕方に合わせた説明を行う。共同設立者であるCEOのNhon Ma(エヌホン・マ)氏によると、コンテキストで説明する非同期型のコンテンツに焦点を当てることで、高品質な個別指導を手頃な価格で提供することが可能になるという。

「本当の教育には、視覚と聴覚だけでなく、生徒が実際に学習する際の言葉で伝えるというコンテキストも含まれます」とマ氏。Numeradeは、Wolfram AlphaのようなロボットQ&Aやステップバイステップの回答プラットフォームではなく、実際に科学をソリューションに統合してユーザーに伝えるプラットフォームにしたいと考えている。

7月下旬、NumeradeはIDG Capital(アイデージーキャピタル)、General Catalyst(ゼネラルカタリスト)、Mucker Capital(マッカーキャピタル)、Kapor Capital(カパーキャピタル)、Interplay Ventures(インタープレイベンチャーズ)などの投資家や、Margo Georgiadis(マーゴ・ジョージアディス、Ancestry(アンセストリー)の元CEO)、Khaled Helioui(ハレド・ヒリオリ、Bigpoint Games(ビッグポイントゲームズ)の元CEOでUber(ウーバー)のエンジェル投資家)、Taavet Hinrikus(ターベット・ヒンリクス、Wise(ワイズ)の創業者)などの戦略的投資家が参加するラウンドで、評価額1億ドル(約110億円)で2600万ドル(約28億7000万円)を調達したことを発表した。

マ氏は「同期型の個別指導には需要と供給のメカニズムの縛りがあります。優秀な家庭教師の時間は限られていて、割増料金を要求されることもあり、全体的に市場の供給側の制約になっています」と説明する。一部の企業では、効率化のために複数の生徒を1人の教師に割り当てるグループレッスンオプションも採用されているが、マ氏は「これは本当に時代遅れで、教師の質を損なうものだ」と考えている。

ライブ授業やWolfram Alphaのような答えを教えるだけのシステムを避けてきたNumeradeだが、第3の選択肢として動画を採用した。動画はEdTechの分野では目新しいものではなく、現在は主に、CourseraやUdemyなどの大規模オープンオンラインコースのプロバイダーや、MasterClassやOutschoolなどの「エデュテインメント(エデュケーションとエンターテインメントを合わせた造語)」プラットフォームが動画を利用している。Numeradeは、教師または教育者主導で「Fundamentals of Physics(物理学の基礎)」の第2章にある問題を中心に動画を作成しようと考えている。

Numeradeの動画で学ぶ学生(画像クレジット:Numerade)

Numeradeには、基礎的な知識を得るためのブートキャンプの動画、手順に焦点を当ててその知識をスキルに変えるステップバイステップの動画、これらの情報がどれだけ理解できたかを評価するクイズという3つの主要製品がある。

しかし、このスタートアップの真の狙いは、どの学生にどの動画を見せるかを決定するアルゴリズムにある。マ氏は「深層学習」や「コンピュータビジョン」「オントロジー」といった言葉を使ってアルゴリズムの仕組みを説明するが、つまりは教育動画にTikTok並みの特殊性を持たせ、ユーザーの過去の行動を利用して、学習スタイルに合うコンテンツを適切に提供したい、ということだ。

Numeradeは、ステップ・バイ・ステップの動画で脳が問題のパターンや多様性を理解することで、最終的には答えをよりよく理解できるようになると考えている。同社のアルゴリズムは主にクイズで利用され、あるトピックに対する学生の成績を確認し、その結果をモデルに入力して、新しいブートキャンプやクイズをより適切に提供できるようにする。

「当社のモデルでは、まず学生の強みと弱みを理解し、次に関連する概念的、実践的、評価的なコンテンツを表示して、主題に対する学生の知識を構築して学生の成長と学習をサポートします。アルゴリズムは、動画の構造化データを解析し、学生ごとのニーズに合わせた教育スタイルを提供することができます」とマ氏。

現在のところ、Numeradeのアルゴリズムは予備的なもののようだ。ユーザーが自分に合うコンテンツの恩恵を受けるためには、有料会員になって、十分な利用履歴を稼ぐ必要がある。それができたとしても、学生が前回のクイズで間違えたコンセプトを再表示する以外に、このアルゴリズムがどのようにその学生に合うコンテンツを提供できるのかは明らかではない。

Numeradeの計画も野心的な前提の上に成り立っている。すなわち、学生はコンセプトを学びたいのであって、先延ばしにしていた宿題を終わらせるために急いで答えを知りたいのではない、というものだ。マ氏は、Numeradeの動画の視聴時間はその動画の長さの2~3倍にもなり、これは学生が単にスキップして答えにたどり着くだけでなく、コンテンツと向き合っていることを意味している、と説明する。

Wolfram Alphaに対抗しようとしているのはNumeradeだけではない。過去1年間、Quizlet(クイズレット)やCourse Hero(コースヒーロー)といったEdTechのユニコーン企業は、AIを搭載したチャットボットやライブ電卓に多額の投資を行ってきたが、Course Heroの手法は主にNumeradeのような企業を買収することだった。これらのプラットフォームは、テクノロジーを駆使した個別指導のセッションでは、人間関係の構築や時間ではなく、スピードとシンプルさを優先すべきだという考えに基づいて構築されている。週に一度、数学の家庭教師のところに行くことを嫌がる学生でも、数学試験の数時間前の真夜中に、丁寧に答えを説明してくれるプラットフォームを利用するかもしれない、という考えだ。

アルゴリズムの進化があまり進んでいるとはいえず、競争も激しい分野にもかかわらず、Numeradeの新しい投資家と、収益をもたらす能力は期待がもてる。具体的な内容は明かされていないが、マ氏によると、同社は年間経常収益が8桁(日本円では10億円)目前だという。現在の加入者ベースで少なくとも1000万ドル(約11億5000万円)以上の年間収益を上げていることだ。マ氏は、Numeradeの最大の競争力は「視点」だと考えている。

「商業的なSTEM(Science:科学、Technology:技術、Engineering:工学、Mathematics:数学)教材に対するよくある批判は、モジュール化されすぎている、というものです。教科書では物理を単独で教えています」とマ氏は話す。「私たちのアルゴリズムはそうではありません。私たちはSTEMを連動したエコシステムとして扱います。数学、物理、化学、生物学の概念は全面的に関連しているのです」。

画像クレジット:Westend61 / Getty Images

原文へ

(文:Natasha Mascarenhas、翻訳:Dragonfly)

医薬品チェック技術と偽造医薬品排除技術の拡大を目指すアフリカのRxAll、約3.5億円獲得

ある研究によれば、偽造医薬品による事故が原因で年間100万人が死亡し、そのうち10分の1はアフリカで発生している。偽造医薬品は、発見、検査、定量化、排除が難しい。これは世界的な問題で、基準に満たない医薬品による不当な利益は年間1000億ドル(約11兆300億円)を超えている。

この問題を解決するためのいくつかの技術が開発されている。製品の容器に無線ICチップが埋め込まれたシリアルナンバーを付けて、そのデータを読み取る無線識別技術はその1つだ。最近では、RxAll(アールエックスオール)の技術のような、より現代的なアプローチも採用されている。RxAllは、深層技術を活用して医薬品の品質を確保する技術を展開するスタートアップ企業で、米国とナイジェリアを拠点としている。現地時間7月21日、同社は、既存の市場での規模拡大と技術の向上を図るべく、315万ドル(約3億5000万円)の資金調達ラウンドを発表した。

RxAllはAdebayo Alonge(アデバヨ・アロング)氏、Amy Kao(エイミー・カオ)氏、Wei Lui(ウェイ・ルイ)氏によって2016年に設立された。当時イェール大学の学生だった3人がRxAllを創設したのは、自分自身、または身近な人が直面した問題を協力して解決するためだった。

アロング氏は2006年、致死量のジアゼパムが含まれた偽造医薬品を飲んで生死の淵をさまよい、3週間の昏睡状態に陥った。

アロング氏はTechCrunchの電話による取材に次のように応える。「私は15年前、ナイジェリアで3週間昏睡状態に陥りました。共同設立者のエイミーは、タイで偽造医薬品を飲んで入院しました。ウェイは、汚染された偽造医薬品のせいで家族を失いました」。

アロング、カオ、ルイの3人は、イェール大学化学学部での研究開発プロジェクトをベースに、機械学習と分子分光法を医薬品や原材料の品質、品質保証に応用する方法を検討し始めた。3人には、安全で評判の良い医薬品の販売者を認証するマーケットプレイスを構築し、まず高品質な医薬品の入手が難しいアフリカの問題を解決し、次に全世界に広げていく、という大きなアイデアがあった。

アロング氏は続ける。「調べていくうちに、私たちが経験したことが一過性のものではないことがわかりました。これは現在進行形の問題です。毎年、10万人のアフリカ人が、偽造医薬品が原因で亡くなっています。世界中では100万人です」。

画像クレジット:RxAll

RxAllの独自技術であるRxScannerは、ユーザーが医薬品を検査するための携帯型検査装置である。同社によると、RxScannerは20秒で処方薬の品質を識別し、モバイルアプリですぐに結果を表示することができるという。

RxAllは、質の良い販売者を自社のマーケットプレイスに集め、RxScannerを提供する。対象の医薬品を分光分析して、機械学習モデルで基準となる医薬品(リファレンス)と比較した場合の同一性や品質を示す検査を行い、結果を送信する。バッチテストが終わると、販売者は製品をマーケットプレイスに出して、オンデマンドの注文や受け取りだけでなく、配送サービスも利用できるようになる。販売者はフィルターを使って探すことができる。

RxAllはマーケットプレイスでの取引による手数料で収益を上げ、RxScannerには、個人や企業を対象としたサブスクリプションモデルを採用している。

同社の革新性にもかかわらず、アフリカを重要視した多くのディープテック(最先端のテクノロジー)プラットフォームと同様に、RxAllは資金調達をほとんど行っていなかった。このようなスタートアップ企業は研究から商業化までのサイクルが長く、ベンチャーキャピタルはサイクルの後半に関与するから、というのが、その主な理由だ。RxAllはこれまで、助成金やコンテストでの賞金の他、アフリカに特化したアクセラレーター、Founders Factory Africa(ファウンダーズファクトリー・アフリカ)などから新株発行で資金調達してきた。

アロング氏は、RxAllはディープテックとヘルステックを組み合わせた世界の先駆者であり、少なくとも当面は、RxScannerのシステムと直接競合する他社は出てこないと考える。

「医薬品のeコマースとは別物です。薬物検査の分野で言えば、他のソリューションには実験室用の高価な機器しかなく、RxAllの市場、応用分野、価格帯、深層学習とスマートフォンを使ったソリューションとは比較になりません」とアロング氏。

しかし、技術的な優位性だけでは製品は売れず、ビジネスも成り立たない。アロング氏によれば、RxAllの技術を拡大するための鍵は、コストがかかっても市場に受け入れられる製品を作ることだという。同社は現在、投資家にわかりやすい技術の開発に加え、この課題にも取り組んでいる。

RxAllチーム(の一部)

RxAllは、自らをグローバル市場で活躍する企業と表現する。しかし、先に述べたように、同社の顧客と収益の大部分はアフリカ、特にナイジェリアにある。現在、RxAllは10都市にサービスを展開中で、西アフリカ諸国の2000以上の病院や薬局にサービスを提供し、100万人の患者に対する医薬品の真贋を検証している。2021年中にサービス提供範囲をさらに14都市拡大し、2022年にはアフリカ全土での展開を予定している。

今回の資金調達ラウンドは、最近クローズした200万ドル(約2億2000万円)のシードラウンド(申し込みが上回り、225万ドル[約2億5000万円]のオーバーサブスクライブとなった)と、2020年末に調達した90万ドル(約1億円)のプレシードを合計したものだ。Launch Africa Ventures(ローンチアフリカベンチャーズ)が主導し、SOSV(エスオースブイ)のアクセラレータープログラム「HAX(ハックス)」と本田圭佑氏のKSKファンドが参加した。

今回のラウンドについて、Launch Africa Venturesのマネージングパートナー、Zachariah George(ザカリア・ジョージ)氏は次のように話す。「Launch Africa Venturesは、RxAllの優秀かつ経験豊富なチームに対して、この資金調達ラウンドを主導できることをうれしく思います。RxAllは、医薬品販売プラットフォームのパイオニアとして、薬局や患者が検証済みの医薬品をオンラインで購入することを可能にし、アフリカで質の高いヘルスケアを受けられるかどうかという大きなギャップを埋めていると確信しています。偽造医薬品を排除するための独自のモバイル分光計技術と、医薬品販売のサプライチェーン全体と独自の決済手段を所有することで、顧客1人あたりで高い経済性を実現し、複数の収益源を獲得しています。アフリカ全土、さらに全世界での大きな成長と規模拡大の機会が見込まれます」。

SOSVのジェネラルパートナーであり、HAXのマネージングディレクターであるDuncan Turner(ダンカン・ターナー)氏も「私たちは、RxAllの拡張性と顧客の需要に対応する能力に非常に感銘を受けています。この1年間で、RxAllのチームは、世界レベルのハードテクノロジーと卓越したオペレーション能力を結集し、100万人以上のナイジェリアの人々の、緊急の課題を解決してきました」と続ける。

では、RxAllの次の展開は?アロング氏は、RxAllが次に力を入れるのはパートナーシップだという。同氏によると、RxAllがナイジェリア、アフリカ、その他の地域でマーケットプレイスやRxScannerの提供範囲を拡大するには、パートナーシップが不可欠だ。

「RxAllは、病院や薬局、患者さんだけでなく、政府や各国のFDA(食品医薬品局)にもRxScannerを販売しています。そのため、ナイジェリアだけでなく、アフリカ、東南アジア、北米、南米など、世界各地でしっかりとしたパートナーシップを確立したいと考えています。私たちが目指すのは、これらの主要市場への規模拡大です」。

原文へ

(文:Tage Kene-Okafor、翻訳:Dragonfly)

自分の声で音声合成できる「CoeFont CLOUD」で多彩な感情表現が可能に

自分の声で音声合成できる「CoeFont CLOUD」で多彩な感情表現が可能に

東京工業大学発のAI音声合成スタートアップYellston(エールストン)は9月16日、自分や著名人の声を「フォント」化して音声合成ができるプラットフォーム「CoeFont Cloud」(コエフォント・クラウド)に、喜びや怒りなどの感情表現機能を追加したと発表した。

現在は、男性バーチャルキャラクターであるアベルーニに感情機能を実装。通常の声に加えて、喜怒哀楽の4種類の声のフォント(CoeFont)があり、それぞれの感情のこもったテキスト読み上げをしてくれる。これらのCoeFontを組み合わることで、表現豊かな音声合成を作ることができる。同様に、女性バーチャルキャラクターのアリアルにも感情のCoeFontをリリース。アリアルの感情CoeFontは、同社が提供するウェブ音声合成サービス「CoeFont Studio」でも、週替わりで一部公開している。

今後は、一般ユーザーも感情を込めた自分の声を収録することで、自分の感情CoeFontが作れる感情追加機能をリリースする予定とのことだ。

声を失った声帯摘出者のCoeFont CLOUD利用が無料に、自分のAI音声による会話を支援

声を失った声帯摘出者のCoeFont CLOUD利用が無料に、自分のAI音声による会話を支援

東京工業大学発のAI音声合成スタートアップYellstone(エールストン)は9月9日、自分の声を取り込んで音声合成が行えるサービス「CoeFont CLOUD」を、声帯摘出によって声を失った人たちに無料提供すると発表した。これを利用すれば、スマホやパソコンで文章を入力するだけで、自分の声で会話ができるようになる。

申し込みは、「CoeFont CLOUD 声帯摘出者向けプラン申請フォーム」から行える。

AI音声合成プラットフォーム「CoeFont CLOUD」では、自分の声を収録すれば、それが音声合成用の声のフォント「CoeFont」(コエフォント)に変換され、自分の合成音声でテキストの読み上げが行えるようになる。自分の「CoeFont」はクラウド上で公開でき、他のユーザーがそれを利用すれば作成者に収益が還元される仕組みもある。APIを使ってアプリやウェブサイトに組み込むことも可能。

Yellsotneでは、CoeFont CLOUDの場合これまで料金500円・最短15分の収録としていたが、今後は、声帯摘出を行った人は無料で使えるようになる。

テレビのニュース番組では、声帯摘出を行い「CoeFont CLOUD」利用している人のインタビューが放送された。その人は「CoeFontに出会えて、本当に救われました。今まで全く縁のなかったAI技術の進歩と素晴らしさに本当に驚いています」と話していたという。

実は、こうした使われ方は当初は想定していなかった。Yellstone創業者で代表取締役の早川尚吾氏は、こう話す。

「声帯摘出者の方が利用するという、自分が考えていなかった使われ方に最初は驚きました。実際に会話で使っていただいている動画を見ると、自分が作ったものが人の役に立っているということがこんなにも嬉しいのかと思いました」

「CoeFont Cloud」と小学館が協働し声優・森川智之さんの音声フォントを採用したAI音声合成オーディブックの試聴版公開

「CoeFont Cloud」と小学館が協働し声優・森川智之さんの音声フォントを採用したAI音声合成オーディブックの試聴版公開

東京工業大学発のAI音声合成スタートアップYellstone(エールストン)は9月7日、人の声をフォント化して音声合成を行うプラットフォーム「CoeFont Cloud」(コエフォント・クラウド)を利用し、小学館と協働でAI音声合成オーディブックの試聴版を作成したと発表した。

第1弾は、「鬼滅の刃」産屋敷耀哉(うぶやしきかがや)役やトム・クルーズの吹き替えで知られる声優・森川智之さんの合成音声によるオーディオブック「なぜ”ブブカ”はスポーツでもビジネスでも成功し続けるのか」(小学館:セルゲイ・ブブカ著)。特設ページにおいて、期間限定で一部を無料公開している。「CoeFont Cloud」と小学館が協働し声優・森川智之さんの音声フォントを採用したAI音声合成オーディブックの試聴版公開

CoeFont Cloudは、最短15分の収録で、その人の声を音声合成用の「フォント」に変換し、それを使ってテキストの読み上げが行えるというサービスを行っている。今回は、森川智之さんが約2時間かけて収録した音声からAI音声合成を行い、「なぜ”ブブカ”はスポーツでもビジネスでも成功し続けるのか」の第1章のオーディオブック試聴版(約31分)を完成させた。

Yellstoneは、2021年4月に、デジタルキャラクターや著名人の声でテキストの読み上げができる「CoeFont Studio」をリリースした。リリース3日目にして5万人のユーザー数を獲得した。CoeFont Cloudはそれを発展させて、自分の声のフォントを作って読み上げができるようにしたサービスだ。

森川智之さんは、今回の試みについて「……この技術革新が不安な影も落とすのではと感じる方も多いのではないでしょうか。人工知能は黙っていても学習していきます。技術の進歩は日進月歩です。それならば、誰もが参加でき、その進歩の礎となり、みんなが見守りながらオープンスタイルで育てていくAIの音声合成」というYellstonの考え方に賛同したとのこと。

さらに、「私の音声サンプルによるAI音声合成は、まだまだ発展途上、点数を付ければ45点。細部にわたる表現力が課題で、100点には遠く及びません。しかし、これに皆さんが参加することによって、AIが学習を重ねていけば、より理想とする表現に近づくことは間違いありません」と述べている。

東京大学齊藤研究室とバベルがAIエンジニアコミュニティ設立、wav2vec 2.0利用し日本語関連OSSプロジェクト開始

東京大学齊藤研究室とバベルがAIエンジニアコミュニティ設立、wav2vec 2.0利用し日本語関連OSSプロジェクト開始

AIオートメーション技術を軸にグローバルで事業展開を行うバベルは8月24日、東京大学大学院工学系研究科齊藤研究室(東京大学 齊藤研究室)と、誰でも参加可能なAIエンジニアコミュニティ「AI Automation Lab」(AIオートメーション・ラボ)を設立。日本語学習済みAIモデルのオープンソースソフトウェア(OSS)化を前提とする日本語音声書き起こし・会話の解析技術の共同研究を開始したと発表した。ベースとなるモデルとして、音声認識フレームワーク「wav2vec 2.0」を利用し、日本語に合わせて調整する。

wav2vec 2.0と呼ばれる書き起こしのモデルは、大規模なラベルなしデータを利用した事前学習を行うことで、少数のラベル付きデータセットでも高精度の書き起こしが可能という。日本語のような少数派の言語では、大規模なラベル付きデータを学習に利用することが困難な状況なものの、wav2vec 2.0はまさにそのような状況にある言語に適しているとした。

AI Automation Labには、connpass上の「AI Automation Lab(AI オートメーション・ラボ)」より参加できる。

昨今「音声書き起こし」に関する技術は全世界で著しく発展しており、英語や中国語を中心とした各国の言語に対して、wav2vec 2.0などの最新の学習済みAIモデルがOSSで公開され、それらを活用した最新のAIプロダクトが数多く開発されている。

一方日本においては、言語の壁の影響により関連するAI技術発展に乗り遅れ、最新のAI技術の恩恵を享受できていないという課題が存在しているという。情報処理推進機構(IPA)「AI白書2020」によると、すでにAIを導入している企業は4.2%、AI導入に興味はあるがまだ導入していない企業は78.3%という。

今後、最新のディープラーニング・モデルを日本語で扱うためには、莫大なGPUコストと時間のかかる日本語の追加学習が必要となり、その開発には一定の研究規模や開発環境が求められる。

そこで今回、東京大学 齊藤研究室とバベルが共同でAIエンジニアコミュニティAI Automation Lab(AIオートメーション・ラボ)で研究開発を行うことで、その開発の知見を日本で活躍するAIエンジニア・AI技術開発に携わる方々と共有し、さらにその成果となる日本語学習済みモデルをOSSとして無料公開することで、広く日本語ユーザーが最新AIモデルの恩恵を受けられる環境作りに貢献する。学術研究を含めて日本のAI分野の発展に寄与するとしている。

東京大学 齊藤研究室は、物理学と応用物理学の両者にまたがる量子物性の最先端の開拓を標榜し、次世代電子技術の基本物理原理を築く先端研究と世界で活躍する人材の輩出で科学技術と社会に貢献。スピントロニクス、量子ナノ系の研究に加え、最近では量子物理と情報物理を応用した新しいAI科学領域の研究を行っている。

バベルは、「世界中の人々の役に立つ事業を創り続ける」というミッションのもと、AI オートメーションを軸にユーザーエンゲージメントを最大化させ、ステークホルダー全員に感動を届ける事で世界をより良くするためにグローバルに事業展開している。

コンピュータビジョンとAIで服のフィット感をより正確に見られる仮想試着室「Revery.ai」

ウェブサイトで洋服のサイズやフィット感を確認する作業は、時としてオンラインショッピングの楽しみを奪ってしまう。そこでRevery.aiは、コンピュータビジョンとAIを活用したツールを開発し、より良いオンラインドレッシングルーム体験を実現しようとしている。

イリノイ大学Center for Computer ScienceのアドバイザーであるDavid Forsyt(デビッド・フォーサイス)博士の指導のもと、博士課程の学生であるKedan Li(ケダン・リー)氏、Jeffrey Zhan(ジェフリー・チャン)氏、Min Jin Chong(ミン・ジン・チョン)氏からなるチームは、既存のカタログ画像を利用して、従来のバーチャルドレッシングルームでは困難であった、毎週100万着以上の規模の処理を行う初めてのツールを作成しているとリー氏はTechCrunchに語った。

Revery.aiの共同ファウンダーのジェフリー・チャン氏、ミン・ジン・チョン氏、ケダン・リー氏(画像クレジット:Revery.ai)

カリフォルニアを拠点とするReveryは、Y Combinator(Yコンビネータ)の2021年夏のコホートに参加しており、8月末のプログラム終了を目指している。YCは、同社に12万5000ドル(約1370万円)投資している。リー氏によると、同社はすでに2年間のランウェイを持っているが、150万ドル(約1億6500万円)のシードラウンドを調達することで成長を加速させ、大手小売業者に対してより成熟した企業であることをアピールしたいと考えているという。

Reveryの前には、リー氏はパーソナライズされたメールの分野で別のスタートアップに取り組んでいたが、すでに大手レガシー企業の無料版があったため、うまく機能させることができなかった。独占が少なく、テクノロジーを収益化できる分野を探していたところ、ファッションに興味を持ったという。別のアドバイザーと協力してワードローブコレクションを始めたが、そのアイデアは頓挫してしまった。

チームは、フォーサイス教授との共同作業でエンジンがかかり、すでにウェブサイトに画像を掲載しておりユーザーはいるが、コンピュータビジョンの側面を求めていたB2B顧客をターゲットに、技術のイテレーションを数回行っている。

多くの競合他社は、3Dモデリングや画像を手作業で加工してモデルに重ね合わせる方法を採用しているが、Reveryはディープラーニングとコンピュータビジョンを活用することで、服のドレープ性を高め、さらにユーザーは肌のトーンや髪型、ポーズなどをカスタマイズして自分に似せたモデルを作ることができる。また、完全に自動化されており、何百万ものSKUを扱うことができ、数週間で顧客に提供することができる。

同社のバーチャルドレッシングルームは現在、東南アジア最大級のファッション企業であるZalora-Global Fashion Groupを含む多くのファッションECプラットフォームで利用されている、とリー氏はいう。

Revery.aiランディングページ(画像クレジット:Revery.ai)

「こんなに良い結果が出ているのはすごいことです」と彼は付け加えた。「お客様からは、3〜5倍といった、これまでになかったような高いコンバージョン率の報告を受けています。ZaloraでABテストを行ったところ、380%の増加が見られました。これから当社の技術をZaloraのすべてのプラットフォームに展開していくことを大変うれしく思っています」。

この技術は、2020年、パンデミックの影響でオンラインショッピングが急増した時期に登場した。米国だけでも、2020年にはファッションリテール売上高の29.5%をeコマースファッション業界が占めており、2021年に同市場の価値は1000億ドル(約11兆円)に達すると予想されている

Reveryは「オンラインレースで勝つためのロードマップにこれを入れている」40社以上のリテーラーとすでに交渉中です、とリー氏はいう。

同社はこれからの1年、より多くの顧客に採用され、本番運用を開始することに焦点を当てている。競合他社との差別化を図るために、リー氏は、リテーラーから求められているボディタイプ機能を搭載したいと考えている。このような技術は、多様な体型のモデルがあまり存在しないため、難度が高いと彼は語った。

Reveryがユーザーにアバターを作成して服の見え方を確認できる機能を提供するためには、自社で独自のデータを収集する必要があると同氏は考えている。

「もしかしたら今見ているのは実際に大きな波の始まりで、そのニーズに応える適切な製品を私たちは持っているのかもしれません」と彼は付け加えた。

関連記事
スニーカー特化フリマ「スニーカーダンク」運営が約62億円調達、「モノカブ」を買収しグローバル展開を加速
グッチがRobloxとの新パートナーシップで2週間限定の仮想空間とデジタルアイテムを提供
ファストファッション「SHEIN」がアマゾンを抜き米国で最もインストールされたショッピングアプリに
画像クレジット:Getty Images

原文へ

(文:Christine Hall、翻訳:Aya Nakazato)

ソフトバンクの人型ロボット「Pepper」が「りんな」を手がけるrinnaのAI会話エンジン最新版を採用

ソフトバンクの人型ロボット「Pepper」が「りんな」を手がけるrinnaのAI会話エンジン最新版を採用

rinnaは8月20日、法人向けAIチャットボット開発プラットフォーム製品「Rinna Character Platform」新バージョンが、ソフトバンクロボティクスのヒューマノイドロボット「Pepper」(ペッパー)に採用されたと発表した。

rinnaは、MicrosoftのAI&リサーチ部門でAIチャットボットの研究を行っていたチームがスピンアウトして2020年6月に設立したAI開発企業。ディープラーニング技術を活用し、AIが文脈に応じた会話文を自動生成して人間と自然に会話する「共感チャットモデル」、AIが話し声や歌声で豊かに感情表現することを可能にする「音声合成システム」などの技術を発表してきた。これら技術は、rinnaが運営するLINE上のAIチャットボット「りんな」、法人向けAIチャットボット開発プラットフォーム製品「Rinna Character Platform」に応用されている。

Rinna Character Platformは、会話内容や音声表現をカスタマイズしてキャラクター性を持たせたAIチャットボットを開発可能。2021年春リリースの新バージョンでは、新開発のチャットエンジン「Style Transfer Chat」(STC)を使用することで、大規模会話データから構築した事前学習済みモデルに、作り上げたいキャラクターの性格や口調を反映した少量の会話データを追加学習させるだけで、キャラクター性を反映した自由会話が可能という。

また新バージョンでは、外部サービスと柔軟に連携でき、WebHookフィルターを利用しユーザーが自由に機能を拡張可能。カスタム機能はどのような言語でも開発可能という。カスタム機能とチャットボットのサーバーを分離し、チャットボットの各モジュールを小さくシンプルにすることで、耐障害性とセキュリティも向上させた。

ソフトバンクロボティクスのPepperでは、2019年からRinna Character Platformを採用しているという。同新バージョンの最新チャットモデルの効果により、Pepperの会話機能が向上し、Pepperが提供するサービスの顧客満足度が高まることが期待されるとしている。また、Rinna Character Platformの新しいアーキテクチャによってシステムの導入が容易になるとともに運用効率と耐障害性が向上し、自由会話のAIチャットボットをより低コストで安定したサービスとして提供できるようになるとした。

衛星データプラットフォームTellusが衛星データとAI画像認識技術による駐車場検知ツール「Tellus VPL」α版を無料提供

衛星データプラットフォームTellusが衛星データとAI画像認識技術による駐車場検知ツール「Tellus VPL」α版を無料提供

さくらインターネットは8月19日、衛星データとAI画像認識技術を活用して駐車場として利用できそうな場所を検出するツール「Tellus VPL」のα版を、衛星データプラットフォーム「Tellus」(テルース)の公式ツールとして、無料提供を開始した。

同ツールは、さくらインターネットのほか、ディープラーニングをはじめとするAI技術で課題を解決するRidge-i(リッジアイ)、駐車場予約アプリ「akippa」を運営するakippa(アキッパ)の3社で研究開発した。

衛星データプラットフォームTellusが衛星データとAI画像認識技術による駐車場検知ツール「Tellus VPL」α版を無料提供

「Tellus VPL」の新規駐車場用スペース解析結果イメージ画像

衛星データから駐車場として活用できそうな空き地などを見つけ出す同ツールは、空いている月極や個人の駐車場、空き地などを駐車場として一時利用するシェアリングサービスを展開するakippaの提案から生まれた。通常は、そうしたスペースを足で探さなければならず、大変な労力とコストがかかる。そこで、さくらインターネットがプロジェクトの取りまとめと衛星データの提供を、Ridge-iが機械学習とディープラーニング技術を使った候補地検出プログラムの開発を担当し、開発を進めた。akippaは、このツールの本格活用に向けて駐車場開拓パートナーとの連携を進めることにしている。

このツールが利用できるTellusは、さくらインターネットが経済産業省の「政府衛星データのオープンアンドフリー化・データ利活用促進事業」として開発・運用を行う日本初の衛星データプラットフォーム。衛星データの提供のほか、衛星データを活用するためのツールや関連コンテンツなども提供している。実際にこれを使って駐車場候補地が検出されているかを検証した記事が、Tellus公式メディア「宙畑」(そらばたけ)に掲載されている。衛星データプラットフォームTellusが衛星データとAI画像認識技術による駐車場検知ツール「Tellus VPL」α版を無料提供

さくらインターネット、Ridge-i、akippaは、「Tellus VPL」の改良を重ね、衛星データの実用化に向けて取り組んでゆくと話している。

関連記事
さくらインターネットが石狩データセンターの主要電力をLNG発電に変更、年間CO2排出量の約24%にあたる約4800トン削減
衛星データで耕作放棄地の把握や土壌解析を行い農業課題解決に取り組むサグリが約1.55億円調達
新型コロナウイルスのワクチン接種会場や大規模接種センター周辺の駐車場を予約できる特設ページが公開
次世代地球観測プラットフォーム「AxelGlobe」構築目指すアクセルスペースが約25.8億円のシリーズC調達
「宇宙ビッグデータ米」が2021年中に販売予定、宇宙領域の天地人・農業IoTの笑農和・米卸の神明が栽培着手
AI・ディープラーニング技術のコンサルティングと開発を手がけるリッジアイが7.8億円を調達

カテゴリー:宇宙
タグ:akippa(企業・サービス)画像解析(用語)さくらインターネット(企業・サービス)人工衛星(用語)ディープラーニング / 深層学習(用語)リッジアイ(企業)日本(国・地域)

特別なハードウェアを使わずに誰でもAIの開発ができるようにするThirdAIの技術

ヒューストンに拠点を置くThirdAI(サードAI)という企業は、GPU(グラフィックス・プロセッシング・ユニット)のような特殊なハードウェアを必要とせずに深層学習技術を高速化するツールを構築している。同社はシード資金として600万ドル(約6億6000万円)を調達した。

Neotribe Ventures(ネオトライブ・ベンチャーズ)、Cervin Ventures(セルヴァン・ベンチャーズ)、Firebolt Ventures(ファイアボルト・ベンチャーズ)が共同で主導したこの出資は、従業員の増員とコンピューティングリソースへの投資に使用すると、Third AIの共同創業者でCEOを務めるAnshumali Shrivastava(アンシュマリ・シュリヴァスタヴァ)氏はTechCrunchに語った。

数学の素養があるシュリヴァスタヴァ氏は、もともと人工知能や機械学習に興味があり、特にAIをより効率的に開発する方法について再考していた。それはライス大学に在籍していた時に、AIでディープラーニング(深層学習)をどうやって実行するかについて検討したことがきっかけだった。そして2021年4月、同氏はライス大学の大学院生たちとThirdAIを起ち上げた。

ThirdAIの技術は「深層学習へのよりスマートなアプローチ」を目的に開発されたもので、大規模なニューラルネットワークを学習させる際に、アルゴリズムとソフトウェアの革新的な技術を用いて、汎用の中央処理装置(CPU)をGPUよりも高速に機能させることを目指していると、シュリヴァスタヴァ氏はいう。多くの企業は何年か前にCPUを放棄し、高解像度の画像や動画をより迅速に同時レンダリングできるGPUを用いるようになっている。しかし、GPUにはあまり多くのメモリが搭載されていないため、ユーザーがAIを開発しようとすると、ボトルネックになることが多いとシュリヴァスタヴァ氏は語る。

「深層学習の状況を見ると、技術の多くは1980年代から使われているものであり、市場の大部分、約80%がGPUを使用し、高価なハードウェアと高価なエンジニアに投資して、AIの魔法が起こるのを待っているのです」と、同氏は続けた。

シュリヴァスタヴァ氏と彼のチームは、将来的にAIがどのように開発されていく可能性が高いかを検討し、GPUに代わるコストを抑えた方法を生み出したいと考えた。彼らのアルゴリズム「サブリニア・ディープラーニング・エンジン(劣線形深層学習エンジン)」は、専用のアクセラレーション・ハードウェアを必要としないCPUをGPUの代わりに使用する。

Neotribeの創業者兼マネージングパートナーであるSwaroop “Kittu” Kolluri(スワループ・”キットゥ”・コルリ)氏は、この種の技術はまだ初期段階にあると述べている。現行のやり方は手間とコストと時間がかかる。例えば、より多くのメモリを必要とする言語モデルを実行している会社では問題が発生するだろうと、同氏は続けた。

「そこにThirdAIの出番があります。今までできなかったことが可能になるのです」と、コルリ氏は語る。「それが、我々が出資しようとした理由でもあります。コンピューティングだけでなく、メモリも含めて、ThirdAIの技術は誰でもそれができるようにします。ゲームチェンジャーになるでしょう。深層学習に関する技術がもっと洗練されるようになってくれば、可能性は無限に広がります」。

AIはすでに、ヘルスケアや地震データ処理など、最も困難な問題のいくつかを解決する能力を備えた段階にあるが、AIモデルの実行が気候変動に影響を与えるという問題もあると、同氏は指摘する。

「深層学習モデルを訓練することは、1人で5台の自動車を所有するよりもコストがかかります」と、シュリヴァスタヴァ氏は語る。「AIの拡大に向けて、我々はそういうことについても考える必要があります」。

関連記事
OpenAIが自然言語AIコーダーのCodexをアップグレード、プライベートベータを開始
一般的なAIモデルを10分の1に圧縮できるというLatent AIが約21億円調達、IoT、エッジAIへの活用に期待
異音検知プラットフォームや議事録自動作成システムを手がける音声認識AIスタートアップ「Hmcomm」が4.2億円調達

カテゴリー:人工知能・AI
タグ:ThirdAI人工知能深層学習資金調達機械学習

画像クレジット:Jeff Fitlow/Rice University

原文へ

(文:Christine Hall、翻訳:Hirokazu Kusakabe)

サブウェイ店舗でAIが表情・視線を基にメニュー提案、OKIがAI用いた感情推定技術を活用した提案型注文システムの実証実験

サブウェイ店舗でAIが表情・視線を基にお勧めメニュー提案、OKIがAI用いた感情推定技術を活用した提案型注文システムの実証実験

OKI(沖電気工業)と日本サブウェイ(サブウェイ)は8月2日、OKIの「AIを用いた感情推定技術」(感情AI技術)を活用した「提案型注文システム」の実証実験を開始したと発表した。場所はサブウェイ渋谷桜丘店。検証期間は2021年8月6日まで。同実証実験では、注文客の興味・関心が高そうな「オススメ」メニューを提案して注文時の迷いを軽減する機能の有効性と、店舗における接客業務の効率化、さらにウィズコロナ時代に求められる非対面・非接触操作による注文の有用性を検証する。

実証実験の概要

  • 目的:興味・関心推定技術を用いた提案型注文システムの有効性の検証
  • 期間:2021年8月2日~6日
  • 場所:サブウェイ 渋谷桜丘店
  • 実施方法:当該システムの使用後、アンケート回答
  • 実験参加者:当日募集(先着順)

感情AI技術は、深層学習(ディープラーニング)を用いて、人の自然な表情や振る舞いから潜在的な感情を推定する技術という。提案型注文システムは、OKIの接客支援ミドルウェア「CounterSmart」搭載の感情AI技術の1つ「興味・関心推定技術」を用い、セルフ注文端末のカメラから得た表情データと視線センサーから得た視線データから、独自のアルゴリズムにより、注文客の興味・関心が高そうな「オススメ」メニューを提案し注文をサポートする。

注文客にとっては、メニュー選択の迷いを解消できることに加えて、注文方法がわからないことによる焦り・緊張の緩和、また店舗スタッフにとっては、注文時間の短縮とスムーズな注文による生産性向上、ストレス軽減などが期待できるといしている。

同実証実験では、サブウェイの実店舗において、実験に同意した来店客に実際に注文をしてもらい、その使用感をアンケートにより収集して、サブウェイの注文スタイルに不慣れな場合でも容易に、かつ非接触操作で安心して注文ができるかを検証する。また1人あたりの接客対応時間の短縮など、効率化を検証するとしている。

OKIは、注文を完全に自動化した端末において、視線入力や音声入力などを組み合わせた非接触対応を実現することで、ウィズコロナ時代における感染症予防の「新常態」に適応した新しい接客サービスの提供を目指す。引き続きAIを用いた感情推定技術の社会実装に取り組み、少子高齢化による労働力不足、感染症予防など、社会課題解決に貢献するとしている。

なお同実証実験については、横浜国立大学、自然科学研究機構生理学研究所、エヌ・ティ・ティ・データ経営研究所(NTTデータ経営研究所)を中心とした「生理学研究所COIサテライト拠点」活動の下で研究開発を進めているものという。同実証実験における各機関の役割は以下の通り。

  • OKI:感情推定技術を活用した提案型注文サービスの研究開発、プロトタイプの開発
  • サブウェイ:実証実験協力店舗の調整、提案型注文サービスの監修
  • NTTデータ経営研究所:OKI×サブウェイのマッチング、COI STREAM研究開発成果の社会実装支援

生理学研究所COIサテライト拠点は、文部科学省「革新的イノベーション創出プログラム」(COI STREAM)の研究開発拠点「精神的価値が成長する感性イノベーション拠点」のサテライト拠点のひとつ。

関連記事
著名人対象に公式3D CGモデル「デジタルツイン」を制作・管理・キャスティングするサービス開始、2023年までに500人制作
オリィ研究所の分身ロボット「OriHime」に新製品、自走可能で接客・誘導も行える拡張版「OriHime Porter」登場
UsideUのアバター採用遠隔接客ツール「TimeRep」がNTTドコモの5Gソリューションとして採択
AIチャットボット「りんな」のrinnaとUneeQを日本展開するデジタルヒューマンが協業、顔・声・視聴覚を持つ雑談AI実現
高さ2mの65型有機ELディスプレイで等身大のAIキャラによる接客実現、Gateboxが法人向け大型召喚装置
少人数で多拠点の遠隔接客を実現する「RURA」運営のタイムリープが1.8億円調達
レブコムがオンライン商談の会話をAIにより解析・可視化する新サービス「MiiTel Live」開始

カテゴリー:人工知能・AI
タグ:AI / 人工知能(用語)OKI / 沖電気工業(企業)コンピュータービジョン(用語)ディープラーニング / 深層学習(用語)日本サブウェイ(企業)日本(国・地域)

動画コンテンツを「読み取る」ことで、より効率的な検索を可能にするAnyClip

動画は昨今、世界をオンラインへ移行させている原動力といって差し支えなく、実際に2021年のIPトラフィックの82%を占めると予想されている。2021年5月下旬、その大量の動画コンテンツをより適切に解析し、インデックスを作成し、検索するための一連のツールを開発してきたスタートアップが、大規模な資金調達ラウンドについて発表した。2020年600%の成長率を見せたこのスタートアップは、さらなる事業拡大を目指している。

AnyClipは、コンテンツプロバイダーが動画の使用方法や視聴方法を改善できるよう、人工知能と標準的な検索ツールとを組み合わせたより優秀な動画検索ツールを彼らに提供している。このAnyClipが、自社プラットフォームを構築するための資金として、4700万ドル(約51億3000万円)を調達した。

この資金調達はJVP、Maison、Bank Mizrahiが主導し、内部投資家も参加して行われた。同社は評価額を公表していないが、現在までに7000万ドル(約76億4000万円)を調達しており、信用できる筋からの情報によると、評価額は約3億ドル(約327億5000万円)相当と考えられる。

テルアビブで創設され、ニューヨークにも拠点を置いているAnyClip。同社が現在取り組んでいるのは、社会に大量に出回っている動画への対処である。一般消費者がNetflixシリーズを観たり、YouTubeにあるクラッシック音楽を探そうとしたり、ビジネスユーザーがZoomで会議をしたり、といったように動画は最も多く利用されているコンテンツメディアの1つである。問題は、ほとんどの場合、人々が検索する際に表面的な検索しかしていない点である。

これは、ホストがアルゴリズムを微調整し、視聴者が他の動画よりもある動画を観るように仕向けている、といったことだけが原因ではない。ほとんどの場合、すべてを効率的な方法で検索するのは非常に困難だからであり、それは不可能だ、という人もいるほどである

AnyClipは、これを不可能ではないと考えているテック企業の1つである。コンピュータービジョン、NLP、音声からテキストへの変換、OCR、特許取得済みのキーフレーム検出、クローズドキャプションに基づくディープラーニングモデルなどのテクノロジーを活用し、動画のコンテンツを「読み取る」ことで、人、ブランド、製品、行動、何百万というキーワードを認識し、動画の内容に基づいて分類法を構築可能だ。これらは、コンテンツカテゴリ、ブランドセーフティー、あるいはユーザーの要求に基づいて行うことができる。

AnyClipは現在、AWSでAnyClip自身がホストしている動画を対象に作業を進めており、社長兼CEOのGil Becker(ジル・ベッカー)氏によると読み取りとインデックス化のプロセスは「リアルタイムの10倍」という驚異的な速さである。

この結果得られるデータおよびそれがどのように使用されるかについては、ご想像の通り、さまざまな潜在的用途がある。現在、ベッカー氏は、AnyClipは、さまざまなユースケース(社内用、B2B用、または一般消費者が動画を発見しやすくするためなど)で動画を効率よく整理する方法を探している顧客から強い支持を得ていると述べた。

上記の説明が示すように、このテクノロジーは当然、効果的に動画から収益を得るためにも使用できる。AnyClipは動画の中のオブジェクト、テーマ、ムード、言語をより多くより効果的に特定することで、人々が効果的に動画を発見できるようにするだけではなく、広告主が望むところに広告を配置することが可能なフレームワークを構築することができる(あるいは反対に、関係づけられたくないコンテンツを避けることもできる)。

AnyClipが連携している企業は、Samsung、Microsoft、AT&T、Amazon(Prime Video)、Heineken、Discovery、Warner Media(the latter two soon to be one)、Tencent、Internet Brands、Googleなど、錚々たる顔ぶれだ(ただし、ベッカー氏はこれらの顧客に対しどのようなサービスを提供しているかは明かさなかった)。

AnyClipはGoogleを自社への投資家とは考えていないが、Google News Initiativeのイノベーションの一環として 資金提供を受けてはいる。これは、AnyClipのAIに支えられた高度な動画管理ツールを用いながら、今日最も人気のあるビデオオンデマンドサービスの機能とデザインを模倣する、メディア企業向けのストリーミングビデオページエクスペリエンスの構築を目指すものだ。AnyClipは、企業がチャネルやサブチャネルを作成し30秒未満でライブラリを「NetflixやYouTubeのような」ライブラリに変換できるソリューションとして、数多くの企業の中から選ばれた。

AnyClipが、どのように現在取り扱っている検索および発見ツールの開発に至ったのかについては、興味深い経緯がある。AnyClipは2009年に同社の社名の由来にもなっているコンセプトで創設された。これはメディア企業が映画クリップを作成し、AnyClip自身のサイトでホストするインターネット上でシェアできるサービスで、これらのクリップはAnyClipのアルゴリズム、社員、および寄稿者によって構築された数多くの分類法を使用して検索することができた。これは、いうなればGiphyが登場する前の、類似のサービスであった。

しかし、そのサービスの登場はあまりに早すぎた。当時は著作権侵害が依然として大きな問題であり、Netflixesなど効率のよい合法なストリーミングサービスは存在せず、そのアイディアは複雑過ぎて、権利保持者に購入してもらうのは難しいことがわかった。そこでAnyClipは動画ベースの広告ネットワークの構築に軸足を移したのだが、これまた時期尚早であることがわかったのだ。

しかし、場所や時代が適切であれば、そのテクノロジーには見るべきものがあり、それでこそ、今日AnyClipは現在の立ち位置にあるといえる。同社は特許を保持しており、開発チームはそのテクノロジーを引き続き拡充している。これによりAnyClipは、Kaltura、Brightcoveなどの競合他社を引き離していると考えている。しかし当然のことながら、同市場におけるビジネスチャンスは非常に大きいため、競争がすぐになくなることはないだろう。

しかしAnyClipがこれまでの12年間で得てきた資金が3000万ドル(約32億円)という控えめなものだったことを考えると、現在のAnyClipの急成長は、同社が競合他社に打ち勝つ能力だけでなく、帯域幅とリソースを大量に消費する媒体と見なされている領域において資本効率を高める能力をも備えていることを物語っている。

「企業は動画を使ってメッセージやアイデンティティを伝えますが、その方法に革命が起ころうとしています」とJVPの創設者件会長でAnyClipの取締役会長であるErel Margalit(エレル・マーガリット)氏はいう。「動画に初めてAIが利用されます。企業や組織は、社内外を問わず、動画が文字よりも優勢なあらゆる領域で、これを利用し新しい形のコミュニケーション方法を確立しようとしています。彼らは一般消費者向けの動画や組織向けのトレーニング動画をどのように作成するか、あるいはコンテンツの取得にインテリジェントな管理が必要となるZoomでの会議の管理などに取り組もうとしています。新しい時代がやってきました。AnyClipはそういった取り組みに着手する人々にとって必須のツールなのです」。

関連記事
TC Early Stage Pitch-Offで優勝したVyrillはブランドがユーザーによる動画レビューを発見・活用をサポート
YouTubeの動画レコメンドAIは依然として悪行を重ねていることが大規模調査で判明
初期YouTubeも支えたオンラインビデオプラットフォームの老舗JW Playerは今もビジネスの最前線にいる

カテゴリー:人工知能・AI
タグ:AnyClip資金調達動画コンピュータービジョンディープラーニング

画像クレジット:AnyClip

原文へ

(文:Ingrid Lunden、翻訳:Dragonfly)

500円・約15分間の収録で自分の声によるAI音声合成を可能にする「CoeFont CLOUD」が先行公開を開始

500円・約15分間の収録で自分の声によるAI音声合成を可能にする「CoeFont CLOUD」が先行公開を開始

東京工業大学2年生で19歳の早川尚吾氏が設立し、社長を務めるAI音声合成スタートアップYellston(エールストン)は7月19日、1回の料金500円で約15分間の収録を行えば、AIが自分の声を音声合成用の声のフォント「CoeFont」(コエフォント)に変換してくれるサービス「CoeFont CLOUD」の先行リリース開始を発表した。

2020年11月設立のYellstonは、「CoeFont Studio」(コエフォントスタジオ)を2021年4月にリリースした。デジタルキャラクターや著名人の声でテキストの読み上げをさせることができるサービスだ。リリースから3日で5万人のユーザー数を獲得、月間ユーザー数は20万人に達したという。凪白みとのイラストで、浅木ゆめみが声を提供しているAllial(アリアル)とMillial(ミリアル)という双子キャラクターの声は無料で試すことができ、すでに二次創作などに多く利用されているそうだ。

CoeFont Cloudは、それを自分の声で行えるというもの。自分の声のフォントを公開できるが、「CoeFont Official」を利用すれば、気象予報士の森田正光、野球解説の藪恵壹などの著名人や声優の声フォントを自分の作品に使うこともできる。公開された声は、利用された場合に文字数に応じて本人に料金が支払われる。

このサービスの特徴は、文脈からアクセントを予測し、深層学習で自然な音声合成を行うところにある。ウェブサービスなので利用環境を選ばず、アクセントや速度の編集などすべてがウェブ上で行える。公開範囲は設定によって限定が可能。テキストを読み上げた音声はダウンロードして、オーディオブックや動画のナレーションなどに利用できる。さらに、APIが提供されるので、アプリに組み込んでコメントを読み上げるなどの活用が可能になる。自分の声が悪用される心配があるが、放送禁止用語や汚い言葉は合成できないように配慮されている。

音声作品の制作のみならず、声帯の切除手術を予定しているガン患者が、事前に自分のCoeFontを作っておき、後にそれを使って会話をするという利用法も、すでに実施されているという。

「CoeFont Cloud」は現在、先行体験期間中。先行利用には「CoeFont CLOUD先行利用申請」での申請が必要で、Yellstonが利用できる人を選考する仕組みになっている。

今後も、より自然に、精度の高い音声合成を目指して、これからも研究を重ねてゆくとのことだ。

関連記事
Twitterが音声ツイートに自動文字起こし機能追加、社内にアクセシビリティ専門チームを用意し取り組む
人と間違えるほど自然な合成音声を高速で作成するツールをWellSaid Labsが開発
質と量で世界初、工学院大学が約6360手話単語と10テーマ10件の対話を収録した高精度3D日本手話データベースを提供開始
生命保険の約款や学校教材における漢字の誤読を低減、正確なイントネーションで音声合成を自動生成するAIシステム
AIチャットボット「りんな」のrinnaとUneeQを日本展開するデジタルヒューマンが協業、顔・声・視聴覚を持つ雑談AI実現
日本語音声合成向けに東京式アクセントを自動推定する自然言語処理ソフト「tdmelodic」がオープンソース化

カテゴリー:ネットサービス
タグ:Yellston(企業)音読(用語)合成音声(用語)ディープラーニング / 深層学習(用語)東京工業大学(組織)日本(国・地域)

【コラム】深層強化学習は私たちが知る製造業を変革する

編集部注:Chris Nicholson(クリス・ニコルソン)氏は、深層強化学習を産業オペレーションとサプライチェーンに適用する企業であるPathmindの創業者兼CEO。

ーーー

通りを歩きながら、目に入るものすべての名前を大声で叫んでみたとしよう。「ごみ収集車!」「競輪選手!」「プラタナスの木!」  多くの人は、そんなあなたを特に賢いとは思わないだろう。一方で、例えば障害物コースを通るときに、一連の障害をうまく切り抜けて無傷で最後までたどり着く方法を示したなら、人々の評価は変わってくるはずだ。

ほとんどの機械学習アルゴリズムは、街中で名前を連呼するようなものである。人間が1秒たらずで行えるような知覚的な作業を実行する。しかし、もう1つのAIである「深層強化学習」は、戦略的なものだ。目標を達成するための一連のアクションを実行する方法を学習する。これはパワフルかつスマートな手法であり、多くの業界を変革しようとしている。

AIトランスフォーメーションの最前線にある2つの業界は、製造とサプライチェーンだ。物を作り、出荷する方法は、協働する機械群に大きく依存しており、その機械の効率性とレジリエンスは、経済と社会の基盤となっている。それがないと、生活や仕事に必要な基本的な物を手に入れることができなくなる。

CovariantOcado傘下のKindredBright Machinesなどのスタートアップは、機械学習と強化学習を用いて工場や倉庫での機械の制御方法を改変し、ロボットにさまざまな大きさや形の物体をビンの中から検出して拾わせるなど、極めて難易度の高い課題を解決している。これらの企業はまさに巨大な市場に挑んでおり、2020年には産業用制御および自動化市場は1520億ドル(約16兆7530億円)、物流自動化市場は500億ドル(約5兆5110億円)を超える価値を示した。

技術者としては、深層強化学習を機能させるには多くのことを行う必要がある。最初に考えるべきことは、どのようにして深層強化学習エージェントに、求めるスキルを実践させるかだ。これには、実際のデータを活用する方法と、シミュレーションを使用する方法の2つの手法のみ存在する。各アプローチにはそれぞれ独自の課題がある。データは収集して整理する必要があり、シミュレーションは構築して検証することが求められる。

いくつかの例を挙げて、これが何を意味するかを示そう。2016年、Google Xはロボットの「Arm Farm」を公開した。モノをつかむことを学び、他者にも同じことを教える、複数のロボットアームで満たされた空間である。これは、強化学習アルゴリズムが実際の環境で動きを練習し、動作の成功を測定するための初期の方法の1つだった。このフィードバックループは、目標指向アルゴリズムの学習に欠かせないものである。つまり、連続的な決定を行い、その決定が導く対象を把握することが必要だ。

多くの場合、強化学習アルゴリズムが学習できる物理環境を構築することは現実的ではない。複数の工場から数多くの小売店に商品を輸送する数千台のトラック群をルーティングするための、異なる戦略をテストすることを想定しよう。可能なすべての戦略をテストするには莫大な費用がかかるだけでなく、実行に失敗した場合、多くの顧客に不利益をもたらしかねない。

多くの大規模システムにとって、最適なアクションパスを見つける唯一の方法はシミュレーションを使用することである。その際、データ強化学習のニーズを生成するために、理解したい物理システムのデジタルモデルを作成する必要がある。これらのモデルは、デジタルツイン、シミュレーション、強化学習環境とも呼ばれるものだ。これらはすべて、製造とサプライチェーンの用途において、本質的に同じことを意味する。

物理システムを再作成するには、システムの動作を理解しているドメインエキスパートが必要である。このことは、単一のフルフィルメントセンターのような小規模システムでは困難な課題となり得る。というのも、システムを構築した人々が退職していたり、あるいは亡くなっている可能性があり、後継者はシステムの運用方法は習得しているものの、再構築は行っていないからだ。

多くのシミュレーションソフトウェアツールは、ドメインエキスパートによる物理システムのデジタルモデル作成を可能にする、ローコードのインターフェイスを提供する。ドメインの専門知識とソフトウェアエンジニアリングのスキルを同じ人物が兼ね備えることは難しいため、これは重要である。

なぜ1つのアルゴリズムにこれほどの労力がかかるのだろうか。つまるところ、深層強化学習は、他の機械学習や最適化ツールでは実現し得ない結果を一貫して生成するからである。DeepMindも当然ながら、囲碁の世界チャンピオンを倒すために深層強化学習を使用した。強化学習は、チェス、タンパク質フォールディング、Atariのゲームにおいて、画期的な成果を達成するために不可欠なアルゴリズムの一部となった。同様に、OpenAIは「Dota 2」で、最高水準の人間チームに勝利するための深層強化学習を訓練した。

Geoffrey Hinton(ジェフリー・ヒントン)氏がGoogleに、Yann LeCun(ヤン・ルカン)氏がFacebookに入社した後の2010年代半ばに、深層人工ニューラルネットワークがビジネス用途を開拓し始めたように、深層強化学習も業界に大きな影響を与えるようになるだろう。囲碁で見たのと同じように、ロボットの自動化とシステム制御の飛躍的な向上がもたらされ、我々の持っている中で最高の、しかも他と大きくかけ離れたものになることが大いに期待される。

その恩恵を受けて、製品の製造とサプライチェーンの運用における効率性とコスト削減が大幅に促進され、炭素排出量と労働災害の低減につながっていくだろう。明らかに物理的世界の難問や課題は、我々の周りに存在している。2020年だけでも、新型コロナウイルス(COVID-19)、ロックダウン、スエズ運河の崩壊、異常気象によって、社会は複数のサプライチェーンの混乱に見舞われた。

新型コロナに着目すると、ワクチンが開発され承認された後も、多くの国でその製造や迅速な供給が困難になっている。これらは、過去のデータでは対応できない製造やサプライチェーンの問題だ。何が起こるかを予測するシミュレーションと、危機が発生したときに最善の方法で対処するためのシミュレーションが必要だったと、Michael Lewis(マイケル・ルイス)氏は最近の著書「The Premonition」の中で指摘している。

まさにこのような、工場やサプライチェーンで発生する制約と新たな課題の組み合わせにこそ、強化学習とシミュレーションがより迅速な解決をもたらすのである。そして、我々は将来、その数々のブレイクスルーを目にすることになるだろう。

関連記事
宇宙船や先進的製造の未来をより良くより早く実現する工場を建設するHadrian
新しいコンセプトのロボティクスに挑むRapid Roboticsが13.2億円調達
製造業を立て直すために米国は中小企業技術革新研究プログラムを強化せよ

カテゴリー:人工知能・AI
タグ:機械学習深層学習強化学習コラム製造業サプライチェーン

画像クレジット:rozdemir01 / Getty Images

原文へ

(文:Chris Nicholson、翻訳:Dragonfly)

ウォールマートのグローサリー配達用AIがより賢くなっている

新型コロナウイルスによるパンデミックが買い物方法、特にグローサリーの買い方を変えたのは驚きではない。グローサリー配達アプリのダウンロード数は2020年3月に過去最多を記録し、同年4月にはWalmart Grocery(いまはWalmartアプリに統合されている)がAmazon(アマゾン)を抑えてGoogle PlayとApp Storeの買い物アプリランキングで1位になった。しかしパンデミックによる規制が緩和されても、消費者はまだグローサリー配達やピックアップのサービスをパンデミック前よりも頻繁に使っている。

関連記事:ウォルマートのグローサリーアプリのダウンロードが新型コロナで過去最多に

Walmartのグローサリー配達サービスは引き続き人気を博していて、これはAmazonやInstacartのような企業にとっては競争となり、それにともないWalmartが使うテックも拡大してきた。Walmartは米国時間6月24日、オンライングローサリー注文で賢く代替品を提案するためにどのようにAIを訓練しているかについて情報を共有した。

AIをグローサリー配達に持ってくるのはまったく目新しいことではない。2020年5月にWalmartは当時新しく導入したExpress配達サービスのための適格性を決定するためにどのようにAIを使っているかを披露した。米国が新型コロナ感染拡大に見舞われていた1年間、Instacartのエンジニアは「何がグローサリーの棚にあるか、そして駐車場を探すのにどれくらい時間がかかるのかといったことまで予測するために毎日膨大な量の情報」を処理したと報告している

では、Walmartのグローサリー代替品のためのAIをユニークなものにしているのは何なのか。Walmart Global TechのエグゼクティブバイスプレジデントSrini Venkatesan(スリニ・ヴェンカテサン)氏によると、WalmartがAIに教えるのに使うことができるデータの量は膨大なものだ。毎週2億人がWalmartの店舗とオンラインで15万を超える種類のグローサリー製品を買っている。AIはそのデータを消費者行動、好み、需要を予測するのに使っている。

「我々が構築したテックは、次に入手可能な最適のアイテムを決めるために、サイズやタイプ、ブランド、価格、買い物客の集計データ、各顧客の好み、現在の在庫など何百もの変数をリアルタイムに考慮するのに深層学習AIを使っています」とヴェンカテサン氏は説明した。「AIはあらかじめ顧客に代替品を認めるよう、あるいは欲しくないとの意思表示を示すよう尋ねます。これは将来のレコメンデーションの精度を高めるために学習アルゴリズムにフィードバックする重要なシグナルです」。

チェリーヨーグルトの代替品について即断するために(同じブランドの違う味でもいいか、あるいはより高価なブランドから出ている同じ味のものを確保するか)、Personal Shopperに聞くのではなくAIが判断する。Walmartはこのアルゴリズムの開発を2020年開始し、以来、顧客の代替品受け入れは改善した。

「アルゴリズムを導入する前はおおよそ90%でした。しかし今では97〜98%ほどです」とヴェンカテサン氏は話した。

2020年WalmartはPersonal Shoppersの数を17万人超に倍増させた。3750店舗が注文品のピックアップに、3000店が配達に対応していて、これは人口の68%をカバーしている。2021年初め、WalmartはAmazonのPrime Nowと競合するExpress配達サービスの買い物額35ドル(約3900円)以上という縛りを撤廃した。

関連記事
ウォルマートが(誤って予定より早く)低価格FHDストリーミングスティックと4Kプレイヤーを公開
ウォルマートがAIやコンピュータービジョンを駆使したバーチャル試着のZeekitを買収
植物由来代替肉のビヨンド・ミート株が急騰、ウォルマートでの扱い増加で

カテゴリー:人工知能・AI
タグ:Walmartアプリ深層学習グローサリー配送

画像クレジット:Walmart

原文へ

(文:Amanda Silberling、翻訳:Nariko Mizoguchi