新Amazon Echoデバイスは音声をローカルで処理してプライバシーをさらに強化

これまでのAmazon Echoデバイスでは、Alexaがインターネットへの接続してリクエストを処理し、レスポンスを行ってきた。しかし、Wi-Fiに接続するスマートデバイスがいつもウェイクワードを聞いていることに不安を感じる消費者も一部存在していた。Amazonは本日のイベントで、Echo Show 10と最新のEchoをはじめとするAmazon Echoデバイスは、音声情報をクラウドへ送らずにローカルで処理できるようになったと発表した。

Amazonは、自分たちはこのようなプライバシーファーストの技術をスマートスピーカーで提供する初めての企業だと主張する。2020年、Amazonは現行のAmazon Echoデバイスを動かす「AZ1 Neural Edge」プロセッサーを発表したが、新しいEcho Show 15には「AZ2」プロセッサが搭載される。同社によると、このプロセッサーは前世代に比べて22倍のTOPS(1秒間に数兆回の演算)が可能だという。

Echo Show 15は、ローカルでの音声処理に加えて「ビジュアルID」と呼ばれる新機能をサポートする。これによりAlexaは、1つのビューフレームに複数の人がいるとき、各人を認識できる。個人化されたコンテンツを送ることができるので、たとえばカレンダーの内容を尋ねたら、その日のその人の予定を教えてくれる。他の家族のスケジュールを教えることはない。

Amazonによると、このビジュアルIDもプライバシーがを基本に作られているという。この機能はオプションであるため、使用したい場合は登録が必要だ。また、すべての処理がローカルで行われ、自分のビジュアルIDはいつでも削除することができる。

画像クレジット:Amazon

原文へ

(文:Amanda Silberling、翻訳:Hiroshi Iwatani)

ユーザーがニーズに合わせてAIを訓練、パーソナライズできるAlexaの3つの新機能

Amazon(アマゾン)は、消費者がAlexa体験をさらにパーソナライズできる3つの新機能の展開を準備している。簡単なツールを使ってAlexa(アレクサ) AIのトレーニングを行えるようにするのだ。数カ月後には、家庭内で鳴っているドアベルやインスタントポットのチャイム音などの特定の音を識別するといった仕事を、消費者がAlexaに教えることができるようになる。また、Ring(リング)ユーザーの場合は、閉まっているはずのドアが開いているといった、何かが視覚的に変化したことをAIが気づくことができるようになる。さらに、好きなスポーツチームや好みの天気予報アプリ、食べ物の好みなどを、自分の好みに合わせてAlexaにはっきり指示を出すことができるようになる。

この機能は、アマゾンが最新のEchoデバイスやその他の新しいハードウェアを発表する秋のイベントで、米国時間9月28日紹介された。

この新しい音識別機能は、Alexaがすでに提供しているAlexa Guard(アレクサガード)という機能をベースにしている。この機能は、ガラスが割れる音や、火災や、一酸化炭素の警報音など、特定の音を識別することができるため、外出中の人や耳の不自由な人にとっては、緊急事態が発生しているかもしれないことを知ることができて便利だ。さらにサブスクリプションをアップグレードすると、スマートカメラが家の外の動きを検知したときに、犬の鳴き声を再生することもできる。

このAlexaの音検知機能を、今回アマゾンは、必ずしも緊急事態ではないものへどのように利用できるかを考えている。

画像クレジット:Amazon

新機能によって、消費者は自分にとって重要な特定のタイプの音を聞き分けるようにAlexaを訓練することができるようになる。例えば、鍋のビープ音、オーブンのタイマー、開けっ放しにしておくとビープ音が鳴る冷蔵庫、ガレージのドアが開く音、ドアベルの音、水の流れる音など、繰り返し同じような音が鳴り特定しやすいものがある。

6個から10個のサンプルをAlexaに与えることで、Alexaはこの音が何であるかを「学習」する。これは、アマゾンがAlexaに他の音を学習させるためにかつては数千個のサンプルを必要としたことに比べれば大幅に削減されている。ユーザーは、Echo(エコー)デバイスやAlexaモバイルアプリから直接、Alexaに新しいカスタムサウンドを教えることができる。

ただし、登録やトレーニングのプロセスはクラウド上で行われる。とはいえ、実際の利用時の音の検出はデバイス自体で行われ、登録が終わった後にアマゾンが音声をクラウドに送ることはない。

一度学習させれば、ユーザーはAlexaがその音を聞いたときに、自分で設定した通知やルーティンを起動するように選択することができる。たとえばAlexaがドアベルの通知をFire(ファイア)TV上に表示することで、アクセシビリティの観点や高齢者介護にも役立つ可能性がある。その他にも、たとえばガレージのドアの音がしたら、Alexaが「おかえりなさい手続き」を起動して、照明をつけたり、好きな音楽をかけたりするといった日常生活を支援することができるようになるかもしれない。

アマゾンによると、Custom Sound Event Detection(カスタムサウンド・イベント検知)機能は2022年にはローンチされるという。

同様に、消費者はRingカメラに搭載されたAIを訓練して、カメラの視野上で関心のある領域を特定し、その領域が変化したかどうかを判断することができるようになる。この「変化」は今のところ、2つの状態に区別できるものでなければならない。例えば、物置の扉が開いているか閉じているかといった状態だ。バリエーションの多い、より特殊なものには対応できないかもしれない。

Custom Event Alerts(カスタムイベント通知)と呼ばれるこの機能は、数カ月以内にRing Spotlight Cam Battery(リング・スポットライト・カム・バッテリー)の利用者が使えるようになる。

Alexaの最後の新機能は、食べ物やスポーツ、スキルプロバイダーに関するユーザーの好みを、スマートアシスタントが学習できるようになるというものだ(これらのスキルはAlexaデバイス上で実行されるサードパーティの音声アプリだ)。利用者は「アレクサ、私の好みを覚えて」などということで、Alexaを教え始めることができるようになる。しかし、この学習はもっと繊細な方法でも行うことができる。例えば、Alexaに近くのレストランを尋ねた際に、続けて「アレクサ、私たちの中にはベジタリアンの人がいます」などということで、ステーキハウスを候補から外させることができる。

一方、Alexaがあなたのお気に入りのスポーツチームを学習した後は、スポーツハイライトを質問した際に、あなたのお気に入りのチームのハイライトをAIがより多く盛り込んでくれるようになる。

また、Alexaにどのサードパーティ製スキルを使用したいかを伝えれば、AIアシスタントは以降、自身のネイティブな応答ではなく、そのスキルを使用することをデフォルトとする。

とはいえ、今のところ、対応しているサードパーティスキルは天気予報だけだ。それをアマゾンは時間をかけてより多くのスキルへと拡大したいと考えている。このことは、ユーザーが起動したいスキルを覚えられないことに起因する、スキルの利用率の低さを解消することができるだろう。この機能によって「一度設定したら忘れてしまって良い」式のカスタマイズが可能になる。つまり良いスキルを見つけたら、それをデフォルトに設定することで、あとは自然な言葉で(たとえば「お天気は?」など)話すことができるようになる。

アマゾンによると、この嗜好データは匿名化された顧客IDにのみ関連付けられていて、調整も可能だという。例えばベジタリアンの人が肉も食べるように戻った場合には、次にAlexaにレストランの候補をたずねる際に「アレクサ、私はベジタリアンじゃない」ということができる。このデータは、Amazonサイトでのショッピングのお勧めをカスタマイズするためには使用されないとアマゾンはいう。

この「嗜好ティーチング機能」は、年内に利用できるようになる。

アマゾンはこれらの機能を、アマゾンが「アンビエント・インテリジェンス」(環境知性)と呼ぶものをより多くの人々に提供するという目標に向けた、さらなるステップであるとしている。

AlexaのSVPで主任サイエンティストであるRohit Prasad(ローヒット・プラサド)氏は、アンビエントAIについて「あなたのことを学び、あなたがそれに合わせるのではなく、あなたのニーズに合わせることができるものなのです」と指摘している。

「Alexaは、私にとって単なる音声言語サービスではありません。むしろ、自分の周りの多くのデバイスで利用できるアンビエント・インテリジェンス・サービスであり、環境の状態を理解し、さらには自分に代わって積極的に行動することができるものなのです」と述べている。

画像クレジット:Amazon

原文へ

(文:Sarah Perez、翻訳:sako)

AIで食料品の消費と廃棄の習慣を学習し、食品廃棄物の削減を支援する「Nosh」

創業者のSomdip Dey(ソムディップ・デイ)氏がマンチェスター大学のコンピュータサイエンス修士課程に在籍していたとき、彼の両親がひどい交通事故に遭ってしまった。彼は自分の全財産をインドの両親に送金して治療費を援助したが、彼もその後、多くの人が直面する問題に直面した。もし1週間給料が支払われなかったら、どうやって食べていけばいいのだろう?

「幸い、夏休みが始まった頃だったので、多くの学生が引っ越しをしていて、多くが未開封の食べ物を文字通り捨てていました。必要としている人に利用してもらえるかもしれない廃棄物があまりにも多いことに気がついたのです」とデイ氏は回想している。

そのおかげで、彼は危機的な状況下でも、食いつなぐことができた。しかし、AI研究者であるデイ氏は、テクノロジーを使って食品廃棄物を減らし、空腹の人々に食事を提供する方法を考えるようになった。彼は修士課程を終え、エセックス大学の博士課程に進むと、共同創業者のSuman Saha(スマン・サハ)氏とともに「Nosh Technologies(ノッシュ・テクノロジーズ)」という会社を立ち上げた。

Noshのアプリは、AndroidとiOSで約1万3000人のユーザーに利用されており、ユーザーが食料品の賞味期限を記録することで、買ったものが腐る前にリマインドしてくれる。

このアプリは、AIを使ってユーザーの消費と廃棄の習慣を学習し、ユーザーが廃棄を減らして食料品店でお金を節約できるような分析レポートを毎週作成してくれる。このアプリでは、バーコードや食料品のレシートも直接スキャンすることができるが、ユーザーが手動でデータを入力することもできる。そして、ユーザーの食在庫と冷蔵庫の中身がアプリに読み込まれると、在庫を無駄にする前に使い切ることができる既存のレシピをオンラインで検索することもできる。

デイ氏は、将来的にはプレミアムサービスを提供したいと考えている。プレミアムサービスでは、家にある食材に基づいて新しいパーソナライズされたレシピを生成するAIへのアクセスが可能になる。

「現在のユーザーからは、このアプリを使うことで、無駄にしていたかもしれない毎月40~50ポンド(約6000〜7500円)近くの食料を節約できたという報告を受けています」とデイ氏はTechCrunchに語った。

Somdip Dey(ソムディップ・デイ)氏(画像クレジット:Nosh)

TechCrunch Disrupt(テッククランチ・ディスラプト)のStartup Alley(スタートアップ・アレイ)の一環として、Noshは最新の機能を発表したが、これはデイ氏の会社設立時のインスピレーションにまさに沿ったものだ。その中には、アプリと連動したブログ「Nosh Daily(ノッシュ・デイリー)」や、レストランがすぐに腐ってしまいそうな食品を割引価格で販売できる「Nosh Shop(ノッシュ・ショップ)」などが含まれる。

10%のサービス料を徴収することで、Noshは収益を上げることができる。現在、プレシード資金として3万3000ポンド(約490万円)を調達したばかりで、従業員は9名だ。デイ氏によると、このサービス料のうち、約3%が食品廃棄物対策のための慈善団体に寄付されるとのことだ。

同じくヨーロッパに拠点を置く「To Good To Go(トゥ・グッド・トゥ・ゴー)」は、Nosh Shopと同じ目標を達成するために、最近3110万ドル(約34億3700万円)を調達した。しかし、デイ氏によると、NoshはレストランがTo Good To Goよりも高い価格で食材を販売できることで差別化を図っているという。そうすれば、より良い利益が得られるので、より多くのレストランがアプリを利用する(その代わり、食品廃棄物を減らす)動機になる。To Good To Goでは食品を3分の1の価格で販売しているが、Nosh Shopでは、廃棄されようとしている食品を元の価格の70%まで値下げすることができる。

これはレストランにとっては助かるかもしれないが、割引より安い金額でその食品を買うかどうかは、消費者の判断に委ねられる。Nosh Shopは、まずイギリスの一部の地域で展開される予定だ。

関連記事:フードロスと戦うToo Good To Goが32億円を調達、米国市場への拡大を狙う

画像クレジット:Nosh

原文へ

(文:Amanda Silberling、翻訳:Akihito Mizukoshi)

英国が自国のAI技術を「レベルアップ」させる国家戦略を発表

英国政府は、機械学習技術に関する英国の能力を長期的に向上させることを目的とした、初のAI国家戦略を発表した。

英国政府は、この戦略によって、今後10年間で英国内で開発・商業化されるAIの数と種類が増加することを期待していると述べている。

人工知能の開発と応用を優先して「レベルアップ」させるという計画は、AIの期待を謳ってきたこれまでの産業戦略やデジタル戦略に続くものだ。しかし、Boris Johnson(ボリス・ジョンソン)政権は、英国を「世界のAI大国」にするための10年におよぶ投資計画を発表し、少しずつ前へ進んでいる。政府広報によると、AIによる経済的利益を得るために、人材のアップスキリングやリスキリングなどの分野に的を絞って支援するということだ。

ここに政策的な意味があるかどうかは、まだ議論の余地がありそうだ。

特に、この戦略を裏付ける新たな資金が発表されていないのが気になるところだ。今のところ政府は、投資家が英国のAI企業にどれだけ資金を投入しているかを強調している(2021年1月から6月の間に、英国の1400社以上のテック企業に135億ポンド[約2兆290億円]を投入している)。また、政府は2014年以降、AI分野に23億ポンド(約3450億円)以上を投資していることを示している。

しかし「大学院での学習、再教育、幅広いバックグラウンドを持つ子どもたちが専門的なコースにアクセスできるようにすること」への継続的な支援など、今後政府がAIの開発支援にどれだけの資金を投入するかについては言及されていない。

その代わりに今回の発表では、果たしてそれが何を意味するかは置いておいて「AIにおける英国の能力を変革する」という宣伝文句が多く使われていたり、英国を「AIで暮らし、働くための最善の場所」と位置づけようとしているのが見て取れた(おそらくこれは、英国を「オンラインで最も安全な場所」にするという、オンライン安全法の制定に取り組む政府のデジタル政策のもう1つの論点に付随するものだと思われる)。

関連記事:英国が子どものためのオンライン安全法案の草案を発表

この戦略の初期段階では、将来のAI政策に役立てるためのデータ収集に重点が置かれているようだ。そして、おそらく最も興味深い要素は、英国の現行の著作権および特許規則をAIに焦点を当てて見直すというものだろう。

政府は貿易協定にAI条項を盛り込むことを検討するなど、地政学的な基準設定にも意欲を見せているが、この分野において英国が世界的な舞台で大きな力を発揮できるかどうかは未知数だ。

この戦略で発表された施策の中には、以下のような計画がある。

  • 英国の研究者間の連携と協力関係を強化し、英国のAI能力の変革を支援するとともに、企業や公的機関によるAI技術の導入と市場への投入を促進するために、National AI Research and Innovation Programme(国家AIリサーチ・イノベーションプログラム)を立ち上げる
  • ロンドンと南東部以外を拠点とするセクターでAIを継続的に開発することを目的とした、Office for AI(OAI)とU.K. Research & Innovation(UKRI、英国リサーチ&イノベーション)の共同プログラムを立ち上げる。「これは、アイデアの商業化に焦点を当てたもので、例えば、政府が投資、研究者、開発者に焦点を当て、エネルギーや農業など、現在はAI技術があまり使われていないが大きな可能性を秘めた分野での活動を行うことが考えられる」
  • UKRIとともに、AI技術の大規模な展開に必要な物理的なハードウェアを含む、英国の研究者や組織のためのコンピューティングパワーの利用可能性と能力に関する共同レビューを発表する。「また、このレビューでは、環境への影響を含め、AIの商業化と展開のための幅広いニーズを検討する」
  • 知的財産庁(IPO)を通じてAIの著作権と特許に関する協議を開始し、著作権と特許制度を通じてAIの開発と利用を最善の形でサポートすることで、AIが生み出すアイデアを英国が活用できるようにする。「また、今回の協議では、発明基準を満たさないAIが生み出した発明を保護する方法や、AI開発において著作権で保護された素材をより利用しやすくするための方策にも焦点を当てる予定だ」
  • AI Standards Hub(AI基準ハブ)を試験運用し「世界的なルール設定における英国の関与を調整」し、Alan Turing Institute(アラン・チューリング研究所)と協力して、公共部門におけるAIの倫理と安全性に関するガイダンスを更新し「技術が倫理的に使用されることを確認するための実用的なツールを作成」する。

また、政府の戦略では、AIについて「明確なルール、適用される倫理原則、イノベーションを促進する規制環境」を確立したいとしているが、英国はすでに規制の枠組みの定義化に遅れている。なぜなら、英国はリスクの高いAIの応用を規制するための包括的な提案がすでに検討されている欧州連合からは外れているからだ。

関連記事:欧州がリスクベースのAI規制を提案、AIに対する信頼と理解の醸成を目指す

英国政府の現在の政策は、データ利用に関する明確性の代わりに、同時的に現行のデータ保護体制を疑問視している。大臣たちは、国民の情報保護を弱めることで、AIなどのテクノロジーに対する人々の信頼とさらなる導入を(何らかの形で)後押しできると期待して、規則を弱めるという案を検討している。

特にAIのスタートアップやスケールアップについては、今後6〜12カ月の間に「民間資金のニーズと課題」を評価する計画が国家戦略に盛り込まれている。

また、同じ時期に「世界最高のAI人材を英国に誘致するため」に、新しいビザ制度を導入するとしている(もちろん、そこで何を発表するかは、その詳細にかかっている)。

しかし、英国のスタートアップ企業が、AIを強化する国家戦略の発表によって、AIモデルを研磨するためのあらゆる種類の興味深い政府データセットへのアクセスがすぐに可能になることを期待していたとしたら、この文書には、閣僚が「AIモデルのためにどのようなオープンで機械読み取り可能な政府データセットを公開できるかを検討する」と書かれているだけで、その特定のタスクに目を向けるのは今後12カ月後になるという。つまり、それは様子見ということだ。

「この国家AI戦略は、世界で最もイノベーションを促進する規制環境を構築し、英国全体の繁栄を促進して誰もがAIの恩恵を受けられるようにし、AIを気候変動などのグローバルな課題の解決に役立てようとする我々の意図を世界に発信するものです」と、新任のNadine Dorries(ナディン・ドリーズ)氏は、戦略の発表にともなう声明で述べている。

ドリーズ氏の名前に聞き覚えがないのは、Oliver Dowden(オリバー・ダウデン)氏に代わってデジタル・メディア・文化・スポーツ省(DCMS)の要職に就いたばかりだからだ。

「AIは、私たちが成長を促し、生活を豊かにする上で中心的な役割を果たすでしょう。私たちの戦略に示されたビジョンは、これらの重要な目標を達成するために役立ちます」とドリーズ氏は付け加えた。

ダウデン氏は、英国のデジタル政策(およびその他の広範な政策)を統括するDCMSのポストに1年余りしか就いていなかった。これは、前任者のNicky Morgan(ニッキー・モーガン)氏が半年強しかいなかったことを考えれば、長いと言えるだろう。

その前は、Matt Hancock(マット・ハンコック)氏(元大臣)がデジタル政策を担当していたため、ここ数年、英国の技術政策を担う政治家はかなりの数にのぼる。

そこでおそらく、国の深い技術力を育成する「長期的な」コミットメントを主張する第一歩として、政府はデジタル政策を担当する「長期的な」大臣の任命を検討してみてはどうだろうか。そうすれば、AIなどの国の技術力の底上げへの持続的な集中と、大臣レベルでは、テックにまつわる基本的なふるまいを理解するまもな能力があるというメッセージを示すことができるはずだ。

画像クレジット:Usis / Getty Images

原文へ

(文:Natasha Lomas、翻訳:Akihito Mizukoshi)

マイクロソフトはクラウドコンピューティングで自然災害モデルの再構築を目指すが課題は残る

気象予測は難しい分野として知られているが、地球の日常機能の理解のためには、この分野がますます重要になってきている。気候変動により、山火事や台風、洪水やサイクロンなどの自然災害の規模や被害が拡大している。災害がいつ、どこで発生するかを正確に知ること(あるいは数時間前に知らせること)は、被災者の状況に大きな違いをもたらす。

この分野を、Microsoftは、自社のクラウドコンピューティングサービスであるAzureにとって、利益を生むニッチな分野であると同時に、良いことをする機会でもあると考えている。2017年の立ち上げ時にTechCrunchが取り上げたAI for Earthプログラムを通して、Microsoftは一連のサービスを「Planetary Computer(プラネタリー・コンピュータ)」と呼ぶものにまとめた。このプログラムは、物体や動植物の種類を識別するためのAPIを含んでいる。AI for Earthは、科学者などが自らの研究やモデリングにAzureを利用するための助成金を提供しており、このプログラムは、AI for HealthAI for Accessibilityといった他のMicrosoftのクラウドイニシアチブに加わる。

関連記事:AI利用のヘルスケアの実践や研究を支援するマイクロソフトのAI for Health事業

私はこの数カ月間、災害対応のあらゆる側面に注目していたため、Planetary Computerと呼ばれるものの性能はどうなのか、自然災害のモデリングを改善するための障壁はどこにあるのかに興味を持っていた。このプロジェクトのプログラムディレクターであるBruno Sánchez-Andrade Nuño(ブルーノ・サンチェス=アンドラーデ・ニーニョ)氏は、このプロジェクトの野望はこれまでと同様に強いものであると語った。

「目標は、誰もが地球の生態系を管理できるようにするためのPlanetary Computerを手に入れることです。それは災害が起きた時の唯一の有効手段ですから」。このプログラムは「削減、対応、復興」に焦点を当てているが、できるだけ早く決断を下さなければならない「対応」が最も興味深い段階だ。

サンチェス=アンドラーデ・ニーニョ氏は、ここ2、3年の間に、特に環境に関連する領域でAIが驚異的な速さで進歩していると指摘した。「AIは多くの人が考えているほど多くのデータを必要としないのです」と彼は言った。「アルゴリズムに多くの進展がありましたし、私たちは、AIを理解し、非常に効率的な深層学習(モデル)を構築する方法を人々に理解してもらうために、多くの仕事をしています」。

地球システムにAIを適用する際の大きな課題の1つは、モデリングを成功させるために必要な専門分野の数だ。しかし、多くの分野は互いに隔てられており、科学者とAI研究者の間にはこれ以上ないほどのギャップがある。サンチェス=アンドラーデ・ニーニョ氏は、地球が直面する最も困難な課題に立ち向かうために、このプログラムがあらゆる分野の人々を継続的に巻き込む機会になると考えている。

「科学者のコミュニティには、より多くの知識を生み出したいというインセンティブがありますが、モデラーにとっては、良い答えをすばやく生み出したいというインセンティブがあります」と彼は説明した。「どうやって不確実性の中で迅速な意思決定を行えるでしょうか?」。

このギャップを埋める方法の1つが「アップスキリング」と彼が呼ぶ、科学者にAIのトレーニングを提供することだ。「これはすべて、環境分析をより速く、より良く行えるようにするという、同じ戦略の一環です」。特に地理分析分野ほど難しいものはない。「コンピュータは一次元を得意としていますが、近くにある複数のものを扱うのは苦手です」。彼は、もともと宇宙物理学を専攻していたが、GIS(地理情報システム)の「アップスキル」をしたと語った。

高度なAIスキルを身につけるための労力は、ライブラリが拡充し、一般的なAIモデルがうまく動作するようになり、さらにAIモデルを理解するための膨大な教材が用意されるようになったことで減少している。「かつては博士号が必要でしたが、今では10行のコードが必要です」。

そのAIの能力の増大により、人々はAIがあらゆる惑星規模の問題を解決できると信じ始めている。しかし、それは不可能であり、楽観的な見方をするとすれば、少なくとも今はまだ不可能だ。「私たちはAIの誇大広告を減らそうとしています」と彼はいう。「AIとは何かを知らなければ、それを信用することはできません」。このAI for Earthでは、科学者とAI研究者が一緒になってモデルのアウトプットを理解できるように、多くの取り組みで説明可能性を重視している。

このミッションは、関連する政府機関との連携を強めている。最近、AI for Earthは、米国陸軍エンジニア研究開発センターとパートナーシップを結び、同機関の沿岸監視システムの改善に取り組んでいる。

やるべきことが多くても、多くのモデリングの成熟度は高まっている。サンチェス=アンドラーデ・ニーニョ氏はこう言った。「今はまだ、発展途中の段階です。多くのプロセスで、必要以上にアドホックな処理が必要になっています」。良いニュースは、ますます多くの人々がこの分野に足を踏み入れ、点と点を結びつけようとしていること、そしてその過程で世界の災害対応能力を向上させようとしていることだ。

関連記事:テクノロジーと災害対応の未来4「トレーニング・メンタルヘルス・クラウドソーシング、人を中心に考えた災害対応スタートアップ」

画像クレジット:EDUARD MUZHEVSKYI / SCIENCE PHOTO LIBRARY / Getty Images 

原文へ

(文:Danny Crichton、翻訳:Yuta Kaminishi)

JR東日本が都内で実証実験中のAI多機能自販機に「AIによる飲み物診断機能」を追加

JR東日本が都内で実証実験中のAI多機能自販機に「AIによる飲み物診断機能」を追加

JR東日本クロスステーション ウォータービジネスカンパニーは9月22日、実証実験中の「AI多機能自販機」に、顔認識システムを用いた「AIによる飲み物診断機能」を追加すると発表した。この自販機は、2021年5月から実験を開始したもので、都内5つの駅構内に合計10台が設置されている。

AI多機能自販機は、ディスプレイとセンサーを備え、ティファナ・ドットコムが提供する人工知能搭載キャラクター「AI さくらさん」をユーザーインターフェイスとして、利用者との双方向コミュニケーションが楽しめるというもの。JR東日本が都内で実証実験中のAI多機能自販機に「AIによる飲み物診断機能」を追加

同社が、実証実験を開始した5月から7月までの3カ月間、自販機を利用した人と、コンテンツ操作回数との割合を集計したところ、1人あたり平均して9.1回、コンテンツを楽しんでいることがわかった。特に人気だったのは、「AIさくらさんゲーム(じゃんけん・おみくじ)」と「あなたへのおすすめ」(顔認識機能を用いた商品のおすすめ)だった。このことから、「エンタメ機能 × パーソナライズされた商品おすすめ機能」の実装を決めた。JR東日本が都内で実証実験中のAI多機能自販機に「AIによる飲み物診断機能」を追加

追加実装した「AIによる飲み物診断機能」は、1人または2人での診断が行える。1人の場合は、顔認識によるAI分析と、画面での「今の気分」の選択によって、現在その人にぴったりの飲み物が提案される。2人の場合は、顔認識AI分析と「今の気分」の分析を2人それぞれが行うと、2人の相性が診断され、さらに相性アップにつながる飲み物が提案される。なお、カメラで取得した画像情報は個人に特定できないデータに即時変換し、個人を特定するデータは即時破棄され、保持しないとしている。

同社は、この新機能により「楽しみながらお客さま一人ひとりに沿った商品を提案し、自販機の新しい可能性を拡げていきます」と話している。

AI多機能自販機の設置場所は以下のとおり(2021年9月22日現在。すべて改札内)。

  • 新宿駅:2階南口コンコース、1階中央コンコース
  • 上野駅:3階コンコース11-12ホーム階段付近、中2階コンコース
  • 東京駅:地下1階コンコースのスクエアゼロ付近、1階丸の内南口改札付近KIOSK前
  • 品川駅:2階北コンコース北改札付近、2階中央コンコース1-2ホーム階段付近
  • 秋葉原駅:1階中央コンコース3-4ホームのエスカレーター付近、1階中央改札出口付近

ニュース記事に特化した文章要約AI「ニュースタンテキ」を展開するバズグラフが約1億円調達

ニュース記事に特化した文章要約AI「ニュースタンテキ」を展開するバズグラフが約1億円調達

自社開発の自然言語処理AIをベースに、文章要約AI「ニュースタンテキ」を展開しているバズグラフは9月16日、第三者割当増資による1億600万円の資金調達を発表した。引受先は個人投資家。調達した資金は、ニュースタンテキの新機能開発、またベースとなる自然言語処理エンジンのAPI開発など、より良いソリューションを提供できる環境整備の開発にあてる。

ニュースタンテキは、独自の自然現処理エンジンにより、主にニュース記事を中心とした文章に対し、AIによる文章要約を可能としたサービスという。今秋に有償版リリースを予定しており、現在は全機能無料公開中。

URLによる本文抽出機能、最大1万文字まで要約可能、10%~90%の文章要約圧縮率選択、ニューラルマップ(文章構造図)の閲覧、キーワード出現率の表示などを特徴としている。

現場に「使える」AI・アルゴリズムを提供するALGO ARTISが4.28億円のシリーズA調達

コンサルティング・デザイン・システムの力で現場に「使える」AI・アルゴリズムを提供するALGO ARTISが4.28億円調達

AI(アルゴリズム)のコンサルティングおよびソリューションを提供するALGO ARTISは9月15日、シリーズAラウンドにおいて、第三者割当増資による総額4億2800万円の資金調達を2021年7月に完了したと発表した。引受先は、リードインベスターの東京大学エッジキャピタルパートナーズ(UTEC)、ディー・エヌ・エー(DeNA)。また、2021年9月にシリーズ A ラウンドのエクステンションラウンドを実施予定としている。

調達した資金は、エンジニアなどの人材の獲得費用にあてプロダクト開発を促進し、主要事業の成長をより一層加速する。

ALGO ARTISは「社会基盤の最適化」というミッションの下、現場に「使える」AI(アルゴリズム)を提供するために、コンサルティング・デザイン・システムの力を駆使して優れた最適化AI(アルゴリズム)を開発し、継続的に価値を提供することを目指し事業を展開している。

プラントやロジスティクスのスケジュール管理をはじめ幅広い社会基盤の管理業務を対象とし、現場で継続的に利用されるために、入念なヒアリングとコンサルティングを経てアルゴリズム・デザイン・機能を設計・実装。また、実装の過程ではプロトタイプを提供し、実際に利用してもらうことで、机上では把握できない課題を抽出し、改善を繰り返すことでスムーズな現場導入を実現しているという。

ALGO ARTISの前身事業は、DeNAにおいて本格的にAIを活用した事業が2016年から検討開始され、複数の新規事業を手がける中で生まれたという。2019年にはDeNA内でエネルギー事業推進室が立ち上がり、インフラ系企業と、最適化に関する複数のプロジェクトを推進してきた。

2021年7月に、より積極的かつ継続的な投資による事業の成長を実現させるために、DeNAの後押しもあり現代表の永田健太郎氏が中心となる形で外部より資金調達を行い、同事業をスピンオフ。ALGO ARTISを設立した。現在は、DeNAの持分法適用会社として引き続き連携を取りながら、AI(アルゴリズム)を活用した最適化ソリューションの提供事業を展開している。

貨物輸送業向け生産性プラットフォームの英Vector.aiがシリーズAで約16.5億円を調達

コロナ禍でサプライチェーンに負荷がかかり続ける中、ここ2年間は貨物輸送業がスタートアップで最も熱い分野の1つになっている。実際、世界の貨物輸送業は1990億ドル(約21億9000億円)規模の市場になっている。そして、熱い分野である証拠もどんどん増えている。

2020年11月にデジタル貨物フォワーディングのFortoは、Inven Capitalが主導するラウンドで新たに5000万ドル(約55億円)を調達した。2021年4月にはNuvocargoが1200万ドル(約13億2000万円)を調達し、貨物ロジスティクス業界のデジタル化を手がけている。同年5月には貨物輸送業プラットフォームのZencargoが4200万ドル(約46億2000万円)を調達し、6月には貨物フォワーディングのsennderが10億ドル(約1100億円)以上の評価額で8000万ドル(約88億円)を調達した。7月には貨物輸送業者の輸送費管理を簡単にするFreightifyが250万ドル(約2億7500万円)を調達した。

関連記事:欧州の物流業界に一石を投じる貨物フォワーディング企業Sennderが約88億円調達、評価額約1100億円超えに

そして米国時間9月13日、AIプラットフォームで貨物輸送業者の生産性を向上する英国のVector.aiが、米国のVCであるBessemer Venture Partnersが主導するシリーズAで1500万ドル(約16億5000万円)を調達した。このラウンドにはこれまで投資していたDynamo VenturesとEpisode 1も参加した。Bessemerの投資は、米国のVCが英国やヨーロッパのテックシーンへの参入を続けている表れでもある。

Vector.aiは貨物輸送業向けの自動化システムとして国際進出を加速していく計画だ。

Vector.aiが取り組んでいるのはこんな問題だ。貨物輸送業者は顧客のメールなどから追跡して出荷をするような、同じことを繰り返す管理業務に時間を取られ、価値の高い活動に集中できない。Vector.aiは、同社が開発する機械学習プラットフォームで管理業務を自動化できるとしている。

Fracht、EFL、NNR Global Logistics、The Scarbrough Group、Steam Logistics、Navia Freight、その他トップ10に入る貨物輸送業者がVector.aiを利用している。

Vector.aiの共同創業者でCEOのJames Coombes(ジェームズ・クームズ)氏は次のようにコメントした。「貨物輸送業の従業員のほとんどは、1件の出荷に関わる10〜25の関係先との連絡や、貨物の動きと書類の調整に大半の時間を費やしています。連絡には通常、メールと添付書類が使われます。(中略)貨物の量は世界的に増え続け、Brexitによる負担や中国の港の閉鎖のようなコロナ禍の影響も加わって、貨物輸送業界は人手不足や急激な人件費の上昇、そして売上の減少や荷物の傷みで金銭的な負担となる配送の遅延に直面しています。貨物輸送業者にはローレベルの処理で時間を無駄にする余裕はありません。そこで我々は基本的な作業を自動化するテクノロジーを開発しました」。

Bessemer Venture PartnersのパートナーであるMike Droesch(マイク・ドロエシュ)氏は次のように述べた。「Vector.aiは急速に成長しつつある貨物輸送業のワークフローの自動化、デジタル化ツールの分野で早くから活躍するリーダーの1つです。同社はこの業界に的を絞った直感的な製品を開発しました。同社の製品はすでに最大手クラスの貨物輸送業者を獲得しています」。

Vector.aiの競合には、950万ドル(約10億4500万円)を調達した英国のShipamax、120万ドル(約1億3200万円)を調達した米国のRPA Labs、7590万ドル(約83億4900万円)を調達した米国のslync.ioがある。

画像クレジット:Witthaya Prasongsin / Getty Images

原文へ

(文:Mike Butcher、翻訳:Kaori Koyama)

本物の人間そっくりに答えるAI音声アシスタントでカスタマーサービスを自動化するPolyAI

PolyAIが、シリコンバレーのKhosla Venturesがリードする投資ラウンドで1400万ドル(約15億4000万円)を調達した。参加したのは、これまでの投資家であるPoint72 VenturesとAmadeus Capital、Sands Capital Ventures、Passion CapitalそしてEntrepreneur Firstとなる。これは同社の1200万ドル(約13億2000万円)のシリーズAに次ぐもので、主に米国のチームとスタッフの増員に当てられる。同社の調達総額は、これで2800万ドル(約30億7000万円)になる。

PolyAIは同社製の音声アシスタントを使ってカスタマーサービスを自動化する。同社によると、それは本物の人間のように聞こえるという。それによって企業は、まるで人間が話しているような音声オペレーターを安上がりかつ人数に制限なく利用でき、さらに顧客の待ち時間を減らし、顧客の満足度と定着率を上げることができる。

共同創業者のNikola Mrkšić(ニコラ・ムルクシッチ)博士によると「私たちの技術を技術用語でいえば、それは『マルチターンの会話的AI』となります。しかし実際には、すべての通話者がやることは、人と話すようにそれに話しかけることだけです。これまでのコールセンターに比べると私たちのアシスタントは顧客満足度を40%向上させ、対応時間を最大で5分間減らします」。

「競合他社と比べると、私たちはこのシステムをとても迅速に開発しています。弊社のトランスフォーマーをベースとする言語理解モデルと、基盤となる対話管理プラットフォームにより、このようなユーザー体験を2週間から4週間で実装しています」。

「PolyAIは、BERTやGPT-3のような最新世代の大規模な訓練済みのディープラーニングモデルを実際のエンタープライズプロダクトで使っている最初のAI企業の1つです。そのため彼らは、自動化AIエージェントをわずか2週間でデプロイでき、音声アシスタントの旧来のプロバイダーが古い技術のデプロイに最大で6カ月は要していたことと比べて、極めて対照的だです」とVinod Khosla(ビノッド・コースラ)氏は声明で述べている。

 

ケンブリッジ大学からスピンアウトしたPolyAIによると、パンデミックでコールセンターの人手不足になり、多くの企業がスマートボイスアシスタントをデプロイするようになったため、それは、最初から開いてるドアを開けるような楽な営業だった。消費者はタイプするよりも話すことを好むため、チャットボットと同等に比較することはできない。

Landry’s傘下のGolden Nugget Hotels & CasinosのBrian Jeppesen(ブライアン・ジェプセン)氏は「通話の40%ほどを扱ってくれればよい、と思っていましたが、立ち上げ初期から80%、2週間後には87%になりました。AIエージェントを人間だと思っているお客さんも多い。音声アシスタントは失敗しないし、24時間365日稼働しているので、それはすばらしいことです。こんなエージェントなら、もっとたくさんいてもいいね」という。

競合他社は、最近Microsoftが買収したNuanceやIsoft、Interactions、SmartAction、Replicantなどとなる。しかしPolyAIの主張では、同社の音声アシスタントは起動が早く、また対応言語も多く、分単位の料金となっているという。

同社の共同創業者は、CEOのニコラ・ムルクシッチ博士とCTOのTsung-Hsien Wen(ツォンシェン・ウェン)氏、そして技術部長のPei-Hao Su(ペイハオ・スー)氏で、2人はSteve Young(スティーブ・ヤング)教授の下で博士論文に取り組んでいるときに出会った。ヤング教授は音声対話システムのリーダーであり、SiriやGoogleアシスタントやAlexaのような音声アシスタントを支えている多くの技術の開拓者だ。

PolyAIの最近のクライアントには、Landry’s Entertainment、Greene King、Starling Bank(スターリング銀行)そしてViasatなどがいる。

画像クレジット:PolyAI

原文へ

(文:Mike Butcher、翻訳:Hiroshi Iwatani)

リクルートと信州大学農学部が農地情報整備の共同研究、航空写真から特定農地区分を高精度で検出するAI開発

リクルートと信州大学農学部が農地情報整備の共同研究、航空写真から特定農地区分を高精度で検出するAI開発

リクルートの研究開発機関アドバンスドテクノロジーラボは9月9日、信州大学農学部との共同研究「水田活用における畦畔(けいはん)管理の効率化に関する取り組み」を2020年12月より開始。今回、約半年間にわたる研究の成果と今後の見通しについて発表した。

畦畔(けいはん)とは、水田に流入させた用水が外にもれないように、水田を囲んで作った盛土などの部分のこと。AIの活用により、手作業では計測が難しかった畦畔の面積や傾斜角などの情報を可視化する技術を開発し、中山間地域(農業地域類型区分のうち、中間農業地域と山間農業地域を合わせた地域)における農業課題の解決を目指す取り組みを進めてきたという。

リクルートと信州大学農学部が農地情報整備の共同研究、航空写真から特定農地区分を高精度で検出するAI開発

赤い枠内が畦畔(けいはん)

同共同研究では、リクルートが培ってきたAI技術および画像処理技術と、長野県林務部が作成した「航空写真×数値標高モデル」でAIモデルを作成する技術を確立。水田の畦畔面積・傾斜角、農地に占める畦畔の割合(畦畔率)を計測し可視化、長野県全域の水田約5万haに対し、畦畔データ(GIS用座標付ポリゴンデータ)の作成に成功した。この研究結果は、農業工学分野やシステム農学分野の学術学会での報告、さらに各学会誌への論文投稿を行う予定。

また今後、畦畔データの作成技術を、リクルートから信州大学農学部へ移転することによって研究を継続する。

信州大学農学部では、作成したデータをベースに水田1枚ごとの畦畔データを作成することで、農家が所有する水田ごとの畦畔の面積・傾斜角、畦畔率の計測を可能にするとしている。また、予測モデルの精度を上げることで、長野県以外の地域においても、同様の結果を得られる高い汎用性を目標とする。さらには、水田の畦畔を含めた全国の農地のGISオープンデータの公開を通じて、県・市町村など地域行政と連携した「農地・畦畔見える化プロジェクト」の発展を目指す。

中山間地域では、若手農家や農業法人の新規参入が進まず、経営規模を拡大しようとしても、平地と比べ傾斜地が多いという条件不利性から、労働費用が多くかかり農業機械の効率化が進んでいない。その課題の1つである畦畔管理作業にかかる費用(人件費・機械費・燃料費)を「見える化」することによって、より適切な耕作管理方法や機械の導入の検討を可能にし、新規参入や経営規模の拡大につなげていくことを最終的な目標に据えている。

一方リクルートでは、今後共同研究で得られた「低解像度イメージに情報を付加することで高解像度化する技術」と「精度の高いAIモデルを作成するノウハウ」をビジネスに活用することも視野に入れているという。

信州大学農学部との共同研究の概要

畦畔は、水稲栽培に必要な水を田んぼにためる重要な役割を果たしており、大雨時の一時的な貯留などの役割も担っている。これを維持するため、漏水を防ぐための畔塗りなどの管理とともに、畦畔の崩落を防ぎ病虫害の発生を抑えるため、定期的な草刈りの作業が必要となる。

しかし、傾斜地の多い中山間地域の水田では、平地と比べて畦畔斜面の面積や角度が大きく、そこでの過大な労働負荷や管理コストの負担が課題となっているそうだ。また、畦畔斜面の傾斜角度を考慮した実質的な畦畔面積を測量することは多大な時間と費用を要するため、畦畔農地情報は整備されておらず、中山間地域の水田農業の経営改善が進まない一因となっているという。

農林水産省や地方自治体がまとめる農地基盤情報では、農地面積や圃場(ほじょう。農地の中で耕作可能な部分)面積については整備されてきているものの、畦畔斜面を含めた実質的な畦畔の面積や角度、畦畔率といった情報は未整備であり、畦畔管理にかかる費用の算出・実態の把握が困難であるという課題は残されたままになっている。

信州大学農学部は2020年、畦畔の正確な地形情報を計測すべく、地理情報システム(GIS)上で畦畔ポリゴンと圃場ポリゴンを作成し、長野県林務部が作成した精密標高データ(DEM。Digital Elevation Model)を用いて、畦畔の面積・傾斜角、畦畔率の測定を開始した。しかし、手動でポリゴンを作成していたため、煩雑な作業負荷が課題となっていた。

この解決策として、リクルートは、ディープラーニングを中心としたAI技術と画像処理技術を提供し応用できると判断。信州大学農学部との共同研究を通じ、長野県が保有する航空写真とDEMを組み合わせることで、水田圃場部分の「水張領域」と「畦畔領域」を判別し、それぞれの領域のポリゴンを自動作成するAIの開発を目指し共同研究に取り組んできたという。リクルートと信州大学農学部が農地情報整備の共同研究、航空写真から特定農地区分を高精度で検出するAI開発

生成したAIモデルの評価では、エリアや特徴の異なるデータを無作為で抽出した上で、正解データ(1308イメージ)を作成、「畦畔領域」「水張領域」「その他領域」の3つのクラスによる特定農地区分を97.7%の精度で検知したという。リクルートと信州大学農学部が農地情報整備の共同研究、航空写真から特定農地区分を高精度で検出するAI開発

声を失った声帯摘出者のCoeFont CLOUD利用が無料に、自分のAI音声による会話を支援

声を失った声帯摘出者のCoeFont CLOUD利用が無料に、自分のAI音声による会話を支援

東京工業大学発のAI音声合成スタートアップYellstone(エールストン)は9月9日、自分の声を取り込んで音声合成が行えるサービス「CoeFont CLOUD」を、声帯摘出によって声を失った人たちに無料提供すると発表した。これを利用すれば、スマホやパソコンで文章を入力するだけで、自分の声で会話ができるようになる。

申し込みは、「CoeFont CLOUD 声帯摘出者向けプラン申請フォーム」から行える。

AI音声合成プラットフォーム「CoeFont CLOUD」では、自分の声を収録すれば、それが音声合成用の声のフォント「CoeFont」(コエフォント)に変換され、自分の合成音声でテキストの読み上げが行えるようになる。自分の「CoeFont」はクラウド上で公開でき、他のユーザーがそれを利用すれば作成者に収益が還元される仕組みもある。APIを使ってアプリやウェブサイトに組み込むことも可能。

Yellsotneでは、CoeFont CLOUDの場合これまで料金500円・最短15分の収録としていたが、今後は、声帯摘出を行った人は無料で使えるようになる。

テレビのニュース番組では、声帯摘出を行い「CoeFont CLOUD」利用している人のインタビューが放送された。その人は「CoeFontに出会えて、本当に救われました。今まで全く縁のなかったAI技術の進歩と素晴らしさに本当に驚いています」と話していたという。

実は、こうした使われ方は当初は想定していなかった。Yellstone創業者で代表取締役の早川尚吾氏は、こう話す。

「声帯摘出者の方が利用するという、自分が考えていなかった使われ方に最初は驚きました。実際に会話で使っていただいている動画を見ると、自分が作ったものが人の役に立っているということがこんなにも嬉しいのかと思いました」

Mantraと大日本印刷がマンガ用AI翻訳エンジン開発、大日本印刷独自のマンガ多言語化システムに搭載

Mantraと大日本印刷がマンガ用AI翻訳エンジン開発、大日本印刷独自のマンガ多言語化システムに搭載し2021年度中に実用化

大日本印刷(DNP)は9月8日、マンガに特化したAI翻訳サービスを展開するMantraと共同で、マンガのためのAI翻訳エンジンを開発したと発表した。これは、DNPが独自に開発したマンガを多言語化するシステム「DNPマンガオンラインエディトリアルシステム MOES」(モエス)に搭載されるもの。2021年度中の実用化を目指している。

海外での日本のマンガの需要が増加し、マンガを多言語化してグローバル展開するための体制整備が進められているが、マンガの翻訳については、話し言葉が多いことや、吹き出で文章が細切れになることなどから自動翻訳が難しく、翻訳タイトル増加のネックになっているという。コストや負担の面から翻訳タイトルの数を抑える出版社も多いとのこと。そこで、DNPとMantraは、マンガに特化して精度を高めたAI翻訳エンジンを開発した。

MOESは、マンガの翻訳・レンダリング・校正・進捗管理などを行うクラウドシステム。2016年から印刷物や電子書籍の翻訳版マンガ制作に利用されている。DTPソフトを使わずに、マンガのレイアウト上に直接翻訳文章を書き込めるため、文章の入れ違いなどのミスが防止できるほか、時差のある海外との作業では、データの授受や進捗管理を容易にして作業負担の軽減や時間短縮を可能にするという。これにAI翻訳機能が搭載されることで、ある翻訳会社の評価テストでは、翻訳作業時間が従来に比べて30%短縮されたという。

今後は、海外での需要が高い着色や縦スクロール化などの機能を開発し、MOESを軸とした海外版マンガ制作、製造体制を強化するとのこと。また、雑誌から単行本、海外版制作から電子コミックの配信という一連の流れを支援し「海外のマンガファンが多くの作品に触れる機会を創出」するという。さらに、サプライチェーンの最適化、コンテンツ価値の最大化などに取り組み、生み出した利益をコンテンツホルダーなどに還元することで、出版界の継続的な発展に貢献するとDNPは話している。

このシステムと国内外のマンガ制作関連事業で、DNPは5年後までに120億円の売上げを目指す。

2020年1月設立のMantraは、「世界の言葉で、マンガを届ける。」ことを目指し、マンガに特化したAI技術の研究開発およびサービスを提供するスタートアップ。2020年に公開したマンガの多言語翻訳システム「Mantra Engine」は、国内外のマンガ配信事業者・翻訳事業者・出版社に導入され、マンガ多言語展開の高速化に寄与しているという。2021年には、独自のマンガ機械翻訳技術が、人工知能分野のトップ国際会議AAAIに採択された。

 

【コラム】AIaaS(サービスとしてのAI)がビジネスの問題を解決する?もう一度しっかり考えてみよう

SaaS、PaaSそして今度はAIaaSだ。未来志向で起業家精神に富んだスタートアップ企業が、あらゆるタイプの企業のさまざまな問題解決に向けて、人工知能を利用したプラグ&プレイのソリューションをネットから提供しようとしている。

あらゆる業界が既製のAIソリューションを採用している。専門家の予測では、AIソフトウェアのグローバルな収益は、今後、その多くがオンラインのAIaaS(Artificial Intelligence as a Service)に由来し、34.9%という驚異的な年率で伸びていくという。2025年には1000億ドル(約11兆円)に到達するだろう。すばらしいアイデアのように聞こえるが、「一人勝ち症候群」という注意点がある。

AIを利用して差別化を図り、優位に立ちたい企業は、一種のブームに乗ってそれを行うのでないかぎり、計画と戦略が必要だ。しかも多くの場合、それは既製のソリューションではなく、あなたが独自にカスタマイズしたソリューションであることを覚悟しなければならない。

人工知能の重要なアルゴリズムの1つであるLSTMを提唱したSepp Hochreiter(ゼップ・ホッフライター)氏によると「AIプロジェクトにおける実装の最良のタイミングと最小のリスクが両立するためには、チームの構築をゆっくりと行い、外部の実績あるエキスパートも起用することだ」という。「最良の人材はすぐに雇用できるものではない。しかも、能力や才能は雇用時にわかるものではなく、数年後にやっとわかります」。

それは現在、オンラインでサービスを提供している既製のAIソリューションとは大違いだ。AIaaSが提供している人工知能の技術は、大別して2種類ある。優勢なのは極めてベーシックなAIシステムで、すべてのビジネスに対する万能のソリューションを提供する。それらは、AIサービスが複数のモジュールを提供して、在庫管理でも顧客データベースの最適化でも、どんな製品の製造過程の異状の発見でも、何でもできるという。

またAIaaSで製造工程を自動化すると称するAI企業は、彼らが個々のケーススタディから集めてきたデータがたまたまクライアントにフィットすればうまくいく。しかしながら、いずれにしても制約のあるデータ集合と、同じく制約のある総称的な目的がベースであるため、必然的に問題がある。汎用的なAIソリューションが作り出すのは、あくまでも汎用的な結果だ。

例えば損耗を検出するアルゴリズムを訓練するプロセスは、製品によって異なる。靴はスマートフォンではないし、スマートフォンは自転車ではない。そこで、環境やその他の要素の違いに対応して、インテリジェントなモジュールが生産工程を管理し変えていく「本物の」AIが動くために、企業はクライアントのためにカスタマイズされたソリューションを開発する。

しかしAIaaSのまずい体験に懲りた多くの顧客は、再挑戦をためらい時間の無駄だと感じている。それに、本格的なAI処理を必要とするユースケースの多くが、期待したあるいは約束された結果を生んでいない。それを知りながら顧客を騙したとして、クラウド企業を訴えたところもある。その訴えでは、既製のAIが有効なソリューションだと顧客に印象づけながら、そうではないことを最初から知っていたと非難している。また、テクノロジーが十分な回数正しく動かなければ、本物のAIを有効利用できる企業も、始める前にギブアップするだろう。

必要なのは、ソリューションを標準化して、すぐに使えるようにし、大量の専門知識を不要にすることだ。AIaaSのこれまでの成功によって研究者たちは、インフラ管理のために全AIのサービスを必要とせずに、複雑な実験ができるようになっている。

未来においては、AIのエキスパートでない個人がAIaaSを利用して、必要な結果を得られるようになって欲しい。とはいうものの、設定などすべてが正しければ、現在のレベルでもオンラインの自動化AIサービスは製造業にかなり貢献している。

正しく作られたAIは、現在、すでにさまざまな業界に大きな利益を提供している。だからAIをギブアップするのではなく、自分たちが利用しようと思っていたAIにもっと深入りすべきなのだ。例えばそのソリューションは十分にカスタマイズできるだろうか?サービスはどれだけのサポートを提供しているのか?アルゴリズムは自分のユースケースのデータを扱えるよう特別に訓練されているか?……AIサービスを購入するときには、これらの問いをするべきだ。そして、答えが親切丁寧で、その主張を正しいデータと高い成功率で証明できる企業を、パートナーに決めるべきだ。

ビジネスを強化する新しい開発がすべてそうだったように、AIの応用も高度な専門知識と専門技術が必要だ。大手のクラウド企業で働いている技術者には、そんな知識と技術がある。そして彼らなら、最初からカスタマイズされたソリューションを開発して顧客に大きな価値を提供できただろう。検討を要するテーマは、それだけの知識と技術をオンラインのサービスで提供できるかだ。今実際にあるそんなシステムは、答えになっていない。

編集部注:本稿の執筆者Ralf Haller(ラルフ・ハラー)氏は、NNAISENSEのセールス&マーケティング担当エグゼクティブ・バイス・プレジデント。

関連記事
【コラム】パンデミックによる米国の労働力不足はAIニーズを呼び起こす大きなチャンスとなるのか?
【コラム】深層強化学習は私たちが知る製造業を変革する
【コラム】データを重視する企業はAIと同じくらい人にも価値を置くべきである

画像クレジット:Feodora Chiosea/Getty Images

原文へ

(文:Ralf Haller、翻訳:Hiroshi Iwatani)

ノーコードで非技術者でも使えるコンピュータービジョンを提供するMobius

ベルリンのMobius Labsが、同社のコンピュータービジョン訓練プラットフォームの需要増に応えるために、520万ユーロ(約6億8000万円)の資金調達を完了した。このシリーズAの投資ラウンドをリードしたのはVentech VCで、これにAtlantic LabsとAPEX Ventures、Space Capital、Lunar Ventures、および一部のエンジェル投資家が参加した。

ユーザーは同社が提供しているSDKにより、若干の訓練データのあるカスタムのコンピュータービジョンモデルを自分で作ることができる。一般的な類似製品として売られているソフトウェア製品には、ユーザーの特殊なユースケースに応じた細かいカスタム化ができないものが多い。

また同製品は「ノーコード」を謳っており、非技術系のユーザーでも使えるという。

Mobius LabsのプラットフォームはSDKであり、オンプレミスでもオンデバイスでもどちらでもデプロイできる。顧客がクラウドサービスに接続してAIツールを利用する、というタイプの製品ではない。

CEOでチーフサイエンティストのAppu Shaji(アップ・シャジ)氏は、次のように語る。「弊社のカスタム・トレーニング・ユーザー・インターフェースは、極めてシンプルで使いやすく、事前に何らかの技術知識を必要とすることはまったくありません。このところ私たちの目に入ってくるトレンドは、AIから最大の価値を引き出せるのは技術系の人間ではない、ということです。むしろ多いのは、報道やクリエイティブエージェンシーで仕事をしているコンテンツマネージャーや、宇宙企業のアプリケーションマネージャーなどです。日常的に、視像(ビジョン)の最も近いところにいるのが彼らであり、彼らはAIのエキスパートやデベロッパーチームが助けに来るのを待たずに仕事をしています」。

2018年に創業したMobius Labsでは、現在、30社の顧客企業がそのツールを使ってさまざまなユースケースを実装している。その用途は、カテゴリー分類やリコメンデーション、予測、そして一般的に「ユーザーやオーディエンスを彼らのニーズに合った視覚的コンテンツに接続する」ことだ。当然のことながら、報道や放送、ストックフォトなどの利用が多いが、実際には同社ユーザーの業界はもっと多様で、それぞれが同社の成長に寄与している。

ユーザー企業の規模も多彩で、スタートアップや中小企業もいる。ただしメインは、大量のコンテンツを扱うグローバルなエンタープライズだ。そのため、今でもメディアやビデオ関連の利用が最も多い。しかしながらそれでも、現在の同社は地理空間情報や地球観測といった多様な業種をターゲットとして狙っている。

現在の社員数は30名だが、過去1年半で倍増している。今度の資金で、今後1年以内にさらに倍増し、特にヨーロッパと米国を中心に地理空間情報方面の顧客を開拓したい、という。売り上げも前年比で倍増しているが、顧客をより多分野に広げることにより、さらなる増大を狙っている。

「主な対象業種はビジュアルデータの扱い量が多い業種です。ビジュアルデータの扱い量が多いという点では、地理空間情報の分野を逃すべきではありません。しかし、彼らが持つ膨大な量の生のピクセルデータは、写真などと違って他の役には立たないものだけどね」とシャジ氏はいう。

「彼らが私たちのプラットフォームを利用する例として、川に沿った地域の広がりを調べたければ、衛星からデータを集めて、それらを整列しタグづけして分析するだろう。今はそれを、手作業で行っている。私たちが開発した技術を、いわば軽量級のSDKとして使えば、それを衛星上に直接デプロイして、機械学習のアルゴリズムで分析できる。現在、実際に私たちはそのような観測画像分野の衛星企業と一緒に仕事をしています」。

シャジ氏が主な競合他社として挙げるのは、ClarifaiGoogle Cloud Vision APIだ。「どちらも大きくて強い相手ですが、彼らにできないことが私たちにはできます。彼らのソリューションと違い、私たちプラットフォームはコンピュータービジョンの専門家でない人が利用できる。機械学習のモデルの訓練を、技術者でない人が誰でもできるようになれば、コンピュータービジョンに誰もがアクセスでき、理解できます。仕事の肩書はなんでもいい」とシャジ氏はいう。

関連記事
Googleの画像認識/分類API、Cloud Vision APIが誰でも使える公開ベータへ
Clarifaiが3000万ドルを調達、ビジュアル検索技術をディベロッパーへ

「もう1つの重要な差別化要因は、クライアントデータの扱い方です。私たちはソリューションをSDKの形で提供するため、オンプレミスで完全にローカルにクライアントのシステム上で動作します。データが、当社に戻ってくることはありません。私たちの役割は、人々が自分でアプリケーションを構築し、自分たちのものにできるようにすることです」。

コンピュータービジョンのスタートアップはここ数年、買収のターゲットとして人気がある。一部のITサービス企業は「コンピュータービジョン・アズ・ア・サービス」を看板に掲げるスタートアップを買って自分のメニューを増やそうとしている。またAmazonやGoogleのような巨人は、自前のコンピュータービジョンサービスを提供している。しかしシャジ氏によると、この技術は今までとは異なる段階にあり、「大量採用」の準備が整っていると指摘している。

「私たちが提供しようとしているのは、技術者に力をつけるソリューションではなく、クライアント自身がアプリケーションを自分で作れるためのソリューションです」とシャジ氏は現在の競合状況についていう。「私たちのソリューションはオンプレミスで動き、私たちがクライアントデータを見ることはないため、データのプライバシーも完全です。しかも軽量級の使いやすいソリューションであるため、スマートフォンでもラップトップでも、あるいは衛星上でも、さまざまなエッジデバイスにデプロイできます」。

投資家を代表してVentech VCのパートナーStephan Wirries(ステファン・ウィリーズ)氏は次のように語っている。「Mobius LabsのAppuと彼のチームは、コンピュータービジョンの分野では他に類のないものです。そのSuperhuman Visionと呼ばれるプラットフォームは、感動的なほど革新的であり、新しいオブジェクトを見つけるための訓練が比較的簡単にできるし計算効率もいい。今後さまざまな産業がAIによって変わっていく中で、Mobius Labsはヨーロッパのディープテクノロジーの革新的なリーダー兼教育機械にもなることができるだろう。

関連記事:Googleの画像認識/分類API、Cloud Vision APIが誰でも使える公開ベータへ

画像クレジット:Yuichiro Chino/Getty Images

原文へ

(文:Natasha Lomas、翻訳:Hiroshi Iwatani)

ZOZO研究所が分布シフト研究促進に向けファッションの流行変化を検証するデータセット・実装基盤をオープンソースで公開

ZOZO研究所が分布シフト研究促進に向けファッションの流行変化を検証するデータセット・実装基盤をオープンソースとして公開

ZOZOテクノロジーズの研究開発組織「ZOZO研究所」は9月2日、同所研究員が研究において使用している大規模データセット「Shift15M」および実装基盤をオープンソースとして公開したと発表した。データセットおよび実用基盤をGitHub上に公開し、データセットの概要説明を同研究所上に掲載している。

また、同データセットを使用した研究結果をまとめた研究論文「SHIFT15M: Multiobjective Large-Scale Fashion Dataset with Distributional Shifts」をarXivに公開している。

ZOZO研究所は、「ファッションを数値化する」をミッションに掲げるZOZOグループの研究機関。ZOZOグループが保有するファッションに関する情報資産を基に、ファッションを科学的に解明するための研究開発を行っている。

同データセットは、ZOZO研究所が2020年公開した「Open Bandit Dataset」に続くオープンデータプロジェクトの第2弾。同データセットを公開することで、データの分布シフトが起こることによって生じる新たな課題を見出し、解決策を探るための研究開発を促進する一助となることを目指しているという。

Shift15M

Shift15Mは、ファッションアプリ「IQON」に投稿されたコーディネートを基に構成された大規模データセット(IQONは2020年4月にサービスを終了。公開データは商品やユーザーの特定が不可能なよう十分に匿名化しており、利用規約とプライバシーに配慮している)。

同データセットは、IQONのサービス提供期間である2010年から2020年までに投稿されたコーディネート約255万件のほか、これらのコーディネートを構成する約1500万件のアイテムに関する特徴量、アイテムカテゴリに関するデータやコーディネート投稿への「いいね」数などの関連データも含む。

データセットの詳細

  • アイテムの特徴量
  • コーディネートに含まれるアイテムの情報
  • アイテムやコーディネートの付加情報(投稿日時、「いいね」の数、ジャンル・カテゴリー、統計情報、学習のための教師信号など人間が付与したラベル)

データに収録されるアイテム数の詳細

  • コーディネートの数:2,555,147
  • コーディネートを構成するアイテム数(重複あり):15,218,721
  • コーディネートを構成するアイテム数(重複なし):2,335,598

あわせて公開する実装基盤では、コーディネートデータの年ごとに異なる傾向を認識し、その変化によって生じるデータ分布のシフトを再現実験で確認することが可能という。これによって、年々変化するファッションの流行をより正確にとらえ、研究のさらなる発展に役立てられるとしている。また、回帰問題、分類問題、集合マッチングなど、データ分布のシフトが生じる条件のもとで様々なタスクを検証するためのコードが整備されている。

分布シフト研究の発展を支える新たな研究基盤

ZOZO研究所による研究開発の1つに、ファッションの流行が変化しても、継続的に認識精度を高く保つことができるAI技術の実現を目的とするものがあるという。

ファッションに関連するデータは、流行の変化による影響を受け、分布シフトと呼ばれる数理的現象が生じると考えられている。分布シフトは、流行・時間などの変化に伴って入力データの分布が変化することで生じ、ファッションに限らず多くの分野に共通して現れる現象とされる。この分布シフトによって、AIの認識精度が低下することから、近年注目を集めているそうだ。ZOZO研究所が分布シフト研究促進に向けファッションの流行変化を検証するデータセット・実装基盤をオープンソースとして公開

ただ分布シフトの検証は、AI技術の実用性にかかわる重要なテーマである一方、検証に用いる実用的なデータセットの不足により、学術界における当該分野の研究の進展はこれまで制限されてきたという。

そこで、分布シフト研究の発展を支える新たな研究基盤として、ZOZO研究所が保有する実データで構成された大規模データセット「Shift15M」と実装基盤を公開することを決定した。

同データセットと実装基盤は、ファッションに限らず幅広い分野での活用が可能としている。分布シフトの再現実験と典型的なタスクにおける効果検証や比較検証など、目的に合わせて利用できる。

機械学習のデベロッパーツールを開発するExplosionはオープンソースと商用プロダクトを併用

オープンソースの機械学習ライブラリと一連の商用のデベロッパーツールを併用してサービスを提供するExplosionは米国時間9月2日、1億2000万ドル(約131億7000万円)の評価額による600万ドル(約6億6000万円)のシリーズAを発表した。SignalFireはこのラウンドをリードし、同社は投資額は評価額の5%に相当するという。

この投資にともない、SignalFireのOana Olteanu(オアナ・オルテアヌ)氏が取締役会に加わる。なおこのラウンドには、同じ評価額による1200万ドル(約13億2000万円)の追加投資の保証が含まれている。

Explosionの共同創業者でCEOのInes Montani(イネス・モンタニ)氏は、次のように語っている。「基本的にExplosionはソフトウェア企業であり、AIと機械学習と自然言語処理のデベロッパーツールを開発しています。目標はデベロッパーの生産性を上げ、自然言語処理をもっと利用していただき、大量のテキストを理解できるように機械学習のモデルを訓練し、それによって工程の一部を自動化していただくことです」。

同社が発足したのは2016年で、モンタニ氏がベルリンで共同創業者のMatthew Honniba(マシュー・ホニバ)氏に会ったときだ。そのときモンタニ氏はオープンソースの機械学習ライブラリspaCyを書いていた。その後、そのオープンソースのプロジェクトは4000万回以上ダウンロードされた。

2017年、同社は機械学習のモデルのためにデータを生成する商用プロダクトProdigyを加えた。モンタニ氏は次のように語っている。「機械学習はコード、プラス、データであるため、その技術を有効に利用するためには、常にモデルを訓練してカスタムのシステムを作らなければなりません。なぜなら、最も価値があるものは、ユーザーにとって固有の問題(一般性汎用性のない)と、そのビジネスそして、何を見つけたいのかということです。そのため訓練用のデータを作って機械学習のモデルを訓練するという部分には、ほとんど注意を払いません」。

今回資金を調達した最大の理由が、Prodigy Teamsと呼ばれる同社の次のプロダクトだ。モンタニ氏によると「Prodigy Teamsはユーザーに対しホスティングされるサービスで、ユーザー管理とコラボレーションの機能をProdigyに追加します。しかもそれをセキュリティ完備のクラウドで動かすため、Prodigyが好まれている最大の理由、すなわちデータの守秘が損なわれず、いかなるデータもサーバーがそれを見る必要性がありません」。そのためには、データをプライベートクラウドにある顧客のプライベートクラスターに置き、それからパブリックなクラウドサービスにあるProdigy Teamの管理機能を使っていく。

今日では、MicrosoftやBayerなどおよそ500社がProdigyを利用し、また数百万のオープンソースユーザーによる大きなコミュニティもある。Explosionわずか6名の初期の社員たちで、これらのシステムをすべて開発したが、年内には20名に増員したいとのこと。

ダイバーシティに関して、モンタニ氏の意見では雇用に際してこだわり過ぎると、それ自体が問題になる。「何も考えずに結果的にダイバーシティが実現するのはいいけど、義務感に駆られてダイバーシティを気にするようになると、それ自体が問題になる」と彼女はいう。

「現在、自分の会社に20代の白人男性が50名いて、そこにいわゆるダイバーシティのために20代の非白人男性を入れようとすると、なかなかうまくいかずそれ自体が問題になります。しかし私たちの場合、いい人を雇おうとしているだけなので、いい人だけを採用していたら自然にダイバーシティになる。スタートアップの教科書のようなものを気にし始めたら、いろいろなことで制約にぶつかる」。

彼女によると、彼女自身はこれまで、出来合いの教科書のようなものを気にしたことがない。「資金を調達するのも今回が初めてだし、チームは自然に成長した。外部資金を導入するまでは、会社の利益と独立性だけを気にしていた」と彼女は言っている。

しかしお金以上に問題になるのが、モンタニ氏によると、オープンソースに対する投資家の理解だ。会社のあらゆる部分を大きくできるだけの資本を持っているだけでなく、そのビジネスのオープンソースの側面を理解できる投資家を見つける必要がある。「オープンソースはユーザーと顧客と従業員のコミュニティです。彼らは今生きてる人間であり、スタートアップというゲームの『歩(ふ)』ではなく、しかもゲームですらありません。リアルな人間のリアルな営みです」とモンタニ氏はいう。

「彼らは単なる私の手足ではない。だから資本と引き換えに少量の株を売ったからといって、オープンソースは依然として私たちの企業の核であり、妥協できない部分です」とモンタニ氏は言っている。

画像クレジット:Usis/Getty Images

原文へ

(文:Ron Miller、翻訳:Hiroshi Iwatani)

AIを使って企業の電話着信を管理するGoodcallが約4億3900万円を調達し、Yelpとの提携を発表

人員不足がなかったとしても、地方の商店では、スタッフが忙しい中、同時に電話に対応するのは困難だ。そこで、Goodcall(グッドコール)は、アメリカの3,000万の中小企業の負担を少しでも軽減したいと考えている。

Goodcallは、人工知能を活用して電話の着信を管理し、あらゆる規模における企業のカスタマーサービスを向上させる、クラウドベースの会話プラットフォームを無料で提供している。Goodcallは、Google(グーグル)の元役員であるBob Summers(ボブ・サマーズ)氏が、実験的プロジェクトのための社内インキュベータープログラム、Area 120に取り組んでいたグーグルを1月に退社して立ち上げたもので、同氏は電話の抱える問題に気づき、実際に加盟店にかかってくる電話の60%が応答されていないことを指摘していた。

「これは、あなたにとっても、電話をかけてきた人にとっても、イライラするものです。電話に出られないことは、機会損失につながります。」とTechCrunchに語っている。

Goodcall社は、戦略的投資家であるNeo(ネオ)社、Foothill Ventures(フットヒル・ベンチャーズ)社、Merus Capital(メルス・キャピタル)社、Xoogler Ventures(ゾグラー・ベンチャーズ)社、Verissimo Ventures(ベリッシモ・ベンチャーズ)社、VSC Ventures(VSCベンチャーズ)社に加え、Pipe.com社の創業者兼共同CEOであるHarry Hurst(ハリー・ハースト)氏、Zillow(ジロー)社の共同創業者であるSpencer Rascoff(スペンサー・ラスコーフ)氏などのエンジェル投資家から400万ドル(約4億3900万円)のシード資金を得て、水曜日(米国時間9月1日)にサービスを開始することを発表した。

Goodcallのモバイルエージェント(画像クレジット:Goodcall)

Goodcallは、レストラン、ショップ、商店などが数分で設定でき、さらに現地の電話番号を設定することで、オーナーの携帯電話番号をビジネスのメイン回線にする必要がなくなる。このサービスはまず英語で展開され、2022年までにスペイン語、フランス語、ヒンディー語での運用を予定している。

加盟店は、6種類からアシスタントの声を選ぶことができ、通話ログや通話内容をモニターすることができる。Goodcallは消費者の感情も把握できるとサマーズ氏は言う。

同社は3つのオプションを用意しており、そのうちの1つは、個人事業主やビジネスオーナー向けのフリーミアムサービスで、1つの電話回線で月に500分までGoodcallのサービスを受けることができる。さらに5つの拠点と5人のスタッフまで追加できるProレベルは月額19ドル(約2090円)、拠点とスタッフが無制限になるPremiumレベルは月額49ドル(約5380円)となっている。

同社のテスト期間中、Goodcall社は月に数千件の電話対応を処理していた。今回の資金調達は、無料サービスの継続、エンジニアの雇用、製品開発の継続に充てられる。

今回の資金調達に加えて、Goodcall社はYelp(イェルプ)社との提携を発表しており、Yelp社が保有するローカルビジネスのデータベースを活用して、企業のオーナーや管理者がGoodcall社を簡単に導入できるようにするねらいだ。Yelpのデータによると、パンデミックの間に50万以上の企業が新たにオープンしたとのことだ。Goodcallは、Yelpから営業時間、所在地、Wi-Fiの有無、COVID対策ポリシーなどの情報を引き出せる。

「私たちは、小規模企業に関する最高のデータを持つYelpや、その他の大規模な流通チャネルと提携して、製品を市場に送り出しています。私たちは、1980年代から革新のなかった業界にテクノロジーを導入し、雇用創出の主役でもある小規模企業のために会話型AIを普及させ、その成長を支援したいと考えています。」とサマーズ氏は語っている。

[原文へ]

ウェブ向けクリエイティブの制作・改善をAIとデータを活用し実現する「AIR Design」のガラパゴスが約11億円調達

ウェブ向けクリエイティブの制作・改善をAIとデータを活用し実現する「AIR Design」のガラパゴスが約11億円調達

ウェブマーケティング・ウェブ広告に必要なクリエイティブ(バナー・ランディングページ・動画)の制作および改善をAIとデータを活用し実現する「AIR Design」を手がけるガラパゴスは9月1日、シリーズAラウンドにおいて、第三者割当増資による約11億円の資金調達を発表した。引受先として、既存株主のArchetype Ventures、みずほキャピタル、Globe Advisors Venturesに加え、新たにSTRIVE、THE FUND(シニフィアン が運営するグロース・キャピタル)、DIMENSION、THE GUILDの計7社が参加した。調達した資金は、AIR Designのプロダクト開発とマーケティング、採用強化にあてる。

AIR Designは、2019年秋にサービスを開始。2年弱で300社以上の広告制作に導入されたという。この成長を加速させるべく、今後は「デマンド・サイド(顧客開拓)」「サプライ・サイド(制作キャパシティ)」「プロダクト・サイド(システム開発)」の3方向に注力するとしている。

ウェブ向けクリエイティブの制作・改善をAIとデータを活用し実現する「AIR Design」のガラパゴスが約11億円調達

  • デマンド・サイド(顧客開拓):AIR Designの導入パートナーとしての代理店ネットワーク構築
  • サプライ・サイド(制作キャパシティ):社員や外注パートナーとしてのデザイナーネットワーク構築
  • プロダクト・サイド(システム開発):AIとデータを活用したSaaSプロダクトの開発

ガラパゴスは、「プロセスとテクノロジーで人をよりヒトらしく」をフィロソフィーに、属人性が強く再現性に乏しいデザイン領域のDXを推進し、コストパフォーマンスに優れたクリエイティブを広告主に提供するとともに、デザイナーがルーチンワークから解放され、スキルアップと付加価値向上に専念できる環境作りを目指すとしている。

NVIDIAの最新技術はAIの声をより表現豊かでリアルな人間の声のように

Amazon(アマゾン)のAlexaやGoogleアシスタントなどのAIアシスタントの音声は、昔のGPSなどに比べればずっと良いが、それでもリズムや抑揚などは本物の人間に及ばない。しかしNVIDIAがこのほど発表した研究とツールは、そうした自然な発話を捕捉するためにユーザーがAIを自分の声で訓練できる。発表は、Interspeech 2021カンファレンスで行われた。

AIが行なう音声の合成を改良するためにNVIDIAのテキスト読み上げ研究チームは、アバターの本物らしさを競う、放送事業者の大会NAB Showのコンペで優勝したシステムであるRAD-TTSと呼ばれるモデルを開発した。このシステムは、人が自分の声でテキストから音声への読み上げを訓練することができ、AIの習得内容には発話のテンポや調性、音色なども含まれる。

 

もう1つのRAD-TTSの特長は、声の変換だ。ユーザーが別の人物の声で話者の語りを伝えて、その人物の声でAIを訓練できる。それにより、合成音声のピッチや持続、声の強さなどを個々のフレームのレベルで微調整できる。

この技術を使ってNVIDIAの研究者たちは、本物の会話のように聞こえるナレーションを作り、同社のビデオシリーズ「I Am AI」用に、人間の声でなく合成音声を使うことができた。その狙いはナレーションをビデオのトーンとスタイルに合わせるためであり、それは今日までのAIがナレーションしているビデオではうまくできなかったことだ。結果はまだ少々ロボット的だが、これまで聴いたどんなAIナレーションよりも良い。

「ビデオのプロデューサーはこのインタフェースを使って、ビデオの台本を読んでいる自分自身を録音でき、それからAIのモデルを使って彼の発話を女性ナレーターの声に変換できる。この基準的なナレーションがあれば、プロデューサーはAIを声優のようにディレクションすることができ、合成音声を加工して特定の語を強調したり、ナレーションのペーシングを変えてビデオのトーンをもっとうまく表現したりできる」とNVIDIAは説明している。

NVIDIAはこの研究の一部を一般に公開しているが、もちろんNVIDIAのGPUで効率的に動くように最適化されている。オープンソースで試してみたい人は、GPUで加速した会話的AIのためのPythonツールキットNVIDIA NeMoを使えばよい。同社の、コンテナやその他のソフトウェアのハブであるNGCで入手できる。

NVIDIAの説明では「一部のモデルは、NVIDIA DGXシステムの上で数万時間分のオーディオデータで訓練されている。デベロッパーは自分のユースケースのために、どのモデルでも微調整でき、NVIDIA Tensor Core GPU上の混合精度コンピューティングを使って訓練をスピードアップできる」という。

編集注:本記事の初出はEngadget。執筆者のSteve DentはEngadgetの編集者。

関連記事
rinnaが日本語に特化したGPT-2とBERTの事前学習モデルを開発しオープンソース化
英国の競争・市場庁が、NVIDIAのArm買収に「競争を阻害するおそれがある」との懸念を示す
NVIDIAのAIペイントソフト「Canvas」はいたずら書きを瞬時にリアルな風景に変える
画像クレジット:NVIDIA

原文へ

(文:Steve Dent、翻訳:Hiroshi Iwatani)