アップル、Siriに「性別の区別が明確につかない声」を追加

Apple(アップル)が、男性とも女性とも明らかな区別がつかない新しいSiri(シリ)の音声を開発した。このSiriの声は、iOS 15.4のベータ版で、言語を「英語(アメリカ合衆国)にすると利用可能になる。アップルは歴史的に、同社のデジタルアシスタントが不当な性差の固定観念を強化してきたという批判を受けてきた。今回のジェンダーニュートラルな音声を導入するという決定は、この大手テクノロジー企業がその批判から、また一歩距離を取るためのものと見ることができる。

長年にわたり、業界のオブザーバーや専門家は、Alexa(アレクサ)、Siri、Cortana(コルタナ)といった女性っぽい名前の音声アシスタントが作られ、それも女性っぽい声で話すことは、女性がいつでも言いなりになり、虐待さえ甘んじて受けるべきという考え方を暗示するものだと主張してきた国連の研究では、女性の声のアシスタントが従順で、時には媚びるようにさえ感じられることを指摘している。

さらに問題なのは、多くのバーチャルアシスタントをデフォルトで女性に設定するという決定は、私たちの日常的なテクノロジーの構築を担うチームに多様性が欠けているために行われている可能性が高いということだ。この問題は、AI音声の軽率な選択につながるだけでなく、女性にとって便利なツールの進化を遅らせる原因にもなってきた。例えば、人類の約半数に関連する健康指標であるにもかかわらず、アップルが「ヘルスケア」アプリに生理日追跡機能を搭載すべきだと気づくまでに何年もかかったのだ。

アップルは2021年、その信用を得るために、Siriの声に関する懸念に対処し、より多様な声を追加したアップデートを配信した際に、Siriの声がデフォルトで女性に設定されないようにした。

関連記事:アップルが英語圏のSiriに2つの新たな声を追加、「女性」の声のデフォルト設定は廃止に

しかし、AIの音声アシスタントの性別について、まったく考えなくて済むとしたらどうだろう?

それは明らかに、今回Siriに5番目の声を追加した意図である。アップルはまだそうはっきりと明言しているわけではないが。

しかし、iOSソフトウェアのコードを見れば、アップルの考え方を知るためのいくつかのヒントを得ることができる。

開発者のSteve Mosser(スティーブ・モッサー)氏は、iOS 15.4ベータ版の初期のバージョンで、性的区別のないSiriの声への参照を見つけ、今週には米国向けに用意された5番目のSiriの声が「Quinn(クイン)」というファイル名でベータ4に追加されたことを指摘した

Quinnはアイルランドを起源とする名前で、性別にとらわれない名前として知られ、長年にわたって男の子にも女の子にも使われてきた。これが新しいSiriの声にもなっているのは、偶然ではないだろう(ただし、アップルは音声ファイル名をエンドユーザーには表示しておらず、ユーザーインターフェース上では「声 1」「声 2」「声 3」等と表示される)。

Quinnの声は聞く人によって、少し女性っぽく、あるいは男性っぽく聞こえるかもしれない。だが、男性か女性かどちらかに決めて聞くようにすれば、その通りに解釈されるようになるだろう。

しかも、この新しい声は、ひと昔前のようなロボット的な調子に戻ることなく、性別を超えて聞こえるのだ。以前から他のSiriの声で聞かれるような自然な抑揚と滑らかな移行があり、人間らしい声であることに変わりはない。

アップルはTechCrunchに、新しい声はLGBTQ+コミュニティのメンバーによって録音されたと述べている。その自然な音声には、Neutral Text to Speech(ニューラル・テキスト・トゥ・スピーチ、Neural TTS)技術が活用されている。英語圏の音声はすべてNeural TTSを使用しており、他の6言語(フランス語、ドイツ語、スペイン語、中国語、日本語、韓国語)の音声も同様だ。ユーザーは、デバイスの設定とSiriの音声を選択する際に、合計16の言語から選択することができる。

インクルージョンに関してアップルは、Siriの音声だけでなく、デジタルアシスタントの発言にも力を注いできたた。過去数年の間に、アップルは「Black Lives Matter(ブラック・ライブズ・マター)」や「Stop Asian Hate(ストップ・アジアン・ヘイト)」に関するSiriの応答を追加し、ジェンダーやセクシュアリティに基づく暴言に対する強い応答を導入してきた。同社はまた、Speak Screen(スピークスクリーン、画面を読み上げ)、Dictation(ディクテーション、音声によるテキスト入力)、Voice Control(ボイスコントロール、音声コントロール)といった、数々の音声アクセシビリティ機能も導入してきた。

「私たちは、英語を話す人向けに新しいSiriの声を導入し、ユーザーが自分に話しかける声を、より多くの選択肢の中から選べるようにできることを大変うれしく思います」と、アップルの広報担当者は、新しいSiriの声について問い合わせた我々に答えた。「私たちが住む世界の多様性をより良く反映した製品とサービスを開発するというアップルの長年のコミットメントの一環として、私たちは2021年、2つの新しい音声を導入し、音声のデフォルト設定を廃止しました。世界中の何百万人もの人々が、毎日何かをするためにSiriを頼りにしています。そのため、私たちはできるだけパーソナライズされた体験が感じられるようにしようと力を入れています」と、アップルの広報では述べている。

新しい音のオプションは、3月中に配信が予想されるiOS 15.4で、英語話者向けに導入される予定だ。

画像クレジット:Thomas Trutschel / Contributor / Getty Images

原文へ

(文:Sarah Perez、翻訳:Hirokazu Kusakabe)

カスタマーサービスの電話応対をAlexaを使うようにするRedRouteが約7.5億円調達

RedRouteの創業者。左からCROのサム・クルット氏、CEOのブライアン・シフ氏、CTOのジェイコブ・クーパー氏(画像クレジット:RedRoute)

音声によるカスタマーサービス体験と会話型人工知能のスタートアップであるRedRoute(レッドルート)は、訪れる3500億ドル(約40兆円)規模のカスタマーサービス自動化分野を狙っている。

Brian Schiff(ブライアン・シフ)氏、Sam Krut(サム・クルット)氏、Jacob Cooper(ジェイコブ・クーパー)氏が2015年に同社を設立したとき、彼らはまだコーネル大学の学部生で、当初は大手交通会社が営業していない大学キャンパス内での乗り物を探すための、Uberのようなソーシャルな交通用アプリであったという。

シフ氏はTechCrunchに、多くのタクシー会社と仕事をする中で、ビジネスの多くが電話でタクシーサービスに入ってきており、リクエストが多すぎて電話担当者が足りなくなっていることに気づいたと語っている。そこで、カスタマーサービスやコンタクトセンターのバックエンドチャネルを改善する機会があることに気づいたのだ。

多くの人がAmazon(アマゾン)のAlexaやGoogle Home、音声操作のテレビを家に備え付けるようになり、音声技術の現代の世界を見て、3人は2017年に事業を変更し、カスタマーサービスの世界でも同様の体験を実現することにしたのだ。

画像クレジット:RedRoute

その仕組みはこうだ。カスタマーサービスに電話をかけると、音声操作の「Alexaのような体験」で挨拶をしてくれるのを想像してみて欲しい。そこで電話をかけてきた人とやり取りをし、簡単な要望を解決する手助けをしてくれる、とシフ氏は説明してくれた。

シフ氏によると、RedRouteのセットアップは30分程度で完了し、顧客は初期費用ゼロでソフトウェアを試すことができる。リスクフリーでパフォーマンスベースの価格設定は業界初だという。同氏は、RedRouteのAIは、平均して50%のリクエストを完全にこの製品で処理できると見積もっている。残りの50%の複雑な電話については、RedRouteが情報を取得し、それらの電話対に費やせる時間が増えたエージェントに繋いでくれる。

彼らは1年間製品に取り組み、2018年初めに市場に参入し、運送業の顧客と連携している。2020年にパンデミックが発生すると、RedRouteはコンタクトセンターの領域にさらに進出し、現在ではBrooklinen(ブルックリネン)、UNTUCKit(アンタックイット)、Pair Eyewear(ペアアイウェア)、GNCなどの顧客と連携している。

「eコマースに進出するタイミングでした。パイロットで成功した最初の顧客と一緒に入り、規模を拡大し始めました。そして、その努力を倍加させるために、資金調達に踏み切ったのです」とシフ氏は語った。

彼のいう資金調達ラウンドとは、Scoop Venture Capital(スクープ・ベンチャー・キャピタル)とBullpen Capital(ブルペン・キャピタル)が主導し、エンジェル投資家のグループも参加した650万ドル(約7億5300万円)のシード資金調達のことだ。RedRouteは以前、200万ドル(約2億3100万円)のプレシードラウンドを調達している。

シフ氏は、この新しい資金を、全面的な事業の成長、製品開発、主要なリーダーシップに使う予定だ。

RedRouteの競合他社と比較すると、初期費用ゼロなのと、顧客とインテリジェントに関わり、会話をし、自身で要求を完了するコールオートメーション技術を提供することによって、自社が差別化されると彼は見ている。また、同社は小規模なコンタクトセンターもターゲットにしており、そこではコールオートメーション技術の採用がまったくと言っていいほど進んでいないとシフ氏はいう。

「これらの企業は、既存の技術スタックにあらかじめ統合され、エンジニアリングや大規模な先行投資を必要としない既製品を購入しようとしています。私たちは、初期費用なしで、30日間無料で、30分ほどで起動し、初日から結果を見ることができるようなソリューションを提供しています」と彼は付け加えた。

一方、RedRouteは現在100社の顧客を抱え、第4四半期には売上が10倍となり、3倍の成長を遂げている。第4四半期には売上が10倍になり、3倍になった。eコマースの方は「すごい勢いで伸びている」といい、運送の方も「回復している」と付け加えた。

シフ氏は「我々は、製品と市場の適合性が確立された位置にいると感じています。我々は大きな月に強力な牽引力を発揮し、その成長のさせ方を理解しており、今がその規模を拡大するチャンスです。これが、私たちが毎日考え、取り組んでいることなのです」と語った。

原文へ

(文:Christine Hall、翻訳:Akihito Mizukoshi)

【コラム】いずれメタバースは、あなたをモニターし行動を操作する世話役AI「ELF」で埋め尽くされる

メタバースはマーケティング上の誇大広告に過ぎないという人もいれば、社会を一変させると主張する人もいる。私は後者に属するが、多くの人が提唱しているようなアバターで埋め尽くされたアニメの世界について言っているのではない。

むしろ、社会を変えるような真のメタバースは、現実世界上の拡張レイヤーであり、10年以内にショッピングや社交からビジネスや教育まで、あらゆるものに影響を与え、私たちの生活の基盤になると考えている。

関連記事:【コラム】Web3の根拠なき熱狂

また、企業が管理するメタバースは社会にとって危険であり、積極的な規制が必要だと考えている。なぜなら、プラットフォームのプロバイダーは、SNSが古いと感じるようなやり方で消費者の操作が可能になるからだ。多くの人は、データ収集やプライバシーに関する懸念に共感しているが、メタバースで最も危険なテクノロジーであろう人工知能を見落としているのではないか。

実際、メタバースのコアテクノロジーを挙げろといわれれば、たいてい人はアイウェアを中心に、グラフィックエンジンや5G、あるいはブロックチェーンなどを挙げるだろう。しかし、それらは私たちの没入型未来の仕組みに過ぎない。メタバースにおいて糸を操り、私たちの体験を創造(操作)するテクノロジーはAIなのだ。

人工知能は、私たちのバーチャルな未来にとって、注目を集めるヘッドセットと同じくらい重要な存在になるだろう。そしてメタバースの最も危険な部分は、他のユーザーと同じような見た目で、他のユーザーと同じように行動するが、実はAIによって制御された模擬人格である課題志向の人工主体だ。彼らは私たちに「会話的操作」を行い、人工主体が本物の人間でないことに気づかないうちに、広告主に代わって私たちをターゲットにするだろう。

特に、AIアルゴリズムが表情や声の抑揚を読み取って私たちの感情状態を監視しながら、私たちの個人的な興味や信念、習慣や気質に関するデータにアクセスするようになると危険だ。

SNSにおけるターゲット広告が操作的だと思うかもしれないが、これはメタバースで私たちに関わる会話型エージェントの比ではない。彼らは人間のどんな販売員よりも巧みに私たちに売り込み、単にガジェットを売るだけでなく、最も資金を支払った人のために政治的プロパガンダやターゲットとなる誤報を押し付けてくるだろう。

そして、これらのAIエージェントは、メタバースにおける他の人と同じように見え、同じように話すので、広告に対する私たちの自然な懐疑心は働いてくれない。これらの理由から、私たちはAIによる会話エージェントを規制する必要がある。特に、AIが私たちの顔や声の情緒にアクセスでき、私たちの感情をリアルタイムで私たちに対して利用することが可能になる場合だ。

これを規制しないと、AIドリブンのアバターの形をした広告は、あなたが疑っているのを察知して、文章の途中で戦術を変え、あなた個人にインパクトを与える言葉や画像にすばやく照準を合わせてくるだろう。2016年に書いたように、AIが学習して世界最高のチェスプレイヤーや囲碁の棋士に勝てるなら、消費者を揺さぶることを学習して私たちの利益にならないものを買わせる(そして信じさせる)のは朝飯前だ。

しかし、私たちに向かってくるすべてのテクノロジーの中で、メタバースにおいて最も強力かつ精緻な強制力を持つことになるのは、私が「エルフ」と呼ぶものだ。この「デジタル生活促進者(electronic life facilitators、ELF)」は、SiriやAlexaのようなデジタルアシスタントの自然な進化形だが、メタバースでは姿なき声にはならない。消費者ごとにカスタマイズされた擬人化された人格になるだろう。

プラットフォームのプロバイダーは、これらのAIエージェントを仮想ライフのコーチとして販売し、あなたがメタバースを探索している間、1日中しつこく付きまとう。そして、メタバースは最終的に現実世界の拡張レイヤーとなるので、デジタルエルフは、あなたが買い物をしていても、仕事をしていても、ただぶらぶらしているだけでも、どこにいてもあなたと一緒にいることになる。

そして上記のマーケティングエージェントのように、これらのエルフたちは、あなたの顔の表情や声の抑揚、そしてあなたの生活の詳細なデータ履歴にアクセスし、あなたに行動や活動、製品やサービス、さらには政治的見解に至るまでをそっと促すようになる。

そして彼らは、今日のような粗雑なチャットボットではなく、身近な友人、親切なアドバイザー、気遣いのできるセラピストのような、人生において信頼できる人物として認識されるようになるキャラクターとして具現化される。しかも、友人にはできないような方法で自分のことを知り、血圧や呼吸速度に至るまで、自分の生活のあらゆる面を(信頼できるスマートウォッチを通じて)モニタリングする。

そう、これは不気味だ。だからこそプラットフォームのプロバイダーは、付きまとってくる人間サイズのアシスタントというよりも、あなた自身の「人生の冒険」の魔法のキャラクターのように見える、無邪気な特徴と物腰を持つ、かわいくて脅威を感じさせないエルフを作るのだろう。これが私が「エルフ」という言葉を使って表現した理由だ。エルフは、あなたの肩越しにいる妖精、あるいはグレムリンやエイリアンのような見た目かもしれないからだ。こうした小さな擬人化したキャラクターは、耳にささやいてきたり、私たちの前に飛び出して、こちらに注目して欲しい拡張世界のものに注意を引かせたりすることができる。

これが特に危険な点だ。規制がなければ、こうした「人生のお世話役」はお金を払った広告主に乗っ取られ、現在のSNSのどんなものよりも優れた技術と精度であなたをターゲットにすることになるだろう。そして、今日の広告とは異なり、これらの頭の良いエージェントは、かわいい笑顔やくすくすした笑いとともにあなたの周りを付きまとい、一日をガイドすることになるのだ。

このようなことが実際にどのように起こるのか、ポジティブな面もネガティブな面も伝えるために、2030年以降にAIが私たちの没入型ライフをどのように導いていくのかを描いた短いストーリー、「Metaverse 2030」を書いた。

最終的に、VR、AR、AIの技術は、私たちの生活を豊かにし、向上させる可能性がある。しかしこれらが組み合わさると、イノベーションは特に危険なものになる。これはこのような技術に共通する強力な特性、つまりコンピュータで作られたコンテンツがたとえ意図的に作られた捏造であっても、本物であると信じさせることができるという特性が理由だ。この強力なデジタル欺瞞能力こそが私たちがAIを活用したメタバースを恐れるべき理由であり、それが宣伝目的でユーザーにサードパーティアクセスを販売する強力な企業によって管理されている場合には特にそうなのだ。

メタバースの技術に問題が根付いてしまって元に戻せなくなる前に、消費者や産業のリーダーが意義のある規制を推進してくれることを期待して、私はこれらの懸念を提起したいと思う。

編集部注:本稿の執筆者Louis Rosenberg(ルイス・ローゼンバーグ)氏は、仮想現実と拡張現実のパイオニアであり、Unanimous AIのCEO。

画像クレジット:TechCrunch/Bryce Durbin

原文へ

(文:Louis Rosenberg、翻訳:Dragonfly)

アップル、iOS 15.2でSiri専用の「Apple Music Voiceプラン」を開始

Apple(アップル)が、秋のハードウェアイベントで発表したApple Musicの低価格プラン「Voiceプラン」へのアクセスを開始する。このサービスは。ほぼHomePodのスピーカーとAirPods専用で、主にSiriのコマンドでApple Musicにアクセスする。音声だけで操作するこのシンプルなバージョンは、標準の個人プランの月額9.99ドル(税込980円)に対して、月額4.99ドル(税込480円)で提供される。

関連記事:アップルがSiriでのみ利用できる安価なApple Music Voiceプランを発表、月額480円

音楽の新サブスクリプションはiOS 15.2のさまざまなアップデートの一環で、他にもアプリのプライバシー報告や、メッセージの子どもの安全警告「メールを非公開」によるプライバシー機能などがある。

音声コマンド専用の音楽サブスクなんて誰が必要とするんだ?と疑問に思った人もいるかもしれないが、実のところ、初めてそれを提供するのはAppleではない。

2019年、Amazon(アマゾン)はAmazon Musicサービスをもっと手頃な価格で提供する方法として無料で広告入りのプランを、Echoスピーカー専用として用意した。つまりそれは、AlexaのコマンドからしかアクセスできないAmazon Musicだった。

今回のSiriだけサービスもそれと似ているが、Appleのスマートスピーカーだけに限定されていない。AppleによるとHomePod、AirPods、iPhone、CarPlayなど、Siri対応のデバイスなら何でもよいとのことだ。

この音声オンリーのプランは、曲数が少ないApple Musicの簡易バージョンではない。これまでのサブスクと同じく、会員はApple Musicのカタログに載っている9000万曲や数万のプレイリスト、数百種類のムード、アクティビティプレイリスト、個人化されているミックス、ジャンル別のステーションなどにアクセスできる。Apple Music Radioも含まれている。

このコンテンツにアクセスするために、ユーザーは曲やアルバムやアーティストをSiriにリクエストし、おそらくは「play something chill(チルな曲をプレイして)」や「play the dinner party playlist(ディナーパーティー用のプレイリスト)」「play more like this(こんな曲をもっと)」といった音声コマンドでジャンルやプレイリストを指定するだろう。

Voiceプランの会員は、Apple Musicアプリをある程度利用できる。しかし通常のようにライブラリ全体を閲覧するのではなく、「今すぐ聴く」に先にプレイされた曲が表示され、タップやSiriのコマンドでそれに似た曲を聴くことができる。「ラジオ」は、ライブやオンデマンドのラジオにアクセスできる。検索機能もあるが、検索結果の曲はSiriに要求しないと再生されない。アプリには、Apple Music向けにSiriを最適化する方法も紹介されている。

Siriへのフィードバックは「I like this song(この曲は好き)」とか「I don’t like this song(この曲は好きではない)」などといえばよい。Siriは、歌手の名前や、曲名、アルバム名、発売年なども教えてくれる。

音声でApple Musicに付き合うことは、Siriを訓練することにもなり、ユーザーの好みをよく理解するようになる。そうなると、Siriに「play some music I like(私が好きな音楽をかけて)」や「play my favorites mix(私の好きなミックスをかけて」」などとお願いすると、そのとおりの曲をかけてもらえるようになるだろう。

AmazonのEchoオンリープランに対抗し、Apple MusicのVoiceプランはユーザーのSiriの利用履歴にAppleがアクセスできるようにしている。そしてそのデータを利用して、AlexaやGoogleアシスタントと比べて後塵を拝しているプロダクトを改良することができる。より大きな意味では、有料の音楽サービスを利用することをためらっていたお金に敏感なユーザーに、初めてそれを試してもらう機会になる。広告のない音楽をオンデマンドで聴けることの良さに目覚めたら、Pandoraの広告入りバージョンから離れるかもしれない。

関連記事:安価なApple Music VoiceプランはSiriの改良を進める作戦である可能性が高い

iOS 15.2のアップデートにより、Apple Music Voiceが提供されるのは、オーストラリア、オーストリア、カナダ、中国、フランス、ドイツ、香港、インド、アイルランド、イタリア、日本、メキシコ、ニュージーランド、スペイン、台湾、英国、米国となる。

画像クレジット:Apple

原文へ

(文:Sarah Perez、翻訳:Hiroshi Iwatani)

アマゾンがAlexaを病院や高齢者施設に導入、Alexaで家族の呼び出しやニュースの確認などが可能に

Amazon(アマゾン)はすでにホテル集合住宅などの分野をターゲットに含めていたが、米国時間10月25日、医療機関や高齢者施設向けに新しいソリューションを展開すると発表した。このソリューションは、Alexa Smart Properties(アレクサ・スマート・プロパティーズ)の一部だ。Alexaデバイスを大規模に導入するニーズに応えるために特別に設計されており、施設の管理者は、患者や入居者のためにカスタマイズされた体験を作り出すことができる。

高齢者施設の入居者は、Alexaデバイスを使って家族など大切な人を呼び出したり、コミュニティでの出来事などのニュースを把握したりすることができる。Alexaデバイスは、お知らせ、音声メッセージによる入居者同士のコミュニケーション、音声通話やビデオ通話、チェックインやメンテナンスの依頼、さまざまな管理業務など、施設での活動の効率化にも利用できる。Amazonは、これが施設の効率化と生産性の向上に資すると考えている。

Amazonによると、Atria(アトリア)やEskaton(エスカトン)などの高齢者施設が、この新しいソリューションを導入するという。

高齢者施設でAlexaを利用する市場は、K4Connectのようなサードパーティプロバイダーがすでに開拓している。K4Connectは2020年、Alexaの音声アシストを含む新しいテクノロジーを高齢者や障害者に提供するため、シリーズBで2100万ドル(約24億円)を調達した。K4Connectをはじめ、Lifeline Senior Living、Aiva、Voceraなどの企業も、Alexa Smart PropertiesのツールやAPIを利用し、独自にカスタマイズしたソリューションやソフトウェアを展開しようとしている。

画像クレジット:Amazon

一方、AmazonはすでにCedars-Sinai(シダーズ・サイナイ)と共同で、試験的にAlexaを病室に置いている。患者は音声コマンドを使って、テレビのチャンネル変更などの基本的なタスクを実行したり、介護スタッフとコミュニケーションを取ったりすることができる。日常的な作業の一部をAlexaに任せ、看護師を医療に専念させる構想だ。

Amazonの病院向け新ソリューションにより、患者はAlexaを使って介護スタッフとコミュニケーションをとったり、自室の機器を操作したり、ニュースや音楽を楽しんだりすることができる。また、医療従事者は、Alexaの通話やDrop-In(ドロップイン)などの機能を使い、病室に入らなくても患者とコミュニケーションをとることができる。これが病院の生産性を向上させ、医療用品や手袋、マスク、ガウンなどの保護具を節約することもできるとAmazonは指摘する。パンデミックで新型コロナウイルスの症例が急増し、個人防護具の不足が複数の現場で継続的に問題となっていた。

Amazonによると、Cedars-SinaiはAlexa Smart Propertiesソリューションを正式に展開する企業の1つであり、上記のパイロットプログラムに続き、BayCareやHouston Methodistもその動きに名を連ねている。

「音声は、年齢や技術的な知識に関係なく、患者にとって直感的に使えるものです」とCedars-Sinaiの医療・外科サービス部門のエグゼクティブ・ディレクターであるPeachy Hain(ピーチー・ヘイン)氏は声明で述べた。「患者は、部屋に入ってすぐに、Alexaを使ってケアチームと連絡を取り合い、いろいろ楽しむことができます。ケア提供者は作業を効率化して患者さんのケアに時間を割くことができます。これは、私たちの病院での体験を向上させる完全なゲームチェンジャーです」と同氏は付け加えた。

Amazonはこれまで、音声の録音や書き起こしに関連したプライバシーの問題に悩まされてきた。医療機関や高齢者施設向けのソリューションでは、音声の録音は保存されず、ユーザーがデバイスを使用する際にAlexaと個人情報を共有する必要もないと説明する。また、ユーザーは上部のボタンでいつでもEchoのマイクをミュートすることができる。加えて、Amazonは、HIPAA(医療保険の携行性と責任に関する法律)適格のAlexaの技術に基づく通信により、保護の対象となる健康情報を守るとしている。

Amazonは以前から、Alexaを医療機関に導入しようと取り組んできた。CNBCの2018年の報道では、音声アシスタントを医療の分野で役立てるために、Alexaを使ったヘルスケアチームを構築中だと伝えていた。そのために必要となる複雑なHIPAA規制をクリアすることも目指していた。翌年、HIPAAに準拠した最初の医療用技術を発表し、デバイスの病院での試験運用を開始した。Amazonは、他にもヘルスケアソリューションに投資しており、医師の診断書や患者の健康記録などから情報を収集する機械学習ツール「Amazon Comprehend Medical」のようなソリューションや、オンライン薬局PillPackのような買収などが投資の対象だ。

新しいAlexa Smart Propertiesソリューションは、いずれも11月から米国で展開されるとAmazonは話している。

画像クレジット:Amazon

原文へ

(文:Sarah Perez、翻訳:Nariko Mizoguchi

エンタメやAR/VRで人気のAI音声・合成発話「ボイススキン」を手がけるLOVOが約4.9億円調達

「ボイススキン」は、AIベースの音声アシスタントで非常に人気のある機能となっている。Alexaのようなサービスで得られる、役には立つが、無味乾燥でロボットのような発話音声といった、より退屈な側面のいくつかをパーソナライズするのに効果を発揮する。さまざまな企業が自社のサービスを横断して利用したり、サードパーティが作成や応用の目的で使用できるようなボイススキンを構築しているスタートアップが、その成長を促すために資金調達を進めている。

カリフォルニア州バークレーを拠点とする人工知能(AI)音声および合成音声ツール開発企業のLOVOは今週、韓国のKakao Entertainment、Kakao Investment、LG GroupのITソリューションアフィリエイトであるLG CNSが主導するプレシリーズAのラウンドで450万ドル(約4億9000万円)を調達した。

以前の出資者であるSkyDeck Fundと、DoorDashの財務担当副社長Michael Kim(マイケル・キム)氏もこのラウンドに参加している。

調達した資金は、人工知能と合成音声の研究開発を推進し、チームを成長させるために使われる。

「機械学習、人工知能、プロダクト開発からマーケティング、ビジネス開発に至るまで、あらゆる分野で人材を大量に採用する計画です。資金はGPUやCPUなどのリソースの確保にも充てられます」と共同創業者でCOOのTom Lee(トム・リー)氏はTechCrunchに語った。

2019年11月に設立されたLOVOには、共同創業者でCEOのCharlie Choi(チャーリー・チョイ)氏とCOOのリー氏を含めて17人が在籍している。

同社は、LOVOのAIモデルをさらに改良し、AIの音声機能を強化し、現在の市場に存在するあらゆるものを凌ぐより良いプロダクトを開発する計画だとリー氏は語っている。

「私たちの目標は、人々の心と感情に触れるようなAIの音声を提供する世界的リーダーになることです。コンテンツ制作における制約を民主化したいと考えています。私たちは音声関連のあらゆるもののプラットフォームになることを望んでいます」とリー氏は続けた。

LOVOのミッションにより、企業や個人のコンテンツクリエイターは、マーケティング、Eラーニング、カスタマーサポート、映画、ゲーム、チャットボット、拡張現実(AR)、仮想現実(VR)で使用するためのボイスオーバーコンテンツを生成することが可能になる。

「1年少し前にローンチして以来、ユーザーは私たちのプラットフォーム上で500万以上の音声コンテンツを作成してきました」と共同創業者でCEOのチョイ氏は語る。

LOVOは2020年に最初のプロダクト「LOVO Studio」をリリースしている。個人や企業が欲しい音声を見つけたり、ボイスオーバーコンテンツを制作、公開したりするための使いやすいアプリケーションだ。開発者はLOVOのVoiceover APIを利用して、自分たちのアプリケーションに統合された形で、テキストをリアルタイムでスピーチに変換できる。ユーザーは、LOVOのDIY Voice Cloningサービスを使って15分のスクリプトを読むだけで、自分のAI音声を作ることができる。

LOVOは200以上のボイススキンを所有しており、ユーザーのさまざまなニーズに適した言語、スタイル、状況に基づいて分類された音声を提供している。

リー氏によると、世界のテキスト読み上げ(TTS、text to speech)市場は30億ドル(約3300億円)と推定され、ボイスオーバー市場は100億ドル(約1兆1000億円)前後になるという。2021年8月に公開されたResearch Interviewerのレポートでは、世界のTTS市場は2020年の19億4000万ドル(約2127億円)から2028年までに56億1000万ドル(約6151億円)増加すると予測されている。

LOVOはすでに5万人のユーザーを獲得しており、米国のJ.B.Hunt、Bouncer、CPA Canada、LGCNS、韓国のSinhan Bankなど50社以上の企業顧客がいるとリー氏は述べている。

LOVOの4つのコアマーケットは、マーケティング、教育、映画およびゲームなどのエンターテインメント、そしてAR / VRであるとリー氏は語る。Saw(ソウ)シリーズの最新作である映画「Spiral(スパイラル:ソウ オールリセット)」には、LOVOの声が出演しているという。

韓国のエンターテインメント企業からの最新の資金調達を受けて、LOVOはエンターテインメント業界にさらなる相乗効果をもたらすことが期待されている。

Kakao EntertainmentのCEOビジョンオフィスの副社長であるJ.H. Ryu(J.H.リュウ)氏は「LOVOとKakao Entertainmentのエンターテインメント垂直分野、特にウェブ小説や音楽における将来の取り組みとの相乗効果に期待しています」と述べ「AI技術はオーディオコンテンツの新しい市場への扉を開きつつあり、個人の声が知的財産や資産として有効に活用される未来が期待されます」と言い添えた。

SkyDeck Fundの創設パートナーであるChon Tang(チョン・タン)氏は次のように述べている。「オーディオは情報の一形態として独自の魅力を持っていますが、特に大規模に生産するには困難が伴います。LOVOの人工知能ベースの合成プラットフォームは、品質とコストにおいて他のクラウドベースのソリューションよりも一貫したパフォーマンスを示しています」。

LOVOはまた、国際市場へのさらなる進出を準備している。「当社は米国、英国、カナダ、オーストラリア、ニュージーランドで強力なプレゼンスを確立しており、その他の欧州、南米、アジアからもシグナルを受けています」とリー氏は語る。LOVOは韓国にオフィスを構えており、近いうちに欧州への進出を予定していると同氏は付け加えた。

画像クレジット:LOVO

原文へ

(文:Kate Park、翻訳:Dragonfly)

安価なApple Music VoiceプランはSiriの改良を進める作戦である可能性が高い

Apple(アップル)は、先に開催したイベントで数多くの興味深い発表を行った。その中で私が特に注目した、かつあまり注目されていないように思えたのが、Apple Musicの新しい料金プランだった。新しい「Voice」プランでは、Apple Musicの全ライブラリを月額5ドル(日本では税込月額480円)という低価格で利用できる。ただし、Siriを使ってアクセスしなければならず、Apple Musicの標準的なビジュアルと入力しやすいアプリ内のユーザーインターフェイスは使用できない。

関連記事
アップル発表イベント「Unleashed(パワー全開)」に登場した新製品まとめ
アップルがSiriでのみ利用できる安価なApple Music Voiceプランを発表、月額480円

Appleは、このプランを開始する理由を明らかにしていないが、iPhoneメーカーとしては、音声アシスタントの学習と改良のために音声データをより多く収集したいため、価格の障壁を低くして、より多くの人にSiriを使ってもらおうとしているのではないかと推測するのが妥当だと思う。

AppleのCEOであるTim Cook(ティム・クック)氏は、このイベントで「より多くの人が、声だけでApple Musicを楽しめるようになることをうれしく思います」と述べていた。

このApple Music Voiceプランが存在する理由として、他に説得力のあるものが考えられない。特に、Apple Music上の曲目全体を提供するために、Appleはレーベルとのライセンス契約を変えていないため、標準プランよりもはるかに低いマージンでこの新サービスを提供していると思われる。

繰り返しになるが、これは単なる推測だ。ただ、AppleとSpotify(スポティファイ)間の厳しい競争を考えると、スウェーデンの会社がApple Musicを価格で打ち負かすために自社のストリーミングサービスを月額7~8ドル(月額税込980円)で提供できるのであれば、そうするのではないだろうか。そしてAppleは、どうしても膨大なデータを集めたいがために、新しいサブスクリプションプランであえて多少の損失を出しているのではないだろうか。私がこの説をツイートしたとき、同僚のAlex(アレックス)は、ではなぜAppleはサブスクリプションを無料にしないのかと疑問を抱いていた。2兆5000億ドル(約285兆円)規模の企業であるAppleは、技術的にはバランスシート上でそれだけの打撃を飲み込むことができると思うが、Spotifyのような独立した音楽ストリーミング企業からの批判をこれ以上集めたくはないのだろう。同社はすでに、さまざまな分野で反競争的な行為を行っているという批判を受けている。

テクノロジー企業は、AIモデルに膨大な量のデータを与え、サービスの機能を向上させている。Siriが長年にわたってかなり改良されてきたとしても、テック業界で働く多くの人々や大衆の間では、Amazon(アマゾン)のAlexaやGoogle Assistantの方がはるかに優れているというのが一般的な意見だ。

Appleはすでにこのような音声データを、Apple Musicの既存ユーザーから取得していると思われるが、ある友人が言ったように「要は、この機能はもともとあった。ただ、高い有料の壁を設置していただけだ。今回、彼らはその壁を低くしたということ」。新プランでMusicを音声操作のみにしたことで、参入障壁が下がっただけでなく、ユーザーはSiriを使わなくてはいけなくなった。SiriはApple Musicの標準加入者向けの機能だが、ほとんどのユーザーは基本的に、もしくは意図的にアプリのUIを使ってコンテンツにアクセスする可能性が高いと思われる。

音声アシスタントに「音声優先」や「音声のみ」のサービスを求めるとどうなるかわかる例として、AmazonのAlexaを見てみよう。Alexaは、最初から音声でアクセスしなければならなかった。これにより、AmazonはAlexaのアルゴリズムのために大量の学習データを収集することができただけでなく、Alexaを最大限に活用する方法についてユーザーをトレーニングすることもできた。

私の理論が正しいと思うもう1つの理由は、Appleがこの新しいサブスクリプションを最初に提供する予定の国についてだ。オーストラリア、オーストリア、カナダ、中国、フランス、ドイツ、香港、インド、アイルランド、イタリア、日本、メキシコ、ニュージーランド、スペイン、台湾、英国、米国だ。

インド、スペイン、アイルランド、フランスが第一陣に名を連ねているのは、Appleが世界中のさまざまな言葉を集めようとしていることを意味している。ところで、インドなどの発展途上国や、中国や日本など、テキスト入力が音声に比べて不必要に複雑になることがある市場では、音声検索が非常に人気がある(世界第2位のスマートフォン市場であり、約98%のパイをAndroidが占めているインドで、音声検索が驚くほど大量に採用されたことで、Googleアシスタントの改良や、音声分野での革新に向けたより積極的なアプローチが可能になったと、Googleの幹部が話してくれたことがある)。

Siriは、他の音声アシスタントと比較して、その能力の点でやや遅れをとっていると言われているが、Appleのサービスにおける新しい動きは、顧客に音楽ストリーミングサービスに参加するための割安な方法を提供するためのものでもある一方で、この認識されているギャップを埋めるための試みでもあると捉えられるだろう。

画像クレジット:Heng Qi / Visual China Group / Getty Images

原文へ

(文:Manish Singh、翻訳:Akihito Mizukoshi)

ディズニーとアマゾンが提携、カスタム音声アシスタント「ヘイ、ディズニー」を開発し搭載Echoをディズニーワールドリゾートのホテルに展開

Amazon(アマゾン)は、初めてEcho(エコー)デバイスで別の音声アシスタントを利用できるようにする。同社は先に開催した秋のイベントで、Disney(ディズニー)が開発し、Alexa(アレクサ)の技術をベースに作られた新しい音声アシスタント「Hey, Disney(ヘイ、ディズニー)」を発表した。このアシスタントは、独自の声を持ち、ディズニーファンが探索できる1000以上のカスタム・インタラクションを備えており、その多くは、本物のキャラクター音声やディズニーの膨大なライブラリーからのオリジナル録音を含んでいる。また、大規模なパートナーシップにより「Hey, Disney」の機能を追加したAlexaデバイスが、2022年からオーランドのDisney World Resort(ディズニー・ワールド・リゾート)ホテルに設置される予定だ。

まず最初に「Hey, Disney」は、ジョークややり取り可能なトリビア、お気に入りのディズニーキャラクターからの挨拶、ディズニー映画にインスパイアされた「soundscapes(サウンドスケープ)」と呼ばれるオーディオ環境へのアクセスなど、ディズニーファンのためのさまざまな体験を提供する。ユーザーがこれらの新機能を使うと、ディズニー、Pixar(ピクサー)、Marvel(マーベル)、Star Wars(スター・ウォーズ)などのお気に入りのキャラクターの声で応えてくれる。その間、このエクスペリエンス全体は「Disney Magical Companion(ディズニー・マジカル・コンパニオン)」と呼ばれるものによって動いている。

このコンパニオンは、基本的にはディズニー版のAlexaであり、新しい体験を通してユーザーを案内するために、ディズニー自身が開発したカスタムボイスだ。このコンパニオンの声はまだ明らかにされていないが、ディズニーは本物の声優を使って音を作っており、その声は「男性の声色」になるとのことだ(ミッキーだろうか?)。

画像クレジット:Amazon/Disney

2022年以降、ウォルト・ディズニー・ワールド・リゾートのホテルの部屋に「Echo Show 5(エコー・ショー5)」が置かれ、宿泊するゲストは、それを使って「Hey, Disney」体験にアクセスできるようになる。ここでは、パークの開園時間やパークへの最短ルート、食事できる場所など、リゾートのゲストが抱きがちな特定の質問にアシスタントが答えてくれる。また、アシスタントを使って、タオルの追加やルームサービスでの食事の注文など、特定のゲストサービスのリクエストをすることもできる。お気に入りのディズニーキャラクターが、ゲストのためにパーソナライズされたメッセージを1日中流すこともできる。

Amazonは、2021年初めに発表したAlexaカスタムアシスタント技術に続き、ディズニーと共同でこの新しい音声アシスタントを開発した。このソリューションでは、機器メーカーやサービスプロバイダーが、ブランドの個性や顧客のニーズに合わせた独自のインテリジェントアシスタントを作成することができる。自動車メーカーのFiat Chrysler Automobiles(フィアット・クライスラー・オートモービルズ)は、Alexaカスタムアシスタントの最初の顧客だったが、今回のディズニーのものは、アマゾン自身のEchoデバイス上で直接動作する最初のアシスタントとなる。このソリューションにより、ディズニーはアシスタントに独自のウェイクワード(「Hey, Disney」と特有の声、そして個性を与えることができた。また、顧客専用のインタラクション・ライブラリにつながり、それらのほどんとが「Hey, Disney」を最初に起動してからでないと利用できない仕様となっている。

画像クレジット:Amazon/Disney

Amazonは、あるアシスタントから別のアシスタントに引き継ぐことができるようなインタラクションがいくつかあるかもしれないとも触れている。例えば、誰かが「Hey,  Disney、アラームを止めて」と言ってアラームを止めようとした場合、アラームは通常Alexaの機能であるにもかかわらず、Echoが適切に反応してくれるだろう。しかし、いくつかの簡単なユースケースを除き、ディズニー固有のインタラクションのほとんどは、ディズニー自身のアシスタントで指示する必要がある。

Alexaの導入に関する提携も、今回の両社の新契約の大きな要素の1つだ。

Amazonは2018年に「Alexa for Hospitality(アレクサ・フォ・ホスピタリティ)」というプラットフォームを発表しており、Marriot(マリオット)だけでなく、LEGOLAND Parks(レゴランド・パークス)でも採用されていた。しかし、今回のディズニーの契約は、オーランドのウォルト・ディズニー・ワールド・リゾートのホテルの数千室を網羅するものであり、Alexa for Hospitalityの大きな一歩となる。

関連記事:Amazon、ホテル向けAlexaシステムの提供開始

Amazonによると、リゾートで提供される「Hey,  Disney」体験は、ゲストが個人のアマゾンアカウントにログインできないことや、アマゾンが室内でのインタラクションの音声記録を保存しないことから、家庭での体験とはまた異なるものになるとのことだ。しかし、家庭用の「Hey, Disney」は、Alexa上で実行される他の子ども向け機能のガイドラインに従うこととなる。つまり、まず親の同意を得る必要があり、顧客は既存のプライバシーダッシュボードやインターフェースを使って音声記録を閲覧・管理することができる。

これに関連して、Amazonは新しいEcho Show 5スマートスクリーン用の新しいディズニースタンドも発売した。

画像クレジット:Amazon/Disney

画像クレジット:Amazon/Disney

原文へ

(文:Sarah Perez、翻訳:Akihito Mizukoshi)

ユーザーがニーズに合わせてAIを訓練、パーソナライズできるAlexaの3つの新機能

Amazon(アマゾン)は、消費者がAlexa体験をさらにパーソナライズできる3つの新機能の展開を準備している。簡単なツールを使ってAlexa(アレクサ) AIのトレーニングを行えるようにするのだ。数カ月後には、家庭内で鳴っているドアベルやインスタントポットのチャイム音などの特定の音を識別するといった仕事を、消費者がAlexaに教えることができるようになる。また、Ring(リング)ユーザーの場合は、閉まっているはずのドアが開いているといった、何かが視覚的に変化したことをAIが気づくことができるようになる。さらに、好きなスポーツチームや好みの天気予報アプリ、食べ物の好みなどを、自分の好みに合わせてAlexaにはっきり指示を出すことができるようになる。

この機能は、アマゾンが最新のEchoデバイスやその他の新しいハードウェアを発表する秋のイベントで、米国時間9月28日紹介された。

この新しい音識別機能は、Alexaがすでに提供しているAlexa Guard(アレクサガード)という機能をベースにしている。この機能は、ガラスが割れる音や、火災や、一酸化炭素の警報音など、特定の音を識別することができるため、外出中の人や耳の不自由な人にとっては、緊急事態が発生しているかもしれないことを知ることができて便利だ。さらにサブスクリプションをアップグレードすると、スマートカメラが家の外の動きを検知したときに、犬の鳴き声を再生することもできる。

このAlexaの音検知機能を、今回アマゾンは、必ずしも緊急事態ではないものへどのように利用できるかを考えている。

画像クレジット:Amazon

新機能によって、消費者は自分にとって重要な特定のタイプの音を聞き分けるようにAlexaを訓練することができるようになる。例えば、鍋のビープ音、オーブンのタイマー、開けっ放しにしておくとビープ音が鳴る冷蔵庫、ガレージのドアが開く音、ドアベルの音、水の流れる音など、繰り返し同じような音が鳴り特定しやすいものがある。

6個から10個のサンプルをAlexaに与えることで、Alexaはこの音が何であるかを「学習」する。これは、アマゾンがAlexaに他の音を学習させるためにかつては数千個のサンプルを必要としたことに比べれば大幅に削減されている。ユーザーは、Echo(エコー)デバイスやAlexaモバイルアプリから直接、Alexaに新しいカスタムサウンドを教えることができる。

ただし、登録やトレーニングのプロセスはクラウド上で行われる。とはいえ、実際の利用時の音の検出はデバイス自体で行われ、登録が終わった後にアマゾンが音声をクラウドに送ることはない。

一度学習させれば、ユーザーはAlexaがその音を聞いたときに、自分で設定した通知やルーティンを起動するように選択することができる。たとえばAlexaがドアベルの通知をFire(ファイア)TV上に表示することで、アクセシビリティの観点や高齢者介護にも役立つ可能性がある。その他にも、たとえばガレージのドアの音がしたら、Alexaが「おかえりなさい手続き」を起動して、照明をつけたり、好きな音楽をかけたりするといった日常生活を支援することができるようになるかもしれない。

アマゾンによると、Custom Sound Event Detection(カスタムサウンド・イベント検知)機能は2022年にはローンチされるという。

同様に、消費者はRingカメラに搭載されたAIを訓練して、カメラの視野上で関心のある領域を特定し、その領域が変化したかどうかを判断することができるようになる。この「変化」は今のところ、2つの状態に区別できるものでなければならない。例えば、物置の扉が開いているか閉じているかといった状態だ。バリエーションの多い、より特殊なものには対応できないかもしれない。

Custom Event Alerts(カスタムイベント通知)と呼ばれるこの機能は、数カ月以内にRing Spotlight Cam Battery(リング・スポットライト・カム・バッテリー)の利用者が使えるようになる。

Alexaの最後の新機能は、食べ物やスポーツ、スキルプロバイダーに関するユーザーの好みを、スマートアシスタントが学習できるようになるというものだ(これらのスキルはAlexaデバイス上で実行されるサードパーティの音声アプリだ)。利用者は「アレクサ、私の好みを覚えて」などということで、Alexaを教え始めることができるようになる。しかし、この学習はもっと繊細な方法でも行うことができる。例えば、Alexaに近くのレストランを尋ねた際に、続けて「アレクサ、私たちの中にはベジタリアンの人がいます」などということで、ステーキハウスを候補から外させることができる。

一方、Alexaがあなたのお気に入りのスポーツチームを学習した後は、スポーツハイライトを質問した際に、あなたのお気に入りのチームのハイライトをAIがより多く盛り込んでくれるようになる。

また、Alexaにどのサードパーティ製スキルを使用したいかを伝えれば、AIアシスタントは以降、自身のネイティブな応答ではなく、そのスキルを使用することをデフォルトとする。

とはいえ、今のところ、対応しているサードパーティスキルは天気予報だけだ。それをアマゾンは時間をかけてより多くのスキルへと拡大したいと考えている。このことは、ユーザーが起動したいスキルを覚えられないことに起因する、スキルの利用率の低さを解消することができるだろう。この機能によって「一度設定したら忘れてしまって良い」式のカスタマイズが可能になる。つまり良いスキルを見つけたら、それをデフォルトに設定することで、あとは自然な言葉で(たとえば「お天気は?」など)話すことができるようになる。

アマゾンによると、この嗜好データは匿名化された顧客IDにのみ関連付けられていて、調整も可能だという。例えばベジタリアンの人が肉も食べるように戻った場合には、次にAlexaにレストランの候補をたずねる際に「アレクサ、私はベジタリアンじゃない」ということができる。このデータは、Amazonサイトでのショッピングのお勧めをカスタマイズするためには使用されないとアマゾンはいう。

この「嗜好ティーチング機能」は、年内に利用できるようになる。

アマゾンはこれらの機能を、アマゾンが「アンビエント・インテリジェンス」(環境知性)と呼ぶものをより多くの人々に提供するという目標に向けた、さらなるステップであるとしている。

AlexaのSVPで主任サイエンティストであるRohit Prasad(ローヒット・プラサド)氏は、アンビエントAIについて「あなたのことを学び、あなたがそれに合わせるのではなく、あなたのニーズに合わせることができるものなのです」と指摘している。

「Alexaは、私にとって単なる音声言語サービスではありません。むしろ、自分の周りの多くのデバイスで利用できるアンビエント・インテリジェンス・サービスであり、環境の状態を理解し、さらには自分に代わって積極的に行動することができるものなのです」と述べている。

画像クレジット:Amazon

原文へ

(文:Sarah Perez、翻訳:sako)

米アマゾンがAlexa搭載の初の自社ブランドテレビ2種発売へ

米Amazon(アマゾン)が43インチのAmazon Fire TV Editionを発売するために2017年にサウスカロライナ拠点のElement Electronics(エレメント・エレクトロニクス)とチームを組んで以来、これは必然だったように感じる。Amazonはまた、人気の音声アシスタントを搭載するためにサードパーティーのテレビ会社数社とも提携したが、同社は9月9日、2種のスマートテレビFire TV Omniシリーズと4シリーズを投入し、さらに一歩踏み込むことを明らかにした。

同社はこれらを「初のAmazon製スマートテレビ」と呼び、すでに作られて他の会社のブランドで展開されているものに音声テクノロジーを搭載するのではなく、ゼロから作った独自のテレビであることをほのめかしている。

Fire TV Omniシリーズが主力製品で、もう1つのものよりもプレミアムだ。しかしその価格は予定どおりであれば、410ドル(約4万5000円)からとかなり安めだ。前述のAmazonブランドのElementシステムより40ドル(約4400円)安い。

「スマートテレビは何十年も出回っていますが、それらが本当にスマートだとは思いません」とAmazon副社長のDaniel Rausch(ダニエル・ラウシュ)氏は話す。「顧客が本当に欲するであろうものに比べて、それほど有能ではありません。多くの場合、テレビは受動的な経験を提供します。相互にやり取りするのは複雑で難しいものです。我々のリビングルームにはさまざまな種のデバイスやコンテンツエクスペリエンスがあります。それを顧客側で調整するのは、おそらく複雑さが増すばかりだと思います。音声とアンビエントコンピューティングでもってテレビはより多くのことができるようになり、顧客のためにテレビはよりスマートになる可能性を秘めていると確信しています」。

SamsungやLGがしのぎを削る(何十年も噂されているAppleテレビはこれまでのところ実を結んでいないようであるにしても)競争の激しい分野にAmazonは参入しようとしている。当然、AmazonはAlexa統合とは区別しようとしている。Omniの方はテレビ視聴から音楽、ゲームまでさまざまなアクティビティに音声を使うために遠距離テクノロジーを活用している。

システムは最近導入されたAlexa会話を採用し「Alexa、何を観たらいい?」(このコマンドはベータ版では2021年後半までは使えない)「Alexa、Netflixのコンテンツを再生して」(同様に秋までは使えない)といったコマンド、そしてTikTokでも同様のコマンドなど、より自然な感じでアシスタントに尋ねる方法を提供している。人気を博しているソーシャルネットワークのTikTokは英国、ドイツ、フランスのFire TVでの提供が始まり、間もなく北米でも展開される。もしすごくのめり込んでいるなら最大75インチのスクリーンでショートビデオを観ることができる。

画像クレジット:Amazon

Omniのサイズは43、50、65、75インチで、解像度はすべて4Kだ。HDR10、HLG、Dolby Digital Plusが実装され、2つの大型モデルはDolby Visionもサポートしている。Omniと安めの4シリーズの違いはさほど多くはないようだ。4シリーズは370ドル(約4万1000円)からで、サイズは43、50、55インチ。こちらも解像度は4Kとなっている。この2つのラインナップの最大の違いは、4シリーズが近接のAlexa対応能力をリモートにビルトインしていることだ。Omniの方は遠距離テクノロジーを搭載している。

新しいテレビは2021年10月に発売される。

画像クレジット:Amazon

テレビには新Amazon Fire TV Stick 4K Maxがついてくる。55ドル(約6000円)するこのストリーミング用スティックは、高パフォーマンスを約束するクアッドコア1.8GHzプロセッサと2GBのRAMを内蔵し、上記の多くの音声機能を提供する。スティックはWi-Fi 6、そして当然のことながらAmazonのゲーミングサービスLunaにも対応する。

おそらく少々驚くのは、Pioneer(パイオニア)の社名が入っていることだろう。儲けが少ないために愛しのプラズマから撤退して数年、PioneerはAlexaリモートとセットになった新しい4Kでテレビ分野に戻ってくる。43インチのバージョンは9月にAmazonとBest Buyで発売される予定で、50インチの方はその2カ月後になる見込みだ。

一方、東芝のテレビには遠距離テクノロジーがビルトインされている。55、65、75インチの3モデルで、2022年春発売の予定だ。

関連記事
スマートテレビをもっとスマートにする高校生のアイデアで生まれたDisruptelが1.2億円調達
LGのスマートテレビでクラウドゲームGoogle StadiaとNVIDIA GeForce Nowが利用可能に
Apple TVアプリとApple TV+がLG製テレビで利用可能に
画像クレジット:Amazon

原文へ

(文:Brian Heater、翻訳:Nariko Mizoguchi

本物の人間そっくりに答えるAI音声アシスタントでカスタマーサービスを自動化するPolyAI

PolyAIが、シリコンバレーのKhosla Venturesがリードする投資ラウンドで1400万ドル(約15億4000万円)を調達した。参加したのは、これまでの投資家であるPoint72 VenturesとAmadeus Capital、Sands Capital Ventures、Passion CapitalそしてEntrepreneur Firstとなる。これは同社の1200万ドル(約13億2000万円)のシリーズAに次ぐもので、主に米国のチームとスタッフの増員に当てられる。同社の調達総額は、これで2800万ドル(約30億7000万円)になる。

PolyAIは同社製の音声アシスタントを使ってカスタマーサービスを自動化する。同社によると、それは本物の人間のように聞こえるという。それによって企業は、まるで人間が話しているような音声オペレーターを安上がりかつ人数に制限なく利用でき、さらに顧客の待ち時間を減らし、顧客の満足度と定着率を上げることができる。

共同創業者のNikola Mrkšić(ニコラ・ムルクシッチ)博士によると「私たちの技術を技術用語でいえば、それは『マルチターンの会話的AI』となります。しかし実際には、すべての通話者がやることは、人と話すようにそれに話しかけることだけです。これまでのコールセンターに比べると私たちのアシスタントは顧客満足度を40%向上させ、対応時間を最大で5分間減らします」。

「競合他社と比べると、私たちはこのシステムをとても迅速に開発しています。弊社のトランスフォーマーをベースとする言語理解モデルと、基盤となる対話管理プラットフォームにより、このようなユーザー体験を2週間から4週間で実装しています」。

「PolyAIは、BERTやGPT-3のような最新世代の大規模な訓練済みのディープラーニングモデルを実際のエンタープライズプロダクトで使っている最初のAI企業の1つです。そのため彼らは、自動化AIエージェントをわずか2週間でデプロイでき、音声アシスタントの旧来のプロバイダーが古い技術のデプロイに最大で6カ月は要していたことと比べて、極めて対照的だです」とVinod Khosla(ビノッド・コースラ)氏は声明で述べている。

 

ケンブリッジ大学からスピンアウトしたPolyAIによると、パンデミックでコールセンターの人手不足になり、多くの企業がスマートボイスアシスタントをデプロイするようになったため、それは、最初から開いてるドアを開けるような楽な営業だった。消費者はタイプするよりも話すことを好むため、チャットボットと同等に比較することはできない。

Landry’s傘下のGolden Nugget Hotels & CasinosのBrian Jeppesen(ブライアン・ジェプセン)氏は「通話の40%ほどを扱ってくれればよい、と思っていましたが、立ち上げ初期から80%、2週間後には87%になりました。AIエージェントを人間だと思っているお客さんも多い。音声アシスタントは失敗しないし、24時間365日稼働しているので、それはすばらしいことです。こんなエージェントなら、もっとたくさんいてもいいね」という。

競合他社は、最近Microsoftが買収したNuanceやIsoft、Interactions、SmartAction、Replicantなどとなる。しかしPolyAIの主張では、同社の音声アシスタントは起動が早く、また対応言語も多く、分単位の料金となっているという。

同社の共同創業者は、CEOのニコラ・ムルクシッチ博士とCTOのTsung-Hsien Wen(ツォンシェン・ウェン)氏、そして技術部長のPei-Hao Su(ペイハオ・スー)氏で、2人はSteve Young(スティーブ・ヤング)教授の下で博士論文に取り組んでいるときに出会った。ヤング教授は音声対話システムのリーダーであり、SiriやGoogleアシスタントやAlexaのような音声アシスタントを支えている多くの技術の開拓者だ。

PolyAIの最近のクライアントには、Landry’s Entertainment、Greene King、Starling Bank(スターリング銀行)そしてViasatなどがいる。

画像クレジット:PolyAI

原文へ

(文:Mike Butcher、翻訳:Hiroshi Iwatani)

NVIDIAの最新技術はAIの声をより表現豊かでリアルな人間の声のように

Amazon(アマゾン)のAlexaやGoogleアシスタントなどのAIアシスタントの音声は、昔のGPSなどに比べればずっと良いが、それでもリズムや抑揚などは本物の人間に及ばない。しかしNVIDIAがこのほど発表した研究とツールは、そうした自然な発話を捕捉するためにユーザーがAIを自分の声で訓練できる。発表は、Interspeech 2021カンファレンスで行われた。

AIが行なう音声の合成を改良するためにNVIDIAのテキスト読み上げ研究チームは、アバターの本物らしさを競う、放送事業者の大会NAB Showのコンペで優勝したシステムであるRAD-TTSと呼ばれるモデルを開発した。このシステムは、人が自分の声でテキストから音声への読み上げを訓練することができ、AIの習得内容には発話のテンポや調性、音色なども含まれる。

 

もう1つのRAD-TTSの特長は、声の変換だ。ユーザーが別の人物の声で話者の語りを伝えて、その人物の声でAIを訓練できる。それにより、合成音声のピッチや持続、声の強さなどを個々のフレームのレベルで微調整できる。

この技術を使ってNVIDIAの研究者たちは、本物の会話のように聞こえるナレーションを作り、同社のビデオシリーズ「I Am AI」用に、人間の声でなく合成音声を使うことができた。その狙いはナレーションをビデオのトーンとスタイルに合わせるためであり、それは今日までのAIがナレーションしているビデオではうまくできなかったことだ。結果はまだ少々ロボット的だが、これまで聴いたどんなAIナレーションよりも良い。

「ビデオのプロデューサーはこのインタフェースを使って、ビデオの台本を読んでいる自分自身を録音でき、それからAIのモデルを使って彼の発話を女性ナレーターの声に変換できる。この基準的なナレーションがあれば、プロデューサーはAIを声優のようにディレクションすることができ、合成音声を加工して特定の語を強調したり、ナレーションのペーシングを変えてビデオのトーンをもっとうまく表現したりできる」とNVIDIAは説明している。

NVIDIAはこの研究の一部を一般に公開しているが、もちろんNVIDIAのGPUで効率的に動くように最適化されている。オープンソースで試してみたい人は、GPUで加速した会話的AIのためのPythonツールキットNVIDIA NeMoを使えばよい。同社の、コンテナやその他のソフトウェアのハブであるNGCで入手できる。

NVIDIAの説明では「一部のモデルは、NVIDIA DGXシステムの上で数万時間分のオーディオデータで訓練されている。デベロッパーは自分のユースケースのために、どのモデルでも微調整でき、NVIDIA Tensor Core GPU上の混合精度コンピューティングを使って訓練をスピードアップできる」という。

編集注:本記事の初出はEngadget。執筆者のSteve DentはEngadgetの編集者。

関連記事
rinnaが日本語に特化したGPT-2とBERTの事前学習モデルを開発しオープンソース化
英国の競争・市場庁が、NVIDIAのArm買収に「競争を阻害するおそれがある」との懸念を示す
NVIDIAのAIペイントソフト「Canvas」はいたずら書きを瞬時にリアルな風景に変える
画像クレジット:NVIDIA

原文へ

(文:Steve Dent、翻訳:Hiroshi Iwatani)

電話対応をリアルタイムでサポート、カスタマーサービス向け会話型AIを開発するLevel AIが約14.3億円獲得

Level AIは、Alexaプラダクトチームの元メンバーが立ち上げたアーリーステージのスタートアップ企業で、顧客とのやり取りをリアルタイムに理解することで、企業がカスタマーサービスの電話対応をより迅速に対処できるよう支援したいと考えている。

同社は米国時間8月25日、Battery Venturesを中心とした1300万ドル(約14億3100万円)のシリーズAを発表するとともに、シード投資家のEniac、Village Global、および無名のエンジェル投資家からの支援を得て、一般公開を開始した。BatteryのNeeraj Agrawal(ニーラジ・アグラワル)氏は、今回の契約に基づき、同社の取締役に就任する。同社の報告によると、初期の200万ドル(約2億2000万円)の資金調達を含め、現在1500万ドル(約16億5100万円)を調達しているとのことだ。

創業者のAshish Nagar(アシシュ・ナガー)氏は、Amazon(アマゾン)のAlexaチームでプロダクトの運営に携わり、Alexaに今よりさらに進化した人間らしい会話をさせるための実験的なプロジェクトに取り組んでいた。技術がまだそこまで到達していないため実現はしなかったが、会話型AIへの理解を深めることができ、2019年にはその知識をカスタマーサービス領域に生かすためにLevel AIを立ち上げた。

「私たちのプロダクトは、電話対応のスタッフがより良いパフォーマンスを発揮し、顧客からの問い合わせをより迅速に解決し、より迅速にそれらを対処できるようリアルタイムでサポートする。そして通話後には、その通話の品質管理やトレーニング監査を行っている監督者が、5~10倍速く仕事ができるようになる」とナガー氏は説明する。

同氏によると、Level AIソリューションにはいくつかの工程が含まれるという。1つ目は、会話の内容をテクノロジーが理解できるように意味のある塊に分解して、リアルタイムに理解することだ。そして、その情報をもとに、バックグラウンドで稼働しているワークフローと照合し、有用なリソースを提供する。最後に、収集したすべての会話データを使って、企業がこれらの活動から学ぶのを支援する。

「すでにあるすべての通話データ、メールデータ、チャットデータを新しいレンズで見ることで、スタッフをより効果的にトレーニングでき、プロダクトマネージャーなど、ビジネスの他の分野にも新たな識見を提供することができる」とナガー氏はいう。

これは、感情を見たり、使われているキーワード分析を用いて行動や理解を促すものではないということを明確に強調している。それは、顧客の問題が解決するよう、通話のやりとりの中の言語を本当の意味で理解しようとし、より適切な情報をスタッフに提供することだと言っている。そのためには、人の意図をモデル化し、記憶し、同時に複数のことを理解する必要がある。これは彼がいうように、そもそも人間がどのように対話するのかということであり、これがまさに会話型AIが模倣しようとしていることでもある。

まだ完全ではないが、技術の進歩が許す限り、これらの問題の解決に1つ1つ取り組んでいる。

同社は2018年に立ち上がり、最初のアイデアはフロントラインで働く人たちのための音声アシスタントを作ることだったが、ナガー氏は顧客と話しているうちに、本当の需要はここではなく、会話型AIを使って人間の労働者を増強させること、それが特にカスタマーサービスにあるということを知った。

彼は代わりにそれを作ることに決め、2020年3月にはプロダクトの初期バージョンを発表した。現在、同社には米国とインドに分散して27名の従業員が在籍しているが、ナガー氏はリモートでどこでも採用できることで、社内の多様性を推進しつつ、最高の人材を獲得できると信じている。

今回のラウンドでリードインベスターを務めるアグラワル氏は、同社を、正しい情報をリアルタイムでスタッフに提供するという根本的な課題の解決に取り組む会社だと考えている。「彼が作ったものは、リアルタイムであることを念頭に置いている。これは、カスタマーサービスのスタッフを支援するための聖杯のようなものだ。通話が終わった後に情報を提供することもでき、それはそれで便利だが、(中略)通話中に情報を提供することで真の価値を発揮する。そこに本当の意味でのビジネス価値がある」と彼はいう。

ナガー氏は、この技術が営業など他の業務にも応用できることを認めているが、当面はカスタマーサービスに注力していくつもりだ。

関連記事
問い合わせ対応ソフトShelf.ioが過去1年間でARR4倍に、57.7億円という巨額のシリーズBを完了
アップルがSiri改善のためフィードバック収集アプリ「Siri Speech Study」をひそかに提供開始
「音声認識AIの競争に対する懸念が高まっている」とEUが発表
画像クレジット:lankogal / Getty Images

原文へ

(文:Ron Miller、翻訳: Akihito Mizukoshi)

アップルがSiri改善のためフィードバック収集アプリ「Siri Speech Study」をひそかに提供開始

Apple(アップル)は最近、対象ユーザーから音声データを収集するための研究を開始した。2021年8月初め、同社は「Siri Speech Study」という新しいiOSアプリをApp Storeで公開した。このアプリは、オプトインした調査参加者が自分の音声リクエストやその他のフィードバックをAppleと共有できるようにするもの。同アプリは世界の多くの市場で利用可能だが、公開されている「ユーティリティ」カテゴリーを含め、App Storeのチャートには登録されていない。

アプリストア分析会社Sensor Towerのデータによると、このiOSアプリは8月9日に初めて公開され、8月18日に新しいバージョンにアップデートされた。現在、米国、カナダ、ドイツ、フランス、香港、インド、アイルランド、イタリア、日本、メキシコ、ニュージーランド、台湾で利用可能となっており、本調査がグローバルに展開されていることを示している。ただし、App Storeをキーワードで検索しても、Appleが公開しているアプリの一覧を見ても、このアプリは表示されない。

Siri Speech Studyアプリ自体には、この研究の具体的な目的や参加方法はほとんど記載されていない。その代わりに、ごく標準的な使用許諾契約書へのリンクと、参加者がID番号を入力する画面が用意されているだけだ。

Appleにコメントを求めたところ、同社はTechCrunchに対し、このアプリはSiriの製品改良のためにのみ使用されており、参加者がAppleに直接フィードバックを共有する方法を提供している、と述べた。また、この研究に参加するには招待されなければならず、一般ユーザーが参加するために登録する方法はないと説明している。

App Storeのスクリーンショット

このアプリは、同社がSiriを改善するために取り組んでいる数多くの方法の1つに過ぎない。

これまでAppleは、一般ユーザーが録音した音声のごく一部を業者に送り、手作業で採点・レビューしてもらうことで、Siriのミスをより深く学ぼうとしてきた。しかし、ある内部告発者が英国のThe Guardian(ガーディアン)に、このプロセスでは機密事項を盗聴されることがあったと警告した。Appleはその後間もなく、そうした人手によるレビューをオプトイン方式に変更し、音声の採点を社内で行うようにした。このような消費者データの収集は継続されているが、その目的は調査研究とは異なる。

関連記事:アップルはSiriの音声クリップのレビュー方法を抜本的に見直しへ

そうした広範囲で一般的なデータ収集とは異なり、フォーカスグループのような調査では、収集したデータと人間のフィードバックを組み合わせるため、AppleはSiriのミスをよりよく理解することができる。Siri Speech Studyアプリでは、参加者がリクエストに応じて明確なフィードバックを提供するとAppleは述べている。例えば、Siriが質問を聞き間違えた場合、ユーザーは何を聞こうとしていたのか説明することができる。また、ユーザーが「Hey Siri」と言っていないのにSiriが起動した場合は、その旨を伝えることができる。また、HomePodのSiriが複数人の家庭で話者を誤認した場合、参加者はそれを記録することができる。

もう1つの特徴は、参加者のデータが自動的にAppleと共有されないことだ。代わりに、ユーザーは自分が行ったSiriのリクエストのリストを見た上で、どれを選択してフィードバックとともにAppleに送信するかを選べる。また、参加者から直接提供されたデータ以外のユーザー情報は、アプリ内で収集・使用されないと同社は述べている。

Apple WWDC 2021

Appleは、自分のことを理解してくれるインテリジェントなバーチャルアシスタントが競争上の優位性を持つことを理解している。

2021年に入り、Appleは元Google(グーグル)のAI科学者であるSamy Bengio(サミー・ベンジオ)博士を起用し、SiriをGoogle アシスタントの強力なライバルに育てようとしている。一方、家庭内ではAmazon(アマゾン)のAlexaを搭載したスマートスピーカーが米国市場を席巻しており、中国以外のグローバル市場でGoogleと競合している。AppleのHomePodが追いつくには、まだまだ時間がかかりそうだ。

しかし、近年、音声ベースのコンピューティングが急速に進歩しているにもかかわらず、バーチャルアシスタントは特定の種類の音声を理解するのに苦労することがまだある。例えば2021年初め、Appleはユーザーがポッドキャストで話始めにつっかえた際の音声クリップを集め、この種のスピーチパターンの理解を向上させると発表した。また、家庭内に複数の機器があり、複数の部屋からの音声コマンドを聞いている場合にも、アシスタントはミスを犯しやすい。また、家族の中で声を聞き分けようとしたり、子供の声を理解しようとすると、アシスタントはよく失敗する。

言い換えれば音声研究は、同社の現在のフォーカス以外にも、時間をかけて追求できる道筋がたくさんあるということだ。

AppleがSiriの音声研究を行っていることは、必ずしも新しいことではない。同社はこれまでにも、何らかの形でこのような評価や研究を行ってきた。しかし、Appleの研究が直接App Storeで公開されることはあまり多くない。

このアプリをより秘密にしておくために企業向けの配布プロセスを通じて公開することもできたはずだが、Appleは公開マーケットプレイスを利用することを選んだ。これは調査研究がAppleの従業員だけを対象とした社内向けのアプリではないためか、App Storeのルールに沿ったものとなっている。

しかし、一般ユーザーがこのアプリを偶然見つけて混乱することはまずないだろう。Siri Speech Studyアプリは、発見されないように隠されており、アプリのダイレクトリンクがなければ見つけることができない(我々が詮索好きでよかった)。

関連記事
「音声認識AIの競争に対する懸念が高まっている」とEUが発表
iOS 15でSpotlightが大幅強化、アプリのインストールも可能に
スマホを臨床的に認められた血圧計にするアプリをSiri開発者と科学者の「Riva Health」が開発中
画像クレジット:Apple

原文へ

(文:Sarah Perez、翻訳:Aya Nakazato)

アマゾンはデベロッパー向けツールと機能のリリースでAlexaの復活を狙う

Amazon(アマゾン)は、過去1年間にスキル数がさらに減少し、サードパーティの音声アプリデベロッパーが関心を失いつつあることを受けて、Alexa音声プラットフォームを活性化しようとしている。現地時間7月21日に開催されたデベロッパー向けイベント「Alexa Live」では、デベロッパーコミュニティに向けて多数の新機能とツールが発表され、新ツールのリリースとしては最大規模のものになった。新機能の中には、すでにAlexaデバイスを所有しているユーザーに向けてAlexaスキルの発見・利用を促すものや、デベロッパーがスキルを利用して収益を得られる新ツール、再びユーザーの日常生活にAlexaを取り入れてもらうことを後押しするアップデートなどがある。

当初小売業者が期待していた、音声ショッピングプラットフォームとしてのAlexaは、期待外れだったかもしれない実際にスマートスピーカーを使ってAmazon.comの商品を購入したAlexaのユーザーはほんのわずかだった。しかし、Amazonは当日「数千万台」のAlexaデバイスが毎週「数十億回」使用されていて、90万人以上の登録デベロッパーが13万以上のAlexaスキルを公開していると言及し、今でもAlexaの普及状況とデベロッパーコミュニティはかなりの規模を維持していると発表している。

関連記事:スマートスピーカーでの買い物は思ったほど伸びていないとの報告

それでも、Amazonは、ユーザーが使いたいスキルを見つけやすいようにするという、音声のみのデバイスでは難しいとされる課題をまだ克服していない(Alexa Showのようなスクリーン付きのAlexaデバイスが発売されたことで、多少改善されたが)。

Alexaユーザーの大部分は、スマートホームのコントロール、音楽の再生、アラームやリマインダーの設定、リストの作成など、最も基本的な機能しか使っていない。つまり、Amazonはまだ大ヒットといえるような音声アプリを生み出していないのだ。

画像クレジット:Amazon

Amazonによると、同社はこの問題を解決するために、デベロッパーが自分が開発したスキルのウィジェットを作成する方法を導入する。ユーザーはこのウィジェットを使ってEcho Showなどのスクリーン付きAlexaデバイスにスキルを追加することができる。さらに、デベロッパーは「Featured Skill Cards(注目のスキルカード)」を構築できるようになる。Featured Skill Cardsはホーム画面上でスキルをローテーションで表示し、宣伝する機能だ。

Amazonのソリューションは、アプリを発見してもらうという点だけを見れば、Alexaをよりモバイルデバイスに近いものにするものだ。スクリーン付きのAlexaデバイスを持っているユーザーには便利かもしれないが、音声のみで操作できるプラットフォームであるはずのAlexaの将来にとっては良い兆候ではない。

スクリーンが付いていないAlexaデバイスでは「アレクサ、お話を聞かせて」「アレクサ、ゲームをしよう」「アレクサ、ワークアウトをしたい」などの一般的なリクエストにAlexaが応答する際、デベロッパーが開発したスキルを提案するようになる。また、スキルの利用履歴に基づくユーザーごとのおすすめスキルの提案の他にも、新たに導入される「コンテクスチュアル・ディスカバリー(コンテキストに基づく発見)」では、自然言語やフレーズを使って、スキルを探せるようになる。もちろん、Amazonはこれまでもスキルの提案方法の開発に取り組んでいたが、大きなスキルエコシステムに影響を及ぼせるものではなかった(中にはユーザーを困らせるような試みもあった)。

Amazonによると、デベロッパーが自分が開発したスキルで収益を上げる方法も拡大しているという。

すでにAmazonは、消耗品有料サブスクリプションスキル内購入などのツールを提供しているが、今回、新たにスキル内購入の一環として「Paid Skills(有料スキル)」に対応する。Paid Skillsでは、ユーザーはスキルが提供するコンテンツを利用するために1回のみ料金を支払う。さらに、スキル内購入の対象地域にインドとカナダが追加される。

関連記事
Amazon Alexaのスキルの中でゲームのポイントやヒントを売ることができる、近くSony Picturesも利用
デベロッパーの収益源になるAlexaのスキル内購入機能が日本を含む国際展開へ

これまでのところ、スキル内購入はまだ大きな収益を上げるには至っていない。2019年のレポートによると、最初の10カ月間におけるAlexaスキルの収益は140万ドル(約1億5000万円)にとどまり、アマゾンの目標である550万ドル(約6億6000万円)には遠く及ばなかった。購入方法が1つ増えたからといって、どのぐらいの変化があるかは不透明だ。

Amazonは、デベロッパーの収益額については言及せず、デベロッパーのスキル内購入での収益が前年比で「2倍以上」になったと語るだけにとどめた。

Amazonは今後、デベロッパーコミュニティを活用して、小売サイトでの販売を促進しようとしている。

新しい「ショッピングアクション」機能では、デベロッパーは自分のスキルの中でAmazonの商品を販売することができる。例えばSFゲーム「Starfinder」では、ロールプレイングゲーム内でテーブルトップ版の購入をユーザーに提案している。デベロッパーは商品を紹介してアフィリエイト収入を得ることもできる。

音楽やメディアに関連するスキルのデベロッパーは、新しいツールを利用してユーザーにより楽しい体験を届けることができるようになる。iHeartRadioが開発した、DJがAlexa経由で曲のリクエストを受け付ける「Song Request Skill」はその一例だ。ラジオやポッドキャスト、音楽プロバイダー向けの、ユーザーにインタラクティブな体験を提供するスキルの開発期間を短縮できるツールもある。

スキルをより実用的で便利なものにするための新機能もある。

画像クレジット:Amazon

例えばレストランはFood Skill APIを利用して、ピックアップやデリバリーのスムーズな注文を実現することができる。新しい「Send to Phone(スマホに送信)」機能では、デベロッパーは自分のスキルをモバイルデバイスと連携させて、外出する際に家の鍵をかけるように促すスキルのような、イベントベースのトリガーやプロアクティブな提案を実現できるようになる。Amazon傘下のWhole Foods(ホールフーズ)は、2021年後半に登場する店頭受け取りサービスに、これらの機能を利用する予定だという。

また、洗剤や電池といった一般的な日用品を再注文できるAlexaの補充サービスが、交換部品にも拡大され、他の家庭用機器やスマートホーム機器との連携が強化される。サーモスタットメーカーのCarrier(キャリア)やResideo(レシデオ)はエアフィルターの補充に、Bissell(ビッセル)は掃除機にこの機能を利用する。

一方、煙探知機、一酸化炭素探知機、水漏れ探知機などの安全機器メーカーは、Alexaのセキュリティシステム「Alexa Guard」と連携して、モバイル機器に通知を送ることができるようになる。

デベロッパーのスキル開発をサポートするための新しいツールも導入される。また、デベロッパーはAlexa Entities(アマゾンが独自に開発した、ウィキペディアのような一般的な知識をまとめたもの)を利用できるようになる。独自の発音をサポートする新しいツールや、これまで米国のみで提供されていた「Alexa Conversations」の自然言語機能も利用できるようになった(現在、英語圏ではライブ版、ドイツではベータ版、日本ではデベロッパープレビュー版が利用可能)。さらに、既存のツールキット(Alexa Voice Service、Alexa Connect Kitなど)の地域的拡大に焦点を当てたツールや、ユーザーごとのウェイクワードを可能にしてスマートホーム機器との相互運用性を向上させるツールなど、大量のツールが導入されている。

関連記事
アマゾンのFire TV CubeがZoom会議に対応
ダイアン・フォン・ファステンバーグデザインのEcho Dotだって?もちろん、いいんじゃない?
アマゾンがAlexaで利用できる子供向けの「読書仲間」と音声プロフィールを公開

カテゴリー:ソフトウェア
タグ:AmazonAlexa音声アシスタントスマートスピーカースマートディスプレイスマートホームeコマース開発者

画像クレジット:Amazon

原文へ

(文:Sarah Perez、翻訳:Dragonfly)

「音声認識AIの競争に対する懸念が高まっている」とEUが発表

欧州連合はおよそ1年にわたり、AIを使用した音声アシスタントおよびテクノロジーと連携したモノのインターネット(IoT)に関連する競争の影響を調査してきた。今回紹介する1回目の報告では、EU委員会の立案者が表明する潜在的な懸念が、今後の幅広いデジタル法案決定への情報提供に役立つかどうかという点が扱われる。

2020年末に提出されたEUの法案の大部分は、その地域で実行中のいわゆる「ゲートキーパー」プラットフォームに対する法規の事前適用に向けて、すでに準備が整っている。EU全土に適用されるデジタルサービス法にまとめられた、仲介を行う強力なプラットフォームに当てはまるビジネス規範「命令事項および禁止事項」のリストも含まれている。

しかしもちろん、テクノロジーを活用する流れが止まることはない。競争政策を担当するMargrethe Vestager(マルグレーテ・ベステガー)氏はこれまで、音声認識AIテクノロジーに注目してきた。自分の部門で「データへのアクセスがどのようにマーケットプレイスを変えるのか探っている」と彼女が述べた2019年には、ユーザーの選択に対して引き起こされる課題に関する懸念を表明していた。

関連記事:EU競争政策担当委員の提言「巨大ハイテク企業を分割してはいけない、データアクセスを規制せよ」

委員会は2020年の7月に、IoT関連の競争に関する懸念について精査するため、セクターごとの調査を発表し、確かな一歩を踏み出した。

これは、コンシューマー向けのIoT製品やサービスに関連する市場で(ヨーロッパ、アジア、米国で)事業を展開する200以上の企業を対象とした調査に基づき、現在、暫定報告書として公開されている。さらに、最終報告が来年の前期に発表される前に、(9月1日までの)調査結果に対するさらなるフィードバックを要請している。

競争に関して明らかになった潜在的な懸念のうち、主な分野には、同じスマートデバイスで異なる音声アシスタントを使用しにくくする音声アシスタントおよび手法に関連した、独占行為または結託行為がある。また、ユーザー、さまざまなデバイス、サービスの市場との間で、音声アシスタントおよびモバイルOSが担う仲介的な役割も懸念となっている。この場合の懸念は、プラットフォーム音声AIのオーナーが、ユーザーの関係性を管理することで、競合他社のIoTサービスが発見される可能性や可視性に影響を与える可能性があるという点である。

データへの(不平等な)アクセスに関連した懸念もある。調査の参加者は、プラットフォームと音声アシスタントのオペレーターが、ユーザーのデータに対して広範囲にアクセスできると述べた。これには、サードパーティーのスマートデバイスやコンシューマー向けのIoTサービスと通信した内容が、仲介的な音声AIを使用することで取得されてしまう可能性も含まれる。

委員会のプレスリリースには「セクター調査に協力した人々は、データへのアクセスと集積された膨大なデータにより、音声アシスタントを提供する側は、汎用音声アシスタントの改善や市場優位性に関連した利点を得られるだけでなく、関連する業界にも容易に応用することが可能になると考えている」と記されている。

第三者の業者が保有するデータを、Amazonが使用しているという点に関するEU独占禁止法の調査(現在進行中)にも、同じような懸念が表れている。このデータとは、Amazonが電子商取引マーケットプレイスから取得できるデータ(委員会によると、オンライン取引市場で競争を妨害する違法行為になり得ると考えられている)のことである。

その報告で注意が喚起されている別の懸念は、コンシューマー向けのIoTセクターにおける相互運用性の欠如である。「特に、音声アシスタントとOSを提供するひと握りのプロバイダーが、一方的に相互運用性と統合プロセスを管理しているため、自社のサービスと比較して、サードパーティーのスマートデバイスおよびコンシューマー向けのIoTサービスの機能を制限することが可能である」とのことである。

上記の点は特に驚くことではないだろう。しかし、該当する地域で音声アシスタントAIの普及率が低い現段階で、委員会が競争上のリスクに対処しようと努めており、採用できそうな対策を思案し始めているのは注目に値する。

委員会はこのプレスリリースで、音声アシスタントテクノロジーの使用率は世界的に高まっており、2020年から2024年で2倍になる(音声AIの数が42~84億個になる)との予想を発表している。とはいえ、Eurostat data(ユーロスタット・データ)の引用によれば、2020年の調査対象で、すでに音声アシスタントを使用したことがあるEU市民は11%のみであった。

EU委員会の立案者は、デジタル開発の現状に精通し、巨大テック企業の最初の波を抑制する上で、競争政策に関連する最近の失敗から学んだはずである。これらの巨大テック企業は、Amazon Alexa(アマゾンアレクサ)、Googleアシスタント、Apple(アップル)のSiri(シリ)を使って、現在の音声AI市場を間違いなく独占し続けるであろう。競争が脅かされていることは明白であり、過去の間違いを繰り返すことがないように、委員会は目を光らせている。

しかし、ユーザーが利用しやすいウェブサイト、プッシュボタン、ブランド化された利便性をUSPとしている音声AIに対して、政策立案者が競争に関する法整備にどう取り組んでいくのか、これから明らかになっていく点も多いだろう。

相互運用性を強制すると複雑になる可能性があるため、使いやすさという点では好ましくない。また、ユーザーデータのプライバシーなど、他の懸念が浮上する可能性もある。

コンシューマー向けのテクノロジーについてユーザーが意見を述べ、テクノロジーを管理できるようにするのは良いアイデアだが、少なくともまず、選択できるプラットフォームの在り方そのものが操作されるまた搾取されるものであってはならない。

IoTと競争に関する問題が数多くあるのは確かだか、独占プラットフォームがすべての基準をもう一度定めることがないように規制措置を事前に講じることができれば、スタートアップや小規模企業にもチャンスが訪れる可能性がある。

ベステガー氏は声明に対するコメントとして「このセクター調査を開始した時点では、このセクターでのゲートキーパーのリスクが新たに高まっているのではないかと懸念していました。大企業の持つ影響力により、新興ビジネスやコンシューマーに損害をもたらすほど競争が妨げられることを心配していました。現在発表されている最初の報告から、セクター内の多くの関係者が同じ懸念を抱いていることは明らかです。コンシューマーの毎日の生活において、モノのインターネットのすばらしい可能性を最大限に引き出すには、公平な競争が必要です。この分析結果は、今後の法案施行と規制措置に役立ちます。関係する利害関係者すべてから、今後何カ月間でさらにフィードバックを受け取ることを楽しみにしています」と述べた。

セクターごとの報告は、ここからすべて閲覧できる。

【更新】ベステガー氏は調査結果に関するスピーチで、いくつかの行為については、将来的に新たな競争防止違反の訴訟につながる可能性もあると述べた。しかし、そうなるのはまだ先のことであると彼女は強調し、委員会には「懸念の範囲を的確に把握する」必要があるとも述べた。

「これまでのセクター調査の結果により、異なるスマートデバイスとサービスをつなぐオペレーティングシステムと音声アシスタントの主な役割がはっきりしました。この役割により、オペレーティングシステムおよび音声アシスタントのプロバイダーが、競争にマイナスとなる影響を与える可能性があると、回答者は注意を喚起しています。EUでは、Googleアシスタント、Amazon Alexa、AppleのSiriが音声アシスタントの分野で優位に立っています。加えて、グーグル、アマゾン、アップルには、 スマートホームやウェアラブルデバイスのオペレーティングシステムがあり、それぞれデジタルサービスを提供し、スマートデバイスを生産しています」とも語った。

「異なるデバイスとサービスでの通信や相互運用性はほとんどの場合、このような企業に依存しています。加えて、音声アシスタントはユーザーについて多くのことを学習します。スマートデバイスとモノのインターネットサービスは、家にいる時のユーザーの活動に関する大量のデータを生成します」。

「データへのアクセス、ユーザーへのアクセス、切り替えの難しさなど、現時点で明らかになった課題の多くは、デジタルマーケットで法を施行する場合と同じような課題です。実際、デジタルマーケット法に関連して委員会が提案する命令事項および禁止事項について、調査機能によって数多くのケースが報告されています。現段階での事前調査結果と、今後何カ月かの取り組みにより、デジタルマーケット法の対象に関する討議に、セクター調査が寄与することは間違いありません」と付け加えた。

「競争の強化と補完的法的措置によって、すべての人が恩恵を受けられるデジタル経済を作り上げることが目標です。その目標を実現するには、コンシューマー向けのモノのインターネットを含むデジタルマーケットが、どんな規模のビジネスでも参入して成長できる場となり、コンシューマーにとってオープンかつ公平であるかどうかを確かめていく必要があります」。

【更新】委員会の報告に対して、Amazonから送られた声明は以下のとおりである。

スマートホーム分野においては、多くの企業による競争が激化しています。1社だけが勝者となることはなく、勝者となるべきでもありません。弊社では当初からのこの認識に基づいて、アレクサを設計しました。現時点で、アレクサには14万個以上のスマートホーム製品と互換性があるため、デバイスを生産する企業が独自の商品とアレクサを簡単に統合できます。また、1台のデバイスから複数の音声サービスにアクセスできるように、お客様が柔軟に選択できる取り組みとして、音声相互運用イニシアチブ(現在80社が参加中)にも出資しています。

関連記事:グーグルがEUの圧力を受けAndroid検索エンジンの選択画面オークションを廃止、無料化へ

カテゴリー:ソフトウェア
タグ:音声アシスタントAIIoTEUAmazon AlexaGoogleアシスタントSiri

画像クレジット:Joby Sessions/T3 Magazine / Getty Images

原文へ

(文:Natasha Lomas、翻訳:Dragonfly)

あらゆるテクノロジーが詰め込まれたメルセデス・ベンツEQS 2022年モデル、350ものセンサーで実現された数々の新機能

Mercedes-Benz(メルセデス・ベンツ)は、数週間かけてじらし広告、発表、生産開始前の試乗イベント(TechCrunchも参加)を重ねた後、ついに米国時間4月15日、カモフラージュを取り去り、テクノロジーを詰め込んだフラッグシップ超高級セダンEQS(メルセデスSクラスの電気自動車版)を公開した。

注目の大半はその外観に向けられているが、TechCrunchが注目しているのは、そのテクノロジーだ。マイクロ睡眠警告システム、142cmのハイパースクリーン、超大型のHEPAエアフィルター、運転者の要望やニーズを直感的に学習するソフトウェアなど、さまざまな技術が搭載されている。No.6 MOOD Linenと呼ばれる新しい香料まで採用されており、その香りは「イチジクの新緑とリンネルに包まれている」ような感じ、と説明されている。

「何か1つを取り上げることはできません。この車は100の様々な要素で構成されているからです」とDaimler AG(ダイムラー)の取締役会会長でメルセデス・ベンツ社長のOla Källenius(オラ・ケレニウス)氏はいう。「そして、その100の小さな要素にこそ、メルセデスのメルセデスたる所以があります」。

メルセデスは、このテクノロジーにパフォーマンスとデザインを組み合わせれば、買い手は惹きつけられると確信している。この車はメルセデスにとっていちかばちかの賭けだ。同社は、北米でEQSが成功を収めることによって、全米での販売開始時に問題を起こした(今はすべて解決済み)EQCの記憶を払拭できると踏んでいる。

基本概要

最新のテクノロジーについて説明する前に、基本事項について概説しておこう。EQSは、メルセデスの新しいEQブランドとなる超高級純電気自動車で、米国市場に導入される最初のモデルは、329馬力のEQS 450+と516馬力のEQS 580 4MATICだ。メルセデスはこれらのモデルの価格を公開していないが、パフォーマンス、デザイン、レンジについて詳細な情報を提供している。

米国で販売予定のEQSの車長は5.2mを若干超える(正確には5.217m)くらいで、メルセデスSクラスのバリエーションに相当するサイズだ。

メルセデスEQS 580 4MATIC

このモデルの空気抵抗係数は0.202で、Tesla Model SとLucid Motors Airより若干低く、世界で最も空気抵抗の少ない量産車となっている。すべてのEQSモデルは後車軸に電動パワートレインを備えている。EQS 580 4MATICは前車軸にも電動パワートレインを備えており、全輪駆動を実現している。EQSの最高出力は329~516馬力で、車種によって異なる。メルセデスによると、最大630馬力の高パフォーマンス車種の生産も計画されているという。EQS 450+とEQS 580 4MATICのどちらも、最高速度は時速209kmだ。EQS 450+の時速96kmまでの加速時間は5.5秒だが、高出力の上位車種は4.1秒で同じ速度に達する。

EQSでは、2種類のバッテリーのどちらかを選択できるが、メルセデスが詳細を明らかにしているのは1つのバッテリーのみだ。最高負荷構成のEQSには使用可能エネルギー含有量107.8 kWhのバッテリーが搭載されており、European WLTP(国際調和排出ガス・燃費試験方法)による概算では1回の充電で769キロメートルまで走行できる。より厳しい基準であるEPAによる概算では、この数字を下回る可能性が高い。

メルセデスによると、EQSは、直流高速充電ステーションで最大200kWまで充電できるという。自宅または公開の充電ステーションでは、オンボードの充電器を使用して交流で充電できる。

それでは、EQSで使用されている注目すべきテクノロジーをいくつか紹介しよう。

ADAS(先進運転支援システム)

EQSにはさまざまな運転者支援機能が搭載されている。この機能を実現しているのは、車に組み込まれている超音波、カメラ、レーダー、ライダーなどの多様なセンサーだ。ADAS機能として、適応走行、加速動作調整機能、車線検知、自動車線変更、ハンドル操作補助(最大時速209kmで車線走行)などが組み込まれている。このシステムは、速度制限標識、オーバーヘッドフレームワーク、工事現場の標識も認識し、一時停止や赤信号を無視すると警告する機能もある。

さらに新しい機能として、時速19kmに達すると自動的に作動するマイクロスリープ警告機能がある。この機能は、運転車のまぶたの動きをドライバー用ディスプレイのカメラで分析することで実現されており、MBUX Hyperscreen搭載車種でのみ利用できる。

必要に応じて運転操作に介入するアクティブ補助機能もある。アクティブ死角補助では、時速9.6~199kmの速度範囲で側面衝突の可能性があることを視覚的に警告する。それでも運転者が警告を無視して車線変更を開始すると、速度が時速30kmを超えている場合は、衝突直前に一方的にブレーキ操作を介入させて修正操作を実行するという。この機能は駐車中でも作動し、車や自転車が近くを通過している場合に車を発進させないよう警告する。

緊急停止補助機能も用意されており「運転者が交通状況に反応しない時間が続いている」とセンサーとソフトウェアが認識すると、ブレーキを稼働して走行中の車線で車を停止させる。ブレーキ操作は急には行われない。運転者が反応していない場合は、まず音声で警告し、その後、計器群に視覚的な警告が表示される。車が徐々に減速される間、これらの警告が継続的に発出される。ハザードランプが点灯し、触覚による警告として運転席のシートベルトが一瞬締まる。最後に、追加の警告としてメルセデスのいう「短く強いブレーキ操作」が適用され、車は減速して停止する。必要に応じて、1回車線変更することもある。

また、オプションでDRIVE PILOT(ドライブパイロット)機能も用意されている。これは、SAE Level 3対応の条件付き自動運転システム機能で、これによりハンズフリーの運転が可能となる。欧州では規制により、公道を走行する量産車にこのレベルの自動化を実施することは禁止されている。この件について、ケレニウス氏はドイツのメディアに次のように語っている。「2021年下半期にドイツで最初の量産車向けLevel 3システムの認可を取得する寸前まできている」(Automotive News Europeの記事より抜粋)。

関連記事:【レビュー】2022年のメルセデス・ベンツEQSはラグジュアリーEVの未来に賭ける、ただし賭金は高い

学習するクルマ

EQSには驚くべき技術的な仕かけが数多く搭載されているが、その多くは運転者の動作を学習するよう設計された基盤AIに依存しており、ソフトウェアと、驚くほど多数のセンサーで実現されている。メルセデスによると、機器にもよるが、EQSには最大350のセンサーが組み込まれる予定で、距離、速度、加速、ライト点灯条件、降雨、気温、座席専有率、運転者のまばたき、同乗者の話し声などが記録される。

これらのセンサーによって取得された情報は、電子制御ユニット(コンピューター)によって処理され、その後、ソフトウェアアルゴリズムが処理を引き継いて判断を下す。TechCrunchの試乗レビュー担当者Tamara Warren(タマラ・ウォーレン)によると、半日試乗しただけで、EQSが運転者の好みを学習する能力に気づいたという。

メルセデスは、これらのセンサーとソフトウェアの連係動作について、例えば、対話型で、さまざまなパラメーター(アクセルの位置、速度、回復動作)に反応するオプションの走行音など、さまざまな例を使って説明した。

直感的な学習機能が明白にわかるのは、MBUX情報システムとのやり取りを介して学習される場合だ。このシステムは、ユーザーにしかるべき機能をしかるべきタイミングで予測的に表示する。センサーは環境とユーザーの動作の変化を感知し、変化に応じて反応する。メルセデスは、第1世代MBUX(2019年型Mercedes A Classに搭載)から収集したデータで学習した結果、大半のユースケースはナビゲーション、ラジオ / メディア、電話の各カテゴリーに当てはまることがわかった。

このユーザーデータに基づいて、第2世代MBUZ(EQSに搭載されるもの)のレイアウトが決められた。例えば、ナビゲーションアプリは常に、ビジュアルディスプレイユニットの中央に表示される。

画像クレジット:Mercedes-Benz

MBUXでは自然言語処理を採用しているため、運転者はいつでも自分の声でラジオ局を選択したり、社内環境を制御したりできる。しかし、メルセデスは、EQSの直感的学習機能を強く推奨している。この機能では、運転者がクルマを使い込むにつれて、通常はメニューの深い階層に埋もれている項目が前面に表示されるようになったり、時間や場所に応じて前面に出てきたりする。

「このクルマは運転者を人として認識し、運転者の好みや動作を学びます。次に使いたいオプションを、運転者が考える前に提示してくれるような感じです」とケレニウス氏は説明する。

「お腹が空く前にピザが配達されるようなものです」とケレニウス氏は冗談交じりに続け「直感的という意味ではまさに画期的です」と付け加えた。

メルセデスによると他にも20を超える機能があるという。例えば誕生日リマインダー機能は、ユーザーに関係のある人の誕生日を人工知能の助けを借りして自動的に知らせてくれる。階層なしのインターフェイスに表示されるこうした提案モジュールは「マジックモジュール(Magic Modules)」と呼ばれ、次の原理で動作する。運転者が数日続けて、夜帰宅途中に特定の友人や親戚に電話すると、今日この時刻にこの相手に電話をするかどうか提案してくる。名刺は、連絡先情報と写真(保存されている場合)付きで表示される。MBUXが行うすべての提案は、ユーザーのログインプロファイルと関連付けられる。つまり、他の誰かが自分のプロファイルでログインして、同じ夜にそのEQSを運転したとしても、この推薦は表示されないということになる。

運転者が帰宅途中にいつも特定のラジオ番組を聴く場合は、その番組を聴くかどうかが提案される。定期的にホットストーンマッサージを利用している場合は、低温でマッサージ機能を作動させるかどうか自動的に提案してくる。

こうした提案は運転機能にも適用される。例えば、自宅車庫までの私道が急勾配だったり、同じような減速バンプを通過して自宅近くに入っていく場合、MBUXはそのことを記憶する。そして、GPSの位置がその区域に近づくと、車体を上げて地面からの距離を確保するよう提案してくる。

健康とウェルネス

上述の各種センサーにはさらに高度な用途がある。運転者はさらに一歩進めて、スマートウォッチ(Mercedes-Benz vivoactive 3、Mercedes-Benz Venu、またはその他のGarmin互換ウォッチ)をEQSの「エナジャイジングコーチ」に接続できる。エナジャイジングコーチは運転者の動作に反応し、1人ひとりの気分に応じて「Freshness(リフレッシュ)」「Warmth(暖かさ)」「Vitality(活力)」「Joy(喜び)」などの中から1つのプログラムを提案してくる。スマートウォッチは、Mercedes meアプリを介して、ウォッチ装着者のバイタルデータ(心拍数、ストレス度、睡眠の質など)をエナジャイジングコーチに送信する。組み込みのGarminウェアラブルによって記録された心拍数は中央ディスプレイに表示される。

これが実際にどのような役に立つかというと、実は、ユーザーの要望とAIシステムが判断したユーザーの要望に合わせて、ライト、車内環境、サウンド、座席などが調整されるのだ。もちろん、これはすべて、音声アシスタント「Hey Mercedes(ヘイ、メルセデス)」に統合されているため、運転者は、自分の気分をいうだけで望みのプログラムを起動できる。

運転者が「ストレスを感じている」というと「喜び」プログラムが起動され「疲れている」というと「活力」プログラムで休憩をとるよう促される。

メルセデスSクラスのオーナーには、こうしたオプションはすでにお馴染みかもしれないが、メルセデスによると、EQSではシステムがさらに強化されているという。具体的には、新しい3つのエナジャイジングネイチャープログラムとして、森の中の空き地、海の音、夏の雨が追加され、トレーニングとヒントも用意された。各プログラムでは、音響生態学者Gordon Hempton(ゴードン・ヘンプトン)氏の助言を受けて作成された、異なる没入型サウンドが再生される。例えば「森の中の空き地」では、鳥のさえずり、葉の擦れる音、そよ風を組み合わせた音が再生され、温かみのある音風景と淡い香りが車内に満ちる。

海の音では、柔らかい音楽風景、波の音、カモメの鳴き声が生成される。これに空調システムからの風が加わってプログラムが完成する。一方「夏の雨」では、落ち葉の積もった屋根に落ちる雨粒の音、遠くの雷鳴、パタパタと音を立てる雨、環境音景などが生成される。

画像クレジット:Mercedes-Benz

さらに、休憩が必要な長距離ドライブ向けに、パワーナップ(積極的仮眠)機能が追加された。パワーナップを選択すると(間違っても運転中に選択しないよう注意)、入眠、睡眠、目覚めの3つのフェーズからなるプログラムが実行される。運転者の座席は安静位に移動し、窓とパノラマサンルーフが閉じて、空気イオン化が起動される。心地よい音と中央ディスプレイに映し出される満天の星空によって入眠が促される。目覚めの時刻がくると、音楽景が起動され、香りが立ち、簡単なマッサージと座席シートの通気が開始される。座席が元の位置に戻り、サンルーフの裏張りが開く。

音声

先ほど述べたとおり「へイ、メルセデス」音声アシスタントは、自然言語処理を使用しているため、多くの要求を処理できる。メルセデスによると、音声アシスタント機能はさらに強化され「へイ、メルセデス」という起動キーワードを言わなくても電話を受けるなどの特定のアクションを実行できるようになったという。また、クルマの機能説明もできるようになった。

音声アシスタントは同乗者を音声で識別することもできる。実際、車内の各座席には個別のマイクが設置されている。同乗者の音声を学習したアシスタントは、そのユーザーの個人データと職務を参照できる。

EQSの音声アシスタントは後部座席からでも使用だ。

これらの個人プロファイルは「Mercedes me」の一部としてクラウド上に保存される。つまり、プロファイルは新世代のMBUXを搭載した他のメルセデス車でも使用できるということだ。セキュリティは組み込まれており、PINも使用でき、顔認識と音声認識を組み合わせて認証を行う。これにより、個人設定へのアクセスやデジタル決済処理の確認を車から実行できるという。

スクリーンとエンタテイメント

最後に、画面について触れておこう。すべての画面についてだ。142cmのハイパースクリーンが最も注目を浴びているが、EQSでは車内に複数の画面が設置されている。重要なのは、これらの画面が相互にやり取りする方法だ。

ハイパースクリーンは実は3つの画面で構成されているのだが、3つとも共通のガラスカバーに接着されているため、見た目には1つのディスプレイに見える。運転席ディスプレイは31cm、中央ディスプレイは45cm、助手席のディスプレイは31cmだ。MBUXハイパースクリーンはタッチスクリーンになっており、触感フィードバックと力フィードバックを返すこともできる。

「最初のデザインと実際の完成品についてときどき考えるのですが、『1メートル41cmの曲面ガラスを車内に搭載するなんて、突拍子もないアイデアだ』と思うことがあります」とケレニウス氏はいう。「それ自体が1つの作品であり、テクノロジーアートなのです」。

画像クレジット:Mercedes-Benz

後部座席に多くの注目が集まっているが、これはEQSが同グレードのSクラスと同様、オーナーが運転手を雇って使うことが多い車だからだ。後部座席はすべてシステムに接続されているため、メルセデスはこれを後部座席エンタテイメントシステムとは呼ばず、マルチ座席エンタテイメントシステムと呼んでいる。

運転者が2人の後部座席同乗者に異なる映画を見せたい場合は、メインスクリーンで映画をドラッグし、それを見たい同乗者の方へスワイプするだけで、後部座席のプログラムが調整される。後部座席の同乗者も、隣の同乗者のスクリーンに映画をいわば「投げる」ようにスワイプして渡すことができる。

関連記事:メルセデス・ベンツが高級EVセダンEQSの湾曲56インチ「ハイパースクリーン」発表

カテゴリー:モビリティ
タグ:メルセデス・ベンツレビュー電気自動車音声アシスタント

画像クレジット:Mercedes-Benz

原文へ

(文:Kirsten Korosec、翻訳:Dragonfly)

新型Apple TV 4KにはSiriが使える「Siri Remote」が付属

Apple(アップル)は米国時間4月20日、新型のApple TV 4Kを発表した。これには新しいSiri Remoteが付属する。

この新しいアルミニウム製のリモコンでは従来のSiriのサポートに加えて、クリックパッドを再設計し外側のリングで円形のジェスチャーを可能にした。これにより、視聴者は探しているシーンをすばやく見つけることができる。また他のリモコンに手を伸ばす必要がないように、ミュートボタンとテレビの電源ボタンも搭載している。

新しいApple TV 4KはアップルのA12 Bionicチップを搭載しており、より高品質な映像、具体的には毎秒60フレームのハイフレームレートHDRとDolby Visionに対応している。

もちろん画質はテレビ本体にも依存するのだが、アップルはこの状況に対応するための新機能を発表した。テレビのカラーバランスを改善するために、iPhoneの光センサーを使って現在のバランスを測定し、それに応じてApple TVからの出力が調整されるのだ。

新しいApple TV 4Kは、32ギガバイトで179ドル(日本では税込2万1800円、ストレージ容量を2倍にしたい場合は税込2万3800円)で4月30日から注文を開始し、5月後半に発売される予定だ。また、新しいSiri Remoteを搭載したApple TV HDは149ドル(日本では税込1万7800円)で、Siri Remoのみを59ドル(約6500円)で購入することもできる。

「Apple TV 4KはA12 Bionicとまったく新しいSiri Remoteによりシンプルかつ直感的な操作で、お客様がお気に入りの番組や映画などを最高のクオリティで楽しむことを可能にします」と、アップルのワールドワイドマーケティング担当副社長のBob Borchers(ボブ・ボーチャーズ)氏は声明で述べている。「そしてもちろん、Apple TV 4Kはアップルのサービスに簡単にアクセスでき、App Storeにある何千ものアプリケーションと合わせて、さらに多くのエンターテインメントの選択肢を提供します」。

関連記事
アップルがカラフルな新iMacを発表
新型iMacがついに高画質なウェブカメラを搭載
アップルがMagic KeyboardにTouch IDを搭載
iPhone 12 / 12 miniに新色パープルが追加
M1 iMacの電源アダプターは磁気コネクタとEthernetポートを搭載、他製品でも採用か

カテゴリー:ハードウェア
タグ:AppleAPPLE SPRING HARDWARE EVENT 2021Apple TVSiri音声アシスタント

画像クレジット:Apple

原文へ

(文:Anthony Ha、翻訳:塚本直樹 / Twitter

すでに利用可能なモバイルの「Hey Spotify」音声コマンド機能公開についてSpotifyは沈黙

2019年にSpotifyは「Car Thing」の愛称を持つ自動車オーナー向けハードウェアデバイスのテストを始めた。このデバイスではSpotify Premiumユーザーが「Hey Spotify」で始まる音声コマンドで音楽やポッドキャストの再生を開始できる。2020年にはモバイルアプリにも同様に音声を統合する開発を始めた。そしてここにきて「Hey Spotify」の音声機能が広く利用できるようになってきた。

多くの人からSpotifyアプリで音声オプションを使えるというレポートが山ほどあり、この機能を利用できるのかどうかで一部のユーザーが混乱しているにもかかわらず、Spotifyはこれについて正式に発表していない。

関連記事:Spotifyが車載ハードウェア「Car Thing」をテストへ

例えばGSM Arenaは早い段階で、Androidユーザーにこの機能を知らせるプッシュ通知が送信されたとレポートした。通知には「マイクを有効にして『Hey Spotify、私のお気に入りの曲をかけて』というだけです」と書かれていた。通知をタップするとSpotifyの新しい音声インターフェイスが開き、聴きたい音楽を話し言葉でリクエストするために、まずマイクを使う許可をアプリに与えるように求められる。

画像クレジット:GSM Arena

いくつかのメディアはこの機能がAndroidユーザーに対して公開されたとレポートしたが、これは部分的に正しい。

結論をいうと、この機能はiOSデバイスにも展開されている。例えば我々はiOS 14.5が動作しているiPhoneでSpotifyアプリを起動し、同様の機能が有効であることを確認した。検索ボックスの横にあるマイクのボタンをタップすると音声機能を利用できる。いろいろな人に聞いたところ、iOSの異なるバージョンを使っているiPhoneユーザーにもこの機能が提供されていることがわかった。Spotifyの無料ユーザー、Premiumユーザー、Familyプランユーザーのいずれでも利用できた。

表示される画面には大きく太い文字で「Hey Spotify, play…」と話しかけるように書かれている。「play」の後にはアーティスト名がランダムで入る。画面下部には「Hey Spotify」を有効にする大きな緑色のボタンがある。

有効にするとアーティスト、アルバム、曲、プレイリストの名前でリクエストでき、停止、一時停止、この曲をスキップ、戻るなどのコマンドで再生のコントロールもできる。Spotifyは、デフォルトがロボットのような男声であることを認めている(好みに応じて設定で女声に変更できる)。

iOSのSpotifyのスクリーンショット

この画面には、アプリが「Hey Spotify」の音声コマンドを聞きとるとユーザーの声のデータやその他の情報がSpotifyに送信されるという注意事項も書かれている。音声データの取り扱いに関するSpotifyのポリシーへのリンクがあり、ユーザーの発言の録音とそれをテキスト化したものと、ユーザーに返された内容に関する情報を同社が収集することについてリンク先で説明している。同社は、このデータを機能の向上、新しい音声機能の開発、ユーザーに関連する広告のターゲティングに利用することがあるとしている。ユーザーの情報はクラウドストレージプロバイダーなどのサービスプロバイダーと共有されることもある。

このポリシーは2019年に開始した同社の音声対応広告のものと同じで「Hey Spotify」の公開にともなう変更を反映して更新されているわけではないようだ。ただし他社の音声アシスタントと同様に、Spotifyはずっと録音しているわけではなく、ユーザーがウェイクワードを発するまで待機していると記載されている。

「Hey Spotify」の音声コマンドがCar Thingから始まっていることを考えると、モバイルへの展開はSpotifyが自社製ハードウェアを近く発売する準備が整ったサインではないかと推測される。おそらくそれは当たりだと裏づけるような情報もすでにある。MacRumorsが最近、Spotifyアプリのコードの中にCar Thingと各種マウントについての言及と写真を発見したと報じた。これは2021年1月にCar Thingに関するFCCの書類が明らかになったことに続く発見で、FCCの書類はデバイスがまもなく発売されるという噂をあおった。

米国時間4月7日午前にSpotifyにコメントを求めたが、音声コマンド機能の公開に関する返答はなく「残念ながら現時点では共有できるニュースはない」とのことだった。これはもっと大きな何らかのプロジェクトがマイナーな機能の公開と関連している可能性があることを示唆している。

最近のユーザーはテック企業のデータ収集に対して用心深くなっている。ことにテック大手3社が扱いのお粗末さを認めてからというもの、音声データの使用には慎重だ。そうは言っても、特にアクセシビリティの観点やドライバーの安全性の観点から、音声コマンドの使い道はある。

関連記事
GDPR発効後初となる中止命令を受けたグーグルの音声AIレビュー
Siriの録音が定期的に契約企業に送られて分析されていた

携帯電話の音声アシスタントにSpotifyのコンテンツを再生するように指示することはできるが(CarPlayやAndroid Autoで)、Spotifyに直接話しかけることができれば便利だと思う人もいるだろう。AppleがSpotifyをデフォルトの音楽サービスに設定できないようにしている現状では、特にそうだ。あなたのお気に入りのサービスとしてSpotifyを起動するようにSiriを鍛えるしかない。

「Hey Spotify」をいったん有効にしても、後から気が変わったらアプリの設定の「Voice Interactions(音声操作)」からオフにすることができる。

関連記事:アップルがiOS 14.5で「デフォルト」の音楽サービスは設定できないと明言

カテゴリー:ネットサービス
タグ:Spotify音声アシスタント音声操作

画像クレジット:Getty Images

原文へ

(文:Sarah Perez、翻訳:Kaori Koyama)

会話型AIからプライバシー重視のフェデレーテッドラーニングに拡大するスペインのSherpaが約9.3億円調達

スペインのビルバオに本社を置くSherpaは、スペイン語話者向けの音声デジタルアシスタントと予測検索を早くから開発していたスタートアップだ。そのSherpaが新たな取り組みのために資金を調達した。新たな取り組みとは、企業を対象とするプライバシーファーストのAIサービスだ。

同社は850万ドル(約9億2800万円)を調達し、創業者でCEOのXabi Uribe-Etxebarria(シャビ・ウリベ – エトシェバリア)氏はこの資金で既存の会話型AIと検索サービスに加え、フェデレーテッドラーニング(連合学習)モデルに基づくプライバシー重視の機械学習プラットフォームを引き続き開発していくと述べた。スペインの保健行政が初期ユーザーとしてSherpaのサービスを利用し、新型コロナウイルス感染症(COVID-19)に関する情報を分析して国内の救急医療機関の需要とキャパシティを予測していた。

今回の資金はApax DigitalマネージングパートナーのMarcelo Gigliani(マルセロ・ギリアーニ)氏、British Airways会長のAlex Cruz(アレックス・クルーズ)氏、スペインの投資会社であるMundi VenturesとEkarpenから調達した。今回はすでに完了していたシリーズAの1500万ドル(約16億3800万円)の追加だ。ということは、Sherpaは現在、さらに大規模なシリーズBも調達中であると考えられる。

会話型AI事業に失速が見えてきた中で、フェデレーテッドラーニングサービスの構築と商用化に方針転換することになった。

Sherpaはスペイン語の音声アシスタントで早い時期に注目を集めた。同社のアシスタントが初めて登場したのは、AppleのSiriやAmazonのAlexaなどが英語圏以外の市場への取り組みをそれほど強力に進めていない時期だった。

同社サービスのユーザー数は2019年時点で500万人を超えた。同社の会話型AIと予測検索サービスを利用している顧客には、スペインのメディア企業のPrisa、Volkswagen、Porsche、Samsungなどがある。

しかしウリベ – エトシェバリア氏は、アシスタント事業は現在も着実に成長してはいるものの難しい事実に直面したと語る。それは英語の音声アシスタント大手は結局スペイン語を追加し、大手が会話型AIへの投資を継続していけばSherpaがこの市場に長くとどまるのは不可能だろうということだ。

同氏は「どこかの企業と大きな取引をするのでない限り、我々がAmazonやAppleなどと闘っていくことはできないでしょう」という。

こうしてSherpaは、自社のAIエンジンを活用する新たな方法を探り始めた。

ウリベ – エトシェバリア氏は、同社の予測検索サービスを生産性向上アプリケーションに拡張するにはどうすればいいかと検討を始めたときにフェデレーテッドプライバシーが浮上したという。

同氏は「完璧なアシスタントはメールを読み、取るべき行動を理解できるでしょう。しかしこの動作に関してはプライバシーの問題があります」と説明する。同氏はある人から、アシスタントにメールの扱い方を「教える」手段の1つとしてフェデレーテッドラーニングを検討するよう助言を受けた。「我々が20人のスタッフを投入すれば、メールを読んで返信するようなものが作れるのではないかと思ったのです」という。

ウリベ – エトシェバリア氏によれば、Sherpaが開発したプラットフォームは予想より出来が良く、メールに優先順位をつけるだけでなくもっと利用できそうだと1年後に判断したという。つまりプライバシーに配慮して機密データから機械学習モデルをトレーニングするエンジンとして製品化し、販売するということだ。

このようなアプローチをしているのはSherpaだけではない。GoogleのTensorFlowもフェデレーテッドラーニングを活用しているし、Fate(Tencentのクラウドコンピューティングセキュリティ専門家が貢献している)や、フェデレーテッドラーニングのオープンソースライブラリであるPySyftも同様だ。

Sherpaは機密保持契約を交わした上でヘルスケアなどの分野でいくつかの企業と連携している。ウリベ – エトシェバリア氏は、近い将来に通信、小売、保険などの分野の顧客を公表する予定だと述べた。

カテゴリー:人工知能・AI
タグ:Sherpa音声アシスタント資金調達スペイン

画像クレジット:Jose A. Bernat Bacete / Getty Images

原文へ

(文:Ingrid Lunden、翻訳:Kaori Koyama)