ザッカーバーグ氏、音声コマンドでバーチャルワールドを作るデモを披露

Meta(メタ、旧Facebook)は、音声コマンドだけでバーチャルワールドでモノをつくったり、持ち込んだりできるAIシステムのプロトタイプを披露した。同社は「Builder Bot(ビルダー・ボット)」と呼ばれるそのツールを、メタバースの中で新しい世界を作るAIの可能性を見せるための「実験的コンセプト」だと考えている。MetaのCEOであるMark Zuckerberg(マーク・ザッカーバーグ)氏は、米国時間2月23日に行われたイベント「Meta AI:Inside the Lab(メタ・エーアイ:インサイド・ザ・ラボ)」で、事前録画されたデモを通じてそのプロトタイプを紹介した。

動画内でザッカーバーグ氏は、バーチャルワールドのパーツを組み立てるプロセスを、実際にやりながら説明した。彼は「let’s go to a park(公園へ行こう)」というプロンプトから始めた。するとボットが、緑の草原と樹木のある公園の3D風景を作る。ザッカーバーグが「actually, let’s go to the beach(では、砂浜に行ってみよう)」というと、ボットは現在の風景を砂と水からなる新しい風景に置き換える。次に同氏は雲を追加したいと述べ、すべてAIが生成していると説明した。そしてザッカーバーグ氏は、ひつじ雲のほうがいい、と言って風景を変えた。これはボイスコマンドが具体的な指示を出せることを示すためだ。

 

彼が海の上の特定の場所を指して「あそこに島を作ろう」というとボットが島を作った。続いてザッカーバーグ氏は、木々とレジャーシートを追加するなどいくつかのコマンドを発した。さらにカモメとクジラの音も加えた。ある時彼は、水中翼船まで追加した(彼のお気に入りのホビーの1つで、流行語にもなった)。

ビデオ全体を通じて、Builder Botはボイスコマンドを使って3Dオブジェクトを作り、風景に配置しているように見えた。Metaはプロトタイプを発表したブログ投稿で、このツールは「メタバースの創造性を加速します」というが、技術の詳細は明らかにしていない。

画像クレジット:Meta

この技術が成功すれば、他のVRワールドやプラットフォームにも影響を与える可能性がある。例えばゲームプラットフォームのRoblox(ロブロックス)は、 最近音声機能のテストを開始し、独自の開発プラットフォームを提供している。いつかこうした会社が、Metaのプロトタイプで見られたようなテクノロジーを導入して、世界を創造する同じような体験を実現すればおもしろい。

しかし現段階は、Builder Botの作る世界は、外観も機能もかなりシンプルだ。また、コマンドを声に出してオブジェクトを呼び出すのは最初は楽しいかもしれないが、もっと複雑な3D環境を作る方法としてスケーラブルな方法とはいえない。どちらかといえば、子どもがバーチャルワールドを作る入門レベルの練習場所として楽しいかもしれない(しかし、残念ながらMetaはすでに、同社のバーチャル環境が子どもにとって安全な場所ではないかもしれないことを証明している)。

Metaによるこのプロトタイプの発表は、同社がメタバースに数十億ドル(数千億円)を投資している中の出来事だ。2022年2月初め、MetaはReality Labs(リアリティー・ラボ)部門の財務状況を初めて発表し、2021年100億ドル(約1兆1500億円)以上の赤字だったことを明かした。2022年も損失は増えるばかりと予測していると同社が述べているところを見ると、Metaにはメタバースを作るためにつぎ込む無限の資金があるようで、他の小さな会社より先に成功する時間は十分あるに違いない。同社のメタバースへの莫大な投資は、今後も我々はメタバースを宣伝するためのプロトタイプをたくさん見るであろうことも示唆している。

真の「メタバース」は未だに存在していないが、このバズワードはザッカーバーグ氏とMetaによってこの1年間数多く使われ、2021年の企業ブランド変更のきっかけにもなった。ザッカーバーグ氏は以前、メタバースについて投資家に次のように説明した。「デジタル空間で人々とともにいられるバーチャル環境です。それは見ているだけではなく自分がその中にいる、一種の具現化されたインターネットのようなものです」。

Metaは同日のイベントで他にもいくつか発表を行った。AIを利用したチャットボットAIシステムカードツール、および and a 万能音声翻訳機だ。この翻訳機は話し言葉が主のものを含むあらゆる言語の同時通訳を行うもので、既存の翻訳システムを超えるだろうと同社は言っている。Metaによると、世界人口の20%は、既存の翻訳ツールが対応していない言語を話しており、同社は新しい機械学習技術を駆使してこれを解決する計画だ。

画像クレジット:Meta

原文へ

(文:Aisha Malik、翻訳:Nob Takahashi / facebook

アプリに音声と動画によるコミュニケーション機能を組み込むVoximplantがベータ版をリリース

ここ数年、音声やビデオのコミュニケーション機能をアプリやサービスに統合するためのサービスが急増している。Twilioや、Googleが開発する自然言語処理(NLP)プラットフォームのDialogflowなどだ。

サンフランシスコを拠点とするVoximplantも同様のサービスを開発し、Avatarプロダクトのベータ版を公開した。同社はこれまでにBaring Vostok Capital Partners、RTP Ventures、Google Launchpad Acceleratorから1010万ドル(約11億6200万円)を調達した。

同社はすぐに使える自然言語処理サービスを提供しており、開発者はこれを利用してアプリに自然言語処理機能を組み込んでスマートIVR(自動音声応答システム)や音声ボット、チャットボットの機能を追加し、インバウンド通話の自動化、FAQ、インタラクティブなアンケート、NPS(ネットプロモータースコア)、コンタクトセンターの自動化などに活用できる。

Voximplantによれば、同社のサービスでは開発者が複雑なバックエンドのロジックを構築する必要はなく、ノーコードのエディターと会話型AIにより、AI搭載ボットを開発してチャットや電話と簡単に統合できるという。

同社はさらに、機械学習に関する部分はすべてプラットフォームが処理するため、開発者は基本的なJavaScriptの知識があれば十分だと説明している。

Voximplantの共同創業者でCEOのAlexey Aylarov(アレクセイ・アイラロフ)氏は発表の中で「次世代のCPaaS(Communications Platform as a Service)はインテリジェントなサービスとプログラミングが簡単なオムニチャネルのコミュニケーション機能を融合したものであり、これを実現することで現在と将来の当社顧客に最大の価値をもたらすと確信しています」と述べている。

画像クレジット:Flashpop / Getty Images

原文へ

(文:Mike Butcher、翻訳:Kaori Koyama)

進化したヒトの脳はサルより回転が遅い? 新潟大学脳研究所が霊長類4種類で検証

進化したヒトの脳はサルより回転が遅い? 新潟大学脳研究所が霊長類4種類で検証

新潟大学脳研究所は、音を聞いてから大脳がそれを分析するまでの時間を、霊長類4種類で測定したところ、ヒトがもっとも遅かったという研究結果を発表した。サルよりも発達した脳を持つ人間のほうが、脳の処理に時間がかかるということだが、これは退化ではなく、むしろ進化の結果だという。

新潟大学統合脳機能研究センターの伊藤浩介准教授、京都大学霊長類研究所の中村克樹教授、京都大学野生動物研究センターの平田聡教授らによる研究グループは、ヒト、チンパンジー、アカゲザル、コモンマーモセットの4種類の霊長類を使って、音に対する大脳聴覚野の応答時間を脳波で無侵襲で計測した。音によって大脳の聴覚野から誘発されるN1という脳反応が、何ミリ秒後に生じるかを調べたものだ。その結果、コモンマーモセットが40ミリ秒、アカゲザルが50ミリ秒、チンパンジーが60ミリ秒、そしてヒトが100ミリ秒ともっとも遅かった。

脳は大きいほど、つまり脳細胞が多いほど発達しているという。脳細胞が多いので、ヒトの場合はその他の動物にくらべて、N1反応が現れるまでに多くの脳細胞を通過して多くの処理が行われているわけだ。そのために遅れる。決して、伝達速度が遅いわけではない。

N1反応は、無音から音が鳴ったり、鳴っていた音が消えたり、音の高さが急に変化したりするなど音が「変化」したときに誘発されるのだが、変化を検出するには、その前後の音と比較する必要がある。瞬間の音を認識するというよりは、時間軸上に開いたある程度の長さの「時間窓」で、音を一連のつながりの中で分析を行う。研究グループによれば、ヒトは「音を分析する時間窓が長い」のだそうだ。音の時間窓が長いということは、視覚で言えば視野が広いのに相当する(音の変化をストロボのように瞬間ごとでなく、一連のものとして大局的に捉える)。これは「言語音のように時間的に複雑に変化する音の分析に有利」なのだという。

処理に時間がかかるのはデメリットだが、時間窓が広がり複雑な刺激を処理できるようになったことは、「デメリットを補って余りあるメリット」だと研究グループは話す。また、それがあるからこそヒトの脳は大きくなり進化したというのが、この研究成果に基づく新仮説とのことだ。

今後は、様々な感覚や認知を、長い時間窓でじっくりと大局的な処理をすることで、動作が遅くても高度な機能を獲得したのがヒトの脳、とする仮説の検証を目指すという。

「気になったら、アポイントなしでその場でオンライン商談」ウェブ接客ツールOPTEMOのジェイタマズが8500万円調達

ウェブサイト上で企業と顧客がワンクリックで商談可能な接客ツール「OPTEMO」(オプテモ)を運営するジェイタマズは1月18日、シードラウンドとして、第三者割当増資による総額8500万円の資金調達を実施したことを発表した。引受先はSBIインベストメント、千葉道場ファンド、Headline Asia、Skyland Ventures。

調達した資金は、プロダクト開発および採用・組織体制の強化にあてる。今後は、大学との共同研究に向けた取り組みを強化し、AIを活用することでインサイドセールスが最適なタイミングで最適な対応を実現できるプロダクト強化を推進するという。

OPTEMOは、「アポイントを取らずにその場で商談する」をウェブ上で実現する接客ツール。既存ウェブサイト上でワンクリックするだけで、顧客と音声通話が行える。また、自社サイト訪問者がどのページを見ているのかをリアルタイムで可視化することで、顧客が求めるタイミングで企業側から声をかけることも実現可能。個人情報や特別なツール、専用URLなどは不要で、今見ているウェブサイト上でそのままオンライン商談を行える。

ジェイタマズは「ヒト、コト、モノがさっとはまる」をビジョンに掲げ、2020年7月に設立したスタートアップ企業。従来の「問い合わせフォーム経由でしかコミュニケーションが取れない」という状況をアップデートするため、OPTEMOを運営している。

ジェイタマズ代表取締役CEO小池桃太郎氏は、「ビデオ会議ツールが営業で当たり前になっている現在、OPTEMOは『企業と顧客の最初の接点』であるウェブサイトの体験をアップデートするもの」と位置付けている。新たなウェブサイトの体験を社会実装し、「気になったときにさっと会話する」ことで、お互いの理解を進め、企業と顧客の関係性をウェブで最適化することを目指す。

フェアリーデバイセズが首掛け型ウェアラブル機器THINKLETの指向性集音機能をNTTテクノクロスと共同開発

フェアリーデバイセズが首掛け型ウェアラブル機器THINKLETの指向性集音機能をNTTテクノクロスと共同開発

産業用の音声認識技術やエッジAIデバイスの開発提供を行うフェアリーデバイセズは1月5日、首掛け型ウェアラブルデバイス「THINKLET」(シンクレット)のための高度な指向性集音エッジソフトウェアを、NTTテクノクロスと共同で試作開発したことを発表した。同試作ソフトウェアは「LINKLET(インテリジェントマイク版)」として、1月5日より開催のデジタル技術見本市「CES 2022」に参考出展する。

THINKLETは、スマートフォン同等の処理性能とLTE通信機能を備える現場向けのウェアラブルデバイス。音声や内蔵カメラで撮影した画像などの現場データの収集・学習・自動化・支援を可能にする「コネクテッドワーカーソリューション」だ。広角カメラに加え、高性能なマイクを複数搭載するほか、エッジAI処理や5チャンネル・マイクアレイを活用した指向性集音機能で、工場や作業現場などの雑音の大きい場所で、会話や特定方向の音を聞きやすくするという。「THINKLET Cloud」に接続されていることから、現場の声のテキスト化も可能。

またフェアリーデバイセズは、その応用ソーリューションの1つとして、ZoomやMicrosoft Teams(2022年春頃めどにリリース予定)に対応し、1人称視点での遠隔支援・ライブストリーミングをハンズフリーで実現するウェアラブルプロダクトのLINKLETを展開している。フェアリーデバイセズが首掛け型ウェアラブル機器THINKLETの指向性集音機能をNTTテクノクロスと共同開発

これまでフェアリーデバイセズは、多チャンネルマイクを利用したフロントエンド音響信号処理、雑音抑制、発話区間抽出、エコーキャンセル、ボイスウェイクアップなどの技術を複合した音声エッジAIライブラリー「mimi XFE」を提供してきたが、そこにNTTテクノクロスのインテリジェントマイク技術を組み合わせることで、高度で柔軟な指向性集音機能が実現されたという。

THINKLETは、すでにその指向性集音機能が評価されているが、今回の共同開発では雑音抑圧性能が大きく向上した。また、指向性を自由に制御できるようになり、装着者の声、目の前にいる人の声、特定方向の機械音などを選択的に聞くことが可能になった。これらにより、熟練作業者による円滑な遠隔作業支援、現場作業の対話記録、音声対話AIによる作業指示、機器の異常音検知などの性能が向上する。

フェアリーデバイセズが首掛け型ウェアラブル機器THINKLETの指向性集音機能をNTTテクノクロスと共同開発

今後は、革新的な音声フロントエンド処理のための技術開発を共同で進め、THINKLETを導入している現場からデータを集め活用することで、「世界中の現場DXに積極的に貢献」すると、フェアリーデバイセズでは話している。

【コラム】完全なソーシャルメタバース体験は「音声」の要素が揃うことで実現する

Facebook(フェイスブック)の社名がMeta(メタ)に変更されたことで触発された「メタバース」にまつわる会話の多くは、ビジュアル的な要素に焦点を当てている。ほとんど言及されていないのは、オーディオだ。しかし仮想環境を現実のものにするには、音声は間違いなく重要になる。

時には、それがすべての場合もある。

Spike Jonze(スパイク・ジョーンズ)に尋ねてみよう。この映画監督は、2013年の映画「Her(her/世界で1つの彼女)」のタイトルロールで、その声を演じていた当初の女優を降板させ、Scarlett Johansson(スカーレット・ヨハンソン)の官能的な音声に置き換えた。コンピューターオペレーティングシステムであるサマンサは生身の人間として登場することはなかったが、ジョーンズは、元の女優が三次元のペルソナを作るのに必要な感情をうまく表現できていないと感じたのだ。

視聴者をストーリーの前提に引き込み、十分真実味のあるストーリーに仕立ててくれる、洗練されたキャラクターを作るのに、音声は不可欠な要素であった。

The Washington Post(ワシントン・ポスト)が指摘しているように、Metaのメタバース構想の要となるものは、その多くがビデオゲームの世界に、ただし分断されたゲームの世界に限られるが、すでに存在している。ゲームの世界では、音声がますます重要な役割を果たしている。Metaは、統合された相互運用可能な体験を約束しているが、高度にテクスチャ化された、生き生きとしたデジタル音声が豊富に含まれていなければ、メタバースは包括的で没入的というよりは不完全なものになるだろう。

1970年代半ばのMcGurk Effect(マガーク効果)の研究では、聴覚と視覚の認識の不一致から生じる認知的不協和が観察された。アバターと十分に合致しない音声は、参加者を仮想環境から切り離す可能性がある。

本当の自分を表現する

人間は社会的存在であり、現在推進されているメタバースは、参加者が家庭と職場の両方で独特のペルソナを作り出す社会的環境である。アバターを使えば、プレイヤーは自分が見られたいように自分を表現することができる。人間、宇宙人、動物、野菜、漫画やその他無数の選択肢があるだろう。プレイヤーは新たな装いを試すように、一時的に新しい「ルックス」を試用できる。ジェンダーと種は流動的である。

しかし、視覚的な存在感に合わせて自分の声の聞こえ方を変えることができなければ、アイデンティティの変化は妨げられる。自分の声を他の人に提示するペルソナに合わせることは、パーソナライズされたプレイヤーアイデンティティの中核的要素である。この状況はすでに多くの人がビデオゲームで慣れているものだ。

プレイ中のゲームで、あごひげをはやした無骨で巨大な騎士に遭遇した場合、そのキャラクターは深く荒々しい声をし、甲冑を身にまとっていることが予想される。ゲーム会社は、ノンプレイヤーキャラクター(NPC)を声優とオーディオの専門家が入念に制作し、没入感のある体験を提供することで、こうしたイメージの伝達を確保している。

しかしオンラインゲーム環境や将来のメタバースでは、その騎士は実在する人物が表現するものとなり、体験は大きく異なってくる。予想されるような太くしゃがれた成熟味ある声ではなく、マイク品質に問題のある甲高いティーンエイジャーの声を聞いて、困惑することもあるかもしれない。音と視覚の間の極端な不一致は、体験の没入的な質を損なう。メタバースアバターに十分な没入感を持たせるには、人々が完全なデジタル体験を作り出せるよう配慮する必要がある。

カバーの提供

ソニック(音響の)アイデンティティの技術は、没入感の提供に加えて、プレイヤーに「真の」匿名性をもたらし得る。彼らは、他人に見てもらいたいと思うような人物(または存在)になることができる。これは多くの人にとって、時には敵対的なオンライン環境からの強力な保護となるだろう。地理的な特徴をわからないようにして、参加者がプレイヤーコミュニティをよりスムーズに統合できるようにすることも考えられる(オフショアのカスタマーサポートコールセンターが恩恵を受ける可能性のあるケイパビリティだ)。音声チックを有する人にとっては、明らかにしたくない身体障害を覆うことにもつながる。

音声変更技術は、オンラインでの差別や嫌がらせを緩和するのにも役立つ。医学専門誌「International Journal of Mental Health and Addiction(メンタルヘルスと中毒に関する国際ジャーナル)」に2019年に掲載された研究によると、女性ゲーマーは他のプレイヤーとの口頭でのコミュニケーションを避け、不快なやり取りを減らすことが多いという。音声変更技術により、特定のジェンダーに関係なく、完全に匿名性が確保された会話に参加することが可能になり、自分自身をより快適に表現できるようになる。

学術誌「Human-Computer Interactions(ヒューマンコンピュータインタラクション)」の研究者らは2014年に「音声はオンラインゲームの体験を根本的に変え、仮想空間をより強力に社会性のあるものにしている」と結論づけている。

筆者自身の会社のデータからは、音声でコミュニケーションを取るプレイヤーは、よりゲームに没頭するように感じる自意識に変容し、より長い時間ゲームに関わり、結果としてゲーム内でより多くのお金を投じるようになることが明らかになっている。

メタバースに欠けているもの

真に完全な没入型体験を実現するには、3Dビジュアルとリアルタイムオーディオを組み合わせて、人々が自分自身の表現を行う上で、耳を傾けてもらいたいという彼らの思いに添う形で実現できるようにする必要がある。参加者は、自分の視覚的アバターと同じくらい独創的で独自性のある自分自身の音響表現を望んでいる。そして、自分の声を外見と同じようにきめ細かくカスタマイズするツールを求めている。プレイヤーの没入感とエンゲージメントを維持するには、拡張されたオーディオと3Dビデオの両方が調和している必要がある。

リアルタイムオーディオは、人々がどのようにして究極の個性をコンテンツにもたらすことができるかを定義し、オーディオをメタバースのすばらしいイコライザーとして機能させる。残念なことに、現在の音声体験は、すべてを網羅するメタバースの約束に沿った没入的な品質を提供することが難しくなっている。

熱心なアーリーアダプターたちの実験にもかかわらず、リアルタイムオーディオのペルソナは、良くても制限的だ。人の音声をデジタルの自己に合わせるためのツールは限られており、音質は視覚的な品質にまだ及ばない。

だが、利用可能なオーディオ技術における最近の進歩は、プレイヤーによる独自のソニックアイデンティティ形成を現状よりはるかに容易なものへと変えようとしている。プラットフォーム開発者やゲーム開発者が利用できる新しいソリューションにより、ライターやプロデューサー、オーディオエンジニアは、ゲーム内に音声修正技術を組み込んで、自然に聞こえるファンタジー音声をオンデマンドかつリアルタイムで生成できるようになっている。

このことは、プレイヤーを魅了して完全にフォーカスさせ、離れさせることなくその体験へのエンゲージメントを維持するような、包括的で没入的な聴覚体験の提供を通して、収益化のための新しい道を生み出す可能性へとつながっていく。

企業は、人々がデジタル空間で自分自身の視覚表現を形作ることを可能にする、強力なツールへの投資を進めている。こうした企業は、デジタル表現がシームレスになるソーシャルオーディオ体験に合わせてカスタマイズされた、ソニックアイデンティティを見過ごしてはならない。

メタバースはそれなしでは完成しないだろう。

編集部注:本稿の執筆者Jaime Bosch(ハイメ・ボッシュ)氏はVoicemodの共同創設者兼CEO。

画像クレジット:luza studios / Getty Images

原文へ

(文:Jaime Bosch、翻訳:Dragonfly)

レブコムの音声解析AI電話MiiTelが東京都全域の保健所で採用、新型コロナ陽性患者への電話業務・療養支援に活用

東京都がレブコムの音声解析AI電話「MiiTel」を全保健所に導入、新型コロナ感染者対応などの電話業務を効率化へ

音声技術とAIでコミュニケーション課題を解決する企業RevComm(レブコム)は12月22日、音声解析AI電話「MiiTel」(ミーテル)が東京都のすべての保健所に採用され、新型コロナウイルス感染症の陽性患者に対する電話業務に活用されることになったと発表した。

MiiTelは、IP電話、自動文字起こし、音声解析などがひとつにまとまった、電話業務効率化のためのシステム。固定電話器がなくてもPCで利用が可能になる。たとえば、通話内容をAIが自動的に解析し、文字起こしと要約を行ってくれるほか、営業やコールセンターで活用できるさまざまな機能を備えている。

2021年11月には、東京都福祉保健局が、新型コロナウイルス感染症の陽性患者に対する積極的疫学調査や健康観察のための電話業務を効率化する目的で、すでに一部の保健所に「MiiTel」を導入していた。今回、多摩地区と島しょ部を含む、東京都全域のすべての保健所に導入が広げられることになったわけだ。東京都福祉保険局では、保健所の電話業務の効率化と、迅速な患者の療養支援に向けたサポートを行うとしている。

レブコムの音声解析AI電話MiiTelがノーコードのワークフロー自動化ツールZapierと連携開始

レブコムの音声解析AI電話MiiTelがノーコードのワークフロー自動化ツールZapierと連携開始

RevComm(レブコム)は12月10日、同社音声解析AI電話「MiiTel」(ミーテル)と、Zapierのワークフロー自動化ツール「Zapier」との連携を開始したと発表した。従来のSalesforce、Slack、Kintoneなどとの連携に加えて新たにZapierとも連携可能となったことで、より様々なアプリケーションやサービスと組み合わせる形で業務を自動化しやすくなった。

Zapierは、複数のウェブアプリやサービスを連携させることで、日々の業務で発生する定型的な作業をプログラミング不要で自動化できるツール。「Googleスプレッドシート」「Chatwork」「Microsoft Teams」など、3000以上のアプリケーションやサービスをサポートしている。RevCommは、MiiTelが生成する様々なデータを各種サービスと連携させることで、業務効率のアップ、また新たなインサイトの発見に役立てられるとしている。

Zapier連携機能では、現在4つの「Trigger」(トリガー。処理開始のきっかけとなるイベント)を利用できる。

Zapier連携機能で利用できるTrigger

  • Incoming unanswered:不在着信。利用例は、「不在着信があった場合に、Gmailへメッセージを送信」など
  • Phone analysis completed:音声解析完了。利用例は、「MiiTelの音声解析完了時に、応対履歴を利用中のSFAやCRMへ連携」など
  • Video analysis completed:動画解析完了。「MiiTel Live」「MiiTel for Zoom」(ベータ版)利用ユーザー向けの機能。利用例は「ミーティング動画の解析完了時に、音声認識結果をGoogle ドキュメントとして保存」など
  • Answering Machine recorded:留守電録音。利用例は、「留守番電話があった場合に、Chatworkへ留守番電話の通知メッセージを送付」など

空間音響技術スタートアップのクレプシードラ、自宅トイレがお化け屋敷になる「密閉シアター『いるかもしれない』」発売


空間音響技術のスタートアップ「クレプシードラ」は11月18日、独自の空間音響技術を活用したスマホ音声ホラーコンテンツ「密閉シアター『いるかもしれない』」の発売を開始した。

11月19日は「世界トイレの日」。「一年で最もトイレに関心が集まる」というこの日に先立ちクレプシードラが発売を始めたこの体験コンテンツは、音の臨場感、繊細さ、質感を再現し、あたかもその場にいるような音響体験を実現する空間音響技術「Re:Sense」を活用した、「聞いているだけでリアルな世界に引き込まれていく」というもの。

あなたはご存知ないかもしれない。
その家のトイレでは、女性が亡くなっている。恋愛のもつれから、自ら命を絶ったようだ。
亡くなったとき、不審な点が1つあった。女性の口腔内に鈴が残されていたらしい。
思い当たることはないだろうか?
深夜にトイレに入ったとき、チリンと鈴の音が聴こえたことは。
おっと、振り返ってはいけない!
背後のトイレのタンクを見てはいけない…

といった感じ。

遊び方はこうだ。販売サイトでコンテンツを購入手続きを行い、送付されるURLにアクセス。ヘッドホンを装着して、電気を消したままトイレに入って便座に座る。スマホは画面を伏せるかポケットに入れて、「女の霊の気配に集中」する。

このコンテンツをプロデュースしたのは、30年近くにわたりお化け屋敷を作ってきた、お化け屋敷プロデューサーの五味弘文氏。Re:Senseを体験したときに強い衝撃を受け、多くの人に体験してほしくなったと話している。

これは、自宅のトイレだけでなく、マンションの一室やタクシー、教室などの閉鎖空間を舞台に「あるはずのないなにかと出会う」体験型コンテンツ「密閉シアター」の第1弾。今後は、ホラーだけでなくサスペンスやミステリーなども想定しているそうだ。

「密閉シアター『いるかもしれない』」は500円のところ、現在は期間限定の350円(税込)で提供されている。購入はこちらから

「映像やテキストよりもリアルな人そのものを届けたい、残したい」、Voicyが目指す世界観

Voicyとスタディプラスが「大学に特化した」音声配信サービス開始、初期導入大学として新潟医療福祉大学が決定

2021年10月27日~31日の5日間にわたり、音声プラットフォーム「Voicy」は「Voicy FES ’21」を開催した。これは、総勢70人以上のパーソナリティによる50以上のセッションを「放送」する声の祭典だ。

なぜこのような大がかりなフェスを行うに至ったのか、またVoicyというサービスそのものや、それが生まれた背景について、Voicy代表取締役CEOである緒方憲太郎氏と参加パーソナリティの1人、国家資格キャリアコンサルタント / フリーアナウンサー 戸村倫子氏に話を聞いた。

織田信長のような魅力ある人のエッセンスを声で残したい

Voicyは「声のSNS」「声のブログ」ともいえる音声プラットフォームだ。配信者はVoicyアプリを使い10分未満の音声を録音して配信、リスナーはVoicyアプリまたはウェブブラウザを通じて番組を聴取できる。

利用時の基本料金は無料だが、お気に入りを含む任意のパーソナリティへねぎらいや感謝の気持を持って「差し入れ」を贈る機能や、特定のパーソナリティに毎月課金することで特別な放送の聴取権を得られる、いわゆる「推し」との強い絆を結べる「プレミアムリスナー」機能もある。

通常、「月額制」といえば、サービス全体に課金するものが多い。パーソナリティとリスナーが結びつくような仕組みは一風変わっている。

これが、単なる音声ブログではなく、音声SNSとも呼べる理由である。リスナー側から音声を発信することはできないが、コメントや「いいね」でリアクションできるうえ、プレミアムリスナーにはそれとわかるシンボルがコメントに付され、応援している、応援されている、という感覚をお互いに持つことができるからだ。

では、Voicyはどういった背景で誕生したのだろうか。

緒方氏は、Voicyという音声プラットフォームを「コンテンツではなく、人を届けるツール」と位置づけている。「魅力的な昔の人、例えば織田信長の声を聞けるのであれば、聞きたいですよね?未来のある地点から現在を振り返ってみて、魅力的だと思われる人の声を残し、聞くことのできる、人を届けられるサービスだと考えている」と説明した。

Voicyの収録アプリでは、音声を編集できない。そのことには2つのメリットがある。

1つは、「人そのもの」をリスナーに届けられること。「生活音が聞こえることで、その人の日常に想いを馳せられるし、その人の感情が生々しく伝わる」と緒方氏。「テキストや動画では、加工できるから加工された人物像しかユーザーには伝わらない。Voicyは、画像なしの動画ではなく、その人そのものをさらけ出し、人を届けられる」という。

もう1つは、配信者に負担を強いることがないというもの。

「魅力的な人、魅力的な情報を持っている人が、受信者が簡単に時間をかけず楽しめるよう、多くの時間をかけて配信用コンテンツを作っているのが、既存サービスの欠点だった。そのようなことでは、ただでさえ忙しい魅力あるリアルが充実している人が、配信サービスから離れてしまう。しかし、Voicyでは、10分のコンテンツを作るのに必要な時間は10分だけ。配信者に負担を強いることなく、またリスナー側も簡単にサービスを利用できるようになっている」と緒方氏はいう。

音声プラットフォームにこだわるのには、緒方氏の背景が関係している。というのも、緒方氏の父親はプロのアナウンサーとしてテレビ局やラジオ局で、いわゆる「声の仕事」をしていたからだ。

「父親も含め、アナウンサーたちが声だけで人々を魅了している場面を目にしてきたが、話す枠がなければ、その魅力を発揮できません。1人1枠、自分のチャンネルを持つことができれば、いつでも自分のリスナーに声を、自分の魅力を届けられるのにと考えました」。

また、公認会計士という緒方氏のキャリアも関係している。ベンチャー企業のブレインとして国内外問わず情報収集で回っているうちに、声を届けるプラットフォームがないと感じ「世の中にまだない新しいものを作りたい。ITの力で、声による人の魅力を届けるものを作りたい」とのことで、Voicyを2016年に創業したのだ。

ニューノーマル時代の聴取スタイルの変化

創業から4年ほど経過し、世の中を新型コロナウイルス感染症が襲った。人々は、外出を控えるようになり、自宅にこもることを余儀なくされた。このことは、Voicyのリスナーやサービスに影響を与えたのだろうか。

「通勤時間帯に聴取してくれているリスナーが多かったため、その部分で若干、利用率が下がったこともあった」と緒方氏。しかし「家の中で聞いてもいいんだ、という気づきがあってからは、家事など、何かをしながら聞いてくれるリスナーが増えたし、バラエティに富んだ放送が増えてきた」と振り返る。

また緒方氏は「生活しながらでいい、手を止めなくていい、ということで、むしろ聴ける時間が増え、わたしたち側ではパーソナリティの人となりをたくさん届けられるようになったと、好影響があったのではないかと感じている」という。

届けられる「人」を応援したい人たちが集まったVoicy FES ’21

そのような中、大規模なフェスが行われたわけだが、これにはどのような意図があったのだろうか。

緒方氏は、2つの理由を挙げた。

1つは、ある文化を作るには熱量が重要であると考えていること。もう1つは理解や認知を得たい、ということだ。

「声で人を届けるという文化を作り上げる中で、一極に熱量を集中させるタイミングが必要だと感じた。そこで、チケットを購入すれば、誰でも全プログラムを生で、またアーカイブで聴取できるフェスを開催することにした」と緒方氏。また「新しいものを作ると、理解されないことが多い。存在感を主張することで、理解や認知を深めたいと考えた」と説明する。

Voicyでは、2018年から2020年の間、「Voicyファンフェスタ」としてファンと配信者の交流イベントを行ったが、今回は参加パーソナリティ数、セッション数、期間などの規模をアップ。チケット購入で参加(聴取)できるようにした。

結果、参加者は6600人。これはリアルイベントでいえば東京国際フォーラムのAホールを埋め尽くすほどの人数だ。また公式Voicyフェスグッズなどの特典付きで、通常チケットより高額なスペシャルサポーターやサポーター枠もすぐに完売したという。

緒方氏は「それぞれ40人ずつの募集だったが、即完売。それほどパーソナリティたちを支えたい、応援したいというユーザーが多いんだなと実感できた」と想いを語った。

戸村氏は、Voicyの人気番組「ながら日経」の月曜日を担当するパーソナリティ。セッションへの登壇を直後に控えているタイミングだったが、Voicyのパーソナリティになったきっかけや、その影響、またフェスへの想いについて聞くことができた。

もともと、ラジオ局とテレビ局など3社で報道に関わる仕事をしていたという戸村氏。ライフスタイルの変化により、仕事との両立が難しくなり、いったん離れたが、ニュースを発信したいという想いを抱き続けていた。

そのようなときに、ながら日経パーソナリティの募集があることを知り、応募し、見事、オーディションを通過した、というわけだ。

「音声でニュースを届けられるため、高いクオリティを持ちつつ機動力もあるのが魅力」とVoicyというプラットフォームについて語る戸村氏。Voicyで配信するようになってから「子ども向けの話し方講座や学生向けキャリアセミナーなどで、聞いているよと声をかけてもらうことが増え、認知度の高まりを実感している」という。

フェスについては「普段は、音響のことを考え、ウォークインクローゼットの中で収録しているが、フェスでは他のパーソナリティに会える。同窓会のような、文化祭のようなこの雰囲気を楽しみたい」と語っていた。

作り手も楽しんでいるからこそ、リスナーも楽しめるし、応援したくなるのか、と話を聞きながら感じることができた。

音声市場はオワコンではない

2021年に入り、海外製音声サービスが上陸し、国内では熱狂的に迎えられた。それに追随するかたちで、Twitterなど古参のSNSサービスでも、音声でのやり取りに力を入れるようになった。

早い段階で海外製音声サービスが冷めてしまったことについて、緒方氏は「あれは、音声というよりオープンなミーティングサービス。リアルタイム性が求められるので、仕方ないところはあるだろう」と分析。そのうえで「音声業界は伸び続けているし、音声会話サービスを始めたTwitterなど他のサービスとは、音声SNS文化をともに作り上げていく仲間だと考えている」と思いを述べた。

事実、Voicyの年間UUは1100万人。実に、日本人口の10分の1近くに上る。また、配信登録者数は1000人を超えており、さらに毎月の応募者の中から3%ほどが審査を通過しているため、今後も増加が見込まれる。

「今は、トップスピーカーに牽引してもらいたいため、応募からの審査という流れになっているが、数年先には誰でも自分の番組を持てるようにしたい」と緒方氏。「音声での『人』のエッセンスをどんどん蓄積していけたら」と抱負を述べた。

最後に、Voicyの今後の展開について語ってもらった。

「今は、テキストにしろ、動画にしろ、情報を得るためにいったん立ち止まる必要がある。しかし、近い将来、耳さえ空いていればいつでも情報を取り入れられる、自分の好きな“人を聴ける”ようになる。

海外では、音声市場がかなり活性化してきているので、国内でも、耳から取り入れる「note」と言われるような立ち位置を目指していきたい」。

なお、Voicy FES’21を聞き逃した、あるいは興味が出てきた、という人は、今からでもチケット購入により、11月いっぱいはアーカイブを聴取できるとのこと。人そのものが声で届くという感覚を味わってみるのはどうだろうか。

スカイディスクとトヨタ自動車九州、品質検査で「音」を聞き分けるAI異音検査システムを共同開発し本稼働開始

スカイディスクとトヨタ自動車九州、品質検査で「音」を聞き分けるAI異音検査システムを共同開発し本稼働開始スカイディスクトヨタ自動車九州は11月4日、レクサスを生産するトヨタ九州宮田工場の検査ラインにおいてAIを活用した異音検査システムを2021年8月から導入し、本稼働を開始したと発表した。異音検査のAI活用は、設備保全分野で多数の事例があるものの、品質検査分野での実装は国内初という(2021年10月までに公開された実証実験を除く、AI実装の事例対象。スカイディスク調べ)。

レクサス完成車の検査項目の1つに、走行中に車内で異音がしないか最終確認する「車内異音検査」があり、この車内異音の検査工程にAI異音検査システムを導入した。今後は、今回の実績を基に宮田工場内の別の検査ラインへの導入を検討する。

トヨタ九州宮田工場は、レクサス製造拠点として各工程に熟練工を配し、世界トップレベルの品質を守り続けているという。ただ、出荷前の検査項目である異音検査は、検査員の聴覚で「音」を聞き分ける官能検査であるため、個人の聴力に影響を受けやすい工程となっていた。また将来予想される検査員の高齢化による聴力の衰えや個人差に対応するため、2018年1月からAI化の検討を開始したという。

スカイディスクが開発した音に特化したAI分析ソリューションは、検査走行中の車内の音データを人の聴覚特性に基づいて分類し、抽出された約1万個以上の特徴量から異音を判定するAIモデルを作成するというもの。今回の取り組みでは、スカイディスクとトヨタ九州が、AI分析ソリューションをレクサス製造ラインに合わせてカスタマイズし、AI異音検査システムを共同開発した。

システム概要と導入ステップ

スカイディスクのAI分析ソリューションでは、対象の音に合わせたマイク選定が重要という。そこで今回は、新たに車内異音用に集音マイクを選定し、異音検査における音データをデータベース化した。データに基づいた安定した検査品質の実現のため、熟練検査員の経験や判断をAIに学習させて、検査精度を高めたそうだ。

2018年4月から、実際の工程でAI異音検査システムの検証を開始。実運用に向けて繰り返し精度向上に取り組むとともに、システム構築を含めた最終調整を実施した。検査精度が安定的に確保できたことから、2021年8月に本稼働を開始した。

両社は、このAI異音検査システムの開発・導入により、検査員の聴覚に依存していた検査工程の属人化解消・品質安定化を実現したとしている。また、検査作業者の耳の負担や凹凸のある検査路面を運転する際の身体的負担も低減できたそうだ。高い検査品質が求められる最終検査工程かつ、特に人の身体能力に依存し標準化が困難だった異音検査で導入できた実績を基に、今後は他の検査工程への展開も検討するそうだ。スカイディスクとトヨタ自動車九州、品質検査で「音」を聞き分けるAI異音検査システムを共同開発し本稼働開始

一般に、官能検査による検査工程は、熟練検査員の経験により不良原因まで推測されるなど、品質管理の向上に寄与してきた歴史があり、検査員が音を聞いて良品・不良品を判断する異音検査もその1つとなっている。しかし異音検査では、人の聴覚で聞き分けるために定量的な判定基準を設けることが難しく、また検査対象の「音データ」が蓄積されていないため、検査員同士での共有・継承が困難だ。

スカイディスクによると、これら課題をAI分析ソリューションで解決するには、まずは適切なデータ収集(集音)から着手する必要があるという。ものづくり現場の様々な制約条件を考慮した上で、AI開発に最適なデータ収集、ハードウェア・設備を含めたワークフロー設計・開発まで取り組むことで、AI実装による課題解決が実現したとしている。

バルテックの全通話録音システム「MOT/PBX V4」がRevCommの音声解析AI採用、音声テキスト化が可能に

バルテックの全通話録音システム「MOT/PBX V4」がRevCommの音声解析AI採用、音声テキスト化が可能に

通信機器やソフトウェアの開発販売を行うバルテックは11月2日、MOT/PBXの全通話録音システム「MOT/PBX V3」に、RevComm(レブコム)の音声解析AI「MiiTel」(ミーテル)のAPIサービスを導入した「MOT/PBX V4」をリリースした。

MOT/PBXとは、ビジネスフォンに変わる次世代型ビジネスフォンとしてバルテックが提供している、法人向け電話サービス。スマートフォンやパソコンを内線化して、外線通話、FAX、チャットなどに対応できるようにするものだ。MOT/PBX V4は外線通話に対する全通話録音が可能な上、RevCommが提供する音声解析AI「MiiTel Speech API」を実装したことで音声テキスト化が行えるようになった。

MiiTel Speech APIの特徴は、録音された会話の音声ファイルをAIで自動的に解析し、会話内容の全文書き起こしに加え、話し方の速さ、抑揚、その他の特徴を可視化できること。電話営業や顧客対応がリアルタイムで解析されるため、オンライン商談の成約率の向上などにつなげられる。

保存された通話データには、通話開始時間、通話時間、相手先電話番号情報が含まれる。また、データはリスト管理され、検索画面で必要な音声を再生したり、削除やバックアップなども行える。通話のテキスト化は、これまでは録音を聞きながら後から文字起こしする必要があり、発言内容の確認などにも手間がかかったが、そこが丸ごと自動化され、時間が大幅に節約される。

バルテックでは、コールセンターなどでの顧客クレームの共有やリスク回避、秘書や電話担当スタッフの依頼事項に対する伝達の補い、エビデンスを残すことによるコンプライアンス遵守といった利点を挙げている。

 

Facebook Messengerの音声通話がOculus Questでも可能に

Facebookは、同社のヘッドセット「Quest」を使ったVR体験の参加プロセスを改善したいと考えている。米国時間10月28日に開催された同社の「Connect」カンファレンスで、QuestのユーザーがMessengerを介して音声通話が行えるようになると発表された。この機能は、2021年後半に利用可能になるという。

Questはこれまで、ソーシャルインターフェースに苦戦してきた。2020年、ユーザーにFacebookのIDでサインインすることを義務づけたことは、同社の広報活動に支障をきたしたが、そのおかげでソーシャルワークフローの冗長性を排除することができた。

ユーザーは「Quest」に搭載されたMessengerから直接、通話したり、メッセージを送ったり、自分の「パーティー」に参加してもらうことができるようになる。

2021年初め、Facebookは、Oculusのエコシステム内でのMessengerチャットのサポートを発表しましたが、音声通話は、ユーザーがVRミーティングをより効率的に開催するのに役立ち、また、VR内での入力作業を回避するのに役立つだろう。

関連記事:Oculus QuestでFacebook Messengerが利用可能に、承認前のコンテンツを提供するApp Labの導入も

画像クレジット:Facebook

原文へ

(文:Lucas Matney、翻訳:Katsuyuki Yasui)

OKIが東京ドームでの「声を出さない応援」の測定・分析に成功

沖電気工業(OKI)は10月28日、東京ドームでのプロ野球の試合中に、観客がどれだけ歓声をあげているかを測定し分析する実証実験を実施したと発表した。コロナ禍で声を出す応援が禁止される中、観客の歓声だけを抽出し、声を出さない応援がどれだけ守られているかを確認するためのものだ。

実験が行われたのは、東京ドームで行われた東京読売ジャイアンツの試合のうち、4月と7月の2回。特別に指向性を高めたマイク装置を観客席に3基設置して試合中の会場内の音を収録。その音響データから、野球の打球音や場内アナウンス、BGMなど歓声以外の音声をおよそ15dB(デシベル)低減することで、観客の歓声の音量を測定した。これにより、歓声が発せられたタイミングから、音量の推移が定量的に評価できるようになった。OKIが東京ドームでの「声を出さない応援」の測定・分析に成功

このことから、試合中に声を出さない応援が、どれほど守られているかがわかる。これは、イベントにおいて声を出さない応援の実効性を示す指標のひとつとして活用できるとのことだ。この実験結果を踏まえ、音声分析技術をさらに発展させて「コロナ下での社会経済活動の再開」に貢献したいと、OKIは話している。

Hmcommと岡本工業がAI異音検知プラットフォームFAST-D応用し多軸自動旋盤のドリル破損を音で検知するシステム開発

Hmcommと岡本工業がAI異音検知FAST-Dを応用し多軸自動旋盤のドリル破損を音で検知するシステム開発

産業技術総合研究所(産総研)発スタートアップとして音声処理技術の研究開発を行うHmcomm(エイチエムコム)は10月20日、ビル配管工事や金属旋削加工などを手がける岡本工業と共同で、精密金属加工に使用する多軸自動旋盤のドリルの破損を、AI異音検知プラットフォーム「FAST-D」で検知するシステムの自社内導入を目的とした開発と、金属加工業者向け販売を目指したセンシングシステム開発の開始を発表した。

これまで岡本工業では、精密金属加工事業で使用する多軸自動旋盤機のドリルの破損を、振動や画像で検知する試みを重ねてきたが、なかなかうまくいかなかった。そこで、Hmcommのノイズ処理技術や音響処理技術を使ったところ、初めて有用なデータが取得できたという。そこで使用された「FAST-D」は、AI異音検知の学習モデルの作成や管理が自動的に行えるHmcommのクラウドサービス。Hmcommの知見をもとにした機械学習アルゴリズムにより、短期間に異音検知を現場導入できるというものだ。

Hmcommと岡本工業がAI異音検知FAST-Dを応用し多軸自動旋盤のドリル破損を音で検知するシステム開発

今後はこのシステムにIoTを組み合わせ、ドリルの破損が検知されるとPLC経由で停止信号を発して速やかに機械を停止させる仕組みを構築し、2022年春には製品化して販売することを目指し、実証実験を行うとしている。

AI異音検知とは、機械やモノ、生物が正常稼働している場合の音と、異常な状態になっている場合の発する音を機械学習させることで、安定的なモニタリング、異常発見、予兆検知などに役立てる技術。人が音を聞いて正常か異常かを判断する場合は、判断基準があいまいでバラツキが発生するケースや、熟練の技が必要になるなどの課題があるが、異音検知により人手によらない定量的な分析が可能となる。

音による異音検知は、工場インフラの異常検知、機械音検知、非破壊検査をはじめ、足音や防犯、ヒトの発する音や動物の鳴き声など、幅広い業種・業態で利用可能という。

Hmcommと岡本工業がAI異音検知FAST-Dを応用し多軸自動旋盤のドリル破損を音で検知するシステム開発

安価なApple Music VoiceプランはSiriの改良を進める作戦である可能性が高い

Apple(アップル)は、先に開催したイベントで数多くの興味深い発表を行った。その中で私が特に注目した、かつあまり注目されていないように思えたのが、Apple Musicの新しい料金プランだった。新しい「Voice」プランでは、Apple Musicの全ライブラリを月額5ドル(日本では税込月額480円)という低価格で利用できる。ただし、Siriを使ってアクセスしなければならず、Apple Musicの標準的なビジュアルと入力しやすいアプリ内のユーザーインターフェイスは使用できない。

関連記事
アップル発表イベント「Unleashed(パワー全開)」に登場した新製品まとめ
アップルがSiriでのみ利用できる安価なApple Music Voiceプランを発表、月額480円

Appleは、このプランを開始する理由を明らかにしていないが、iPhoneメーカーとしては、音声アシスタントの学習と改良のために音声データをより多く収集したいため、価格の障壁を低くして、より多くの人にSiriを使ってもらおうとしているのではないかと推測するのが妥当だと思う。

AppleのCEOであるTim Cook(ティム・クック)氏は、このイベントで「より多くの人が、声だけでApple Musicを楽しめるようになることをうれしく思います」と述べていた。

このApple Music Voiceプランが存在する理由として、他に説得力のあるものが考えられない。特に、Apple Music上の曲目全体を提供するために、Appleはレーベルとのライセンス契約を変えていないため、標準プランよりもはるかに低いマージンでこの新サービスを提供していると思われる。

繰り返しになるが、これは単なる推測だ。ただ、AppleとSpotify(スポティファイ)間の厳しい競争を考えると、スウェーデンの会社がApple Musicを価格で打ち負かすために自社のストリーミングサービスを月額7~8ドル(月額税込980円)で提供できるのであれば、そうするのではないだろうか。そしてAppleは、どうしても膨大なデータを集めたいがために、新しいサブスクリプションプランであえて多少の損失を出しているのではないだろうか。私がこの説をツイートしたとき、同僚のAlex(アレックス)は、ではなぜAppleはサブスクリプションを無料にしないのかと疑問を抱いていた。2兆5000億ドル(約285兆円)規模の企業であるAppleは、技術的にはバランスシート上でそれだけの打撃を飲み込むことができると思うが、Spotifyのような独立した音楽ストリーミング企業からの批判をこれ以上集めたくはないのだろう。同社はすでに、さまざまな分野で反競争的な行為を行っているという批判を受けている。

テクノロジー企業は、AIモデルに膨大な量のデータを与え、サービスの機能を向上させている。Siriが長年にわたってかなり改良されてきたとしても、テック業界で働く多くの人々や大衆の間では、Amazon(アマゾン)のAlexaやGoogle Assistantの方がはるかに優れているというのが一般的な意見だ。

Appleはすでにこのような音声データを、Apple Musicの既存ユーザーから取得していると思われるが、ある友人が言ったように「要は、この機能はもともとあった。ただ、高い有料の壁を設置していただけだ。今回、彼らはその壁を低くしたということ」。新プランでMusicを音声操作のみにしたことで、参入障壁が下がっただけでなく、ユーザーはSiriを使わなくてはいけなくなった。SiriはApple Musicの標準加入者向けの機能だが、ほとんどのユーザーは基本的に、もしくは意図的にアプリのUIを使ってコンテンツにアクセスする可能性が高いと思われる。

音声アシスタントに「音声優先」や「音声のみ」のサービスを求めるとどうなるかわかる例として、AmazonのAlexaを見てみよう。Alexaは、最初から音声でアクセスしなければならなかった。これにより、AmazonはAlexaのアルゴリズムのために大量の学習データを収集することができただけでなく、Alexaを最大限に活用する方法についてユーザーをトレーニングすることもできた。

私の理論が正しいと思うもう1つの理由は、Appleがこの新しいサブスクリプションを最初に提供する予定の国についてだ。オーストラリア、オーストリア、カナダ、中国、フランス、ドイツ、香港、インド、アイルランド、イタリア、日本、メキシコ、ニュージーランド、スペイン、台湾、英国、米国だ。

インド、スペイン、アイルランド、フランスが第一陣に名を連ねているのは、Appleが世界中のさまざまな言葉を集めようとしていることを意味している。ところで、インドなどの発展途上国や、中国や日本など、テキスト入力が音声に比べて不必要に複雑になることがある市場では、音声検索が非常に人気がある(世界第2位のスマートフォン市場であり、約98%のパイをAndroidが占めているインドで、音声検索が驚くほど大量に採用されたことで、Googleアシスタントの改良や、音声分野での革新に向けたより積極的なアプローチが可能になったと、Googleの幹部が話してくれたことがある)。

Siriは、他の音声アシスタントと比較して、その能力の点でやや遅れをとっていると言われているが、Appleのサービスにおける新しい動きは、顧客に音楽ストリーミングサービスに参加するための割安な方法を提供するためのものでもある一方で、この認識されているギャップを埋めるための試みでもあると捉えられるだろう。

画像クレジット:Heng Qi / Visual China Group / Getty Images

原文へ

(文:Manish Singh、翻訳:Akihito Mizukoshi)

自分の声で音声合成できる「CoeFont CLOUD」で多彩な感情表現が可能に

自分の声で音声合成できる「CoeFont CLOUD」で多彩な感情表現が可能に

東京工業大学発のAI音声合成スタートアップYellston(エールストン)は9月16日、自分や著名人の声を「フォント」化して音声合成ができるプラットフォーム「CoeFont Cloud」(コエフォント・クラウド)に、喜びや怒りなどの感情表現機能を追加したと発表した。

現在は、男性バーチャルキャラクターであるアベルーニに感情機能を実装。通常の声に加えて、喜怒哀楽の4種類の声のフォント(CoeFont)があり、それぞれの感情のこもったテキスト読み上げをしてくれる。これらのCoeFontを組み合わることで、表現豊かな音声合成を作ることができる。同様に、女性バーチャルキャラクターのアリアルにも感情のCoeFontをリリース。アリアルの感情CoeFontは、同社が提供するウェブ音声合成サービス「CoeFont Studio」でも、週替わりで一部公開している。

今後は、一般ユーザーも感情を込めた自分の声を収録することで、自分の感情CoeFontが作れる感情追加機能をリリースする予定とのことだ。

マイクロソフトがTeamsのアップデート予告、アップルCarPlay対応やパワポ映像へのピクチャー・イン・ピクチャー合成も

マイクロソフトがTeamsの大幅アップデート予告、アップルCarPlay対応やパワポ映像へのピクチャー・イン・ピクチャー合成機能も

米マイクロソフトはビデオ会議ツール「Microsoft Teams(以下、Teams)」における、今後の機能追加のスケジュールを明かしています。

今年5月に企業向けだけでなく、個人向けにも提供が始まったTeams。また同月には大画面スクリーンや専用カメラ、空間オーディオなどを組み合わせた未来のビデオ会議のコンセプトも披露されています。

さて今回の発表によれば、Teamsにはプレゼンテーションツール「PowerPoint」の画面共有ツール「PowerPoint Live」におけるカメオ機能が追加されます。これはピクチャー・イン・ピクチャーのように、PowerPoint資料映像に自分の顔や上半身映像(動画)を合成する機能で、来年初頭にリリースされる予定です。マイクロソフトがTeamsの大幅アップデート予告、アップルCarPlay対応やパワポ映像へのピクチャー・イン・ピクチャー合成機能もマイクロソフトがTeamsの大幅アップデート予告、アップルCarPlay対応やパワポ映像へのピクチャー・イン・ピクチャー合成機能も

さらに2022年初頭には、AI(人工知能)を利用したスピーチの改善機能「スピーカーコーチ」も導入されます。同機能ではスピーチのペースや出席者に確認するタイミングをアドバイスしてくれたり、あるいは聴衆にチェックインするようにリマインダーを表示したりします。

今月末には、米アップルのCarPlayによる音声での会議参加が可能に。自動車の中からでも、Siriを利用してミーティングに加わることができます。マイクロソフトがTeamsの大幅アップデート予告、アップルCarPlay対応やパワポ映像へのピクチャー・イン・ピクチャー合成機能もマイクロソフトがTeamsの大幅アップデート予告、アップルCarPlay対応やパワポ映像へのピクチャー・イン・ピクチャー合成機能も

照明の自動調整ツールも、数ヶ月以内に導入されます。Teams Mobileのコンパニオンモードも改善され、チャットやライブリアクションなどの機能への簡単なアクセス、さらにカメラなどの接続デバイスのコントロールが可能になります。

Jabra、Neat、Poly、Yealinkなどが提供する、インテリジェントカメラへの対応も予定。AIによる会話者の判断機能では音声だけでなく視覚的な合図も利用し、画面を切り替えられます。また同じ場所にいる会話者をそれぞれのビデオペインに配置する複数ビデオストリームや、会話者のプロフィールを下部に表示する人物認識ツールなども、数ヶ月以内に導入される予定です。2022年に導入されるOutlookのRSVP(簡易返答)機能では、自分が会議に直接参加するのか、あるいは遠隔地から参加するのか、勤務時間にいつ、どこで仕事をできるのかを記入できるようになります。

このように、新機能が次々と導入される予定のTeams。ビデオ会議ツールとしてはTeamsだけでなく、Zoomや米GoogleのGoogle Meetが激しいシェア争いを繰り広げており、今後もさらなる機能改善が業界全体で実施されることになりそうです。

(Source:MicrosoftEngadget日本版より転載)

声を失った声帯摘出者のCoeFont CLOUD利用が無料に、自分のAI音声による会話を支援

声を失った声帯摘出者のCoeFont CLOUD利用が無料に、自分のAI音声による会話を支援

東京工業大学発のAI音声合成スタートアップYellstone(エールストン)は9月9日、自分の声を取り込んで音声合成が行えるサービス「CoeFont CLOUD」を、声帯摘出によって声を失った人たちに無料提供すると発表した。これを利用すれば、スマホやパソコンで文章を入力するだけで、自分の声で会話ができるようになる。

申し込みは、「CoeFont CLOUD 声帯摘出者向けプラン申請フォーム」から行える。

AI音声合成プラットフォーム「CoeFont CLOUD」では、自分の声を収録すれば、それが音声合成用の声のフォント「CoeFont」(コエフォント)に変換され、自分の合成音声でテキストの読み上げが行えるようになる。自分の「CoeFont」はクラウド上で公開でき、他のユーザーがそれを利用すれば作成者に収益が還元される仕組みもある。APIを使ってアプリやウェブサイトに組み込むことも可能。

Yellsotneでは、CoeFont CLOUDの場合これまで料金500円・最短15分の収録としていたが、今後は、声帯摘出を行った人は無料で使えるようになる。

テレビのニュース番組では、声帯摘出を行い「CoeFont CLOUD」利用している人のインタビューが放送された。その人は「CoeFontに出会えて、本当に救われました。今まで全く縁のなかったAI技術の進歩と素晴らしさに本当に驚いています」と話していたという。

実は、こうした使われ方は当初は想定していなかった。Yellstone創業者で代表取締役の早川尚吾氏は、こう話す。

「声帯摘出者の方が利用するという、自分が考えていなかった使われ方に最初は驚きました。実際に会話で使っていただいている動画を見ると、自分が作ったものが人の役に立っているということがこんなにも嬉しいのかと思いました」

「CoeFont Cloud」と小学館が協働し声優・森川智之さんの音声フォントを採用したAI音声合成オーディブックの試聴版公開

「CoeFont Cloud」と小学館が協働し声優・森川智之さんの音声フォントを採用したAI音声合成オーディブックの試聴版公開

東京工業大学発のAI音声合成スタートアップYellstone(エールストン)は9月7日、人の声をフォント化して音声合成を行うプラットフォーム「CoeFont Cloud」(コエフォント・クラウド)を利用し、小学館と協働でAI音声合成オーディブックの試聴版を作成したと発表した。

第1弾は、「鬼滅の刃」産屋敷耀哉(うぶやしきかがや)役やトム・クルーズの吹き替えで知られる声優・森川智之さんの合成音声によるオーディオブック「なぜ”ブブカ”はスポーツでもビジネスでも成功し続けるのか」(小学館:セルゲイ・ブブカ著)。特設ページにおいて、期間限定で一部を無料公開している。「CoeFont Cloud」と小学館が協働し声優・森川智之さんの音声フォントを採用したAI音声合成オーディブックの試聴版公開

CoeFont Cloudは、最短15分の収録で、その人の声を音声合成用の「フォント」に変換し、それを使ってテキストの読み上げが行えるというサービスを行っている。今回は、森川智之さんが約2時間かけて収録した音声からAI音声合成を行い、「なぜ”ブブカ”はスポーツでもビジネスでも成功し続けるのか」の第1章のオーディオブック試聴版(約31分)を完成させた。

Yellstoneは、2021年4月に、デジタルキャラクターや著名人の声でテキストの読み上げができる「CoeFont Studio」をリリースした。リリース3日目にして5万人のユーザー数を獲得した。CoeFont Cloudはそれを発展させて、自分の声のフォントを作って読み上げができるようにしたサービスだ。

森川智之さんは、今回の試みについて「……この技術革新が不安な影も落とすのではと感じる方も多いのではないでしょうか。人工知能は黙っていても学習していきます。技術の進歩は日進月歩です。それならば、誰もが参加でき、その進歩の礎となり、みんなが見守りながらオープンスタイルで育てていくAIの音声合成」というYellstonの考え方に賛同したとのこと。

さらに、「私の音声サンプルによるAI音声合成は、まだまだ発展途上、点数を付ければ45点。細部にわたる表現力が課題で、100点には遠く及びません。しかし、これに皆さんが参加することによって、AIが学習を重ねていけば、より理想とする表現に近づくことは間違いありません」と述べている。