【コラム】完全なソーシャルメタバース体験は「音声」の要素が揃うことで実現する

Facebook(フェイスブック)の社名がMeta(メタ)に変更されたことで触発された「メタバース」にまつわる会話の多くは、ビジュアル的な要素に焦点を当てている。ほとんど言及されていないのは、オーディオだ。しかし仮想環境を現実のものにするには、音声は間違いなく重要になる。

時には、それがすべての場合もある。

Spike Jonze(スパイク・ジョーンズ)に尋ねてみよう。この映画監督は、2013年の映画「Her(her/世界で1つの彼女)」のタイトルロールで、その声を演じていた当初の女優を降板させ、Scarlett Johansson(スカーレット・ヨハンソン)の官能的な音声に置き換えた。コンピューターオペレーティングシステムであるサマンサは生身の人間として登場することはなかったが、ジョーンズは、元の女優が三次元のペルソナを作るのに必要な感情をうまく表現できていないと感じたのだ。

視聴者をストーリーの前提に引き込み、十分真実味のあるストーリーに仕立ててくれる、洗練されたキャラクターを作るのに、音声は不可欠な要素であった。

The Washington Post(ワシントン・ポスト)が指摘しているように、Metaのメタバース構想の要となるものは、その多くがビデオゲームの世界に、ただし分断されたゲームの世界に限られるが、すでに存在している。ゲームの世界では、音声がますます重要な役割を果たしている。Metaは、統合された相互運用可能な体験を約束しているが、高度にテクスチャ化された、生き生きとしたデジタル音声が豊富に含まれていなければ、メタバースは包括的で没入的というよりは不完全なものになるだろう。

1970年代半ばのMcGurk Effect(マガーク効果)の研究では、聴覚と視覚の認識の不一致から生じる認知的不協和が観察された。アバターと十分に合致しない音声は、参加者を仮想環境から切り離す可能性がある。

本当の自分を表現する

人間は社会的存在であり、現在推進されているメタバースは、参加者が家庭と職場の両方で独特のペルソナを作り出す社会的環境である。アバターを使えば、プレイヤーは自分が見られたいように自分を表現することができる。人間、宇宙人、動物、野菜、漫画やその他無数の選択肢があるだろう。プレイヤーは新たな装いを試すように、一時的に新しい「ルックス」を試用できる。ジェンダーと種は流動的である。

しかし、視覚的な存在感に合わせて自分の声の聞こえ方を変えることができなければ、アイデンティティの変化は妨げられる。自分の声を他の人に提示するペルソナに合わせることは、パーソナライズされたプレイヤーアイデンティティの中核的要素である。この状況はすでに多くの人がビデオゲームで慣れているものだ。

プレイ中のゲームで、あごひげをはやした無骨で巨大な騎士に遭遇した場合、そのキャラクターは深く荒々しい声をし、甲冑を身にまとっていることが予想される。ゲーム会社は、ノンプレイヤーキャラクター(NPC)を声優とオーディオの専門家が入念に制作し、没入感のある体験を提供することで、こうしたイメージの伝達を確保している。

しかしオンラインゲーム環境や将来のメタバースでは、その騎士は実在する人物が表現するものとなり、体験は大きく異なってくる。予想されるような太くしゃがれた成熟味ある声ではなく、マイク品質に問題のある甲高いティーンエイジャーの声を聞いて、困惑することもあるかもしれない。音と視覚の間の極端な不一致は、体験の没入的な質を損なう。メタバースアバターに十分な没入感を持たせるには、人々が完全なデジタル体験を作り出せるよう配慮する必要がある。

カバーの提供

ソニック(音響の)アイデンティティの技術は、没入感の提供に加えて、プレイヤーに「真の」匿名性をもたらし得る。彼らは、他人に見てもらいたいと思うような人物(または存在)になることができる。これは多くの人にとって、時には敵対的なオンライン環境からの強力な保護となるだろう。地理的な特徴をわからないようにして、参加者がプレイヤーコミュニティをよりスムーズに統合できるようにすることも考えられる(オフショアのカスタマーサポートコールセンターが恩恵を受ける可能性のあるケイパビリティだ)。音声チックを有する人にとっては、明らかにしたくない身体障害を覆うことにもつながる。

音声変更技術は、オンラインでの差別や嫌がらせを緩和するのにも役立つ。医学専門誌「International Journal of Mental Health and Addiction(メンタルヘルスと中毒に関する国際ジャーナル)」に2019年に掲載された研究によると、女性ゲーマーは他のプレイヤーとの口頭でのコミュニケーションを避け、不快なやり取りを減らすことが多いという。音声変更技術により、特定のジェンダーに関係なく、完全に匿名性が確保された会話に参加することが可能になり、自分自身をより快適に表現できるようになる。

学術誌「Human-Computer Interactions(ヒューマンコンピュータインタラクション)」の研究者らは2014年に「音声はオンラインゲームの体験を根本的に変え、仮想空間をより強力に社会性のあるものにしている」と結論づけている。

筆者自身の会社のデータからは、音声でコミュニケーションを取るプレイヤーは、よりゲームに没頭するように感じる自意識に変容し、より長い時間ゲームに関わり、結果としてゲーム内でより多くのお金を投じるようになることが明らかになっている。

メタバースに欠けているもの

真に完全な没入型体験を実現するには、3Dビジュアルとリアルタイムオーディオを組み合わせて、人々が自分自身の表現を行う上で、耳を傾けてもらいたいという彼らの思いに添う形で実現できるようにする必要がある。参加者は、自分の視覚的アバターと同じくらい独創的で独自性のある自分自身の音響表現を望んでいる。そして、自分の声を外見と同じようにきめ細かくカスタマイズするツールを求めている。プレイヤーの没入感とエンゲージメントを維持するには、拡張されたオーディオと3Dビデオの両方が調和している必要がある。

リアルタイムオーディオは、人々がどのようにして究極の個性をコンテンツにもたらすことができるかを定義し、オーディオをメタバースのすばらしいイコライザーとして機能させる。残念なことに、現在の音声体験は、すべてを網羅するメタバースの約束に沿った没入的な品質を提供することが難しくなっている。

熱心なアーリーアダプターたちの実験にもかかわらず、リアルタイムオーディオのペルソナは、良くても制限的だ。人の音声をデジタルの自己に合わせるためのツールは限られており、音質は視覚的な品質にまだ及ばない。

だが、利用可能なオーディオ技術における最近の進歩は、プレイヤーによる独自のソニックアイデンティティ形成を現状よりはるかに容易なものへと変えようとしている。プラットフォーム開発者やゲーム開発者が利用できる新しいソリューションにより、ライターやプロデューサー、オーディオエンジニアは、ゲーム内に音声修正技術を組み込んで、自然に聞こえるファンタジー音声をオンデマンドかつリアルタイムで生成できるようになっている。

このことは、プレイヤーを魅了して完全にフォーカスさせ、離れさせることなくその体験へのエンゲージメントを維持するような、包括的で没入的な聴覚体験の提供を通して、収益化のための新しい道を生み出す可能性へとつながっていく。

企業は、人々がデジタル空間で自分自身の視覚表現を形作ることを可能にする、強力なツールへの投資を進めている。こうした企業は、デジタル表現がシームレスになるソーシャルオーディオ体験に合わせてカスタマイズされた、ソニックアイデンティティを見過ごしてはならない。

メタバースはそれなしでは完成しないだろう。

編集部注:本稿の執筆者Jaime Bosch(ハイメ・ボッシュ)氏はVoicemodの共同創設者兼CEO。

画像クレジット:luza studios / Getty Images

原文へ

(文:Jaime Bosch、翻訳:Dragonfly)

投稿者:

TechCrunch Japan

TechCrunchは2005年にシリコンバレーでスタートし、スタートアップ企業の紹介やインターネットの新しいプロダクトのレビュー、そして業界の重要なニュースを扱うテクノロジーメディアとして成長してきました。現在、米国を始め、欧州、アジア地域のテクノロジー業界の話題をカバーしています。そして、米国では2010年9月に世界的なオンラインメディア企業のAOLの傘下となりその運営が続けられています。 日本では2006年6月から翻訳版となるTechCrunch Japanが産声を上げてスタートしています。その後、日本でのオリジナル記事の投稿やイベントなどを開催しています。なお、TechCrunch Japanも2011年4月1日より米国と同様に米AOLの日本法人AOLオンライン・ジャパンにより運営されています。