テキスト読み上げ / TTS（用語）

Instagram（インスタグラム）は米国時間11月10日、Reels（リール）内に「Text-to-speech（テキスト読み上げ）」と「Voice effects（ボイスエフェクト）」という2つの機能を追加した。これらの機能は、TikTok（ティックトック）ではすでに人気の機能だが、クリエイターはInstagramでも使用できるようになる。Instagramでは、クリエイターにインセンティブを与えるために巨額のリールボーナスを提供しているので、短編動画に関して、TikTokに追いつこうとするInstagramの努力が見られる。

テキスト読み上げ機能とは、視覚障害者や弱視者が文字を理解するために必要なアクセシビリティ機能だ。しかし、このロボットのような声を使った動画がTikTokで不可解なほど人気を博したため、この機能を担当した声優が、自分の録音を使用する許可を与えていなかったとしてTikTokを訴えた。訴えられた後、TikTokは声優を変更した。

クリエイターがテキスト読み上げ機能を使用するのは、アクセシビリティの観点からではなく、単調でコンピュータ化された声がコンテンツのナレーションをするのがおもしろいからだ。このテキスト読み上げツールは、リールカメラのテキストツールの中に表示されている。ビデオを録画またはアップロードした後、プレビューに移動してテキストを追加する。テキストを追加すると、画面の下部にテキストバブルが表示され、ユーザーはそのテキストを表示するタイミングを調整することができる。これまでは、3つの点のアイコンをタップすると、それぞれのテキストバブルにメニューが表示され、テキスト読み上げのオプションを追加することができていたが、現在は、3つの点のアイコンをタップすると、それぞれのテキストバブルにメニューが表示され、テキストから音声ナレーションを追加するオプションが表示される。音声は2種類の中から選べる。

しかし、ボイスエフェクトを使えば、リールをさらにクリエイティブに仕上げることができる。この機能は、投稿の音声やナレーションを変更することができるというものだ。ボイスエフェクトを見つけるには、リールを録音した後に音符アイコンをタップして、オーディオミキサーを開く。すると、エフェクトメニューが表示され、そこでリールの音声やナレーションを変更することができる。

この新機能は、現在、Instagramのモバイルユーザーに展開され始めている。

画像クレジット：Instagram

［原文へ］

（文：Amanda Silberling、翻訳：Akihito Mizukoshi）

「ボイススキン」は、AIベースの音声アシスタントで非常に人気のある機能となっている。Alexaのようなサービスで得られる、役には立つが、無味乾燥でロボットのような発話音声といった、より退屈な側面のいくつかをパーソナライズするのに効果を発揮する。さまざまな企業が自社のサービスを横断して利用したり、サードパーティが作成や応用の目的で使用できるようなボイススキンを構築しているスタートアップが、その成長を促すために資金調達を進めている。

カリフォルニア州バークレーを拠点とする人工知能（AI）音声および合成音声ツール開発企業のLOVOは今週、韓国のKakao Entertainment、Kakao Investment、LG GroupのITソリューションアフィリエイトであるLG CNSが主導するプレシリーズAのラウンドで450万ドル（約4億9000万円）を調達した。

以前の出資者であるSkyDeck Fundと、DoorDashの財務担当副社長Michael Kim（マイケル・キム）氏もこのラウンドに参加している。

調達した資金は、人工知能と合成音声の研究開発を推進し、チームを成長させるために使われる。

「機械学習、人工知能、プロダクト開発からマーケティング、ビジネス開発に至るまで、あらゆる分野で人材を大量に採用する計画です。資金はGPUやCPUなどのリソースの確保にも充てられます」と共同創業者でCOOのTom Lee（トム・リー）氏はTechCrunchに語った。

2019年11月に設立されたLOVOには、共同創業者でCEOのCharlie Choi（チャーリー・チョイ）氏とCOOのリー氏を含めて17人が在籍している。

同社は、LOVOのAIモデルをさらに改良し、AIの音声機能を強化し、現在の市場に存在するあらゆるものを凌ぐより良いプロダクトを開発する計画だとリー氏は語っている。

「私たちの目標は、人々の心と感情に触れるようなAIの音声を提供する世界的リーダーになることです。コンテンツ制作における制約を民主化したいと考えています。私たちは音声関連のあらゆるもののプラットフォームになることを望んでいます」とリー氏は続けた。

LOVOのミッションにより、企業や個人のコンテンツクリエイターは、マーケティング、Eラーニング、カスタマーサポート、映画、ゲーム、チャットボット、拡張現実（AR）、仮想現実（VR）で使用するためのボイスオーバーコンテンツを生成することが可能になる。

「1年少し前にローンチして以来、ユーザーは私たちのプラットフォーム上で500万以上の音声コンテンツを作成してきました」と共同創業者でCEOのチョイ氏は語る。

LOVOは2020年に最初のプロダクト「LOVO Studio」をリリースしている。個人や企業が欲しい音声を見つけたり、ボイスオーバーコンテンツを制作、公開したりするための使いやすいアプリケーションだ。開発者はLOVOのVoiceover APIを利用して、自分たちのアプリケーションに統合された形で、テキストをリアルタイムでスピーチに変換できる。ユーザーは、LOVOのDIY Voice Cloningサービスを使って15分のスクリプトを読むだけで、自分のAI音声を作ることができる。

LOVOは200以上のボイススキンを所有しており、ユーザーのさまざまなニーズに適した言語、スタイル、状況に基づいて分類された音声を提供している。

リー氏によると、世界のテキスト読み上げ（TTS、text to speech）市場は30億ドル（約3300億円）と推定され、ボイスオーバー市場は100億ドル（約1兆1000億円）前後になるという。2021年8月に公開されたResearch Interviewerのレポートでは、世界のTTS市場は2020年の19億4000万ドル（約2127億円）から2028年までに56億1000万ドル（約6151億円）増加すると予測されている。

LOVOはすでに5万人のユーザーを獲得しており、米国のJ.B.Hunt、Bouncer、CPA Canada、LGCNS、韓国のSinhan Bankなど50社以上の企業顧客がいるとリー氏は述べている。

LOVOの4つのコアマーケットは、マーケティング、教育、映画およびゲームなどのエンターテインメント、そしてAR / VRであるとリー氏は語る。Saw（ソウ）シリーズの最新作である映画「Spiral（スパイラル:ソウオールリセット）」には、LOVOの声が出演しているという。

韓国のエンターテインメント企業からの最新の資金調達を受けて、LOVOはエンターテインメント業界にさらなる相乗効果をもたらすことが期待されている。

Kakao EntertainmentのCEOビジョンオフィスの副社長であるJ.H. Ryu（J.H.リュウ）氏は「LOVOとKakao Entertainmentのエンターテインメント垂直分野、特にウェブ小説や音楽における将来の取り組みとの相乗効果に期待しています」と述べ「AI技術はオーディオコンテンツの新しい市場への扉を開きつつあり、個人の声が知的財産や資産として有効に活用される未来が期待されます」と言い添えた。

SkyDeck Fundの創設パートナーであるChon Tang（チョン・タン）氏は次のように述べている。「オーディオは情報の一形態として独自の魅力を持っていますが、特に大規模に生産するには困難が伴います。LOVOの人工知能ベースの合成プラットフォームは、品質とコストにおいて他のクラウドベースのソリューションよりも一貫したパフォーマンスを示しています」。

LOVOはまた、国際市場へのさらなる進出を準備している。「当社は米国、英国、カナダ、オーストラリア、ニュージーランドで強力なプレゼンスを確立しており、その他の欧州、南米、アジアからもシグナルを受けています」とリー氏は語る。LOVOは韓国にオフィスを構えており、近いうちに欧州への進出を予定していると同氏は付け加えた。

画像クレジット：LOVO

［原文へ］

（文：Kate Park、翻訳：Dragonfly）

タグ: テキスト読み上げ / TTS（用語）

InstagramリールにTikTokのようなテキスト読み上げとボイスエフェクト機能を追加

エンタメやAR/VRで人気のAI音声・合成発話「ボイススキン」を手がけるLOVOが約4.9億円調達

関連記事