音声（用語） | SEO-LPO.net

小売・医療・建築現場などデスクレスワーカー向けに音声によるグループトークシステムを手がける「BONX」が7億円調達

飲食・医療・建築現場などデスクレスワーカー向けに音声によるグループトークシステムを手がける「BONX」が約7億円のシリーズD調達

BONXは9月6日、シリーズDラウンドにおいて、総額約7億円の資金調達を完了したと発表した。引受先は、グロービス・キャピタル・パートナーズ、森トラスト、JR東日本スタートアップなど。

調達した資金により、「チームの笑顔と未来をつくる」というBONXのミッション実現に向け「チームワーク」に投資する。具体的には、現場のさらなるチームワーク向上を目指した音声プラットフォームの開発、音声DXを推進するパートナーとのチームワークを高めるための環境整備を進める。小売・医療・建築現場などデスクレスワーカー向けに音声によるグループトークシステムを手がける「BONX」が約7億円のシリーズD調達

また、エンタープライズ向けプランの拡充も実施。セキュリティ強化や多人数での利用など、エンタープライズの顧客からの要望にも応える形でさらなる機能拡張を進める。小売・医療・建築現場などデスクレスワーカー向けに音声によるグループトークシステムを手がける「BONX」が約7億円のシリーズD調達

BONXは、グループトークソリューション「BONX WORK」と専用イヤフォン「BONX Grip」「BONX mini」、また2022年発売予定の「BONX BOOST」を通じて、現場で働く「デスクレスワーカー」に最適なチームコミュニケーションを提供。ハードウェアとソフトウェア（Android版・iOS版）をセットで提供することで、現場業務に最適化されたUXの実現をはじめ、音声データの取得という観点からもハードウェアのノイズキャンセリング機能を最大限活用でき、より正確な音声データの取得も可能としているという。小売・医療・建築現場などデスクレスワーカー向けに音声によるグループトークシステムを手がける「BONX」が約7億円のシリーズD調達

同社によると、現場では非常に多くの「声によるコミュニケーション」が行われており、その主流は電話やトランシーバーという。チャットツールやビデオ通話アプリでは作業を中断してスマホやタブレットを操作する必要があることから現場仕事と相性が悪く、現場の「声によるコミュニケーション」には非常に多くの可能性が残されているとした。小売・医療・建築現場などデスクレスワーカー向けに音声によるグループトークシステムを手がける「BONX」が約7億円のシリーズD調達

さらに、音声データの活用を通じた音声DXを、社内リソースだけでなく社外のパートナーとチームで推進し、ノンデスクワーカーの「チームワーク」向上に貢献していきたいと考えているという。そのため、今回「チームワーク」への投資を使途とした資金調達を実施したとしている。

同社CEOの宮坂貴大氏が2014年11月に設立。アクションスポーツ中における仲間とのコミュニケーションの課題からBONXを着想し、2016年12月に「BONX Grip」として発売を開始した。2017年12月には法人向けサービス「BONX for BUSINESS」（現在はBONX WORK）をスタート。アクティブスポーツのみならず、小売・介護・飲食・宿泊・病院・建築現場・リモートワークなど、あらゆるシチュエーションでのチームの成長に貢献するとしている。

NVIDIAの最新技術はAIの声をより表現豊かでリアルな人間の声のように

Amazon（アマゾン）のAlexaやGoogleアシスタントなどのAIアシスタントの音声は、昔のGPSなどに比べればずっと良いが、それでもリズムや抑揚などは本物の人間に及ばない。しかしNVIDIAがこのほど発表した研究とツールは、そうした自然な発話を捕捉するためにユーザーがAIを自分の声で訓練できる。発表は、Interspeech 2021カンファレンスで行われた。

AIが行なう音声の合成を改良するためにNVIDIAのテキスト読み上げ研究チームは、アバターの本物らしさを競う、放送事業者の大会NAB Showのコンペで優勝したシステムであるRAD-TTSと呼ばれるモデルを開発した。このシステムは、人が自分の声でテキストから音声への読み上げを訓練することができ、AIの習得内容には発話のテンポや調性、音色なども含まれる。

もう1つのRAD-TTSの特長は、声の変換だ。ユーザーが別の人物の声で話者の語りを伝えて、その人物の声でAIを訓練できる。それにより、合成音声のピッチや持続、声の強さなどを個々のフレームのレベルで微調整できる。

この技術を使ってNVIDIAの研究者たちは、本物の会話のように聞こえるナレーションを作り、同社のビデオシリーズ「I Am AI」用に、人間の声でなく合成音声を使うことができた。その狙いはナレーションをビデオのトーンとスタイルに合わせるためであり、それは今日までのAIがナレーションしているビデオではうまくできなかったことだ。結果はまだ少々ロボット的だが、これまで聴いたどんなAIナレーションよりも良い。

「ビデオのプロデューサーはこのインタフェースを使って、ビデオの台本を読んでいる自分自身を録音でき、それからAIのモデルを使って彼の発話を女性ナレーターの声に変換できる。この基準的なナレーションがあれば、プロデューサーはAIを声優のようにディレクションすることができ、合成音声を加工して特定の語を強調したり、ナレーションのペーシングを変えてビデオのトーンをもっとうまく表現したりできる」とNVIDIAは説明している。

NVIDIAはこの研究の一部を一般に公開しているが、もちろんNVIDIAのGPUで効率的に動くように最適化されている。オープンソースで試してみたい人は、GPUで加速した会話的AIのためのPythonツールキットNVIDIA NeMoを使えばよい。同社の、コンテナやその他のソフトウェアのハブであるNGCで入手できる。

NVIDIAの説明では「一部のモデルは、NVIDIA DGXシステムの上で数万時間分のオーディオデータで訓練されている。デベロッパーは自分のユースケースのために、どのモデルでも微調整でき、NVIDIA Tensor Core GPU上の混合精度コンピューティングを使って訓練をスピードアップできる」という。

編集注：本記事の初出はEngadget。執筆者のSteve DentはEngadgetの編集者。

［原文へ］

（文：Steve Dent、翻訳：Hiroshi Iwatani）

Voicyとスタディプラスが「大学に特化した」音声配信サービス開始、新潟医療福祉大学が導入

Voicyとスタディプラスが「大学に特化した」音声配信サービス開始、初期導入大学として新潟医療福祉大学が決定

日本初の音声プラットフォーム「Voicy」（ボイシー）を提供するVoicyは6月17日、学習管理SNS「Studyplus」（スタディプラス）などを提供するスタディプラスと提携して大学に特化した音声配信サービスを6月1日から提供開始したと発表した。

Voicyは、2016年にサービスを開始した音声プラットフォーム。著名人による「声のブログ」、4大マスメディアの記事が声で聞ける「メディアチャンネル」、企業の社外報「オウンドメディア」など500以上のチャンネルがあり、ラジオともポッドキャストとも違う音声体験が楽しめる。

これを活かし、スタディプラスと提携することで、大学が発信する音声コンテンツの企画・制作・編集・配信・分析までを統合的に行うというのが、この大学向けプラットフォームだ。管理はVoicyとスタディプラスが行うので、大学側は人的リソースを確保することなく、リスナーの確保やコミュニティー形成といった支援が受けられる。

また新潟医療福祉大学が導入を決定し、「新潟医療福祉大学健康ラジオ617」として大学教員による「健康になれる話」や「ちょっとした健康雑学」といったコンテンツの配信を6月17日から始めている。

Voicyとスタディプラスが「大学に特化した」音声配信サービス開始、初期導入大学として新潟医療福祉大学が決定

今後は、高校生や高校教員、保護者に向けた「大学のブランディング、興味関心の向上、長期的な関係構築を目的とした音声配信」を可能にしてゆくという。

タグ: 音声（用語）

小売・医療・建築現場などデスクレスワーカー向けに音声によるグループトークシステムを手がける「BONX」が7億円調達

NVIDIAの最新技術はAIの声をより表現豊かでリアルな人間の声のように

Voicyとスタディプラスが「大学に特化した」音声配信サービス開始、新潟医療福祉大学が導入

カテゴリー：ネットサービス

タグ：音声（用語）、教育 / EdTech / エドテック（用語）、スタディプラス（企業・サービス）、Voicy（企業・サービス）、メディア（用語）、日本（国・地域）