フェアリーデバイセズが首掛け型ウェアラブル機器THINKLETの指向性集音機能をNTTテクノクロスと共同開発

フェアリーデバイセズが首掛け型ウェアラブル機器THINKLETの指向性集音機能をNTTテクノクロスと共同開発

産業用の音声認識技術やエッジAIデバイスの開発提供を行うフェアリーデバイセズは1月5日、首掛け型ウェアラブルデバイス「THINKLET」(シンクレット)のための高度な指向性集音エッジソフトウェアを、NTTテクノクロスと共同で試作開発したことを発表した。同試作ソフトウェアは「LINKLET(インテリジェントマイク版)」として、1月5日より開催のデジタル技術見本市「CES 2022」に参考出展する。

THINKLETは、スマートフォン同等の処理性能とLTE通信機能を備える現場向けのウェアラブルデバイス。音声や内蔵カメラで撮影した画像などの現場データの収集・学習・自動化・支援を可能にする「コネクテッドワーカーソリューション」だ。広角カメラに加え、高性能なマイクを複数搭載するほか、エッジAI処理や5チャンネル・マイクアレイを活用した指向性集音機能で、工場や作業現場などの雑音の大きい場所で、会話や特定方向の音を聞きやすくするという。「THINKLET Cloud」に接続されていることから、現場の声のテキスト化も可能。

またフェアリーデバイセズは、その応用ソーリューションの1つとして、ZoomやMicrosoft Teams(2022年春頃めどにリリース予定)に対応し、1人称視点での遠隔支援・ライブストリーミングをハンズフリーで実現するウェアラブルプロダクトのLINKLETを展開している。フェアリーデバイセズが首掛け型ウェアラブル機器THINKLETの指向性集音機能をNTTテクノクロスと共同開発

これまでフェアリーデバイセズは、多チャンネルマイクを利用したフロントエンド音響信号処理、雑音抑制、発話区間抽出、エコーキャンセル、ボイスウェイクアップなどの技術を複合した音声エッジAIライブラリー「mimi XFE」を提供してきたが、そこにNTTテクノクロスのインテリジェントマイク技術を組み合わせることで、高度で柔軟な指向性集音機能が実現されたという。

THINKLETは、すでにその指向性集音機能が評価されているが、今回の共同開発では雑音抑圧性能が大きく向上した。また、指向性を自由に制御できるようになり、装着者の声、目の前にいる人の声、特定方向の機械音などを選択的に聞くことが可能になった。これらにより、熟練作業者による円滑な遠隔作業支援、現場作業の対話記録、音声対話AIによる作業指示、機器の異常音検知などの性能が向上する。

フェアリーデバイセズが首掛け型ウェアラブル機器THINKLETの指向性集音機能をNTTテクノクロスと共同開発

今後は、革新的な音声フロントエンド処理のための技術開発を共同で進め、THINKLETを導入している現場からデータを集め活用することで、「世界中の現場DXに積極的に貢献」すると、フェアリーデバイセズでは話している。

音声認識技術のフェアリーデバイセズ、Amazon Echoとそっくりなスマートスピーカーで市場参入

音声認識・音声対話プラットフォームの「mimi」を提供するフェアリーデバイセズは9月4日、企業向けに提供するホワイトレーベル・スマートスピーカー「Fairy I/O Tumbler(以下、Tumbler)」を発表した。

Fairy I/O Tumbler

Amazon Echoによく似たタンブラー型スマートスピーカーのTumblerは、フェアリーデバイセズが提供するホワイトレーベル・ハードウェア製品群「Fairy I/O」シリーズの第1弾プロダクトだ。

高さ14.5cm、直径7.5cmのTubmlerには音声入出力機能はもちろん、気温、湿度、気圧、照度センサーなどが搭載されている。

一方で、これまでにフェアリーデバイセズが提供してきたmimiは、音声認識システムを構築するために必要なテクノロジーを揃えたソフトウェアスタックだ。マイクアレイ・フロントエンド処理機能を担う「mimi XFE」、音声認識機能の「mimi ASR」、話者識別機能の「mimi SRS」などから構成されている。

mimiはこれまでにシャープが販売するロボット家電「COCOROBO」に搭載されるなどの実績があり、同社のリリースによれば、これまでにmimiを搭載した製品は累計で180万台に到達したという。

同社が今回発表したTumblerは、mimiの性能を最大限に発揮することを目的として開発されたデバイスだという。

必要なものを取捨選択

Tumblerに加え、フェアリーデバイセズはオープンな理念をもった技術的スタックの「Fairy Cognitive Technology Open Stack(以下、CTOS)」を発表している。

ソフトウェアのmimiとハードウェアのFairy I/Oを含んだ技術スタックであるCTOSを利用することにより、音声認識システムの開発者は、システムの開発に必要とされる各要素技術にアクセスすることができるだけでなく、必要なものとそうでないものを取捨選択しながら自社の技術も織り交ぜるというようなシステム開発が可能になる。

また、フェアリーデバイセズが提携する外部パートナーが保有する技術も利用可能だ。現在、CTOSではエーアイが開発する多言語音声合成技術を利用することができる。

CTOSの概要図

フェアリーデバイセズ代表取締役の藤野真人氏はリリースの中で、「大手IT各社が、スマートスピーカー製品を中心としたエコシステムを拡大している。しかし、それらのエコシステムに加わった場合、強い技術的制約を受けるため、真に目的とする音声対話システムを作ることは、ほぼできないと言っても過言ではない」と語り、そのような制約から開放された枠組みを提供することで、新しい価値を生み出すことができると話している。