SLAITのリアルタイム手話翻訳はオンラインでのコミュニケーションをアクセシブルにする

世界中で多くの人が手話を使っているが、スペイン語や中国語、ラテン語にまで自動翻訳があるのに手話を使えない人たちのための自動翻訳はない。SLAITは一般的に利用できる最初の手話翻訳ツールであると主張している。普通のコンピュータとウェブカメラだけで、出発点としてまずはおよそ200語と単純な文を翻訳することができる。

聴覚に障がいのある人や何らかの状況で音声による発話が困難な人はたくさん存在し、健聴者と同じ一般的なITツールを使っている。もちろん現在はメールやテキストチャットが便利に使われているが、顔を合わせてのコミュニケーションの代わりにはならない。そして残念ながら手話を書き言葉や話し言葉に変える手軽な方法はなく、大きなバリアとして残っている。

我々は自動手話翻訳(ほとんどはアメリカ手話)の試みを何年も前から見てきた。2012年にMicrosoftは、同社のイマジンカップで手袋で手の動きを追跡した学生チームを表彰した。筆者は2018年に、複数のカメラを使って位置を3Dで把握する手話翻訳ブースに取り組むSignAllの記事を書いた。2019年には、GoogleのAIラボが研究しているMediaPipeという新しいハンドトラッキングのアルゴリズムが将来的には手話の読み取りにつながるかもしれないことに注目した。そして実際に、ほぼその通りになった。

SLAITはドイツのAachen University of Applied Sciencesでの研究から生まれたスタートアップで、共同創業者のAntonio Domènech(アントニオ・ドメネク)氏はこの大学でMediaPipeと専用のニューラルネットワークを使った小規模なアメリカ手話認識エンジンを開発した。基本的な概念を実証したドメネク氏は、共同創業者のEvgeny Fomin(エフゲニー・フォーミン)氏、William Vicars(ウィリアム・ビカーズ)氏とともにSLAITを始めた。その後メンバーは、最初は100種類、現在では200種類のアメリカ手話の動きと単純な文を認識するシステムを構築した。翻訳はオフラインで実行され、比較的最近のスマートフォンやコンピュータ上でほぼリアルタイムに動作する。

画像クレジット:SLAIT

SLAITはこのシステムを教育や開発に使えるようにする計画で、重要度の高い一般向けのアプリケーションにする前に、データセットを拡張してモデルを向上させる。

現在のモデルは少人数のチームで驚くほど短期間で開発されたが、もちろん簡単ではなかった。MediaPipeは手や指の動きを追跡できるオープンソースの有効な手段であることは確かだが、強力な機械学習モデルに欠かせない構成要素はデータだ。この場合のデータとは実際に使われているアメリカ手話のビデオのデータで(ビデオを翻訳することになるので)、利用できるデータはそれほど大量には存在しない。

SLAITが最近DeafITカンファレンスのプレゼンテーションで説明したように、チームはまずMicrosoftの古いデータベースを使って評価をしたが、オーストラリアの新しい学術データベースの方がたくさんあり質も良いことを発見した。これにより200種類の手話をリアルタイムに92%の正確性で識別するモデルを作ることができた。これにソーシャルメディアから集めた手話のビデオ(もちろん許可を得た上で)や、手話通訳付きの行政発表を加えた。しかしまだ足りない。

プロトタイプの動作を示すGIF。一般向けのプロダクトにはもちろんワイヤフレームは表示されない(画像クレジット:SLAIT)

SLAITはこのプラットフォームを聴覚障がい者やアメリカ手話学習者のコミュニティに公開する意向だ。コミュニティは自分たちの利用がシステムの改良に生かされることに対して抵抗がないことが望ましい。

当然、SLAITのシステムは現状でも大きな意義のあるツールであると考えられる。同社の翻訳モデルは開発途上ではあるものの、多くの人の生活を変える可能性があるからだ。現在、ビデオ通話は増え続け、おそらく今後も増えていくが、アクセシビリティは置き去りにされている。自動キャプション、文字起こし、要約を提供するプラットフォームはわずかにあるが、手話を認識するプラットフォームはない。しかし同社のツールがあれば、無視されがちなチャット機能ではなく通常の手話でビデオ通話に自然に参加できるようになるだろう。

SLAITのエフゲニー・フォーミン氏は次のように述べた。「短期的には200語のモデルが利用できることを実証し、結果は日々進歩しています。中期的には手話を読み取れるコンシューマ向けアプリをリリースする予定です。しかし、あらゆる手話の動きをカバーするライブラリにするには、すべきことがたくさんあります。我々は将来的にこれを現実にするために懸命に努めています。我々のミッションは聴覚に障がいのある人々のコミュニティのためにアクセシビリティを徹底的に向上させることです」。

左から、エフゲニー・フォーミン氏、アントニオ・ドメネク氏、ウィリアム・ビカーズ氏。画像クレジット:SLAIT

フォーミン氏は「完全な」完成品にはならないだろうと慎重な姿勢を見せる。どんな言語の翻訳も置き換えも近似値でしかないのと一緒で、重要なのは多くの人にとって実用的なものになることであり、数百語はその長い道のりの出発点だ。データが増えれば新しい語が語彙に追加されるし、複数の動きを組み合わせた新しいフレーズも同様だ。そしてコアセットのパフォーマンスは向上していく。

現在SLAITは、プロトタイプを公開し創業者以外の人材を雇ってチームを大きくするための最初の資金を求めている。フォーミン氏は、関心は寄せられているものの計画とビジョンを真に理解してくれる投資家と関係を構築したいと述べた。

SLAITはデータを増やし機械学習モデルを改良してエンジン自体の信頼性が向上したら、開発をさらに進めてアプリを他の製品やサービスと統合しようと検討している。現時点の製品はPoC(概念実証)の段階だが、実証はされている。さらに開発を進めれば急成長して、聴覚に障がいのある人々が何十年も待ち望んできたものを提供できるだろう。

関連記事
ウクライナの学生チームが手話を通訳する手袋を開発した
SignAllはゆっくりと、しかし着実に手話通訳プラットフォームを構築中

カテゴリー:人工知能・AI
タグ:SLAIT手話機械翻訳アクセシビリティ

画像クレジット:Slait.ai

原文へ

(文:Devin Coldewey、翻訳:Kaori Koyama)

投稿者:

TechCrunch Japan

TechCrunchは2005年にシリコンバレーでスタートし、スタートアップ企業の紹介やインターネットの新しいプロダクトのレビュー、そして業界の重要なニュースを扱うテクノロジーメディアとして成長してきました。現在、米国を始め、欧州、アジア地域のテクノロジー業界の話題をカバーしています。そして、米国では2010年9月に世界的なオンラインメディア企業のAOLの傘下となりその運営が続けられています。 日本では2006年6月から翻訳版となるTechCrunch Japanが産声を上げてスタートしています。その後、日本でのオリジナル記事の投稿やイベントなどを開催しています。なお、TechCrunch Japanも2011年4月1日より米国と同様に米AOLの日本法人AOLオンライン・ジャパンにより運営されています。