オープンワールドドライブゲームForza Horizon 5がゲーム内での手話表示機能を追加、米国流と英国流を選択可能

オープンワールドドライブゲームForza Horizon 5がゲーム内での手話表示機能を追加、米国流と英国流を選択可能

Playground Games / Microsoft

Xbox / PCの人気オープンワールドドライブゲーム『Forza Horizon 5』が3月1日のアップデートにより手話表示に対応しました。手話は国ごとに違いがありますが、開発元のPlayground Gamesは、米国手話(ASL)と英国手話(BSL)の2種類をこのゲームでサポートしたと発表しています。

この機能は昨秋に導入に向けた取り組みが進行中であることが発表されていました。手話はゲーム内の会話シーンなどでピクチャーインピクチャー表示され、プレイヤーは表示位置やサイズを調整可能になっています。またゲームの邪魔にならないよう、手話者の背景の色も調整が可能です。

『Forza Horizon 5』もほかの多くのゲームと同様に字幕表示をサポートしており、それがあれば手話なんかいらないのでは、とも思えるところですが、熟練の手話通訳者などは口調や感情、雰囲気などを含めて伝えることができるため理解がしやすく、普段から手話を主体にコミュニケーションする人はむしろ手話のほうが理解がしやすいのだそうです。

今回のアップデートではそれ以外にも、フォトモードやリバリーエディター、ノンプレイヤー車によるトラフィックの動きといった機能のバグ修正が含まれるとのこと。新マシンが5台追加され、新しいフェスティバルプレイリスト(バトルパス的なチャレンジリスト)も追加されています。ただし、ライバルとPRスタントのリーダーボード(順位表)の表示が誤っている件はすぐに解決できるものではなく、引き続き対策に取り組むとしています。

(Source:Forza HorizonEngadget日本版より転載)

日本財団らが手話習得ゲーム「手話タウン」正式版をローンチ、スマホ対応や音声からの手話作成などの目標も


公益事業をサポートする社会貢献財団「日本財団」は、「手話言語の国際デー」(9月23日)を目前に控えた9月22日に、手話学習オンラインゲーム「手話タウン」を正式公開し、発表会を開催した。同アプリは、香港中文大学関西学院大学Googleの協力を得て、ベータ版を公開していたもの。

香港中文大学と関西学院大学は、各国の手話データの収集やろう者に関する知見の提供を、またGoogleは、プロジェクトのコンセプト立案と機械学習用オープンソースライブラリー「TensorFlow」を活用し、人のポーズとジェスチャーを認識する「PoseNet」、口と顔の表情を認識する「Facemesh」、手の形と指の検出をするハンドトラッキング(Hands)といった3つの機械学習モデルを組み合わせた手話動作の検出技術を開発するといった役割を担った。

発表会では、日本財団会長の笹川陽平氏、開発チームの中心となった日本財団特定事業部True Colorsの川俣郁美氏、自身もろう者で「聞こえない人あるある」など耳の聞こえない人の日常を「ユリマガール」として発信しているYouTuber くろえ氏が登壇。手話言語を取り巻く日本の環境や、手話タウンにかける思いなどを語った。

日本では手話が言語認定されていない?

まず笹川氏は、国連総会で決議された「手話言語の国際デー」について触れ、「日本は障害者権利条約を批准しているにもかかわらず手話を言語として認めていない」という現状を語った。

日本財団会長の笹川陽平氏

「手話言語法制定がなかなか進まず、手話を言語として認めない状態では、障害者雇用も一向に進まない」とのことで、民間の大企業に関心を持ってもらうよう日本財団が働きかけてきたという笹川氏。

「世界には約15億人の障害者がいるという。働く能力も情熱もある彼らは、ビッグマーケットでもある。健常者には汲み取れないニーズを理解できる障害者を雇い入れることで、障害者が本当に必要とするような製品開発も進む。

すでにGoogleやMicrosoft、SONYや日立など大企業500社がタッグを組んで障害者雇用を率先して行っている。アフターコロナはこのようなダイバーシティ&インクルージョンが一気に進むだろう」(笹川氏)

「その取り組みのひとつが『手話タウン』。誰もが共に働ける社会の実現に向け、手話に気軽に触れてもらいたい」とあいさつをした。

手話タウンは手話への入り口

続いて登壇した川俣氏は、手話で手話タウンが生まれた背景、概要、目指すところについて説明した。

日本財団特定事業部True Colorsチーム 川俣郁美氏

聴覚障害者は世界で4億6600万人。会話はできるけれど聞き取りづらい、飛行機の轟音さえ聞こえないなどレベルは様々だが、20人に1人が聞こえで課題を持っていることになる。

そのうち、手話を日常的に使うろう者は20%。つまり、世界人口の100人に1人が手話でコミュニケーションをとっている。

ここでひとつ思い出したいことがある。私たちが「物心ついた時」というのは、言葉を覚え始めた頃ではないだろうか。つまり、言語と思考には密接な関連があるということだ。

音のない世界で生活するろう者(ここでは、手話の未習得者で耳の聞こえない人のこと)は、手話という言語を習得することにより、自分の意志を相手に伝え、相手のことを理解し、学習し、思考することができるようになる。このことから手話がコミュニケーションというものを超越した“生きることの基盤である”、ということが理解できるだろう。

しかし、「国内では手話を言語として認めないだけでなく、手話への理解も少ない」と川俣氏。「米国では手話を第2言語として教える手話クラスのある公立高校が1100校あるが、国内で手話を授業に総合学習のような形でも取り入れたことのある学校がある市区は38.3%(230市区)、に過ぎない。大学など高等教育機関に至っては、手話を語学として講義を行っているのが9校であるのに対し、米国では第2言語として792校がコースを開講している。西語、仏語に続き3番目に多く履修されている言語だ」と解説した。

「自治体で手話の講習会を開いているところもあるが、教育機関として学べる米国のように、体系的かつ若い時から学んで触れる機会がない日本では、ろう者が生活していく上で難しい場面も多い。

少しでも手話を身近なものと感じてもらいたい、手話に触れる入り口にしてもらいたい、という想いで手話タウンを開発した」(川俣氏)

公式版は、よりフレンドリーなユーザーインターフェースに

5月24日にリリースした手話タウンベータ版の体験者約8500人(延べ)から得たフィードバックにより、公式版では次のような改良が加えられた。

  • チュートリアルの追加
  • 見本動画の拡大・スロー再生機能追加
  • 見本動画と自分の手話の比較表示機能追加

手話は、顔だけでなく肘を含む手の動きで表現する。そのため、一般的なビデオ会議のとき以上にPCのカメラから離れる必要がある。どれほど離れる必要があるのか、正しく認識されているかをチェックするために、チュートリアルが追加された。

遊び方の説明も追加された。どのようにプレイするかが一目瞭然

チュートリアルではカメラの位置(実際には自分の位置)調整、認識するのに体のどの部分が必要なのかが、よりわかりやすくなった

スロー再生(0.25倍速再生)で細かい動きをしっかり把握しやすく

また、ベータ版では見本となる動画が小さく、動きも早かった。また、2つの窓で同時に表現するため、目がさまよってしまい、選んで表現したいと思う側に注目できないという課題も合った。実際、筆者も「これは指を何本立てているのか」「右下? 真下?」と戸惑うことが多かった(ダンスなどの振り付けを覚えにくいという特性も関係しているが……)。それが正式版では、拡大表示することで1ウィンドウで大きく見られるようになり、その状態でスロー再生(0.25倍速再生)して、しっかり動きを把握できるようになった。

以前の見本動画の一例。並べて表示するため小さく、目がさまよってしまう

正式版ではそれぞれの見本動画を拡大表示できるようになった。また「0.25x」をクリックすればスロー再生も可能。細かなところまで確認できる

地味な追加要素ながら、文字のわからない子どもや外国語話者でも理解できるよう、それぞれの見本動画の左上に、表現したいものを表すアイコンが添えられるようになった

見本動画と自分の手話表現の動画を見比べて、客観的に違いを確認できるように

最後は、自分の手話表現が「間違い」だったときに、見本動画と自分の手話表現の動画を横に並べることで、どこが違うのかを見比べられるよう比較表示機能が追加された。自分では完璧に真似をしているつもりでも、客観的に「そうじゃない」ということがわかるというわけだ。

手話タウンは「プロジェクト手話」の一環、音声からの手話作成や手話から音声への翻訳などの目標も

公式版になった手話タウンをプレイした くろえ氏は、「キャラクターがかわいらしいので、小さな妹と一緒にプレイできる。今、日本語手話だけでなく外国語手話に興味があるので、香港手話を学べるのはありがたい。今後、ほかの国の手話も学べるとうれしい。友人と一緒に遊んでみたい」と感想を語った。

「ユリマガール」YouTuber くろえ氏

川俣氏は、「手話タウンは、『プロジェクト手話』の一環に過ぎない。将来的には音声から手話を自動的に作成したり、手話から音声へ翻訳したりするという大きな目標がある。今は3場面、36単語しか学べない、またPCのウェブブラウザーからしかアクセスできない手話タウンだが、今後は単語数を増やし、スマホやタブレットでも遊べるようにしていきたい」と今後の抱負を述べた。

また、発表会後、個別取材に対応したTrue Colorsチーム チームリーダー青木透氏は「手話タウンは、手話に触れる門戸を広げることが第一の目的なので、今はアカウントの作成や登録なしにプレイしてもらえる仕様になっている。しかし、場面や単語数が増えた将来には、習熟度をチェックしたいというニーズも増えてくるだろう。協力者である香港中文大学、Google、関西学院大学と共に、アカウント方式にするかしないかを検討するようになるかもしれない」と話していた。

Googleが手話認識技術開発で協力、ゲーム感覚で手話を学びろう者への理解を深める「手話タウン」をプレイしてみた

9月23日は「手話言語の国際デー」だ。これは、手話言語(以下、手話)が音声の言語と対等であることを認め、ろう者の人権が保証されることを目的に、国際連合が2017年12月19日に決議したもの。手話について意識を新たにする日となる。

とはいえ、「手話はよくわからない」「やったことがない」「学んだものの試す機会がない」という人も少なくないだろう。

そのような人たちにぜひとも試してもらいたいのが手話学習オンラインゲーム「手話タウン」だ。

手話タウンとは?―日本財団が香港中文大学・関西学院大学・Googleの協力によって開発

手話タウンとは、公益事業をサポートする社会貢献財団「日本財団」が、香港中文大学、関西学院大学、Googleの協力によって開発したウェブブラウザー上でプレイできるゲーム。現在はベータ版だが、手話言語の国際デーに正式公開することを目指してテストや開発が進められている

香港中文大学はプロジェクト全体の日本財団との共同統括、手話言語学における学術的見地からの監修、手話データの収集、ろう者に関する知見の提供を、関西学院大学は日本手話の学習データ収集とろう者に関する知見の提供、Googleはプロジェクトのコンセプト立案、AIによる手話認識技術の研究開発をするといった役割を担う。日本財団は、手話・ろう者についての知見の提供ならびに開発に必要な資金の提供を行っている。

また手話タウンプロジェクトでは、2Dしか認識できない一般的なカメラでも立体的な手話の動きを、上半身、頭、顔、口も含めて認識できる機械学習モデルを開発。日本と香港で手話を日常的に使用しているろう者の手話映像データを収集し、学習させることで、手話学習者が正しく手話を表現できているかの判断を可能にしているという。基盤となっている手話認識技術はTensorFlowを活用し3つの機械学習モデル(PoseNet、Facemesh、ハンドトラッキング)を組み合わせており、ソースコードについてはオープンソースとして公開している。

ウェブカメラ、PCとウェブブラウザー、そして手話を学びたい心があればすぐに始められる

ゲームに必要なのは、ウェブカメラを搭載してネットに接続されているPCとウェブブラウザー、そして手話を学びたいという心だ。アカウントの登録も、課金も必要ない。また、あらかじめ手話を覚えておく必要もない。

手話タウンにAndroidおよびiOSのウェブブラウザーでアクセスしたところ、PC用ブラウザーを利用するようメッセージが表示された

手話タウンにAndroidおよびiOSのウェブブラウザーでアクセスしたところ、PC用ブラウザーを利用するようメッセージが表示された

プレイヤーは手話タウンと呼ばれる架空の町を旅行しながら、少しずつ手話のアイテムを集めていく。例えば、色や服飾小物、食べ物などだ。

学べる手話は、日本手話と香港手話のいずれか。小学生の頃に手話に親しんだ筆者が、ベータ版手話タウンに挑戦してみた。選んだ手話言語は日本語手話だ。

荷づくりからチェックインまで体験

手話タウンにアクセスしたら、まずは表示する言語を選ぼう。日本語、英語、中国語(繁体字)から選べる。

ついで、手話言語を日本語手話と香港手話のいずれかを選ぶ。

ゲームは、出発前の荷づくりからスタートする。アイテムをどんどん選んでいき、荷造りを完成させる。なお、始めると、2つのアイテムを示す「お手本動画」が流れる。どちらかを手話で表現することで、アイテムを「選んで」いける。

2つのお手本動画が同時に流れるので、最初は自分にとってわかりやすいものを選ぼう。「できた」という達成感が重要なのだ

正しく手話を表現できると「手話で表そうとしたのは……?○○?」と表示され、その手話が表すアイテムの“バッジ”を集められる。表現が不明瞭だと「ごめんなさい!どの手話単語か分かりませんでした。」と表示される。スキップすることも、やり直すことも可能だ。

正しく表現できると「手話で表そうとしたのは……?○○?」と表示される。意図したものであれば「はい」を選んで次へ進もう

「腕時計」「ハイヒール」をなかなか表現できず、心が折れそうになる場面も

ゲームは、アイテムのバッジを集めていくことで進んでいくが、途中で次の場面に移動することも可能。もっとも、挑戦中のステップを完成させたほうが達成感を味わえるのは言うまでもない。

荷づくりのステップで集められるアイテムは6つだが、何回もチャレンジすれば、覚えられる手話単語はその倍の12に増やせる

ゲーム内では、手話タウンにあるレストランで食事をし、ホテルにチェックインするところまで体験する。レストランではメイン料理名、食材、飲み物などの手話単語を、ホテルでは喫煙・禁煙室、現地払い、カード払いといった、実際に宿泊する際に必要になる手話単語を覚えられる。

ゲームが進むにつれ、表現が複雑になってくるのだが、何度もお手本動画を確認したり、カメラに向かって表現することでクリアできるようになる。

また、何度もプレイしているうちに、「なぜワインは『3』を表す指で表現するのだろう」「なぜレモンは……」などと疑問が浮かんでくることだろう。能動的に調べることで、「そういうことか」と謎が解け、もっと手話を学びたいと思うようになるかもしれない。

ろう者についてもっと知ることができる工夫も

手話タウンでは、手話単語だけでなく、ろう者の文化を学べる工夫もなされている。場面が進んだときに現れる白いキャラクターをクリックすると、目覚ましのアラームはどうしているのか、ろう者がいたらどのように声がけすればいいかといったプチ情報が表示され、ろう者への理解を深めるのに一役買っている。

白いキャラクターのうち、線が赤く点滅しているものをクリックしてプチ情報を表示できる

ノックの代わりに電気を点けたり消したりする、という目からうろこの情報

各場面でのプチ達成感が、手話を学びたいという意欲をかきたてる

まだベータ版ということもあり、「荷づくり」「食事」「宿泊」の3場面だけだが、各場面をコンプリートしたときに得られるプチ達成感が、手話を学びたいという意欲をかきたてる。

なお、手話は手だけでなく、顔の表情や上半身も使う。そのため上半身全体が収まるよう、カメラとの距離が必要になる。また、AIが表現した手話を認識しやすいよう、プレイするときには柄物より無地に近い服を選んだほうがよいだろう。さらに、手話を表現するときに、それが表す単語を口にすると、口の形も読み取れるため認識率がアップする。

手話タウンにチャレンジする人が増えることで、ろう者への理解が深まり、手話への抵抗感が少ない社会の醸成されることが期待したい。

質と量で世界初、工学院大学が約6360手話単語と10テーマ10件の対話を収録した高精度3D日本手話データベースを提供開始

工学院大学は6月28日、国立情報学研究所情報学研究データリポジトリ(NII IDR)「研究者等提供データセット」上で、「工学院大学 多用途型日本手話言語データベース(KoSign)」(コサイン)の提供を開始した。約6360手話単語と10テーマ10件の対話が収録された、工学院大学調べで「質と量において世界初のデータセット」とのことだ。

KoSignのデータは、手話ネイティブの家系に育ったろう者で、日本手話を母語とする男女1名ずつによって、2017年から2019年にかけて、東映東京撮影所のモーションキャプチャースタジオで収録された。正面と左右に4KまたはフルHDカメラを置いて手話映像を撮影すると同時に、光学式モーションキャプチャーによる3次元動作データ(BVH形式/C3D形式/FBX形式)とKinectセンサーによる深度データ(Kinect v2のxef形式)も取得した。手話では、顔の表情や視線も大切な要素となるため、顔に33カ所、体全体に112カ所のマーカーを付けて顔や体の動きをキャプチャーしている。

日本で使われている手話には、日本手話、中間型手話、日本語対応手話の3種類があり、なかでも生まれつきのろう者が伝統的に使ってきた日本手話は、音声の日本語とは異なる文法を持ち、言語学的にも工学的にも研究があまり進んでいない。日本手話を使う人たちには、手話通訳者が使用する、話し言葉の文法と語順を基本とした日本語対応手話や、顔の表情を交えて日本手話と日本語対応手話を混在させた中間型手話では、内容を十分に理解できない場合もあるという。工学院大学の解説では、英語がよくわからない人が、英語字幕の映画を見ているような感じだと話している。

手話では3次元的な手の動きが重要となるが、これまで3次元の動作を集めた手話辞書は存在しなかった。また、紙媒体や2次元の動画教材では学習しにくいという課題があった。任意の角度から手話の動きを見られる「KoSign」は、ろう者の日常生活におけるコミュニケーションの理解度を深めると同時に、健聴者の手話学習にも役に立つと期待される。KoSignは、研究者や開発者に無料で公開されるため、所属が異なる研究者による調査でも、共通動作を対象に研究を進められるとしている。

また、データベースの単語を組み合わせて手話文を作ることもできる。下の画像は、桜島観光案内用にアンノテーション支援システムで描画し字幕を付けた応用例。

データは研究目的でのみ提供され、対象は基本的に大学の研究室や公的研究機関となる。詳細はこちら

関連記事
生命保険の約款や学校教材における漢字の誤読を低減、正確なイントネーションで音声合成を自動生成するAIシステム
習得したいけど勉強は嫌……外国語が苦手な日本人でもゲーム感覚で言語が学べる無料アプリDuolingo
グーグルが手話認識技術を開発、日本財団らが手話とろう者への理解促進を目指した手話学習オンラインゲームをベータ公開
HTCが唇・舌・歯・アゴ・頬など口元38カ所をトラッキングできる「VIVE Facial Tracker」発表

カテゴリー:パブリック / ダイバーシティ
タグ:Kinect(製品・サービス)工学院大学(組織)手話(用語)データベース(用語)日本(国・地域)

グーグルが手話認識技術を開発、日本財団らが手話とろう者への理解促進を目指した手話学習オンラインゲームをベータ公開


公益事業をサポートする社会貢献財団「日本財団」は5月24日、香港中文大学関西学院大学Googleの協力を得て、手話学習オンラインゲーム「手話タウン」のベータ版を公開した。

手話タウンでは、PCカメラの前で手話を表現することで、手話が公用語の架空の町「手話タウン」を旅しながらアイテムを集めていく。学習した手話で正しく表現できているかを、AI技術を使って確認できるというわけだ。

手話学習者であれば、手話が単なる手の動きだけでなく、顔の表情、頷き、上半身を使った身振りなどを交えたものであるということを認識しているが、これまでの手話認識モデルは手の形と動きのみにフォーカスした認識技術にとどまっていた。

また、PCに搭載しているカメラは一般的に2D(平面)認識しかできず、奥行きのある立体的な手話の動作を認識するには専用カメラや認識を容易にする手袋といった特別な設備が必要だったため、広く普及させるのが困難であった。

しかし、今回の手話タウンプロジェクトでは、2Dしか認識できない一般的なカメラでも立体的な手話の動きを、上半身、頭、顔、口も含めて認識できる機械学習モデルを開発。日本と香港で手話を日常的に使用しているろう者の手話映像データを収集し、学習させることで、手話学習者が正しく手話を表現できているかの判断を可能にした。

今回、香港中文大学はプロジェクト全体の日本財団との共同統括、手話言語学における学術的見地からの監修、手話データの収集、ろう者に関する知見の提供を、関西学院大学は日本手話の学習データ収集とろう者に関する知見の提供、Googleはプロジェクトのコンセプト立案、AIによる手話認識技術の研究開発をするといった役割を担う。日本財団は、手話・ろう者についての知見の提供ならびに開発に必要な資金の提供を行っている。

誰もがスマホを持ち歩いていることから、ろう者に対しても「その場で入力したテキストを見せれば良いのではないか」と、健常者は考えるかもしれないが、生まれつき耳が聴こえない場合、文字を音として認識できず、理解が難しい場合が多い(「ろう児はどのように文字習得をするか」)。

その点、手話であれば、日常的に使っているため、一瞬で理解できる。そのことからも、2006年には国連障害者権利条約で「手話は言語である」と明記され、国内でも2011年には障害者基本法で手話の言語性が認められたが、手話とろう者への理解は未だ十分に浸透していない。

とはいえ、コロナ禍でひんぱんに行われる政府会見で手話通訳者を見る機会が増えたことから、手話への関心は高まりつつある。今回の手話タウンプロジェクトは、これを好機ととらえ手話やろう者への理解促進を図る目的で開発された。

手話タウンでは、言語を英語、日本語、中国が(繁体字)から、手話言語を日本手話と香港手話から選択可能。9月23日の手話言語の国際デーに正式公開を目指し、公式サイトにおいてフィードバックを募集している。

なお、基盤となっている手話認識技術はTensorFlowを活用し3つの機械学習モデル(PoseNet、Facemesh、ハンドトラッキング)を組み合わせており、ソースコードはオープンソースとして公開している。これにより、世界中の開発者や研究者が他の手話でも同様の認識技術を容易に開発することを可能にしているそうだ。

関連記事
グーグルの研究者がビデオ通話で手話を認識して画面を切り替える技術を披露
手の動きを追跡するGoogleのアルゴリズムで手話を認識できるか

カテゴリー:パブリック / ダイバーシティ
タグ:アクセシビリティ(用語)オープンソース / Open Source(用語)関西学院大学(組織)Google / グーグル(企業)手話(用語)TensorFlow日本財団(団体)香港中文大学(組織)日本(国・地域)

SLAITのリアルタイム手話翻訳はオンラインでのコミュニケーションをアクセシブルにする

世界中で多くの人が手話を使っているが、スペイン語や中国語、ラテン語にまで自動翻訳があるのに手話を使えない人たちのための自動翻訳はない。SLAITは一般的に利用できる最初の手話翻訳ツールであると主張している。普通のコンピュータとウェブカメラだけで、出発点としてまずはおよそ200語と単純な文を翻訳することができる。

聴覚に障がいのある人や何らかの状況で音声による発話が困難な人はたくさん存在し、健聴者と同じ一般的なITツールを使っている。もちろん現在はメールやテキストチャットが便利に使われているが、顔を合わせてのコミュニケーションの代わりにはならない。そして残念ながら手話を書き言葉や話し言葉に変える手軽な方法はなく、大きなバリアとして残っている。

我々は自動手話翻訳(ほとんどはアメリカ手話)の試みを何年も前から見てきた。2012年にMicrosoftは、同社のイマジンカップで手袋で手の動きを追跡した学生チームを表彰した。筆者は2018年に、複数のカメラを使って位置を3Dで把握する手話翻訳ブースに取り組むSignAllの記事を書いた。2019年には、GoogleのAIラボが研究しているMediaPipeという新しいハンドトラッキングのアルゴリズムが将来的には手話の読み取りにつながるかもしれないことに注目した。そして実際に、ほぼその通りになった。

SLAITはドイツのAachen University of Applied Sciencesでの研究から生まれたスタートアップで、共同創業者のAntonio Domènech(アントニオ・ドメネク)氏はこの大学でMediaPipeと専用のニューラルネットワークを使った小規模なアメリカ手話認識エンジンを開発した。基本的な概念を実証したドメネク氏は、共同創業者のEvgeny Fomin(エフゲニー・フォーミン)氏、William Vicars(ウィリアム・ビカーズ)氏とともにSLAITを始めた。その後メンバーは、最初は100種類、現在では200種類のアメリカ手話の動きと単純な文を認識するシステムを構築した。翻訳はオフラインで実行され、比較的最近のスマートフォンやコンピュータ上でほぼリアルタイムに動作する。

画像クレジット:SLAIT

SLAITはこのシステムを教育や開発に使えるようにする計画で、重要度の高い一般向けのアプリケーションにする前に、データセットを拡張してモデルを向上させる。

現在のモデルは少人数のチームで驚くほど短期間で開発されたが、もちろん簡単ではなかった。MediaPipeは手や指の動きを追跡できるオープンソースの有効な手段であることは確かだが、強力な機械学習モデルに欠かせない構成要素はデータだ。この場合のデータとは実際に使われているアメリカ手話のビデオのデータで(ビデオを翻訳することになるので)、利用できるデータはそれほど大量には存在しない。

SLAITが最近DeafITカンファレンスのプレゼンテーションで説明したように、チームはまずMicrosoftの古いデータベースを使って評価をしたが、オーストラリアの新しい学術データベースの方がたくさんあり質も良いことを発見した。これにより200種類の手話をリアルタイムに92%の正確性で識別するモデルを作ることができた。これにソーシャルメディアから集めた手話のビデオ(もちろん許可を得た上で)や、手話通訳付きの行政発表を加えた。しかしまだ足りない。

プロトタイプの動作を示すGIF。一般向けのプロダクトにはもちろんワイヤフレームは表示されない(画像クレジット:SLAIT)

SLAITはこのプラットフォームを聴覚障がい者やアメリカ手話学習者のコミュニティに公開する意向だ。コミュニティは自分たちの利用がシステムの改良に生かされることに対して抵抗がないことが望ましい。

当然、SLAITのシステムは現状でも大きな意義のあるツールであると考えられる。同社の翻訳モデルは開発途上ではあるものの、多くの人の生活を変える可能性があるからだ。現在、ビデオ通話は増え続け、おそらく今後も増えていくが、アクセシビリティは置き去りにされている。自動キャプション、文字起こし、要約を提供するプラットフォームはわずかにあるが、手話を認識するプラットフォームはない。しかし同社のツールがあれば、無視されがちなチャット機能ではなく通常の手話でビデオ通話に自然に参加できるようになるだろう。

SLAITのエフゲニー・フォーミン氏は次のように述べた。「短期的には200語のモデルが利用できることを実証し、結果は日々進歩しています。中期的には手話を読み取れるコンシューマ向けアプリをリリースする予定です。しかし、あらゆる手話の動きをカバーするライブラリにするには、すべきことがたくさんあります。我々は将来的にこれを現実にするために懸命に努めています。我々のミッションは聴覚に障がいのある人々のコミュニティのためにアクセシビリティを徹底的に向上させることです」。

左から、エフゲニー・フォーミン氏、アントニオ・ドメネク氏、ウィリアム・ビカーズ氏。画像クレジット:SLAIT

フォーミン氏は「完全な」完成品にはならないだろうと慎重な姿勢を見せる。どんな言語の翻訳も置き換えも近似値でしかないのと一緒で、重要なのは多くの人にとって実用的なものになることであり、数百語はその長い道のりの出発点だ。データが増えれば新しい語が語彙に追加されるし、複数の動きを組み合わせた新しいフレーズも同様だ。そしてコアセットのパフォーマンスは向上していく。

現在SLAITは、プロトタイプを公開し創業者以外の人材を雇ってチームを大きくするための最初の資金を求めている。フォーミン氏は、関心は寄せられているものの計画とビジョンを真に理解してくれる投資家と関係を構築したいと述べた。

SLAITはデータを増やし機械学習モデルを改良してエンジン自体の信頼性が向上したら、開発をさらに進めてアプリを他の製品やサービスと統合しようと検討している。現時点の製品はPoC(概念実証)の段階だが、実証はされている。さらに開発を進めれば急成長して、聴覚に障がいのある人々が何十年も待ち望んできたものを提供できるだろう。

関連記事
ウクライナの学生チームが手話を通訳する手袋を開発した
SignAllはゆっくりと、しかし着実に手話通訳プラットフォームを構築中

カテゴリー:人工知能・AI
タグ:SLAIT手話機械翻訳アクセシビリティ

画像クレジット:Slait.ai

原文へ

(文:Devin Coldewey、翻訳:Kaori Koyama)