グーグルの研究者がビデオ通話で手話を認識して画面を切り替える技術を披露

私たちの多くが当たり前のように利用しているビデオ通話は、話している人をハイライトするために画面を切り替えることができる。話すことがコミュニケーションの手段であれば便利な機能だ。しかし、残念ながら手話のような無声音声は、これらのアルゴリズムが機能しない。この状況をGoogle(グーグル)の研究が変えるかもしれない。

同社はリアルタイムの手話検出エンジンをは研究中で、誰かが動き回るだけではなく、いつ手話をしているのか、いつ手話が終わったかを検知できる。人間がこの種のことを伝えるのはもちろん些細なことだが、画像と音声を映し出すことが目的のビデオ通話システムにとっては難しい。

ECCV(European Conference on Computer Vision)で発表されたグーグルの研究者の新しい論文では、効率的で非常に少ないレイテンシーで手話を検出する方法を示している。手話検出が機能したとしても、映像が遅延や劣化してしまうと実用的ではない。グーグルの研究者の目標は、軽量かつ信頼性の高いものであることを確認することだった。

手話検出システムはまず、PoseNet(ポーズネット)と呼ばれるモデルを使ってビデオを再生し、フレームごとに体と手足の位置を推定する。この基本的に棒形に単純化された視覚情報は、ドイツ手話を使用する人々のビデオからのポーズデータに基づいて訓練されたモデルで、ライブ映像で手話のように見える動きと比較する。

手話をしている人を自動検出する(画像クレジット:Google)

この単純なプロセスでは、相手がサインをしているかどうかを予測する精度はすでに80%で、さらに最適化を加えると91.5%の精度になる。ほとんどの通話の「アクティブスピーカー」検出は、相手が話しているのか咳をしているのかを伝えることができる程度であることを考えると、この数字はかなりの精度と言えるだろう。

既存の通話に新たに「人がサインしている」という信号を追加せずに動作させられるので、システムは巧妙なちょっとしたトリックを使っている。具体的には、人間の聴覚の範囲外であるが、コンピュータのオーディオシステムによって検出できる20kHzのトーンを生成しているのだ。この信号は、人がサインをしているときに毎回生成され、音声検出アルゴリズムに人が大声で話していると認識させられる。

既存のビデオ通話システムや、それを利用したアプリに組み込むことができない理由はないだろう。論文全文はGoogle Reserchのサイトで読める。

関連記事
手の動きを追跡するGoogleのアルゴリズムで手話を認識できるか
iOS 14は犬の鳴き声を認識して聴覚障害者に通知するアクセシビリティ機能などを強化

カテゴリー:ハードウェア
タグ:スマートスピーカーGoogleGoogleアシスタント手話

画像クレジット:Imgorthand / Getty / Getty Images

原文へ

(翻訳:TechCrunch Japan)

手の動きを追跡するGoogleのアルゴリズムで手話を認識できるか

手話でコミュニケーションをとっている人は大勢いるが、手話の複雑な動きをとらえて音声言語に翻訳する取り組みはあまり成功していなかった。しかしGoogleのAIラボが研究しているリアルタイムのハンドトラッキングが進歩し、翻訳を待ち望んでいる人々にとってはこれが突破口になるかもしれない。

この新しい技術では巧みに効率化を図っている。そしてもちろん機械学習全般の効率が上がったこともあり、スマートフォンのカメラだけで手のひらとすべての指のマップをリアルタイムで正確に作成することができる。

Googleの研究者のValentin Bazarevsky(バレンティン・バザレヴスキ)氏とFan Zhang(ファン・チャン)氏はブログに次のように書いている。「現在の最先端のアプローチでは主にパワフルなデスクトップ環境に頼って推論しているが、私たちの方法では携帯電話でリアルタイムのパフォーマンスを出している。また複数の手にスケールすることもできる。手をリアルタイムで確実に認識するのは、コンピュータビジョンのタスクとしては明らかに難しい。手の一部、あるいは2つの手が重なり(指と手のひらが重なる、握手をするなど)、高コントラストのパターンでなくなることが多いからだ」。

しかも手の動きは速く、微妙だ。こうした動きをリアルタイムでとらえるのは、コンピュータは得意でない。正しく認識するのはとても難しく、速く認識するのも難しい。複数のカメラを使っても、SignAllのような深度を検知する装置で動きをすべて追跡することはなかなかできない(しかしこの方式を止めるわけではない)。

Googleの研究チームの目標は、一部だけを取り出して言えば、アルゴリズムが計算するのに必要なデータの量を減らすことだった。データが少なくなれば、動作は速くなる。

そのひとつとして、研究チームはシステムに手全体の位置と大きさを検知させるアイデアを捨てた。その代わりに、システムに手のひらだけを見つけさせる。手のひらは特徴的で信頼性の高いパーツであり、しかも正方形として認識できる。つまりシステムが縦長の長方形のイメージを扱えるのか、縦方向が短い場合はどうかなどと気にする必要がなくなった。

手のひらを認識したら、指はその手のひらの端から延びているものであり、別々のものとして解析できる。別のアルゴリズムがイメージを見て、21カ所に座標を割り当てる。大まかには指の関節と指先に座標が割り当てられ、座標間の距離も認識される(手のひらの大きさと角度などから推測できる)。

このように指を認識するために、研究チームはまず手作業でさまざまなポーズとライティングの約3万の手のイメージに21個のポイントを割り当て、機械学習システムはこれを使って学習した。いつだって、AIがうまく動作するには人間のハードワークが必要なのだ。

手のポーズが判定されたら、そのポーズを既知の大量のジェスチャーと比較する。既知のジェスチャーとは、文字や数字の一つひとつを表す指文字や、「平和」「金属」といった単語を表す手のポーズのことだ。

このハンドトラッキングのアルゴリズムは速く正確で、最適化されたデスクトップやクラウドではなく(クラウドは最適化された誰かのデスクトップだ)、一般的なスマートフォンで動作する。このアルゴリズムはすべて、マルチメディア技術系の人はおそらくご存じのMediaPipeフレームワークで動作する。

幸いなことに、ほかの研究者もこのシステムを利用できる。このように手を認識してジェスチャーを識別するには、既存のシステムでは強力なハードウェアが必要だが、この状況がおそらく改善されるだろう。しかし手話を本当に理解するのは、ここからが長い道のりだ。手話では、手、顔の表情、その他の手がかりから、ほかにはない豊かなコミュニケーションができる。

この技術はGoogleの製品にはまだ使われていないので、研究チームは無償で公開している。ソースコードはここにあり、誰でも入手して使える。

研究チームは「この手認識機能を公開することにより、多くの研究開発コミュニティからクリエイティブな利用例や刺激的な新しいアプリ、新しい研究手法が生まれるよう期待している」と書いている。

[原文へ]

(翻訳:Kaori Koyama)

SignAllはゆっくりと、しかし着実に手話通訳プラットフォームを構築中

翻訳は難しい作業だ。2つの言語の距離が遠くなるほどそれは難しくなる。フランス語からスペイン語?それほど問題はない。古代ギリシャ語からエスペラント?かなり難しいだろう。しかし、手話は独特だ。そしてその翻訳の難しさも独特である。なぜならそれは話されたり書かれたりしている言語とは、根本的に異なるものだからだ。こうした事情から、SignAllは、アメリカ手話(American Sign Language:ASL)の正確でリアルタイムな機械翻訳を実現するために、何年も努力を重ねてきた。

AIとコンピュータビジョンに現在起きている進歩を考えれば、このような解くのが面白くて有益な問題は、既に一流中の一流どころが一斉に取り組んでいることだろうと想像するかもしれない。シニカルな市場拡大の観点から考えても、手話を理解できるEchoやテレビは何百万人もの新しい(そして感謝を捧げてくれる)顧客を引きつけることだろう。

しかし残念ながら、そうしたことは起こっていないようだ。それがこのブタペストを拠点とする小さな企業であるSignAllのような会社に、不自由な人びとへの利便性を提供するこの難しい仕事が残された理由だ。そして、手話をリアルタイムで翻訳することは、思われていたよりも複雑な作業であることが判明したのである。

CEOのZsolt Robotkaと最高研究開発責任者のMártonKajtárが、今年のCESに出展を行っていた。私はその場で、会社のこと、彼らが挑戦している課題、そしてこの分野がどのように発展していくのかについての話を聞いた(私は彼らが2016年のDisrupt SFにも出展していたことを知って嬉しくなった。残念ながらその時は彼らに会うことはなかったのだが)。

おそらく、このビジネスの中で私にとってもっとも興味深いことは、彼らが解決しようとしている問題がどれほど興味深く、そして複雑なものであるかということだ。

「これはマルチチャネルコミュニケーションなのです。実際に、大切なのは形や手の動きだけではないのです」とRobotkaは説明する。「手話を本当に翻訳したいのならば、上半身の動きと顔の表情をすべて追跡する必要があります。このことはコンピュータービジョンの部分を非常に難しいものにします」。

ちょっと考えただけでも、それは大変な作業である、わずかな動きも追跡することを考えるとそれは膨大な量となるだろう。現在のシステムはKinect 2を中心に置いて、3台のRGBカメラを1〜2フィートの位置に設置している。誰の話し方も少しずつ違っているように、ASLユーザーも少しずつ違った動作を行う。このためシステムは新しいユーザー毎に再調整をする必要がある。

「この複雑な構成設定が必要なのは、こうすることで異なる視点を持つことができ、そのおかげで時間と空間(リフレッシュレートとピクセル数)に対する、解像度の不足を補うことができるからです」とKajtárは語る。「ASLでは非常に複雑な指の動きを行うことができますが、手を骨格として捉える従来の手法は役に立ちません。何故なら指同士が重なるからです。そこで、サイドカメラを使用してこの重なりを解決しています」。

それでは十分でないと言うかのように、顔の表情やジェスチャのわずかな変化も、伝えられていることに加わる。例えば感情の追加や方向の指示などだ。そしてさらに、手話は、英語や他の一般的な話し言葉とは根本的に違っているという事実がある。これは単なる置き換えではなく、完全に翻訳なのだ。

「手話の本質は、連続した身振り(サイン)です。この性質から、いつ1つのサインが終わり、そしていつ次のサインが始まったかを区別することが難しいのです」とRobotkaは語る。「そして、それはまた非常に異質の言語でもあるのです。語彙から拾い上げて、単語単位で翻訳をすることはできません」。

SignAllのシステムは、順番に提示される個々の単語だけではなく、完全な文章を対象に動作を行う。サインを1つずつキャプチャして、翻訳していくシステム(性能が限定的なバージョンは存在している)は、言われていることに対して、間違った解釈や、過度に単純化された表現を生み出しやすい。行く方向を尋ねるような単純なコミュニケーションに対しては十分かもしれないが、本当に意味のあるコミュニケーションは、検知され正確に再現されなければならない、何層にも重なった複雑な階層で構成されているのだ。

これらの2つのコミュニケーションレベルの間のどこかを目指して、SignAllはギャローデット大学で、最初の公開パイロットプロジェクトを行おうとしている。このワシントンDCにある聴覚障害者のための学校は、ビジターセンターのリノベーションを行っている最中だが、SignAllはここに、訪問した健聴者が聴覚障害スタッフと対話できるようにできる翻訳ブースを設置する。

ギャローデット大学のビジターセンターに置かれたAignAll装備デスクの想像図

Robotkaは、これはシステムのテストを行うための良い機会だと語る。通常は情報提供は逆方向で、聴覚障害者の方が健聴者から情報を貰う立場だからだ。手話ができない訪問者は、喋ることもできて、(もしスタッフが読唇術を使えない場合には)その質問はテキストに変換される。そしてスタッフによる手話による応答はテキストに変換され、音声合成が行われる。

これは複雑なやり方に聞こえるし、実際技術的はとても複雑だが、現実的にはどちらの側の人間も普通にやっていること以上のことを行う必要はない。それで相手には理解して貰えるのだ。少し考えてみれば、これがどれほど素晴らしいことかが分かるだろう。

パイロットテストの準備のために、SignAllとギャローデット大学は協力して、現在使われているアプリや、大学固有の状況に関するサインのデータベースを作成している。全ての手話サインを表す包括的な3D表現は存在しない、そのため当面システムは配備された環境に応じて提供される。ドメイン特有のジェスチャーが順次データベースに追加されていくことになる。

ギャローデット大学の学長のRoberta Cordano(中央の灰色のセーターの人物)が、ブダペストのSIgnAllのオフィスを訪問したときの様子。彼女の向かって左後ろに立つのがRobotka、右端に居るのがKajtár。

「これらの3Dデータを収集するのは本当に大変でした。彼らの協力を得て、丁度作業が終わったところです」とRobotkaは語る。「インタビューを行い、そこで発生した会話を集めて、すべての言語要素とサインが集められるようにしました。私たちは、最初の2、3のパイロットプロジェクトで、同じようなカスタマイズ作業を繰り返すことになると考えています」。

この長期間にわたるプロジェクトは、技術の可能性と限界の両方を冷静に思い出させるものだ。もちろん、手話の自動翻訳が、コンピュータビジョン、機械学習、イメージングの進化によって可能になったことは間違いない。しかし、他の多くの翻訳やコンピュータービジョンタスクとは異なり、基本的な正確性を達成するだけでなく、人間中心主義の側面が確実に含まれるようにするために、大量の人間からの入力が必要とされるのだ。

結局のところ、こうした活動は単に私たちが外国のニュース記事を読んだり、海外でコミュニケーションを行う際の利便性に留まる話ではなく、多くの人が対面コミュニケーションとして考えている「会話」という手段から締め出されている人たちの、利便性に関わる話なのだ。彼らの運命を良くして行くことは、待つだけの価値がある。

[原文へ]
(翻訳:sako)