SignAllはゆっくりと、しかし着実に手話通訳プラットフォームを構築中

翻訳は難しい作業だ。2つの言語の距離が遠くなるほどそれは難しくなる。フランス語からスペイン語?それほど問題はない。古代ギリシャ語からエスペラント?かなり難しいだろう。しかし、手話は独特だ。そしてその翻訳の難しさも独特である。なぜならそれは話されたり書かれたりしている言語とは、根本的に異なるものだからだ。こうした事情から、SignAllは、アメリカ手話(American Sign Language:ASL)の正確でリアルタイムな機械翻訳を実現するために、何年も努力を重ねてきた。

AIとコンピュータビジョンに現在起きている進歩を考えれば、このような解くのが面白くて有益な問題は、既に一流中の一流どころが一斉に取り組んでいることだろうと想像するかもしれない。シニカルな市場拡大の観点から考えても、手話を理解できるEchoやテレビは何百万人もの新しい(そして感謝を捧げてくれる)顧客を引きつけることだろう。

しかし残念ながら、そうしたことは起こっていないようだ。それがこのブタペストを拠点とする小さな企業であるSignAllのような会社に、不自由な人びとへの利便性を提供するこの難しい仕事が残された理由だ。そして、手話をリアルタイムで翻訳することは、思われていたよりも複雑な作業であることが判明したのである。

CEOのZsolt Robotkaと最高研究開発責任者のMártonKajtárが、今年のCESに出展を行っていた。私はその場で、会社のこと、彼らが挑戦している課題、そしてこの分野がどのように発展していくのかについての話を聞いた(私は彼らが2016年のDisrupt SFにも出展していたことを知って嬉しくなった。残念ながらその時は彼らに会うことはなかったのだが)。

おそらく、このビジネスの中で私にとってもっとも興味深いことは、彼らが解決しようとしている問題がどれほど興味深く、そして複雑なものであるかということだ。

「これはマルチチャネルコミュニケーションなのです。実際に、大切なのは形や手の動きだけではないのです」とRobotkaは説明する。「手話を本当に翻訳したいのならば、上半身の動きと顔の表情をすべて追跡する必要があります。このことはコンピュータービジョンの部分を非常に難しいものにします」。

ちょっと考えただけでも、それは大変な作業である、わずかな動きも追跡することを考えるとそれは膨大な量となるだろう。現在のシステムはKinect 2を中心に置いて、3台のRGBカメラを1〜2フィートの位置に設置している。誰の話し方も少しずつ違っているように、ASLユーザーも少しずつ違った動作を行う。このためシステムは新しいユーザー毎に再調整をする必要がある。

「この複雑な構成設定が必要なのは、こうすることで異なる視点を持つことができ、そのおかげで時間と空間(リフレッシュレートとピクセル数)に対する、解像度の不足を補うことができるからです」とKajtárは語る。「ASLでは非常に複雑な指の動きを行うことができますが、手を骨格として捉える従来の手法は役に立ちません。何故なら指同士が重なるからです。そこで、サイドカメラを使用してこの重なりを解決しています」。

それでは十分でないと言うかのように、顔の表情やジェスチャのわずかな変化も、伝えられていることに加わる。例えば感情の追加や方向の指示などだ。そしてさらに、手話は、英語や他の一般的な話し言葉とは根本的に違っているという事実がある。これは単なる置き換えではなく、完全に翻訳なのだ。

「手話の本質は、連続した身振り(サイン)です。この性質から、いつ1つのサインが終わり、そしていつ次のサインが始まったかを区別することが難しいのです」とRobotkaは語る。「そして、それはまた非常に異質の言語でもあるのです。語彙から拾い上げて、単語単位で翻訳をすることはできません」。

SignAllのシステムは、順番に提示される個々の単語だけではなく、完全な文章を対象に動作を行う。サインを1つずつキャプチャして、翻訳していくシステム(性能が限定的なバージョンは存在している)は、言われていることに対して、間違った解釈や、過度に単純化された表現を生み出しやすい。行く方向を尋ねるような単純なコミュニケーションに対しては十分かもしれないが、本当に意味のあるコミュニケーションは、検知され正確に再現されなければならない、何層にも重なった複雑な階層で構成されているのだ。

これらの2つのコミュニケーションレベルの間のどこかを目指して、SignAllはギャローデット大学で、最初の公開パイロットプロジェクトを行おうとしている。このワシントンDCにある聴覚障害者のための学校は、ビジターセンターのリノベーションを行っている最中だが、SignAllはここに、訪問した健聴者が聴覚障害スタッフと対話できるようにできる翻訳ブースを設置する。

ギャローデット大学のビジターセンターに置かれたAignAll装備デスクの想像図

Robotkaは、これはシステムのテストを行うための良い機会だと語る。通常は情報提供は逆方向で、聴覚障害者の方が健聴者から情報を貰う立場だからだ。手話ができない訪問者は、喋ることもできて、(もしスタッフが読唇術を使えない場合には)その質問はテキストに変換される。そしてスタッフによる手話による応答はテキストに変換され、音声合成が行われる。

これは複雑なやり方に聞こえるし、実際技術的はとても複雑だが、現実的にはどちらの側の人間も普通にやっていること以上のことを行う必要はない。それで相手には理解して貰えるのだ。少し考えてみれば、これがどれほど素晴らしいことかが分かるだろう。

パイロットテストの準備のために、SignAllとギャローデット大学は協力して、現在使われているアプリや、大学固有の状況に関するサインのデータベースを作成している。全ての手話サインを表す包括的な3D表現は存在しない、そのため当面システムは配備された環境に応じて提供される。ドメイン特有のジェスチャーが順次データベースに追加されていくことになる。

ギャローデット大学の学長のRoberta Cordano(中央の灰色のセーターの人物)が、ブダペストのSIgnAllのオフィスを訪問したときの様子。彼女の向かって左後ろに立つのがRobotka、右端に居るのがKajtár。

「これらの3Dデータを収集するのは本当に大変でした。彼らの協力を得て、丁度作業が終わったところです」とRobotkaは語る。「インタビューを行い、そこで発生した会話を集めて、すべての言語要素とサインが集められるようにしました。私たちは、最初の2、3のパイロットプロジェクトで、同じようなカスタマイズ作業を繰り返すことになると考えています」。

この長期間にわたるプロジェクトは、技術の可能性と限界の両方を冷静に思い出させるものだ。もちろん、手話の自動翻訳が、コンピュータビジョン、機械学習、イメージングの進化によって可能になったことは間違いない。しかし、他の多くの翻訳やコンピュータービジョンタスクとは異なり、基本的な正確性を達成するだけでなく、人間中心主義の側面が確実に含まれるようにするために、大量の人間からの入力が必要とされるのだ。

結局のところ、こうした活動は単に私たちが外国のニュース記事を読んだり、海外でコミュニケーションを行う際の利便性に留まる話ではなく、多くの人が対面コミュニケーションとして考えている「会話」という手段から締め出されている人たちの、利便性に関わる話なのだ。彼らの運命を良くして行くことは、待つだけの価値がある。

[原文へ]
(翻訳:sako)

投稿者:

TechCrunch Japan

TechCrunchは2005年にシリコンバレーでスタートし、スタートアップ企業の紹介やインターネットの新しいプロダクトのレビュー、そして業界の重要なニュースを扱うテクノロジーメディアとして成長してきました。現在、米国を始め、欧州、アジア地域のテクノロジー業界の話題をカバーしています。そして、米国では2010年9月に世界的なオンラインメディア企業のAOLの傘下となりその運営が続けられています。 日本では2006年6月から翻訳版となるTechCrunch Japanが産声を上げてスタートしています。その後、日本でのオリジナル記事の投稿やイベントなどを開催しています。なお、TechCrunch Japanも2011年4月1日より米国と同様に米AOLの日本法人AOLオンライン・ジャパンにより運営されています。