グーグルが手話認識技術を開発、日本財団らが手話とろう者への理解促進を目指した手話学習オンラインゲームをベータ公開


公益事業をサポートする社会貢献財団「日本財団」は5月24日、香港中文大学関西学院大学Googleの協力を得て、手話学習オンラインゲーム「手話タウン」のベータ版を公開した。

手話タウンでは、PCカメラの前で手話を表現することで、手話が公用語の架空の町「手話タウン」を旅しながらアイテムを集めていく。学習した手話で正しく表現できているかを、AI技術を使って確認できるというわけだ。

手話学習者であれば、手話が単なる手の動きだけでなく、顔の表情、頷き、上半身を使った身振りなどを交えたものであるということを認識しているが、これまでの手話認識モデルは手の形と動きのみにフォーカスした認識技術にとどまっていた。

また、PCに搭載しているカメラは一般的に2D(平面)認識しかできず、奥行きのある立体的な手話の動作を認識するには専用カメラや認識を容易にする手袋といった特別な設備が必要だったため、広く普及させるのが困難であった。

しかし、今回の手話タウンプロジェクトでは、2Dしか認識できない一般的なカメラでも立体的な手話の動きを、上半身、頭、顔、口も含めて認識できる機械学習モデルを開発。日本と香港で手話を日常的に使用しているろう者の手話映像データを収集し、学習させることで、手話学習者が正しく手話を表現できているかの判断を可能にした。

今回、香港中文大学はプロジェクト全体の日本財団との共同統括、手話言語学における学術的見地からの監修、手話データの収集、ろう者に関する知見の提供を、関西学院大学は日本手話の学習データ収集とろう者に関する知見の提供、Googleはプロジェクトのコンセプト立案、AIによる手話認識技術の研究開発をするといった役割を担う。日本財団は、手話・ろう者についての知見の提供ならびに開発に必要な資金の提供を行っている。

誰もがスマホを持ち歩いていることから、ろう者に対しても「その場で入力したテキストを見せれば良いのではないか」と、健常者は考えるかもしれないが、生まれつき耳が聴こえない場合、文字を音として認識できず、理解が難しい場合が多い(「ろう児はどのように文字習得をするか」)。

その点、手話であれば、日常的に使っているため、一瞬で理解できる。そのことからも、2006年には国連障害者権利条約で「手話は言語である」と明記され、国内でも2011年には障害者基本法で手話の言語性が認められたが、手話とろう者への理解は未だ十分に浸透していない。

とはいえ、コロナ禍でひんぱんに行われる政府会見で手話通訳者を見る機会が増えたことから、手話への関心は高まりつつある。今回の手話タウンプロジェクトは、これを好機ととらえ手話やろう者への理解促進を図る目的で開発された。

手話タウンでは、言語を英語、日本語、中国が(繁体字)から、手話言語を日本手話と香港手話から選択可能。9月23日の手話言語の国際デーに正式公開を目指し、公式サイトにおいてフィードバックを募集している。

なお、基盤となっている手話認識技術はTensorFlowを活用し3つの機械学習モデル(PoseNet、Facemesh、ハンドトラッキング)を組み合わせており、ソースコードはオープンソースとして公開している。これにより、世界中の開発者や研究者が他の手話でも同様の認識技術を容易に開発することを可能にしているそうだ。

関連記事
グーグルの研究者がビデオ通話で手話を認識して画面を切り替える技術を披露
手の動きを追跡するGoogleのアルゴリズムで手話を認識できるか

カテゴリー:パブリック / ダイバーシティ
タグ:アクセシビリティ(用語)オープンソース / Open Source(用語)関西学院大学(組織)Google / グーグル(企業)手話(用語)TensorFlow日本財団(団体)香港中文大学(組織)日本(国・地域)

TensorFlowライブラリによる機械学習モデルの、本番アプリケーションへの実装を助けるAPI集TensorFlow ServingをGoogleがリリース

2016-02-16_1335

Googleが今日(米国時間2/16)、TensorFlow Servingローンチした。これは、デベロッパーが着想した機械学習モデルの、プロダクション環境における実装を助けるオープンソースのプロジェクトだ。TensorFlow Servingはその名のとおり、Googleの機械学習ライブラリTensorFlowに向けて最適化されているが、しかし同社によると、そのほかのモデルやデータをサポートするよう拡張もできる。

TensorFlowのようなプロジェクトがあれば、機械学習のアルゴリズムを作ったり、それらを特定のタイプのデータ入力に対して訓練することが容易にできるようになるが、TensorFlow Servingはこれらのモデルをデベロッパーのプロダクション環境で(本格的なアプリケーションで)実際に使えるようにする。デベロッパーはTensorFlowを使って自分のモデルを訓練し、それからTensorFlow ServingのAPIを使ってクライアントからの入力に反応できるようにする。Googleによると、TensorFlow Servingは、マシンのGPUリソースを使って処理を高速化できる。

Tensor_Flow_Diagram1_TrainingPipeline_FINAL

ただしGoogleによると、このようなシステムがあるからといって、機械学習モデルのプロダクションへの実装工程が速くなるわけではない。デベロッパーはしかし、アーキテクチャやAPIの安定性を維持しながら、ほかのアルゴリズムやモデルを試すことができる。さらにまた、デベロッパーがそのモデルをアップデートしたり、出力が新しい入力データによって変わったりしても、アーキテクチャの安定性は維持される。

TensorFlow Servingは、Go言語ではなくC++で書かれている。そのソフトウェアはパフォーマンスの向上のために最適化されており、同社によると、16コアのXeon機上で1コアあたり毎秒10万以上のクェリを処理できる。

TensorFlow Servingのコードとチュートリアル類は、Apache 2.0のライセンスによりGitHubで入手できる。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa