マイクロソフトがニュージーランド政府と協力し機械翻訳にマオリ語を加える

機械翻訳が便利なことは誰でもわかるし、誰でも体験できる。しかし、この実用アプリケーションは、テクノロジーがもたらす価値のほんの一部にすぎない。Microsoft(マイクロソフト)とニュージーランド政府は、マオリ語を保存し、できればそれに新しい命を吹き込むために、機械翻訳が役に立つことを示そうとしている。

Te reo Māori(テ・レオ・マーオリ、マオリ語)は、ニュージーランド最大の原住民コミュニティの言語だ。しかしどこでもそうだが、マオリも何世代にもわたって植民者の優勢な文化に同化していくにつれて、言葉も次第に忘れ去られようとしている。

マオリ族は人口の約15%を占めるが、マオリ語を話すのはその4分の1にすぎない。ニュージーランドの全人口の3%だ。国はマオリ語の教育を幅広く推進してこの傾向を逆転し、その適切な保存のための策を講じようとしている。

マイクロソフトとニュージーランドのマオリ語委員会であるTe Taura Whiri i te Reo Māoriが数年間協力して、同社のソフトウェアにこの消え行く言語が含まれるよう努めている。このパートナーシップの最新のイベントが、マイクロソフトの翻訳サービスへのマオリ語の導入だ。このサービスがサポートしているそのほかの60の言語とマオリ語との間で、互いに自動的な翻訳ができる。

自動翻訳は、コンテンツや仕事の理解を助け、また埋もれていたドキュメントを探究できるようにするから、インクルージョンと教育のための強力な力になる。

精確な翻訳モデルの作成は、どの言語でも難しい。そしてその鍵は、互いに比較できるコーパスをたくさん用意することだ。そこで開発の重要な、そして委員会が助けになる部分は、コーパスを集めて質のチェックを行い、正しい翻訳ができるようにすることだ。しかし、その言葉がわかる人が少ないと、フランス語とドイツ語の翻訳サービスを作ることなどに比べて作業はより困難になる。

この事業におけるマオリ語話者の一人、ワイカト大学(University of Waikato)のTe Taka Keegan(キーガン)氏は、マイクロソフトのブログ記事で以下のようにコメントしている。

このマオリ語ツールの開発は、長年共通の目標に向けて尽力した多くの人々なくしては不可能だったでしょう。私たちの仕事によって、ニュージーランドの未来の世代のためにマオリ語の再活性化と正規化がもたらされるだけでなく、マオリ語が世界中で共有され学ばれ、価値を認められるようになることを望みます。私たちが用いるテクノロジーが私たちの文化の伝統を反映強化し、そして言葉がその心になることが、極めて重要です。

今は世界の各地で、死にゆく言語が増えている。それをすべて防ぐことはできないにしても、テクノロジーがそれらの記録と使用を助けて、どんどん数が減っている現用言語と共存させていくことは可能だ。マオリ語翻訳事業は、マイクロソフトのAI for Cultural Heritage(文化の継承のためのAI)事業の一環だ。

画像クレジット: Microsoft

[原文へ]

(翻訳:iwatani、a.k.a. hiwa

Googleの翻訳結果が‘字義通りだけど無意味’なので警官の捜索が憲法違反に

外国語の機械翻訳がとても便利であることは確かだが、どこかへの行き方やおすすめのランチ以上の話題になると、その浅さが現実的な障害になる。そしてそれが、法律や基本的人権の問題になると、“まあまあの翻訳”では役に立たない、とある判事が裁定した。

その判決(PDF)にそれほど重大な意味があるわけではないが、翻訳アプリは今や法曹の世界でも使われ始めているので、その今後の正しい進化のためにも、気にする必要があるだろう。今は幸いにも多言語社会になっているが、しかし現在および短期的な未来においては、異なる言語間の橋渡しがどうしても必要だろう。

その裁判では、Omar Cruz-Zamoraという名前のメキシコ人がカンサス州で警官に、道路脇への停車を命じられた。警官たちが彼の同意のもとに車の中を調べると、大量の覚醒剤やコカインが見つかり、当然ながら彼は逮捕された。

でも、ここからが問題だ。Cruz-Zamoraは英語が話せなかったので、車の中を捜索する同意はGoogle Translateを介する会話によって得られた。法廷は、その会話が十分に正確ではないので、“当事者の自発的かつ了解のもとに”得られた同意を構成しない、と見なした。

アメリカの憲法修正第4条は、不合理な捜索や押収を禁じている。そして正当な理由がない場合公務員は、Cruz-Zamoraが、車内の捜索を断ってもよいことを理解していることを必要とする。会話からは、その理解が明確でなく、一貫して両者は、相手の言っていることの正しい理解に失敗している。

それだけでなく、アプリが提供した翻訳は、質問を十分に正しく伝えていない。たとえば警官は英語から翻訳されたスペイン語で“¿Puedo buscar el auto?”、と質問している。その文字通りの意味は、“車を見つけてもよいですか”に近く、“車を捜索してもよいですか”にはならない。Cruz-Zamoraがその“字義通りだが無意味な”(←裁判長の言葉)翻訳結果から、車の捜索に同意するかという本当の質問を類推できた、という証拠はない。彼自身に選択の権利があることすら、理解しなかったかもしれない。

同意が無効なので車の捜索は憲法違反となり、Cruz-Zamoraの告訴は取り下げられた。

Google Translateなどのアプリでは同意が不可能、という意味ではない。たとえばCruz-Zamoraが自分でトランクやドアを開けて捜索をさせたら、それはたぶん同意を構成しただろう。しかし、アプリを使った対話が正確でないことは、明らかである。これは、英語の話せない人を助けたり調べるためにパトロールしている警官だけの問題ではなく、法廷の問題でもある。

機械翻訳サービスのプロバイダーは、その翻訳がほとんどの場合に正確だ、数年後にはとても難しい場合をのぞき人間翻訳者をリプレースする、とわれわれに信じさせようとしているかもしれない。しかし今回の例が示すのは、機械翻訳がもっともベーシックなテストに失敗することもありえる、ということだ。その可能性があるかぎり、私たちは健全な懐疑主義を持ち続けるべきだろう。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa

ディープラーニングシステムの主要要素(モデルなど)の再現や入れ替えを容易にして研究を促進するGoogleのTensor2Tensorが一般公開

Googleは、研究者たちがディープラーニングに関する研究開発結果の再現を容易にできるためのオープンソースのライブラリTensor2Tensorリリースした。これにより、モデルやデータセットやそのほかのパラメータの新しい組み合わせを誰もが手早く試行でき、ディープラーニングシステムの能力の拡大に貢献できる。AIの研究では変数(変項)の数が膨大で、しかも新しい開発が次から次と登場してくるため、たとえば二つの異なるセットアップを比較する、といったことが簡単にはできなかった。そのことが研究者たちの悩みであり、研究の進歩の足を引っ張っていた。

Tensor2Tensorライブラリは、AIの研究におけるベストプラクティスの保存、伝播、改良などを容易にする。それはハイパーパラメータ、データセット、モデルのアーキテクチャ、学習レートの減衰方式などの、重要な要素を装備している。

このライブラリのいちばんありがたいところは、こういった要素を個々にモジュール的に入れ替えられることであり、従来のような全取っ替えは必要ない。モデルの教育訓練では、新しいモデルやデータセットを任意に持ち込めるので、従来のように何もかも最初から再訓練という手間はなくなる。

研究ツールの外部一般公開では、Facebookも最近ParlAIをオープンソースにした。それは、よく使われるデータセットをあらかじめパッケージして、ダイアローグ(ユーザーとアプリケーションの対話的トランザクション)の研究の便宜を図るツールだ。

それと似てGoogleのTensor2Tensorにも、同社の最近の研究プロジェクト“Attention Is All You Need”や“One Model to Learn Them All”などで使われたモデルが含まれている。公開はGitHub上で行われているので、一般研究者の利用も迅速簡便にできる。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa))