マイクロソフトがニュージーランド政府と協力し機械翻訳にマオリ語を加える

機械翻訳が便利なことは誰でもわかるし、誰でも体験できる。しかし、この実用アプリケーションは、テクノロジーがもたらす価値のほんの一部にすぎない。Microsoft(マイクロソフト)とニュージーランド政府は、マオリ語を保存し、できればそれに新しい命を吹き込むために、機械翻訳が役に立つことを示そうとしている。

Te reo Māori(テ・レオ・マーオリ、マオリ語)は、ニュージーランド最大の原住民コミュニティの言語だ。しかしどこでもそうだが、マオリも何世代にもわたって植民者の優勢な文化に同化していくにつれて、言葉も次第に忘れ去られようとしている。

マオリ族は人口の約15%を占めるが、マオリ語を話すのはその4分の1にすぎない。ニュージーランドの全人口の3%だ。国はマオリ語の教育を幅広く推進してこの傾向を逆転し、その適切な保存のための策を講じようとしている。

マイクロソフトとニュージーランドのマオリ語委員会であるTe Taura Whiri i te Reo Māoriが数年間協力して、同社のソフトウェアにこの消え行く言語が含まれるよう努めている。このパートナーシップの最新のイベントが、マイクロソフトの翻訳サービスへのマオリ語の導入だ。このサービスがサポートしているそのほかの60の言語とマオリ語との間で、互いに自動的な翻訳ができる。

自動翻訳は、コンテンツや仕事の理解を助け、また埋もれていたドキュメントを探究できるようにするから、インクルージョンと教育のための強力な力になる。

精確な翻訳モデルの作成は、どの言語でも難しい。そしてその鍵は、互いに比較できるコーパスをたくさん用意することだ。そこで開発の重要な、そして委員会が助けになる部分は、コーパスを集めて質のチェックを行い、正しい翻訳ができるようにすることだ。しかし、その言葉がわかる人が少ないと、フランス語とドイツ語の翻訳サービスを作ることなどに比べて作業はより困難になる。

この事業におけるマオリ語話者の一人、ワイカト大学(University of Waikato)のTe Taka Keegan(キーガン)氏は、マイクロソフトのブログ記事で以下のようにコメントしている。

このマオリ語ツールの開発は、長年共通の目標に向けて尽力した多くの人々なくしては不可能だったでしょう。私たちの仕事によって、ニュージーランドの未来の世代のためにマオリ語の再活性化と正規化がもたらされるだけでなく、マオリ語が世界中で共有され学ばれ、価値を認められるようになることを望みます。私たちが用いるテクノロジーが私たちの文化の伝統を反映強化し、そして言葉がその心になることが、極めて重要です。

今は世界の各地で、死にゆく言語が増えている。それをすべて防ぐことはできないにしても、テクノロジーがそれらの記録と使用を助けて、どんどん数が減っている現用言語と共存させていくことは可能だ。マオリ語翻訳事業は、マイクロソフトのAI for Cultural Heritage(文化の継承のためのAI)事業の一環だ。

画像クレジット: Microsoft

[原文へ]

(翻訳:iwatani、a.k.a. hiwa

英文のメールやメッセージの語調をチェックしてくれるGrammarlyのトーンデテクター

数カ月前から、文法チェッカーのGrammarly(グラマリー)は、そのコアである文法やスペルのチェックツールを超えて、そのほかの機能、例えば文章の明瞭度チェックなどを加えてきた。米国時間9月24日、その傾向をさらに拡大して、文章の語調(怒り、友好、冷淡、親切などのトーン)をチェックするトーンデテクター(Tone Detector)をローンチした。自分はこんな気持ちを込めたつもりだけど、本当に込もっているだろうか。フレンドリーで気さくな人と思われたいんだけど、非礼になったら困るなとか。

同社によると、そのトーンデテクターは、既存のルールと、テキストのトーン(語調)に貢献しているシグナルを探す機械学習のアルゴリズムを使っている。

全体としてこれはかなり便利な機能のようだ。これから書いて送るメールのトーンがとても重要というときには特に役に立つだろう。私が知ってるある立派な人物は、いつもメールのトーンだけがおかしくて、毎回私が彼の犬をいじめて叱られているようなメールを送ってくるのだ。そこで彼が40種類のトーンをサポートしているこのツールを使ってくれれば、きっと役に立つだろう。主なトーンは、「感謝している」「確信している」「儀礼的である」「くだけている」「思慮深い」「愛がある」「悲しい」などだ。書いてるメールが120文字を超えたら、この機能が自動的に働く。

Grammarly Tone Detector Example 2

トーンデテクターのベータバージョンはGrammarlyのChromeエクステンションで利用できるが、SafariとFirefoxも近くサポートされる。対応しているメーラーはGmailやYahooなどメジャーなメールサービスのみだが、もうすぐ、どんなテキスト欄(テキストフィールド)でも使えるようになる。

2019 09 24 0909

関連記事:文法チェックのGrammarlyが文法以外の提案もするアシスタントに

[原文へ]

(翻訳:iwatani、a.k.a. hiwa

今や人生の教科書は漫画だ、外国語も漫画で勉強できるはず、と信じたLingoZING

unnamed-1

まさにぼくなんか、外国語を勉強するためのものなら、何でも手を出す方だ。外国語の授業には何年も出たし、最新のアプリはすべてダウンロード、挙句の果てにeBayでMuzzyのテープ(今ならDVDか)まで1〜2本買った。これらの中ではとくに、最後のやつが、ひどかったね。

LingoZINGは、わざとこんなアホな名前をつけてるようだが、漫画(アメコミ)サイトComixologyと言語学習サイトDuolingoを合わせたような、というか両者の良いとこ取りをしたようなサービスで、漫画のページの上で外国語を勉強する。そう、いつの時代にも子どもたちは、人生最初の外国語の勉強を、シーケンシャルなアート(ストーリー漫画)で体験する。なぜならば、今や白鯨(Moby Dick)のストーリーが漫画で分かるなら、新しい言語だって当然分かるに決まっている。

このサイトの完成度はまだ低いが、今後はBoom, Top Cow, Imageなどトップクラスの漫画出版社とパートナーしていくそうだから、これからが楽しみだ。

原理は単純明快で、吹き出しを二つの言語で切り替えて、そのたびに大きな音声でそれらを読み上げる。読者の発音は、音声認識機能が評価する。その声を録音できるから、SNSで共有して、本物っぽい外国語の発音を友だちに自慢することもできるだろう。

ローンチの時点では漫画は6本、内3つはオリジナルの言語が英語で、残る3つはフランス語だ。そしてどれにも、英語バージョン、フランス語バージョン、ブラジルポルトガル語バージョンがある。今やってるクラウドファンディングキャンペーンが成功したら、コンテンツはもっと増やせるそうだ。アプリの最終バージョンはAndroidとiOS版が2月に出る。次に予定している言語は、スペイン語と標準中国語だ。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa))

MicrosoftのConcept Graphは言葉や文から概念をつかみ、コンピューターに常識を持たせる

information coming out of a smart phone

今日(米国時間11/1)はMicrosoft Researchが、自然言語処理における“知識”という問題の、解へ向かう努力の一環を公開した。同社によると、言葉に対する人間の理解とコンピューターの理解を分かつ最大の要因が、背景的知識とその正しい活用方法の有無だ、という。

Microsoftがこれまで年月をかけて開発してきた知識データベースProbaseが、今度一般公開されるMicrosoft Concept Graphのベースになっている。Probaseは540万の概念を擁し、12万の概念を擁するCycなど、他の知識データベースを圧している。

Microsoft Research's distribution of concepts in the Concept Graph.

Microsoft ResearchのConcept Graphにおける概念の分布

情報が上図のようにすべて結び付けられ、それが、確率付きの解釈と共にテキストの分析を支える。複数の解釈を確率により排除していくやり方は、人間が、「これはないな、あれはないな」と素早く排除しながら自分の結論に達するやり方と、非常によく似ている。

たとえば私が“the man ran from the stranger with the knife”と言えば、あなたなら、男が武装した見知らぬ人から走って逃げている、と解釈するだろう。でもこの文には、男がナイフを手に持って見知らぬ人から走って逃げている、解釈もありうる。しかしながら、(1)〜〜から走って逃げる、は恐怖を含意し、(2)ナイフは恐怖に結びついている、という知識(カテゴリー知識)があれば、あなたの最初の、もっとも単純でストレートな解釈が、いちばん優勢(高確率)になるだろう。それが間違っていた可能性も、あるにはあるけど。

MicrosoftのConcept Tagging Model(概念にタグ付けする方式)は、このことを利用して、テキストのカテゴリーをそれと同じ確率の考えに結びつける。上の例では、ナイフは家庭用品や武器も指すが、しかし文脈としては武器である確率が高く、博物館から盗まれた17世紀のバターナイフではないだろう。

家庭用品や武器は、比較的よくあるカテゴリーだが、博物館の美術工芸品はかなりロングテールだ。Microsoftの大規模なモデルでは、確率の高いものと、極端にありえないものの両方を検討し、その際、属性や下位の文脈、関係などを考慮に入れていく。

今日リリースされたバージョンは、入力されたテキストのありうるカテゴリーのランク(確率ランク)を作る。Microsoftのそういう、初等レベルの概念化能力は、MI, PMI, PMIk, 典型性(Typicality)など他の方法とともに、選好ランクの生成や、適切なカテゴリー付けに利用されるだろう。

今後のバージョンは、彼らの言う“単一インスタンスの文脈付き概念化”の能力を持つだろう。それは、“見知らぬ人”と“ナイフ”を結びつけて、意味を示す。さらに将来的には、チームは“短文の概念化”能力を実現したい、と考えている。それにより、検索や広告やAIにおいて、アプリケーションの視界をさらに拡大するだろう。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa))

IM中、相手が返信するまでの「空き時間」で単語を学習するWaitChatter

waitchatter

オンラインコミュニケーションの機会は質・量ともに拡大している。しかし、それがために無駄にする時間も増えているのではないかと考える人がいるようだ。すなわち、IMのウィンドウを見ながら無為に過ごす時間が増えているのではないかという意見だ。そして、そういう問題を解決しようとするアプリケーションも生まれてきた。WaitChatterというもので、IM画面前でスタンバイしている時間を、スキル取得のための有効な時間に変えてしまおうというプロダクトだ。Google Chatの利用中、相手が返信してくるまでの空き時間で外国語の単語を覚えることができる。

このアプリケーションはMITのComputer Science and Artificial Intelligence Labの研究から生まれたものだ。調査によるとIMを利用する人は平均して10分ないし15分をアプリケーションの前で無駄に過ごしているのだそうだ。この無駄な時間をボキャブラリービルディングの時間に使おうと考えて作られたわけだ。このWaitChatterは、今のところGoogle Chat(Hangoutsに移行してしまった人は、Google Chatに戻す必要がある。但しこの作業は簡単に行うことができる)用のエクステンションとして提供されている。チャットウィンドウ内に学習用のコンテンツが表示されるようになっている。。

単語学習アプリケーションは数々あれど、意識的に学習時間を作って利用するのは精神的な負担にもなるものだ。空き時間を活用しつつ、そして精神的な負担もなくして学習に役立てようというのが狙いだ。

先行テストの段階では、予め用意された単語リストや、IM中で利用された用語から1日に4つほどの単語が表示させるようになっていたとのこと(訳注:正式リリース版はプライバシーの観点から、チャットメッセージから単語を取得するようなことはしていないようです)。このような方法で外国語がマスターできたり、あるいはネイティブになれたりするわけではない。しかし単語を覚える程度のことにならば、ちょっとした空き時間も有効に活用できるというわけだ。

このWaitChatterを産みだしたリサーチチームは、チャットの場合のみならずメールの読み込み時や、あるいは実生活においてタクシー待ちをしている場合のような「空き時間」を有効に活用する方法を模索しているところだとのこと。

ところでWaitChatterは今のところ、Google Translateが対応しているアルファベット言語に対応している。今後はまず、SkypeやFacebook Messengerなどの他IMプラットフォームにも対応していきたい考えなのだそうだ。

原文へ

(翻訳:Maeda, H