インドには6億人以上のインターネットユーザーがいるが、英語が堪能な人はごく一部に過ぎない。しかし現在、ほとんどのオンラインサービスやウェブ上のコンテンツの多くは、英語のみで提供されている。
この言語の壁は、世界第2位のインターネット市場におけるデジタルデバイドを広げ続けていて、そのせいで何億人ものユーザーのワールドワイドウェブの利用が、一部のウェブサイトやサービスに限られている。
そのため、インドのような新興市場の継続的成長を期待している米国のハイテク企業たちが、ウェブとそのサービスをより多くの人が利用できるようにしようとしているのは当然のことだ。
それを示す好例の1つが、Google(グーグル)が提供している、ウェブページの内容を英語からインドの各種言語に素早く翻訳する機能だ。これはインドのユーザーにこの1年で170億回以上利用されている。
これまでこの取り組みを主導してきたグーグルが、このインド時間12月17日に、新たな取り組みの一部を発表した。インドをユーザー数で最大の市場と捉え、2020年、今後数年間で100億ドル(約1兆円)以上のインド国内投資を行うことを約束した同社は、インドのグーグルの研究センターで機械学習とAIの取り組みにさらに投資し、エコシステム全体から同社のAIモデルを誰もが利用できるようにする計画だと述べた。また同社は 現地語でユーザーにサービスを行っている地元のスタートアップたちと協力し、インドの言語を使うユーザーたちが、グーグル製品とサービスから受ける体験を「劇的に」向上させようとしている。
そうした体験の向上に向けて、同社が今回発表したのは、いくつかのサービスでより多くの現地語展開を行うための変更と、言語の翻訳に向けて同社が採用するまったく新しいアプローチだ。
製品の変更
ユーザーは、現在利用可能な英語とヒンディー語に加え、タミル語、テルグ語、バングラ語、マラーティー語でも検索結果を見ることができるようになる。今回の追加は、グーグルがインドの検索ページにヒンディー語のタブを追加してから4年後に行われた。同社によれば、そのタブの導入後、ヒンディー語での検索クエリの量は10倍以上に増加したという。たとえばクエリ結果をタミル語で表示したい人がいた場合には、英語の隣にタミル語のタブを置き、その2つをすばやく切り替えることができるようになる。
検索結果を現地の言語で得ることは便利だが、多くの場合、人びとは検索そのものもその言語で行いたいと考えている。グーグルは、英語以外の言語でのタイピングが、現在ユーザーが直面しているもう1つの課題であることを発見したと述べている。「その結果、多くのユーザーは、本当は自分が理解できる現地の言語で結果を見たいと思っていても、英語を使って検索しているのです」と同社はいう。
この問題に対処するため、検索時に現地語のクエリが英語で入力されたとしても、可能な場合には、サポートされているインドの言語で関連するコンテンツが表示されるようになる。同社が2020年1月中に展開する予定のこの機能は、ヒンディー語、バングラ語、マラーティー語、タミル語、テルグ語のインドの5つの言語をサポートしている。
また、グーグルはデバイスの言語設定を変更することなく、ユーザーがアプリで結果を表示する優先言語をすばやく変更できるようにもしている。現在Discover(ディスカバー)とGoogle Assistant(グーグル・アシスタント)で利用可能なこの機能が、さらにGoogleマップでもロールアウトされる。Googleマップはインドの9つの言語をサポートしている。
また、ユーザーが数学や科学の問題の写真を撮影すると、解答とそこに至る道筋を説明してくれるGoogleレンズの「宿題」機能は、ヒンディー語をサポートするようになった。Google IndiaのシニアプロダクトマネージャーであるNidhi Gupta(ニディグプタ)氏は、イベントでインドはGoogleレンズにとって最大の市場だと述べている。
コンサルティング企業Convergence CatalystのチーフアナリストであるJayanth Kolla(ジャヤンス・コラ)氏は、Googleレンズの新機能は、似たような領域で活動する(Sequoia Capitalが支援する)Doubtnut (未訳記事)のようなインドのスタートアップに、脅威をもたらす可能性があるという。
MuRIL
またグーグルの幹部は、音訳やスペルの違い、混合言語や言語のニュアンスを処理する際に、より効率的で正確な処理を実現する新しい言語AIモデル「Multilingual Representations for Indian Languages」(MuRIL、インドの言語のための多言語表現方式)について詳細な説明を行った。MuRILはローマ字スクリプトを使用してヒンディー語を書く際の、音訳テキストをサポートしている。この機能は以前のモデルでは欠けていたものだったと、インド時間12月17日の仮想イベントでGoogle Research Indiaの研究員であるPartha Talukdar(パツ・タクタル)氏は述べている。
同社によると、新しいモデルの学習はWikipediaの記事とCommon Crawl(コモン・クロール)と呼ばれるデータセットのテキストを使って行われたという。また、様々なソースの中から特にWikipediaからの音訳テキスト(グーグルの既存のニューラル機械翻訳モデルを利用している)を用いて訓練が行われた。その結果、MuRILは以前のより一般的な言語モデルよりも、インドの言語の扱いが改善され、音訳された文字や単語を取り扱うことができるようになった。すなわち、異なる文字体系や手書き文字に対して最も近い対応する文字を、グーグルは使うようになったのだ。
タクタル氏は、グーグルが依存していた以前のモデルでは、各言語のモデルを個別に構築しなければならなかったため、スケーラブルではないことが判明したと指摘した。「そのような言語に特化したモデリングを、個々のタスクごとに行うことは、そうしたタスク用のトレーニングデータを持っていないことが多いため、リソース効率が悪いのです」と彼はいう。MuRILは、以前のモデルを大幅に上回る結果を出しているが、ネイティブテキストでは10%、音訳テキストでは27%の改善が達成されている。インドのグーグルが開発し、約1年前から利用されていたMuRILは今回オープンソース化された。
MuRILが得意とする多くのタスクの1つに、文章に込められた感情を判断することがある。たとえば「Achha hua account bandh nahi hua」は以前は否定的な意味を持っていると解釈されていたが、MuRILはこれを正しく肯定的な文として識別する、とタクタル氏は述べた。あるいは、人と場所を区別する能力をみてみるならば、「Shirdi ke sai baba」は以前は場所として(誤って)解釈されていたが、MuRILはそれを正しく人間のことだと判断するという。
関連記事:グーグルが世界最後の成長マーケットであるインドに1兆円超を投資
カテゴリー:ネットサービス
タグ:Google、インド
画像クレジット:Sanjeev Verma / Hindustan Times / Getty Images
[原文へ]
(翻訳:sako)