マイクロソフトの音声認識技術、「人間並み」に到達

whisper

マイクロソフトリサーチ(Microsoft Research)にとっては、おめでたい日となったことだろう。研究を続けてきた音声認識技術が、ついに人間レベルに到達したのだ。

具体的にいうならば単語誤り率(word error rate)が5.9%となったのだ。これはプロの口述筆記者と同じレベルとなる。すべてを完璧に聞き取るわけではないが、94%の正確性があれば、十分に会話についていくことができるのだ。

「これは20年間続けてきた研究の賜物です」と研究社のひとりであるGeoffrey Zweigはブログ記事の中で述べている。

The team at Microsoft's Speech & Dialog research group.

マイクロソフトのSpeech & Dialog研究グループ

音声認識の分野では、この10年間にわたって多くの技術系の大手企業や研究機関が競い合ってきた。ここ数年は、その実力も大いに向上してきているところだった。そして音声認識に(ご想像通り)ニューラルネットワークと機械学習の技術を組み合わせることで、新たな段階に達することとなったのだ。

「進化をもたらしたのは慎重なエンジニアリングと、Convolutional(畳み込み)とRecurrent(再帰)ニューラルネットワークの最適化である」と論文の中に記されている。「音響モデル(acoustic models)を進化させて、音響コンテクスト(acoustic context)の理解につなげることができたのです」。

認識システムの構築には、マイクロソフトがオープンソースで提供しているComputational Network Toolkitを利用しており、これが存分にその能力を発揮しているのだそうだ。

もちろん、5.9%という単語誤り率は最適な環境で実現されたものだ。ノイズの多い環境などでは、その性能は大きくおちることとなる。またアクセントの変化にも十分に対応することができないようだ。しかし、たとえばアクセントへの対応などは、トレーニング用のデータセットをニューラルネットワークに組み込むことで、比較的容易に対応することができるだろうとのこと。

マイクロソフトリサーチの研究社の方々にはおめでとうを伝えたい。しかしここがゴールというわけではないのだろう。コンピューターは、いくつかの分野では既に人間を上回る能力を示しつつある。きっと音声認識についても同様な成果を達成することとなるのだろう。ちなみに、大きく進化した音声認識ぎじゅつがコンシューマープロダクトに活かされる時期などについては、いまのところはまだ不明であるそうだ。

原文へ

(翻訳:Maeda, H

ゲームを完全にクラウド化しても遅延が生じないネットワーキング技術”DeLorean”をMicrosoft Researchが発表

ゲームの未来を考えるとき、たぶんいちばん魅力的で夢のようななコンセプトが、“ゲームのNetflix”だろう。それはすでに、OnLiveの早くからの取り組みや、Sonyの出したてほやほやのPlayStation Nowなど、いくつかの形で実現している。

ゲームをサーバの大きなクラスタから提供することには、自分のコンソールやPCでゲームをすることにないメリットがいくつかある。ストリーミングビデオでHDのゲームをプレイできるデバイスならどんなデバイスでも使えるし、コンソールのハードウェアを買い換えることに比べるとクラウドの技術的な改良に期待する方が簡単だから、グラフィクスなどが早く着実に良くなる。それに、20GBのゲームをダウンロードすることに比べると、ゲームをすぐにプレイできる。

Microsoftはストリーミングゲームの提供に関してまだSonyほどのプラットホームを築いてはいないが、すでに関心は示している。4月にMicrosoftはデベロッパたちに、TitanfallのようなXboxの超大作ゲームがクラウドプラットホームAzureを利用して、全体的なパフォーマンスを落とすことなくより高度なAIや物理演算を実現しているところをデモした。

昨日(米国時間8/21)Microsoft Researchが発表した報告書は、同社はその高度なクラウド技術を活用して将来的に独自のゲームプラットホームを作りたい、とりあえずその方式を模索したい、と述べている。そこに具体的な名前として登場している“推論型実行エンジン”*DeLoreanは、MicrosoftのAzureサーバとプレーヤーのデバイスとのあいだに、ネットワークの遅延を招く複数の要因がどれだけ多層的に存在しても、見かけ的に遅延のないゲームプレイを提供する仕組みだ。〔*: “speculative execution engine”〕

報告書はその結論部分で、この調査に加わったユーザの多くが、高速アクションの多いDoom 3Fable 3をプレーして、ローカルシステム上と、DeLoreanを250ミリ秒の遅延に設定したクラウドからのゲームの、違いを判別できなかった、と述べている。それが事実なら画期的だ。250ミリ秒もの遅延があれば、これまでならどんなゲーマーでも、いらだってコントローラを投げつけていただろう。

Microsoft Researchは、何をどうやったのか? DeLoreanを理解する鍵は、“推論型(speculative)”という言葉にある。ビデオゲームはユーザのアクションによって次に起きることが多様であり、事前にそれらを決められないから、YouTubeやNetflixのビデオのようにバッファリングができない。ぼくが自分の銃でTitanfallを撃った直後の画面が、Titanfallでなくぼくがジャンプする絵だったら、全然おかしい。でも、プレーヤーのそれまでの入力から次にありえるアクションを“推論する”ことはできる。Microsoftはプレーヤーの次の瞬間のありえるアクションをいくつか予測する方法を見つけて、それらを事前にプレーヤーのデバイスのメモリに、つまりバッファに、送り込んでいるのだ。そして実際のアクションの直後には、クラウドからでなくローカルメモリから、最適画像をレンダリングする。

ただしMicrosoftによると、この方式が有効であるためにはネットワークの帯域が、予測対応をしないおとなしいクラウドに比べて1.5倍から4.5倍ぐらい高速でなければならない。つまり、地球上のどこにいても、Xboxのストリーミングサービスで遅延のないゲームを楽しもうと思ったら、PlayStation NowやNvidiaのGridなどを使う場合よりも速い接続を必要とする。ただしそれは、PlayStation NowやGridなら遅い接続でもゲーム展開に遅延がない、という意味ではない。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa))


長くて退屈で見づらい一人称冒険ビデオを、うそのようにスムーズな早送りビデオに変換するMicrosoftのプロジェクト

ヘルメットにGoProのカメラを着けずにマウンテンバイクに乗る人や登山する人、スカイダイビングする人、スキーをする人などは、今どきあまりいない。しかし同時にまた、あなたの頭が上を向いたり下を向いたりを一時間ものあいだランダムに繰り返すビデオを、じっと座って見てくれる人も、あまりいない。そんなビデオは早送りすべきかもしれないが、そうするとそれは一層、見るに耐えない体験となる。

ところがMicrosoft Researchの最新のプロジェクトのおかげで、長くて退屈な一人称ビデオを10倍の速さで早送りしても、それはとってもスムーズなハイパーラプス(hyperlapse)になり、カメラの揺れのせいで、見ていて吐き気がしたりすることはなくなるだろう。

Johannes KopfとMichael CohenとRichard Szeliskiによるこの新しいプロジェクトは、もうすぐWindowsのアプリケーションとして提供されるそうだが、長い一人称ビデオを彼らが作った特殊なアルゴリズムで加工することにより、新しい、よりスムーズな(揺れや振動のない)カメラの動きを仮想的に作り出す。

しかしそれは、ビデオ編集ツールによくあるワープスタビライザーの高級バージョンではない。Microsoftのプロジェクトは、元のビデオの奥行き(z軸方向)マップを作り、それに基づいて各シーンを作りなおすのだ。そういう、元のビデオとは違うビューポイントから見た人工的な映像をつなぎ合わせることによって、できるかぎりスムーズなビデオをキープする。

このソフトウェアは、前後の複数のコマの画像から得た情報に基づいて、新しい、カメラがあまり揺れなかった場合の画像を人工的に作り出す。その感じはMicrosoftがPhotosynthでやってることとやや似ており、だからKopfとSzeliskiがPhotosynthも担当していたと聞けば、なるほどな、と思ってしまう。

でも、新たに人工的に作り変えられたビデオをよーく見てみると、まだアルゴリズムが完璧でないことに気づく(形状や物が昔の3Dビデオゲームのように、かなり突然現れることがある)。でもやっぱり、オリジナルと見比べれば、改造ビデオの方がずっと見るに耐えるけどね。

チームは今週カナダのバンクーバーで行われるSIGGRAPHのカンファレンスで、もうちょっと進歩したやつをプレゼンする。

下のビデオは、ビデオのシーンを作り変えるアルゴリズムの動作を解説している。もちろん、彼らの研究論文を読めば、さらに詳しく理解できるだろう。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa))