音声認識を手にしたAIが作り出す素晴らしい未来


編集部注記: Tim TuttleはExpect LabsのCEOである。

SF映画は何十年もの間、人が友人や家族と話すような自然さで機械と会話をする様子を描いてきた。しかし、今の現実世界において機械に声で意思を伝えるのはストレスの溜まることでしかない。Siriは頻繁に「メールを開いて」と「ケールを探して」を間違える。しかしこの状況は変わりつつある。最近、モバイルでSiriやGoolge Nowに音声で何かを依頼をすると、正確に言葉を聞き取り、依頼を遅滞なく実行できるようになってきた。上手くいくと純粋に驚く。機械による音声認識はとても良くなってきているのだ。将来的には音声認識の精度は向上し、それにより私たちのコンピューター端末への接し方は完全に変わることだろう。次の数年内に起きるだろう音声と会話認識の進化はエキサイティングなものになる。いくつか注目すべき動向について紹介する。

音声認識が飛躍的に向上する。 これまでの音声認識に私たちは何度もがっかりさせられてきた。しかし最近になって重要な技術の発展が相次ぎ、音声認識を格段に進化させる突破口が開かれた。ここ18ヶ月の間に一般的な会話の認識が30%向上するという劇的な進化が見られたのだ。過去15年間の実績を足し合わせたとしても、この数字には及ばないと言えば分かりやすいだろう。この進化はディープラーニングのアプローチと大量のデータとの融合によって得られた。

ディープラーニングは、画像解析、会話認識、言語分析などのタスクを正確に処理するシステムを構築するために使用されるツールである。この分野を牽引している企業の多くは顧客が利用できるようなプラットフォームをまだ提供していない。この分野の代表的な企業には、DeepMindやVicariousがある。ディープラーニングを基軸とするAPIを提供する企業もいくつかある。Alchemy APIも画像と言語分析においてディープラーニングを使用する企業の一社だ。

解析できる音声データが増える程、音声認識の正確性は増していく。これは、「AIにおける好循環 」と知られている。つまり、人々が音声によるインターフェイスの利用が増えるほどデータの数は膨らんでいく。大量のデータが集まれば、最適なアルゴリズムを見つけることができ、音声認識の正確性は劇的に向上する。

人工知能による音声アシスタントは、Siri、Cortana、Google Nowに留まらない。 私たちが様々な形や大きさのコンピューター端末に囲まれた生活を送るほど、音声による操作、あるいは端末に触ったり、ジェスチャーをしたりするといった自然な方法でそれらを操作するようになるだろう。知能の高い音声認識のインターフェイスを開発するのは大変複雑な仕事であり、これまではApple、Google、Microsoftのような大企業の開発チームでしか行うことができなかった。しかし今日では、規模は小さいが、MindMeldのようにクラウドベースのAPIを提供する企業が増えてきた。これにより、開発者は最先端の自然言語処理を習得していなくても、音声認識インターフェイスをどのようなアプリやウェブサイトにも導入することが可能となった。

この分野は人工知能の研究開発においても最も複雑である為、参入している企業は多くない。コンシューマー側では、Google、Apple、Microsoft、Baidu、Amazonなどの企業がインターネット全体における音声検索を向上させる為に多額の投資を行っている。しかし音声検索技術の開発に何億円もの投資を行わなくても、クラウドベースのサービスを活用することで人口知能による音声機能を構築することができる。音声操作機能をアプリに実装できるクラウドベースのAPIを提供している企業には、筆者が立ち上げたExpect LabsやWit.aiや api.aiなどがある。SiriのファウンダーはVivという名のプロダクトに取り組んでいるが、まだローンチされていない為、それが興隆する次世代音声アプリと関連しているかはまだ明確には分からない。

Star Trekに登場するもののように、コンピューターはいつでも聞き耳を立てるようになる。機械は既に人間より、見たり、物を認識したり、聞いたり、音を拾うことに優れている。近いうちに意味も今より理解することができるようになるだろう。コンピューターが常に「聞いている」世界はどのような世界だろうか。その世界では、確実に私たちのデバイスとの関わり方も変わっているはずだ。会議室、車内、ウェアラブルデバイスは、常に私たちの会話を聞き、私たちが必要とする物を理解できるのが当たり前のことになっているだろう。私たちは、どこにいようと、どんな時にでも、常に必要な情報を得たいと思っている。その為、この世界が実現することは必然なのだ。今は荒唐無稽に聞こえるかもしれないが、そう遠くない未来には様々なアプリに人工知能を有する音声認識のインターフェイスが導入される。現時点では、家の情報をインターネットで繋げる事業に投資しているSamsungやComcastといった企業が市場を牽引している。更には他のテクノロジー企業、例えば、AmazonのEchoやJiboもこの市場の可能性について探っている所だ。

開発者は、全般的な人工知能の実現がぐっと近づく。 人工知能が人間の知識を幅広く得るほど、私たちの質問に対して最適な回答を導き出すことができるようになる。最終的に機械学習技術は、コンピューターサイエンティストたちが、人類の知識の大部分を理解する「総合人工知能アシスタント」を開発するのに活用されることだろう。人類の知識は奥深いものではあるが、無限に広がっているものではない。研究者によると10億から50億程度のコンセプトや「エンティティ」のコーパスを持って、実用的な人類の知識をほぼ網羅することができると推測している。ディープラーニングが進化し、インターネット規模の巨大なデータからパターンを抽出する技術が磨かれるほど、人工知能の研究者は、総合人工知能の実現に一歩近づくこととなる。

2015年より先のこと。人工知能が優秀になっても人類の文明が破壊されることはない、、当分の間は。 人工知能については、破滅的なことを引き起こすのではないかという懸念が多くある。SF映画を良く見る人なら、人工知能が引き起こす危険をいくらでも思い浮かべることができるだろう。例えば、自動で核兵器を発射させたり、自動運転中にリブートを停止させたり、あるいは全ての問題の根源は人類にあるという結論に達し、人類を滅ぼそうと画策するといったことだ。このようなディストピア的発想が現実になる日は遠い。今日の人工知能のシステムが自己を認識できるようになるのは遠い未来の話であり、電源を落とさなければならない状況を想定するのに意味はない。ハリウッド映画が予見する脅威が現実的なものになり、人類が真剣にこの問題と向き合わなければならないのは何十年も先のことだ。それまでは進化し続ける人工知能から利益を享受することができるだろう。

人類がロボットに支配されない為にはどうすれば良いか。 ロボットとの共生は不可避で、抵抗することに意味はなくなるのかもしれないが、そもそもこのような想像に対して建設的な解決法が必要になるのはずっと先のことだと強調しておく。次の15年間で人ができる様々なタスクをコンピューターは格段に上手く行えるようにはなる。例えば、画像や映像、言語を理解することと質問に答えることなどだ。このようなことができても、コンピューターがその先人間の脳と匹敵するような高次元の知能を獲得できる確証はない。中には理論上は可能であるとする人もいるが、現時点ではやはりそれは仮説でしかない。 次の十年で高次元の知能を保有するコンピューターが出現したのなら、ロボットによる世界の終焉を防ぐ方法について考える必要は出てくるだろう。#Robopocalypse (ロボット黙示録)

[原文へ]

(翻訳:Nozomi Okuma / facebook


投稿者:

TechCrunch Japan

TechCrunchは2005年にシリコンバレーでスタートし、スタートアップ企業の紹介やインターネットの新しいプロダクトのレビュー、そして業界の重要なニュースを扱うテクノロジーメディアとして成長してきました。現在、米国を始め、欧州、アジア地域のテクノロジー業界の話題をカバーしています。そして、米国では2010年9月に世界的なオンラインメディア企業のAOLの傘下となりその運営が続けられています。 日本では2006年6月から翻訳版となるTechCrunch Japanが産声を上げてスタートしています。その後、日本でのオリジナル記事の投稿やイベントなどを開催しています。なお、TechCrunch Japanも2011年4月1日より米国と同様に米AOLの日本法人AOLオンライン・ジャパンにより運営されています。