Alexa、Siri、Googleアシスタントは音楽でだませる――UCB、浙江大学等の研究者が超音波ハッキングを発表

Alexa、Siri、Googleアシスタントなどのポピュラーな音声認識アプリを超音波を使ってハッキングする方法がUCB(カリフォルニア大学バークレー校)の研究者によって発表された。超音波のコマンドを楽曲に紛れ込ませることにより、ユーザーに気づかれることなくアシスタントに特定の動作をさせることができるという。

New York Timesの報道によれば、これより前に発見されていたスマート・アシスタントを騙す方法を発展させたものだ。

昨年、プリンストン大学と中国の浙江大学の研究者は音声認識デバイスは人間には聞こえない超音波によって起動できることをデモした。 このハッキングでは最初にスマートフォンをミュートするのでユーザーはスマート・アシスタント側の返事を聞くことができない。

浙江大学の研究者によってDolphinAttackと名付けられたこの攻撃はスマートフォンに悪意あるサイトを訪問するよう命じる。このハッキングはスマートフォンの電話、カメラ、テキスト・メッセージなどを操作できる。ただし超音波の発信源が攻撃対象のデバイスに近くにある必要があるのがDolphinAttackの限界だ。しかし専門家は強力な超音波発信源が用いられる危険性を警告した。

<pこの警告は4月にイリノイ大学アーバナ・シャンペン校の研究者が7.5メートル離れたところから超音波攻撃を成功させたことで現実のものとなった。超音波は建物の壁を透過することはできなかったが、建物の外から開いている窓を通してデバイスを乗っ取ることに成功した。

今回のバークレー校の研究は悪意ある超音波コマンドを楽曲に紛れ込ませてデバイスを乗っ取るというものだ。 この攻撃では楽曲にある種のデジタルノイズが混じるが人間の耳には意味ある音声としては聞こえない。

このハッキングはまだ初期段階だが、音声アシスタントのセキュリティー全般に関してはまだほとんど研究がされていない。音声アシスタントの能力が拡大し、ユーザーがメールやテキストの送信だけでなく、ショッピングやバンキングにもアシスタントを利用するようになってきただけに、こうした攻撃の可能性は懸念を呼び起こす。

最初に考えられる防止策は、デジタル・アシスタントのメーカーがセキュリティー保持にもっと力を入れ、音声認証の精度を高めると同時に音声の本人性に疑念があるときはアシスタントの音声機能をロックダウンすることだろう。.Amazon Alexa、Googleアシスタントは両方とも音声パターンによって個人情報を特定のユーザーのみ利用できるようロックするオプションがある。AppleのiOSの場合、秘密度の高い情報の大部分はアクセス前にデバイスをアンロックしなければならない。

いちおうそうした対抗手段はあるものの、このハッキングがさらに進化すると非常に怖いことになる。メーカー側のすばやい対処とその情報の公開が強く望まれる。Google I/Oデベロッパー・カンファレンスでデモされたDuplexソフトウェアを見ても音声認識アシスタントの能力拡大に力を入れていることが見てとれる。今回Googleが発表したカメラ付きスマート・ディスプレイも音声で操作できるのでやはりこのハッキングに対象となるわけだ。潜在的攻撃対象は急速に拡大しつつある。

[原文へ]

(翻訳:滑川海彦@Facebook Google+

Apple HomePodを買うべきか迷ってる人のために

AppleのHomePodについて大量の言葉を読みたい人には、あれこれなどがおすすめだ。もちろん、苦労して稼いだお金を最初の世代の製品に350ドルも投げ出すつもりでいる方はぜひそうすべきだが、しかし長くても短くても結論は同じだ。Appleはとっても良いスピーカーを作った…このクラスではベストの製品だろう。

でも、ご用心。Appleはいつものように、もっとも基本的なデバイスを作っただけだから、購入を検討する前に各自がチェックすべき問題がいくつかある。

そのチェックのためのフローチャートを、ご覧いただこう。

〔図の訳〕

HomePodを買うべきか?

スピーカーに払える349ドルを持っているか?

HomePodを買うな   iOSデバイスを持っているか?

高価なAirPlayスピーカーを欲しくなければHomePodを買うな   Apple Musicの会員か?

HomePodを買うな   スマートアシスタントを使う気があるか?

Google Home MaxやAmazon Echoを検討したか?   Siriを使う気があるか?

おめでとう。あなたはHomePodの購入を真剣に検討すべきだ。文句なしに、今市場にあるメジャーなスマートスピーカーの中では最高の音質だ。

チャートのデザイン: Bryce Durbin

[原文へ]
(翻訳:iwatani(a.k.a. hiwa

データで比べるスマートスピーカー

ここ数年で、家庭用スマートアシスタントが大いに注目を集めるようになってきた。さらにこの2週間ほどの間で、AmazonGoogle、加えてSonosなどが立て続けにスマートスピーカーに関連するイベントを開催し、この分野への注目度が高まっている。

急拡大を見せるこの分野におけるプロダクトの全体を見渡すのも非常に難しい。プロダクトの選択は、採用しているアシスタントを選ぶことからはじまるだろう。利用しているスマートフォンの種類や、どうしても必要な機能などから絞り込んでいくことになるわけだ。そして、いずれのどのアシスタントを選ぶにしても、メリット・デメリットの双方が存在するだろう。Amazonには先行者メリットがありそうだし、Appleは、iPhoneとの連携が魅了だ。そして、その両者の対抗馬を考えれば、まっさきにGoogleの名があがるだろう。もちろんMicrosoftという選択肢もある。PCをもっている人の多くはMicrosoft製のOSを走らせているからだ。

SonyやSonos、ないしJBLなどのようなサードパーティー(他社アシスタントを採用するプロダクト)製品も増えてきており、ハードウェア的な違いも気になるようになってきた。さらに、50ドル程度のものから300ドル程度のものまでと、価格の差も大きい。高音質をうたうものもあれば、スクリーン内蔵の魅力を訴えるものもある。さらに複数のアシスタントに対応するものまでもある。

以下に、宣伝文句を排してデータのみを記した比較表を掲載しておくことにする。

[Infogram version]

原文へ

(翻訳:Maeda, H

Apple、Siriのウェブ検索をBingからGoogleに変更――iOS、Mac Spotlight、Safriの結果が一致

AppleはこれまでSpotlight検索と呼ばれていたSearch inside iOSや、MacでのSpotlight検索でのSiriのウェブ検索エンジンのデフォールトをGoogleに切り替えた。

たとえばiOSで何かSiriに質問し、Siriが手元に答えがなくてウェブ検索でバックアップしようとすると、MicrosoftのBingではなくGoogleで検索した結果を得ることになる。アップデート:Microsoftからコメントがあったので「画像検索はBing」という情報を追加した。

今回の変更が行われた理由の中でAppleがもっとも重視したのは一貫性のようだ。Mac、iOSのSafariはすでにデフォールトでGoogle検索を利用している(これによりAppleはGoogleから毎年数十億ドルの収入を得ている)。今後はSiri、iOSの検索窓、Spotlightなどの結果が一致することになる。【略】

今後はiOSのSiriが「その答えは分かりませんがウェブの検索結果は次のとおりです」と答える場合も、国際的に統一されたHey, Siriという呼び掛けでSiriを起動し、ウェブを検索させた場合にもGoolgeが検索エンジンとなる。

ただしGoogleで検索されるのは通常のURLとビデオで、静止画の検索結果はBingから来る。かなり前からBingの画像検索には定評があったのでこの点は納得できる。もしSiriにユーザー自身の写真を探させる場合は、ウェブではなく写真のライブラリが検索される。面白いことに、ビデオの場合はYouTubeが直接検索される。

すべてのウェブ検索はAPIを通じて通常のGoogle検索結果が表示される。つまり関連性によりランク付けされており、広告やKnowledge Graphによるカスタマイズがそのまま表示される。YouTubeビデオをクリックするとやはり広告が再生される。ユーザーが直接Googleサイトを訪問するのでなくともGoogleにとってはやはり収入源となるわけだ。

すべてのApple上でのユーザー行動は暗号化され匿名化されており、個々のユーザーを特定するために用いることはできない。しかしGoogle検索結果をクリックするとGoogleサイトにジャンプすることになり、以降はGoogleのユーザー・トラッキングが適用される。ウェブサイトをクリックして直接そこにジャンプした場合にはGoogleのトラッキングは適用されない。

この切替の実施タイミングも興味深い。iOSのアップデートにつづいて、今日(米国時間9/25)、Mac OS、High Sierraがリリースされる。データのプロバイダを複数使う例はこれまでにもあった。マップはYelp、Foursquare、Garmin、Tripadvisoなど10以上のデータ・ソースを用いており、それぞの得意の分野、地域で利用されている。【略】

いまひとつ分からないのは、今回の変更の原因がAppleが検索結果に一貫性を求めるためだけだったのか、それともAppleが30億ドルを得る契約にGoogleがデフォールトの検索エンジンという立場を維持することが含まれていたのかだ。おそらくは両方の動機がいくぶんずつ混合していたのだろうと思う。

この変更は順次公開されており、今日の午後までに世界に行き渡るはずだ。

アップデート:われわれの取材に対しMicrosoftの広報担当が以下のようにコメントしたので、これに応じて記事を修正した。

われわれはAppleとの提携関係を尊重しており、多くの面で関係を強化していきたいと願っている。現在Bingの画像検索はSiriに用いられ、最高のユーザー体験をもたらしている。【略】

[原文へ]

(翻訳:滑川海彦@Facebook Google+

超音波を使えば、「音」を発せずに音声認識デバイスを騙すことができる

セキュリティ関連技術を研究する中国人研究者が、「音」を発せずに音声認識システムを作動させる方法を開発した。人間には聞こえず、しかしマイクでは検知できる高周波音を用いるのだ。このしくみを用いて、人間には音が聞こえない状況で、さまざまなコマンドを発することに成功したのだそうだ。メジャーな音声認識アシスタントのすべてを操作することができたとのこと。

今回の成果を発表したのは浙江大学の研究者たちで、超音波を用いてコミュニケートするイルカたちにならって、用いた仕組みを「DolphinAttack(PDF)」と呼んでいる。しくみをごく簡単に説明しておこう。

音を発せずに音声アシスタントを動かす仕組み

電子デバイスに搭載されるマイクは、音波によって変化する空気圧に反応する小さくて薄い皮膜を利用している。人間はふつう、20キロヘルツ以上の音を感知できないので、一般的なマイクでも20キロヘルツ以上の「音」に反応しない仕組みが搭載されている。その仕組みはローパスフィルタと呼ばれている。

このローパスフィルタ機能が理論通りに機能すれば、たしかに意図した周波数の音声のみに反応することになる。しかし現実には「ハーモニクス」というやっかいなものが存在する。たとえば400Hzの音は、200Hzあるいは800Hzを捉えるようになっているマイクにも捉えられてしまうのだ(正確な仕組みは端折って、効果についてのみ記している。詳細を知りたい方はWikipediaなどを参照してほしい)。ただし「ハーモニクス」は、もとの音声に比べるとかなり小さく響くようになるもので、通常はハーモニクスの存在がなにか問題を引き起こすようなことはない。

ただ、100Hzの音を拾うマイクに対し、何らかの事情で100Hzのを発することができない事情があったとしよう。この場合、音の大きさを大きくすれば、800Hzの音でマイクを反応させることができるのだ。100Hzの音を発したことをさとられずに、マイクのみに100Hzのハーモニクスを伝達することができるのだ。人間の耳には800Hzの音のみが伝わることとなる。

変調装置の仕組み

研究者たちも、大まかにいえば上に記した仕組みをもちいてマイクにのみ通じる音を発生させている。もちろん実際にはさまざまな複雑なプロセスを経るようになっている。そしていろいろと試してみたところでは、スマートフォン、スマートウォッチ、ホームハブなど、音声に反応するように設計されているデバイスのほとんどが、ハーモニクスに反応したとのことだ。

超音波(黒の音声信号)がハーモニクス(赤の信号)を発生させる様子。超音波の方はローパスフィルタによりカットされる。

最初は単なる超音波信号を発生させる実験を行なっていた。それがうまくいったので、次に500ヘルツないし1000ヘルツの音声信号を生成することにしたのだ。複雑な作業が必要になるものの、しかし基本的には同様の方法で音声信号の生成に成功したとのこと。作業が複雑になるといっても、特殊なハードウェアを必要とするわけではない。エレクトロニクスパーツを扱っている店で手に入る部品のみを用いて実現できる。

超音波から生じた音声は確かに機能し、たいていの音声認識プラットフォームで狙い通りに認識されたとのこと。

DolphinAttackで使う音は、人間には聞こえず、感知することすらできません。しかし音声認識を行うデバイスはこの「音声」に反応するのです。Siri、Google Now、Samsung S Voice、Huawei HiVoice、Cortana、およびAlexaなど、いずれのプラットフォームで動作することを確認しました。

超音波から生成した音声により、簡単なフレーズ(「OK、Google」)から、やや複雑なコマンド(「unlock the back door」―勝手口の鍵を開けて)などを認識させ動作させることができたとのこと。スマートフォンによって通じやすいフレーズや通じにくいものがあったり、超音波を発する距離によっても実験結果が左右されたとのこと。ただし、5フィート以上の距離から発した超音波ーハーモニクスに反応したデバイスはなかったとのことだ。

研究で使用した簡単な超音波ーハーモニクス発生システム。

距離に制限があるということのようだが、しかしそれでも脅威に感じる。感知できないコマンドが発せられ、それによって手元のデバイスが作動してしまうのだ(Wi-Fiにも似たようなリスクがないわけではない)。ただし、今のところは大騒ぎすることもないのかもしれない。

たとえば、音声コマンドによってデバイスを活動状態にする機能をオフにしておくだけで、大半のリスクを避けることができるようになる。音声コマンドを受け付けるのは、デバイスがアクティブな状態にあるときのみになるわけだ。

さらに、たとえスリープからの復帰を音声コマンドで行えるようにしていても、たいていのデバイスでは電話をかけたり、アプリケーションを実行したり、あるいはウェブにアクセスしたりする機能を制限している。天候を確認したり、近くのレストランを表示するようなことはできるが、悪意あるサイトへのアクセスなどはできないことが多い。

また、音声コマンドは数フィート以内の距離から発しなければならないというのが一般的だ。もちろん、知らない誰かがすぐ近くから超音波ーハーモニクス音声をもちいてコマンドを発行することはできるだろう。しかし突然スマートフォンがスリープから復帰して、「モスクワに送金しました」などといえば、ただちに適切な対応をすることができるのではなかろうか。

もちろん危険性がゼロでないのは事実だ。超音波を発することのできる、スピーカーを備えたIoTデバイスがEchoに話しかけて、家のロックやアラームを解除するような可能性だってあるわけだ。

直ちにさまざまなリスクに対応する必要があるというわけではないかもしれない。しかし、電子デバイスに対する攻撃を実行しようとするひとたちに、新たな可能性が開かれつつあるのは事実だ。そのリスクを公にし、日常的に利用するデバイスにて対抗手段を備えることが重要になりつつあるといえよう。

原文へ

(翻訳:Maeda, H

新しいAppleの広告は、The RockとSiriの掛け合いでボイスファーストインターフェイスの有用性を伝える

目に見えないインターフェイスの使い方を、あなたは他人にどのように教えているだろうか?Appleにとって、Siriが最初の大規模大衆向け音声アプリケーションとなったときから、それは常にマーケティング上の問題として居座り続けている。

Appleはそれを教えようと何度も挑戦してきた。もしSiriを起動して何も話かけずにいたら、画面にSiriからの助言(「こんな風に話しかけてください」)を表示する。テレビスポット、ツールチップ、App Storeのプロモーション、そして読んだことがあるかどうかは知らないがインタビューなどで、どれほどの努力がSiriに注がれたかを知ることができる。それらは皆、単に時刻を尋ねたり、天気について聞くこと以上の使い方を促そうとするものだ。

そして、さらに最近は、AppleはiPhoneユーザーを、Siriがその声から連想される性格を超えて、AppleのAI(人工知能)とML(機械学習)に関連する様々なアプリケーションを代表するものなのだという考えを吹き込もうとしている。

世間では「電話機で何かを尋ねること」というSiriへの認識は大きく広がっているものの、その理解はとても浅いままだ。そう、日々の中で役立ち続けることが、人びとをプラットフォームに引き寄せるために大切なことなのだ。

平たく言えば:Appleに必要なのは、Siriが如何に日々の生活の中でユーザーを助けてくれる力があるのかを伝えることだ。

今回は、The Rockの異名で知られる、アクション映画の帝王かつ将来の大統領候補のドウェイン・ジョンソンが、それを伝える役割を託された。

この3分のスポット広告(今朝(米国時間7月23日朝)のジョンソンによるツイートに基いて、どこかのサイトでは「映画」として誤って伝えられているらしい)はYouTubeで公開される。本質的には短いエピソードを集めたものなので、テレビやアプリな視聴のためには簡単にショートバージョンを作ることが可能だろう。

今朝Twitter上で寄せられたジョンソンからのレスポンスによれば、このスポットは、AppleとSeven Bucks Productionsとの共同制作である。Seven Bucks Productionsはジョンソンがダン・ガルシアと共同設立した制作会社だ。

話の内容はジョンソンの正気の沙汰ではないようなスケジュールに、さらなる棺桶リスト(死ぬまでに実現したいToDoリスト)である「人生のゴール」を付け加えて、複雑化させつつも、Siriの助けを借りて全てをこなしていくというものだ。テンポがよく、どのパートを見ても極めて楽しく、全体としても素敵な仕上がりになっている。ジョンソンが2016年に世界で最も出演料の高い俳優だったということは勘定に入れなくても、とてもお金がかかっているように感じる。

早い段階での誤解はともあれ、それは立派な広告であり映画ではない。そして広告としては、かなり効果的なものだと思われる。Siriの使われ方は、とても明白で良く知られたものから、ややわかりにくいが便利なものに到るまで、広い範囲をカバーしている。

ボイスファーストインターフェイスに対しては、驚くほど強気な沢山の人びとがいるが、個人的には流行が進みすぎるのは危険だと感じている。なぜなら人びとにそうしたインターフェイスが必要不可欠であると納得させることはできないからだ。

AmazonのEcho、Google Assistant、そしてSiriのようなボイスファーストインターフェイスは、大衆の意識に浸透するにつれ、どのようにすれば人びとにその有用性を理解させ、それを継続的に使う気にさせることができるのかが、いわば何か素晴らしいことを起こそう(make “fetch” happen)と狙う企業たちにとって、最も関心の高いことになっていくだろう。

スポット広告はYouTubeにアップロードされている

[ 原文へ ]
(翻訳:Sako)

Siriに翻訳機能が加わり、声も人間らしくなる

Siriが少し賢く、ちょっとだけ人間らしくなる。これは矛盾していない。

Appleの音声アシスタントは、これまでより男女とも明瞭で人間らしい声になり、イントネーションもよくなって、新しいスキルも身につける。iOS 11ではSiriの総合的能力が向上する。

Appleが今日発表したところによると、現在Siriは月間3.75億台以上のデバイスで利用されている。

AppleはSiriに翻訳機能を導入し、ある英語のフレーズを様々な言語でどう言うかをこの音声アシスタントに尋ねることができる。初期の対応言語は、中国語、フランス語、ドイツ語、イタリア語、およびスペイン語。

Siriはここ数年かなり厳しい競争にさらされている。AmazonのAlexaやGoogle Assistantなどの能力が向上したことで、SiriのAIの弱点が明白になってきた。今回の改訂で、Appleは再びSiriが音声アシスタントのリーダーであることを示したいと思っているが、結果は自分の目で実物を確かめるまでわからない。

Siriは、補足質問を扱えるようになる。Google Assistantにはずっと前からあった機能だが、これでSiriは複雑で段階的な質問にも答えらえるようになる。

またこれは派手なニュースではないが、AppleはSiriを単なる音声アシスタントではなく、iOS全体をカバーする汎用AIとして考え始めている。例えばiMessageで、Siriはコンテキストに少し敏感になり、会話の相手から「今どこにいるの?」と聞かれると、現在のGPS位置がポップアップする。

[原文へ]

(翻訳:Nob Takahashi / facebook

AppleがSiri経由の音声制御に対応したiOS 10向けアプリの一部を公表

siri-kit

Appleは、近々リリース予定のiOS 10に含まれる、Siri経由の音声制御に対応したアプリの一部を本日(米国時間8月31日)発表した。先日のWWDCで発表された通り、新たなiOSにおける最大の変更点のひとつこそ、ユーザーが声を使ってアプリとやり取りができるようになるということだ。近いうちにiOSユーザーは、テキストメッセージの読み書きや写真の検索、Uberといったアプリでの車の手配、ワークアウトアプリの一時停止、友人への支払、サードパーティーのVoIPアプリを使っての電話など、たくさんのことをSiriにお願いできるようになる。

既にSiriは、TwitterやYelpといったサードパーティーアプリの一部機能に対応しているものの、今後Appleは、ユーザーがもっと広範囲にアプリと”会話”できるようにしようとしているのだ。

SiriKit

ユーザーとアプリの”会話”は、SiriKitを使うことで可能になる。これはiOS 10ディベロッパー向けの新たなツールキットで、彼らはSiriKitを利用して、自分たちが開発しているアプリとバーチャルアシスタントのSiriが連携できるようなエクステンションを作成することができる。

つまり、Siriが音声認識や自然言語処理といったユーザーとのやり取りを担当し、エクステンション経由でアプリから必要な情報を受け取ることで、ユーザーのリクエストを処理できるようになるのだ。

Sirikit-wwdc

6月のWWDCでAppleは、WeChatやWhatsApp、Slack、Uber、Lyft、Didi、EyeEm、Pinterest、Runtastic、RunKeeper、Venmo、Number26、Skype、Viberといった具体的なアプリを例に挙げつつ、Siriとの連携がどのように行われるかについての詳細を説明していた。結果的に、ステージ上で具体的なアプリの名前を挙げることで、新たな音声機能に対応した最初のアプリ群を示唆していたことになる。

上記のリストに含まれるアプリの多くが、iOS 10リリースまでにSiri経由の音声制御に対応予定だ。

そのほかにもAppleは、Skype、LinkedIn、Square Cash、Monzo、Vogue Runway、Looklive、The Roll、PikazoについてSiriとの機能統合が行われると発表した。

Screen Shot 2016-08-31 at 7.12.38 PM

さらに本日から、Appleはブログシリーズ記事の公開を開始し、今後登場予定のSiri対応アプリやその機能に関する情報を掲載していく予定だ。

今回の動きは、ディベロッパー向けの情報をWWDCで発表し、秋のiPhone関連イベントに合わせて新たなiOSを公開するというAppleのいつものパターンからは乖離している。

しかし、もしかしたら今回の発表にはエンドユーザーの教育という側面があるのかもしれない。または、Appleが、Amazon Alexaといった人気音声アシスタントプラットフォームの存在を、最近になってちょっとした脅威に感じているのかもしれない。

というのも、Alexaは、Uberドライバーへの電話、ニュースや天気予報の確認、ピザの注文、ワークアウト管理、ゲームといった機能を既に備えているのだ。

しかし、Appleの強みは、Siriが既にデバイス上にインストールされており、ユーザーはアポイントの登録や予定の確認といった、簡単なタスクをSiriにお願いするのに慣れているということだ。それを考慮すると、Uberを使った車の手配や電話をかけるというタスクが次のステップとなるのは当然だ。

Siriを使った車の手配

iOS 10の登場で、UberやLyft、中国のDidi Chuxing(同社はAppleの投資先でもある)、ヨーロッパのmyTaxiといった配車アプリは、新機能を大いに活用することができるだろう。Siri経由でこれらのアプリを利用する際に面白いのが、堅苦しい音声コマンドを事前に学ぶ必要がないということだ。

サンプルコマンドの一部には、「ヘイSiri、空港まで行くのにDidiを呼んで」や、「ヘイSiri、myTaxiにParliament Squareまでのタクシーを呼ぶようにお願いして」などが含まれている。

Siri Uber 2 (1)

Uberのように複数のサービスが用意されているアプリに車の手配をお願いする際は、「サンフランシスコ国際空港までのUberを呼んで」といった感じで声をかけた後に、希望のサービスを選択することができる。ユーザーの声を聞いたアプリが、料金見積もりや到着予定時間のほかに、UberPOOL、Uber Xなど利用可能なサービスをディスプレイ上に表示するのだ。

一旦ユーザーとドライバーが接続されれば、車やドライバーの情報に加え、UberがMapKitを採用しているおかげで、Apple Maps上でリアルタイムに車の動きを確認することができる。

「私たちは、パートナー企業と強力して、世界中でユーザーの生活にUberをさらに溶けこませることができるような方法を常に模索しています」とUberでシニアプロダクトマネージャーを務めるRahul Bijorは説明する。

また、彼はUberがSiriKitを実装するのに数ヶ月を要したと語っている。

「私たちにとっての大きな課題は、Appleの新機能を最大限活用するためにどのような変更をアプリに加えるかということ、さらにはユーザーにとって最適なSiriの活用方法をみつけだすことでした」とBijorは言う。

多くのディベロッパーも彼の言う課題にこれから数ヶ月間苦労することになるだろう。Siriとの機能統合はもちろんのこと、アプリのユーザーにとって1番良い形でSiriの機能を活用していくというのは簡単ではない。

Siri経由のVoIPアプリを使った電話の発信

Appleはさらに、CiscoのSparkのような音声制御に対応したアプリをオフィスでどのように利用できるかということにも触れている。新バージョンのSparkでは、Siri経由で連絡先の検索や電話の発信ができるようになる。「ヘイSiri、SparkでLuisaにビデオ通話して」といった具合に。

SiriKitとCallKitが同時に働くことで連絡先情報をSparkに伝達し、電話をかけることができるのだ。Sparkへの機能実装の上手い点が、もしもSpark上に連絡先が登録されていなくても、iOSに登録された連絡先まで検索して電話をかけることができるということだ。

spark-video-call

「Sparkは、モバイルユーザー向けに特別に開発されており、あちこち動き回るユーザーがどこにいても連絡がとれることに重点が置かれているため、Siriとの連携はすんなり馴染みました」とSparkのiOSリードディベロッパーであるRiley Marshは説明する。「私たちは、ユーザーが声をかけるだけで通話をはじめることができ、さらには私用・社用を問わず全ての連絡先へ、別スクリーンに移動することなくアクセスできるような形での実装を目指していました」

Vonage Essentialsという、今度発表されるSiriと連携した別のアプリでも、Sparkと同じように電話をかけることができる。さらにVonageによれば、将来的には企業のバックエンドシステムに登録されている情報さえSiri経由でアクセスできるようになるという。

「例えば、SiriKitをVonageアプリのメッセージ/テキスト機能と連携させることで、ハンズフリーでメッセージの送受信ができるようになります」とVonageモバイル開発部門のヴァイスプレジデントであるSagi Dudaiは話す。「iOS 10とVonageのもっと高度な融合が進めば、Siriのコマンドを使った音声・メッセージ機能を顧客管理ソフトなどのビジネスワークフローと統合できるようになるでしょう」

Essentials Siri 2

Dudaiはさらに、Vonageのような音声アプリに関し、これまでのiOSに比べてiOS 10ではユーザーエクスペリエンスが向上すると付け加えた。以前は、受信時にプッシュ通知が利用されており、ユーザーはスクリーンロックを解除しないと通話することが出来なかった。その一方で、ネイティブアプリに電話がかかってくると、VoIPアプリ経由の通話は保留状態になってしまっていた。

「こういった不便はiOS 10のCallKitで全て解消され、VoIP電話もネイティブアプリでの電話と何らかわりなく利用できるようになります」とDudaiは続ける。

「ネイティブ電話アプリと同じ機能やユーザーエクスペリエンスが提供できるようになれば、旧来のキャリアーを利用して音声通話やテキストの送受信を行う必要がなくなってきます。Appleは、VoIPがモバイル通信のスタンダードとなる上での最後の障壁を取り去ったんです」

apple-app-store-ios

アプリの新しい使い方

音声対応アプリは、App Storeエコシステムが成長に伴う痛みを感じているところに到来しようとしている。25個のカテゴリーに分類された、200万種以上の膨大な数のアプリのせいで、目的に適うアプリをみつけるのが段々難しくなってきている。ユーザーは、単純に新しいアプリの情報にさらされておらず、新たなアプリをダウンローをしてもすぐにそのサービスが終了してしまうことがよくあるのだ。

同時に、Appleのディベロッパーコミュニティも成長を続けている。今では世界中に1300万人ものディベロッパーが存在し、彼らは2008年から累計で500億ドルもの売上を記録している。しかし、インディディベロッパーにとって、自分たちのアプリの存在をユーザーに知ってもらい、さらには実際に使ってもらうということがこれまでにないほど難しくなってきている。

音声対応アプリはこの状況を変える力を持っているかもしれない。目的のアプリを起動するために、Spotlightで検索したり、デバイス上のスクリーンを何度も手でスワイプする代わりに、話かけるだけで良いとなれば、エンドユーザーがアプリにアクセスしやすくなり、結果的にアプリの利用率が高まる可能性がある。さらに、さまざまな設定や操作ボタンの位置を探し出すことなく、話かけるだけでアプリをコントロールできることで、各アプリの操作方法も簡単になっていくかもしれない。

原文へ

(翻訳:Atsushi Yukutake/ Twitter

ボットで満ちた未来における人間の役割

robotheart-e1425927262913

しかし、ボットが究極の利便性を提供するこのような近未来の世界でも、人間の助けはまだ必要とされるのだろうか?

FacebookのCEOマーク・ザッカーバーグは、最新のF8カンファレンスで、将来の商取引きにおけるボットの位置付けに関して大胆な発表を行った。(無料ダイヤル)1-800-Flowersを例として使い、将来販売プロセスにボットチャットが統合されることにより、顧客が実際に1-800-Flowersをダイヤルして人間に話をする必要はなくなると主張したのだ。理論的には、ボットのサポートをチャットで使用することにより、売り手と買い手のやり取りを簡単に済ませ、消費者をセールスに引き寄せることが可能になる。顧客は電話でのやり取りよりもチャットの方をはるかに好む、というザッカーバーグの主張は正しいかもしれないが、とはいえその好みがロボットとのチャットであるという結論に飛びつく必要はないだろう。

これまでもずっとそうであったように、人間とのやり取りこそが、高品質の顧客体験には不可欠だからだ。Facebookもこの考えを支援していて、チャットの最中にボットから人間への切り替えの支援を行ういくつもの会社と提携している。FacebookのCOO、シェリル・サンドバーグは「…単純に言って、私たちはボットが販売プロセスで人間を置き換えることができることを、実際に想像させ得るような技術を持っていないのです」と公の場で述べている。

では、ボットが支配する未来における人間の役割とは何だろう?

カスタマーサービスに電話をするたびに自動応答の声(IVR)を聞かされて感じたフラストレーションを覚えているだろうか?ボットチャットはこれと同じ立ち位置だ。そしてもし毎回ボットが失敗したらどうなるかを想像して欲しい、結局実際の生きている顧客サービス担当者と話すことになる − 振り出しに戻る、というわけだ。

私たちはこの先、ボット技術の指数関数的な広がりを目にすることになる。しかし顧客との良い関係を保つための人的資本の確保は避けられず必須である。

人工知能が長い道のりを歩んできたことは間違いないが、そこで達成された進歩にもかかわらず、チューリングテストをあらゆる点で満足するボットの実現からは程遠い。ボットは、人間との会話のかなりの部分を扱うことができるものの、間違いなく混乱したり失敗する場合がある(特にあるトピック/領域から別のものに切り替える場合に)。こうした状況では、取引を完了させるために、ボットから人間への引き継ぎが行われる。

現在話題が盛り上がっているものの、ボットは新しいものではない。AOL Instant Messengerが大流行した1990年代後半に、私はSmarterChildとチャットしたことを覚えている。SmarterChildの中核は本質的には初期バージョンのボットだった。学校や生活、そしてスポーツについて、まるで実際の友達と行うようなチャットを行うことができた。SmarterChildは(ほとんどの時間)素晴らしい仕事を果たして、とても洗練されているように見えていた。しかし、公平のために述べれば、チャットの大半は12歳の子供達の側が主導していたのだ。

なので、現在本当に問うべきは、ボットは真に未来を形作るものなのか、あるいは私たちが幼かった頃にあったものと同様の誇大宣伝に終わるものなのかである。

この問いに答えるためには、ボットの背後にある技術を理解することが重要だ。過去20年間で私たちはコンピュータ技術とソフトウェア開発に驚くべき進化と進歩を見てきたが、ボット技術は基本的には2つのカテゴリに分類される、シンプルなロジックツリー(SLT)に基づくものと、自然言語処理(NLP)または機械学習(ML)に依存しているものだ。

SLTに基づくボットは、情報を収集し利用者へと戻すために、旧来のロジックツリーを利用している。例えば、保険ボットは理想的なプランを決定するために、あなたにいくつかの質問を投げかける。もしあなたの答えが、ボットが予想していたものと一致した場合には、そこで得られる経験は引っかかりのないシームレスなものになるだろう。しかし、もしあなたの答が、ボットデータベースの中にあらかじめ予想され保存されているものと異なるものだった場合には、おそらくそこで行き詰まりになってしまうことだろう。もし運が良ければ、用件を完了させるために、その先は人間へと引き継がれることになるだろう。しかし、もしそうでなければボット地獄へ落ちて終わりだ。現在ほとんどのボット技術がSLTに依存している。

NLPとMLボットの場合には、特定の質問に対する直接の回答を必要とするのではなく、利用者からの入力に含まれるキーワードやフレーズをピックアップして、より話し上手な者のように振る舞うことが意図されている。理論的には、このボットカテゴリは良い選択肢のように聞こえる。このタイプのボットの例としては、AppleのSiriとAmazonのAlexaが挙げられる。

天気について答えたり冗談を言うような単純な仕事をSiriとAlexaはうまくこなしているが、複雑や機能や長い命令に対応するためには、まだ長い道のりを歩まなければならない。

相手をしているボットがSLTであろうとNLPであろうと、最後は実際の人間と話をする必要性がある状況に落ち着く可能性は高い。SLTのボットは多くの場合、私たちが現在の技術から期待するような複雑さを備えていない。一方、NLPまたはMLボットに必要な技術に関しても完全に利用することはできていない。

実際の人間による対応の価値は、とても重要なものとなり得る。

幸いなことに、顧客は実際の人間とのやりとりの効率性を好んでいる。最近は、長くてフォーマルな会話スタイルからは離れる傾向にあるものの、顧客はサービスに対する同様の品質をチャット(それが人間でもボットでも)にも求めているのだ。実際、アメリカン・エキスプレスによる最近の研究では顧客の78%が、低品質なサービス体験のおかげで、取引を諦めたり望み通りの買い物をできていなかったりしている。同じ研究はまた、実在の人物に話すことができなかったとき、顧客の67パーセントがフラストレーションから電話を切っていることを示している。それらのほとんどの場合、顧客はボットとの会話に耐えることを強いられていた。

日々の取引に私たちがボット技術を採用しようとする場合、おそらく業界には2段階の移行過程を見ることになるだろう。最初の段階は、ボットが扱えないものを全て実際の人間へと引き継ぐ、とても人間対話重視のものである。貧弱な顧客体験の危険性は、トップブランドにとっては単純に受け入れがたいものである。よってボットが扱えなくなった時に引き継がれる顧客コールセンターを充実させることは現実的な解である。

そして次の段階として、いつかはMLならびにNLPがボットをより知的にして、失敗率を極小にする時が訪れることは確実だと思われる。そうなったときに、取引の大部分がボットチャネルを通して行われると考えることは夢物語ではない。ボットチャネルが単独で成り立つのだろうか、そうではなくそれらが既存のチャネル状況に統合されるのだろうか?もしそれらが単独で成立するならば、他のチャネルには何が起きるのだろう?

優先される顧客対応がブランドのウェブサイトを離れ、Facebookメッセンジャーなどのボットチャネルに流れていくシナリオでは、規模に対する疑問も出されている。たとえボットの失敗率が低かったとしても、人間による対応は増えることが予想される、なぜなら取引量そのものの膨大な増加が予想されるからだ。

私たちはこの先、ボット技術の指数関数的な広がりを目にすることになる。しかし顧客との良い関係を保つための人的資本の確保は避けられず必須である。顧客の生涯価値と製品のマージンに応じて、実際の人間による対応の価値は、とても重要なものとなり得る。

より自動化された未来のための備えとして、私たちは物事を進める際の人間の役割について忘れないことが肝心だ。そして「スターウォーズ/新たなる希望」でR2-D2が偉大であったことと同様に、私たちはそのボットの中に人間がいたことを忘れてはならない。

[ 原文へ ]
(翻訳:Sako)

次のSiriは、感情を持つだろうか?

ai-assistant-empathy

【本稿の執筆者、Rupa Chaturvediは、Sentient Technologiesのビジュアル・インテリジェンス設計責任者】

AIアシスタントは絶頂期にある。先月Googleはその名もAssistantというAIアシスタントを発表し、「継続的な双方向対話」を可能にした。この分野には、AppleのSiri、AmazonのAlexa、MicrosoftのCortana、FacebookのM、未公開のVivを始め、数多くのライバルがひしめいている。

しかし今のところ、こうしたアシスタントたちは会議を設定したり、天気を教えてくれたり、コーヒーショップへの道順を示すことはできるが、まだ少々冷たく感じられる。人の気分や状況、個人的コンテキスト等々によって、反応を変えることはない。言い換えれば、感情がない。

それは何を意味するのか? 人類は常にテクノロジーを擬人化してきた。テクノロジーに感情的に関与し、信頼に基づく関係を期待し確立してきた。自動的な電話応等に腹を立てたり、重要なミーティングを知らせてくれた携帯電話に感謝したことが一度でもあるなら、これがわれわれの慣れ親んだ感覚だ。

問題は、われわれの健康や幸福にとって真に重要なテクノロジーは、その状態が単なる「物」を超えるという点にある。われわれは、テクノロジーに感情的に関与する。亡くなったスタンフォード大教授、Clifford Nassは、人間とコンピューターの関係は本質的に社会的なものであるとさえ主張した。言い換えれば、もし人間がテクノロジーと感情的な結び付きを持っているなら、われわれのニーズに感情移入するシステムを設計する方がよくないだろうか?

もし、人が機械と真にパーソナルで感情的なつながりを持てる、という考えに同意できないなら、 Ellieの事例を考えてほしい。EllieはAI心理学者で、PTSDを患う兵士の治療に用いられてきた。彼女は言語および非言語的ヒントを使って、AIアシスタントのように対話を構成する。ここで興味深いのは、患者は人間よりEllieと話すことを好むらしいことだ。Ellieのブレーンの一人、Albert Rizzoによると、患者は「判断されたと感じることがなく、印象操作に対する関心が低く、一般により多くの情報を提供するようになる」。

もちろん、心理学者と話すことは、アシスタントと話すのとは違う。しかし、人々が真の個人的苦脳について人間よりも機械に打ち明けやすい、というのは注目すべきだ。そして、AIアシスタントをデザインするにあたり、この教訓を心に留めておくことには価値がある。ユーザーは、自分を知り、理解しているテクノロジーを気味悪がったりしない。適切に行えば、むしろ反対だ。

基本的に共感とは、個人や個人の感じ方を理解することだ。人は常に変わり続けるという認識も必要だ。

では、どうやって感情的AIをデザインすればよいのか? どうやってアルゴリズムを人間的にするのか?まず、あまりに後ろ向きな発想を捨てることから始めることができる。アルゴリズムはもちろん山ほどのデータを必要とするが、飛行機のフライトを予約するために、ユーザーのすべてを知っている必要はない。もし、より人間的(即ち、より感情的)なAIを作ることによって問題に取り組むなら、人間的、社会的なレベルで対話することを考える必要がある。

われわれが見知らぬ人と会った時、相手の全データを聞き出そうとするだろうか?去年何を買ったか? メールアドレスとクレジットカード番号? 過去6ヵ月間の購入履歴に基づいて何が欲しいかを予測することは、知識だ。今われわれはそれができる。しかし、今日私が髪をおろして、くつろいでいたいことを知ることは、共感だ。この判断を、過去の多数の個人データからではなく、個人について下すことのできるアルゴリズムがわれわれには必要だ。

一つの方法は、音声認識で行っていることを再考することだ。今やAIは単語を理解できるできるが、その背後にある感情や論調を真に理解することはできない。もちろんそれは、人間が無意識下でいつも行っていることだ。そして、Mattersight等の会社は、数百万時間もの会話を分析して、個性や気分のヒントを見つけ出そうとしている。

つまり、そういうアルゴリズムは存在している。問題は、その使い方を変え、テクノロジーのためではなく、ユーザーのためにデザインすることだ。アシスタントには、人が何を言ったかを処理させるだけでなく、どのように話したかを理解することにも注力させる。ユーザーがどう感じるかを瞬間に理解できるAIは、共感をもって振る舞うことができる。あなたが浮かない気分の時にへらず口をたたかないAIや、急いでいるようなら対話を早く進めるAIを想像してみてほしい。ユーザーの気分によって、振る舞いを変えるAIだ。

もちろん、音声分析以外にも共感をもてるAIを作る方法はある。顔認識技術の向上によって、感情を直感的に捕えられるようになった。居間に置かれたAIアシスタントは、あなたが過去1時間に好きなコメディーを見て笑っていたのか、あるいは配偶者と言い争っていたのかがわかるので、あなたの表情や声のトーンに基づいて振る舞いや会話内容を変えることができるはずだ。ブラウザーの履歴や消費者プロフィールの似た他のユーザー情報に基づくのではなく、その場で瞬時に反応する。

基本的に共感とは、個人や個人の感じ方を理解することだ。人は常に変わり続けるという認識も必要だ。いい日もあれば悪い日もある。新しい趣味を始めたり、ダイエットで生活パターンを変えたり、休暇に出かけたり、仕事の大きな発表を控えていたり。毎日が違うように、すべての対話が異なる。共感をもつAIはそれを理解する必要がある。カレンダーに会議の日程を入れて、知らせてくれるAIアシスタントをデザインするのは、知識だ。「邪魔が入る」かもしれないことを知り、瞬時に日程変更する必要があることを知るのは、共感だ。

パターンを見つけられただろうか。共感をもつAIを作るためには、ユーザーをグループとして見るのではなく、個々のユーザーを個人として見る必要がある。それは人間がお互いの心理状態や意図を推しはかるのと同じように微妙な変化を読み取り、相手の反応を学習するシステムをデザインすることだ。それは人間が会話する時と同じように、進化しながら瞬時に行動を変化させるものを作ることだ。それは、ユーザーを本来の個別の人間として見ることのできるテクノロジーを作ることだ。そしてもし、次のAIが共感をもつものになるなら、それこそがわれわれのすべきことだ。

[原文へ]

(翻訳:Nob Takahashi / facebook

Apple TVがようやくゲーム用プラットフォームになれるチャンスを得た

apple-tv

没頭型ゲームには本格的コントローラーが必要だが、Apple TVのSiriリモコンは本格的コントローラーではない。しかし、最近までAppleはゲームデベロッパーに対して、あらゆるゲームでSiriリモコンへの対応を必須にしていたので、それがこのプラットフォームにデベロッパーを引き寄せられない理由の一つだったに違いない。

ゲームは最新世代Apple TVにとって重要な売り文句だった。しかし、第4世代のApple TVは殆どのモバイルゲームを家庭で最大の画面でプレイできる馬力を持ちながら、まだゲーミングプラットフォームになっていない。

どうやらAppleは、Apple TVのSiriリモコン対応を必須にする方針を変えたようだ。代わりにデベロッパーはMFiコントローラー必須のゲームを作れるようになる。そう、本物のゲーム用コントローラーだ。

ニュースはAppleのデベロッパー・カンファレンスで発表され、Appleは「可能であればデベロッパーはSiriリモコンにも対応すべき」とも言っている。

これは、Appleがタッチ&モーションのSiriリモコンだけで使えるようにゲームを作ることを、デベロッパーに要求していたのとは大きな違いだ。この当初の要件は、一見消費者の勝利かと思われた。どのゲームも追加オプションを買わずにApple TVでプレイできるからだ。しかし、ボタンが数個だけのSiriリモコンは、良いゲームコントローラーではない。

MFiコントローラーを必須にすることで、デベロッパーは伝統的ボタン配置を持つSteelSeries NimbusやHoripad Ultimateを完全にサポートできる。モーション&タッチ方式のコントローラーは一部のゲームにとってはすばらしいが、ファイナルファンタジーやストリートファイターやスカイランダーズ等、今のクールな連中がプレイするゲームには向いていない。

[原文へ]

(翻訳:Nob Takahashi / facebook

Apple TVのさらなるSiri統合とシングルサインイン

0088

AppleのシニアバイスプレジデントのEddy Cue氏は、同社の開発者会議WWDCで、Apple TVを支えるOSにマイナーアップデートを行うことを発表した。

折に触れてAppleは「テレビの未来はアプリにある」としているが、今回のアップデートもその方向性を強めるものだ。より多くのアプリが登場し、Apple TVで簡単に使えるようになる。

Apple TVは、お気に入りのビデオチャンネルにアクセスするために、初めてストリーミングメディアプレイヤーをセットアップすることでより大きな課題を解決しようとしている。また、「シングルサインオン」という機能を導入し、所有者が1度ログインすれば、すべてのネットワークにアクセスできるようになる。この機能は、iOSにも導入されるという。

さらに、Apple TVとSiriの統合レベルも高くなる。SiriでYouTubeを検索できるようになるので、ユーザーは 「YouTubeでSteph Curryの3ポイントシュートを検索」あるいは「YouTubeでLeBron JamesがDraymond Greenをまたいだところを検索」などと言えるようになる。これまで、Siriの検索対象はApple TVアプリの同社製品に限られていた。

今朝方のCue氏の発表によると、Apple TVにはこれから数週間のうちにSling、Fox Sports Go、さらには100局以上のテレビ局を擁するフランスのMolotovなどの新しいアプリが利用できるようになるという。

本日行われたtvOSデモの開発者向けプレビューは、秋に消費者向けに公開予定だ。

Tim Cook氏は、tvOSが本日アップデートが行われたwatchOS、iOS、OS Xなどと並ぶAppleの主要なプラットフォームの1つであると強調した。

[原文へ]

(翻訳:Nakabayashi)

ついに、Siriがサードパーティに公開される

0213

期待されていた通り、今年のWWDCでは音声認識アシスタント「Siri」に注がれた惜しみない愛情を見ることができた。たった今、AppleはSiriの音声認識機能をサードパーティの開発者にも公開すると発表した。これにより、サードパーティが開発したアプリを「Hey Siri…」と話しかけて利用することができる。

Siriを通じたYelpの利用や、Twitterのコンテンツを検索する機能をはじめ、これまでにもSiriとサードパーティ・アプリケーションが統合された事例はあった。しかし、Siriが公開され、サードパーティのアプリケーションと連動することで、その利便性が格段に増す可能性がある。

新しいSiriがもつ可能性を示すため、WWDCのステージではSiriを使って「5分遅れそうだ」というメッセージをWeChatで送信するという例が示された。「これからのiOS 10には強力なAPIが存在します」とAppleの上級副社長であるCraig Federighiは語る。「iOS 10において、Siriはこれまでにない程の働きをするのです」。

iOS 10のユーザーがSiriを通じて利用できる可能性のあるアプリとして、彼はSlackやWhatsAppなど日常でよく使われるアプリを例に挙げた。他にも、Uber、Lyft、Didiを利用した乗車予約や(最近、AppleはDidiの出資者となった、EyeEmなどを利用した写真の検索、RuntasticやRunkeeperにおいてワークアウトを中断したり再開する機能、Number26やVenmoなどを利用した友人への送金機能、SkypeやViperを利用したVoIP通話機能などもその例だ。

Federighiは「Siriはクルマとの相性も抜群です」と付け加え、ステージ上のデモンストレーションではCarPlayの名前を挙げた。

家庭用スピーカーのAmazon Echoに搭載された、Alexaの音声アシスタント・テクノロジーが外部に公開されてからしばらく経つ。同社は1年前に外部の開発者向けのAPIを発表し、去年の8月には最初のサードパーティー・アプリが公開された。

それ以降、Eコマース界の巨人はAlexaの開発者ツールを構築しつづけてきた。膨大な量のiOSデバイスをもつAppleに比べ、Amazonは自社のハードウェアへの関心を高めるために外部の開発者のチカラが必要だったのだろう(Echoには爆発的な販売実績がまだない)。

とは言うものの、Appleが2011年にSiriを発表して以降、それが持つ音声認識テクノロジーを公開せず、外部アプリとの統合を制限してきたことが、Siriの有益性や用途をも制限してきたことには間違いない。その一方で、AmazonのAlexaを利用したUberの乗車予約はすでに実現されているのだ。

つい先月、Siriの開発者であり、Appleによって自身の会社が買収された1年半後に同社を去ったDag Kittlaus、TechCrunch Disrupt NewYorkで次世代の音声アシスタント・テクノロジー「Viv」を発表した。彼は、将来的にVivをすべてのデバイスやアプリケーションを制御するコントロールパネルにするという野望をもっている。

Googleも同様に、データマイニングとAIを組み合わせることによって同社のバーチャル・アシスタント・テクノロジーの利便性を向上させる努力を続けている。ソーシャル・プラットフォームの巨大企業であるFacebookも、独自のAIアシスタントの開発に心血を注いでいる。Siriを進化させなければならないというプレッシャーがAppleに重くのしかかっていたことは明らかだ。

元アナリストであり、現在はA16zで勤務するBenedict Evansは、今年初めに発行されたEメール・ニュースレターでUberとAlexaの統合について以下のようにコメントした。「ごく普通のWebが、近いうちに復活することはないだろう」。

バーチャル・アシスタントという分野において、他社との差別化のためにAppleが注力していたのが、ユーザーのプライバシー保護だ。昨年のWWDCで、同社はProactiveと呼ばれるSiriのアップデートを発表した。これはGoogle Now風の予測機能であり、連絡先に保存されていない番号から電話がかかってきた時に、それが誰からの電話なのかを予測する機能などがその例だ。それに伴うデータ処理はクラウド上ではなく、ローカルで行われていると思われる。

Siriがサードパーティーの開発者に公開された今、Appleがどのようにユーザーのプライバシーを守っていくのかは、まだ明らかにされていない。

今日のWWDCでは、Apple TVで利用できるSiriの拡張機能も発表された。Siriに話しかけることで、YouTubeの動画を検索し、鑑賞できる機能などがその一例だ。

それに加えて、新しく命名された「macOS」にもSiriが搭載されることが明らかになった。従来の機能に加えて、音声でメッセージを送ったり、ファイルを見つけたりすることが可能だ。

[原文]

(翻訳: 木村 拓哉 /Website /Twitter /Facebook

AppleのWWDC 基調講演の内容予想

apple-wwdc-20150411

サンフランシスコで現地時間13日10時(日本時間14日午前2時)にApple毎年恒例の開発者会議が始まる。例年通り、昔ながらの基調講演では、同社が秘密にしてきたことも、それほど秘密でもないことも取り混ぜて発表される。以下に私が予想する内容をまとめた。

カンファレンスの大部分は、iOSとOS Xのアップデートに関するものになるだろう。通常、Appleは特に重要な機能をWWDCで紹介する。その後、開発者たちはベータ版にアクセスできるようになり、9月には最終版が出荷されるのである。

まずiOS 10を取り上げてみよう。噂によれば、Appleはデフォルトアプリ用の新しいダークモードと内蔵アプリを非表示にする方法を発表するらしい。また、HomeKit対応アプリのすべてを制御する新しいホームアプリ(HealthKit対応アプリ用のHealthアプリのようなもの)も十分に考えられる。

iPhoneの暗号システムに関するFBIとの攻防を受けて、Appleは同様のケースの再発を回避したいと考えている。そのために、 AppleはiOSのセキュリティを高めて、iPhoneのアンロックに関して自社がFBIに協力する能力自体を持てなくする可能性もある。

他にありえそうな変更の1つが、もう何年も手つかずになっている電話アプリの改善だ。連絡先が「取り込み中」ではなく、電話をできる状態か確認する方法が発表されるかもしれない。あるいは、ボイスメールをほかのiOS機器やOS X機器と同期する方法を模索しているかもしれない。

通信機能といえば、最近噂になったのが、AppleがiMessageをAndroidで利用できるようにするという話題だ。もしそうなれば、iMessageのグループを作成したいのに1人か2人のAndroidユーザーが混じっている家族にとって朗報だ。AppleがFacebookのメッセージアプリやMessenger、Whatsappに対抗しようとするなら、とっくに着手しておくべきだったとさえ言える。ついでに、この場を借りてAppleに要望を伝えさせていただくと、メッセージアプリでリンクや、ツイートや、YouTube URLのプレビューができるようにしてもらいたい。

さて、手の届きやすい部分の話題が一通り終わったので、大きな変更の話をしよう。まずは、新しいSiriだ。

家にAmazon Alexaがある人や、Google Nowを触っている人なら、Appleがこの分野で後れを取っていることを知っているだろう。Appleは、スマートフォンにパーソナルアシスタントを初めて導入した企業だが、それ以来さしたる変更もない。

まず、iOS 10になればSiriはこれまでよりも音声識別能力が向上し、素早く応答し、文脈を最大限に利用できるようになるはずだ。Appleは、次世代のSiriのために前途ある技術企業VocalIQを買収した。Siriは、ユーザーが5分前に見ていたものを記憶して、それによって回答の精度を上げることができるようになっているはずだ。

次に、サードパーティの開発者は、ついにSDKを使用したSiriの統合が可能になるだろう。音声を使ってCitymapperで行き方を尋ねたり、Venmoで友達にお金を返してコンサートチケットを購入したりできたら、と想像してみてほしい。

ほかの大きな変更として、AppleはApple Musicの大規模リニューアル取り組んでいるとされている。Appleは、昨年のWWDCでApple Musicを発表した。有料会員数は数百万人に上るが、インターフェイスは相当わかりにくい。

何をするにもやたらとタップさせられるため、Connectを使う人はいない。楽曲をお気に入りにするか、ライブラリに追加するかも迷いどころだ。他にもいくらでも不満点は出てくる。Appleが、今後さらに数千万人のApple Musicユーザーを引き寄せたいと願うなら、再設計は避けて通れない道だ。

少しギアを変えてOS X 10.12ことmacOS 12の話をしよう。そう、これは誤植ではない。iOS 10のリリースと、OS Xの新しいバージョンの話が紛らわしくなってきたため、AppleはXの文字を取り、命名規則を統一しようとしている。

それ以外の情報は、あまりわかっていない。Appleは、Siriバージョン2をmacOSに追加しようとしているはずだ。たとえば、メニューバーなどに常駐させられるかもしれない。また、ウェブショッピングでもApple Payが利用できるようになるかもしれない。

Appleが、ついに大規模なiTunesアップデートに取り組もうとしているという噂もある。iTunesが古くなってきて、バグだらけになっているので新しいiTunesが今秋発表される予定で、WWDCでお披露目されるというのである。

最後に、AppleはiPhoneのTouchIDを使ってMacをアンロックできるようにするという。なぜ今なのか。Appleは、MacBook ProにTouchIDセンサーを搭載しようとしているのかもしれない……。

MacBook Proといえば、Appleは興味深い取り組みを進めている。新しいノート型Macには、最新のIntelプロセッサが内蔵されるが、それだけではない。Appleは、この機会にMacBook Proをより薄く軽量にする可能性がある。従来のUSB、HDMI、MagSafeといったポートは厚みがありすぎるので、代わりにUSB-Cポートが採用されると思われる。また、Appleはキーボードの上部にカスタマイズ可能なショートカットバーとして、小さなタッチスクリーンの追加を目論んでいる。

ただし、このMacBook ProがWWDCでの発表に間に合うとは期待しない方がいいだろう。同様に、Mac ProとMac Miniも早急なアップデートが待たれるが、今年のWWDCはソフトウェアの話題に終始しそうである。

したがって、Retinaの解像度と統合グラフィックカードを備えた新作外付けディスプレイを待っている人は、次回以降のお楽しみとなりそうだ。

少しだけtvOS 10とwatchOS 3にも触れておこう。Apple Watch 2はまだ発表されないだろうが、Appleはインターフェイスを洗練し、より強力なネイティブアプリを搭載した新しいバージョンのwatchOSを発表するかもしれない。watchOS 2で、Apple Watchはアプリプラットフォームになるはずだったが、率直に言ってwatchOSにはまだまだ手を入れる必要がある。友達画面を呼び出すのに、いまだにサイドボタンを使用しているという人も多いだろう。

tvOS 10については、論理的に考えてApple TVにも新しいバージョンのSiriが追加されるだろうという点を除けば特に情報がない。しかし、Appleのことだ。いくつかサプライズを用意している可能性はある。AppleはすでにWWDCに先駆けてApp Storeについての大量の変更を明らかにしているが、これは基調講演の内容が盛りだくさんであることを意味している。どうやら今日の基調講演は面白いものになりそうだ。TechCrunchでは、現地からの速報をお届け予定だ。

[原文へ]

(翻訳:Nakabayashi)

チャットボットには大きな将来性―ただし現行製品はどうしてああもダメなのだろう?

2016-05-31-chatbot

この記事はCRUNHCH NETWORKのメンバーでEvaのファウンダー、CEOのFaisal Khalidの執筆。Evaは消費者向けモーゲージに関するチャットボットを開発中。

今年に入ってチャットボットについてのニュースをあちこちで見かけるようになった。まずMicrosoftがTayを発表したが、>女性の声でしゃべるのが性差別主義的だと非難されただけでなく、悪意あるユーザーに教えられた通りにあらぬことを口走るようになってしまった。次にFacebookがMessengerのボットをリリースしたが、上々の滑り出しとはみえない。それからAppleのVivが話題となった。一見したところSiri 2.0のように思えたのも無理はなく、開発者はSiriと同じだった。

ニュースだけは賑やかだったが、驚くべきことに、本当に出来のいい製品は一つとしてなかったように思える。

もちろん「本当に出来のよい製品」の定義をめぐって面倒な議論を始めることは可能だ。しかし簡単にまとめれば、素晴らしい製品には3つの特長がある。 (1)機能が分かりやすく使い勝手がいい。 (2) 99%以上の稼働率、(3)なんであれ、ユーザーが厄介だと感じる作業を大幅に肩代わりしてくれる。

そこで最初の問題に戻る。なぜチャットボットというのはああもダメなのだろう? ダメ、というのは、私には広くユーザーから喝采を受けているチャットボットが一つも思いつかないからだ。もっと重要なことだが、アプリよりも使い方が簡単なチャットボットの例も浮かんで来ない。どうしてこういうことになっているのか、少し詳しく検討してみる必要がありそうだ。

あまりに手を広げすぎたチャットボットは失敗する

VivとSiriがこの範疇に入る。どちらも「あらゆる問題に役立つ」ことを目標としたため、個々の問題を解決する能力が落ちてしまった。「すべてに対応する」という目標がなぜ問題を引き起こすのか理解するためにはチャットボットの動作の仕組みを理解する必要がある。

チャットボットは通常、「脳」と「ボディー」の2つの部分から出来ている。

まず「脳」だが、これは自動車を考えると分かりやすい。車にはエンジンが積まれていて車を走らせる。ボディーはユーザーの必要に応じてカスタマイズできる。ほぼ同じエンジンを積んでいてもボディーはSUVであったり、GTであったり、普通のセダンであったりすることが可能だ。

チャットボットも同様で、「脳」はユーザーの人間が発した言葉の意味を受け取り、実行可能なコードを生成する。狭い範囲の目的に特化したボットの場合、人間が発することを予期する言葉も狭い範囲に限定される。

たとえば、飛行機のフライトの予約に特化したボットを考えてみよう。フライト予約に関連して人間が発する可能性のある単語は100語から200語くらいだろう。そこでこうした発言を理解するボットを開発するのは難しくない。そんなボットなら私でも1週間で書けるし、その反応は99%以上適切だろう。しかしもっと広い範囲をカバーするボットを開発しようとすれば、それだけ多数の文が処理できなければならない。Siriのように「どんな場合にも役立つ」ボットであれば、理解しなければならない文の数は無限に近くなる。

「あらゆる文を正しく理解する」というのは信じがたいほど困難な作業だ。ほとんど無限といってよいエンジニアリング上の努力と時間を必要とする。人間の子供が言語を正しく使えるようになるのに数年かかるなら、人工知能が言語を理解できるようになるにもそのぐらいかかるだろう。しかし人間でさえ常に理解が成功するとは限らない。それは自然言語にはきわめて非論理的な側面があるからだ。たとえば6歳の子供は次に何を言い出すか分からない。しかし40歳の大人が相手だったら次に何を言いそうか予測することははるかにやさしい。

チャットボットのもう一つの要素は「ボディー」だ。私が上で述べたように、こちらは比較的「やさしい」部分だ。量は巨大であっても中身は「知識」にすぎない。ターゲットとする分野にもよるが、適切なカスタマイズにはもちろん多大のリソースを必要とする。さきほど述べたようにフライトの予約に役立てたいだけなら知識の量はさほど必要ない。おそらくはTripAdvisorのAPIを使うだけで相当に実用的なチャットボットが作れるだろう。

「なんでもできる」上に「非常に優秀」であるようなチャットボットはまず存在しない

私は金融分野で役立つチャットボットの開発を行っているが、この分野のハードルは非常に高い。必要とされる知識は莫大なもので、それをボットが利用できるように整理するためには非常に時間がかかる。金融サービスのサイトを見てみればわかるが、この分野の言語は特殊だ。チャットボットは、定義上、普通の人間が話したり、しゃべったりすることを理解でき、そのように話したり、しゃべったりできなければならない。金融は当然ながら複雑で理解が難しい分野だ。金融サービスの術語や特異な表現をチャットボットが話す言葉に翻訳するのはおそろしく時間がかかり、ハードルが高い作業だ。

本当に知的な作業ができるボットを作るのも難しい

こう言えば驚く読者も多いだろうが、現行の チャットボットの大半は実は全く知的ではない。ともかく私が使ったことがあるボットは知的ではなかった。チャットボットが知的かどうかは主として次の2つの基準で判断できる。(1) サービスが自己完結的であり、利用を続けるうちに自然と賢くなる。 (2)ユーザーは文字通り自由に文を組み立てて質問ができる。

具体例を考えてみよう。MicrosoftのチャットボットのTayは知的なボットの代表だろう。話しかけれられたことを何でも理解しようと務める様子がみえる。利用時間とともに機能も向上していく、つまりいちいち命令を受けなくても、聞いた言葉からパターンを抽出し、理解できるようになるはずだ。少なくとも理屈の上からは、そうだった。では知的でないボットの例はというと、残念ながらFacebook Messengerのボットの大部分、CNNのボットなどがそうだ。これらのボットが理解できるのは事前に用意された定型的な文だけだ。

ところが注意しなければならないのは、実際に役立つ―つまり予期せぬ動きをしたりぜず期待されたとおりに仕事をこなす―ボットは知的でない製品だ。その理由はこうしたボットは事前に決められた有限の道筋しか辿らないので失敗しないのだ。

デモでクールなチャットボットのUIを書くのは面倒な作業

こkで面白い点がある。われわれが見たチャットボットのデモのほとんどは(たとえばVivなど)こうした面倒な点をまったく無視している。優れたアプリの場合、ユーザー側の入力はほとんど必要ない。何度かスワイプし何度かクリックすれば終わりだ。それで役目は果たせてしまう。キーボードからのタイプはほとんど必要ない。ところがチャットボットではそうはいかない。

チャットボットは物事の説明を練習するには良い―うまく説明できるまで質問攻めにされる

現在のところ、たいていのチャットボットは音声認識をサポートしていない。そこでユーザーはひたすらタイプ入力を強いられる。当然ながらこれはスワイプやクリックに比べて時間を食う作業だ。その結果、チャットボットはアプリよりはるかに効率が悪いという結果となる。直感には反するかもしれないが、これが現実だ。しかも入力した文をボットが理解できない場合、ユーザーは同じ質問を別の表現に変えて再入力しなければならいので、能率はさらに悪くなる。

チャットボットは失敗を運命づけられているのか?

もちろんそんなことはない。その反対だ。しかし現在チャットボットはきわめて初歩的な段階にある。 ブラウザでウェブサイトを使うのに比べて専用アプリのほうがはるかに処理が速く、使用も簡単なことは10年から15年前に分かっていた。モバイル・アプリのメリットは当時から明白だった。

ところが現在チャットボットを利用してみても、メリット―スピードと使い勝手―は明白とはいえない。 またスピードが速く使い勝手がいい場合でさえ、正確性が不足しているために仕事に使えるのかどうか確信が持てない状況だ。

個人的な意見だが、「知的でない」なチャットボットがまず実用になると思う。たとえばカスタマー・サービスでFAQに答えるような場合には役立つだろう。また金融サービスのような複雑な問題をわかりやすく説明するのにも好適だ。もしもっと複雑な問題、たとえばそれまで接触がなかった顧客が家を買おうとするような場合に、必要な情報を細大漏らさず提供できるようなボットができればその価値は計り知れない。

チャットボットは同じ質問に疲れることなく繰り返し繰り返し答えることができる。ユーザーは納得がいくまで細かく質問できるし、ボットはそれに応じて細かい点まえ説明できる。またチャットボットは、長い入力書式を代替するのにも向いていると思う。書式に延々と入力させるのはいかにも非人間的だ。ボットの方がずっと人間味があるだろう。つまり起業家がチャットボットでビジネスを考える場合、適用可能な分野は数多くあるということだ。

最後にVivについて

一部にVivについての誤解があるようだ。まずVivはSiriではない。つまり「なんにでも対応」することぉ目的とする独立のチャットボットではない。先ほどの比喩でいえば、Vivは「脳」ないし「エンジン」の部分に相当する。Vivは回答に当たってサードパーティーのAPIからの入力を前提としている。Vivは他のチャットボットないしチャットボットAPIを作動させる共通のプラットフォーム、いわばチャットボットのOSとなることを目指している。

もしVivが成功するなら、やがてチャットボットのApp Storeのような存在となるだろう。チャットボットのデフォールトのプラットフォームを狙うんはFacebook MessengerやSlack、さらにその他のSNSも同様であり、Vivのライバルになるだろう。

さてチャットボットの将来は以上述べたようになるだろうか? 実のところ私にも確信はない。私はVivのような中央集権的、OS的なチャットボットが存在するのが良いことかどうかについても確信はない。われわれは新しいアプリが必要なときはApp Storeに探しに行く。将来はチャットボットもApp Storeのような場所に探して行くことになるのだろうか? 今は分からないとしか言えない。しかしやがて判明するときが来るだろう。

F画像: photosync/Shutterstock

[原文へ]

(翻訳:滑川海彦@Facebook Google+

TechCrunch Disrupt:Siriの共同ファウンダーが音声認識で会話する次世代AI、Vivアプリをデモ

2016-05-10-tcdisrupt_ny-kittlauspg

自然言語の音声認識をベースにした人工知能インターフェイスの有用性はコンピューティングにおける新たなパラダイムシフトを起こしつつある。

今日(米国時間5/9)、ブルックリンで開幕したTechCrunch Disrupt NYのステージで、Siriの共同ファウンダー、元CEOのDag Kittlausが新しい人工知能プラットフォーム、Vivで開発されたアプリを初めて公開デモした。Kittlausによれば、Vivは「すべてに対応する知的インターフェイス( intelligent interface for everything)」だという。

VivのデモでKittlausは事実、「パラダイム」という言葉を少なくとも10回は使った。Kittlausは次世代のコンピューティングについても触れ、Vivが「さまざまな対象にいわば命を吹き込み、人間との会話を可能にするだろう」というビジョンを述べた。

目を皿のようにした大観衆の前だったにもかかわらず、ライブのデモは目立った齟齬もなくスームズに進んだ。

Kittlausはまず「今日の天気はどうなるだろう?」という質問からデモを始めた。そこから話題はVivがいかに複雑な問題に取り組まねばならなかったが説明された。

「ゴールデンゲートブリッジ付近で、明後日の午後5時以降、華氏70度(21℃)以上になるだろうか?」とKittlausはステージ上でVivに尋ねた。

Vivはこの質問に難なく答え、これに続く奇妙なほど詳細な質問にも適切に対応した。

Dag Kittlaus of Viv

このレクチャーで明らかになったVivの強みの一つはサードパーティーを歓迎するオープンな姿勢だ。Vivはデベロッパーがアプリを開発する際に組み込まれるバーチャル・アシスタントのプラットフォームだ。デモでKittlausはVivに友達に20ドル支払うよう命じた。するとVivは提携アプリのVenmoを立ち上げ、「支払」ボタンが表示された。あとは1回タップするばかりとなった。

Kittlausは「サードパーティーのエコシステム」がVivにとって決定的に重要であることを強調した。KittlausはVivが将来、「ユーザーにとって普遍的なリソース」となることを期待している。

Vivの特長の一つは「質問の積み重ねが可能」な点だ。Siriは一つ質問に答えられても、その後は何を質問されたか忘れてしまう。これに対してVivはある質問に答えた後でも何を質問されたか覚えており、最初の質問をフォローする質問を受けた場合もよどみなく適切に反応する。

TechCrunchの編集長、Matthew Panzarinoの壇上での質問に答えてKittlausは他のAIアシスタントとVivとの差異を詳しく語った。

それによると、Vivの強みの秘密は「ダイナミックなプログラム生成」にあるという。固定したプログラムにもとづいて固定した反応を返すのではなく、VivのAIは質問を理解するとそれに適切に答えるためのプログラムを動的に生成する。

Kittlauは「プログラマー側で処理コードを1行ずつ書く必要なしに、Vivは尋ねられたことに答えるための処理を行うプログラムを自ら書く。Vivの最大のメリリットはアプリのプログラマーが〔AIの詳細に立ち入らずに〕どんな反応が必要かさえわかっていればいいという点だ」と述べた。

デモを見ているうちに、必然的にSiriとの比較が頭に浮かんだ。Siriはデビュー当初、画期的な進歩だと賞賛されたものの、次第に欠点も浮き彫りになっていった。現在、Siriについて「日常の情報源として利用するには信頼性が不足している」という批判が強まっている。

この状況は、SRIで開発された人工知能テクノロジーを2007年にSiriとして実用化したのがほかならぬKittlausのチームだったという点で皮肉だ。Siriが発表されたとき、Kttlausが用いた表現は、Vivの将来を描写した表現とよく似ている。Siriは当初オープン・コンピューティングをサポートするとしており、リリース時点で45種類のサードパーティーのサービスをサポートしていた。しかしSiriはその後すぐ、2010年に2億ドルでAppleに買収され、iOS専用のアシスタントとなり、サードパーティーのサポートはすべて打ち切られた。

Vivの開発はこの4年間、どちらかというとステルス的に行われてきた。Vivは昨年、Iconiq Capitalから1250万ドルを調達したが、Forbesの記事によれば、それ以外にもFacebookのマーク・ザッカーバーグやダスティン・モスコヴィッツ、シェリル・サンドバーグ、Twitterのジャック・ドーシー、LinkedInのリード・ホフマンらに支援されているという。

Q&Aセッションでは聴衆からWashington Postが報じたようなFacebookやGoogleによるVivの買収の可能性に関する質問が出た。これに対してKittlausは「そういう噂があるようだ。誰でも記事を読むことはできる」と受け流した。

この質問はVivにしたほうがよかったかもしれない。

聴衆からはVivが広く利用可能になるのはいつかという質問が多数出たが、Kittlausは特定の日時を明かすことを避けた。ただし「最初の提携アプリは今年後半には登場するだろう」と述べた。

[原文へ]

(翻訳:滑川海彦@Facebook Google+

Siriの共同ファウンダー、Dag Kittlaus、次世代AIのVivアプリを来週のTechCrunch Disruptでデモ

2016-05-07-earth

Siriは世界中の何億というAppleユーザーに使われているが、この遍在的ソフトウェアを開発したのはほんの小人数のチームだということはあまり知られていない。Siriの共同ファウンダー、元CEOのDag Kittlausはその1人だ。

現在Dagのチームは新しい人工知能プラットフォームVivを開発中で、Dagは来週のTechCrunch DisruptでVivを利用して開発されたアプリをデモする。

Dagは同じく元SiriのAdam Cheyer、Chris Brighamと共にVivの共同ファウンダーであり、現在同社のCEOを務めている。Siriのテクノロジーは最初にSRIで開発され、2007年にDagらがこのテクノロジーを利用するビジネスをスタートさせた。

Siriは当初App Storeに登録されたアプリだった。2010年にAppleはSiriを買収し、DagはiPhoneアプリ担当副社長としてSiri及び音声認識テクノロジーの開発チームを指揮した。2012年にDagはAppleを去り、さらに高度な人工知能プラットフォームを目指すVivを起業した。

Dagは来週ニューヨークで開催されるDisrupt NY 2016で人工知能の将来について講演すると同時に世界最初のVivアプリをデモしてくれることになった。

Vivプラットフォームはまだ正式にリリースされていないが、その目的は「どんなことについても自然に会話できる」ような人工知能をデベロッパーがアプリに簡単に組み込めるようにするプラットフォームの開発だ。 DagはAppleを離れた直後に、TechCrunchにSiriはほんの手始めにすぎないという記事を書いて Vivを予告した。Dagは人工に知能についてカンブリア期の生物進化の爆発のテクノロジー版が起きるという記事も寄稿している。

FullSizeRender (1)

Dagはモバイル・ビジネスに長い経験がある。VivとSiri以前にはTelenor MobileとMotorolaで幹部を務め、Motorolaでは人工知能インターフェイスを開発するInteractive Media Groupを創立した。VivはAIシステムが新しいタスクを実行するためには自らコードを書く機能、いわゆるプログラム合成テクノロジーの大幅な進歩をベースにしている。

Siriは単独のアプリだが、VivはデベロッパーがAIによる会話的能力をアプリに組み込めるようにするためのインフラ開発を目指している。Dagによれば、現在あらゆるアプリに搭載されている「検索ボタン」と同じくらい、Vivによる会話機能を普遍的なものにしたいという。TechCrunch DisruptではVivプラットフォームを使って開発されたアプリがデモされるというので、プラットフォームの能力の一端が明らかになるだろう(Disrupt NY 5月9日から11日にかけてブルックリンのレッドフックで開催される。チケットはこちら)。

Dagの他に、KikのTed Livingston、Starfish MediaのSoledad O’Brien、Amazon Echoの副社長Mike Georgeなども講演する予定。

[原文へ]

(翻訳:滑川海彦@Facebook Google+

AppleのSiriがアメリカと世界のプロ野球雑学博士になった

485131631_4705a29f2c_b

プロ野球の今年のシーズンの開幕に合わせて、Appleは野球のデータや雑学知識をたっぷりとSiriの脳に詰め込んだ。

そこで今のSiriはベーブルースの生涯打率を知ってるし、2008年の、フィリーズが優勝したワールドシリーズのときのラインナップだけでなく、なんと1934年のワールドシリーズについても知ってる。

Siriは、全世界の29のプロ野球リーグについても勉強した。今ではMLBだけでなく、Cape Cod LeagueやNippon Pro Baseball(日本野球機構)のことも質問できる。これらのリーグは、選手個人のデータはないが、試合結果の記録はある。

Siriそのものの重要なアップデートではないけど、野球シーズンの再来を祝うにふさわしい仕掛けだ。また、Siriの高度な自然言語処理能力を誇示する、良い機会でもある。

“how many home runs did Babe Ruth have during his career”(ベーブルースは生涯に何本ホームランを打ったか?)のような問に対して、これまでのSiriならたぶん、あのいまいましい”here’s what I found on the web”(Webにはこんなものがありました)を返しただろう。でも今度からは正しい答を返すから、Siriをより一層、人間らしく感じるだろう。

この機能はすでに使える状態なので、Siriを困らせて楽しみたい人は、ぜひトライしてみよう。

  1. img_2321.png

  2. img_2323.png

  3. img_2324.png

  4. img_2322.png

 

[原文へ]
(翻訳:iwatani(a.k.a. hiwa))

電波を使ってSiriに音声コマンドを送り込む方法が発見された

siri-hint

巧妙なハックによってSiriコマンドに望まれないコマンドを送ることができる。方法は、iPhoneのシールドされていないイヤホンに向けて電波を送るだけ。このハックは不必要に複雑だが ― イヤホンのところへ行ってボタンを手で押せばいい ― 興味深い侵入方法だ。

フランスのセキュリティー団体ANSSIの研究者らは、iOSまたはAndroid端末につながれたマイクロホンに電波を送信する方法を発見した。電波は音ボタンを起動して、例えばSiriを立ち上げてボイスコマンドを発行できる。端末が起動すれば、ハッカーはコマンドを送り込んでメッセージを送ったりアプリをアクセスしたりウォレットを開くことができる。

彼らの発見は、電磁両立性に関する論文に掲載されている。

「われわれは電磁妨害を意識的に賢く利用することによって、長年否定されてきた効果ではなく、情報システムに対して好影響を与えることができた。その結果に基づき、最新スマートフォンにおける新しい無声リモート音声コマンド送信方法を紹介する」と研究員のJosé Lopes EstevesとChaouki Kasmiは書いた。

繰り返すが、これは複雑な攻撃方法であり殆どの人にとって心配無用だ。それでも侵入を妨ぎたければ、iOSの設定→Touch IDとパスコード→ロック中にアクセスを許可、でSiriをオフにすればよい。IMG_0096

研究員らは、メーカーがイヤホンをもっと積極的にシールドして電波妨害を防ぐことを推奨している。

[原文へ]

(翻訳:Nob Takahashi / facebook

Amazon Echoは、Siri風アシスタントが常時待機している199ドルのスピーカー


Amazonは、現在どのIT企業も同等品を出していない新製品を発表した ― つながっているスピーカー、Echoは、常時オン状態で待機して、バーチャルアシスタントが利用者の命令を聞いて情報を知らせたり作業を開始したりする。

この円筒形デバイスは部屋中に広がる音を出し、上部にある7つのマイクロフォンは、ビーム形成技術を使ってユーザーの声を特定し、部屋のどこから話しかけられても聞き取ることができる。要求を理解しやすくするために、演奏中の音楽などのバックグラウンド音をフィルターすることもでき、音声はAmazonのクラウドベース・ウェブサービス経由で処理されるため、要求の認識は対応は時間と共に改善されていく。

360度全方向スピーカーを内蔵し、ユーザーの端末からBluetooth経由で接続するほかに、Amazon Music Library、Prime Music、TuneIn、およびiHeartRadioの音楽再生機能が標準でサポートされている。さらに、地方ラジオ局やNPR、TuneIn経由のESPNその他の情報源によるニュースや気象情報を聞くこともできる。ユーザーの質問には、Wikipediaから得た基本情報、単語の意味、さらには単位の変換もリアルタイムで答えてくれる。


Amazonは専用のEchoアプリも公開し、Fire OS、Androidで動作する他、iOSのSafari、およびデスクトップ経由で制御するためのウェブベースアプリも提供される。ユーザーはこれを使って、サービスの設定、アラームの確認、リマインダーや買い物リストのチェック、その他ユーザーがスピーカー自身を経由して入力した情の確認等ができる。


Amazon Echoaの価格は199ドルで、Primeメンバーは期間限定で99ドルだが、注文するためにも同社からの招待が必要だ。これは全く思いがけなく現れた製品だが、Amazonの極秘プロジェクト、Lab126が様々なガジェットを手がけているという情報は今年になって聞いていた。家中で使える常時オンのSiriが、いつでも質問に答え情報を提供するというアイデアは、将来のApple TVに組み込まれるという噂もあり、少なからぬスタートアップの頭の中にある概念でもある。

Amazonにとっては明らかな利益がある。ユーザーの声を聞き、音声による問い合わせを処理することは同社のコンセプトそのものだからだ。それは、ユーザーにこのアイデア全体を不安に感じさせるものでもある。AmazonのFire Phoneが、ユーザー指向の利便性を提供することより、客をAmazonのウェブストアに誘導するためにあると、多くの人々が感じたのと同じだ。Amazonによると、Echoが聞くのはアクティベーションワードを言った時だけだそうで、標準では “Alexa” になっているようだ。

すべてが少々不可解ではあるが、主要IT企業の新製品としてかなりユニークであることには興味をそそられる。さらに、もしこれがPhilipsのつながる電球 Hueや、Nestの学習サーモスタット等のスマートホーム機器分野ともつながるようになれば、家全体のスマートハブへとシフトする可能性も見えてくる。現時点で見る限り、消費者への売り込み方は奇異に感じるが、操作するためにユーザーが頭を動かさなくてはならない3D表示付スマートフォンよりは、おそらく分別ある商品なのだろう。

[原文へ]

(翻訳:Nob Takahashi / facebook