「Clubhouse」の音声データが中国当局に漏れる可能性が浮上、開発元はセキュリティ強化を実施

「Clubhouse」の音声データが中国当局に漏れる可能性が浮上、開発元はセキュリティ強化を実施

Rafael Henrique/SOPA Images/LightRocket via Getty Images

日本でもにわかに話題となり、あっという間に一部の人々に浸透した感のある音声チャットサービスClubhouseですが、その会話データが中国政府に流れている可能性が浮上し、セキュリティ対策の強化が行われています。

問題を発見したスタンフォード大学の研究者によれば、Clubhouseの開発者Alpha Explorationはサービス提供のために上海を拠点とするソフトウェア企業Agoraのサーバーをバックエンドとして利用しており、さらにユーザーごとにユニークなClubhouse IDとチャットルームIDが平文でやりとりされることから、Agoraが生の音声データにアクセス、保管できる可能性が高いことがわかったとのこと。

IDが平文で流れているということは、Clubhouseのトラフィックを眺めていれば、どのチャットルームに誰が集まっているかを簡単に知ることができます。また会話のメタデータがすべて中国に流れてから中継されていることで、中国当局がこれを国家安全保障上の脅威だと見なせば、中国の法により音声データを含むすべてを複製し政府に提供させることができてしまいます。

当然ながらAgora側はこの報告を否定し、データを保存することもなければ、音声データそのものが米国内にあれば中国政府がそれを入手することもできないと反論しました。Alpha Explorationもサービスを開始の際「プライバシーの取り扱いに関する事情を考慮し、中国ではサービス提供をしないことを決めた」と説明しています。

しかし、中国国内のユーザーがClubhouseアプリの入手方法を見つけ出し、中国政府が先週、アプリの使用を禁止したことは、それが中国でも利用できていたことを意味します。

音声データが仮に中国国内の他の企業を介していたとすれば、当局がそれを手に入れることもできるはずです。ただ、研究者らはAlpha ExplorationがAgora以外の中国企業を利用しているとの証拠はないとしており、いまのところ中国政府には会話内容が渡るようなことはない模様です。

ただ、Alpha Explorationは中国国内でのサービス使用に成功したユーザーについても保護するとしており、「アプリが中国国内のサーバーに情報を送信しないよう、暗号化措置を追加する」と述べました。暗号化はサードパーティーの企業に依頼し72時間ほどで完了するとしており、中国からユーザーに関する情報やデータを取得することは難しくなるはずです。

ただ、サービスを提供していない中国国内でそれを利用できたユーザーは、おそらく都心部に住む富裕層と考えられ、中国当局の監視の標的になる可能性があります。いまはまだ招待制で、端末が比較的高価なiPhone向けにしかリリースされていない状況ですが、サービスが収益化を見据えて成長を続け、あらゆる人が安心して利用できるようにするためには、暗号化対策を追加し安全性の高さをユーザーにアピールするのは重要なことです。

(Source:Stanford Internet ObservatoryEngadget日本版より転載)

関連記事
Appleのティム・クック氏がアドテックは社会の破滅をもたらすと警告、同社アプリトラッカーのオプトイン機能を擁護
サードパーティーがユーザーデータを知らぬ間に収集する副次的監視の時代を終わらせよう
中国で人気が出すぎたClubhouseがつかの間の検閲回避を経て利用禁止に
Clubhouseと中国、ライバルアプリや生まれつつあるクローンそして政府による情報管理
プライバシーポリシーへの懸念で欧米で人気のSignalとTelegramは中国国内でも(いまのところ)拡大中
プライバシーがテック企業の新たな競争の場に
Zoomがセキュリティを巡る「虚偽」主張問題で連邦取引委員会と和解
Zoomが待望の無料ミーティングのためのエンドツーエンド暗号化を開始するが機能制限多数
人気の無料VPNではプライバシーは保護されていない
TikTok、WeChatをめぐる騒動と、米中間で広がるデジタル格差
TikTokのファクトチェック、米国でのIPO、中国の所有権、そして5000億円超の税金
中国が考える「データセキュリティの世界標準」が明らかに
TikTok禁止を予期して世界中でVPNの人気が急上昇、なぜ?
インド政府がTikTokなど中国企業の59のアプリを禁止すると発表
Zoomが中国政府の要請で人権活動家のアカウントを一時停止したことを認める

カテゴリー:セキュリティ
タグ:暗号化(用語)SNS / ソーシャル・ネットワーキング・サービス(用語)音声Clubhouse(製品・サービス)中国(国・地域)VPN(用語)

登録者数200万人超、最大12名のグループ通話を楽しめる音声SNS「Yay!」が5.5億円調達

登録ユーザー数200万人超、グループ通話を楽しめる音声SNS「Yay!」が総額5.5億円調達

通話コミュニティサービス「Yay!」(イェイ。Android版iOS版)を運営するナナメウエは2月12日、Yay!運営強化を目的とする5億5000万円の資金調達を発表した。エクイティおよびデットファイナンスを活用し実行した。引受先はNOW、TLM、個人投資家。借入先は三井住友銀行、千葉銀行、群馬銀行、武蔵野銀行、金融政策公庫。

2013年5月設立のナナメウエは、「すべての人に居場所を」というコンセプトを掲げ、2020年1月にYay!を開始。同SNSでは、世代や趣味趣向が同じ人達がアルゴリズムによってマッチングされ、そのコミュニティの中でリアルタイムのグループ通話を楽しめる。2020年12月には登録ユーザー数が200万人を突破した。

登録ユーザー数200万人超、グループ通話を楽しめる音声SNS「Yay!」が総額5.5億円調達

関連記事
中国で人気が出すぎたClubhouseがつかの間の検閲回避を経て利用禁止に
Clubhouseと中国、ライバルアプリや生まれつつあるクローンそして政府による情報管理
いまさら聞けない話題の音声SNS「Clubhouse」のどぎまぎしない使い方
TwitterがソーシャルポッドキャスティングアプリBreakerを買収、Twitter Spacesの開発を支援
ゲームチャットDiscordが145億円調達、月間アクティブユーザーは1.4億人
YouTubeが音楽ファンをターゲットにした音声重視のオーディオ広告を開始
ボイスチャット特化のバーチャルオフィス「roundz」を提供するラウンズが5000万円調達
音声配信アプリ「stand.fm」が配信者の収益化を支援する「月額課金チャンネル機能」開始
ボイスメディアVoicyが月額課金機能「プレミアムリスナー」を公開、インターネットから「声のプロ」の輩出目指す
ジオロジック「GeoLogic音声広告」が「radiko」上でエリア指定ラジオ広告を配信可能に
周囲雑音抑制需要の高まりを受けスマートノイズ抑制技術を擁するKrispが5.3億円を調達
AIとクラウドソーシングでコンテンツ監視のコストを減らす「Posmoni」公開

カテゴリー:ネットサービス
タグ:音声SNS / ソーシャル・ネットワーキング・サービス(用語)資金調達(用語)ナナメウエ(企業)Yay!(製品・サービス)日本(国・地域)

会議や講演の音声をAIで自動的に文字起こしする「Smart書記」が8500万円を調達

会議や商談、インタビュー、記者発表などにおける会話や音声をテキストに変換したいと思った場合、ICレコーダーやスマホのボイスレコーダーアプリなどを使って録音し、人力で文字起こしをすることが多いのではないだろうか。

一方でエピックベースが手がける「Smart書記」は、AI音声認識技術を用いてマイクが拾った音声をリアルタイムに自動で文字に起こす。ユーザーはその内容を基に編集を加えるだけでいいので、ゼロから文字起こしをしていた時に比べて手間が少ない。

Smart書記は電子書籍の流通事業などを手がけるメディアドゥの新規事業として2018年6月にスタート。無料のトライアル利用も含めて累計で800社以上に活用されてきた。今後の成長を見据えた上でメディアドゥから切り出すことを決め、現在はカーブアウトする形で2020年1月に設立されたエピックベースが運営を担っている。

そのエピックベースは3月12日、メディアドゥからの独立とともに、メディアドゥホールディングス、Coral Capital、三木寛文氏、宮田昇始氏(SmartHR代表取締役)、内藤研介氏(SmartHR取締役副社長)より総額8500万円の資金調達を実施したことを明らかにした。

音声データをリアルタイムでテキストに変換

Smart書記はマイクから集音した音声をAIによる音声認識技術によって自動で文字に起こしてくれるSaaS型のプロダクトだ。大きく「収録・文字起こし」「編集」「出力」の3つの機能を通じて、会議の議事録や講演録などを作成する際のユーザーの文字起こし業務を支援する。

まずユーザーはICレコーダーなどで録音する代わりに、Smart書記を開き音声を吹き込む。たとえば会見であれば発表者が装着したワイヤレスピンマイクを通じてバックヤードのPCで音声を取得する、会議であれば参加者が自分のPCにピンマイクを指して収録する、取材や商談であればスマホやタブレット(Smart書記のiOSアプリ)を机に置いて会話をする、そんなイメージだ。

そうやって音声を入力していくと、“発言ごとに細かく区切った状態で”リアルタイムにどんどんテキスト化されていく。この細かく区切るというのが1つの特徴で、これによって各パートごとにテキストを編集することはもちろん、後から確認したいと思った時にその部分だけをピンポイントで再生することもできる。

会議など複数人の会話を文字に起こしたい場合、各々がマイクをつけた状態で収録すれば発言者の名前(音声入力した人の名前)が自動で入力され、誰がどの発言をしたのかがわかるのも使いやすいポイントだ。テキスト化する際には、辞書登録を行うことで誤り語句を自動的に訂正語句へと置き換えてくれる「訂正学習機能」や会話を自動翻訳してくれる「同時翻訳機能」も役に立つ。

そのほかにもセクションを分けたり補足のコメントを追加したりする機能、重要な箇所をハイライトするマーカー機能などを搭載。テキストデータはExcel、Word、テキストファイル形式でダウンロードできる。

料金体系は月額10万円からの定額制。文字起こしをした時間の合計時間が200時間を超える場合には、1時間あたり500円の追加料金がかかる仕組みだ。

エンタープライズや自治体を中心に活用進む

もともとSmart書記はメディアドゥと徳島県が2017年10月から6ヶ月に渡って行った実証実験を機に生まれたプロダクトだ。

これは県知事による記者会見の議事録を作成する際、AIを活用して文字起こしとテキストの要約を効率化することを目的として実施したもの。開発前の段階ではAI要約の方のニーズが強かったそうだが、実際にやってみると文字起こしの方により大きな効果があったという。その後展示会に出してみても反響が良かったため、2018年6月に自動文字起こしサービスとして正式にリリースした。

たとえば徳島県庁の事例では議事録作成までにかかっていた工数を約10時間から約2時間にまで減らすことができたそう。知事の発言をWebサイト上で公開するまでのスピードも、約4日ほどかかっていたところが即日になった。

エピックベース代表取締役の松田崇義氏によると導入企業の約8割がエンタープライズや自治体関係とのこと。会議の議事録作成が義務化されていたり、会見の内容をテキストで発表したりするなど文字起こしのニーズが高く、なおかつその頻度も多い大企業・自治体からは特にニーズが高い。多い時には1日で10件前後の問い合わせもあるそうだ。

この「音声データを手間なくテキストにしたい」というニーズは国内外で共通するものだろう。国内では音声認識技術を手がけるアドバンストメディアなど複数社が文字起こしシステムを展開しているほか、海外でも1月にNTTドコモが協業を発表したOtter.aiなど複数のプレイヤーが存在する。

現在Smart書記では音声認識と翻訳の技術についてはGoogleのAPIを活用。一方で同じエンジンを使っていても「どれだけクリアな音声を入れるかによって精度はかなり変わってくる」ので、その質を高めるための運用サポートや、編集のしやすさを中心としたプロダクダクトの使い勝手の改善に力を入れてきた。

同時翻訳機能を使えば、文字起こししたテキストの下に自分が設定した言語へ翻訳した内容が一緒に表示される

「精度はもちろん高い方がいいが、100%の精度を求められているというよりも、80〜90%くらいで運用負荷が少なく確実に文字起こしの業務効率化に繋がるサービスが必要とされている。実際に導入検討頂く際にはある程度の精度を担保しているという前提で、運用の負荷が1つめのポイント、その次に情報セキュリティの観点も入ってくる。同じ領域のサービス自体はいくつかあるものの、これらの要件を満たしたものはまだ少ない」(松田氏)

音声データをビジネスシーンで有効活用できる基盤に

今回調達した資金は主にプロダクト開発やサポート体制を強化するための人材採用に用いる。まずは文字起こしの作業負担削減を支援するプロダクトとしてアップデートをしつつ、そこで取得した音声データをビジネスの現場でもっと有効活用できるような基盤を整えていく計画だ。

「2000年前半にブロードバンドやWindowsが本格的に普及した結果、PCを使って仕事をする人が増えた。そして2010年前半にはスマホやタブレットが登場し、チャットやクラウドサービスがビジネスの現場で広がった。これまでテクノロジーやネットワーク回線の進化がビジネスシーンにも大きな影響をあたえてきたが、今後キモになるのは『音声』。音声を取得するための高品質なデバイスや5Gの登場によって、ここからまたビジネスが変わると考えている」

「まずは目の前にある『文字起こしの作業負担を軽減したい』という顧客の課題をしっかり解決する。その上で音声データが溜まってきたフェーズでは、たとえば音声ファイルを検索して移動中などにすぐ聞けるようにするなど、ビジネスの現場で音声を活用できる基盤を作っていく。企業が音声という資産をSmart書記に蓄積していくことで、もっと有効活用できるようにしていきたい」(松田氏)

エピックベース代表の松田氏はSmart書記ローンチ時からのメンバーではなく、2019年7月よりメディアドゥに加わり事業部長として同サービスの成長を牽引してきた。

もともとは新卒入社した楽天を経てデジタルガレージに転職し、スタートアップへの投資やアクセラレータプログラム「Open Network Lab(オンラボ)」の運営を担当。その後参画したフーモアでは取締役COOも務めた人物だ。

ちなみに今回のラウンドにはSmartHRの宮田氏や内藤氏も個人投資家として参加しているが、彼らとはオンラボ時代からの縁(同社はオンラボの卒業生)もあり、“エンジェル投資”という形で一緒にチャレンジすることになったという。

作家の小説を声優が“音声化”して届ける「Writone」リリース、NOWらから資金調達も

スマートスピーカーの台頭などもあり、近年“音声”に関する市場やサービスが注目度を増してきている。

本日正式版がリリースとなった「Writone(ライトーン)」もまさに音声に関するプロダクト。少し大雑把な表現をすると、いわゆるオーディオブックに独自の工夫を加え、より民主化したものと言えるかもしれない。

Writoneは作家ユーザーが投稿したオリジナルの小説を、声優ユーザーが音声コンテンツに変えて配信するプラットフォームだ。リスナーは興味のある作品を読むのではなく、音声で聞くことができる。それも声優(声優の卵も含まれる)の声で、だ。

本の内容を音声化して提供するという点では上述した通りオーディオブックの概念にも近い。ただWritoneの場合は元となる作品を誰でも手軽に投稿できることに加え、ひとつの作品に対して複数の声優が参加できることがユニークな特徴となっている。

複数の声優が同じ作品を音声化している場合、リスナーは誰の声で聞くかを選ぶ楽しさも味わえる。もちろん作品から入るのではなく、声優をベースに「この人が配信しているなら買いたい」という理由で作品を発掘するような楽しみ方もできるだろう。

各声優ユーザーは音声化した作品の価格を自由に決めることが可能。現在は作品が売れた場合、価格がいくらであるにせよ売上の80%が声優に、20%が作家に分配される仕組みだ。

Writoneを開発するのは福岡に拠点を構えるLyact。同社は2018年4月の設立で、本日プロダクトの正式リリースとともにNOWとF Venturesを引受先とした第三者割当増資を実施したことも明らかにしている(具体的な調達額は非公開だが、数千万円前半になるという)。

代表取締役社長の古賀聖弥氏は高校生の頃から将来起業することを考えていたそう。卒業後に一度中国電力に就職するもすぐに都内のスタートアップへとキャリアチェンジをし、そこでプログラミングを学んだ。その後福岡でもスタートアップで働いた後、今年の4月にLyactを立ち上げた。

Writoneの着想は「もともと自身が本を読むのが好きだったものの、学生時代に比べて読書に使える時間が減ってしまった」こと。そして「小説家を目指し小説投稿サイトなどに作品を投稿するも、なかなか読んでもらえず課題感を感じている作家が多いと知った」ことからきているそうだ。

「実は当初小説の音声化にはグーグルのCloud Text-to-Speech(テキストを読み上げてくれるサービス)を使うことを検討していた。その段階で家入さんに相談する機会があり、声優や声優の卵がたくさんいて、専門学校を卒業したもののなかなか活躍の場がなくて困っている状況を知ったため、今のモデルにした」(古賀氏)

正式版のリリースに先立ち、作家と声優向けにベータ版を公開。すでに作家ユーザーが約300名、声優ユーザーが約200名登録していて、投稿された小説の数も800冊に及ぶという。

現時点のWritoneの機能はとてもシンプルで、「作家が小説を投稿できる」「声優が小説を音声化して配信できる」「リスナーが気になった音声小説を聞くことができる」といったことに限られる。

古賀氏の話では今回調達した資金も活用して開発体制を強化し、機能を拡充させる計画。たとえばテーマごとにコンテストのようなものを取り入れたり、ひとつの作品を複数の声優が分担して音声化したりできる機能(例えば複数のキャラクターが登場する小説において、キャラクターごとに別々の声優が担当するといたように)を追加したりといったことを検討していく。

「Writoneを通して小説を書くことが好きな作家や、声の仕事をしていきたい声優がより活躍できるような場所を提供していきたい」(古賀氏)

今年に入ってTechCrunchでもオトバンクのオーディオブック聴き放題サービス「audiobook.jp」や声のブログ「Voicy」、音声フィットネスガイドアプリ「BeatFit」といった音声に関するサービスを紹介してきた。

冒頭でも触れた通り、今後も音声に着目したプロダクトはまだまだ増えていきそうだ。

写真1番右がLyact代表取締役社長の古賀聖弥氏

Google Cloudが音声↔テキストAPIを大幅アップデート、WaveNetでより自然な音声を

Google CloudのText-to-SpeechSpeech-to-Text APIが今日(米国時間8/29)、大量のアップデートを行い、サポートする言語を増やし、いろんなスピーカーからの自動生成音声を聴きやすくし、スピーカーの音声認識ツールを改良してテキスト書き起こしの精度を上げる、などの機能向上を導入した。

このアップデートにより、Cloud Text-to-Speech APIが一般的に可利用になった。

多くのデベロッパーにとっていちばん魅力的なのは、17の新しいWaveNetベースの音声が複数の新しい言語でローンチしたことだろう。WaveNetはGoogle自身の技術で、機械学習を使ってテキスト読み上げのオーディオファイルを作る。その結果、より自然に聞こえる音声になった。

このアップデートで、Text-to-Speech API(テキスト読み上げAPI)は今や14の言語とそれらの変種をサポートし、標準音声30とWaveNetの音声26を揃えている。

ここへ行くと、今回加わった新しい音声も含め、自分のテキストでGoogleのデモを試すことができる。

新しい機能の中では、オーディオプロフィールもおもしろい。これは、再生するメディアに合わせてオーディオファイルを最適化する機能だ。たとえば、スマートフォンのスピーカーとテレビの下にあるサウンドバーでは、音が違うだろう。オーディオプロフィールを使うと、音声を、電話の通話やヘッドフォンやスピーカーなどなどに合わせて最適化できる。

[元の音声と最適化の結果]

Speech-to-Text(書き起こしAPI)の方では、複数のスピーカーからの音声をより正しく書き起こせるようになった。機械学習を使っていろんなスピーカーを認識し、ひとつひとつの語にスピーカー番号のタグをつける(スピーカーの数は人間が指定する)。たとえばスピーカー2つのステレオファイルなら、それぞれの言葉の出どころを区別できるし、怒った顧客がカスタマーサポートに電話をしている音声なら、やはり各語の話者を識別できる。

複数言語のサポートも、新しい。検索には前からあったが、これからはそれをデベロッパーが利用できる。この書き起こしAPIに対しては、最大で4つの言語を指定できる。するとAPIは、今どの言語が喋られているかを、自動的に聞き分ける。

さらに、Speech-to-Text APIは、単語のレベルでの自信点を返す。すでに個々の談話レベルの自信点はあったが、今度からはデベロッパーは単語レベルのアプリ構築ができる。たとえば、“please set up a meeting with John for tomorrow at 2PM”(明日の午後2時にジョンとのミーティングをセットアップしてくれ)に対して‘John’や‘2PM’の自信度が低ければ、ユーザーにそれらを二度繰り返させるアプリを書けばよい。‘please’の自信度が低くても、それは重要でない単語だから、そのままでよい。Googleのチームは、そう説明している。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa

IoT会話と、文脈から意を汲み取るということ

modern cityscape and business person, IoT(Internet of Things), ICT(Information Communication Technology), abstract image visual

(日本語版注:本稿を執筆したJim Hunterは、Greenwave Systemsのチーフサイエンティスト兼エヴァンゲリストだ)

数年前、テクノロジーとコミュニケーションをとる方法について書いた。当時、身の回りにあったアプリや電話、車、半自動のコーヒーメーカーといった便利なツールを使うときに体験するちょっとした不都合が、何かしら革新的なものの登場でなくなるだろうというのは明らかだった。そうした接続機器を使うのに、たくさんタイプやスワイプしたり、アプリで管理したりする必要があったからだ。

その革新的なものというのは、ある程度、現実のものとなったといえる。

音声でのやり取りがそれだ。いまスマホの音声アシスタント、家や車と接続するスマートスピーカーを使うとき、音声操作が大きな役割を果たしている。この音声操作技術の進歩は現在進行形だ。それはすごいことではある。しかし、やり取りは会話と呼べるものではない。

というのも、この音声操作のほとんどは、友達や同僚との実のある会話のようなものではなく、むしろ4歳の子に「言われた通りにしなさい」と命令するのに近いからだ。

ツールを使うにあたっての不都合を最小限に抑え、そして音声でテクノロジーを最大限利用できるようにするためには何かが必要だ。それは、「文脈から意を汲み取る」ということだと私は考えている。

文脈から意を汲み取るというのは、会話の中で何を意図しているのかを考えることになる。誰が、何を、どこで、いつ、といったシンプルな質問に答えるのはそう難しいことではないし、IoTは私たちの暮らしに関するあらゆる情報を取り入れるようになっている。私は以前、アメリカの心理学者マズローの欲求段階説のチャートに倣って、IoTデバイスに必要とされることをピラミッド式に描いたことがある。テクノロジーが分析手法を用い、ロジックや予測することを学習し、そしてより複雑なことをできるようになるというものだ。AmazonのAlexa、AppleのHomePodなどで使われている音声操作や自然言語処理の技術は、まさしくIoTデバイスに必要とされることの実現例だ。リアルタイムに情報を収集し、複雑な機能でもって処理するという、予知解析や機械学習を取り込んでいる。

それでもまだ、AlexaやHomePodとのやり取りは会話とは呼べない。役には立っているが、コミュニケーションとしてはまだ初期段階にあり、成長の余地はある。

というのも「どのように」「なぜ」といった掘り下げた質問が、会話の中で重要な意味を持つからだ。真の双方向会話を実現するには、そうした質問に対する答えを複数用意するだけでなく、学習し記憶しなければならない。Googleはそうした手法をいくつかのオンライン検索に取り込んでいる。しかし、自然な会話を実現するためにはまだたくさんの課題がある。

文脈から意を汲む能力の開発、それが接続機器の最終目標

人の会話の多くは要約されている。会話の量がどれだけあろうが、やりとりに分解することができる。名詞や固有名詞を代名詞に置き換えるのがいい例だ。「Daveの休暇について尋ねたところ、Janeは“私が彼を空港に送って行って見送る”と言った」。こうした文章は序の口で、簡略してはダメ、となったら会話はすごく不自然なものになる。毎回、きちんとした名称を使うとなったらやりづらく、スムーズではない。

会話というのをシンプルに定義づけると、それは感情やアイデアのカジュアルなやりとりということになる。それは人々がコミュニケーションをとるために自然に行う。くだけた会話というのは、文脈的な要素が大きく、また凝縮していて包括的なものだ。物語を語るような要素も含まれる。会話はあちこちに飛ぶし、時間軸も動く。新しいことについて情報交換するとき、過去に共有したことをベースに話すこともある。推測を伴うこともあれば、厳密に会話に執着しなくてもいいこともある。こうした会話手法は、IoTに仕込まれたものとは全く正反対のものだ。機械によるコミュニケーションというのは、コードに基づいている。それは二分法であり、供給源に制約があり、杓子定規だ。情報はあるが、文脈というものに乏しい。あまりにもカチッとし過ぎていて、物語を語るにはほど遠い。

IoTを活用するときに私たちが感じる違和感は、こうしたアプローチの違いによるものだ。デバイスを操作するときに新しいアプリをダウンロードし、起動の言葉を設定する。そして別のデバイスのために違う言葉を設定し、アップデートを繰り返す。そんな調子だから、買って2週間後にはデバイスは引き出しへとお蔵入り、ということになるのだ。人が望むようなやりとりではないのだ。

不気味さプライバシー問題はさて置き、私たちの身の回りの情報を絶えず収集するデバイスに関していうと、人間が好む会話ができるよう文脈を読む技術を獲得しつつある。目指すところは、人がいつでも違和感なくデバイスを使えるようになることだ。

今後取り組むべき課題は、マシーンに人間のような会話能力を持たせることだろう。会話が自然なものとなるよう、文脈や推測、そして形式ばらないよう吹き込まなければならない。こうした取り組みをすでに始めているのが国防高等研究計画局であり、AmazonGoogleでもある。実際のところ、テクノロジーを開発するにあたって、もっとも注力されるのはインターフェースの使いにくさをいかに少なくするかという点だ。そうした意味でいうと、会話の質を高めるというのは、使いやすさに直結する。

IoT、拡張現実、アシスタント知能(AIという言葉を私はAssistive Intelligence ととらえている)、さらにはモバイル機器ディスプレイでの小型化や拡張、電気まわりの改善といったものも、全ては質の改善を追求した結果といえる。それらテクノロジーにより、文脈を読み取る、究極的には自然な会話をする機能を開発することができると考えられる。これを活用すれば私たちの暮らしは会話にあふれたものとなる。そして、ひとたびテクノロジーと有意義な会話を経験すれば、夢中になること間違いなしだろう。

[原文へ]

(翻訳:Mizoguchi)

今度のGoogle Chromeでは自動再生ビデオの音声をカットできる

Google Chromeのユーザーに良いニュース。全世界で人気最高のこのブラウザーの最新のアップデートでは、音声の自動再生を無効にできる。サイトを開くと広告のビデオが勝手に再生されて、音がガンガン鳴る、なんてことは、ユーザーがそれを有効にしないかぎり、今後はない。

迷惑なだけでなく、自動再生ビデオはデータを大食いし、Webの閲覧そのものを遅くする。モバイルデバイスでは、たいへん困ることだ(データ契約でインターネットに接続してる場合)。

このアップデートは、数日後にユーザーに行き渡る。この機能の開発は昨年から行われていた。機能には、例外が少々ある。

まず、自動再生は、サイト自体が音を含んでいないときだけ許される。あるいはユーザーが、そのメディアに関心があるときには音があっても許される。過去にそのサイトに頻繁に訪れているときは、関心があると判断される。そのサイトのページの上でタップやクリックを頻繁にやったり、モバイルではそのサイトをホーム画面に載せているときも、関心あり、と判断される。

Chromeのこの最新バージョンを最初に見つけたVentureBeatによると、YouTubeはあまりにもビデオの数が多いので、関心ありを単純には判断できないそうだ。

しかしそれでも、今度のChromeはコントロールの粒度が細かくなり、特定のWebサイトだけビデオの自動再生を恒久的にブロックすることもできる。だからYouTubeでもどこでも、オーディオの勝手な自動再生をやらせないことができるのだ。

画像クレジット: AFP

[原文へ]
(翻訳:iwatani(a.k.a. hiwa

AdobeがボイスインターフェースのSayspringを買収

本日(米国時間4/17)Adobeは、 Sayspring買収したことを発表した。SayspringはAmazon AlexaとGoogle Assistant向けアプリのボイスインターフェースのプロトタイピンクと開発を支援するスタートアップだ。Sayspring のチームは明日Adobeに合流し、両者の技術の統合を開始するとAdobeは言った。

現在Sayspringのサービスはすべて無料で提供されている —— ただし、サインアップするためには招待状が必要だ。今後招待枠を徐々に増やしていくとSayspringは言っている。

Adobeといえば、クリエイティブツールのPhotoshopやPremiere Proを思い浮かべるのが普通だろう。音声インターフェースを統合するサービスとしてはあまりピンとこないかもしれないが、AdobeのAIへの取組みのなかには、マーケティング事業とDocument Cloudも含まれていることを思い出してほしい。つまり、AdobeがSayspringの技術を利用してDocument CloudやAdobe Stockの音声検索を強化することは容易に想像できる。クリエイターがPhotoshopの基本作業に音声を利用することもあるかもしれない。Adobe自身はまだ何も言っていないので、今は自由に憶測されたい。

「私たちがデバイスと接する方法は、今重大な転換点を迎えている」とAdobeの執行副社長兼CTOのAbhay Parasnisが今日の発表で語った。「私たちはキーボードやマウス、さらにはタッチスクリーンも超えるもっと自然な方法 —— 自分の声 —— を使ってテクノロジーとやりとりする方向へと進みつつある。音声技術は急速に成長しており、今後Adobeの主力製品の重要な要素になると信じている。SayspringをAdobeに迎えることを大変喜んでいる。今後、より多くの人たちが次世代の音声インターフェースを作るためのテクノロジーを提供していくことを楽しみにしている」

[原文へ]

(翻訳:Nob Takahashi / facebook

Google CloudはGoogle自身が使っているテキスト音声変換エンジンをデベロッパーに公開

テキストから音声への合成技術は近年大きく進歩し、最近のシステムは本物の人間がテキストを読んでるように聞こえるものが多い。その進歩を引っ張った企業のひとつであるGoogleは今日(米国時間3/27)、同社がAssistantやGoogle Mapsなどで今使っているのと同じ、DeepMindが開発したテキスト音声変換エンジンをデベロッパー向けに一般公開した。

そのCloud Text-to-Speechと呼ばれるサービスは、32種の声が12の言語とその変種を喋る。このサービスが生成するMP3またはWAVファイルは、ピッチや読む速度、音量などをデベロッパーがカスタマイズできる。

しかし、声の質にはむらがある。それはたとえば、英語には6種類の声があるからで、それらはすべて、テキストから生のオーディオを作るためのDeepMindのモデルWaveNetで作られている。

WaveNetはそれまでの技術と違って、短い発話の集まりから音声を合成しない。それをやると、私たちにはおなじみの、ロボットふうの話し方になってしまう。それに対してWaveNetは機械学習のモデルを使って生のオーディオのモデルを作り、より自然に聞こえる音声を合成する。Googleが行ったテストでは、WaveNetの声の方がふつうの(人間の)声よりも20%良い、という評価になった。

Googleが初めてWaveNetに言及したのは約1年前だが、その後同社は、同社自身のTensor Processing Unitsをベースとする新しいインフラストラクチャへこれらのツールを移し、オーディオ波形の生成をそれまでの1000倍速くした。だから今では1秒のオーディオの生成に50ミリ秒しかかからない。

この新しいサービスは、すべてのデベロッパーが利用できる。料金表はここにある。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa

月額750円でオーディオブック聴き放題——リリースから10年のオトバンクが“サブスクリプション”に舵を切った

「たくさんのエンタメコンテンツがある中で、オーディオブックが選択肢としてもっと前に出てこない限り、ユーザーにも使ってもらえないし権利者側も利益を得られない。もっと間口を広げて、オーディオブックを知らない人でも気軽に触れられる環境を作っていく必要があると考えた」—— オトバンク代表取締役社長の久保田裕也氏は新たなチャレンジに至った背景について、このように話す。

2007年よりオーディオブック配信サービス「FeBe」を提供してきたオトバンク。同社は3月19日より、月額750円でコンテンツが聴き放題の新サービス「audiobook.jp」を始める(新サイトは本日中にオープンする予定)。

audiobook.jpはこれまで提供していたFeBeを全面的にリニューアルする形で提供。最も注目すべき点は、これまでと同様にコンテンツを1冊ずつ購入できる仕組みを残しつつも、新たに月額定額制のサブスクリプションモデルを取り入れたことだ。

FeBeを活用するユーザー層が広がっていくことに合わせて、ユーザーがよりライトにオーディオブックを楽しめるようにするべく、今回のリニューアルに至ったという。

1万点のオーディオブックが月額750円で聴き放題

audiobook.jpはベストセラー書籍を中心に2万3千点のオーディオブックコンテンツをそろえたプラットフォームだ。0.5〜4倍まで、0.1倍速刻みで再生スピードを調整でき、音声のダウンロードも可能。これらの特徴は前身となるFeBeも共通で、移動中や家事の時間などを中心に幅広いシーンで活用されてきた。

従来は気になるコンテンツを1冊ごとに購入する仕組みだったが、サービスリニューアルに伴って聴き放題プランを新たに導入。対象となる1万点については、月額750円でいくらでも聴けるようになる。

この中にはビジネス書や小説、落語などを幅広いコンテンツが含まれるほか、今後は日経新聞の主要なニュースを聴ける「聴く日経」も追加する予定。入会から30日間は無料で利用できる。

コンテンツや開発体制も充実、ようやく準備が整った

冒頭でも紹介したとおり、実はFeBeはリリースから10年が立つ。これまで地道に規模を拡大してきたが、2017年は同サービス史上最大の伸びを記録。年間登録者数は前年比で3倍となり、登録者数は 30万人を突破した。

「2017年に入ってユーザーの単月の伸び方が変わり、購入頻度やコンテンツのトレンドなどユーザーの属性も広がってきた。たとえば以前多かったのは30~40代の男性。それが今は男女比もほぼ同率になってきている」(久保田氏)

ビジネス書をしっかり聴きこむヘビーユーザーも増えている一方で、小説や語学学習コンテンツだけをさらっと聴くライトなユーザーが増えてきた。コンテンツ数も拡大する中で、幅広い人にさまざまなコンテンツをより気軽に楽しんでもらう手段として、聴き放題プランの検討が始まったという。

リニューアルに向けて議論が本格化したのは2017年の夏頃から。ビジネス書や自己啓発書に加えて文芸や小説も増え、どのジャンルもある程度のボリュームに。合わせて開発リソースも拡充し「今だったらできるかも」と話が進んだそうだ。

「アラカルト(個別購入)の場合はユーザーが何かしら明確な目的を持っているが、サブスクリプションの場合は動機が固まっていないことも多い。そうなると、パッとサービスを開いた時に自分が気になるコンテンツがあるかどうか。『あ、この本あるじゃん!』と感じてもらえるかが重要だと考えていたので、コンテンツが充実してきたことは大きかった」(久保田氏)

合わせて権利者側の温度感もこの1、2年で変わってきたという。久保田氏の話では「2016年くらいから『オーディオブックもきちんと頑張れば収益がでる』という感覚が定着し、積極的にやっていこうと足並みが揃ってきた」という。

たとえば『サピエンス全史』など人気書籍を音声で楽しめるのはFeBeからの特徴。このようなコンテンツはオトバンクのみで作ることはできないので、権利者サイドがより前向きになったという意味でも、絶好のタイミングだったというわけだ。

オーディオブックをもっと一般的に、当たり前に

「会員数は30万人を超えたものの、まだまだ少ない。オーディオブックをもっと多くの人に、当たり前のように使ってもらえるような環境を作っていきたい」(久保田氏)

左から、聴き放題画面(アプリ)、再生画面(アプリ)、ブックリスト(WEB)

価格については社内で複数案が出たそうだが、ライトに使ってもらえるようにと月額750円に設定した。今後は「ランニング中」「カフェで」「雨の日に」などシチュエーション別や、「パラキャリ」「◯歳のお子さまと聴きたい」「資格取得」などユーザー層別に作品をまとめたブックリストを順次公開するほか、聴き放題プラン限定のコンテンツなども増やしていく方針だ。

「『しっかりと聞く』というところから、もう少しライトに『聞き流してもいいや』というコンテンツを作っていく。わかりやすいものだと“短尺”のもの。イメージとしては『ニュースサイトのPUSH通知ででてくる情報以上、従来のオーディオブック以下』のコンテンツなどを考えている」(久保田氏)

昨今コミックや動画、テキストメディアなど「目」を取り合うコンテンツの競争は激化している。一方「耳」については音楽やラジオなどあるものの、まだポジションが空いているというのが久保田氏の見立てだ。

今後スマートスピーカーが普及すれば、そのポテンシャルはさらに広がるかもしれない。「何かしながら、並行して聞き流せるコンテンツ」には一定のニーズもあるだろう。

一方で「他のコンテンツもどんどん進化している中で、オーディオブックとしてどんなチャレンジができるか、どんな価値を提供できるかを考えていきたい」と久保田氏はある種の危機感も感じているようだ。

NetflixやHuluのようなプレイヤーがドラマやアニメ、映画といったコンテンツの楽しみ方を変えた。スマホの普及に合わせて「縦スクロールのコミックアプリ」「スマホ版の携帯小説とも言えるチャットフィクションアプリ」など新たなフォーマットも続々と生まれてきている。

「オーディオブックについては、他のメディアと違って今のユーザーのニーズに応えきれていない部分がまだある。ユーザーが欲しい形に合わせて(コンテンツを)提供するのが理想。今後は聴き放題プランで完全にオリジナルなコンテンツなど、コンテンツホルダーとも協力して新しいものを作り『本を聴く文化』を広げていきたい」(久保田氏)

Alexaでコントロールするトイレの作り方…そう、自分で作れるものは作ろう

Alexaでコントロールするトイレは、2018年の話題の一つだが、数千ドルする。意欲果敢な人なら、このとおりやれば自作できる。ちょっと工作があるし、複数の部品を使うし、トイレの費用以外に約750ドル要る。しかしその最終結果は、音声でコントロールするトイレットだ。人間なら、誰もが欲しいと思うだろうね。

かんじんな部分は、赤外線リモコンつきのビデを買うことだ。それから、AdafruitのWi-Fi開発ボード使って、トイレに水を流す別のデバイスをトリガーする。簡単だ!

家の中の音声コントロールはかなり前から、ホームオートメーションの黄金律と見なされていたし、AlexaやGoogle Homeの登場によって自分ち用のJarvisを作ることがいよいよ容易になった。Mark Zuckerbergが家庭用人工知能Jarvisを作って彼の家のあちこちをコントロールしようとしたのは、わずか2年前だ。そして今では、ちょっとしたハッキングとコーディングで誰もが同じことをできる。でもZuckのAIは、声がハリウッドスターのMorgan Freemanだ。Alexaと格が違うのは、この点だけだね。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa

“声のブログ”として注目集める「Voicy」が16人の投資家から2800万円を調達

僕の周りにいるのは、比較的新しいアプリやWebサービスを試すのが好きな人が多いからなのかもしれない。周囲でボイスメディア「Voicy(ボイシー)」を使い始めたという話を聞く機会が増えた。実は僕も1年ほど前から始めて、今では移動中を中心にほぼ毎日何かしらのコンテンツを聞いている。

最近はインフルエンサーや著名な起業家も配信を始めて、一気にユーザー層が広がっているように思えるVoicy。同サービスを提供するVoicyは2月19日、16人の個人投資家を引受先とした第三者割当増資により、2800万円を調達したことを明らかにした。

今回同社に出資したのはヘイ代表取締役社長の佐藤裕介氏やDeNA共同創業者の川田尚吾氏のようにTechCrunchの記事でもたびたび個人投資家として登場するメンバーもいれば、ホリプロ代表取締役の堀 義貴氏のようにあまりスタートアップ界隈では名前を聞かないような起業家もいる。各投資家は事業メンターとしてVociyをサポートする予定だということだ。

なお同社は2017年3月にも12人の個人投資家から数千万円の資金を調達している(公開されている株主については末尾で別途紹介)。

「声と個性を楽しむこれからの放送局」というテーマで2016年の9月にリリースされたVoicy。当初は大手メディアや雑誌などから提供を受けた「活字」コンテンツを、音声に置き換えて届けるという色が強かったように思う。

ただ最近はこれまでになかった「声のブログ」として使われ始め、活字メディアをベースとはしない、自由な形式のコンテンツが増えてきた。配信者も多様化してきていて、ブロガーのはあちゅう氏やイケダハヤト氏、起業家の家入一真氏や佐藤裕介氏もチャンネルを開設する。

この点についてはVoicy代表取締役CEOの緒方憲太郎氏も「声のブログという世界観を年始に立ち上げて、家入さんやはあちゅうさんがはじめたところ『声で聞くとこんな感じなんだ!』と話題になった。発信者も思いを十分に届けることができるし、最後まで聞いてくれるリスナーはポジティブな人も多いので喜んでもらっている」と話す。

また今後スマートスピーカー市場が拡大を見込まれている点も同社にとっては追い風になるだろう。すでに「Google home」上ではニュースコンテンツの配信を開始。「Amazon Ehco」でもアルクの外国語教材の配信支援を行うほか、中京TVとの新しい音声体験の開発を進めているという。

Voicyでは今回調達した資金をもとに組織体制を強化し、「VoiceTechカンパニー」として成長する音声市場でさらなるサービス拡大を目指す。

なお、公開されているVoicyの株主陣は以下の通りだ。

  • 秋山勝氏(ベーシック代表取締役)
  • 伊藤将雄氏 (ユーザーローカル 代表取締役社長)
  • 川田尚吾氏 (DeNA 共同創業者)
  • 佐渡島庸平氏(コルク代表取締役社長)
  • 佐藤裕介氏(ヘイ代表取締役社長)
  • 島田亨氏 (USEN-NEXT HOLDINGS 取締役副社長COO)
  • 高梨巧氏 (favy 代表取締役社長)
  • 為末大氏 (侍 代表取締役)
  • 千葉功太郎氏(個人投資家)
  • 平澤創氏 (フェイス 代表取締役)
  • 堀義貴氏(ホリプロ 代表取締役)
  • 松本大氏(マネックスグループ 代表執行役CEO)
  • 山田尚貴氏 (エニドア 代表取締役)
  • 柳澤大輔氏 (カヤック 代表取締役CEO)

コーディング不要で誰でもAlexaのスキルを作れるStorylineが今YCで勉強中

【抄訳】
今や3900万人のアメリカ人がスマートスピーカー製品を持っていると言われるが、それらのための音声アプリのエコシステムはまだ発展途上だ。Alexaのスキルは25000種を超えたというけど、まだAlexaのスキルを作っていない企業の方が多いし、スキルがあるといっても、どうでもいいような、ささやかなものばかりだ(企業の製品案内をするとか)。この、未発達なデベロッパー状況の中にやってきたのが、ベラルーシで立ち上がったStorylineだ。同社のサービスは、デベロッパーでない、プログラムを書けない、ふつうの人でも、やさしいドラッグ&ドロップ方式でAlexaのスキルを作らせてくれる。

同じくドラッグ&ドロップでプログラミング不要でWebサイトを作れるサービスにWeeblyがあるが、Storylineは“音声アプリのためのWeebly”を自称している。

【中略】

Storylineの協同ファウンダーでCEOのVasili Shynkarenkaはこう言う: “Alexaのスキルのような、会話型のアプリは、プロのデベロッパーでもまだ作るのに苦労している。デベロッパーでない、クリエイティブに人とかコンテンツの作者たちは、そもそもコードを書けない。そのことが、ぼくたちの大きな着眼点だ”。

今はAlexaオンリーだが、いずれGoogle Homeにも対応する気だ。同社のソフトウェアはとてもシンプルで、一般的なスキルのほかに、Flash Briefingも作れる。簡単なスキルなら5分から7分で作れる、とVasiliは言う。

使い方は簡単で、Storylineのアカウントを取得したら、あとは指示に従っていろんな項目を入力していくだけだ。最後に、Alexaとの会話の流れを作る。

会話の流れをStorylineが画面右に表示してくれるから、それを見ながら必要な編集をしていく。

いろんなボタンを選んでクリックしながら、さまざまなタイプの会話を入力していく。その中には、“ユーザーが想定外のことを言った場合”、というケースもある。

そして出来上がった会話は、ブラウザー上でテストできる。いきなりAlexaにロードしなくてもよい。

会話が完成したら、“Deploy”ボタンを押すとAmazonのアカウントへ行くから、そこで会話の内容をパブリッシュする。Amazonのデベロッパーアカウントを持っていない人は、このときにStorylineのガイドに従って簡単に作れる。

Storylineを使うと、けっこう複雑高度な会話も実装できるから、子どものためのスキル・コンペAlexa Skills Challenge: Kidsでは、決勝に残った内の二人がStorylineを使っている。

2017年の10月にローンチしたStorylineは、今ではユーザーが3000人おり、約3000のスキルが作られている。うち200は、実際にAmazonのSkill Storeから提供されている。

Storylineの競合製品Sayspringも、デザイナーなどがスキルを作れるが、Storylineのように作ったスキルを作者が簡単にパブリッシュできるものではない。その違いは大きいよ、とVasiliは自負を述べる。

“単なるプロトタイピング・ツールじゃ、お客さんがつかないよ”、と彼は競合製品を批判する。

  1. dashboard-page.png

  2. canvas-page.png

  3. canvas-page-2.png

  4. canvas-page-3.png

  5. skill-sharing-page.png

  6. skill-preview-page.png

  7. skills-page.png

  8. landing-page.png

Storylineにはアナリティクスの機能もあるが、アナリティクスの結果と編集(スキルの改良)機能との統合が、今後の課題だ。

今後はいろんな種類のスキルのテンプレートも提供していくから、コーディング不要のスキルづくりがますます簡単になるだろう。雑学クイズ(トリビア)のような、ゲームのテンプレートも提供するそうだ。

そしてもちろん、Google Homeなどそのほかの音声プラットホームにも対応する予定だ。

今StorylineはY Combinatorの2018冬季の生徒で、YC とAdam DraperのBoost VCが投資している。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa

旅の魅力を引き立てる“物語”をポケットに、音声ガイドアプリ「Pokke」提供元が数千万円を調達

旅行で有名な観光スポットへ行くと、いわゆる「音声ガイド」を目にすることがたまにある。スポットの見どころや背景などを音声で紹介してくれるあの機械だ。

僕は割と現地のことを事前に調べてから行く派なのだけど、それでも音声ガイドを聞けば初めて知ることもあり、旅の満足感がさらに上がる。そんな体験を昨年とある鍾乳洞へ行った時にもしたばかりだ。もちろん機械ではなく、人間のガイドを雇って現地の案内をお願いすることが多いという人もいるだろう。

ガイドで紹介されるような土地の背景やエピソードを、常にポケットに入れて持ち運ぶことができたら、もっと多くの人が旅を楽しめるのではないか。そんな思いから生まれたのが、多言語トラベル音声ガイドアプリ「Pokke」だ。

30都市、400以上の音声ガイドコンテンツを提供

Pokkeはヴェネツィアやパリ、鎌倉といった観光都市の物語を音声で楽しめるサービス。自分専用のガイドをいつでもどこでも持ち運べ、テキストや動画アプリとは違ってハンズフリー。手だけでなく目も画面に奪われることなく、訪れた場所を見ながら自分のペースでガイドを聞ける。

音声ガイドはスポットごとに作られていて、見所ごとに複数のチャプターに分かれている。長さは平均で30分ほど、ガイドによって20分〜60分と幅が広いという。料金はひとつのガイドあたり数百円(240円〜600円)のものが多く、無料コンテンツもある。

現地で実際に行われているガイドと同レベルの情報を、事実を淡々と紹介するのではなく、より興味を抱きやすいような“物語”として届けるというのがPokkeのチャレンジであり特徴だ。

現在は世界30都市、合計で400以上のコンテンツを配信。日本語を含む10ヵ国語に対応しているので「旅行先で、母国語のガイドが雇えない問題も解決できる」(Pokke提供元であるMEBUKU代表取締役の入江田翔太氏)という。

GPS連動によって現在位置と音声ガイドの位置を地図上で確認できる機能を備えるなど、基本的には現地で「旅ナカ」に使われることを想定。ただPokkeのガイドを参考に旅行の日程を組んだり見どころを調べたりなど、旅マエに使うこともできそうだ。

物語を知ることで旅がもっと楽しくなる

MEBUKUは代表の入江田氏を含む5人のメンバーが集まって、2015年の7月に創業したスタートアップ。同社は本日ANRIとノーマディックを引受先とした第三者割当増資により、数千万円を調達したことを明らかにしている。

具体的なプロダクトのアイデアが固まっていない状態で起業したそうだが、同年秋にPokkeの構想が生まれ、2016年3月にAndroid版をリリースした。きっかけとなったのは、あるメンバーが旅先のアルカトラズ刑務所で音声ガイドを聞いた時の体験だという。

「一見何もないような空間でも『スプーンで掘って逃げようとした』という物語を聞いたことで、心を揺さぶられて旅の体験が変わった。自分自身もアウシュビッツで音声ガイドを聞いた際に同じ経験をしたので、普通に旅するだけでは気づけない各所の物語や歴史、秘密を提供することで、もっと旅を楽しいものにできるのではと考えた」(入江田氏)

当初は事実をシンプルに紹介するという割とオーソドックスな形式でコンテンツを作っていたが、より多くの人に楽しんでもらうために構成や演出を変えた。

「(当初のコンテンツを)自分たちで聞いていても、あまり面白くないと感じた。同じ情報でも演出や見せ方次第で大きく変わる。問いかけを入れるなど構成を変えたり、臨場感を作るために効果音やBGM、『住職の生の声』を入れるなどしている。音声ガイドももっと進化していかないといけない」(入江田氏)

新たな切り口のガイドや、訪日外国人向けコンテンツも強化

新たな取り組みとして、ひとつのスポットを複数の切り口で紹介することもはじめている。たとえばPokkeでは台湾の九份に関して“DJがラジオ番組風に紹介した”特別版のガイドを提供。今後はこのような見せ方のガイド制作に加えて、ユーザーへのパーソナライズやグループで楽しめる機能、ゲーミフィケーションの活用といった機能開発に取り組む方針だ。

また現在は8〜9割が海外のガイドとなっているが、訪日外国人向けに日本国内のガイドも増やしていくという。

現代では「個人での旅行」「現地により深く没入する体験的な旅行」を求める人も少なくない。スマートフォンを1人1台所有する時代だからこそ、持ち運べる音声ガイドアプリを通じて普通に旅するだけでは気づけない発見や、物語を提供していきたいという。

「(土地や作品の背景にある物語などを)知らないがゆえに十分楽しめなかった、というのはもったいない。知らない土地に旅行に行ったり、知らない作品を目にすることは多いと思うので、そこをどう埋めていけるか。Pokkeを通じて取り組んでいきたい」(入江田氏)

Googleが音声合成を機械学習で訓練する方法Tacotron 2を発表、システムの調教が楽になる

本物らしい良質な合成音声を作ることは今、ホットな研究開発テーマだが、一歩リードしているのはGoogleだろう。同社は今日、Tacotron 2なるものを発表して、さらにその差を広げたかもしれない。これは人工知能にテキストを読ませてリアルな音声を作り出すための、ニューラルネットワークの新しい訓練方法で、ユーザーには文法知識がなくてもよい。

この新しいテクニックは、Googleのこれまでの音声生成プロジェクトWaveNetと初代Tacotronの良いとこ取りをしている。

WaveNetは、ぼくの感想では“気味が悪いほど本物そっくりの”音声を作り出し、しかも一度に一つずつのオーディオサンプルを作るので、あまり実用向きではない。WaveNetは有能ではあるけど、最初に言語に関する大量のメタデータを必要とする。発音や、言語のさまざまな特徴などだ。

初代Tacotronは、イントネーション(抑揚)や強弱などを含む、より高いレベルの音声合成ができるが、実用的な最終製品を作るのには向いていない。

Tacotron 2は、この両者を利用している。ぼくはこの方面の技術には疎い方だけど、理解できる範囲で言えば、このシステムは、言葉のルールを明示的に教えなくても、テキストの原文とナレーションからそれらのルールを予測推定する。テキスト本体は、Tacotronがリズムや強調を得るために使う“メル尺度スペクトログラム(mel-scale spectrogram)”に変換され、語そのものはWaveNet的なシステムを使って生成される。

これでよく分かるはず!?

そうやって得られた音声は、ここにサンプルがあるが、今世の中にあるものの中では最良ではないだろうか。語りのリズムは自然だが、ちょっと快活すぎるかもしれない。わかりにくい発音のある語ではつまずくが、それらは主に、アメリカ英語に外から輸入された語、たとえば“decorum”をこのシステムは第一音節を強調するし、フランスのワイン用ぶどうの品種“Merlot”は書かれた綴りをそのまま発音するので笑わせる。研究者たちは、“極端なケースでは奇妙なノイズをランダムに生成することもある”、と書いている。

また、音声の口調…元気である、心配しているなど…をコントロールすることはまだできない。アクセントなどは、WaveNetでできたように、できる。

訓練システムの敷居を下げれば、もっと良質な訓練ができるだろう。Googleのこの新しい方式では言葉や話法に関する複雑なルールを、言語や音声スタイルが変わるたびに手作業で教えなくてもよい(ニューラルネットワークを実例で訓練するだけだ)。

研究者たちは結果をIEEEのカンファレンスInternational Conference on Acoustics, Speech and Signal Processingで発表する予定だが、そのためのペーパーはarXivで読める

[原文へ]
(翻訳:iwatani(a.k.a. hiwa

交通騒音も路上と室内では違う…3D空間内の複雑な音響編集を助けるResonance AudioをGoogleが発表

拡張現実(augumented reality, AR)は、コンピューターとの対話を三次元化するという展望により、徐々に伸びつつあるが、すでにいろんなプラットホームを提供しているGoogleは、その三次元空間に視覚だけでなく五感のすべてを持たせたいようだ。

今日(米国時間11/6)Googleは、同社のVR Audio SDKをベースとして、より総合的な空間オーディオプロダクトResonance Audioをモバイルとデスクトップ両用に作っていることを発表した。

Googleの説明によるこのSDKの用途は、“本物の音が人間の耳や環境と対話する”様相を再現することだ。たとえば、現実の音が物や環境によって歪むという現象も、ARの仮想的シナリオにおいて再現する。

たとえばあなたが大型ラジカセを持って歩いている仮想キャラクターだとすると、何かの曲を鳴らしながら開放的な空間を歩いているときと、吹き抜け階段を降りているときとでは、音はどう違うのか? Resonance Audioが対応しているこのような多様な状況により、ユーザー(デベロッパー)もそんな状況を三次元の奥行きの中で音で再現できるようになる。

またResonanceはデベロッパーがシーン中の音源を指定できるだけでなく、音源が動く方向も音質の変化で表すので、たとえばあなたがデジタルのキャラクターのうしろを通るときと、顔の前を通るときでは、反響音を変えられる。

上で例を述べたようなさまざまな状況の変化は、ゲームのデベロッパーにとってはおなじみのものだが、しかし複数の(数十の)音源が同時にいろんな状況で対話的に鳴るといった複雑な設定では、その対応も難しい。CPUはビジュアルにかかりっきりで忙しいことが多いから、音の表現のこのような複雑性は予想外の困難性をもたらし、結局ベーシックなオーディオだけで発売してしまうこともありえる。Resonanceはたとえば、一部の音のリバーブを、いろんな環境ごとに事前に作っておくといったトリックにより、音のリアルであるべき対話性が時間的にずれる、といった問題を解消する。

ResonanceはUnityやUnrealのようなゲームエンジンとも併用でき、またいろんな音響編集作業のためのプラグインも用意しているから、既存のワークフローとの相性も良いだろう。

GoogleはVRやARの基盤的技術への関心をベースとして、さらにそれらをゲームの開発に応用しようとしているようだ。先週Googleが見せたPolyは、3Dのアセットや環境のためのホームだ。そしてResonance Audioが空間的オーディオを提供し、よりリアルな音の開発を容易にする。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa

AmazonのAlexaデバイスが声で個人を識別できるようになった…Echoの各人利用が可能

Amazon Echoの最大の盲点のひとつが解決した。ついに、やっと、今日(米国時間10/11)から、声を聞き分ける機能が加わったのだ。家族のいる家庭では、声を認識してEchoの利用を個人化できる。ショッピングリストや音楽の選択などを、個人別にできるのだ。

この機能は、Googleより何年も前に音声アシスタントの提供を始めたAmazonが、Googleに後れていた部分だ。Googleはこの機能を4月に発表し、製品は大家族にとって魅力的になった。

今のところ、この機能が使えるのはFlash Briefings(ニュース速報)、ショッピング、Amazon Musicのファミリープラン、AlexaとAlexaの通話、入呼の名前呼び出しだ。今後もっと増えるようだが、まだ具体的ではない。そして今後は、もっと多くの人の声を識別できるように“お利口になる”そうだ。

この機能は今後数日間で全面的に展開される。始め方は、スマートフォン上のGoogle AssistantやSiriのセットアップと同じだ。モバイルアプリのセッティングで“Your Voice”をセレクトし、一連のデモコマンドで、ソフトウェアにあなたの声をおぼえさせる。詳しい使い方は、AmazonのHelpページにある。

対応デバイスは、Echoのほかに、AmazonのアカウントのあるそのほかのAlexaデバイスだ。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa))

Deepgramがディープラーニングを利用する機械書き起こしサービスを無料で公開、データの獲得をねらう

オーディオデータを機械学習で処理するDeepgramが今日(米国時間10/10)、同社の機械書き起こしサービスを無料で公開した。これからはTrintのようなサービスにお金を払って自動化書き起こしという汚い仕事をやらせなくてもすむわけだ。無料化の秘密は、“データの取得”にある。

機械書き起こしは、完成された技術ではない。というか、機械何々はどれも未完成だ。それでも最近は、機械何々を完成させるためのデータを得ようと、各社が競っている。Deepgramのやり方は、書き起こしサービスを無料にして多くの人にオーディオデータをアップロードしてもらい、そのお礼に検索可能なテキストを渡すことだ。

前述のように、このやり方はそれほどユニークではない。誰もが、データを求めている。Image Captchasも、ラベルをつけた画像データを一般消費者に送ってもらって機械学習のモデルに利用することが目的だ。

Deepgramの書き起こしツールは、ディープラーニングを利用している(驚き!)…今やおなじみの、畳み込み型/再帰型のニューラルネットワークだ。無料バージョンでは何もかも一般化されるが、有料バージョンでは企業名や製品名、業界の専門用語などで訓練をカスタム化できる。

一週間前にやった1時間のインタビューで、このサービスをテストしてみた。レストランの騒音の中で二人の人間が対話をしている。書き起こしの質は、完全にはほど遠い。でも、今市場に出回っているサービスに比べて、極端に悪いというわけではない。

記憶している語句で検索することもできたし、三回目の結果の中に、探していた特定の箇所が見つかった。それをここに引用すると相手が怒りそうだからやめるが、記事を書くためには十分なコンテキストが得られた、と言えよう。音声による検索には5分ほどかかったが、テキストと違って音声による“語”には、似たような音(おん)が多いので、必要以上のマッチを見つけるのだろう。それでも、人間がやってくれる書き起こしサービスに比べると安い(無料!)し、今後少しずつ良くなっていくだろう。

Deepgramの協同ファウンダーでCEOのScott Stephensonはこう説明する: “音声認識の自動化は、まだ完成された技術ではない。特定のデータセットに対しては有能だが、ノイズが多いとだめだ。うちのサービスの結果も、良くないね”。

Deepgramは、機械書き起こしのAPIも無料で提供している。でも、有料サイトに100万分(ふん)の音声データをアップロードしたら、目の玉の飛び出る料金になるだろうから、その500テラバイトのファイルはDeepgramにトロルした方がよいかもね。

書き起こしはまだまだ人力には勝てないが、人工的に合成した音声なら機械学習にも勝つチャンスがあるかもしれない。テキストから音声を生成するWaveNetLyrebirdのようなプロジェクトを利用して、Deepgramのような機械翻訳システムを、機械が間違えやすい語で訓練すれば、その能力もアップするだろう。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa))

Googleの機械学習式音声生成システムWaveNetが、Google Assistantに導入される

Googleは昨年、新しい音声生成の方法であるWaveNetを発表した。これは大量の単語ライブラリや、堅苦しくなりがちな簡易手段に頼らない手法だ。WaveNetは、機械学習を使いサンプル毎に音声を生成する。その結果は私に言わせれば「気味が悪いほど良くできた」ものだ。これまではラボの中で提供されていたが、この技術が、最新版のGoogle Assistantに導入される

この技術の背後にある基本的なアイデアは、文法や音調のルールを手でコーディングして単語や文を生成するのではなく、機械学習システムを使ってスピーチのパターンを見出し、それをサンプル毎に生成するようにしたことだ。この場合のサンプルとは、1/16000秒単位で生成される音だ。最初のリリース時点ではWaveNetは非常に計算コストが高く、0.02秒の音声を生成するのに1秒を要していた。つまり “turn right at Cedar street”(Cesar通りを右折)といった2秒のクリップを生成するのにほぼ2分近い時間がかかっていたのだ。そのため、実際の用途には適していなかった(そんなに時間がかかったら、交差点を通り過ぎてしまう)。それがGoogleのエンジニアたちが改善を図った理由だ。

新しく改良されたWaveNetは、実時間に比べて20倍の速さで音声を生成する。すなわち同じ2秒のクリップを1/10秒で生成するのだ。そしてさらに、8ビットではなく16ビットで、1秒あたり2万4000回という高いレートでサンプリングを行なうことも可能だ。スマートフォンのスピーカーでは、そうした忠実度の高いサウンドが本当に高く評価されることはないだろうが、本日(米国時間10月4日)のアナウンスによれば、Assistantはほどなくより多くの場所に登場するようだ。

WaveNetによって生成された音声は、従来使用されていた最先端の単語連結式システムよりもかなり良好なものだ。

改良前:

改良後:

(Assistantもすぐにこのような音声になるだろうが、さらに多くの例はDeep Mindのブログ記事でも聞くことができる)。

WaveNetはまた、他の言語やアクセントに対して拡張していくことが非常に容易であるというとても優れた性質を持っている。ウェールズ語のアクセントで話させたいときに、手を入れて自分の声の母音を足したりする必要はない。ウェールズ人の声を数十時間入力として与えるだけで、システム自身がニュアンスを抽出する。とは言え、この新しい声は、現在米国英語と日本語でのみ利用可能で、他の言語についてはまだ発表されていない。

「大手のハイテク企業たちは、他の大手ハイテク企業がやっていることをやる」という流れに乗って、最近Appleも、機械学習スピーチモデルを使ってそのアシスタント(Siri)を改良した。しかしこれは、Googleのものとは違い、サンプリングレベルでの再生成を行っているわけではなく、音素レベルでの再生成に留まっている。

WaveNetのチームはその成果をほどなく公開する予定だが、今のところは、これまでよりも遥かに効率よく働くという、彼らの約束で満足しておくしかない。

日本版:Deep Mind ブログに掲載された日本語のサンプル
改良前:

改良後:

[ 原文へ ]
(翻訳:Sako)

XMOSのマイクロフォン配列技術でAlexaをどんなデバイスにも、リビングの壁にも、実装できる

音声でコマンドを入力するサービスシステムAmazon Alexaは、その専用実装デバイス(Amazon Echoなど)が、ユーザーの声をはっきり聞き取れる位置、たとえばコーヒーテーブルの上やカウチのそばなどにないといけない。テレビの近くにあったりすると、アニメのキャラクターが “Alexa!”と言っただけで、おかしなものがAmazonに注文されたりする。

ノイズを無視して、ご主人である人間の声だけを聞き分ける高度な技術が必要だが、それは意外と難しい。

でも、今やイギリスの企業が、世界で初めてそんな技術を作り出し、Amazon Alexaの音声サービスに導入しようとしている。

1か月前にInfineonがリードするラウンドで1500万ドルを調達したイギリスのチップメーカーXMOSは、ヨーロッパで初めて、Amazonが公式に認定したAlexa Voice Service(AVS)開発キットを近くリリースする。同社は世界初の、AVS認定“遠方界線形マイクロフォン配列”(far-field linear mic array)”のメーカーでもある。

この技術は、車で使われるレーダーとマイクロフォンを組み合わせている。そうするとEchoのようなAlexa専用のデバイスは要らなくなり、スピーカーとのセットを壁に埋め込んだり、ほかの製品のキットに組み込んだりできる。つまりAlexaが、専用機でなく、何かほかのものに統合される。

社員50名のXMOSは、AVS認定企業としては最小で、競合他社のSynapticsは時価総額12億7000ドルで1800名の社員がいるし、57億ドルのMicrosemiは4400名、32億8000万ドルのCirrus Logicは社員数1100名だ。

さまざまな競合ソリューションがある中で、XMOSはAlexaをサポートする初の遠方界線形配列を提供し、Alexaの機能を生活の背景の中へ溶融してしまう。

この線形配列によってAlexaは初めて、他の多くの家電製品と同様、壁に接するフラットパネルにもなる。

そして未来の音声サービスは、どんなデバイスにも搭載できる、存在を意識しない目立たないものになる。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa))