5秒の声サービス「Baby」のDoki Dokiが京大VCから5000万円追加調達で外国語学習に応用

dokidoki

Doki Dokiのメンバー。右真ん中が井口尊仁CEO

2008年のセカイカメラ、2013年のTelepathy Oneとテック業界の話題をさらった井口尊仁氏のスタートアップ企業Doki Dokiが今日、京都大学イノベーションキャピタルからプレシード投資として5000万円の追加資金調達を行ったと発表した。2014年6月に米国拠点で設立されたDoki Dokiは、これまでにSkyland Venturesサイバーエージェント・ベンチャーズのほかエンジェル投資家らから約6000万円の資金を調達していて、累計調達額は1億1000万円になるという。

声のコミュニケーションアプリ「Baby」は2016年10月の米国ローンチ時にTechCrunch Japanでも取り上げたが、Twitterようにパブリックなタイムラインに見ず知らずの人たちの5秒の声が流れるというプラットフォームだ。Babyはローンチから4カ月ほど経つが、Doki Dokiの井口CEOによればユーザー数などはベータ版のため非公開。近々大幅なバージョンアップを控えているという。

今回の資金調達をきっかけに、京都大学学術情報メディアセンターとの共同学術研究を推進するという。初期段階では5秒間の音声コミュニケーションを使った外国語学習のユースケース検証を行い、その後は今後は感情分析や機械学習を用いた音声コミュニケーションの進化を促進する共同研究を実施予定だという。

Amazon EchoやGoogle Home、AirPodsなど音声を使ったユーザーインターフェイスへの注目は高まる一方なので、音声データを集めることができれば有用な研究ができるだろう。それもこれもBabyがそもそも「使いたくなる理由」を提供できていてこそ。ECやホームコンピューティングのUIとしての有用性は多くの人が体感し、指摘しはじめている。果たしてBabyのように「声」をパブリックなタイムラインに流すことが楽しかったり、有用だったりするのかどうか。Doki Dokiは、まだこれからそれを証明しないとならないのだろう。一方、スマホ時代になって消費に時間のかかる旧来型パッケージのコンテンツが重たいなと感じている人は多いだろう。そうしたことからマイクロ学習にも注目が集まっているので「5秒音声による学習」というのに面白い展開もあるのかもしれない。

セカイカメラ、Telepathyの井口氏が帰ってきた―5秒の声サービス「Baby」を米国でローンチ

2008年のセカイカメラ、2013年のTelepathy One―。大きなビジョンと話題性で、これまで何度か大きな注目を集めてきた起業家の井口尊仁氏が、新プロダクトを引っさげて帰ってきた。いや、正確には帰ってきてはいない。米国サンフランシスコを拠点に、北米市場を狙った音声系アプリ「Baby」を今日(米国時間10月3日19時)ローンチしたのだ。

ローンチ直前に東京に戻っていた井口氏にTechCrunch Japanで話を聞いたのでお伝えしたい。

Babyはスマホに向かって5秒間の声を吹き込み、見ず知らずの人と繋がり、会話が楽しめるアプリだ。吹き込んだ声は、画面上で愛嬌のある風船型のキャラとなり、これが「パレード」と名付けたパブリックなタイムラインにプカプカと漂うようになる。

ユーザーは次々と流れてくる風船から聞こえてくる「声」を聞き、ちょっとコミュニケーションしてみたいなと思ったら右へスワイプ。スルーしたければ左へスワイプ、とTinderのように次々にスワイプする。Tinder同様に誰かとマッチすればプライベートメッセージが始まる。

パレードに流れてくるのは、Tinder同様に位置情報でソートした「同じ町の人」の声だ。近隣の人であれば、使っている言葉や話題が同じと期待できるからだ。井口氏自身の説明によれば、Babyを現実世界に存在するものに無理やりこじつけると「バー」なのだ、という。以下が画面と全体を紹介する動画だ。

女性が女性と安心してしゃべれる場を

プライベートメッセージも5秒の音声のみだ。5秒の音声の断片を次々と交換する形でコミュニケーションが進む。「Babyはリアルに会わなくてもおしゃべりができる、声と声の出会いなんです」と井口氏はいう。というとTinderの声版、出会い系サービスに思えるが、そうではないという。

Babyでは自分の性別と、コミュニケーションしたい相手の性別が選べる。当初男女の対話がメインと考えていたものの、ヒアリングとユーザーテストを重ねるうちに「女性が女性としゃべりたいというニーズがすごくある」ことに気づいたという。「女の子と安全にしゃべりたい、という女性は多い。安全なら男がいてもオッケーというんです。だからまず最初に女の子が女の子としゃべれる環境を作りたい」(井口氏)。

当初ラブリーなトーンだったアプリのCIは赤から青に変更し、男女の出合いを思わせる表現も全て消した。

今さら声なの、と思う人もいるだろう。声を選んだ背景には日米文化の違いもあるという。

「アメリカでの学生ヒアリングで分かるのは、見ず知らずの人と仲良くするのに慣れていること、おしゃべりが大好きなことです。アメリカの若い子は相変わらず電話をしているんですよ」

井口氏の見立てでは、いまアメリカの若者はTinderとかHappnのようなランダムな出会いサービスに飽きている。Down To Lunchなどもそうだが、アプリのゴールが「会うこと」だとデートが成立しないと満足度が低い。「だから会うことをゴールにしないほうがいいと思っていて、むしろ会わないほうが理想だと思っています。しゃべること自体が楽しくて、声だけでずっと繋がっている状態があるんじゃないかと思っています」(井口氏)

なぜしゃべりたいのか、ということについては、「みんな孤独なんですよ。大学に入って寮で新生活を始めたりして」ということだそうだ。都市部の日本の大学生でも似た状況がありそうだが、基本的に人が移動し続ける社会、アメリカっぽい話ではある。

井口氏に言われるまま、ちょっとだけぼくも5秒の音声を吹き込んでみたのだけど、これは結構短い。何を言うとかと考えてる間にぷつっと切れる。ただ、これは意図的な設計で、5秒というのが良いのだという。

「3秒、5秒、8秒で試しました。3秒は短いし、8秒は冗長なんです。就職面談やコンサートの冒頭なんかがそうですが、実は人間というのは表現の最初の6秒だけ見聞きすれば、それで良いかどうか分かる。心理学ではThin-slicingというのですが、そういう知見にもとづいています」(井口氏)

1つの音声メッセージを5秒に限定するというのは、Twitterの140文字制限と似た話なのかもしれない。この辺は蓋を開けてみないと分からないところがあって、井口氏自身も「まだこの先、5秒の尺を変えるかもしれないし、連続投稿を許すかもしれないし、VoIPによる連続通話を実装するかもしれない」と話している。ニーズ模索フェーズであるため、今回のローンチは「ソフトローンチ」と位置付けているそうだ。

最終的に声のコンピューティングを作りたい

Babyは蓋を開けてみないと何がでてくるか分からないタイプのサービスだろう。

井口氏自身も「ユースケースが見えないし、なんでこれが流行るのかという論理的な説明が付かない。ヒットして何百万人がコアユーザーになってくれると、なんか良いんじゃないってなるだけ。プラットフォームサービスって、そういうものですよね」と話している。

なんだか独自文化が生まれてくる予感もする。それもそのはず、日本人であれば「ダイヤルQ2」を知っている世代にはピンと来るだろうし、実はアメリカには「パーティーライン」という似たサービスがかつて存在していたそうだ。ある年齢以上のアメリカ人にBabyのコンセプトを説明すると、みんな目を細めて「懐かしい」というんだとか。

とはいえ、それはインターネット以前の話。いまさら音声なのかという疑問はある。しかし、いま現在シリコンバレーでは声系サービスに対して、がぜん注目が集まっている。コンピューターと人間のインターフェイスは、文字ベースのCUIに始まり、2次元のGUIに進化し、続いてタッチで置き換わり、次は音声だという見方をする人が業界では増えている。音声は人間にとって自然だし、操作対象が複雑で膨大になるにつれてGUIのようにキレイに対象を階層的に整理できなくなっているからだ。パソコンユーザーなら誰でもメニューの中を迷子になった経験はあるだろう。

音声が「次のUI」として注目されている一方で、井口氏に言わせると今の音声系サービスには決定的に欠けているものがある。「SiriにしろCortanaにしても欠けてるのは、しゃべりたい、と思わせるもの」(井口氏)。結局、今のところどんな話題にも対応できるAIは存在しないので話す理由がない。買い物をするためのAmazon Echoはどうやら合理性がありそうだとシリコンバレーの人々は考え始めている。しかし、買い物のように明確な理由もなくコンピューターに向かって話を続けることはない。

一方、もし活発な声コミュニケーションがBabyで生まれると、ちょうどTwitterがリアルタイムの世界のつぶやきを獲得できた(マネタイズはまだ苦労しているが)ように、Babyは誰より早く声のビッグデータを取れるのではないか。それが井口氏の狙いだそうだ。「最終的に声のコンピューティングを作りたいんですよ。ARやVRにはインターフェースとして音が向いてますし、ながら、のときにも音が向く。AppleがAirPodsを出したことで『ヒアラブル』が注目されて、いまシリコンバレーでは『次は声だよね』という認識ができつつある」

「5秒の声の雑談→音声コンピューティング」はつながるか?

5秒の声の雑談がブレークするかどうかは未知数だが、確かに恒常的に断片的センテンスとしての声が流れる「場」を作ることができれば、声を取り入れたコンピューティングの未来を先取りする何かが生まれてくるのかもしれない。先日TechCrunchでも「snackable audio」と呼ぶべき短いオーディオコンテンツの可能性を指摘する記事を掲載しているが、Babyにエンゲージメントが生まれれば、そこにコンテンツや広告を結びつけることはできそうだし、さらに音声・言語解析によってECを繋ぎ込む未来がひらける可能性もあるのかもしれない。

ただ、Babyの実際の取り組みに比べると、そうした「声のコンピューティング」の目標は遠大にも思える。これまで井口氏の取り組みは、やたらと大きなビジョンや先進的なモックアップを喧伝して、それを実現できずに終わってきた経緯があるので、なおさらだ。

2008年に話題となったセカイカメラのデモ動画は、あまりうまくない英語でも日本人が堂々とアメリカでコンセプトをぶち上げて喝采を浴びた、という意味で「伝説」だ。気概だけでいえばニューヨークの五番街に乗り込んで、ヘタな英語でウォークマンをアメリカ人に売り込んだソニー創業者の盛田昭夫に通じるものがあったと思う。一方で、喝采を浴びた中でも、デモ動画を見た審査員の何人か(例えばティム・オライリー氏)が手厳しく批判していたのも事実だ。セカイカメラがどう実現できるのかの見通しについて説明が何もない、という批判だった。

セカイカメラはARブームを先取りしたようなコンセプトをぶち上げたプロダクトだったが、2008年というのはスマホも非力だったし、ARは早すぎた。これを「時代を先取りしていた」ということもできるし、「実現不可能であることを実現可能であるかのように吹聴した」と見ることもできるだろう。セカイカメラ開発の頓知ドットは最終的に約15億円の資金を調達して、そのコンセプトの「一部」を実現したアプリでは大手企業との業務提携なども行うなど一時はファンも少なくなかった。しかし、一言でまとめると「結局セカイカメラは実現しなかった」と言わざるを得ない。

Telepathy Oneについても同様だ。やはり5億円の資金を米国VCから調達していたものの、「本当にこんなコンセプトが現実のプロダクトとして実現できるのか?」と懐疑的に見る人は多かった。デモ動画はイカしていたが、やはり「時代の先」を行きすぎていたのかもしれない。井口氏の退任騒動から半年後にテレパシージャパンから出てきたのは、半端ないコレジャナイ感いっぱいのバーチカル向けメガネデバイス、Telepathy Jumpなのだった。Telepathy JumpはB向けで市場はあるだろうが、どうみても聴診器。井口氏が見せてくれたスリークで未来っぽいグラス型ウェアラブルとは似ても似つかないものだった。

日本の起業家はもっと世界を目指せ

photo

井口尊仁氏

井口氏が語る、哲学的思索すら入り交じるコンピューティングの未来の話はいつも刺激的で面白い。セカイカメラはAR、Telepathy Oneはグラス型ウェアラブル、そして今回は音声コンピューティング。こうした刺激的な「未来話」の一部でも現実のものにしていける、その足がかりがBabyでつかめるだろうか。

前二回の取り組みと異なるのは、いきなり現実的なプロダクトが出ていること。それから当初ターゲットとする若い女性層、とくにサンフランシスコの大学生を対象としてヒアリングを繰り返してプロダクトのパラメーターや打ち出しアングルを変えながら地に足の着いたの作り込みをしているのも、だいぶ違う印象を受ける。

井口氏自身によれば、前二回は、アメリカを主戦場にしきれなかったこと、アメリカ型組織を作って戦うには調達額が小さすぎたことなどの反省もあるという。あまり多くを語らない井口氏だが、テレパシーの退任騒動は「退任」どころではない苦い経験となっているようだ。

今回チームは日本人を中心に構成し、当初ターゲットを北米市場としている。Snapchatが3年遅れで日本市場で徐々に広まりを見せていることから、「もしBabyがアメリカで流行したとして、それが日本市場に入るのには3年くらいかかるとと思ってる」(井口氏)という。

なぜアメリカにこだわるのか。

「セカイカメラのとき、投資家から想定売上が大きすぎると言われて自分で自分にブレーキをかけていた部分がある。遠慮があったんだと思います。デカイ話を抑えていた。でも、日本の起業家はもっとホラを吹かないとダメですよ。日本で講演やメンタリングを依頼されると、いつもdisってばかりいますね。だって、任天堂にしろ、ホンダにしろやれたわけじゃないですか。ソニーやホンダのようなパイオニアがいない国だってあるわけですよね。日本は世界制覇できる実力がある。それなのに日本でチマチマやってるのに違和感を覚えます」

Babyを開発・運営するDOKI DOKIは、すでにSkyland Ventures、サイバーエージェント・ベンチャーズのほかエンジェル投資家らから5000万円の資金を調達していて、2016年内に1億円程度のシード資金調達のクローズを予定しているという。