スマートフォンの草創期から人気を博してきたAndroid向け日本語IME(日本語入力)である「Simeji」。2011年末に中国検索大手のBaidu(百度)が買収したが、このSimejiにまつわる騒動が起こっている。
2013年末にも日本語入力に関する騒動が
2013年12月に、百度の提供する日本語IME「Baidu IME」およびSimejiで、入力した文字情報が同社のサーバに送信されていたことが明らかになった。
これに対して百度は、Baidu IMEは利用規約によりユーザーに事前許諾を得ていること、またクラウド変換(文字変換をクラウド上で実行するというもの)のオンオフ設定ができるようになっていることを説明。さらにSimejiについても利用規約への同意を得ているとした上で、「クラウド変換がオフになっていてもクラウドにアクセスする不具合があり、修正版を提供している」と説明し、修正版のSimejiを公開。ユーザーの感情はさておき、ひとまず事態は収拾に向かっていったようだった。
その約半年後に起こったのが今回の騒動だ。すでに一部のウェブメディアやブログでも語られているが、ここで改めて紹介すると次の通りとなる。
顔文字サーバに送られた不自然な大量アクセス
ワンタップ操作で登録された顔文字をクリップボードにコピーして利用したり、顔文字を編集してあらたな顔文字として登録したりできるIO Inc.のスマートフォンアプリ「みんなの顔文字辞典」(iOS/Android)。このアプリの顔文字を保存するサーバに対して、4月10日の午後8時過ぎから午後10時頃にかけて、2時間で合計40万回以上のアクセスがあったという。
IO Inc.の石本光明氏の説明によると、アクセスは断続的なもので、1分間に5000〜6000回にも上る時間帯もあったそうだ。性質が異なるために参考にならないかもしれないが、これは2010年に問題になった愛知県岡崎市の図書館ウェブサイトへの大量アクセスの100倍の数字(岡崎市のケースは1秒に1回のアクセスだった)である。
またアクセスの都度、アクセス元のIPアドレスは変更されていたという。ちなみにそれらのIPアドレスは、whoisから百度が所有しているものだということが明らかになっている。
しかしこのIPアドレス、加えてユーザーエージェントが妙なのである。百度では、検索のためのクローラーについて詳細を公開しているが、これが今回大量にアクセスのあったIPアドレス、ユーザーエージェントとは異なるものなのだ。さらには、通常クローリングされたくない内容を明記してサーバ上に置いておくファイルである「robots.txt」の内容を無視してのアクセスだったという。
アクセスの際に使用した検索キーにも疑問が残る。検索キーは「はやってんの?」「おれに?」といった話し言葉そのものから「たっちゃんも」「ひろしに」といった、まるで名前を呼びかけているようなものとなっている(石本氏が公開した検索キーの一部がこちら)。それこそ冒頭で紹介したクラウド変換で収集したテキストではないのかとも思えてくる。もう少しはっきり言えば、Baidu IMEやSimejiの入力内容がユーザーの知り得ぬところで利用されているのではないかという疑いが生まれてくるということだ。
石本氏も、「あくまで可能性の1つ」と前置きをした上で、「話し言葉を検索キーにして顔文字のサーバにアクセスすることで、登録されている顔文字を取得しようとしたのかもしれない」と語る。みんなの顔文字事典では、顔文字と説明(読みがななど)が対になって登録されている。前述の検索キーを例に挙げれば、「おれに?」という言葉の変換候補として最適な顔文字をこのサーバから取得しようとしていたのではないかとも考えられるということだ。
同氏は翌日の4月11日にSimejiのサポートアカウント「@Simeji_jp 」に対してこの不自然な大量アクセスについて問い合わせており、そのやりとりが「バイドゥのIPアドレスから短時間のうちに30万回を超える不審なアクセス」としてtogetterにまとめられている。その中で石本氏はSimejiのサポートとのDM(ダイレクトメッセージ)でのやりとりの一部も公開しているが、Simejiのサポートアカウントからは「故意に攻撃を仕掛けてたわけではない。語彙収集部門のクローラーbotによる過剰なアクセス」という釈明がなされている。
ただ誤解がないように書いておくと、石本氏は突然DMを公開したわけではない。「直接会って説明と謝罪をする」と話す百度に対して、石本氏は「故意ではないが、異なるIPアドレスから短時間で40万回以上のアクセスをした理由」を書面で回答して欲しいと依頼していた。しかし百度側は書面について触れることなく「直接会う」の一点張りだったそうだ。すでに石本氏がTwitterで最後の質問を投げてから2週間以上が過ぎている。
“検索キーの疑念”は否定。だがその正体については即答しない百度
この騒動に対して百度に電話で問い合わせをしたところ、同社の広報担当はまず、今回の騒動に対して「担当者が日本にいないため回答できない」と説明した。
百度の開発はそのほとんどが中国に集中しているとは聞いていたが、Simejiに関わるプロダクトマネージャーらは日本人だったはずだ。「本当に関係者が日本にいないのか、広報では回答できないのか」と改めて尋ねると、「技術的な内容もあり、広報では対応できない。内容は(指定のアドレスに対して)メールで送付して欲しい」とその答えが変化した。また会話の中で時折「事務局が対応する」という説明を受けたのだが、この事務局がそもそも広報と別の組織なのかどうかについても、詳細の説明はなかった。
技術的な内容には回答できないとしていた同社広報だが、前述のtogetter上のやりとりついては「事実である」と答えている。加えて、検索キーに関して「Baidu IMEやSimejiユーザーのクラウド変換の内容ではないのか」という疑念があるとぶつけたが、その疑念に対しては否定した(しかしながら、それではどんなデータを検索キーにしたのかと尋ねると、また「書面で質問を投げて欲しい」として回答をもらえなかったのだが…)。
Simejiのインストール数は、Google Playで見ると500万〜1000万件となっている。基本的に日本語圏のみで利用されているアプリであるし、この数字は決して小さい数字ではない。もちろん累積の数字なので、現在どの程度のユーザーが利用しているのかは分からないが、不自然な大量アクセスを起こした理由を説明してくれないことには、ユーザーは離れていくばかりではないだろうか。