文脈から人間には自明でも、コンピューターにとっては「ソフトバンク」という固有名詞がキャリア企業のことなのか野球チームなのことなのか区別が付きづらいときがある。特定ブランド名についてのソーシャル上のデータを使ってセンチメント分析を行うといったとき、これが問題になることがある。Twitter上にツイートは大量にあるが、ノイズが多くて曖昧性が高いと、精度が悪いのだ。
2007年創設の自然言語処理専門のスタートアップ企業「Studio Ousia」が、いま解こうとしているのは、まさにこの問題だ。
共同創業者の2人は1期と10期の慶応SFCの卒業生で、ジャフコなどでの投資家経験を持つ渡邉安弘CEOと、学生時代にP2P通信関連サービスのニューロンを起業して同社をフラクタリストに売却した経験のある連続起業家でエンジニアの山田育矢CTOが中心となって取り組んでいる。Studio Ousiaはシステム開発のエヌアイディ、ニッセイ・キャピタルなどから累計2億円を調達していて、これまでは行動ターゲティング関連の受託開発や研究を進めてきた。
そのStudio Ousiaが満を持して今日ローンチした自社プロダクトは、高い精度でキーワード抽出ができる「Semantic Kernel」だ。
Wikipediaで意味をモデル化
Semantic KernelはAPIベースで利用でき、ソーシャルのテキストデータを解析しているような開発者は企業が当面のターゲット層となる。日本語と英語に対応し、APIは月間200リクエストまでのお試しが無料。月間10万リクエストが1000ドルなどとなっている。
Semantic Kernelでは「エンティティ・リンキング」と呼ばれる、いまも盛んに研究されている分野の技術を使って、与えられたテキストから「エンティティ」(人名や地名、用語、作品名など)と呼ぶキーワードを抽出する。従来こうした自然言語処理技術が前提としていたのは、論文や契約書のような「ドキュメント」。文法的に正しく、章立てもシッカリした文章だった。ところが、ソーシャル上のテキストは文法や表記が崩れていてセンテンスも断片的なものが多い。こうしたテキストからでも正しくキーワードを切り出せるのが新技術なのだという(より詳しい解説はここ)。Studio Ousiaのチームはキーワード(エンティティ)の切り出し精度を競う国際コンペのNEEL Challengeで2位以下に大差を付けて優勝しているそうだ。
Semantic Kernelは、Wikipediaを使って知識をモデル化していて、これを元に与えられたテキストデータ中のキーワードを認識する。Wkipediaにはエントリ同士の内部リンクが膨大にあって、これを解析することで意味のモデル化がキレイにできるのだそうだ。
ところで先日、世界中からデータサイエンティストが集うオンラインコミュニティーのKaggleで「理科で中学2年に勝てるか?」というコンテスト「アレンAIサイエンス・チャレンジ」が行われ、山田CTOは170チーム中6位になったという。その山田CTOの指摘が興味深い。
アレンAIサイエンス・チャンレンジではコンピューターは総じて点数が低く、「実際には中2の問題ですら解けないよねというのが結論でした」というのだ。
「最近、人工知能が話題ですが、コンピューターに知識を教えたりすることはできません。囲碁の盤面を最適するようにはできないんです。結局コンピューターには言語が読めませんから。ニューラル・ネットワークや深層学習が話題ですが、アレンAIチャレンジの上位者は使っていません。つまり、こうした技術は知識の領域には入ってきていないのです。理科なのにDNAとRNAを同じものだと理解してしまうようなことが起きていて、うまく教えられていません」
その一方でWikipediaから知識をモデル化してオントロジー辞書を作るような研究が盛んだそう。「大量の知識を浅く読むのはできるようになりました。まだこれから爆発的にイノベーションが起こる領域です。エンティティ・リンキングは、企業が持つQ&A集のような断片的で膨大なテキストデータにも有効だということが最近分かってきています」と山田CTOは話す。
Sematic KernelはAPIとして提供するが、ビジネスとしては、アドテク向け、メディア向け、QA向けなど個別にソリューション的に提供していく可能性もあるという。応用としては、ECサイトの検索やリコメンドの精度向上、メディアのタグ付けや記事リンク化などがある。