テキストを扱うことは、プログラマにとって往々にして面倒な仕事だ。コードは曖昧であってはいけないが、テキストは曖昧性のかたまりであることが多い。そこでかねてから、Alchemy、Thomson Reutersといったあたりが自然言語処理(NLP)と機械学習のアルゴリズムを利用するサービスを提供して、文書からもっと容易に意味を取り出せるように、デベロッパの仕事を助けてきた。今回ご紹介するAylienも、独自のテキスト分析APIでこの競技に参戦してきたが、同社の場合それは、これから提供していく一連のデベロッパサービスの第一弾となるものだ。
サービスのファウンダはダブリン(アイルランド)のParsa Ghaffariで、Chinacceleratorが支援している。Ghaffariによると、最初にこのアクセラレータ事業に応募したときには、NLPを使って今書いている文書から有意データを自動的に取り出すプロダクト、というアイデアを抱えていた。ところが、そのために利用できる基本技術がまだ存在しないことが分かった。そこで彼は基本技術の構築から始めることにし、そのための3年の努力の末、Aylienの立ち上げにたどり着いた。
デベロッパはこのAPIを使ってドキュメントから見出しや本文を素早く取り出すことができるが、そのほかに要約機能や、エンティティとコンセプトを取り出す機能、言語や感情の検出機能などがある。私の場合、個人的なプロジェクトにこのAPIを使ってみる機会が二度あったが、一部の例外を除いては、だいたい同社の効能書きどおりの仕事をしてくれた。ただし今のところ得意なのは英語のテキストだけで、たとえば、Googleのストリートビューの最近の拡張について書いたこのドイツ語の記事を、Aylienは100%の確信をもって、スポーツのカーリングに関する記事だ、と主張した*。同社は今、英語以外の言語のサポートに関しては‘鋭意努力中’である。〔*: カーリングではなくGoogle Mapsとホッキョクグマの保護に関する記事。同趣旨の英語の本誌記事に対してAylienは、‘自然科学-地理学’とラベルした…それは‘カーリング’ほど見当外れではない(笑)。たしかにGoogle Mapsは、地理の化け物だ。〕
このサービスを試用してみたい人は、ここへ行って、AylienのAPIデモに、何らかのテキストドキュメントのURLを与えてやるとよい。
データはすべてJSONで返され、同社はMashapeを、APIの有料利用のための窓口としている。ただしAPI呼び出しが1日に1000回未満なら無料だ。それ以上だと、1日6000回までが199ドルなどと課金される。既存の同種APIに比べると、やや安いと言える。
今Aylienは、ファウンダも含めて技術者3人だけの会社だが、PhD(博士号)の保有者は一人もいない。NLPのスタートアップとしては、かなり異例だ。Ghaffariは学術的学問的なNLPの世界と無縁ではないが、彼は、同社のような言葉に対する実践的なアプローチの場合、学歴はあまり役に立たない、と確信している。
同社の次のプロジェクトは、ニュース記事をフィルタするnews APIだ。またデベロッパサービスのために作ってきた技術を、いくつかの消費者向けのプロダクトに応用することにも取り組んでいる。
[原文へ]
(翻訳:iwatani(a.k.a. hiwa))