クラウドの力は私たちの多くにとってそれほど明瞭ではないが、しかしMicrosoftは、デベロッパーに一連のAPIツールを与えることによって、この事態を変えようとしている。そのスイートはCognitive Services〔複数形〕と呼ばれ、デベロッパーに彼らのソフトウェアを大幅にスマートにする能力を与える。たとえばその中には、ユーザーが訓練できる音声テキスト変換処理や、高品質でまるでマジックのようなオブジェクト認識がある。
Cognitive Servicesのスローガンは、“あなたのアプリケーションに人間性を(give your apps a human side)”だ。つまりそれは、デベロッパーが自分のアプリケーションに利用するAPIの集合だ。今年のBuildカンファレンスで紹介された二つのデモのひとつが、新作のオブジェクト認識エンジンで、たぶんそれはProject Oxfordをリプレースするのだろう。このAPIのデモとしてMicrosoftは、Captionbot.aiというものを作った。これは、やり始めるとやめられなくなるかっぱえびせん的アプリケーションで、しかもSF的なすごさもある。〔自分の手元にある写真をいろいろアップロードしてこのAIと遊ぶ—猫を“猫”と認識するから、けっこうすごい。〕
もうひとつのデモは、スピーチなどの音声からテキストを書き起こす音声認識ツールの、APIの用例だ。低品質のオーディオでも認識できるが、このAPIのキモはユーザーが訓練して自分の目的に合った“書き起こし屋”さんを作れることだ。たとえば、アクセントに癖のある某氏用とか、子ども用、特定のノイズに邪魔されているスピーチ用、などだ。最後のは、たとえば高速道路のドライブスルーなど、騒音の多い環境で使えるだろう。
今年のBuildで見たあらゆるデモの中で、Cognitive Servicesのそれらは、いちばん未来的と言っても大げさではない。今後デベロッパーたちがこれを使って何を作るか、非常に楽しみだ。
〔参考記事: Googleの画像認識API。ほかにも、AlpacaDBなど。〕