Microsoftは昨日、「Project Oxford」という名のプログラムの中で一連の機械学習APIのベータ版を静かにローンチしていた。その中のHow-Old.netのデモは、SNS上で既に話題になっている。
サイトに顔の写真をアップロードすると、写っている人物の年齢を自動で判定するというものだ。この面白いデモは上手くできているのだが、予想通り間違う場合も多々ある。年齢の結果の正確さはおおよそだと考えておくべきだろう。Microsoftのデモは興味深いが、このようサービスのユースケースは、例えば画像の人物が子供か大人かを判断するようなことではないだろうか。
How-Oldは、全てではないが「Project Oxford」の新しい開発者向けサービスのいくつかを使用している。
新しいAPIで開発者は、顔の検出と認証機能をアプリに導入することができる。このサービスはデフォルトで、推測したユーザーの年齢を開発者に伝える。
Microsoft Technology and ResearchでOxfordプロジェクトのシニアプログラムマネージャーを務めるRyan Galgonは、今日のMicrosoftのBuild開発者カンファレンスで、Oxfordと年齢判定のプロジェクトは、Microsoft社内の異なるグループの大々的なコラボレーションによって生まれたと私の取材に応えた。現在利用可能なサービスは、会社がここ数年かけて構築してきた、最新のディープラーニング技術を基盤としている。
APIをつないだ瞬間から、画像に映る人物の顔を検知したり、2つの顔がある場合は、それが同一人物かどうかを判定したり、似た顔を検索したりすることができる。
他のツールには音声認識があり、時間が経過してデータが集まるほど、開発者がユーザーの求めていることを理解する手助けになるだろう。このプロジェクトには他にも画像APIがある。画像を自動でカテゴライズすることと、写真の被写体を認識して中央に配置するように賢く画像を切り抜くことができる。
この3つのサービスはパブリックベータ版で利用可能だ。それに加え 4つ目のAPI では、カスタマイズした言語理解機能をアプリに導入することができる。
以前にもBingブランドの元で、Microsoftは似た類のAPIをいくつか提供してきた。その中には例えば音声認識と翻訳のAPIがあるが、Bingのサービスはより基本的なもので、Project Oxfordのツールより、検索機能に重点をおいている物が多い。BingのAPIに関してGalgonは、それらはWindowsのデスクトップでの体験にフォーカスしていると話した。一方、Project OxfordのツールはRESTに対応したAPIという形で提供している。(月に5000コールまでの上限がある)
音声APIは、名前が示すように、音声認識と、音声からテキストへの変換と、テキストを読み上げて音声に変換するサービスを提供している。興味深いのは、この機能はユーザーの意図まで認識しようとすることだ。アプリケーションが発話している人の意図を理解することが目的だ。例えば、「ブリトーを注文」や「フライトをキャンセル」といった要望を汲み取る。このサービスは、プロジェクトのLanguage Understanding Intelligent Service(知的言語理解サービス)が元となっている。
画像APIを使用すれば、開発者は例えば、アダルトコンテンツをフィルターにかけて排除したり、簡単に特定の写真だけに自動でタグを付けて、まとめたりすることができるようになる。このAPIは、光学式文字認識(OCR)もでき、画像のどの部分が重要かを認識して中央に配置して切り取ることができる。
現在、このサービスは無料で使用することができる。Microsoftがいつ、これらのアクセスを有料にするかは定かではないが、Gaglonはこのサービスを随時改良していくために注力していくと話した。
開発者でなくても、 ここからこれらの技術を試してみることができる。
[原文へ]