Y Combinator社長からAI研究組織CEOに転身したサム・アルトマンの挑戦

今年の初め、起業家で投資家のサム・アルトマン(Sam Altman)氏は、Y Combinatorの社長という注目される役職を離れOpenAIのCEOとなった。OpenAIは2015年の末にハイテク業界の最も著名な人たちによって設立されたAI研究組織である。この組織が目指すのは、創業者の1人であるイーロン・マスク(Elon Musk)氏がニューヨークタイムズへ回答したように、人工知能が「安全な方法で開発され、人類にとって有益なものであること」を確実にすることだ。

この動きは多くの意味で興味深いものである、なにしろ汎用人工知能(あるいは機械が人間に並べるくらい賢くなる能力)はまだ存在しておらず、AIのトップ研究者たちでさえ、それがいつになるのかについてはっきりとはとても言えないのだから。アルトマン氏のリーダーシップのもとで、もともとは非営利組織だったOpenAIは、「これからの数年のうちに大規模クラウドコンピューティング、才能ある人材の確保、そしてAIスーパーコンピューターの開発に対して数十億ドル規模の投資をする必要がある」というコメントを発しつつ、利益を目指す企業として組織変更を行った。

OpenAIが、それほどまでに多額の資金を集めることができるかどうかはまだわからないが、私たちはもしそれが実現されるとしたら、アルトマン氏自身の力によるものだろうと予想している。5月16日夜にステージ上で行われた、YCの進化からOpenAIでのアルトマン氏の現在の仕事までを網羅した拡大インタビューは、観衆をあっという間に魅了する力があった。

例えばYCでは、リーンネスと「ラーメン代がまかなえる利益率」が、一般的なアクセラレータープログラムの卒業生たちが目指すゴールだった時代もあったことを語り合った。しかし最近のゴールはすぐにでも数百万ドル、あるいは数千万ドルをベンチャーファンドから調達することになっているように思える。

「もし私が市場をコントロールすることができるなら、明らかに自由市場は勝手に進んで行きますが、私はYC企業たちには調達しようとしている金額や評価額を上げさせないでしょう」とアルトマン氏はこの小さな業界向けイベントの中で聴衆に語りかけた。「一般的に、それはスタートアップにとって良くないことだと思っているのです」。

アルトマン氏はまた、個人的だったり時に陳腐だったりする質問を投げかけられても率直に答えていた。さらには、このイベントのためにたまたま街にいた母親との、長期にわたる親密な関係についての話まで提供してくれた。彼は、彼女が「絶対に」信頼しているほんのひと握りの人々の一人だと語っただけでなく、その小さな輪の外の人々からの率直なフィードバックを得ることが、時間とともに難しくなっていることを認めた。「キャリアのある時点になると、人びとがあなたの気分を害したくないと思ったり、あなたが聞きたくないような話をしたくないと思ったりするようになります。もちろんこの時点で私が手にしているものは、フィルターがかけられ事前に計画されたものであることを、私ははっきりと意識しています」。

確かに、アルトマン氏は、多くの人たちよりは動き回れる範囲が大きい。このことはアルトマンがY Combinatorを5年にわたって運営したやり方(基本的に何度も規模を拡大した)から明らかなだけではなく、OpenAIについての彼の議論の仕方からも、彼の現在の思考が一層大胆なものであることは明白である。確かに、木曜日の夜にアルトマン氏が語ったことは、もし他の誰かが語ったならば、単なるたわごととみなされるようなものが多かった。アルトマン氏が語ることで、聞く者が驚かされることになるのだ。

例えば、OpenAIがどのように収益を上げることを計画しているのか(私たちは、成果の一部にライセンスを設定するのかを知りたいと思っていた)という質問に、アルトマン氏は「正直な答は『まだ何もない』ということです。私たちはいかなる収益も上げたことがありませんし、現段階では収益を上げる計画もありません。一体どうすれば、いつの日か収益を上げられるようになるのかがわからないのです」と答えている。

アルトマン氏は続けて、次のように述べた「私たちは投資家の皆さんに『もし汎用人工知能を開発できたら、それに対して投資家の皆さんにリターンを行う方法を考えて欲しいと依頼するつもりです』という、厳しくない約束をしているのです」。聴衆が爆笑したときに(なにしろ彼が真剣なのだとは思えなかったのだ)、アルトマン氏はこれはまるでドラマの「シリコンバレー」のエピソードのように聞こえるかもしれないと言いつつも「もちろん笑っていいんですよ。全然構いません。でも、それは本当に私が信じていることなのです」と付け加えた。

またアルトマン氏のリーダーシップの下で、OpenAIは投資家に最大100倍の利益を還元してから余剰利益を他に分配する、「上限利益」(capped profit)企業となったが、それは何を意味するのかという質問も行われた。私たちはその100倍という数字がとても高い目標であることに注目している。なにしろ旧来の営利企業に投資する投資家たちが、100倍近いリターンを得ることなどは滅多にないからだ。例えば、WhatsAppに対する唯一の機関投資家であるSequoia Capitalは、Facebookに220億ドルで売却したときに、同社が投資していた6000万ドルの50倍のリターンを得たと報じられた。素晴らしいリターンだ。

しかしアルトマン氏は、「上限利益」が、ちょっとしたマーケティング上の工夫であるという意見に反論し、なぜこれが理にかなっているのかについて改めて強調した。より具体的に言えば、彼は汎用人工知能がもたらす機会はとてつもなく巨大であり、もしOpenAIがなんとかこの扉をこじ開けられたとするならば、おそらく「光円錐内の宇宙の、すべての未来の価値を取り込むことができてしまいます。そうなったときに、特定の投資家のグループだけがその価値を独占することは正しいことではありません」と語った(光円錐というのは相対論の中に出てくる用語だがここでは「未来の人類に手の届く全宇宙」といった程度の意味)。

彼はまた、将来の投資家たちは、投資に対するリターンがさらに低く抑えられることになると語った。これは基本的に、リスクをとってくれた初期の投資家たちに、OpenAIが報いたいと思っているからだ。

インタビューを終える前に、私たちはアルトマン氏に対して、AI研究者たちによるさまざまな批判を投げかけてみた。これらの批判は今回のインタビューに先立って行われたもので、特にOpenAIは定性的なものへ注力しており、既に証明された成果の中での根本的な飛躍を目指しているものではないというもの、そしてその「安全」な汎用人工知能を発見するという使命は、不必要に警戒心を煽り、研究者たちの仕事をより難しくしてしまうというものだ。

アルトマン氏はそれぞれの点に対して熱心に回答した。彼はそれらの意見をまったく否定することはしなかった。例えば、OpenAIに対する最も人騒がせな意見に関しても「その中には共感できる部分もあります」と述べた。

それでもアルトマン氏は、たとえ不毛と思う人がいたとしても、人工知能の潜在的な社会的影響について考え、そしてメディアと話し合うために、よりよい議論がなされるべきだと主張した。「OpenAIは恐怖を煽って商売につなげていると言って批判している同じ人が、一方では『Facebookはこれをやらかす前に考えておくべきだったんじゃないか?』と言っています。何かをやってしまう前に、私たちも考えたいと思っているのです」。

インタビュー全体は以下から見ることができる。会話の前半は、主に(現在も会長を務める)YCでのアルトマン氏の経歴に集中している。OpenAIに関する詳細な話は26分付近から始まっている。

画像クレジット: Sara Kerr / StrictlyVC

[原文へ]

(翻訳:sako)

Googleが中間テキスト化不要の音声機械通訳の成果を発表

あの銀河ヒッチハイク・ガイドに出てくる不思議な万能翻訳機「バベルフィッシュ」がどんどん現実に近づいている。 Googleの新しい研究プロジェクトは音声で話しかけられた内容をリアルタイムで音声で通訳できるシステムを目指している。

従来の機械翻訳とは大きく異なった仕組みで、中間にテキスト化の段階を含まず、すべて音声レベルで処理される。これは処理の高速化に役立つのはもちろんだが、もっと重要な点は話者の語調その他の音声的ニュアンスをいっそう正確に処理できることだ。

このプロジェクトはTranslatotronと名付けられており、長年の研究を基礎としているものの、まだ開発の初期段階にあるという。Google他の開発者はスピーチから直接スピーチに変換するリアルタイム通訳の実現を目指して努力を重ねてきたが、見るべき成果が上がり始めたのはほんの数年前からだ。

現在、スピーチのリアルタイム翻訳はいくつかの部分に分割して実行されるのが普通だ。ソースのスピーチを音声認識によりテキストに変換(STT、Speech-To-Text)し、テキストを機械翻訳した後、出力テキストをスピーチに変換(TT、Stext-To-Speech)する。この方式は実際かなりの成果を上げているが、完璧には遠い。各ステップに特有の誤差があり、累積すると大きな誤差となってしまう。

またバイリンガル、マルチリンガルの人々が複数の言語を使う場合のプロセスの研究が示すとおり、テキスト化を挟む機械翻訳」は人間の複数言語思考ともかけ離れている。現段階では大脳でどのような処理が行われているのか正確にいうことはできないが、バイリンガルの話者が外国語を使うときに発話内容をいちいちテキスト化して思い浮かべ、それを翻訳しているのでないことは確実だ。人間の思考プロセスは機械学習アルゴリズムを進歩させる上でガイドないしモデルとして利用できる場合が多い。

スピーチの音声スペクトル画像。テキストを介した翻訳ではスペイン語の人名「ギェルモ」が対応する英語の人名「ウィリアム」に翻訳されてしまうのに対して、音声直接通訳では「ジエルモ」になっている。これでも正確ではないが、通訳としてベターだ。

これに対して研究者は音声スペクトルを解析して直接対応言語の音声スペクトルを合成しようと努力している。これは伝統的なテキストを介する3段階方式とまったく異なる機械翻訳のアプローチだ。これには弱点もあるが、上の例で示したようにメリットも大きい。

簡単なところでは、十分な計算機資源が用意できるなら現行の3ステップ方式より1ステップのTranslatotronの方が処理が速い。しかしユーザーにとってもっと重要な点は、音声から音声への直接通訳は元の発話の音声の特徴をよく再現できることだ。テキストを介した合成音声がいかにもロボット的に不自然に聞こえるのに対して、Translatatronで生成される文はオリジナルの発話に近いものとなる。

これは意味内容だけが対象言語に翻訳されるのではなく、発話の音声に込められた感情やニュアンスも再現されるという点で、機械翻訳を画期的に進歩させる可能性がある。これは通訳アプリに限らず、音声合成のユーザーは非常に大きな影響を与えるだろう。

今のところ、音声直接翻訳の精度は従来のテキストを介した翻訳に及ばず、この点では改良が必要だという。しかし部分的にせよ、非常に優れた翻訳も生まれている。研究グループは「出発点に立ったところであり、可能性を実証した段階」と控えめに表現しているが、実用化されたときのインパクトの大きさを想像するのは難しくない。

オリジナルの研究論文はArxivで公開されている。またう従来型のテキストを介した通訳とTranslatotronによる通訳のサンプルはこのページにある。これらのサンプルはあくまで音声直接翻訳というアプローチの可能性を試すために選ばれており、翻訳精度のアップそのものをを狙ったものではないという。

画像:Bryce Durbin / TechCrunch

原文へ

(翻訳:滑川海彦@Facebook

LGがスマートホーム製品向けAIチップを独自開発

かつて勢いがあったスマホ部門が影をひそめるにつれ、LGは新興テックに注意を向けている。LGはこれまでに自動車関連、なかでも自動運転能力に注力してきたが、今日、独自のAIチップを開発すると発表し、スマートホーム部門で賭けに出た。

新たなチップには、ロボット掃除機や洗濯機、冷蔵庫、エアコンなどを含む未来のスマートホームデバイスに使われる、深層学習アルゴリズムを改善する独自のニューラル・エンジンが含まれる、とLGは説明した。このチップはデバイス搭載のプロセッシングのおかげでインターネット接続なしに作動する。そして個人情報の蓄積には“別のハードウェアに内蔵されたセキュリティゾーン”を使う。

「音声知能が正確に声や騒音の特徴を認識し、そしてプロダクト知能が周囲の物体や化学的な物質の変化をとらえることでデバイスの能力アップを図るように、AIチップは空間や位置情報、物体、ユーザーを認識・区別するビジュアル知能を可能にする」とLGは発表文で説明している。

今日までにAIや機械学習知能をチップセットレベルで求め、不動の地位を確立したきた企業はIntelやARM、Nvidiaくらいで、その一方で新参者としてはGraphcoreやCerebras、そしてVCが資金を注入しているWave Computingなどがある。

実際、AIや機械学習に挑む企業はブームのように増えている。昨年のニューヨーク・タイムズの報道によると、「少なくともスタートアップ45社がスピーチや自動運転車のようなタスクをこなすことができるチップに取り組んでいる」。しかし、ここには中国政府が財政面をバックアップしているノーマークのプロジェクトは含まれていない。

単独でAI分野に参入すると決めたのはLGだけではない。FacebookやAmazon、Appleも特定の目的のためにAIや機械学習のチップ開発に取り組んでいるとされている。LGの場合、開発するAIはスマートな家庭電化製品向けにカスタマイズされる。

「我々のAIチップは未来のLGプロダクト向けに最適化された人工知能を提供するようデザインされる。これは、我々の人工知能戦略の主要三本柱(進化、コネクト、オープン)を推し進めるものとなり、これまでよりも快適な暮らしを客に提供する」とLG電子の会長でCTOのパク・イルピョン氏は発表文で述べた。

同社の家庭電化製品部門は四半期としてはこれまでで最高の売上高を記録したばかりだ。スマホ部門の不振にもかかわらず、AIを活用する主要部門である家電や家庭エンターテイメント部門の好成績により、LGは昨年24億ドルの利益を出した。

イメージクレジット: ROBYN BECK / Getty Images (Image has been modified)

[原文へ]

(翻訳:Mizoguchi)

イスラエルのAIチップメーカーが最新ディープラーニングチップを発表

Hailoは、テルアビブに本拠を置くAIチップメーカーだ。米国時間の5月14日、同社初のディープラーニングプロセッサとなるHailo-8チップのサンプル出荷を開始すると発表した。このチップは、1秒あたり最大26テラオペレーション(TOPS)が保証されている。現在、何社かの選抜された顧客とともにテスト中で、その多くは自動車業界だ。

Hailoは、昨年になって表舞台に登場した会社で、シリーズAラウンドで1250万ドル(約13億7000万円)を調達した。その時点では、まだチップのサンプル出荷もできていなかった。同社によれば、Hailo-8は他のあらゆるエッジプロセッサの性能を凌駕し、しかもより小さなチップサイズ、より少ないメモリサイズで、その性能を達成できるという。「ニューラルネットワークの中核的な性質に特化したアーキテクチャを設計することにより、エッジデバイスはディープラーニングのアプリケーションをフルスケールで、しかも従来のソリューションよりも効率的かつ効果的に、さらに持続可能な状態で実行できるようになりました」と、同社は説明している。

Hailoでは、自社のチップが、Nvidiaの競合するJavier Xavier AGXよりも、いくつかのベンチマークで優れていると主張している。しかも、消費電力も少ないので、比較的低温で動作するという。これは、小さなIoTデバイスでは特に重要な特長と言えるだろう。

もちろん、さらに多くのエンジニアがこうしたチップを手にしたとき、それらが実際にうまく動作するのか、ということも確かめる必要があるだろう。しかし、エッジ領域でのAIチップに対する需要が増え続けることは疑いようがない。なにしろ市場は数年前に、演算処理をクラウド内に集約化することをやめ、エッジに分散することにシフトしたのだから。それは、応答時間を短縮し、バンド幅のコストを削減し、ネットワーク性能に依存しない安定したプラットフォームを提供するためだ。

後にIntelに買収されたMobileyeという先例と同じように、Hailoも自動車業界のOEMや1次サプライヤと協業してチップを市場に供給することになる。しかしHailoでは、スマートホーム製品などの垂直市場も視野に入れている。実際には、物体の検出や識別のために高性能のAIチップを必要としている、あらゆる業界が対象となりうる。

「近年、ディープラーニングが応用可能な分野が増加し続けるのを目の当たりにしてきました。それはサーバークラスのGPUによって可能となったことです」と、HailoのCEO、Orr Danon氏は述べている。「しかし、産業はAIによってますます大きな力を獲得し、むしろかき回されているような状況もあります。そのため、類似したアーキテクチャで過去のプロセッサを置き換え、エッジ領域のデバイスでディープラーニングを可能にすることが、切実に必要となっているのです。Hailoのチップは、最初から、まさにそのために設計されたものなのです」。

関連記事:ディープラーニング専用チップのHailoが$12.5Mを調達、従来型CPUの数倍の性能を達成

原文へ

(翻訳:Fumihiko Shibata)

マイクロソフトは2022年までに1万5000名の労働者にAIのスキルと資格証明を賦与

Microsoft(マイクロソフト)は米国時間5月17日朝、同社が教育プロバイダーのGeneral Assemblyと提携して、一定範囲のAI関連スキルの資格証明と教育訓練に投資すると発表した。目標は2022年までに1万5000名を教育訓練して、世界中で多くのAI人材を確保することだ。教育訓練のフォーカスはAIと機械学習、データサイエンス、データエンジニアリングなどに置かれる。

この新事業の初年度には2000名を教育訓練してAIと機械学習のロールに移行させる。そしてその後の3年でさらに1万3000名にAI関連のスキルを教育訓練する。

この取り組みの一環としてMicrosoftは、他社とともにGeneral AssemblyのAIのStandards Board(スタンダード委員会)に加わる。今後の6カ月でこの委員会は、AIスキルのスタンダードを定義し、評価の基準を開発、キャリアのフレームワークを設計、そしてAIスキルの資格証明書を作る。

教育訓練事業は、現在需要のあるAI関連雇用を満たすことにもフォーカスし、そこではMicrosoft固有の技術も学習する。Microsoftによれば、航空宇宙や製造業などいくつかの業種では、Azureを使いこなせるような社員がとても少ない。そこで教育訓練のフォーカスは、AI人材を雇用したいと思っている企業のそのような、Microsoft固有技術のニーズにも対応していく。

また人材ネットワークAI Talent Networkを作り、そこから長期雇用の人材や契約労働者を見つけられるようにする。General Assemblyは、22の大学キャンパスや求人求職サイトAdecco(アデコ)にも縁があるので、この人材ネットワークをアシストできる。Adeccoは昨年General Assemblyが41300万ドルで売った企業だ。

Microsoftはこの事業の背景として、雇用創出へのAIのインパクトを挙げている。2022年までには、新しいテクノロジーによって最大13300万の新たなロールが作り出されるそうだ。もちろん、同社のソフトウェアやクラウドの顧客がAzureのような同社製品を使える人々を楽に見つけられるようになるという計算もある。

Microsoftでグローバル営業、マーケティング、オペレーションを担当する執行副社長であるJean-Philippe Courtois氏は声明で「テクノロジー企業がイノベーションにコミットしていくときには、労働者がAIの教育訓練にアクセスできて、今日と明日の職場で伸びていけるようにする責任がある。我々の業態とGeneral Assemblyの専門的技術が組み合わされば、スキルのギャップをなくし、企業はAIに駆動される経済において自らのポテンシャルを最大化できる。その成果が今からとても楽しみだ」と述べている。

[原文へ]

(翻訳:iwatani、a.k.a. hiwa

アクセシビリティに取り組む7つのスタートアップをマイクロソフトがサポート

マイクロソフトは「AI for Accessibility」プログラムの対象となる7つのスタートアップを選出した。選出された団体は、求職活動やてんかんの発作の予測などを手がけ、障がいのある人々が技術とインターネットのエコノミーを活用できるようにすることを目指す。

選出された7団体は、Azure AIの専門レベルのリソースとサポートにアクセスでき、データ収集と処理にかかる費用を支援されることに加え、マイクロソフトのAI、プロジェクト管理、アクセシビリティの専門家に相談することもできる。

プログラムの対象となる団体はオンラインで募集され、マイクロソフトのアクセシビリティとマーケットのエキスパートチームが応募団体の影響力、データポリシー、実現可能性などを審査した。このプログラムは2018年に始まり、マイクロソフトは5年間で2500万ドル(約27億円)を投じる。対象となった団体は年に数回、進捗状況の評価を受ける。毎年、5月の第3木曜日(今年は5月16日)はGlobal Accessibility Awareness Dayだ。この機会にアクセシビリティについて考えてみよう。

今回選出された団体のひとつ、Our Abilityは、生まれつき四肢が欠損しているJohn Robinson氏が設立した。同氏は職に就き、働き続けることの深刻な難しさに常に直面してきた。障がいがあって職に就けない人の割合は、障がいのない人の2倍だ。障がいによってはフルタイムの仕事にはほぼ就けない。

プロジェクト管理の素質やコーディングのスキルを有している人にとってはチャンスはある。しかしそれでも、職を見つけるのは難しい。Robinson氏は企業と障がいのある求職者を結びつけるサイトの運営に取り組んでいる。

Robinson氏はTechCrunchに寄せたメールの中で次のように書いている。「雇用する価値を高めている障がい者を企業が理解し活用できるようにすること、それが私たちの目標です。雇用した障がい者の離職率は低く、士気と生産性を向上させることは実証済みです。インクルーシブな企業文化への取り組みが社内で始まるからです。企業がこうした取り組みを加速させることは、これまではなかなかできませんでした。求職ツールの多くが障がい者を考慮した設計ではなかったからです」。

Our AbilityのJohn Robinson氏

マイクロソフトは、障がいのある応募者からチャットボットで必要なデータを集めるというRobinson氏のアイデアを高く評価した。「今さらチャットボット?」と言う前に考えてみてほしい。フォームやウェブサイトを容易に操作できる人にとってチャットボットは時代遅れかもしれないが、それが難しい人もいるということを。チャットベースのインターフェイスはシンプルでアクセスしやすく、基本的なテキスト入力以外はユーザーに要求されることはほとんどない。

同じく対象団体となったPisonには有益なテクノロジーがある。運動機能に障がいがある人にとっては、マウスやトラックパッドの操作が難しい場合がある。同社の設立者のDexter Ang氏は、母親がALSの影響でこうした状態になるという経験をした。

Ang氏のソリューションは、病気の影響で制限を受けている動きを筋電図アームバンドで検出し(アームバンドのMyoをご存じの方もいるかもしれない)、マウスの動きに変換するというものだ。起業してからの数年間、開発とALS患者によるテストを実施している。テストに参加しているALS患者はわずか数分でこの技術を使えるようになるという。

Voiceittは発話に困難がある人にフォーカスした音声認識エンジンだ。障がいや脳卒中の後遺症などがあると、友だちや家族が話し言葉を聞き取るのが難しくなる。このような比較的難しい音声認識は、これまで開発されてこなかった。

Googleも最近「Project Euphonia」で同様の問題に取り組んでいる。同社はほかにもアクセシビリティに取り組んでおり、先週のGoogle I/Oの発表で注目された。

ほかの選出団体も紹介しよう(紹介文はマイクロソフトによる)。

  • シドニー大学(オーストラリア):7500万人いるといわれるてんかん患者の発作を予測して管理し、より自立した生活を目指すための、ウェアラブルのセンサー搭載警告システムの研究
  • バーミンガム市立大学(英国):運動に制限のある人が音声コマンドと目の動きでデジタルプラットフォームを操作するシステムの開発
  • Massachusetts Eye and Ear(米国、ボストン):視覚障がい者にとってより使いやすい位置情報とナビゲーションのサービスを提供するモバイルアプリの研究
  • カリフォルニア大学バークレー校(米国、バークレー):周囲の状況を字幕と音声の説明で視覚障がい者に伝えるモバイルアプリの作成

ところで一番上の写真は、iTherapyのInnerVoiceというアプリのものだ。InnerVoiceはコミュニケーションが難しい子どもが撮影した写真をAIで解析して説明をつけるアプリだ。これは、最新のテクノロジーを最適な場所で活用することによって、多くの人を少し助けるのではなく、少しの人を大いに助ける好例といえる。

マイクロソフトはここ数年アクセシビリティをしっかりサポートし、望ましいことにさらに力を入れてきているようだ。同社のプレジデントのBrad Smith氏は昨年のブログで多くのことを語り、強くコミットしていると思われる。

画像:iTherapy

[原文へ]

(翻訳:Kaori Koyama)

XnorのAI2GOは数回のクリックだけでエッジAIをカスタマイズ

AIは、中小企業やその他の業務で発生する大量の日常的なタスクの実行に役立つ。もし自分専用の機械学習エージェントを構築して展開する方法を知っていさえすればの話だが。残念ながらそれを知っている人はほとんどいない。そんな状況の中、エッジベースAIのスタートアップXnor.ai は、非専門家たちがウェブサイトを更新するのと同じくらい気軽に、最先端のAIを動かせるようにすることを狙っている。

同社はAI2GOという名の新しいプラットフォームを立ち上げたばかりだ。これは基本的に、エッジベースAIのための一般的なアプリケーションとハードウェアプラットフォームの組み合わせを一箇所に揃え、ほとんどあるいは全く専門知識なしでもそれらをダウンロードできるようにしたものだ。

創業者でCEOのアリ・ファハディ(Ali Farhadi)氏はTechCrunchに対して次のように語った。「AIの開発は難しいことですし、それができる人はそれほど多くありません。そして、エッジデバイスへの展開はさらに困難です。消費電力、メモリ制限、その他すべてについての心配する必要があるからです。つまり、AIとシステム両方の専門知識を持っていなければならないのです」。

あなたが小さなビジネスオーナーであるとして、仮に自分のレストランに特定の時間に何人の人がいるかがわかったら素敵だと考えたとしよう。幸運を祈りたい。TensorFlowのようにAIをトレーニングして展開するための比較的入手しやすく広く利用可能なフレームワークでさえ、ドメインの専門知識がない人にとっては利用は難しい。AI2GOは、技術的な基本的な知識は持っているものの、自分の目的に利用するカスタムのコンピュータビジョンモデルを構築するために数万枚もの自動車や人間の写真は提供できない人たちを対象としたものだ。

「汎用プラットフォームを使って、ご自身のモデルの訓練を行うことが可能ですが、多くのビジネスやアプリケーションでは、そうした訓練を行う必要はありません。すでにそのためのソリューションが存在しているからです。例えば、駐車場のオーナーならおそらく車の出入りとかそうしたものをモニターしたくなるでしょう」とアリ氏は語る。「AI2GOを使えば、例えば車の認識といったモデルをクリックして、次にハードウェア(例えば、セキュリティカメラチップセットやRaspberry Pi Zeroなど)を選択するだけです。それから、いくつかのパラメータを調整することで、自分の制約条件に合致したXnorバンドルを生成することができるのです」。

この生成されたバンドルは、ユーザーが選択したモデル(群)で構成され、電力またはメモリの制約を満たすようにカスタマイズされた、完全に機能するエッジベースのAIシステムである。ユーザーは指示に従ってそれをインストールすることになる(なおここではソフトウェアの構築と展開についてのある程度の知識が必要となる。このシステムはド素人向けのものではない)、ほんの2、3分ですでに設置してあるカメラを使って、リアルタイムに動作する車検知モデルが手に入るはずだ。そのプロセスは下の図のようにみえるだろう。

ファハディ氏はこのやり方を、Stripeのようなものと比較しながら説明した。もしオンラインショップを始めようとしているなら、支払い処理機構をゼロから構築したくはないだろう。それでも自分の要求に調整された何かは必ず必要だ。同社はすでに企業顧客向けのカスタム高性能エッジAIモデルを作成しているが、中小企業は同じような製品に興味を持つだけでなく、よく似たタスクを抱えていることもわかってきた。

猫の探知機能からジェスチャーの識別に至る、あらゆる領域をカバーした事前に訓練されたモデルがたくさんある。以下に示したのは現在利用可能なもののいくつかの例である。

  • 人物検出機能:カメラが捉えた人物にバウンディングボックスを設定
  • 人物分離機能:人体を検出して背景から分離
  • 表情分類機能:怒り、恐怖、幸福などの表情を読み取る
  • スポーツオブジェクト探知機能:ボール、テニスラケット、スキーなどのものを識別して追跡する
  • アクション分類機能:楽器の演奏、何かを押す、自転車に乗る、登る、走るなどの一般的な人間の行動を見つける
  • 台所用品および食品分類機能:一般的な食品(リンゴ、調味料)ならびに台所用品(スプーン、マグカップ)に対してラベルを付与
  • 車内アイテム検知機能:車の中にある(または置き忘れた)鍵、人、電話、その他のものを追跡
  • 自動車モデル分類機能:自動車の一般的な構造とモデルの識別

この他にも多くのものがあり、異なる目的別に似たような機能がさまざまなかたちで用意されている。車載カメラの人物識別機能は、当然スマートホームやセキュリティで使われる同機能とは異なるものとなる。

現在はまだ、複数種類のアイテムを混在させることはできない。これは新しいハードウェアプラットフォームやユーザー自身のデータを持ち込ませる機能と並んで、今後のバージョンで提供される可能性が高い。

ライセンスモデルは非常に簡単だ。ダウンロードしたモデルは試用あるいは個人的な目的で使用する場合は無料だが、それを商用展開する際にはライセンスを申請する必要がある。コードサンプル付きのSDKが用意されているが、自分自身で構築せずに、単に試してみたい場合のデモもいくつか用意されている。

[原文へ]

(翻訳:sako)

Nvidiaの新アルゴリズムでペットの顔を他の動物に変換

Nvidiaが開発した新たなアルゴリズムを使いペットの顔を他の犬種や動物に変換することができる。

その変換を可能とする「PetSwap」と呼ばれるプロジェクトは、Nvidiaの研究者たちが開発した、教師なしで少量のデータから画像変換を学習するアルゴリズムのFew-Shot Unsupervised Image-to-Image Translation(FUNIT)を使用する。

FUNITのフレームワークはGenerative Adversarial Networks(敵対的生成ネットワーク、GAN)が基となっている。リアルなニセ画像や動画、「ディープフェイク」の背後に存在するのがGANだ。

研究者たちはFUNITの論文で、人間は、例えば初めて虎を見た場合でも、虎がどのように寝そべるかは簡単に予想できる、と説明。猫や他の動物が寝そべっているところを見たことがあるからだ。

だが、機械学習のアルゴリズムにはそれは難しい。そこで開発されたのがFUNIT。

FUNITでは、アルゴリズムは「少量のサンプル画像」に基き、与えられた画像の変換後の姿を推測する。

FUNITは人間の持つ「蓄積された知識から物事を推測できる」能力にインスパイアされており、従来のアルゴリズムは膨大な訓練データを必要とし、「利用(シーンが)限られてしまう」ため、開発された。

僕の妹、シャーリーの画像を使ってPetSwapのデモを試してみた。結果は以下のとおり。画像1がシャーリー、2から16は変換後の画像だ。

僕の写真を使った場合、結果は以下のとおり。

なお、PetSwapのデモを使用することで、利用規約に書かれているように、Nvidiaに画像を利用するライセンスを与えることとなるので、注意が必要だ。

AmazonのAlexaに全世界的なトラブルが発生、現在は復旧

Alexaに何かをリクエストしたら、「I’m having some trouble, please try again later」(今問題がありますので後でもう一度お試しください)という答をもらった人、それはあなただけじゃないわよ。複数のユーザーが。Amazonの音声アシスタントに接続の問題があることを報告している。Down Detectorのサービス停止追跡ページによると、問題は世界中で起こっていて、ユーザーからの報告は(米国東部時間5月15日19時(日本時間5月16日午前8時)ごろから始まった。

Jordan McCrea:Alexaが落ちてるよ。どうしたんだ?
Jordan McCrea:Alexaが落ちてるよ。どうしたんだ?
Amazon Help:詳しく教えていただけますか?Alexaが落ちてるとは、接続しないのか、それとも答がないのか?よく調べてからもう一度ご連絡ください。
Jefferson James:ここでも落ちてるよ。うちにある複数のデバイスがどれも「I’m having some trouble, please try again later」と言うだけさ。

本誌は今Amazonに問い合わせているので、情報が得られ次第この記事をアップデートしたい。

アップデート:Amazonのスポークスパーソンは本誌TechCrunchに「今日の午後起きた問題でAlexaの顧客の一部がサービスと対話できなくなった。現在ではAlexaのサービスは正常に稼働している」と語った。

[原文へ]

(翻訳:iwatani、a.k.a. hiwa

ダリ美術館、AIでダリが蘇り来館者と「セルフィー」

フロリダ州セントピーターズバーグにあるサルバドール・ダリ美術館(Salvador Dali Museum)では5月11日より「Dali Lives」と題された展覧会が開催されている。

同展覧会では、AI技術で「蘇った」芸術家のサルバドール・ダリが自ら彼自身や彼の作品について来館者に説明したり、「一緒に写真を撮ろう」とセルフィーを促したりする。

生前のインタビューなどのフッテージから6000ものフレームを使い、1000時間以上もの機械学習で、ダリの表情、そして眉や目などの動きの特徴をAIに学ばせた。これを担当したのは、広告代理店のGoodby, Silverstein & Partners(GS&P)。そして、GS&Pはダリと身体的特徴が似ている俳優を探し、ダリが残した書物などを基にしたセリフを声優に読ませた。

ダリ美術館とGS&Pがタッグを組むのはこれが3回目。

2014の「Gala Contemplating You」では来館者のセルフィーをダリの作品、「Gala Contemplating the Mediterranean Sea Which at Twenty Meters Becomes the Portrait of Abraham Lincoln (Homage to Rothko)」風に。

2016年の「Dreams of Dali」では、来館者はVRでダリの絵画「Archeological Reminiscence Millet’s Angelus」の世界を冒険。

Dali Livesの展示が開始された5月11日は、ダリの生誕115周年の日だった。

AI活用の中高生向けタブレット教材開発のatama plusが15億円を調達

写真右から、ジャフコでパートナーを務める北澤知丈氏、atama plus代表の稲田大輔氏、DCMベンチャーズの日本代表を務める本多央輔氏

atama plusは5月13日、ジャフコ、DCMベンチャーズのそれぞれが運用するファンドを引受先とする第三者割当増資を発表した。同社はこれにより、シリーズAラウンドで約15億円を資金調達。累計調達総額は約20億円となる。今回の増資により、開発スピードをアップさせるほか、プロダクトの強化および学習塾各社へのサポート体制を強化していくという。

同社が提供している高生向けタブレット型教材「atama+」(アタマプラス)は、「得意」「苦手」「伸び」「つまずき」「集中状態」などのデータをAIが分析し、各々に適した「自分専用レッスン」を作成することで学習を効率化するのが特徴。

現在、栄光(栄光ゼミナール)、学研塾ホールディングス、ティエラコムをはじめとする500以上の教室に導入されており、各教室で集めたデータを基にアルゴリズムやコンテンツが日々最適化されているとのこと。今年からは、駿台教育センターでは「AI演習講座」、Z会エデュースでは「AI最速定着コース」、城南進学研究社では「城南予備校DUO」として、atama+に特化したAI学習コースも開設されている。

atama+の教材は、高校生向けに数学・英文法・物理・科学、中学生向けに数学がある。平均学習完了時間は、高校の「数I」で16時間、「数A」で15時間とのこと。なお、文部科学省が告示している教育課程の基準である学習指導要領では、これらの授業時間は計175時間。学習と授業は同じ尺度で測れないが、AIによる効率化で学習成果を短時間で出せるのがatama+の特徴となっている。

具体的には、中学生や高校生の学習のつまずきの根本になっている単元をAIが突き止め、何を、どんな順番で、どのくらいの量やればいいかをナビゲートしてくれる。例えば、高校物理の「波の式・波の干渉」を学習する場合、「波の基本要素・波のグラフ」の講義動画や数学「三角比の定義」の演習問題等がレコメンドされるといった具合だ。

同社のデータでは、2018年のセンター試験の数IAで受講生の得点伸び率の平均が+50.4%となったとのこと。これは、受講前の2017年12月末の過去問成績と比べての数字で、2週間で平均14時間45分、1日あたり63分の学習結果によるものだそうだ。

会話型アプリケーション開発のためのAIプラットホームをCiscoがオープンソース化

通信機器大手のCisco(シスコ)は米国時間5月9日、会話型のAIプラットホームのMindMeldをApache 2.0のライセンスにより、誰もが自由に利用できるように一般公開すると発表した。

MindMeldは、Ciscoが2017年に買収した会話型AIの企業だ。同社はその年の終わりごろに、その技術をCisco Spark Assistantに使用して、ミーティング用ハードウェアで音声コマンドが使えるようにした。当時それは、生まれたばかりの新しい技術だった。

現在、エンタープライズのいろんなユースケースに音声を持ち込む取り組みが至るところで行われており、CiscoはMindMeldのツールセットでデベロッパーにそのための方法を提供している。Ciscoで機械学習のチームを率いているKarthik Raghunathan氏が、ブログでこう書いている。「本日Ciscoは、MindMeld Conversational AI Platformをオープンソースにすることによって、会話型アプリケーションを構築するための総合的で実践的なツールでデベロッパーの能力を高めるための、大きな一歩を踏み出す」。

同時に同社は、デベロッパーにとってそのプラットホームが使いやすくなるための教本、Conversational AI Playbookをリリースする。このステップ・バイ・ステップのガイドブックによりデベロッパーは、会話駆動型アプリケーション開発の、第一歩を踏み出すことができる。Ciscoによると、デベロッパーに力をつけることが最大の目的とのこと。

しかしもちろん、Ciscoの外にいるデベロッパーがこのツールセットを使ってくれることが、同社の最大の関心だ。オープンソースにすれば、Ciscoの顧客やそのほかの企業にいるデベロッパーのコミュニティが、このツールを使ったり、試したり、改良したりしてくれるだろう。それによってプラットホームの開発が早くなり、より広範囲に行われるようになる。Ciscoのような大企業では、全社的な浸透も可能になるだろう。

もちろん、オープンソースにしたらいきなりコミュニティができるわけではない。しかし、音声対応のアプリケーションやシステム製品はその人気が急速に成長しているから、このプラットホームを試してみるデベロッパーが増えることは確実だ。どれだけの人に、より深い関心を持ってもらえるか、それは今後のCiscoの努力次第だ。

Ciscoはこのプラットホームのすべてを、同社のデベロッパーネットワークDevNet上で今日から提供開始する。

関連記事: 音声インターフェースがビジネス向けに進出中

[原文へ]

(翻訳:iwatani、a.k.a. hiwa

ベルリン発「人材獲得」プラットフォームのHeyJobsがシリーズAで13億2000万円を調達

HeyJobsは、3年前にドイツ・ベルリンで設立されたスタートアップだ。大規模な雇用主の採用規模の拡大を支援している。同社はこのたび、シリーズAラウンドで1200万ドル(約13億2000万円)を調達した。

このラウンドはNotion Capitalが主導し、これまでの投資家であるCreathor VenturesやRocket InternetのGFC、そしてブランドが新しくなったHeartcore Capitalが参加した 。

2016年に創業し、翌年に開業したHeyJobsは、ヨーロッパの雇用主たちが現在直面している採用問題に取り組むことを目指している。その問題とは、いわゆる「ベビーブーマー」世代が定年退職に近づくにつれて、採用可能な労働力が急激に減少するという問題だ。

HeyJobsプラットフォームは、熟練した人材の採用を、より大規模に行えるようにするために、機械学習を活用している。ターゲットを絞ったマーケティングと「パーソナライズされた応募と評価フロー」を通じて、才能を仕事のプロファイルと一致させ、最良の候補者を引き出すことを約束している。

HeyJobsの共同創業者でCEOのマリウス・ルター(Marius Luther)氏は、次のように述べている。

「特定の役割(例えば「イーストロンドンの集中治療室の看護師として最も適した候補者は誰か?」と尋ねることができる)にふさわしい潜在的候補者を見つけるために、私たちは複数の機械学習アルゴリズムを展開しています。さらに私たちのテクノロジーは、候補者たちがFacebook、Instagram、求人プラットフォーム、そしてさまざまなウェブなどのチャンネルを通して、求人情報を確認できるようにしています」。

さらにルター氏によると、HeyJobsの個別評価によって高品質で採用可能な求職者のみが雇用主に提示されることが保証されているという。彼はそれを「予測可能な採用」といった表現で呼んでいる。

「典型的な当社のお客様は、大量採用の必要性を抱えた雇用主の、人材獲得チームです」と彼は説明する。「ドイツでは、最大の雇用者(従業員数による)10社のうち8社が当社のお客様です。典型的な業界は、物流(DPDやUPSなど)や小売(Vodafoneなど)、そしてホスピタリティ(h-hotel、Five Guysなど)です。しかし、私たちの本当の顧客は、より充実した生活を送れるような仕事を探している高学歴ではない求職者の方々です。具体的には、より給料が高いとか、よりよい雇用条件の職へと移りたいとか、あるいは自宅に近い仕事を探したいといった要求をお持ちの方々ですね」。

その目的を果たすためにHeyJobsは現在、United Parcel Service、PayPal、FiveGuys、Vodafone、およびSecuritasを含む、500を超える企業顧客にサービスを提供していると言う。同社は、サブスクリプションから採用ごとの成功報酬に至るまでの、さまざまなビジネスモデルを通じて収益を生み出している。

「1人あたりの採用コストは、お客様が世の中の求人掲示板に投稿する際に支払う金額や、人材紹介会社に1件毎に支払う金額に比べて、僅かなものであることが普通です」とHeyJobsのCEOは付け加えた。

[原文へ]

(翻訳:sako)

GoogleのCloud TPU Podsの最新世代はMLモデルの訓練を短時間化

Googleは米国時間5月7日、Cloud TPU Podsの第2世代と第3世代を発表した。このクラウドベースのスケーラブルなスーパーコンピューターは、最大1000基の同社特製のプロセッサ、Tensor Processing UnitsTPU)を使用する。それを本日からは公開ベータで一般に利用できる。

最新世代のv3は特に強力で、プロセッサーは水冷されている。一つ一つのポッドが最大で100ペタFLOPSの演算能力を持ち、Googleによれば、世界のスーパーコンピューターの5位以内に入るそうだ。ただし、このTPUポッドはあまり高い演算精度を望めないだろう。

TPU Podは、その全体を使わなくてもいい。Googleはこれらのマシンのスライスをレンタルで提供している。しかし、いずれにしても極めて強力なマシンであり、ResNet-50の標準的な画像分類モデルをImageNetの(100万を超える)画像データセットで訓練する処理を2分で終える。

TPU v2のポッドはコア数が最大512で、v3よりやや遅い。例えば、265基のTPUを使用した場合、v2のポッドはResNet-50のモデルを11.3分で訓練するが、v3ならわずか7.1分だ。ちなみにTPUを1個だけ使うと302分かかるだろう。

当然だが、Googleによればポッドは(料金がどんなに高くても)モデルを早く訓練したいときや、ラベル付きの標本が数百万という大きなデータセットで高い正確性が必要、あるいは新しいモデルのプロトタイプを素早く作りたい、といったユースケースに向いている。

[原文へ]

(翻訳:iwatani、a.k.a. hiwa

マイクロソフトがWord Onlineの文書作成支援にAIを導入

Microsoft Word Onlineで文章を書いている人は、まもなくAI内蔵エディターを使えるようになる。米国時間5月6日に同社が発表したところによると、Wordに近々「Ideas」という新機能が加わり、文書作成のあらゆる支援を提供する。

書くことが苦手な人にとって、Ideasの最重要な機能は簡潔で読みやすいテキストを書くことの支援に違いない。文法チェッカーの強化版だと思えばいい。ツールは明らかな間違いを直すだけでなく、文章をよりよくすることに焦点を当てる。例えば、複雑なフレーズを使いこなせないとき、機械学習を使って別の書き方を提示してくれる。差別のないインクルーシブな文章を書くための機能もある。

クラウドベースの同ツールは読み終えるまでの予想時間や略語の説明なども提示してくれる。そのために、Microsoft Graphにあるあなたの会社のデータを利用する。

Ideasは文書の要点を自動的に抽出することもできる。ただしおそらくこれは、書き手よりも読み手にとって興味のある機能なので、誰かが67ページのニュースサマリを送ってきたときに使うのだろう。

Microsoft(マイクロソフト)によれば、Ideasは「Word Designer」なる機能も提供するとのこと。表など、文書のさまざまな部分のスタイル設定を支援する。新機能は6月からOffice Insiderプログラム参加者に提供され、秋には全ユーザーに公開される予定だ。

[原文へ]

(翻訳:Nob Takahashi / facebook

マイクロソフトがドラッグ&ドロップの機械学習ツールをローンチ、ユーザーはデータを用意するだけ

Microsoft(マイクロソフト)は米国時間5月2日、機械学習のプロセスを単純化するための3つのサービスを発表した。それらは、(1)モデルの作成を完全に自動化するツールへの新しいインターフェイス、(2)モデルの構築と訓練とデプロイをデベロッパー自身が行うためのコード不要のヴィジュアルなインターフェイス、そして(3)高度なユーザー向けにホストされるJupyter様式のノートブックだ。

機械学習を始めることは難しい。とても簡単な実験ですら、相当な専門知識が要る。Microsoftの新しいツールは、コードを隠したり、あるいは自分でコードを書きたい人向けにはあらかじめ構成されたプラットホームを提供して、そのプロセスを大幅に単純化する。

Azureの自動化機械学習ツールへの新しいインターフェイスは、モデルの作成をデータをインポートしてどの値を予測するのかをサービスに告げるだけ、という簡単な作業にする。ユーザーはコードを1行も書かないが、バックエンドでは多くの新しいアルゴリズムと最適化技術により、より正確なモデルを作る。その過程のほとんどは自動化されるが、Microsoftは、このサービスが「アルゴリズムへの完全な透明性を提供するので、デベロッパーやデータサイエンティストはプロセスを手作業でオーバライドしたりコントロールできる」と強調している。

またMicrosoftは同日、最初から自分でコントロールしたいというユーザーのために、Azure Machine Learningサービスのヴィジュアルインターフェイスをプレビューでローンチした。これによりデベロッパーは、コードに触ることなく機械学習のモデルを構築、学習、そしてデプロイできる。

このAzure Machine Learningヴィジュアルインターフェイスと呼ばれるツールは、Microsoftの最初のヴィジュアルな機械学習ツールであるAzure ML Studioに酷似している。というか、2つのサービスは同一であるようにも見える。でもMicrosoftはML Studioを積極的に推していないし、初心者向けには便利なツールのように思えたにもかかわらず、今では忘れてしまったかのようだ。

Microsoftによると、今回の新しいバージョンはAzure ML StudioのいいところとAzure Machine Learningを結びつけている。つまり、インターフェイスはほとんど同一でも、Azure Machine LearningヴィジュアルインターフェイスはAzure Machine LearningサービスのおかげでML Studioにできたことを大幅に拡張し、さらにセキュリティとデプロイメントとライフサイクル管理を加えた、ということのようだ。

このサービスは今や、データのごみ掃除やさまざまなアルゴリズムによるモデルの訓練、それらの評価、そして最終的にプロダクションへの導入を、シンプルなインターフェイスでできるようにしている。

上記、モデル作成の完全自動化と、デベロッパーが関与できるインターフェイス、これら2つのサービスは明らかに初心者向けだが、Azure Machine Learningでホストされるノートブックは、明らかに機械学習の経験者向けだ。ノートブックにはAzure Machine Learning Python SDKのサポートがあらかじめ組み込まれ、同社によると「安全でエンタープライズ級の環境」で利用できる。ノートブックの利用は簡単とは言えないにせよ、でもデベロッパー自身が開発環境やクラウド環境を自力ですべてセットアップすることに比べれば、はるかに仕事の着手が早いと言えるだろう。

[原文へ]

(翻訳:iwatani、a.k.a. hiwa

AIモデルの最適化を単純にするAxとBoTorchをFacebookがオープンソース化

Facebookは5月1日に、同社のデベロッパーカンファレンスF8で、新しいオープンソースのAIツールとしてAxとBoTorchの2つをローンチした。

BoTorchは、その名前からもわかるようにFacebookの機械学習フレームワークPyTorchをベースとするベイズ最適化(Bayesian Optimization)のためのライブラリで、かなり特殊なツールだ。一方のAxはもっと興味深く、AIの実験を管理、デプロイ、そして自動化するための汎用プラットホームとなっている。

どちらのツールもFacebookにおける同じ全体的なワークの一部であり、それはFacebookが「適応的実験」(Adaptive Experimentation)と呼んでいるものにフォーカスしている。実際にAxはBoTorchとつながり、そして内部的にFacebookはこの2つのツールを、Instagramのバックエンドのインフラストラクチャの最適化やユーザーアンケートの応答率の向上など、さまざまなタスクに利用している。

基本的に、BoTorchないし一般的にベイズ最適化なるものは、モデルの最適化を容易かつ迅速にしてデータサイエンティストがなるべく早くプロダクション級のモデルを得られるようにする処理だ。通常は大量の試行錯誤を要し、サイエンスというよりアートだと言われることも多い。Facebook AIでPyTorchを担当しているプロダクトマネージャーのJoe Spisak氏は「アートを取り去り自動化する。目標は最新の研究成果をフルに活用することだ」と言う(ベイズ最適化の日本語参考ページ)。

ベイズ最適化ツールはBoTorchが初めてではないが、Facebookによると既存のライブラリは拡張もカスタマイズも困難で、しかもFacebookのニーズに合わない。

上図のようにAxがまず仕事を引き受け、BoTorchのモデルの最適構成を見つける能力を管理していく。そして、デベロッパーがプロダクション級のサービスを得られるようにする。例えばFacebookでは、AxがA/Bテストやシミュレーションツールと連携する。ツールの目的はあくまでもシステムを自動的に最適化することだから、ユーザーが関与する必要性はほとんどない。Axは実験を行うとき、最良の最適化戦略を自動的に拾い上げる。それは、ベイズ最適化かもしれないし、古典的なバンディット最適化かもしれない、あるいはもっとほかのアルゴリズムかもしれない。重要なのはAxがフレームワークと特定しないことだ。BoTorchを使っていても、研究者はPyTorchやNumPyを介したサービスを使って自分独自のコードをプラグインできる。

Facebookでツールをオープンソースにすることは、現時点ではかなりスタンダードな行為になっている。PyTochはその好例だ。Spisak氏によれば、BoTorchもこの分野の優れた研究者たちの協力が得たいからやはりオープンソースにする。そもそも、最初のリリースでもコーネル大学の協力を得ている。「コラボレーションもオープンなコミュニティ作りも、クローズドソースではできない。オープンソースだからこそできる」と彼は言う。

関連記事: F8におけるPyTorchのアップデート(未訳)

[原文へ]

(翻訳:iwatani、a.k.a. hiwa

バッハからジャズまで、オリジナル曲を瞬時に作るMuseNet

これまでに、ケイティ・ペリーによる、モーツァルトスタイルのピアノとハープの協奏曲を聞きたいと思ったことはあるだろうか?試してみても良いはずだ。なぜなら、今やOpenAIの最新の成果であるMuseNetを使えば、それが可能になったからだ。幸いなことに今回の成果物は破滅的な可能性は秘めていない。

この機械学習モデルは、アーティストの知識に基づき、数小節を与えられることで、これまでになかった音楽を生み出すことができる。

これまでこうした例がなかったわけではない。コンピューターによって生成される音楽はすでに何十年前から存在している。しかしOpenAIのアプローチは柔軟性があってスケーラブルなもののように思える。様々なジャンルやアーティストの情報に基いた音楽を生成し、それらを自由な音のスタイルで組み合わせるのだ。このモデルは多くのDNAを、「公開するには危険すぎる」言語モデルGPTと共有しているが、無限に音楽を世界に流し続けることの脅威は、自動生成されたものと判定できないコンピューター生成テキストが流されることに比べれば、小さいように思える。

関連記事:OpenAIは非常に優れたテキストジェネレータを開発したが、そのままリリースするのは危険すぎると考えている

MuseNetは数十人のアーティストたちの作品によって訓練を受けている。使われたアーティストは、ショパンやバッハから(比較的)モダンなアーティストであるアデルやビートルズまで、そしてアフリカ、アラビア、そしてインドの作品も含まれている。その複雑な機械学習システムは「アテンション」に多くの労力を使っている。これはAIにおける専門用語で、基本的には、創作の次のステップに対してモデルが使うコンテキストの量を意味している。

たとえば、モーツァルトの作品を見てみよう。もしモデルが一度に数秒分しか学習しないとしたら、強弱に満ち、音調や楽器が切り替わって行くような、交響曲のより大きな音楽の構造を学習することはできないだろう。しかし、今回使われているモデルには、音を約4分間保持できるくらい十分な仮想脳空間が与えられている。これはゆっくりとしたスタートから壮大なフィニッシュまでや、基本的なヴァース・コーラス・ヴァース形式を取り込むのに十分な長さだ。

ハイドンがシャナイアに直接影響を及ぼしていないって?現実を見よう

まあもちろん理論的にはということだが。モデルは実際には音楽理論を理解してはいない。理解しているのは、この音があの音に続いていて、そのあとにはこの音が続き、そしてこんな種類のコードが続く傾向がある、というものだけだ。その作品は構造的には初歩的なものだが、取り込まれた楽曲が非常によく模倣されていることは、聞いたときに明らかにわかる。

印象的なのは、1つのモデルが、非常に多くの種類の音楽にわたって確実にこれを行うということだ。数週間前のBachの誕生日に公開された素晴らしいGoogle Doodleのように、特定のアーティストやジャンルに焦点を当てたAIは、これまでも作成されてきた。そしてまた別の比較のために、Generative.fmも挙げておきたい。これは私が仕事している際に聞きたい静かな環境音楽を生成してくれる(もし読者がこれを気に入ったなら、私のお気に入りの1つのレーベルであるSereinもチェックしてほしい)。しかし、これらのモデルはどちらも非常に厳しい制約を抱えている。一方MuseNetにはそうした制約はあまりない。

ブルーグラスやバロック様式のピアノ曲を無限に作り出すことに加えて、MuseNetは両方の特徴を組み合わせるために、スタイル転送プロセスを適用することができる。作品のさまざまな部分がさまざまな属性を持つことができる。絵を描く際に、構成、主題、色の選択およびブラシスタイルなどを選ぶようなものだ。ラファエル前派の主題と構成を、印象派の技法で描くことを想像してほしい。なんだか楽しそうじゃないか?AIモデルは、こうした異なる側面を分類していくことが得意なので、そういう生成作業はお手のものなのだ。音楽の場合でもそのパターンは変わらない。ポップソングの音階やリズム、その他のパターンを抽出し、その楽器編成とは別に利用することができる。ハープを使ってビーチ・ボーイズのハーモニーを楽しんでもいいはずだ。

とはいえ、アデレのような雰囲気のものを、彼女の特徴的な声なしに生み出すのは少し難しい。そしてチームが選択した比較的基本的な合成手法は全体的に効果を安っぽくしている。そして、チームがTwitch上で提供した「ライブコンサート」を聴いても、MuseNetが次のヒットを量産してくれるとは、私には思えなかった。だがその一方で、特に少々の調子外れが許容される、ジャズやクラシックの即興演奏では、素晴らしい進歩を着実に挙げている。

これは何のために使われるものだろう?そうした疑問はもっともだ。この分野はまったく新しいものである。MuseNetのプロジェクトリーダーであるクリスティーヌ・ペイン(Christine Payne)氏は、このモデルに満足していて、それを利用する人も既に見つけている。

クラッシック音楽の訓練を受けたピアニストとして、私はMuseNetがベートーベンやショパンの複雑な和声構造を理解できることに、とても興奮しています。私は現在、MuseNetを彼自身の作曲作業に統合することを計画している、ある作曲家と協力しています、人間とAIの共同作曲の未来が、私たちを連れて行く場所を目にすることにワクワクしています。

OpenAIの代表者の1人は、モデルが自分の作品をどのように解釈したり模倣するのかを知りたいと思っている現代の作曲家たちの作品を、チームが統合する作業も始まったと述べた。

MuseNetは5月中旬までプレイできるようになっている予定で、その後一度オフラインになり、ユーザーからのフィードバックに基づいて調整される。その後程なく(数週間だと思われるが)、少なくとも部分的にはオープンソースとなる予定だ。おそらく人気のある組み合わせや、人々がずっと耳を傾けている組み合わせが、調整によってもう少し重みを与えられることになるのだろうと想像している。彼らがMIDIの再生にもう少し表現力を追加してくれることを願っている。しばしば曲がロボットによって演奏されているように感じられるからだ。しかし、しばしばそのサウンドがとても素晴らしく聞こえることは、OpenAIの仕事の質の高さを証明している。

[原文へ]

(翻訳:sako)

デビッド・ベッカムの「ディープフェイク」ビデオを作ったスタートアップが3.3億円超を調達

マラリアの生存者たちが、Malaria Must Die(マラリア撲滅)運動への認識を高めるために、デビッド・ベッカム氏の口を通して行った世界的キャンペーンは、多くの人を驚かせた。

すでにキャンペーンは、世界で4億インプレッションを超えている。

だが、この動画がどのような撮影されたのかを解説する舞台裏の動画も公開されている。

このキャンペーンは、RG/A、Ridley Scott Associates、そして気の利いた動画スタートアップのSynthesiaが、NPO法人Malaria No Moreのために共同で行ったものだ。

そして、このクールなテクノロジーには大きな商業的需要があることが明らかになった。

現在の動画制作は非常に規模が大きい。それは多くのカメラ、多くのスタジオ、そして多くの俳優が関わる物理的なプロセスである。マーケティング、プロダクト、またはエンターテイメントビデオが一度撮影されてしまうと、素早く手頃なコストで作品を編集したり、さまざまな言語に翻訳したりすることは非常に難しい。

共同創業者のビクター・リパーベル・ラスムッセン(Victor Riparbelli Rasmussen)氏は私に対して以下のように語っている。「私たちは、半ばもしくは完全に、人工的に動画を生成してしまう方がずっと効率的だと考えているのです。こうしたデジタル制作プロセスは、静止画では既に、PhotoShopのようなアプリケーションを介して扱うやり方が業界標準です。私たちは同じことを動画に対しても行おうとしているのです」。

Synthesiaは、動画コンテンツを制作するために実際のセットを使う必要性を、減らすことができると言う。新しい動画を撮影する代わりに、既存の資産を編集して、派生的な国際化動画やパーソナライズされた動画を作成することができるのだ。

ラスムッセン氏は次のように述べている「私たちのソリューションによって、企業は従来の制作方式に比べて、10倍の動画成果物を10分の1のコストで作成できるようになるでしょう。シンプルなインタビュー形式の動画でも、多くの人が関わって、組織を横断した多額の制作コストがかかりがちです。当社のソリューションをお使いいただくことで、広告代理店、Fortune 1000企業、もしくは小規模企業のマーケティング担当の皆さまが、既存のものから新しい動画を制作なさり、48時間以内にそれを再び配信なさることが可能になります」。

この英国を拠点とするスタートアップが今回調達したのは310万ドルである。主導したのはLDV Capitalと初期投資家のマーク・キューバン(Mark Cuban)氏である。そして新しい投資家として、MMC VenturesSeedcamp、Martin Varsavsky氏のVAS Venture、TransferWise共同創業者のTaavet Hinrikus氏、Tiny VC、そして広告担当役員のニーゲル・モリス(Nigel Morris)氏が加わっている。

「動画制作は急激に増加していますが、広告、マーケティング、そしてeラーニングの動画をカルチャーを横断して簡単に国際化したりパーソナライズしたりすることは、とても困難なことなのです」と、LDV Capitalのゼネラルパートナーであるエバン・ニセルソン(Evan Nisselson)氏は語っている。「Synthesiaは、コンピュータビジョンと人工知能を活用して、ブランドや制作者のために、動画制作に革命をもたらしました」。

Synthesiaは、ユニバーシティカレッジロンドン、スタンフォード、ミュンヘン工科大学、そしてFoundryの研究者ならびに起業家のチームによって創業された。特に、同社の共同創業者の1人であるマシアス・ニースナー(Matthias Nießner)教授は、世間でよく知られた研究プロジェクトであるDeep Video PortraitsFace2Faceを支えている人物だ。

ロンドンを拠点とするこのスタートアップは2018年にそのベールを脱ぎ、その最初の公開デモをBBCで放映した。それは、ニュースキャスターのマシュー・アムロリワラ(Matthew Amroliwala)氏に、3つの異なる言語を話させることを通して、Synthesiaの技術を紹介するものだった。

彼らの顧客にはすでにAccenture、McCann Worldgroup、Dallas Mavericks、そしてAxiata Groupのようなグローバルブランドが含まれている。

しかし、ディープフェイクや虚報に使われる可能性はどうだろうか。

Synthesiaによれば、同社には強力な倫理的ガイドラインがあり、さらに全てのコンテンツが合意のもとで制作されたものであり、かつ俳優たちも自分たちの類似性を把握していることが確実であるようにしたいということだ。

ということで、これはあなたがウェブから気軽にダウンロードして、バーニー・サンダース(Bernie Saunder)氏の顔に適用できるようなソフトウェアではない。

ラスムッセン氏によれば、同社は政府やメディア組織と積極的に協力しながら、一般の認知を高めつつ、社会がその恩恵を受けて、合成メディア技術からの潜在的な悪影響を軽減できることが確実になるように、技術的セキュリティメカニズムを開発しているという。

さて、そう願いたいものだ。

[原文へ]

(翻訳:sako)

ウォルマートがAI活用大型スーパーをオープン、Amazon Goとは別戦略

米国時間4月25日、Walmart(ウォルマート)はニューヨーク州レビットタウンに「スーパーマーケットの未来形」をオープンした。この店舗はAIカメラ、対話的商品陳列など次世代テクノロジーの実験場となる。コンセプトはインテリジェントリテールラボ、頭文字でIRLだという。

このスーパーはWalmartが展開する生鮮食品、日用品に特化したネイバーフッドマーケットの1つで、取り扱うアイテムは3万点と発表されている。新テクノロジーを現実の店舗環境でテストできる規模だ。

Amazonの次世代コンビニと同様、Walmart IRL店も天井に多数のカメラが設置されている。Amazonの新コンビニの目玉はキャッシャーレスチェックアウトで、ユーザーは欲しいものを棚から取り出して店を出れば購入が完了する。一方、新しいWalmart IRL店は売り場面積4645平方メートル、スタッフも100人以上の大型スーパーだ。

またWalmart店舗の天井のAIカメラは、Amazon Goのように消費者が何を購入したかをモニターするためではない。IRLには従来どおり支払いのためのチェックアウトカウンターがある。IRLのカメラは在庫管理の効率化が目的だ。例えば肉が売り切れそうだったら冷蔵室から補充しなければならない。一部の生鮮食品は一定時間を過ぎれば売り場から回収する必要がある。

いつ、どこで、どんなアイテムを補充ないし回収しなければならないかを正確に知ってこのプロセスの効率化することがAI利用の狙いだ。食品の鮮度管理の徹底やアイテムの欠品の防止は同時に消費者にも大きなメリットとなる。

しかしこれを実現するのは簡単ではなかった。Walmartによれば、IRLでは非常に高度なAIテクノロジーが用いられているという。まずシステムは棚のアイテムを正しく認識しなければならない(牛ひき肉500gと合い挽き1kgを確実に見分ける必要がある)。次に陳列棚の商品量と季節、時間帯によって予想される需要量を比較する。

現在売り場スタッフは担当の棚を常に見回ってアイテムの残量を監視し、補充のタイミングを見極めている。これに対してAIストアでは、朝、売り場のドアが開く前に補充のタイミングと量を知ることができる。

カメラその他のセンサーは毎秒1.6TBのデータを吐き出す。2TBのハードディスクが1秒ちょっとでフルになってしまうほどの量だ。つまりデータの処理はローカルで実行しなければならない。
カメラとサーバーの列というのは一般ユーザーを気後れさせる組み合わせだが、Walmartでは「データは1週間以内に消去される」としている。

上の写真はIRLストアのデータセンターだ。青い照明に照らされたサーバー群は消費者から見える場所にレイアウトされている。店内のインフォメーションセンターなどのコーナーでは消費者にAIを説明している。

あるコーナーではAIがユーザーを撮影して姿勢を推測してみせる。これらはすべて新テクノロジーを少しでも親しみしやすいものにしようという努力だ。

IRLのCEOであるMike Hanrahan氏は「IRLの新テクノロジーとWalmartの50年以上の店舗運営経験を組み合わせれば、カスマーにも店舗側にも非常に有益な非常に改善が得られる」という。

WalmartはAIを効率化のために用いることに力を入れており、CEOは(遠回しに)Amazon Goとの重点の違いを語った。

「ピカピカの要素をならべて人目を引こうとするのはわれわれの目的ではない。そういう人目を引く要素は長期的な視点から役に立たず、顧客にも我々にも有益とは言えない場合が多い」という。

Walmart IRLストアが店舗のキャッシャーレス化ではなく、ひき肉パックの在庫補充や欠品の防止というような地味な分野にAIテクノロジーを利用する理由はここにあるようだ。効率化によって浮いた人員をチェックアウトカウンターの稼働の拡大に回せば消費者にとって大きなメリットとなる。

 WalmartではBosa Nova Roboticsの他のロボットを大量に導入したときと同様、「新テクノロジーは人間を代替するものではなく、機械ができる仕事から従業員を解放して顧客との対話に振り向けるものだ」としている。しかし長期的に見れば、効率的な店舗運営に必要な人員は減っていくはずだ。

IRLのコンセプトはグループ内の先進テクノロジー開発インキュベーター、 Store No8によるものだ。このチームは店舗運営に新テクノロジーを適用する試みをいくつか実行してきた。2017年には個人向けショッピングサービス、Code Eightをニューヨークで実験した。今年に入ってからはショッピング体験を強化するVRツアーをスタートさせている。

原文へ

(翻訳:滑川海彦@Facebook