GPT-3に対抗してAI2がQ&Aを重視したオープンなライバルAIを披露

OpenAI(オープンエーアイ)のすばらしいAI言語モデルであるGPT-3は、多くの機能を備えているが、1750億個のパラメータを備えたそのモデルを、特にすっきりしているという人はいないだろう。このたびAllen Institute for AI(AI2、アレン・インスティチュート・フォー・エーアイ)が、GPT-3と同等もしくはそれ以上の質疑応答能力を持ちながら、サイズが10分の1というモデルのデモを行った。
AI2のモデルであるこのMacaw(マカー)は、標準的なテストで人間レベルのパフォーマンスを発揮するAIを作ることを目的として、非営利団体AI2で行われてきた研究から生まれた。

AI2の責任者であるOren Etzioni(オーレン・エチオーニ)氏は「非常に高いスコアを得た後、モデルはより難しい問題に移っていきました。人間にとって最も簡単な質問が、機械にとっては最も難しいというパラドックスがありますが、このときの最大のギャップは『常識』でした」と語る。

たとえば「トム・ハンクスが月に降り立ったのはいつですか?」と尋ねてみるのがその例だと彼はいう。GPT-3はこの質問に1995年と答える、なぜなら映画『アポロ13』が公開されたのが1995年だったからだ。しかしMacawは、私たちが知る限り、トム・ハンクスが実際に月に行ったことはないと正しく指摘する。

AI2は、その違いを示す例題(「デモ」という言葉は少し過剰な表現かもしれない)を公開しているが、その中ではトリッキーな質問やそれほどでもない質問に対してMacawの方がしばしばより良い答えを行っている。

どちらもかなりの高確率で失敗したり、不合理な答えを出したりすることがあるので、両者を比べてみるのはおもしろい。Macawは誰が何をしたかを追跡するのは得意だが、蛇には足があると信じている。GPT-3の回答は(おそらく過剰なほど)自信に満ちていてしかも読みやすいが、その内容が、新型コロナウイルスは「実験的で危険な新薬」であるというような陰謀論的なものであってもその態度は変わらない。

いくつか例を挙げてみよう。

  • 結婚生活をより安定させるにはどうしたらいいですか?
    Macaw:コミュニケーション。
    GPT-3:私なら自分が常に正しいということを確認するでしょう。
  • もしも鳥に翼がなかったら、どのような影響があるのでしょうか?
    Macaw:飛ぶことができなくなります。
    GPT-3:それは質の悪い鳥ですね。
  • クランベリージュースを自分で注いだ後、うっかりしてティースプーン1杯ほどのグレープジュースを注いでしまいました。見た目は大丈夫です。その匂いを嗅いでみましたが、風邪をひいていたので何の匂いもしません。ともあれ、あなたはとても喉が渇いています。だからそれを飲むことにします。次はどうなりますか?
    Macaw:気持ち悪くなる。
    GPT-3:たぶん死ぬ。
  • ヘビはどうやって移動するの?
    Macaw:四つん這いで進みます。
    GPT-3:ヘビは筋肉で地面を押して移動します。どの方向にも動くことができますが、後ろ向きに動くことはできません。

子どもでも答えられるような、基本的な質問に失敗しない質疑応答AIの実現はまだまだ遠そうだ。しかし、MacawがGPT-3と同程度の成功を、はるかに少ないデータ量の処理で達成していることにも注目したいと思う。エチオーニ氏は、これはGPT-3に取って代わろうとするものではなく、世界中で行われている言語の生成と理解に関する研究の新たな一歩であることを明言した。

彼は「GPT-3はすばらしいものですが、1年半前にローンチしたばかりで、アクセスも限られています」という。GPT-3が示す能力はすばらしいものの「しかし、私たちは、より少ない資源でより多くのことができることを学んでいます。たとえば1750億個のパラメータが必要となるようなものでも、私たちならおそらく100億個のパラメータでできるでしょう」とエチオーニ氏は語る。

優れた質疑応答AIは、パーティーの余興に役立つだけでなく、音声による検索などで中心的な役割を果たす。簡単な質問に外部と通信することなくすばやく正確に答えられるローカルモデルは、基本的に価値がある。たとえばAmazon Echo(アマゾン・エコー)自身がGPT-3を実行することはまずないだろう、それは、スーパーに行くために大型トレーラーを買うようなものだ。大規模なモデルはこの先も有益だが、今後はよりコンパクトなモデルが使われるようになるだろう。

ここでは示されていないものの、AI2チームによって積極的に追求されているMacawの機能の1つが、その答を説明させることだ。なぜMacawはヘビに足があると思っているのか?それが説明できないと、どこでモデルが間違ったのかがわからなくなってしまう。しかし、エチオーニ氏は、これはそれ自体が興味深く難しいプロセスであるという。

「説明の問題点は、本当に誤解を招く可能性があることです」と彼はいう。彼は、Netflixが視聴者に番組を推薦した理由を「説明」している例を挙げたが、それは複雑な統計モデルに関係した動作理由の説明ではない。人は機械に関係する説明を聞きたいのではなく、自分の心に関係する説明を聞きたいのだ。

エチオーニ氏は「私たちのチームは、こうした『誠実な説明』を開発しています」と語り、今回いくつかの研究成果を発表したものの、まだ一般に公開できる状態ではないと述べた。

しかし、AI2が開発しているほとんどのものと同様に、Macawもオープンソースだ。気になる人は、ここにコードがあるので、是非とことん遊んで欲しい。

画像クレジット:Andrii Shyp / Getty Images

原文へ

(文:Devin Coldewey、翻訳:sako)

マイクロソフト、新しくAzure OpenAI Serviceを通じ言語AI「GPT-3」を招待制で提供開始

Microsoft(マイクロソフト)は米国時間11月2日、Azure OpenAI Serviceの提供開始を発表した。Azure OpenAI Serviceとは、その名の通り、OpenAIの機械学習モデルをAzureプラットフォーム上で利用できるようにするものだ。具体的には、OpenAIの画期的な大規模自然言語処理モデルである「GPT-3」が対象となる。GPT-3は、適切な環境下であれば、わずかなプロンプトで人間のようなテキストを生成することができる。

しかし、少なくとも今のところ、すべてのAzureユーザーがアクセスできるわけではない(たとえお金を払う用意があっても)。アクセスは招待制で「AI技術を使用するための責任ある原則と戦略を取り入れた、明確に定義されたユースケースを実装する予定の顧客」が対象とのこと。Microsoftは、GPT-3の悪用や誤用のケースを見つけるための安全性モニタリングと分析を提供し、GPT-3をベースにしたチャットボットが(たとえそれに値するとGPT-3が考えたとしても)重役に悪態をつき始めたりしないようにするためのフィルターを提供する。

画像クレジット:Microsoft

ここで注目に値するのは、OpenAI自体は2020年、すでにGPT-3のAPIを公開していることだ。ただし、まだウェイティングリストがある。MicrosoftもGPT-3を使って、デベロッパーのコード作成を支援する「GitHub Copilot」ツールをすでに構築している。しかし、Azure以外でGPT-3にアクセスする方法はすでにあるが、Microsoftは「セキュリティ、アクセス管理、プライベートネットワーク、データ処理の保護、またはスケーリング能力の追加レイヤー」を提供できるとしている。

Microsoftは2019年にOpenAIに10億ドル(当時約1080億円)を投資し、GPT-3のライセンスを取得しているので、今、より広い範囲の製品に導入しようとしているのは驚くことではない。

OpenAIのSam Altman(サム・アルトマン)CEOはこう語った。「GPT-3は、自然言語のための最初の強力な汎用モデルであることを証明しました。1つのモデルであらゆることに使えるので、非常に簡単に試すことができ、デベロッパーにとって使いやすいものです。以前から、可能な限り広くスケーリングする方法を見つけたいと思っていました。その点が、Microsoftとのパートナーシップで最も期待していることです」。

画像クレジット:Westend61 / Getty Images

原文へ

(文:Frederic Lardinois、翻訳:Aya Nakazato)

眼球スキャンと引き換えにさまざまな人に暗号資産を提供するWorldcoin、OpenAIのCEOらが立ち上げ

暗号資産への関心の高まりに乗じて投資家が競い合う中、さまざまなスタートアップ企業が世代をまたいだ多くのユーザーに暗号資産ウォレットを所有してもらうための工夫をしている。

OpenAI(オープンエーアイ)のCEOであるSam Altman(サム・アルトマン)氏、およびAlex Blania(アレックス・ブラニア)氏が設立したWorldcoin(ワールドコイン)は、世界に自社の暗号資産を受け入れてもらうために、最も大胆な試みを行っているスタートアップの1つといえるだろう。同社は、あらゆる人にスマートフォン上の暗号資産ウォレット(および暗号資産の一部)を持ってもらおうとしているが、そのためには、ユーザーがそのユーザー本人であることを判断できる方法を構築しなければならない。Worldcoinは、可能な限り理想的な方法で本人を証明するネットワークを作ることを目指しているが、そのためには、何十億もの眼球を「Orb(オーブ、球体を意味する)」という約2kgの虹彩スキャン装置でスキャンすることが必要だ。

アレックス・ブラニア氏(左)、サム・アルトマン氏(右)(画像クレジット:Marc Olivier Le Blanc)

インターネットは、まったく形の定まらないユーザーネットワークを形成して発展してきた。ボットネット(悪質なソフトウェアに感染したコンピュータのネットワーク)には、自分のID(アイデンティティ)を使う実在のユーザーと、実存する別の人物になりすましたユーザーと、偽名を使うユーザーの3種類のユーザーが存在する。これは(現在のソーシャルメディアプラットフォームがそうであるように、)ユーザーに与えられるインセンティブが不平等になる原因となるが、金融に関連する場合は不平等のみならず詐欺の原因にもなる。Worldcoinは、地球上のすべての人が、ネットワーク上の1つのウォレットだけにサインアップするようにして、このような事態を回避しつつ、暗号資産の公平な分配を実現したいと考えている。

WorldcoinのCEOであるアレックス・ブラニア氏はTechCrunchの取材に応じ、同社の暗号資産Worldcoinは、十数年前に始まった暗号資産が実現することのできなかった、インターネット経済によるより統一された公平なグローバル経済を推進するための、さらに大きな取り組みの一環であると話す。

「Worldcoinの構想は、ベーシックインカムが世界にとって非常に重要なものになるのは確実であり、インターネット経済へのアクセスは、現時点で判明しているよりもはるかに重要になるだろう、という議論がきっかけです」とブラニア氏。

Worldcoinは、イーサリアム(ETH)をベースにした「レイヤー2」の暗号資産で、イーサリアムのブロックチェーンのセキュリティを活用しながら、独自の経済を実現する。ブラニア氏によると、Worldcoinをイーサリアムの上に構築することにしたのは、主にイーサリアムの開発者ネットワークが理由で、同氏はネットワークにWorldcoinも採用してもらいたいと考えている。最初はビットコインから暗号資産を始めて欲しいと考える暗号資産推進派も多いが、ブラニア氏は、イーサリアムのレイヤー2と比較してビットコインにはスケーラビリティの問題が多すぎる、と考えている。

ブラニア氏は「ビットコインは、何十億人ものユーザーには対応できません」「ご存じのとおり、トランザクションに時間がかかるので非常に高価です」と話す。

6月にはBloombergがWorldcoinの設立初期の詳細を報じたが、ブラニア氏は「(記事には)かなり悩まされた」とし、Worldcoinが行っていることは複雑なプロセスであり、さまざまな情報が錯綜していることを認めつつも、Worldcoinのローンチに向けて、世界中のユーザーにプロセスを知ってもらうことができると確信していると話した。

そういえば……オーブとは?

Worldcoinは非常に厳格なユーザー獲得フローを採用している。Orbカメラのライセンスを世界中のライセンス事業者に供与し、あらゆる大陸、国、都市で、ネットワーク上の新規ユーザーを1人ひとり手作業で確認する、というものだ。

プロセスの基本形は、Orbで人の虹彩を撮影し、その画像をハッシュコードに変換する(Worldcoinによれば、変換プロセスは非可逆とのことだ)。その虹彩に紐づいたハッシュコードがまだアップロードされていないかどうかをデータベースで確認し、ハッシュコードが存在しないユニークのものであれば、ハッシュコードを新たに保存する。すると、ユーザーはアプリで暗号資産ウォレットを所有できるようになり、そこからOrbがQRコードをスキャンする、というものだ。(本名ではなく)仮名のウォレットコードに関連付けられた検証済みユーザーのネットワークと、実際の眼球写真ではなくハッシュコードが大量に保管されたデータベースを構築することで、ブラニア氏は、Worldcoinのユーザーが急増する中でも同社のプライバシーに関する取り組みを明確に伝えていきたいと考えている。

インドネシアで行われた利用者獲得のためのOrbのセッション(画像クレジット:Worldcoin)

ブラニア氏によると、南米、アジア、アフリカ、ヨーロッパの4大陸における最初のテストでは、ライセンス事業者はOrb 1台あたり、平均して1週間に700人を超えるユーザーを獲得することができた。現在、30台のOrbのプロトタイプが現場で稼働しているが、(すべてが計画通りに進めば)今後数カ月のうちに数百台を追加し、最終的には月に数千台のOrbを出荷する計画だという。米国のユーザーがWorldcoinとOrbを体験できるのは、しばらく先のことになりそうだ。

ブラニア氏は「(WorldcoinやOrbに関連する)米国の規制がもっと明確になるまで、米国での発売を遅らせることになるかもしれません」と指摘する。

すべてが根気のいるプロセスとはいえ、何百万、何千万ものユーザーに初めての暗号資産ウォレットを提供すると同時に、ブロックチェーンを使用して認証されたインターネットユーザーのネットワークを構築する、というのは、暗号化に投資してきた多くの投資家が、有り金をはたいてでも投資したいと思う内容だ。Worldcoinのローンチにともない、このサービスを利用する検証済みのユーザーにはWorldcoinの一部が割り当てられる(定額制かドルペッグ制かは未定だが、後者になるようだ)。全体では、Worldcoinの供給量のおよそ80%がユーザーに割り当てられ、10%はWorldcoinが留保し、残りの10%は投資家が受け取ることになる。

つまり、ユーザーは無料(ただ)でお金を手に入れるのだが、この大きな問題の1つは、ユーザーがお金を使ってしまうことである。ブラニア氏は、今後Worldcoinがネットワークやユーティリティーを拡大していく過程で、ユーザーが無料で受け取った暗号資産はすぐには清算できないような仕組みを作っていく、と話す。

投資家に関しては、WorldcoinはAndreessen Horowitz(アンドリーセン・ホロウィッツ)が主導し、Coinbase(コインベース)、Reid Hoffman(リードホフマン)、Day One Ventures(デイワンベンチャーズ)、Multicoin(マルチコイン)、FTX(エフティーエックス)のSam Bankman-Fried(サム・バンクマン・フリード)氏、Variant(バリアント)のJesse Walden(ジェシー・ウォルデン)氏などが参加したラウンドで、2500万ドル(約28億5000万円)を資金調達した。ラウンド前の評価額は10億ドル(約1140億円)であったが、ブラニア氏によると、Worldcoinとその知的財産権は最終的には財団に転換され、ユニコーン企業(評価額が10億ドルを超える未上場のスタートアップ企業)という題目はここではほとんど意味をなさないという。Worldcoinに資金を提供する投資家たちは、Worldcoinの供給量の10%という投資家への割り当てを目的としている。

「会社自体の持ち分は、基本的にはまったく問題にならないはずです」とブラニア氏。

結局のところ、課題は新しい暗号資産に注目を集めることと、数十億、数千億のユーザーを獲得することである。独自のハードウェアが、利用者獲得の現場によって大幅に異なる環境で何十億、何千億もの眼を確実に解読できるようにすることも課題だ。Worldcoinには大きな課題がいくつもあるが、中には実際にOrbが流通するまで明らかにならないものもある。これらの課題のいくつかは絶え間なく流入する投資家の資金が解決するかもしれないが、この(かなり複雑な)プロセスすべてを理解してもらうという課題は残るだろう。

このことはWorldcoinのウェブサイトによく表現されている。「Nothing like this has ever been done before and the outcome is uncertain.(前例のないことで、結果は不確実です)」。

画像クレジット:Worldcoin

原文へ

(文:Lucas Matney、翻訳:Dragonfly)

【コラム】「ノーコード」もコード

編集部注:本稿の著者Greg Brockman(グレッグ・ブロックマン)氏は汎用人工知能が全人類に恩恵をもたらすことを使命とする研究・開発企業OpenAIの共同設立者兼CTO。Hadi Partovi(ハディ・パートビ)氏はすべての学生がコンピュータサイエンスにアクセスできるようにすることを目的とした非営利団体Code.orgの創設者兼CEO。

ーーー

米国時間8月11日、自然言語をコードに変換する新しいAlシステム「OpenAI Codex」がリリースされ、コンピューターソフトウェアの書き方におけるシフトの始まりが示された。

ここ数年「ノーコード」プラットフォームに関する話題が増えてきているが、これは新しい現象ではない。実際、プログラマブルデバイスの登場以来、コンピューターソフトウェアを「コーディング」する方法において、コンピューター科学者たちは定期的にブレークスルーを生み出してきた。

初期のコンピューターは、キーボードが発明されるまで、スイッチやパンチカードを用いてプログラムされていた。コーディングは数字や機械語を入力する作業から始まり、やがてGrace Hopper(グレース・ホッパー)氏が近代的なコンパイラとCOBOL言語を発明して、プログラミング言語とプラットフォームにおける数十年の革新を先導した。Fortran、Pascal、C、Java、Pythonなどの言語は進化を続け、最新の言語(古い言語を使用して構築)によって、プログラマーはより一層人間的な言語で「コーディング」できるようになった。

言語と並行して、私たちは「ノーコード」プラットフォームの進化を見てきた。1980年代に現れたノーコードの草分け的存在であるMicrosoft Excelを含め、学校や職場などの場所を問わず、視覚的なインターフェイスでコンピューターをプログラムできるようにするプラットフォームだ。スプレッドシートに数式を記述したり、Code.orgやScratchにコードのブロックをドラッグすることで、コンピューターのプログラミング、つまり「コーディング」が実行される。「ノーコード」はコードだ。10年ごとにブレークスルーとなるイノベーションが生まれ、コードを書くのが容易になり、古いコーディング方法が新しいコーディング方法に取って代わられる。

イノベーションの波に乗るように、発表がもたらされた。今回、OpenAlは自然な英語で「コードを書く」まったく新しい方法であるOpenAI Codexを発表した。コンピュータープログラマーは、自分たちのソフトウェアに何をさせたいかを英語で記述することが可能になる。OpenAlの生成Alモデルは、それに対応するコンピューターコードを、ユーザーが選択したプログラミング言語で自動的に生成する。これは私たちが常に望んできたことだ。コンピューターが、プログラミング言語のような複雑な媒介を介さずに、私たちが何をして欲しいのかを理解し、それを実行する。

ただし、これは終わりではなく始まりである。Alが生成したコードによって、あらゆるプログラミングツールやあらゆるプログラミングクラスにおける進化、そして新しいソフトウェアのカンブリア爆発のような変革が想像できる。それはコーディングの衰退を意味するものだろうか?いや違う。プログラマーがコードを理解する必要性を置き換えるものではない。パンチカードからキーボードに移行したときや、グレース・ホッパー氏がコンパイラを発明したときのように、コーディングが格段に容易になり、インパクトが大きくなることで、その重要性が増すことを示唆しているのだ。

実際に、今日のソフトウェアに対する需要はかつてないほど高まっており、今後も増加の一途を辿ることが予想される。この技術が発展するにつれて、Alはコードの生成においてより大きな役割を果たすようになり、ひいてはコンピューター科学者の生産性とインパクトが増幅され、より多くのコンピュータープログラマーがこの分野にアクセスできるようになるだろう。

ドラッグ&ドロップだけでプログラムを作成したり、音声でコードを記述できるようにするツールはすでに存在している。これらの技術やOpenAI Codexのような新しいツールにおける進歩は、ソフトウェアを作る能力の民主化につながるはずだ。その結果、世界中のコードの量とコーダーの数が増えていくだろう。

これはまた、新しい方法でプログラミングを学ぶことが、これまで以上に重要になっていることを意味する。コードを学ぶことで、機会への扉が開かれ、世界的な問題の解決に寄与することもできる。ソフトウェアの開発が容易になり、アクセスしやすくなるにつれて、あらゆる学校のすべての生徒に、技術の利用者になるだけでなく、創造者にもなれる根本的な知識を提供していく必要があるだろう。

関連記事
OpenAIが自然言語AIコーダーのCodexをアップグレード、プライベートベータを開始
非プログラマーのために開発された機械学習のノーコードプラットフォーム「Obviously AI」、大日本印刷と提携し日本市場開拓戦略も進める
Wixが月額約2万2000円のノーコードアプリビルダーを公開
画像クレジット:Luis Cagiao Photography / Getty Images

原文へ

(文:Greg Brockman、Hadi Partovi、翻訳:Dragonfly)

OpenAIが自然言語AIコーダーのCodexをアップグレード、プライベートベータを開始

OpenAI(オープンエーアイ)は、2021年7月に発表したAIを活用したコーディングアシスタントのCodex(コーデックス)に、すでにいくつかの大きな変更を加えている。現在システムは、平易な英語のコマンドを受け入れ、実際に動作するコードをリアルタイムで出力する。変数に名前をつける必要すらなくゲームやウェブアプリを作成できるようにするのだ。数少ない幸運なコーダーたちは(そしてご想像できるようにノンコーダーたちも)、無償のプライベートベータで提供される新しいCodex APIを使って、その使い心地を試すことができる。

Codexが、OpenAIの多用途言語エンジンであるGPT-3であることはよく知られているが、特に通常の文書ではなくコード生成に向けてのみ訓練されたものである。これにより、コードの行を完成させたり、セクションを完全に生み出したりすることができる。とはいえ、最初発表されたときには、ノンコーダーが実際に対話して利用できるようなものではなかった。

この状況が今回の新しいAPIでは変わった。たとえば「ボールを画面の端で跳ね返らせる」とか「パブリックAPIを使用してそのデータをダウンロードし、日付で並べ替える」といった日常的なリクエストを解釈し、複数のプログラミング言語の1つで実際に動くコードを生成するのだ。

私はOpenAIの共同創業者であるGreg Brockman(グレッグ・ブロックマン)CTOと、CodexのリーダーであるWojciech Zaremba(ボイチェフ・ザレンバ)氏が、簡単なゲームをゼロから作成しながら、舞台裏で何が起こっているのかを説明するライブデモに参加した。

「プログラミングとは、目標を考えて部分へと分割し、そして分割された部分のためのコードを実際に作成していくことです」とブロックマン氏は説明した。Codexの目的は、コーダーが後者よりも前者の部分により多くの時間を費やせるようにすることだ。結局のところ、膨大な量のコードが、他人が以前に行ったことを真似たり完全にコピーしたりしている。もちろんそれも創造的な行為ではあり得る。だが少しばかりのコードのテストのために行うウェブサーバーの展開のような基本的な作業に、想像力を駆使する人はいないだろう。ブロックマン氏はそのことを「次のことを表示するウェブページを作成せよ」といった感じのシンプルな一行で実現してみせた。

画像クレジット:OpenAI

1秒後には、その要求を完全に標準的な方法で実現する10行ほどのJavaScript(ジャバスクリプト)プログラムが生成された。

「これはプログラミングの中でも面倒な部分です」とブロックマン氏はいう。「私はこの種のコードをおそらく数十回以上書きましたが、どのようにやっていたかを正確には覚えていないのです。私はこうしたAPIを正確には知りませんし、覚える必要もないのです。少ないキーストロークや操作手順で、同じことを簡単に行うことができるようになるのです」。

Codexは、基本的にGitHub(ギットハブ)上のすべての公開コードを中心に用いてトレーニングされているので、標準的な作法を熟知している。そこでは、ウェブサーバー、キーボードコントロール、オブジェクト操作、アニメーションなどのコードが何百回も誰かによって書かれているのだ。また、自然言語側ではGPT-3が持つ通常の理解能力が備わっているので「それを小さくしてトリミングして」といってから「それの水平位置を左右の矢印キーで制御せよ」といった場合に「それ(it)」が同じものを指していることをシステムは理解することができる。

また、同システムは数キロバイトに相当する自分自身のコーディングコンテキストを知っているために、準拠する必要のある命名規則、ユーザーの入力が暗示する既存の境界と要求およびその他の情報を認識している。

また、コードコーパスに埋め込まれている一般的知識も認識している。例えばブロックマン氏がシステムに対して「丸石を空から落とせ」と命じたとき、システムは、ほとんどキャンバス上に何も定義されていない状況にも関わらず「空」が何であるかを尋ね返してこなかった。システムは画面の上部から丸石を落としただけでなく、通常の物体のように落下速度を加速させた。これは、他の用途や状況から「落下」と「空」が何を意味するかを最もうまく推測できたからだ。

画像クレジット:OpenAI

数年前に、博士論文のために今回のシステムの機能限定版を作成していたザレンバ氏は、マイクロソフトワード用のCodexプラグインのデモを行いながら「これは、既存のソフトウェアと対話するための新しい方法を提供すると思います」と語った。もちろん、ワードプロセッサの多くのタスクは自動されているが、たとえば奇妙なフォーマットの問題が発生して、100カ所以上の異なる場所を修正したくなった場合はどうだろうか?「すべてのテキストを同じサイズとフォントにして、ダブルスペースをシングルにせよ」と入力すると、迷子になったスタイルを削除し「通常」と見なされる可能性が最も高いサイズとフォントを選択するのだ。そして「すべての見出しを24ポイントで太字にせよ」と入力すると、猛然と処理をこなしてくれるというわけだ。

ここで注意しておきたいのは、この種のことは多くの人にとって便利なことには違いないが、身体障がいなどのためにこれらのことを行えない人にとっては非常に重要だということだ。音声コマンドまたはジョイスティックを使用してワードプロセッサを操作している場合には、上記のような複雑なタスクを実行できれば非常に役立つ。盲目のコーダーは、他の人と同じように、標準のパブリックテストサーバーにパッチを適用できるが、Stack Overflowを探すこと、最適なコード断片の取得、構文の確認、関連する変数の変更などのプロセスは、ほぼ確実に長くなる。

そして、上から指示された構文や慣習の範囲内で作業する人にとっては、ドキュメントをモデルに与えることで、簡単にCodexがそれらを反映するようにすることができる。Codexは、コードをある言語から別の言語に変換して移植することもできる。これは、翻訳エンジンがスペイン語をフランス語に変換するのとほぼ同じやりかただ。

ブロックマン氏は、GPT-3の場合と同様に、これらは可能なことのほんの一部に過ぎず、開発者が思いつくものに驚かされることを望んでいるという(実際、OpenAIはAI Dungeon[AIダンジョン]の登場は予測していなかった)。ベータ版はGPT-3のベータ版と同様に非公開のものとなるが、開発者は自分のプロジェクトを説明して利用を申請することができる。Codexチームがその申請をレビューして招待を決めることになる。最終的にこのAPIは有料の公開APIになる予定だが、そのタイミングと価格はまだ決定されていない。

関連記事
GitHubがコーディングの提案を行う新しいAIツールをプレビュー
人間が操り理解できる大型AIの条件を探るOpenAIメンバーが創設したAI研究機関「Anthropic」
OpenAIの約109億円スタートアップファンドはマイクロソフトがパートナー

カテゴリー:人工知能・AI
タグ:OpenAIベータ版GPT-3コーディングノーコード

画像クレジット:OpenAI

原文へ

(文: Devin Coldewey、翻訳:sako)

ルービックキューブロボは終わったがPepperは死なず、先週のロボティクスまとめ

思わず二度見してしまった。1億ドル(約110億円)というのはいずれにしても大きな数字だが、5600万ドル(約61億8000万円)を調達したラウンドから2カ月半しか経っていないことを考えると途轍もない。少なくとも、Path Robotics(パス・ロボティクス)が、口でいうだけでなく実際に資金を投入する準備ができていることは確かだ。そして、Tiger Global(タイガー・グローバル)が、この溶接ロボット企業を気に入っているらしいことも。

関連記事:溶接工不足を埋める自律ロボットのPath RoboticsがシリーズBから2カ月半後さらに約110億円調達

この「先買」シリーズCラウンドで、同社は総資金額が1億7100万ドル(約189億円)となり、最も資金力のある建築ロボット企業のトップに躍り出たことになる。だが、そこにはもちろん、かなりの余地がある。世界の建設市場は年間で数十兆ドル(数千兆円)規模と言われている。そして、この業界の美点の1つは、攻めることができる側面がどれだけ多いかということだ。

画像クレジット:Path Robotics

つまり、Pathのこれほどの資金調達は、溶接に留まらない野望を示しているということだ。とはいえ、溶接業では2024年までに米国だけで約40万人の労働力が不足すると言われていることを考えると、最初に溶接のロボット化から始めるのは良い判断と言えるだろう。Tiger GlobalのパートナーであるGriffin Schroeder(グリフィン・シュローダー)氏は、その幕を少しだけ引いて次のように述べている。

コンピュータービジョンと独自のAIソフトウェアを使ったPathの革新的なアプローチにより、ロボットはそれぞれ異なる溶接プロジェクトの課題を感知、理解、適応することができます。この画期的な技術は、溶接のみならず、さまざまな用途や製品に応用でき、顧客に総合的なサービスを提供することが可能であると、我々は考えています。

スタートアップ企業が、早い時期からあまりにも多くのことを引き受けてしまうことには危険がともなう。たとえPathのような資金力のある企業であっても。

画像クレジット:ADUSA Distribution

Verve Motion(ヴァーヴ・モーション)の資金調達ラウンドは、先週のラウンドアップ掲載にぎりぎり間に合わなかった。1億ドル(約110億円)規模のラウンドを主導するのは大変なことだが、1500万ドル(約16億5000万円)だって決して馬鹿にできる金額ではない。ハーバード大学のヴィース研究所(Wyss Institute)に属するConor Walsh(コナー・ウォルシュ)博士の研究室と、同大学のJohn A. Paulson School of Engineering and Applied Sciences(ジョン・A・ポールソン工学部および応用科学部)で行われている非常に興味深い研究から生まれたVerve Motionは、いわゆるパワードスーツやエクソスーツと呼ばれる筋力強化スーツをてがけている数多いスタートアップ企業の1つである。

関連記事:食料品店従業員の腰を守る外骨格のパイロット試験を経てVerve Motionが約16.5億円調達

この技術には、移動に問題を抱える人々とブルーカラー労働力という2つの需要層がある。Verveは、少なくとも現在のところは、後者をターゲットにしている。このソフトなエクソスーツは、荷物などを繰り返し持ち上げるような作業を行う職場で、負傷を減らすことを目的として設計されている。率直に言ってこのスーツは「退屈で、汚くて、危険」な業務の革新に非常に適している。

人工知能を研究する非営利団体のOpenAI(オープンエーアイ)からは、ロボット工学チームをひっそりと解散させたという、あまり楽しくないニュースも聞こえてきた。この動きは2020年10月から見られたものの、Venture Beat(ベンチャー・ビート)が米国時間7月16日にそれを報じた。OpenAIのロボット工学チームは、ルービックキューブを解くロボットハンドでよく知られていた。それは魅力的なプロジェクトだったが、どうやら行き詰まってしまったようだ。広報担当者は以下のように述べている。

私たちは、ルービックキューブプロジェクトやその他の取り組みを通じて、強化学習の最先端を進んできましたが、2020年10月、これ以上はロボット工学の研究を続行することはせず、チームを他のプロジェクトに集中させる決定を下しました。その理由は、AIとその能力が急速に進歩しているため、人間のフィードバックをともなう強化学習など、他のアプローチの方が強化学習の研究をより早く進めることができると考えたからです。

画像クレジット:Dick Thomas Johnson Flickr

Pepper(ペッパー)の死を伝える報道は、かつてMark Twain(マーク・トウェイン)が言った「新聞で、唯一信頼に足る事実が含まれているのは広告だけだ」という言葉を思い出させた。それは誇張したものではないかもしれないが、少なくとも公式には否定されている。

とはいえ、ソフトバンクのロボット事業の顔が、同社の期待していたほど成果を上げていないことは依然として明らかであり、少なくとも、同社は振り出しに戻すことに決めている。

Softbank Robotics(ソフトバンクロボティクス)の蓮実一隆CMOは、看板を持った人型ロボットの販売を練り直して継続するという話に加えて「私たちは5年後もPepperを販売しているでしょう」とReuters(ロイター)に語った。これがどういう意味であるかを判断することは難しい。Pepperは、ソフトバンクが買収したフランスのAldebaran(アルデバラン)という企業に由来する確かな血統を持つにもかかわらず、この種のものとしては、特に実用的なロボットではなかった。

少なくとも、ソフトバンクロボティクスでは、デザインの変更などを検討しているようだ。しかし、それだけでは大きな変化は起こりそうもない。

関連記事
より安価な義手を求めて
アルファベット傘下のIntrinsicがステルスモードを脱し産業用ロボットの能力向上を目指す
オリィ研究所の分身ロボット「OriHime」に新製品、自走可能で接客・誘導も行える拡張版「OriHime Porter」登場

カテゴリー:ロボティクス
タグ:Path RoboticsVerve Motion外骨格倉庫OpenAISoftbank RoboticsPepper

画像クレジット:OpenAI

原文へ

(文:Brian Heater、翻訳:Hirokazu Kusakabe)

GitHubがコーディングの提案を行う新しいAIツールをプレビュー

GitHub(ギットハブ)が、人工知能を活用してコードをより効率的に書けるようにする新製品を発表した。「GitHub Copilot(ギットハブ・コパイロット)」と名付けられたこの新製品は、コードの一部や、ときには関数全体さえも提案することができる。

GitHubはOpenAI(オープンAI)と提携してこのツールを開発した。これは開発者に取って代わるようなものではなく、生産性を向上させ、コードの書き方を簡単に学べるようにするためのツールに過ぎない。GitHubはこの新しいツールを「AIペアプログラマー」と位置づけている。

GitHub Copilotのモデルは、何十億行ものコードを使って訓練を受けた。その多くはGitHub自身によってホストされ公開されているものだ。コードを書き進めていくと、その途中でGitHub Copilotがコードを提案してくる。プログラマーはそうした提案を眺めながら、受け入れたり、拒否したりすることができる。

GitHub Copilot は、プログラマーが現在何をコーディングしているのかを理解するために、コメントの意味や書いている関数の名前、そこまでの数行のコードの解析を試みる。そのウェブサイトでは、いくつかのデモが紹介されている。

画像クレジット:GitHub

特に、コメントに平易な英語で機能を記述することで、それを実際のコードに変換することができる。新しい言語を始めようとしている人や、これまでノーコードやローコードのツールを使っていた人には、この機能は便利だろう。

毎日コードを書いているなら、新しいフレームワークやライブラリに、GitHub Copilotを使って取り組むことができる。GitHub Copilot は、現在使用しているフレームワークの特定の関数や機能をすでに知っているので、プログラマーはドキュメントを最初から最後まで読む必要はない。また、Stack Overflowに対する質問の多くを置き換えることができるだろう。

GitHub Copilotは、Visual Studio Codeと直接統合される。拡張機能としてインストールすることも、GitHub Codespaces(GitHubコードスペース)を使ってクラウド内で利用することもできる。GitHub Copilotとの対話履歴に基づいて、徐々にサービスは改善されていくだろう。提案を受け入れたり拒否したりを繰り返すうちに、その提案は良くなっていくはずだ。

現在はテクニカルプレビューとして提供されているが、GitHubはGitHub Copilotをベースにした商用製品の発売を予定している。現在は、Python、JavaScript、TypeScript、Ruby、Goとの相性が抜群だ。

画像クレジット:GitHub

カテゴリー:人工知能・AI
タグ:GitHubOpenAIコーディング

画像クレジット:James Harrison / Unsplash

原文へ

(文: Romain Dillet、翻訳:sako)

人間が操り理解できる大型AIの条件を探るOpenAIメンバーが創設したAI研究機関「Anthropic」

AIが物珍しい見世物のような研究プロジェクトの域を脱して、GPT-3のような業界の原動力になるほどの巨大な範型がいくつか登場してくるにともない、この分野にも進化が必要になってきた。そう考える元Open AIの研究担当副社長Dario Amodei(ダリオ・アモディ)氏は、数カ月前に彼自身の企業を立ち上げた。Anthropicと名づけたその企業は、彼の妹のDaniela(ダニエラ)氏が創業者で、人間による操作と理解が可能、そして堅牢な大規模AIシステムの開発を目指している。

アモディ氏らが取り組む目下の問題は、そうした極めて強力なAIシステムが、よく理解されないまま使われていることだ。彼らが関わったGPT-3も、驚くほど多彩な言語システムで、ほぼどのような話題に関するどのような文体のテキストでも、本物そっくりに作り出す。

関連記事:Copy.aiのAI利用記事作成システムは「使える」レベルの驚異的な出来、日本語も対応

シェイクスピアやアレクサンダー・ポープの作例を見せて、韻を踏む二行連句を作らせてみよう。AIはどうやってそれを作るのか?AIは何をどう「考えて」いるのか?もっと悲しくてあまりロマンチックでない詩を作らせるには、どのノブとダイヤルをどれだけ回せばよいのか?言葉遣いや使用する語彙を一定方向に制限するには、何をどうすればよいのか?確かに、人間が値を変えることができるパラメータは随所に用意されているだろう。でも実際には、この極めて本物っぽい言葉のソーセージがどのように作られているのか、誰もよく知らない。

AIがいつ詩を作れるようになるかはどうでもよいとしても、それが百貨店で怪しい行動をウォッチしたり、これから判決を言い渡そうとしている裁判官のために判例を見つける仕事ならどうか。今日の一般的なルールでは、システムが強力になればなるほど、その行動を説明するのは困難になる。しかしそれは、あまり良い傾向ではない。

同社の自社紹介文にはこう書かれている。「今日の大規模な汎用システムには有意義な利点もありますが、予測不可能で信頼性を欠き、不透明なこともあります。弊社の目標は、こういった問題に関して進歩を作り出すことです。当面の間、主にこの目標に向かう研究に力を入れますが、将来的には、私たちの仕事が商用的価値と公共的価値を作り出す多くの機会があると予見しています」。

2021年は、AIの安全性を研究する@AnthropicAIで仕事をしてきたことを発表できてうれしい。安全性の研究とMLモデルのスケーリングを、社会的影響も考えながら組み合わせることに関して、私たちを助けたいという方は、弊社の求人ページanthropic.com/#careersをチェックしてください。

同社の目標は、今日の効率と処理能力が優先されるAIの開発に、安全性の原則を統合することのようだ。どんな産業でも、何かが最初から一体化されている方が、後から端っこにネジで取り付けるよりも簡単だ。今、存在する巨大なAIシステムを分解して理解しようとする試みは、構造の細部が最初からわかっているものを構築することと比べて、仕事量が膨大になるだろう。Anthropicは、後者を選んだようだ。

CEOのダリオ・アモディ氏は、同社とその1億2400万ドル(約136億2000万円)の資金調達を発表する短いポストで次のように述べている。「Anthropicの目標は、今よりも有能で汎用的で信頼性の高いAIシステムを開発し、それらを人びとのために展開していくための基礎研究の高度化していくことにある」。

その資金調達は、読者も予想したかもしれないが、投資家たちの顔ぶれが豪華だ。ラウンドをリードしたのはSkypeの共同創業者Jaan Tallinn(ジャン・タリン)氏、他にはInfotechのJames McClave(ジェームズ・マクレーブ)氏、FacebookやAsanaの共同創業者Dustin Moskovitz(ダスティン・モスコビッツ)氏、Googleの元CEOであるEric Schmidt(エリック・シュミット)氏、そしてCenter for Emerging Risk Researchなどの団体となる。

同社は公益法人であり、同社サイトの限られた情報によればその事業プランは、大型AIシステムの操作性と理解性の向上のための基礎研究となる。2021年中には、ミッションとチームが具体化し、初期的な成果が出るかもしれないため、より詳しい情報が得られるだろう。

ちなみに同社の社名は「anthropocentric(人間中心の)」に隣接したもので、人間の経験や存在との関連性を意味している。おそらく「anthropic principle(人間原理)」に由来するもので、宇宙に知的生命体が存在するのは、人間が存在するからだという考え方だ。適切な条件の下で知性が必然的に生まれるのであれば、企業はその条件を設定するだけでいい。

関連記事:GoogleのAIが新たなハイブリッド焼き菓子レシピを考案

カテゴリー:人工知能・AI
タグ:OpenAIAnthropic人工知能資金調達

画像クレジット:DKosig/Getty Images

原文へ

(文:Devin Coldewey、翻訳:Hiroshi Iwatani)

OpenAIの約109億円スタートアップファンドはマイクロソフトがパートナー

OpenAIが、スタートアップを対象とする1億ドル(約109億円)のファンドを立ち上げる。OpenAI Startup Fundと呼ばれ、これによりファンドとそのパートナーたちは、重要な問題および生産性の問題に挑戦している初期段階のAI企業に投資する。パートナーとファンドの投資家たちにはMicrosoftがおり、BuildカンファレンスではOpenAIの創立者である元Y CombinatorのSam Altman(サム・アルトマン)氏がこのニュースを発表した。

め録画されたビデオの中でアルトマン氏は「これは、よくあるような企業のベンチャーファンドではありません。私たちは、10社を超えない少数の企業に大きな投資をしていきたいと計画しています」と説明している。

1億ドルがどのように分割・分配されるのか、どのようなスケジュールで行われるのか、また、これがより長期的なプログラムの一部なのかなど、明らかになっていない。しかし、2021年のラウンドに限らず、限定的な資金であることは間違いなさそうだ。

アルトマン氏は、OpenAIのミッションステートメントに沿って、AIを活用したアプリケーションやアプローチが「人類全体に利益をもたらす」ようなヘルスケア、気候変動、教育といった深刻な問題に取り組んでいる企業を探していくと述べた。また、Microsoftが先に発表したGPT-3を利用した自然言語処理のように、生産性の向上も考慮するとしている。

MicrosoftのCTOであるKevin Scott(ケビン・スコット)氏は、Buildカンファレンスのキーノートで次のように述べている。「GPT-3のような強力なツールを使って、世界に貢献するような意欲的なアプリケーションを作ることができるのは、デベロッパーであるみなさんだ。Microsoftがこのファンドをサポートできることには、とても感激している」。

投資対象に選ばれた企業は新しいOpenAIのシステムへのアーリーアクセスとMicrosoftのAzureのリソースを使えるようになり、より本格的な研究開発ができる。OpenAIは、投資対象企業の所有権や、スタートアップに求める要件、その他の出資パートナーの参加など、詳細を明らかにしていない。現在、決まっているのは1億ドルという数字だけということもありうる。

申請はとても簡単であり、非常に多くの申請件数を期待しているのかもしれないが、自身の企業をこの渦中に投じたい人は、まずエレベーターピッチの準備から始めよう。申請には1分間の動画も必要だが、デモや音楽やエフェクトは不要だ。OpenAIがまだその詳細を明らかにしていない審査員たちにとって、それを見ることが審査の最初のふるいになるだろう。Zoomの背景は、まだ外さない方が良さそうだ。

関連記事

マイクロソフトのブラウザ「Edge」は起動が速くなりタブがスリープする機能も搭載する
マイクロソフトはGPT-3を使い自然言語でコードを書けるようにする
マイクロソフトが今や1日に1億4500万人が利用するTeamsの開発者向け新機能やツールを発表
マイクロソフトのナデラCEOがBuild 2021で「自らテストしてきた」次世代Windowsに言及
Microsoft AzureがPyson向け機械学習プラットフォーム「PyTorch」のエンタープライズサポートを提供

カテゴリー:人工知能・AI
タグ:MicrosoftMicrosoft BuildMicrosoft Build 2021OpenAI

画像クレジット:OpenAI

原文へ

(文:Devin Coldewey、翻訳:Hiroshi Iwatani)

マイクロソフトはGPT-3を使い自然言語でコードを書けるようにする

2021年のMicrosoft Build開発者会議には例年ほどの大きな驚きはなかったが、開発者がおそらく注目するであろう発表が1つある。Microsoftは同社のノーコード / ローコードサービスであるPower AppsでOpenAIの強力なGPT-3自然言語モデルを使って、話し言葉を最近発表されたPower Fx言語のコードに翻訳する。

しかし我を忘れてはいけない。自然言語だけを使って次のTikTokを開発しようということではないのだ。MicrosoftがやっているのはPower Appsのようなツールでローコードになっている部分の一部をなくすことであり、AIを使って基本的にノーコードのエクスペリエンスにしようともしている。現時点で主眼となっているのはPower Appsの数式で、これはもともとローコードのサービスではあるが、高度なアプリを開発しようと思ったら遅かれ早かれ何らかの数式を書かなくてはならない。

Microsoftのローコードアプリケーションプラットフォーム担当CVPであるCharles Lamanna(チャールズ・ラマンナ)氏は「このような高度なAIモデルを使うことで、まさに私たちがノーコードと呼んでいるものになり、Microsoftのローコードツールはさらに多くの人たちに使われるようになります」と述べた。

実際には、シチズンプログラマーが「find products where the name starts with ‘kids’」(「kids」で始まる名前の製品を見つける)のように書くと、Power Appsが「Filter(‘BC Orders’ Left(‘Product Name’,4)=”Kids”)」とレンダリングする。

MicrosoftはOpenAIに投資しているので、MicrosoftがこのエクスペリエンスにOpenAIのモデルを利用することに決めたのは当然だ。

関連記事:Microsoftがイーロン・マスクらのOpenAIに1000億円超を投資、Azueクラウドの人工知能化を目指す

画像クレジット:Microsoft

これによってプログラミングが簡単になるが、そうはいってもユーザーは自分が開発しているアプリケーションのロジックを理解する必要があるとMicrosoft自身が強調していることは重要なポイントだ。同社は今回の発表の中で「この機能によって自分が実装しているコードを理解する必要性がなくなるわけではありませんが、プログラミング言語のPower Fxを学んでいる人を支援し、必要な結果を得るための正しい数式を選ぶ助けとなります。高度なアプリ開発へのアクセスが劇的に広がり、ローコードツールの使い方をこれまで以上に短期間でトレーニングできます」と説明している。

ExcelやPowerBI、Googleスプレッドシートなどで利用できる自然言語クエリ機能を使うのと、まったく違うというわけではない。これらも結局のところ、自然言語を数式に翻訳している。おそらくGPT-3はもう少し高度でもっと複雑なクエリを理解できるだろうが、自然言語を数式に翻訳するという点ではそれほど新しくはない。

長期的にはこのようなツールがもっと賢くなって複雑なプログラミングタスクを処理できるようになると見られる。しかし複雑なプログラミングができるようになることは、翻訳の問題よりもずっと高いステップアップだ。概して、クエリが複雑になるほどプログラムをしっかり理解することが必要だ。数式はたいてい自己完結型のステートメントだが「本物の」コードを生成できるようなモデルではもっと多くのコンテクストを処理しなくてはならない。

この新機能は、2021年6月末までに北米のユーザーに対して英語版のパブリックプレビューが公開される。


関連記事:マイクロソフトのブラウザ「Edge」は起動が速くなりタブがスリープする機能も搭載する

カテゴリー:ソフトウェア
タグ:MicrosoftMicrosoft BuildMicrosoft Build 2021ノーコードローコードPower Apps自然言語処理OpenAI

画像クレジット:Getty Images

原文へ

(文:Frederic Lardinois、翻訳:Kaori Koyama)

AIチャットボット「りんな」を手がけるrinnaが日本語特化のGPT-2大規模言語モデルをオープンソース化

AIチャットボット「りんな」を手がけるrinnaが日本語特化のGPT-2大規模言語モデルをオープンソース化

AIチャットボット「りんな」などを手がけるrinna(リンナ)は4月7日、日本語に特化したGPT-2の大規模言語モデルを構築し、GitHubおよびNLPモデルライブラリー「HuggingFace」において、トレーニングコードと言語モデルをオープンソースソフトウェアとして公開した。

また今回公開したモデルは、GPT2-mediumと定義される中規模サイズのものという。今後、パフォーマンスとコストのトレードオフに基づいてユーザーおよび研究者が最善の選択を行えるよう、異なるサイズのモデルも公開する予定。異なるデータでトレーニングした新しいモデルの公開も計画している。

rinnaの研究チームが開発している大規模な言語モデルは、すでに同社プロダクトに広く使用されているという。同社は今後も、異なるテキストスタイルや異なるデータ量を含む、より高精度でより大規模な言語モデルの研究開発を続け、AIチャットボットの能力を高めるとしている。また、日本語の研究コミュニティのために、これらのモデルのオープンソース化を行う。

日本語GPT-2モデルの機能

言語モデルとは、言語データの機械学習を基に、会話や文章の「人間が使う言葉らしさ」を確率としてモデル化したもの。GPT-2の場合は、単語レベルの確率の組み合わせから文の確率を計算する言語モデル(自己回帰言語モデル)を採用している。

例えば、「確率(吾輩は猫である) = 確率(吾輩) × 確率(は|吾輩) x 確率(猫|吾輩,は) × 確率(で|吾輩,は,猫) × 確率(ある|吾輩,は,猫,で)」のような方法で推定を行う。この能力を使って、GPT-2は「吾輩は猫で」という接頭辞(Prefix)を与えられたとき、確率の推定から次にくる単語として「ある」を選択し、文章を自動生成する。

今回rinnaが公開した日本語GPT-2モデルは、一般的な日本語テキストの特徴を有した高度な日本語文章を自動生成できる。ユーザーおよび研究者は、特定のテキストデータを微調整して、このモデルから独自のモデルを作成することも可能としている。

例えば、Prefixとして「誰も到達していない人工知能の高みへ、ともに」という文章が与えられたとき、特定のコンテキスト(デモ1:講演の感想、デモ2:書籍の紹介)で応答文を生成するように、微調整できるという(掲載した画像のデモは生成する文章の文字数上限を設定しており、実際に生成される全文ではない)。

デモ1:講演の感想のコンテキストで文章生成

デモ1:講演の感想のコンテキストで文章生成

デモ2:書籍の紹介のコンテキストで文章生成

デモ2:書籍の紹介のコンテキストで文章生成

rinnaの日本語GPT-2モデルの特徴

rinnaの日本語GPT-2モデルは、トレーニングデータとしてCC-100のオープンソースデータを使用しているという。

またNVIDIA「Tesla V100 GPU」を用いて、70ギガバイトの日本語テキストを約1カ月の長期間にわたってトレーニングしたそうだ。その結果同モデルは、約18 perplexityという性能を達成した。この「18perplexity」は、GPT-2モデルが前に与えられた単語から次の単語を予測するときに、正しいものを含む18のオプションだけを残せるという性能を意味するという。モデルは十分にトレーニングされており、汎用性があるとしている。

rinnaは、Microsoft(マイクロソフト)のAI&リサーチ部門でAIチャットボットの研究を行っていたチームがスピンアウトして2020年6月に設立したAI開発企業。ディープラーニング技術を活用し、AIが文脈に応じた会話文を自動生成して人間と自然に会話する「共感チャットモデル」、AIが話し声や歌声で豊かな感情表現を可能にする「音声合成システム」などの技術を発表している。

これらの最新技術は、同社運営のAIチャットボット「りんな」や、会話内容や音声表現をカスタマイズしてキャラクター性を持たせたAIチャットボット「AIキャラクター」の開発に応用しており、企業のマーケティングなどに採用されているという。

同社は、製品開発のための自然言語処理(NLP)の実験過程で、日本語に特化したGPT-2の大規模言語モデルを構築。日本語のNLP研究コミュニティに貢献するために、開発した言語モデルと、研究者が自分のマシンで実験結果を再現するためのトレーニングコードを、GitHub、およびNLPモデルライブラリHuggingFaceで、オープンソースとして公開した。

関連記事
ウイルスの突然変異予測からClubhouse話者識別まで、今、人工知能に期待されていること
Copy.aiのAI利用記事作成システムは「使える」レベルの驚異的な出来、日本語も対応
テキストアドベンチャー「AI Dungeon」のLatitudeが「無限の物語」を生み出すゲーム制作のために3.5億円調達
OpenAIのDALL-Eは言葉による指示で「それらしい」画像を作り出す
LINEがOpenAI「GPT」・Google「T5」同様の超巨大汎用言語モデルをNAVERと共同開発、世界初の日本語特化
日本語音声合成向けに東京式アクセントを自動推定する自然言語処理ソフト「tdmelodic」がオープンソース化
OpenAIがテキストベースのAI機能利用が簡単になる汎用APIを開発
マイクロソフトはOpenAIと協力してAzure上に世界第5位となるスーパーコンピューターを構築
OpenAIは非常に優れたテキストジェネレータを開発したが、そのままリリースするのは危険すぎると考えている

カテゴリー:人工知能・AI
タグ:OpenAI(組織)自然言語処理 / NLP(用語)GPT / Generative Pretrained TransformeGPU(用語)ディープラーニング / 深層学習(用語)Microsoft / マイクロソフト(企業)日本(国・地域)

テキストアドベンチャー「AI Dungeon」のLatitudeが「無限の物語」を生み出すゲーム制作のために3.5億円調達

人工知能によって生成された「無限の物語」を持つゲームを開発しているスタートアップLatitude(ラチチュード)が、シードファンディングで330万ドル(約3億5000万円)の資金を調達したと発表した。

AIが生成したストーリーというと、短編映画「Sunspring」のような愉快で無茶苦茶な実験を思い浮かべるかもしれないが、Latitudeの最初のタイトルである「AI Dungeon」は、幅広いジャンルとキャラクターから選択できる印象的なオープンエンドの(そして首尾一貫した)テキストアドベンチャーゲームだ。

「Zork(ゾーク)」のような古典的なテキストアドベンチャーでは、デザイナーが意図していないことをプレイヤーが入力すると、すぐに「それはできません」というようなメッセージを頻発するが、AI Dungeonはそれらとは異なり、どんなコマンドにも反応することができる。たとえば勇敢な騎士が戦闘に突入している時に「get depressed(気落ちせよ)」と入力すると、彼はすぐに岩の上に座って頭を両手で抱えてしまった。

「AIはどうやって、何が良い話であるかを知るのでしょうか?」と、同社の共同創立者兼CEOであるNick Walton(ニック・ウォルトン)は言った。「それはたくさんの良い物語を読み、それに関わるパターンを知っているからです」。

AI Dungeonは、ウォルトン氏のハッカソンプロジェクトの1つとしてスタートした。最初のバージョンでは何の賞も獲得できなかったが、彼はOpenAIの言語生成モデル(最新バージョンは「GPT-3」)による改良に助けられて開発を続けた。

「AI Dungeon」(画像クレジット: Latitude)

「私が作ったAI Dungeonの最初のバージョンは、文章レベルでは首尾一貫していましたが、段落レベルでは意味をなしませんでした」とウォルトン氏はいう。「GPT-2が使えるようになると、より意味のあるものになりました。そしてGPT-3に達すると、ストーリーレベルでさらに首尾一貫したものになりました。このような首尾一貫性やストーリーが意味を成さないという問題は、AIが向上するにつれて解決されていくと私は思います」。

Latitudeによると、AI Dungeonは月間150万人のアクティブユーザーを集めているという。このスタートアップは今後もさらに多くのAIを使ったゲームを制作し、最終的には他のゲームデザイナーたちも同じようなことができるようになるプラットフォームのリリースを計画している。

ウォルトン氏は、AIがなければ、ビデオゲームは常にクリエイターの想像力によって制約されると指摘する。ランダムに生成された町や惑星が舞台となる「The Elder Scrolls II:Daggerfall」や「No Man’s Sky」のようなゲームでも、「似たようなコンセプトに同じ捻りを効かせたもの」と彼は主張する。

たとえばDaggerfallでは、「どの町に行っても、基本的にはすべて同じ。それがプロシージャルジェネレーション(手続き型生成)の問題点です。特異なものを作り出すことはできません」。これに対して、AIは「完全に特異で、毎回違うものを作る」ことができる。

Latitude CEOのニック・ウォルトン氏(画像クレジット:Latitude)

ビジネスの観点からは、これによりAAAゲームの開発コストを、現在の1億ドル(約105億円)以上から10万ドル(1050万円)以下に引き下げることが可能になると、ウォルトン氏は述べているが、まだLatitudeはグラフィックを使ったゲームをリリースしていないので、そのレベルに到達するには長い道のりがある。ウォルトン氏はまた、これが新たなレベルの没入感とインタラクティブ性につながる可能性があると語る。

「この技術を使えば、何万ものキャラクターがそれぞれの希望や願望、夢を持っている世界を作ることが可能です」と彼は語る。「World of Warcraft」のような、1000万人が同じクエストに参加しているような世界ではなく、ダイナミックで生き生きとした世界を実現できます」。

Latitudeの今回の資金調達は、NFXが主導し、Album VC(アルバムVC)とGriffin Gaming Partners(グリフィン・ゲーミング・パートナーズ)が参加した。

NFXのJames Currier(ジェームス・カーリア)氏は声明の中で、「Latitudeはゲームの作り方に革命を起こし、AIを燃料としてまったく新しいジャンルのエンターテインメントゲームを制作しています」と述べている。「世界がかつて見たことのないようなゲームを生み出すために、最高のAIの知性とエンジニアが集結しています。すでにLatitudeは圧倒的なAIゲームのリーディングカンパニーです」。

カテゴリー:人工知能・AI
タグ:Latitude資金調達ゲームOpens AI

画像クレジット:aurielaki / Getty Images

原文へ

(文:Anthony Ha、翻訳:Hirokazu Kusakabe)

OpenAIのDALL-Eは言葉による指示で「それらしい」画像を作り出す

OpenAI(オープンエーアイ)の奇妙ながら興味が惹かれる最新作はDALL-E(ダリー)だ(OpenAIリリース)。ざっくりいえば「GPT-3の画像版」といったところ。「蝶ネクタイをしたネコ」やら「チュチュを着て犬を散歩させる大根」など、わかりやすい言葉で表現できるものなら何でも、イラスト、写真、レンダリングといったお望みの手法で描き出してくれる。とはいえ、写真素材サービスやイラストの死亡記事を書くのはまだ早い。

例によって、OpenAIの新発明の解説は平易で、技術的になり過ぎるところがない。ただし、少々文脈を整理しながら読む努力は必要だ。

彼らがGPT-3で作り出したものは、お題をもらってそれに応じた内容の話を組み立てるAIだ。たとえば「森の中で魔女に出会った子どもの物語」といえば、それなりの物語を作り出す。もう一度ボタンを押せば、別のかたちで書き直す。それを何度でも繰り返せる。

その試行の中から、良いものが生まれることがある。辻褄が合わない話もあれば、人間が書いたものと見分けがつかないような話もあったりする。だが、まったく意味の通らないものや文法的に間違ったものはないため、いろいろな用途に応用できる可能性がある。現在、数多くのスタートアップや研究者たちが、その利用法を模索中だ。

DALL-E(ダリとウォーリーをかけ合わせた名前)は、それを一歩進めたものだ。文章から画像への変換は、長年にわたりさまざまなAIエージェントで試されてきた。程度の差こそあれ、着実に成功率を高めている。このエージェントの場合は、GPT-3から提供された言語理解と文脈、それに与えられた指示に従ったもっともらしい画像を生成する基本構造を利用している。

OpenAIはこう解説している。

GPT-3は、大規模ニューラルネットワークにさまざまな文章生成タスクの実行を指示する役割を、言語が担えることを証明した。画像GPTは、同じ種類のニューラルネットワークを、高忠実度の画像生成に利用できることを示した。私たちはこの2つの発見を発展させ、言語を用いた視覚的概念の操作がすでに手の届くところにあることを証明しようと考えた。

つまり、この種の画像生成器は、自然で簡単な指示で何をすべきかを伝えるだけで操作できるようになる、と彼らは話しているのだ。もちろん、脳のニューロンに刺激を与えるように、システムの内部を深く探り、色を示すトークンを特定して、その経路を解析して起動し、色を変更するという方法もある。だが、社内のイラストレーターに緑ではなく青系の絵を製作してほしいときには、絶対にそんなことはしない。ただ「緑のクルマ」ではなく「青いクルマで」というだけで済む。

DALL-Eにはそれができる。簡単な指示をよく理解して、大きく間違えることは滅多にない。もっとも、何百何千回と試みた中から最高のものを取り出したとしても、ちょっと……どころかずい分ズレてるといわなければならないが。後になるほどズレてくる。

OpenAIの記事では、同じ内容でも少しだけ違う指示に対してシステムがどう反応するかを、大量のインタラクティブな実例で示している。結果は納得できるものであり、ほぼ上々の仕上がりとなる。だが実は、こうしたシステムには大変に脆い一面がある。DALL-Eもある意味そうだと研究者たちは認めている。たとえば「五角形をした緑の革の財布」と指示をして期待どおりのものが作られることもあれば、「五角形をした青いスエードの財布」になることもあり、研究者は悪夢にうなされる。なぜか?これらのシステムは基本的にブラックボックスであるため、説明は難しい。

画像クレジット:OpenAI

しかし、DALL-Eはそうした変化に驚くほど強い。何を指示しても、かなり近いものを作る安定感がある。ドーナッツ型のワカモレ、シマウマ柄の球、小さな赤い積み木の上に乗った大きな青い積み木、ハッピーなカピバラの正面図、悲しいカピバラの等角図などなど。みなさんもサイトで自由に試すことができる。

またDALL-Eは、予期しないしかし便利な能力も示している。たとえば、まったく同じ(実在しない)ネコのスケッチを何枚も描けという指示を理解するために、直感的な論理を使い、オリジナルを上、スケッチを下に表示した。特別なプログラミングはしていない。「このような能力が生まれるとは予想していませんでした。ニューラルネットワークに変更を加えたり、そうするようトレーニング手順を変えたこともありません」とのこと。素晴らしい。

おもしろいことに、OpenAIのもうひとつの新システムCLIPは、DALL-Eと合わせて使うことで、与えられた画像の理解とランクづけを行っていた。かなり技術的で理解が難しい話なのだが。CLIPの詳細はこちらをどうぞ(OpenAIサイト)。

この能力が示唆するものは、多岐にわたる。OpenAIでは次のように述べているが、あまりに多くて奥が深いので、ここでは触れないでおく。

将来、DALL-Eのようなモデルが、特定の作業手順や職業における経済的影響といった社会問題にどう対処できるか、モデルの出力に偏向がないか、そして長期的にはこの技術が暗示する倫理的課題について分析したいと考えている。

現在は、GPT-3と同様、この技術は驚異でありながら、難し過ぎて、これに関連する明確な将来予測は立てづらい。

もっともこれが生み出す作品の中に、本当の意味で「仕上がった」と感じさせるものはほとんどない。つまり、私が今後書く予定の記事のトップを飾る画像として無修正でそのまま使える作品を作れと、これに命令する気にはなれないということだ。ちょっと見ただけでもAI的キテレツさがぼろぼろ出てくる。ここはJanelle Shane(ジャネル・シェイン)の十八番だが。やがてその粗削りな部分はスッキリ磨かれるようになるだろうが、それでも安心はできない。GPT-3の文章を、編集を一切加えずに人が書いた作品と入れ替えることが不可能であるのと同じだ。

たくさん作らせて、いいものを拾い出すという方法がいいようだ。下の図がそれを示している。

作成総数Xの中から良いものを8つ選んでいる。右に行くほど作成数が増える(画像クレジット:OpenAI)

だがそれは、OpenAIのこの業績を貶めるものではない。飛び抜けておもしろく力強い成果だ。同社の他のプロジェクトと同じく、近いうちに、もっとずば抜けた面白いものに発展することは間違いない。

関連記事:OpenAIがテキストベースのAI機能利用が簡単になる汎用APIを開発

カテゴリー:人工知能・AI
タグ:OpenAI

画像クレジット:OpenAI

原文へ

(翻訳:金井哲夫)