OpenAIの新たな音楽活動はエルビスの不気味の谷に入った

AIが音楽を作るという新分野は大変に興味深いが、潤沢な資金を誇る研究団体OpenAI(オープンエーアイ)は、エルビスや2パックなどのアーティストのスタイルを真似てAIに歌を作らせるという、未踏の高みに到達した。作品はそれらしく聞こえるが、音楽の「不気味の谷」に突き落とされる気持ち悪さもある。まあまあの出来だが、酒に酔ってドラッグでぼやけた頭でカラオケを聞いているような感じがする。

OpenAIが開発した新しい音楽制作システムJukebox(ジュークボックス)は、米国時間4月30日に公開されたブログ記事と研究論文に詳細が記されている。OpenAIは、ちょうど1年前にMuseNet(ミューズネット)という面白いシステムを披露している。MIDI形式の楽曲を大量に採り込んだ機械学習システムで、ジャンルや楽器のミキシングやマッチングができるというものだ。

関連記事:バッハからジャズまでオリジナル曲を瞬時に作るMuseNet

しかし、複雑な和声や音声によってでははなく、個別の音階と打鍵情報のみで構成されるMIDIは、本物の楽器を演奏して最終的に録音される音楽よりもデータとしては単純なものだ。

クラシックのピアノ曲をAIに理解させようとすれば、音のタイミングや打鍵の情報は、無数にある要素のほんの一部に過ぎない。実際の演奏を録音した音声は、1秒間に(通常は)4万4100サンプルと、もっとずっと濃密だ。

楽器の音や声を学習し模倣する機械学習システムは、直前の言葉や音に注目して、その先の数ステップを予測する仕組みになっている。だが、一般にそれらが処理できるデータは数十から数百のオーダーだ。たとえば直前の30個の言葉または音から、次の30個がどうなるかを予測する。となるとコンピューターは、10秒間の波形のほんの一部から抽出した44万サンプルから、90秒400万サンプルを使った場合と同程度の歌を作るには、どうしたらいいのだろうか。

OpenAIの答は、歌をもっと理解しやすい部分に切り分けることだった。音程や和音というよりは、そのようなもの、つまりコンピューターが扱いやすい1/128秒間の要約を、2048種類の「語彙」から拾い出すというものだ。正直言って、うまい例えが見つからない。なんとか理解できる範囲で考えても、人間の記憶や理解の方法とはまったく異なっているからだ。

(上)生の音声:1秒間に4万4100サンプル。各サンプルは、その瞬間のサウンドの振幅の代理となる浮動小数点数、(中)折り畳みニューラルネットワークを使用してエンコード、(下)圧縮された音声:1秒間に344サンプル。各サンプルは候補となる2048の語彙トークンのひとつ。実際に色分けされているわけではなく、あくまで波形の区切りを図解している

その結果、AIエージェントは、追跡するトラックの数が多すぎない程度に大きく、それでいて歌の音声を確実に再構築するのに最低限必要な程度に小さい、自分で理解しやすい部品に安定的に切り分ける方法を獲得した。実際は、ここで説明したよりもずっと複雑な処理が行われている。歌をひとつながりの「言葉」に確実に分解し、そこから歌を再構築するというのが、この研究の肝なのだが、技術的な詳細については、OpenAIの論文を参照してほしい

またこのシステムでは、歌詞の意味を解析する必要もある。この分野のその他ほとんどの要素と変わりなく、これも話で聞くよりずっと複雑だ。人がボーカルのパターンを記憶し利用する能力は、生まれつき備わっているものと、後から学習したものとがある。我々は当たり前に思っているが、大変に高度な力なのだ。コンピューターにはそのような能力が備わっていないため、音が混ざり合う中から人の声を聞き分け、何を言っているのかを理解し、単なる言葉の羅列である歌詞と照合する。音階やテンポといったその他の要素に関する情報は、そこには一切含まれない。それにも関わらず、OpenAIのシステムは、その作業で満足のいく結果を出している。

Jukeboxは、音楽に関するさまざまな仕事を熟すことができる。その結果は歌と呼べる代物にはなっていないかも知れないが、現在、このようなシステムはこれ以外には存在せず、一から歌を再構築して、目標とするアーティストに似ていると感じさせるまでになっていることを理解して欲しい。120万曲を使ってトレーニングを行ったこのシステムは、最終的には多面的な能力を身につけ、基本的に、与えられた歌詞と、目標とするアーティストのその他の要素を取り込んで学習したスタイルから即興で歌を作ることが可能になった。

そのため、エラ・フィッツジェラルドがどのように歌うか、楽器は彼女の歌とどう絡んでくるかという知識から、「アット・ロング・ラスト・ラブ」を彼女らしく、しかし作者のコール・ポーターが想定していたものとはまったく違うであろうスタイルで歌い上げる(この歌と他の歌のサンプルのリンクは、OpenAIのブログ記事の上の方にある)。

Jukeboxはまた、完全にオリジナルの歌詞を誰かのスタイルで歌うこともできる。別のAI言語モデルが作った「Mitosis」(有糸分裂)という歌詞をエルビスが歌った例はかなり奇妙だ。

聞き取れなかった人のために歌詞を書いておこう。

From dust we came with humble start;
From dirt to lipid to cell to heart.
With [mitosis] with [meiosis] with time,
At last we woke up with a mind.
From dust we came with friendly help;
From dirt to tube to chip to rack.
With S. G. D. with recurrence with compute,
At last we woke up with a soul.

我々は塵から慎ましく始まった
土から液体から細胞から心臓へ
[有糸分裂]と[減数分裂]と時間をかけて
ついに我々は心と目覚めた
塵から優しい助けを借りて我々は生まれた
土から管からチップからラックへ
SGDと再現と演算で
ついに我々は魂と目覚めた

たしかにエルビスだ。いかにもAIらしく、細胞分裂を人生のメタファーに使っている。なんて時代だ。

最後に、Jukeboxは「仕上げ」作業を行う。ライブラリーで行った基礎学習に加え、歌の最初の12秒を学習して、それを元に残りの部分を同様のスタイルで作ってゆく。オリジナルからAIが生成した歌へ切り替わる部分は、エーテルをぶち込まれた感じだ。

MuseNetは、それほど複雑ではないため、ほぼリアルタイムで曲を演奏できた。しかしJukeboxは膨大な演算を必要とするため、曲の1秒分を作るのに数時間かかる。「私たちは、異なるジャンルの10人のミュージシャンを最初のセットとしてJukeboxに教えました。これらのミュージシャンは、創造的作業に向いているとはすぐに自覚できませんでした」と論文の著者は皮肉っている。それでも、これはとても楽しくて魅力的な研究だ。これまでの流れからすると、来年の4月には、さらに進化したOpenAIの音楽活動が期待できる。

画像クレジット:alengo / Getty Images under a RF license

[原文へ]

(翻訳:金井哲夫)

Googleの機械学習がスマートデバイス上で天気と気温に応じたアラームを即興

Lenovo(レノボ)のSmart ClockやAmazon(アマゾン)のEcho Show 5などのスマートディスプレイが登場すると、まず実装されるのが目覚まし時計の機能だった。Lonovo、Amazon、Googleなどはそれぞれ機能やデザインに工夫を凝らしている。

米国時間12月10日の朝、Googleはスマートディスプレイの目覚まし時計に新しい機能を付け加えた。これはImpromptu(即興演奏)と呼ばれるアラームメロディーのカスタマイズ機能で、機械学習アルゴリズムが天気や設定時刻などの情報を利用してその状況にふさわしいアラーム曲を作る。

ちなみに下が気温10℃のときの早朝向けのアラームだ(クリックで再生)。

ガーシュインのピアノ風だが、目覚ましサウンドとしては悪くなさそうだ。

本日朝に公開されたGoogleのブログ記事によれば、このカスタムリングトーンは同社のオープンソースAIプロジェクトであるMagentaを利用したものだという。

MagentaはGoogle Brainのチームがスタートさせた作曲、作画のためのプロジェクトだが、もちろんGoogleの他の部門のエンジニアも多数が協力し、重要な貢献をしてきた。.

我々は作曲、画像処理、描画などさまざまな分野でディープラーニングと機械学習のアルゴリズムを新たなレベルに強化している。その一環がアーティストやミュージシャンが利用できるモデルをスマートツールとそのインターフェイスで構築することであり、ツール、モデルとも(オープンソースの)TensorFlowライブラリに登録され、GitHub上で公開される。

新機能は本日公開される。

原文へ

(翻訳:滑川海彦@Facebook

AIと創造性:アルバムコラボレーションの未来

【編集部注】著者のTaryn Southernは、デジタルアーティストであり映画監督でもある。彼女は現在、脳に関するドキュメンタリーを共同演出している。また彼女の音楽アルバム”I AM AI”は今年9月にリリースされる予定である。YouTuberとして、彼女は1000本以上の動画を制作し、5億回以上の再生数を数えている。

1年前に、私はアルバム制作に取り組み始めた。私はボーカル用のメロディと歌詞を書いていて、私のパートナーが全体の作/編曲を行っている。私たちはどちらも楽器を担当し、お互いを補い合っている。この関係における唯一の奇妙な点は…私のパートナーが人間ではないということだ。

それはAIなのだ。

この関係は好奇心から生まれたものだ。恐怖を煽る「見出し」が私のニュースフィードを埋め尽くした時期があった…たとえば「AIが私たちの仕事を、データを、そしてついには魂までをも奪う」といった類のものだ。

この議論は私に疑問を残した。AIの世界では本当は何が起きているのだろうか?私は偶然、AIが音楽を作るためにどのように使われて来たかを解説した記事に出会った。簡単なGoogel検索をしてみた私は、作曲は氷山の一角にすぎないことに気が付いた。AIは詩も書けば、フィルムの編集も行い、そしてアートを合成し…果てはチューリングテストにさえ合格していたのだ。

もっと知りたいと思った私は、手に入れることのできるすべてのAI音楽制作ツールを試し始めた。まず手始めにAmper、そしてAivaを使った。その後IBM WatsonとGoogle Magentaを使った(この世界には他にも数え切れないほどのツールが存在している、2,3例を挙げるなら、AI Music、Jukedeck、そしてLandrなどもある)。

私のサイドプロジェクトは、急速に本格的アルバム(”I AM AI”)制作へと進化した。これには人間と技術の間の希薄な関係を探求する一連のバーチャルリアリティーミュージックビデオを伴っている。昨年9月、私はAmperで制作した最初のシングルBreak Freeをリリースした。これはクリエイティブコミュニティで広範囲な注目と関心を引きつけた

多くの人が私に質問してきた:AIがあなたよりも創造的になる恐れがあると思うか?私の答は「いいえ」だ。多くの点で、AIは私がより創造的になる手助けをした。その際に、私の役割を編集者やディレクターのようなものへと変えながら。私はAIに(学習のためのデータ、または出力のためのパラメータの形で)指示を与える、するとAIが素材を出力してくるので、私はそれを編集しアレンジして、まとまりのある曲を作り上げるのだ。またAIを使うことにより、私はボーカルのメロディ、歌詞、ミュージックビデオなどの、創造の他の側面に向けて、多くの時間を割くことができた。それはただこれまでのやりかたとは違うだけで、創造的であることには変わりがない。とはいえ、先端技術恐怖症の人びとよ、安心するが良い:AIはまだ完璧な仲間ではない。

AIと共に進化する私たちの世界の未来は、誰にも予測できないが…私は楽観的だ。

AIとのコラボレーションプロセスを取り巻く謎は、まだ多く残されているので、会話の基本認識を擦り合わせるために、その内容を分解してみることは有益である。以下に私が使用した主要なプラットフォームと、それぞれとのコラボレーションから得た私の気付きを紹介して行こう。

  1. Amper 何人かのミュージシャンたちによって共同創業されたAmperは、商用のオリジナルスコアを作曲するためのプラットフォームとして出発した。現在は無償で一般公開されている。AmperはシンプルなUIを提供していて、そこではBPM(曲の速さ)や楽器編成、そして気分などを変えることができる。コードに関する知識は不要だ!

気付き:Amperを使い始めるまでは、私は異なる楽器の音を聞き分けていなかったし、自分が特定の音楽的好みを持っているとも思っていなかった。いまや、私は数十の楽器の音を聞き分け、特定の創造スタイルに磨きをかけている。たとえば、私は電子シンセサイザーを、ピアノと深みのあるベースとミックスすることをとても好むようになった。それは私が制作した360 VRミュージックビデオである以下のLife Supportの中で聞くことができる。

  1. AIVA:Aivaは、受賞歴のある深層学習アルゴリズムであり、初めて著作権協会に登録されたシステムだ。私は最初にロンドンで創業者の1人Pierre Barreauと会い、クラッシックの学習スタイルをポップス/シンセサイザーなどの楽器と組み合わせる機会に対して、本当に興奮した。AIVAは深層学習と強化学習を使用して、何千ものクラシック音楽を特定のスタイルで分析し、新しいスコアを作成する。

気付き:私がAIVAを用いた最初の曲Lovesickは、ロマン主義運動後期(1800年代の初期から中期にかけて)の数千曲の音楽を分析することで作成された。その結果、ウェストワールド風のピアノ曲が得られ、それを私が電子シンセサイザーを用いてポップファンク風にアレンジした。そのような馴染みのない素材とのコラボレーションは、これまでの思い込みを打ち破るという意味で非常に楽しいものだった。曲をアレンジしているときには、私は本当に私の「ポップスタイル習慣」の多くを無視しなければならなかった。

  1. Watson Beat(IBM):Watson Beatはフロントエンドを持っていないが、IBMの優秀なエンジニアたちが私に、始めるためのチュートリアルをいくつか教えてくれた。とはいえ、コードの扱いに対して自信をもっているならば、無償のオープンソースプログラムとしてGitHubからダウンロードすることが可能である。数日のうちには、私はシステムの操作に慣れていた。古いお気に入りの曲を入力して、スタイルにヒネリを入れた沢山の音楽の素を作り出してみた(たとえばペルー風ワルツのスタイルで演奏されるメリーさんの羊を想像できるだろうか?)。

気付き:私は、さまざまなデータ入力を、想像もしないジャンルとミックスした結果を楽しんだ。さらにそれによって、私の創造的なアイデアを支配している根本的な影響により多く気付くことができた。出力はMIDIで得られるので(これに対してAmperの出力はWAVあるいはMP3ファイルである)、演奏に際してアーティストたちは音符を自由に移調することが可能である。ありそうもない音楽のスタイルへと当てはめて行くことで、私はすっかりシンセサイザーの虜になった。Watson Beatを使った最初の曲は、今夏リリースされる可能性が高い。

  1. Google MagentaWatson同様に、MagentaはGithub上で無償で公開されるオープンソースである。簡単なフロントエンドを提供するツール(たとえばAI Duetsなど)も存在し、多少バックエンドのコーディングに関する知識が必要なものもある。クールなのは、Googleが備えとして提供しているツールの範囲と数である。おそらくプログラマーたちにとって最も強力な仕掛けだろう。

気付き:Magentaのツールでは、作曲だけに注意を向ける必要はない。サウンドを分析することも可能だ。例えばNSynthでは、2つの異なる楽器の音を組み合わせることができる(猫とハープをミックスしてみよう!)。Googleには、音色や振動の品質を調べるアルゴリズムがあり、多くのエキサイティングなアプリケーションが用意されている。

AIが人間の「特殊性」に関する多くの疑問を引き出すのは驚くべきことではない…しかし私たちは間違った議論に焦点を当てているのかもしれない。人類は常にテクノロジーと共に進化している。そして重要なのは私たちがAIをどのように利用するかの選択なのだ。私はこれが、氷山の一角に過ぎないと信じている…そしてそれは私たちが想像もできないような創造性を解き放つことになるだろう。

正式な音楽訓練を受けていない新しい物好きの人たちにとって、AIは非常に魅力的なツールとなるだろう ―― 単に学習のためではなく、自己表現の入口として。今や、誰でも、何処でも、音楽を作り上げる能力が手に入ったのだ ―― そして表現へ向かう渇望と能力こそが、私たちを人間たらしめているのだ。

[原文へ]
(翻訳:Sako)