OpenAIの新たな音楽活動はエルビスの不気味の谷に入った

AIが音楽を作るという新分野は大変に興味深いが、潤沢な資金を誇る研究団体OpenAI(オープンエーアイ)は、エルビスや2パックなどのアーティストのスタイルを真似てAIに歌を作らせるという、未踏の高みに到達した。作品はそれらしく聞こえるが、音楽の「不気味の谷」に突き落とされる気持ち悪さもある。まあまあの出来だが、酒に酔ってドラッグでぼやけた頭でカラオケを聞いているような感じがする。

OpenAIが開発した新しい音楽制作システムJukebox(ジュークボックス)は、米国時間4月30日に公開されたブログ記事と研究論文に詳細が記されている。OpenAIは、ちょうど1年前にMuseNet(ミューズネット)という面白いシステムを披露している。MIDI形式の楽曲を大量に採り込んだ機械学習システムで、ジャンルや楽器のミキシングやマッチングができるというものだ。

関連記事:バッハからジャズまでオリジナル曲を瞬時に作るMuseNet

しかし、複雑な和声や音声によってでははなく、個別の音階と打鍵情報のみで構成されるMIDIは、本物の楽器を演奏して最終的に録音される音楽よりもデータとしては単純なものだ。

クラシックのピアノ曲をAIに理解させようとすれば、音のタイミングや打鍵の情報は、無数にある要素のほんの一部に過ぎない。実際の演奏を録音した音声は、1秒間に(通常は)4万4100サンプルと、もっとずっと濃密だ。

楽器の音や声を学習し模倣する機械学習システムは、直前の言葉や音に注目して、その先の数ステップを予測する仕組みになっている。だが、一般にそれらが処理できるデータは数十から数百のオーダーだ。たとえば直前の30個の言葉または音から、次の30個がどうなるかを予測する。となるとコンピューターは、10秒間の波形のほんの一部から抽出した44万サンプルから、90秒400万サンプルを使った場合と同程度の歌を作るには、どうしたらいいのだろうか。

OpenAIの答は、歌をもっと理解しやすい部分に切り分けることだった。音程や和音というよりは、そのようなもの、つまりコンピューターが扱いやすい1/128秒間の要約を、2048種類の「語彙」から拾い出すというものだ。正直言って、うまい例えが見つからない。なんとか理解できる範囲で考えても、人間の記憶や理解の方法とはまったく異なっているからだ。

(上)生の音声:1秒間に4万4100サンプル。各サンプルは、その瞬間のサウンドの振幅の代理となる浮動小数点数、(中)折り畳みニューラルネットワークを使用してエンコード、(下)圧縮された音声:1秒間に344サンプル。各サンプルは候補となる2048の語彙トークンのひとつ。実際に色分けされているわけではなく、あくまで波形の区切りを図解している

その結果、AIエージェントは、追跡するトラックの数が多すぎない程度に大きく、それでいて歌の音声を確実に再構築するのに最低限必要な程度に小さい、自分で理解しやすい部品に安定的に切り分ける方法を獲得した。実際は、ここで説明したよりもずっと複雑な処理が行われている。歌をひとつながりの「言葉」に確実に分解し、そこから歌を再構築するというのが、この研究の肝なのだが、技術的な詳細については、OpenAIの論文を参照してほしい

またこのシステムでは、歌詞の意味を解析する必要もある。この分野のその他ほとんどの要素と変わりなく、これも話で聞くよりずっと複雑だ。人がボーカルのパターンを記憶し利用する能力は、生まれつき備わっているものと、後から学習したものとがある。我々は当たり前に思っているが、大変に高度な力なのだ。コンピューターにはそのような能力が備わっていないため、音が混ざり合う中から人の声を聞き分け、何を言っているのかを理解し、単なる言葉の羅列である歌詞と照合する。音階やテンポといったその他の要素に関する情報は、そこには一切含まれない。それにも関わらず、OpenAIのシステムは、その作業で満足のいく結果を出している。

Jukeboxは、音楽に関するさまざまな仕事を熟すことができる。その結果は歌と呼べる代物にはなっていないかも知れないが、現在、このようなシステムはこれ以外には存在せず、一から歌を再構築して、目標とするアーティストに似ていると感じさせるまでになっていることを理解して欲しい。120万曲を使ってトレーニングを行ったこのシステムは、最終的には多面的な能力を身につけ、基本的に、与えられた歌詞と、目標とするアーティストのその他の要素を取り込んで学習したスタイルから即興で歌を作ることが可能になった。

そのため、エラ・フィッツジェラルドがどのように歌うか、楽器は彼女の歌とどう絡んでくるかという知識から、「アット・ロング・ラスト・ラブ」を彼女らしく、しかし作者のコール・ポーターが想定していたものとはまったく違うであろうスタイルで歌い上げる(この歌と他の歌のサンプルのリンクは、OpenAIのブログ記事の上の方にある)。

Jukeboxはまた、完全にオリジナルの歌詞を誰かのスタイルで歌うこともできる。別のAI言語モデルが作った「Mitosis」(有糸分裂)という歌詞をエルビスが歌った例はかなり奇妙だ。

聞き取れなかった人のために歌詞を書いておこう。

From dust we came with humble start;
From dirt to lipid to cell to heart.
With [mitosis] with [meiosis] with time,
At last we woke up with a mind.
From dust we came with friendly help;
From dirt to tube to chip to rack.
With S. G. D. with recurrence with compute,
At last we woke up with a soul.

我々は塵から慎ましく始まった
土から液体から細胞から心臓へ
[有糸分裂]と[減数分裂]と時間をかけて
ついに我々は心と目覚めた
塵から優しい助けを借りて我々は生まれた
土から管からチップからラックへ
SGDと再現と演算で
ついに我々は魂と目覚めた

たしかにエルビスだ。いかにもAIらしく、細胞分裂を人生のメタファーに使っている。なんて時代だ。

最後に、Jukeboxは「仕上げ」作業を行う。ライブラリーで行った基礎学習に加え、歌の最初の12秒を学習して、それを元に残りの部分を同様のスタイルで作ってゆく。オリジナルからAIが生成した歌へ切り替わる部分は、エーテルをぶち込まれた感じだ。

MuseNetは、それほど複雑ではないため、ほぼリアルタイムで曲を演奏できた。しかしJukeboxは膨大な演算を必要とするため、曲の1秒分を作るのに数時間かかる。「私たちは、異なるジャンルの10人のミュージシャンを最初のセットとしてJukeboxに教えました。これらのミュージシャンは、創造的作業に向いているとはすぐに自覚できませんでした」と論文の著者は皮肉っている。それでも、これはとても楽しくて魅力的な研究だ。これまでの流れからすると、来年の4月には、さらに進化したOpenAIの音楽活動が期待できる。

画像クレジット:alengo / Getty Images under a RF license

[原文へ]

(翻訳:金井哲夫)

投稿者:

TechCrunch Japan

TechCrunchは2005年にシリコンバレーでスタートし、スタートアップ企業の紹介やインターネットの新しいプロダクトのレビュー、そして業界の重要なニュースを扱うテクノロジーメディアとして成長してきました。現在、米国を始め、欧州、アジア地域のテクノロジー業界の話題をカバーしています。そして、米国では2010年9月に世界的なオンラインメディア企業のAOLの傘下となりその運営が続けられています。 日本では2006年6月から翻訳版となるTechCrunch Japanが産声を上げてスタートしています。その後、日本でのオリジナル記事の投稿やイベントなどを開催しています。なお、TechCrunch Japanも2011年4月1日より米国と同様に米AOLの日本法人AOLオンライン・ジャパンにより運営されています。