音楽生成AIの現状と可能性

ここ10年間の自分の活動を振り返ると、その共通点としてデータ・AI技術の活用方法を見出すことに多くの時間を費やしてきました。AIを使った情報キュレーションやら、流通業における需要予測、金融機関における与信、営業先のターゲティング、などなど、枚挙にいとまがないとはこのこと。機械学習の技術の発展は止まるところなく進んでいて、使いみちを考えるのはますます重要な役目になっていると感じます。

とは言うものの、AI活用を見たときに、産業応用のユースケースとそれ以外には大きな傾向の違いがあります。企業において大きなインパクトを出しているのは多くの場合データベースに溜まった構造化データを従来型の(深層学習ではない)機械学習でモデル化し、予測を行うパターンです。第三期AIブームの火付け役となった深層学習は、特に画像やテキストなどの非構造化データを得意とし、2022年に入ってからはテキストから画像生成を行う技術(Dall-e2Midjourney)などが目覚ましい進化を遂げてきましたが、事業インパクトを生み出すようなユースケースがどれくらい生まれているかと言うと、技術のインパクトに見合う面白い使い方が生まれてほしいと思います。

もちろん深層学習(DL)はすでに身近なところで使われています。画像認識技術を使った監視などは物議を醸しているものの、すでに広く実用化されています。英語の苦手な日本人に限らず、DeepLなどのAI翻訳は多くの人が日常的に活用していますし、後述のホワイトペーパーも英語版の執筆時には一次翻訳で自動翻訳のお世話になり、大変な工数削減に繋がりました。産業応用に関しても今年のAI Expoなどでは画像認識モデルを応用した外観検査などのソリューションが多く見られましたし、今後ますます進展が見られることは間違いないでしょう。企業でのDL活用が一番進んでるテーマとしてはチャットボットがあると思いますが、正直これに関してはがっかりさせられることの方が多いですね。

そんな中で、音や音楽に関するAI技術の発展やその活用方法については世間の関心が一段弱いと感じます。ビジュアルが先行しがちなオンライン上での話題形成の煽りを受けて、そもそも音楽というメディアの面白さが少し時代の流れから取り残されている感もあります。QosmoでアートにおけるAIの活用を進めているのは、そんな状況の中でも音楽や音に関連したAI技術がどのように活路を見いだせるのかに私自身強い関心があるからです。今年の春にはそれまでのリサーチの成果として「音楽生成AIの現状と可能性」というホワイトペーパーを執筆・リリースし、たくさんの反響を頂きました。まえがきから引用します:

AI応用範囲は近年急速に広がっており、絵画、文学、音楽、ダンスなどの創造的活動にも影響を与え始めています。特に視覚芸術においては、深層学習技術を応用した敵対的生成ネットワークによる絵画の生成が大きな進歩をもたらし、生成された作品がオークションで高額落札されるに至りました。本ホワイトペーパーではそのようなクリエイティビティー領域におけるAIの技術発展において、特に音楽分野に焦点を当てます。画像や文章の生成に比べると比較的話題に上がることの少ない本分野ですが、近年の深層学習技術の発展の恩恵を受け大きな変化が起こりつつある注目の領域です。本ホワイトペーパーでは音楽分野のAI活用を社会実装の観点から、その技術動向はもちろん、ビジネスへの応用や社会への影響も合わせて考察します。

直近の技術トレンドとして重要ポイントをいくつか整理すると:

  • GPT-3などでテキスト生成において大きな成果を出したTransformerの手法が音楽においても大きな成果を出している。時間的序列を根っこに持つ性質上、音楽とテキストはモデリング技術の類似点が多い。これまでRNNなどでは比較的反復の多いダンスミュージックのような音楽の生成はかなり進んでいたものの、イントロやサビなどの構造を持ついわゆるポップソング的な音楽も生成できる様になってきた
  • ほとんどの音楽生成はMIDIという符号レベルでの生成、つまり楽譜を生成しているようなもの。これを可聴音にするにはシンセサイザーなどの音源に繋ぐ必要があるけれど、出力音はシンセサイザーの割当や質に大きく影響される。可聴オーディオ信号を直接生成する技術はまだ黎明期にあり、単音やパターンの生成のレベル。OpenAIのJukeboxはこれに対する数少ない例外ではあるものの、自由自在と言うには程遠く、生成できる音楽のスタイルは限られているし、生成には長い時間がかかる。
  • 音の生成技術には2021年に大きな進展があり、入力音をリアルタイムで別音に変換するなどの技術が実現できるようになってきた。画像で言うところのスタイル変換(この絵をゴッホ風にして)に類似するような技術だが、音楽パフォーマンスでの応用などの道が積極的に模索されている(QosmoでもNeutoneというプロダクトを開発し、これを推進している)

音楽生成に限らず音楽・サウンドの分野での産業寄りの応用例を見ていくとすでに下記のようなことはすでに製品化レベルで実現されている:

  • 楽曲を自動的にメタタグ付けする:BPM、ジャンル、楽器、好みなどなど
  • 類似・同一の楽曲を短時間で検索する
  • プレイリストの自動生成や好みに合った楽曲のレコメンデーション
  • 音源分離:アンサンブル演奏の録音から、それぞれの楽器音を分離・抽出する
  • コンテンツに合わせたBGM生成:ビデオコンテンツの尺や盛り上がりポイントに合わせ、BGMを生成する
  • 集中力を高める、睡眠の質をあげる、などの効果を持った音楽の自動生成

などなど、正直まだできることよりもできないことのほうが圧倒的に多いし、その分今後の活用分野の開拓には大きなポテンシャルがある。私自身まだここには書けないけれど面白いアイディアがいくつもあって、取り組みを進めている。一つヒントを言うとすると、上記一番最後に書いた機能的音楽にも関連し、「音楽」という枠組みのパラダイムシフトが起こりつつある。このユースケースのサービス例として、Endelというサービスは音楽を半永久的に生成し続けるという点において、これまでの「楽曲」という概念を変えている。Endelはアプリを軸に展開しているが、YouTube上でも永遠に流れ続ける(しかも同じパターンの繰り返しではない)音楽をストリーミングしている。

また、まだビジネス化はしていないようだけれど、最近出てきたAIMIというサービスなんかも、電子音楽アーティストとのコラボレーションを通じて、永遠に流れ続ける生成音楽を様々なスタイルで提供している。このブログ記事もAIMIを聞きながらここまで書いてたが、途中で曲が変わったり、さっき聞いたなという繰り返しとかがなく、集中力を高めるのに高い効果があるのを実感できる。

これをさらに推し進め、製薬企業などが音・音楽を使った治療の分野にも注目し始めている。この研究分野がAIと直接関係するかどうかはまだわからないけれど、音楽を使った治療の薬事認可なんていう新しい展開も今後起こりうるでしょう。

そんなわけで、音楽にもAIでこれから大きな変化がやってくるワクワクを少し文章に起こしてみました。音楽・サウンド関連AIの事業実装にご関心のある方はぜひお気軽にQosmoにコンタクトしてください。