文章から画像を生成するAIが世界的に注目を集めている中、新たに文章から音楽を生成するAI「Riffusion」が開発され、Webから無料で誰でも音楽を作成することができるようになりました。
「Riffusion」は、画像生成AI「Stable Diffusion」のモデルを調整して開発されたtext-to-musicのオープンソース音楽生成AIで、Webアプリとして誰でも利用することができ、GitHubリポジトリにソースコードやモデルデータ情報が公開されています。
GitHub riffusion-app
▶︎https://github.com/hmartiro/riffusion-app
スペクトログラムを用いた音楽生成AI
Riffusionは、画像生成AIStable Diffusionを音の強さや周波数、時間を三次元のグラフに表したスペクトログラムの生成に利用している。
画像上は、Stable Diffusionで生成された画像「photograph of an astronaut riding a horse」で画像下はRiffusionで生成されたスペクトログラム「funk bassline with a jazzy saxophone solo」。
こうして、生成されたスペクトログラムをオーディオクリップに変換することで、入力したプロンプトの音楽を生み出すことができるという。
・上のスペクトログラムの例
▶︎funk bassline with a jazzy saxophone solo
Riffusionの使用方法はシンプルで、画面下にある入力欄にテキストを入力し、Enterを押すと音楽を出力してくれます。
入力したテキストが「UP NEXT」に入り、「UP NEXT」をクリックすると太字のところに入力したテキストが移動します。
画面左にスペクトログラムが表示されたら、右上の再生ボタンを押すことで音楽が再生されます。
Riffusionの詳細については、開発者チームによる解説が掲載されていますので、気になる方は下記リンクから確認してみてください。
Riffusion
▶︎https://www.riffusion.com/
Riffusion About
▶︎https://www.riffusion.com/about
ARTICLE