MMAudioは、動画と必要に応じてテキストを入力条件として、高品質で同期されたオーディオを生成できます。整合性の取れた高品質な音と映像の同期精度を実際にご覧ください。
実行環境
推論には、約6GBのGPUメモリを搭載したグラフィックボードがあれば十分のようです。
インストール
MMAudioのインストールは、Pinokioを使用して行いました。
AIツールをローカルに簡単にインストールできるPinokioの使い方
AIツールのインストールで面倒な環境構築やインストール作業をワンクリックで行うことができるソフト (Pinokio) を紹介します。
Video-to-Audio
動画データから対応するオーディオを生成します。同期モジュールにより、生成された音が動画フレームと整合するように調整されます。
Prompt: galloping
Text-to-Audio
テキスト入力を基に、対応するオーディオを生成します。
Prompt: rain and thunder
Image-to-Audio (experimental)
画像データを基に、対応するオーディオを生成します。現在、実験的な機能として提供されています。
Prompt: なし