AIツール

FramePackに高速化ライブラリをインストールする

FramePackは、HunyuanVideoモデルをベースに開発された次世代の動画生成フレームワークで、低VRAM環境でも一貫性のある長尺動画を生成できます。ただし、動画生成には相応の処理時間がかかるため、効率的に動作させるための高速化ラ...

2025.05.10

動画生成

HiDream-I1/E1は、HiDream.aiが開発したオープンソースの画像生成AIで、170億パラメータを誇り、高品質な画像を生成します。

2025.04.27

画像生成

3D Gaussian Splattingは、高速かつフォトリアルな3Dシーンを生成できる技術です。この記事では、その生成から出力までの手順と、使用するツールの使い方を紹介します。

2025.02.20

3DCG

Ultimate Vocal Remover (UVR) は、音声ファイルからボーカルや楽器の分離を行うためのオープンソースのAIツールです。ここでは、わかりやすいフローチャートとモデルの追加について紹介します。

2025.02.14

音声合成

YuEは、音楽を自動生成するために開発された最先端のオープンソースAIモデルです。特に歌詞からフル楽曲を生成することに特化しており、ボーカルと伴奏を含む本格的な楽曲を数分間にわたって作り出すことができます。

2025.02.09

音声合成

nerfstudioは、NeRF (Neural Radiance Fields) の作成、トレーニング、テストを簡単に行うためのツールで、NeRFを基にした複数の手法が組み込まれており、それらを利用して効率的に3D再構築を行うことができま...

2025.01.30

3DCG

Whisperは汎用の音声認識モデルで、さまざまな音声データセットでトレーニングされています。多言語音声認識、音声翻訳、言語識別など、マルチタスクに対応しています。

2025.01.23

音声合成

ComfyUI 3D Packは、画像や動画と同様に、3Dアセット生成を手軽かつ高品質に実現するノード群です。最新の3D技術やアルゴリズムを活用し、メッシュやUVテクスチャの処理をスムーズにサポートします。

2025.01.16

3DCG

MMAudioは、動画と必要に応じてテキストを入力条件として、高品質で同期されたオーディオを生成できます。整合性の取れた高品質な音と映像の同期精度を実際にご覧ください。

2024.12.31

音声合成

LTX Videoは、高品質な動画を生成可能なDiTベースの動画生成モデルです。このモデルは、768x512の解像度で24FPSの動画を高速に生成でき、テキストからの動画生成および画像＋テキストからの動画生成の両方に対応しています。

2024.12.25

動画生成