AIツール

動画生成

FramePackに高速化ライブラリをインストールする

FramePackは、HunyuanVideoモデルをベースに開発された次世代の動画生成フレームワークで、低VRAM環境でも一貫性のある長尺動画を生成できます。ただし、動画生成には相応の処理時間がかかるため、効率的に動作させるための高速化ラ...
画像生成

HiDream-I1/E1の画像生成と品質の比較

HiDream-I1/E1は、HiDream.aiが開発したオープンソースの画像生成AIで、170億パラメータを誇り、高品質な画像を生成します。
3DCG

3D Gaussian Splattingの生成から出力までのワークフロー

3D Gaussian Splattingは、高速かつフォトリアルな3Dシーンを生成できる技術です。この記事では、その生成から出力までの手順と、使用するツールの使い方を紹介します。
音声合成

Ultimate Vocal Removerの使い方

Ultimate Vocal Remover (UVR) は、音声ファイルからボーカルや楽器の分離を行うためのオープンソースのAIツールです。ここでは、わかりやすいフローチャートとモデルの追加について紹介します。
音声合成

YuEのインストール方法と基本的な使い方

YuEは、音楽を自動生成するために開発された最先端のオープンソースAIモデルです。特に歌詞からフル楽曲を生成することに特化しており、ボーカルと伴奏を含む本格的な楽曲を数分間にわたって作り出すことができます。
3DCG

nerfstudioで試す3D再構築技術

nerfstudioは、NeRF (Neural Radiance Fields) の作成、トレーニング、テストを簡単に行うためのツールで、NeRFを基にした複数の手法が組み込まれており、それらを利用して効率的に3D再構築を行うことができま...
音声合成

Whisperで簡単・高精度な文字起こしを可能に

Whisperは汎用の音声認識モデルで、さまざまな音声データセットでトレーニングされています。多言語音声認識、音声翻訳、言語識別など、マルチタスクに対応しています。
3DCG

ComfyUI 3D Packを活用して3Dアセットを作成する

ComfyUI 3D Packは、画像や動画と同様に、3Dアセット生成を手軽かつ高品質に実現するノード群です。最新の3D技術やアルゴリズムを活用し、メッシュやUVテクスチャの処理をスムーズにサポートします。
音声合成

MMAudioで無音動画にオーディオを追加する

MMAudioは、動画と必要に応じてテキストを入力条件として、高品質で同期されたオーディオを生成できます。整合性の取れた高品質な音と映像の同期精度を実際にご覧ください。
動画生成

LTX-Videoを使ったテキスト&画像からの動画生成

LTX Videoは、高品質な動画を生成可能なDiTベースの動画生成モデルです。このモデルは、768x512の解像度で24FPSの動画を高速に生成でき、テキストからの動画生成および画像+テキストからの動画生成の両方に対応しています。