3DCG

3D Gaussian Splattingの生成から出力までのワークフロー

3D Gaussian Splattingは、高速かつフォトリアルな3Dシーンを生成できる技術です。この記事では、その生成から出力までの手順と、使用するツールの使い方を紹介します。
音声合成

Ultimate Vocal Removerの使い方

Ultimate Vocal Remover (UVR) は、音声ファイルからボーカルや楽器の分離を行うためのオープンソースのAIツールです。ここでは、わかりやすいフローチャートとモデルの追加について紹介します。
音声合成

YuEのインストール方法と基本的な使い方

YuEは、音楽を自動生成するために開発された最先端のオープンソースAIモデルです。特に歌詞からフル楽曲を生成することに特化しており、ボーカルと伴奏を含む本格的な楽曲を数分間にわたって作り出すことができます。
3DCG

nerfstudioで試す3D再構築技術

nerfstudioは、NeRF (Neural Radiance Fields) の作成、トレーニング、テストを簡単に行うためのツールで、NeRFを基にした複数の手法が組み込まれており、それらを利用して効率的に3D再構築を行うことができま...
音声合成

Whisperで簡単・高精度な文字起こしを可能に

Whisperは汎用の音声認識モデルで、さまざまな音声データセットでトレーニングされています。多言語音声認識、音声翻訳、言語識別など、マルチタスクに対応しています。
3DCG

ComfyUI 3D Packを活用して3Dアセットを作成する

ComfyUI 3D Packは、画像や動画と同様に、3Dアセット生成を手軽かつ高品質に実現するノード群です。最新の3D技術やアルゴリズムを活用し、メッシュやUVテクスチャの処理をスムーズにサポートします。
音声合成

MMAudioで無音動画にオーディオを追加する

MMAudioは、動画と必要に応じてテキストを入力条件として、高品質で同期されたオーディオを生成できます。整合性の取れた高品質な音と映像の同期精度を実際にご覧ください。
動画生成

LTX-Videoを使ったテキスト&画像からの動画生成

LTX Videoは、高品質な動画を生成可能なDiTベースの動画生成モデルです。このモデルは、768x512の解像度で24FPSの動画を高速に生成でき、テキストからの動画生成および画像+テキストからの動画生成の両方に対応しています。
画像生成

FLUX.1 Toolsの紹介

FLUX.1 Toolsは、Black Forest Labsがリリースしたモデル群で、ControlNetのように実際の画像や生成画像の編集や再生成を可能にします。また、ベンチマーク結果では、他のオープンソースバリアントを上回る性能と高い...
画像生成

FLUX.1によるインペインティングとアウトペインティング

Black Forest Labsが提供するFLUX.1最新のインペインティング・アウトペインティングモデルを紹介します。