音声合成

YuEのインストール方法と基本的な使い方

YuEは、音楽を自動生成するために開発された最先端のオープンソースAIモデルです。特に歌詞からフル楽曲を生成することに特化しており、ボーカルと伴奏を含む本格的な楽曲を数分間にわたって作り出すことができます。
AIツール

nerfstudioで試す3D再構築技術

nerfstudioは、NeRF (Neural Radiance Fields) の作成、トレーニング、テストを簡単に行うためのツールで、NeRFを基にした複数の手法が組み込まれており、それらを利用して効率的に3D再構築を行うことができま...
音声合成

Whisperで簡単・高精度な文字起こしを可能に

Whisperは汎用の音声認識モデルで、さまざまな音声データセットでトレーニングされています。多言語音声認識、音声翻訳、言語識別など、マルチタスクに対応しています。
AIツール

ComfyUI 3D Packを活用して3Dアセットを作成する

ComfyUI 3D Packは、画像や動画と同様に、3Dアセット生成を手軽かつ高品質に実現するノード群です。最新の3D技術やアルゴリズムを活用し、メッシュやUVテクスチャの処理をスムーズにサポートします。
音声合成

MMAudioで無音動画にオーディオを追加する

MMAudioは、動画と必要に応じてテキストを入力条件として、高品質で同期されたオーディオを生成できます。整合性の取れた高品質な音と映像の同期精度を実際にご覧ください。
動画生成

LTX-Videoを使ったテキスト&画像からの動画生成

LTX Videoは、高品質な動画を生成可能なDiTベースの動画生成モデルです。このモデルは、768x512の解像度で24FPSの動画を高速に生成でき、テキストからの動画生成および画像+テキストからの動画生成の両方に対応しています。
画像生成

FLUX.1 Toolsの紹介

FLUX.1 Toolsは、Black Forest Labsがリリースしたモデル群で、ControlNetのように実際の画像や生成画像の編集や再生成を可能にします。また、ベンチマーク結果では、他のオープンソースバリアントを上回る性能と高い...
画像生成

FLUX.1によるインペインティングとアウトペインティング

Black Forest Labsが提供するFLUX.1最新のインペインティング・アウトペインティングモデルを紹介します。
画像生成

FLUX.1量子化モデルの比較

FLUX.1のオリジナルモデルは、ファイルサイズが大きくVRAMが少ない環境では扱いにくいです。ここでは、複数の量子化されたモデルの紹介とそれぞれの生成結果を比較しました。量子化とは、数値を離散的な値に変換することでデータの精度を下げつつ、...
画像生成

FLUXのControlNetワークフロー (ComfyUI)

ComfyUIでFLUXにControlNetを適用するワークフローを紹介します。XLabs AIとShakker Labsが提供しているControlNetモデルになります。Black Forest LabsがFLUX.1 Toolsをリ...