Whisperで簡単・高精度な文字起こしを可能に

音声合成

Whisperは汎用の音声認識モデルで、さまざまな音声データセットでトレーニングされています。多言語音声認識、音声翻訳、言語識別など、マルチタスクに対応しています。

実行環境

OSWindows11 24H2
whisper517a43ecd132a2089d85f4ebc044728a71d49f6e

ソフトウェア要件

インストール前に必要なソフトがあります。

CUDA Toolkit 12.4.1

NVIDIAのGPUを活用した高速計算を行うための開発ツールです。

Git

Gitは分散型バージョン管理システムで、GitHubのリポジトリ管理に使用されます。

Miniconda

condaを使用して、仮想環境を作成します。

FFmpeg

音声・動画の処理を行うツールです。

インストール

Anaconda Prompt (miniconda3)を開きます。

フォルダ作成

md Whisper

ディレクトリ移動

cd Whisper

仮想環境を作成

conda create -n whisper python=3.11

仮想環境をアクティブ化

conda activate whisper

GitHubから最新のコミットをインストール

pip install git+https://github.com/openai/whisper.git 

Pytorchインストール (v2.5.0 CUDA 12.4)

pip install torch==2.5.0 torchvision==0.20.0 torchaudio==2.5.0 --index-url https://download.pytorch.org/whl/cu124

推論

以下の複数のモデルがあります。英語専用の.enモデルは、モデルサイズが小さいほど高いパフォーマンスを発揮しますが、サイズが大きくなるにつれてその差は小さくなります。また、turboモデルはlarge-v3を最適化したバージョンで、精度の低下を最小限に抑えながら、より高速な文字起こしを実現します。

多言語モデル英語専用モデル必要VRAM相対速度
tinytiny.en~1 GB~10x
basebase.en~1 GB~7x
smallsmall.en~2 GB~4x
mediummedium.en~5 GB~2x
largeN/A~10 GB1x
turboN/A~6 GB~8x

次のコマンドは、largeモデルを使用して音声ファイル(audio.mp3)の文字起こしを行います。mp3のほか、flacやwav形式にも対応しています。

whisper audio.mp3 --model large

その他のオプションについては、以下のコマンドで確認できます。

whisper --help

結果はファイルとしてフォルダ内に保存されます。

タイトルとURLをコピーしました