$ mkdir tts
$ cd tts
$ git clone https://github.com/litagin02/Style-Bert-VITS2.git
$ cd Style-Bert-VITS2
$ python3 -m venv venv
$ ls
$ source venv/bin/activate
$ pip3 install “torch<2.4" "torchaudio<2.4" --index-url https://download.pytorch.org/whl/cu118
$ cat requirements.txt
[code]
# onnxruntime-gpu; sys_platform != 'darwin'
[/code]
$ pip3 install onnxruntime
$ pip3 install -r requirements.txt
$ pip3 initialize.py
$ pip install style-bert-vits2 soundfile simpleaudio
$ sudo apt install libasound2-dev
$ pip3 install simpleaudio
$ pip3 install style-bert-vits2 soundfile
[code]
from style_bert_vits2.tts_model import TTSModel
from pathlib import Path
import soundfile as sf # soundfile は requirements.txt に含まれています
# モデルパス
model_path = Path("model_assets/jvnv-F1-jp/jvnv-F1-jp_e160_s14000.safetensors")
config_path = Path("model_assets/jvnv-F1-jp/config.json")
style_vec_path = Path("model_assets/jvnv-F1-jp/style_vectors.npy")
model = TTSModel(
model_path=model_path,
config_path=config_path,
style_vec_path=style_vec_path,
device="cpu"
)
text = "こんにちは!仮想環境でも音声ファイルに保存できます。"
# 音声生成
sr, audio = model.infer(text=text)
# WAV に保存
sf.write("output.wav", audio, sr)
print("output.wav に保存完了")
[/code]
[audio wav="http://hpscript.com/blog/wp-content/uploads/2025/09/output.wav"][/audio]
jvnv-F1-jp/jvnv-F1-jp_e160_s14000.safetensors はStyle-Bert-VITS2 が使う日本語向け音声合成モデル本体
style_vectors.npy:複数の話者や声質の特徴ベクトル(スタイル変換用)
スタイルベクトルで 複数話者・声質を切り替えられる
pitchで微調整できる。
[code]
sr, audio = model.infer(
text="こんにちは",
style=selected_style,
length_scale=1.0, # 1.0が標準、<1で早口、>1でゆっくり
noise_scale=0.5, # 音声の自然さ
noise_scale_w=0.5, # ピッチ揺れの調整
)
[/code]

