[TTS] Mel-spectrogram出力 → vocoder変換のサンプル – ソフトウェアエンジニアの技術ブログ：Software engineer tech blog

「波形への復元」には、数学的な近似アルゴリズムである Griffin-Lim法を使う

import librosa
import numpy as np
import soundfile as sf

# 1. アップロードされたファイルの読み込み
# path は実行環境に合わせて調整してください（通常はカレントディレクトリ）
file_path = 'speech.mp3' 
y, sr = librosa.load(file_path, sr=None) # sr=None で元のサンプリングレートを維持

# 2. Mel-spectrogram への変換
S = librosa.feature.melspectrogram(y=y, sr=sr, n_mels=128)
S_dB = librosa.power_to_db(S, ref=np.max)

# 3. 復元 (Griffin-Lim)
S_inv = librosa.db_to_power(S_dB)
y_inv = librosa.feature.inverse.mel_to_audio(S_inv, sr=sr)

# 4. 保存
sf.write('output_speech.wav', y_inv, sr)
print(f"'{file_path}' の処理が完了し、'output_speech.wav' として保存しました。")

元