[TTS] Text Normalization → Acoustic Model → Vocoder – ソフトウェアエンジニアの技術ブログ：Software engineer tech blog

[全体像]
テキスト（文字列）
↓
① Text Normalization（前処理）
↓
② Acoustic Model（音響モデル）
↓
③ Vocoder（ボコーダ）
↓
音声波形（実際に聞こえる音）

① Text Normalization（テキスト正規化・前処理）
🔍 目的：
文字データを「読み上げ可能な形」に整えること。
人間が“読む”ときに自然になるよう、TTSに理解できる形式へ変換します。

数字の読み方変換「2025年」「にせんにじゅうごねん」
記号・略語展開「Dr.」「ドクター」
文の区切り付け「こんにちは。元気？」（文境界を明示）
発音表記への変換（G2P: Grapheme→Phoneme）「東京」 /toːkjoː/

② Acoustic Model（音響モデル）
🔍 目的：
「この文をどう発音するか（音の特徴）」を予測する。
つまり、テキスト（音素列）→メルスペクトログラムを生成します。
📘 メルスペクトログラムとは？
時間 × 周波数の2次元表現で、音の「強さ」「高さ」「声質」を可視化したもの。

音声波形を直接作る代わりに、この中間表現を生成することで、
音の自然さや安定性を確保できます。
💡 Acoustic Modelの役割
要素内容
発音タイミング各音素の長さや間（Duration）を決定
抑揚（イントネーション）ピッチ（F0）の変化を予測
音量・エネルギー声の強弱を再現
声質・感情声のトーンや感情表現を生成

⚙️ 代表的なモデル構造
モデル名特徴
Tacotron / Tacotron2 Seq2Seqでメルスペクトログラムを直接生成。自然な抑揚。
FastSpeech / FastSpeech2 Duration情報を明示的に予測し、高速かつ安定。
Glow-TTS / Grad-TTS 正規化フローや拡散モデルで高品質生成。

③ Vocoder（ボコーダ）
🔍 目的：
メルスペクトログラムなどの中間表現を、
実際の波形（音声）に変換する。
🎧 どうやって波形を作るの？

スペクトログラムを入力として、時間ドメインの音波をサンプル単位で生成。
深層学習モデルが「周波数特性」を復元し、自然な音を再構成します。
💡 代表的なニューラルボコーダ
モデル名特徴
WaveNet (Google) 最初の高品質ニューラルボコーダ。非常に自然だが遅い。
WaveRNN 軽量・高速でリアルタイム合成可能。
Parallel WaveGAN / HiFi-GAN GANベースで高音質＆超高速。現行主流。
DiffWave / WaveGrad 拡散モデルを応用。高品質で滑らか。

補足：3ステップの関係性
ステップ入力出力技術の主役
Text Normalization 文字列発音記号 or 音素列言語処理（NLP）
Acoustic Model 音素列メルスペクトログラム深層学習（Seq2Seq, Transformerなど）
Vocoder メルスペクトログラム波形データ深層生成モデル（WaveNet, GAN, Diffusionなど）