TTSとは 「Text-To-Speech(テキスト読み上げ)」 の略で、
簡単に言うと 文字を音声に変換する技術 のことです。
たとえば…
スマホの読み上げ機能で、メッセージやニュースを声で聞ける
カーナビが目的地までの案内を音声で話す
Siri や Google アシスタントが話して答える
これらはすべて TTS(音声合成) の仕組みを使っている。
仕組みのざっくりイメージ
テキスト入力:「こんにちは、今日はいい天気ですね」
音声合成エンジンが文字を読み方に変換
人工的な声で読み上げる音声を生成(自然な抑揚をつける)
最近のTTSはAI技術(特に深層学習)によって、
まるで人間のように自然な話し方ができるようになっている。
「深層学習を使ったTTS」は、文字列→音声の処理を学習ベースで行い、人間らしい抑揚・リズム・声質を自動で作れるようになった技術です。従来より滑らかで自然な発話が可能になり、少ない手作業で多様な話し方や声を生成できるようになった。
仕組み(高レベルのパイプライン)
一般的な現代TTSは大きく3つのステップに分かれる
– テキスト前処理(Frontend)
文字列を音素(発音単位)に変換(G2P = Grapheme→Phoneme)したり、句読点や数字を正しい読みへ変換したりする。
– アコースティックモデル(Acoustic / Spectrogram Generator)
テキスト(音素や言語特徴)を入力に取り、音の時間周波数表現(例:メルスペクトログラム)を生成する。
ここで抑揚(ピッチ)、長さ(音の持続)、強弱などの「話し方」が決まる。
– ボコーダ(Vocoder)
メルスペクトログラムなどの中間表現を受け取り、実際の波形(聞ける音声)を生成する。
深層学習は主に(2)と(3)で活躍
なるほど〜 かなり勉強になりますね。少しずつでも毎日勉強したほうが良さそう…