TTS – Page 2 – ソフトウェアエンジニアの技術ブログ：Software engineer tech blog

[TTS] Flaskチャットに音声応答機能を統合

以下では OpenAI の TTS API（新しい audio API）を Flask チャットアプリで使う方法を、
できるだけシンプルで実用的な構成で紹介します。

✅ 基本構成
Flaskでチャットアプリを作る場合、
Web画面でユーザーがテキスト入力
Flaskサーバーが OpenAI API に TTS リクエスト
得た音声バイナリ（mp3/wav）を返す
ブラウザ側で audio タグ / JS で再生
という流れになります。

📌 必要ライブラリ
pip install flask openai

🚀 サンプル：Flask + OpenAI TTS API
📁 app.py

from flask import Flask, request, send_file, jsonify
from openai import OpenAI
import os
import io

app = Flask(__name__)

# OpenAI API キー
client = OpenAI(api_key=os.getenv("OPENAI_API_KEY"))

@app.route("/")
def index():
    return """
    <form action="/tts" method="post">
        <input name="text" placeholder="Enter text">
        <button type="submit">Generate</button>
    </form>
    """

@app.route("/tts", methods=["POST"])
def tts():
    text = request.form.get("text", "")

    # OpenAI TTS API 呼び出し
    response = client.audio.speech.create(
        model="gpt-4o-mini-tts",     # OpenAI TTSモデル
        voice="alloy",               # 声（例：alloy / verse / shimmer など）
        input=text,
        format="mp3"
    )

    # バイナリ取得
    audio_bytes = response.read()

    # メモリ内に保存して返す
    return send_file(
        io.BytesIO(audio_bytes),
        mimetype="audio/mpeg",
        download_name="speech.mp3"
    )

if __name__ == "__main__":
    app.run(debug=True)

📌 ブラウザで音声を自動再生するフロント（例）

index.html を返すなら：

<!DOCTYPE html>
<html>
<body>
    <h2>OpenAI TTS Demo</h2>
    <input id="txt" placeholder="Enter text">
    <button onclick="speak()">Speak</button>
    <audio id="audio" controls></audio>

    <script>
        async function speak() {
            const text = document.getElementById("txt").value;

            const formData = new FormData();
            formData.append("text", text);

            const res = await fetch("/tts", { method: "POST", body: formData });
            const blob = await res.blob();

            const url = URL.createObjectURL(blob);
            document.getElementById("audio").src = url;
        }
    </script>
</body>
</html>

🔊 レスポンス形式の選択

OpenAI公式では以下が使えます：

形式 MIMEタイプ特徴
mp3 audio/mpeg 一般的・最小サイズ
aac audio/aac 高音質
wav audio/wav ロスレス（重い）
flac audio/flac 高品質

[TTS] AzureでTTS APIを使う手順

1. サブスクリプションをupgrade

画面左上の「リソースの作成」または上部の検索バーで「Speech」と入力して検索します。
検索結果から「Speech」または「Azure AI サービス」を選択し、「作成」をクリックします。

サブスクリプション課金が行われるアカウントです。従量課金制にアップグレード済みのサブスクリプションを選択します。
リソースグループ先ほど作成したグループです。作成済みのリソースグループを選択します。
リージョンサービスがデプロイされる場所です。アプリケーションのユーザーに近いリージョン、または性能・遅延が適切なリージョンを選択します。（例: East US、Japan Eastなど）
名前このSpeechリソースの名称です。任意の名前（例: MyTtsResource2025）を入力します。
価格レベル料金プランです。 Standard (S0) を選択します。（無料枠を使い切っているため）

import azure.cognitiveservices.speech as speechsdk

# Azure Speech Service のキーとリージョン
speech_key = "YOUR_SPEECH_KEY"
service_region = "eastasia"   # East Asia リージョン

# SpeechConfig を作成
speech_config = speechsdk.SpeechConfig(subscription=speech_key, region=service_region)

# 出力音声を設定（標準はwav）
audio_config = speechsdk.audio.AudioOutputConfig(filename="output.wav")

# 音声の種類（例: 日本語の女性）
speech_config.speech_synthesis_voice_name = "ja-JP-NanamiNeural"

# Speech Synthesizer を作成
synthesizer = speechsdk.SpeechSynthesizer(speech_config=speech_config, audio_config=audio_config)

# 読み上げるテキスト
text = "こんにちは、これは Azure Text to Speech のテストです。"

# TTS 実行
result = synthesizer.speak_text_async(text).get()

# 結果チェック
if result.reason == speechsdk.ResultReason.SynthesizingAudioCompleted:
    print("✅ 音声ファイル 'output.wav' を生成しました")
else:
    print("❌ エラー:", result.reason)

Azureだと音声が全然違いますね！

[TTS] リアルタイムLipsyncの実現方法

– TTS APIから得られるVisemeデータとVRMモデルがあれば、リップシンクデモをリアルタイムで実現できる
– Rhubarbで生成されたJSON（Visemeデータ）を、TTS APIがリアルタイムで出力するVisemeデータに置き換えることで、既存のThree.js/VRMのロジックを応用できる

### TTS API連携の場合（実現したいこと）
– TTS APIからのVisemeイベントストリーム
– 再生時間と**Visemeイベントのoffset**を比較し、Viseme IDに対応するVRMブレンドシェイプを適用する.
– TTS API固有のViseme IDをVRMのブレンドシェイプ名 (A, I, U, E, O, NEUTRAL) にマッピングする.

1. TTS API呼び出しとデータ取得
テキスト入力: ユーザーがテキストを入力するためのUI（textareaやinput）と、API呼び出し用のボタンを追加します。
API接続: 選択したTTS API（例: Azure Neural TTS）のエンドポイントに、入力テキストを含むリクエストを送信するJavaScriptコードを実装します.
データ受信: APIから返される合成音声データとVisemeイベントデータ（タイムスタンプ付きの口形情報）を同時に受け取るロジックを構築します.

2. リアルタイム再生とVisemeキューの処理
音声再生: 受信した音声データをWeb Audio APIでリアルタイムにデコード・再生します。
Visemeキューリストの作成: TTS APIから受け取ったVisemeイベントを、あなたのlipsyncData.mouthCuesと同様の形式（start時刻とvalue）のキューリストとしてメモリに保持します。

3. updateLipsync()関数の調整
あなたの既存のupdateLipsync()関数はそのまま使えますが、RhubarbのViseme ID（A, B, C, …）ではなく、TTS APIが使用するViseme IDに合わせてmouthShapeMapのキーを更新する必要があります.
例: Azure TTSはviseme id=”1″（唇を閉じている状態）、viseme id=”2″（Aの音）などの数値IDを使う場合があります.

Lipsyncの環境を作る

ripsyncに必要な rhubarb というファイルをgithubからダウンロードする
OSに合わせる必要があるため、rhubarb の mac osをダウンロードする
https://github.com/DanielSWolf/rhubarb-lip-sync/releases

$ mkdir vrm-project

この vrm-project に　rhubarb を配置する

$ chmod +x rhubarb

<!DOCTYPE html>
<html lang="ja">
<head>
    <meta charset="UTF-8">
    <title>Simple VRM Lipsync (Final)</title>
    <style>
        body { margin: 0; overflow: hidden; }
        canvas { display: block; }
        #playButton { 
            position: absolute; 
            top: 20px; 
            left: 20px; 
            padding: 10px 20px;
            font-size: 16px;
            z-index: 10;
        }
    </style>
</head>
<body>
    <button id="playButton" disabled>VRMとデータをロード中...</button>

    <script src="https://unpkg.com/three@0.158.0/build/three.min.js"></script>

    <script src="https://unpkg.com/three@0.158.0/examples/js/controls/OrbitControls.js"></script>

    <script src="https://unpkg.com/three@0.158.0/examples/js/loaders/GLTFLoader.js"></script>
    
    <script>
        // 1. OrbitControls の定義をコピー
        if (typeof window.OrbitControls !== 'undefined' && typeof THREE.OrbitControls === 'undefined') {
            THREE.OrbitControls = window.OrbitControls;
        }
        
        // 2. GLTFLoader の定義をコピー
        if (typeof window.GLTFLoader !== 'undefined' && typeof THREE.GLTFLoader === 'undefined') {
            THREE.GLTFLoader = window.GLTFLoader;
        }
    </script>
    
    <script src="https://unpkg.com/@pixiv/three-vrm@2.0.0/lib/three-vrm.min.js"></script>
    
    <script>
        // --- 設定値 ---
        const VRM_MODEL_PATH = './28538335112454854.vrm'; 
        const AUDIO_PATH = './output.wav'; 
        const LIPSYNC_JSON_PATH = './output_lipsync.json';
        
        let renderer, scene, camera, clock, vrm, audio, lipsyncData;
        
        let vrmLoaded = false;
        let jsonLoaded = false;
        let currentVisemeIndex = 0;

        function checkReady() {
            if (vrmLoaded && jsonLoaded) {
                 const button = document.getElementById('playButton');
                 button.innerHTML = '音声再生＆リップシンク開始';
                 button.disabled = false;
            }
        }
        
        // --- 初期化処理 ---
        function init() {
            // 1. レンダラーのセットアップ
            renderer = new THREE.WebGLRenderer({ antialias: true });
            renderer.setSize(window.innerWidth, window.innerHeight);
            renderer.setClearColor(0xeeeeee);
            document.body.appendChild(renderer.domElement);

            // 2. シーンとカメラのセットアップ
            scene = new THREE.Scene();
            camera = new THREE.PerspectiveCamera(45, window.innerWidth / window.innerHeight, 0.1, 100);
            camera.position.set(0, 1.3, 1.5); 
            
            // 3. ライト
            scene.add(new THREE.AmbientLight(0xffffff, 1.0));

            // 4. コントロール (OrbitControlsが見つからない場合はスキップ)
            let OrbitControlsClass = THREE.OrbitControls;
            
            if (!OrbitControlsClass) {
                console.error("致命的エラー: OrbitControlsが見つかりません。カメラ操作はできませんが、続行します。");
            } else {
                const controls = new OrbitControlsClass(camera, renderer.domElement);
                controls.target.set(0, 1.3, 0); 
            }

            // 5. アニメーションクロック
            clock = new THREE.Clock();
            
            // 6. VRMとJSONデータのロード
            loadVRM();
            loadLipsyncData();
            
            // 7. リップシンク開始ボタン
            document.getElementById('playButton').addEventListener('click', startLipsync);

            // 8. ウィンドウリサイズ対応
            window.addEventListener('resize', onWindowResize);
            
            // 9. アニメーションループ開始
            animate();
        }

        // --- VRMモデルのロード ---
        function loadVRM() {
            const loader = new THREE.GLTFLoader(); // ★修正されたGLTFLoaderを参照
            loader.crossOrigin = 'anonymous';

            loader.load(
                VRM_MODEL_PATH,
                (gltf) => {
                    THREE.VRM.from(gltf).then((vrmInstance) => {
                        vrm = vrmInstance;
                        scene.add(vrm.scene);
                        
                        VRMUtils.rotateVRM0(vrm); 
                        vrm.scene.rotation.y = Math.PI;
                        
                        resetMouth(); 
                        
                        vrmLoaded = true;
                        checkReady();
                    })
                    .catch(e => {
                         console.error("VRMインスタンス生成中にエラーが発生しました（互換性問題の可能性）:", e);
                    });
                },
                undefined,
                (error) => {
                    console.error("GLTFファイルのロード中にエラーが発生しました。", error);
                }
            );
        }

        // --- リップシンクデータのロード (省略) ---
        function loadLipsyncData() {
            fetch(LIPSYNC_JSON_PATH)
                .then(response => {
                    if (!response.ok) {
                        throw new Error(`HTTP error! status: ${response.status}`);
                    }
                    return response.json();
                })
                .then(data => {
                    lipsyncData = data;
                    jsonLoaded = true;
                    checkReady();
                })
                .catch(error => {
                    console.error('Error loading lipsync JSON:', error);
                });
        }

        // --- 口のブレンドシェイプをリセットする関数 (省略) ---
        function resetMouth() {
            if (!vrm) return;
            const blendShapeProxy = vrm.humanoid.getBlendShapeProxy();
            blendShapeProxy.setValue('vrc.v_a', 0.0);
            blendShapeProxy.setValue('vrc.v_i', 0.0);
            blendShapeProxy.setValue('vrc.v_u', 0.0);
            blendShapeProxy.setValue('vrc.v_e', 0.0);
            blendShapeProxy.setValue('vrc.v_o', 0.0);
        }

        // --- リップシンク開始 (省略) ---
        function startLipsync() {
            if (!vrm || !lipsyncData || document.getElementById('playButton').disabled) {
                return;
            }
            
            document.getElementById('playButton').disabled = true;
            document.getElementById('playButton').innerHTML = '再生中...';

            audio = new Audio(AUDIO_PATH);
            audio.play();
            
            audio.onended = () => {
                resetMouth();
                currentVisemeIndex = 0;
                document.getElementById('playButton').innerHTML = '音声再生＆リップシンク開始';
                document.getElementById('playButton').disabled = false;
            };
        }
        
        // --- リップシンク実行関数 (省略) ---
        function performLipsync() {
            if (!audio || audio.paused || audio.ended || !vrm) return;

            const currentTime = audio.currentTime;
            const visemes = lipsyncData.mouthCues;
            const blendShapeProxy = vrm.humanoid.getBlendShapeProxy();
            
            while (currentVisemeIndex < visemes.length) {
                const currentCue = visemes[currentVisemeIndex];
                
                if (currentTime < currentCue.start) {
                    break; 
                }
                
                if (currentTime >= currentCue.end) {
                    currentVisemeIndex++;
                    continue;
                }

                resetMouth(); 

                const rhubardValue = currentCue.value;

                // RhubarbのVisemeとVRMキーのマッピング
                const visemeKey = {
                    'A': 'vrc.v_a', 'B': 'vrc.v_o', 'C': 'vrc.v_i', 
                    'D': 'vrc.v_e', 'E': 'vrc.v_e', 'F': 'vrc.v_o', 
                    'G': 'vrc.v_e', 'H': 'vrc.v_a', 'X': null
                }[rhubardValue];

                if (visemeKey) {
                    blendShapeProxy.setValue(visemeKey, 1.0);
                }
                
                break; 
            }
        }

        // --- アニメーションループ (省略) ---
        function animate() {
            requestAnimationFrame(animate);

            const deltaTime = clock.getDelta();
            
            if (vrm) {
                vrm.update(deltaTime);
                performLipsync();
            }

            renderer.render(scene, camera);
        }

        // --- リサイズ処理 (省略) ---
        function onWindowResize() {
            camera.aspect = window.innerWidth / window.innerHeight;
            camera.updateProjectionMatrix();
            renderer.setSize(window.innerWidth, window.innerHeight);
        }

        // アプリケーション開始
        init();
    </script>
</body>
</html>

GoogleのText-to-Speech APIを使ってみる

1. Google Cloud プロジェクト作成
2. Text-to-Speech API を有効化
3. サービスアカウントキー（JSON）をダウンロード
4. 必要なライブラリをインストール
$ pip3 install google-cloud-texttospeech

from google.cloud import texttospeech
from google.oauth2 import service_account

# 認証キー読み込み
credentials = service_account.Credentials.from_service_account_file("gcp-test.json")
client = texttospeech.TextToSpeechClient(credentials=credentials)

# 読み上げるテキスト
input_text = texttospeech.SynthesisInput(text="こんにちは、これはテストです。")

# 日本語のWavenet音声
voice = texttospeech.VoiceSelectionParams(
    language_code="ja-JP",
    name="ja-JP-Wavenet-B"
)

audio_config = texttospeech.AudioConfig(
    audio_encoding=texttospeech.AudioEncoding.MP3
)

# 音声生成
response = client.synthesize_speech(
    input=input_text,
    voice=voice,
    audio_config=audio_config
)

# 保存
with open("output.mp3", "wb") as out:
    out.write(response.audio_content)
    print("✅ output.mp3 を作成しました")

そりゃGoogleもやってるわな… という感想しか出てこない

[TTS] ひろゆき氏の発言を音声にする

おしゃべりひろゆきメーカーというサイトでひろゆき氏の発言を音声にしてmp4でDLできるサービスがあるようです。
https://coefont.cloud/maker/hiroyuki

たまに見ますけど、面白いですよね

APIのような形で外部からひろゆき氏のAI音声にすることもできるようです。

TTSを自分のサーバで利用する場合は、GPUが必要なようです。

[TTS] OpenAIのAPIでTTSを実行する

import os
from openai import OpenAI
from dotenv import load_dotenv
load_dotenv()

# クライアント作成
client = OpenAI(api_key=os.getenv("OPENAI_API_KEY"))

# 音声生成
response = client.audio.speech.create(
    model="gpt-4o-mini-tts",   # 高品質・軽量 TTS モデル
    voice="alloy",             # 声の種類（alloy / verse / aria 等）
    input="Hello, world! This is a text-to-speech test."
)

# mp3として保存
output_path = "hello_world_tts.mp3"
with open(output_path, "wb") as f:
    f.write(response.read())

print(f"✅ 音声ファイルを保存しました → {output_path}")

声は変えられる。
voice=”alloy” # 落ち着いた声
voice=”aria” # 明るい声
voice=”verse” # 自然でニュートラル

[LLM] Flaskで簡易 /speak APIを作成

from flask import Flask, request, send_file, jsonify
from gtts import gTTS
import os
import tempfile
from datetime import datetime

app = Flask(__name__)

@app.route('/speak', methods=['POST'])
def speak():
    """
    テキストを音声に変換するAPI
    
    リクエスト例:
    {
        "text": "こんにちは、世界",
        "lang": "ja",
        "slow": false
    }
    """
    try:
        # リクエストからJSONデータを取得
        data = request.get_json()
        
        if not data or 'text' not in data:
            return jsonify({'error': 'text パラメータが必要です'}), 400
        
        text = data['text']
        lang = data.get('lang', 'ja')  # デフォルトは日本語
        slow = data.get('slow', False)  # ゆっくり話すかどうか
        
        if not text.strip():
            return jsonify({'error': 'テキストが空です'}), 400
        
        # 一時ファイルを作成
        temp_file = tempfile.NamedTemporaryFile(delete=False, suffix='.mp3')
        temp_filename = temp_file.name
        temp_file.close()
        
        # TTSで音声ファイルを生成
        tts = gTTS(text=text, lang=lang, slow=slow)
        tts.save(temp_filename)
        
        # 音声ファイルを返す
        response = send_file(
            temp_filename,
            mimetype='audio/mpeg',
            as_attachment=True,
            download_name=f'speech_{datetime.now().strftime("%Y%m%d_%H%M%S")}.mp3'
        )
        
        # レスポンス送信後にファイルを削除
        @response.call_on_close
        def cleanup():
            try:
                os.unlink(temp_filename)
            except Exception as e:
                print(f"一時ファイルの削除に失敗: {e}")
        
        return response
        
    except Exception as e:
        return jsonify({'error': str(e)}), 500


@app.route('/speak/languages', methods=['GET'])
def get_languages():
    """サポートされている言語のリストを返す"""
    languages = {
        'ja': '日本語',
        'en': '英語',
        'zh-cn': '中国語(簡体字)',
        'zh-tw': '中国語(繁体字)',
        'ko': '韓国語',
        'es': 'スペイン語',
        'fr': 'フランス語',
        'de': 'ドイツ語',
        'it': 'イタリア語',
        'pt': 'ポルトガル語',
    }
    return jsonify(languages)


@app.route('/health', methods=['GET'])
def health_check():
    """ヘルスチェック用エンドポイント"""
    return jsonify({'status': 'ok'})


if __name__ == '__main__':
    app.run(debug=True, host='0.0.0.0', port=5000)

$ curl -X POST http://localhost:5000/speak \ \
-H “Content-Type: application/json” \
-d ‘{“text”:”こんにちは、世界”, “lang”:”ja”}’ \
–output speech.mp3
% Total % Received % Xferd Average Speed Time Time Time Current
Dload Upload Total Spent Left Speed
100 18096 100 18048 100 48 34083 90 –:–:– –:–:– –:–:– 34207

なるほど。textをPOSTしていますが、gptからのレスポンスをそのまま出力しても良さそうですね。。

[TTS] 「Hello, world」をgTTSで発話

pip install gTTS

from gtts import gTTS
import os

text = "Hello, world"
tts = gTTS(text, lang='en')

# 音声ファイルとして保存
tts.save("hello_world.mp3")

# 再生（Windows）
os.system("start hello_world.mp3")

[TTS] MaAI

$ sudo apt install portaudio19-dev
$ pip3 install maai

import time
from maai import Maai, MaaiOutput, MaaiInput 
import numpy as np

# 1. 設定
# マイクを使用するため、ファイルパスはコメントアウト
# AUDIO_FILE_PATH = "sample.wav" 

# maai の初期化設定
# 安定動作が確認された "vap" モードを使用
maai = Maai(
    mode="vap", 
    lang="jp",  # 日本語設定
    frame_rate=10, 
    context_len_sec=5,
    
    # マイク入力を使用
    audio_ch1=MaaiInput.Mic(), 
    audio_ch2=MaaiInput.Zero(), 
    device="cpu"
)

# 2. 結果出力設定（ConsoleBarは使用せず、直接値を表示）
print("--- maai リアルタイム予測開始 (マイク入力) ---")
print("マイクに向かって何か話してください。予測結果が直接出力されます。Ctrl+Cで停止します。")
print("---------------------------------------------")
maai.start()

start_time = time.time() # 時間計測開始

# 3. 処理ループ
try:
    while True:
        # 結果を待機して取得
        result = maai.get_result()
        
        if result is None:
            continue
            
        # 💡 リスト型対応の処理: result の値がリストの場合、最初の要素 [0] を抽出する
        processed_result = {}
        for key, value in result.items():
            if isinstance(value, list) and value:
                # リストの最初の要素を抽出
                processed_result[key] = value[0]
            else:
                # リストではないか、空のリストの場合はそのまま使用
                processed_result[key] = value

        # 頷き/相槌の値を取得 (キーが "nod" や "aizuchi" になっていることを期待)
        nod_val = processed_result.get('nod', processed_result.get('p_nod', -1)) 
        aizuchi_val = processed_result.get('aizuchi', processed_result.get('p_aizuchi', -1)) 
        
        # ターンテイキングの値を取得
        p_now_val = processed_result.get('p_now', -1)
        p_future_val = processed_result.get('p_future', -1)
        
        output_line = f"Time: {time.time() - start_time:.2f}s | "
        
        # 頷き/相槌の予測値が含まれているか確認
        if nod_val != -1 or aizuchi_val != -1:
             # 頷き/相槌の予測がある場合の出力
            output_line += f"Nod: {nod_val:.3f} | Aizuchi: {aizuchi_val:.3f} | P_Now: {p_now_val:.3f}"
        else:
            # 含まれていない場合のデフォルト出力（ターンテイキング予測のみ）
            output_line += f"P_Now: {p_now_val:.3f} | P_Future: {p_future_val:.3f}"
            
        print(output_line)
        
        time.sleep(0.1) # 100ms ごとに結果を出力

except KeyboardInterrupt:
    print("\n処理を中断しました。")

# 4. 終了処理
maai.stop()
print("\n--- maai 処理終了 ---")

画面収録 2025-10-25 午前11.38.11