### 基本フォーマット
– 量子化ビット数は16ビット固定
– チャンネル数は1チャンネル
– 入力のサンプリングレート(Hz)は、オプションで指定。デフォルトは16,000Hz
– .wavファイル、ヘッダ無しRAWファイルを読み込む
– 録音デバイス(16bit)からの直接入力
– ネットワーク・ソケット経由や特徴量ファイルの入力もできる
### フロントエンド処理
– 音声特徴量は、短時間ごとに切り出された音声信号から抽出される特徴ベクトルの時系列で、特徴抽出後、認識処理(解探索)を行う
– 特徴抽出の前処理にフロントエンド処理が実装されている
– 入力音声波形に対する信号処理
■直流成分除去
直流成分であるオフセット値の推定方法
L 短時間音声区間ごとに行う方法と、長時間平均が用意されている
■スペクトルサブトラクション
雑音のスペクトルを推定して音声信号から減算することで雑音の影響を抑圧する(ファン音など定常雑音の除去)
### 特徴量抽出
メル周波数ケプストラム係数(MFCC)および派生パラメータを抽出できる
L 対数ケプストラムの低次成分に対して、ヒトの周波数知覚特性を考慮した重み付けをした特徴量を、メル周波数ケプストラム係数(MFCC)と呼ぶ
### 正規化処理
環境や話者の影響を軽減するため、算出後の特徴量に対して正規化処理を行うことができる
– CMN、CVN、周波数ワーピング
### 音声区間検出・入力棄却
音声が発話された区間を検出する音声区間検出(Voice activity detection)
短時間ごとに音声区間の開始終了を検出し、それを元に認識単位の切り出しおよび発話単位の区切りを行う
L 零交差数が一定数を超えた時に、音声始端として認識処理を行う
L ガウス混合分布モデルによって、音声と非音声のGMMを定義し、開始終了を判別する方法もある
入力処理の終了後に、事後的に入力を棄却することもできる
音声の区間を検出して、MFCCで特徴量を抽出してるのね。なるほど、仕組みがわかるとちょっと考え方が変わるね。