### 入力音声の認識アルゴリズム
特徴量系列に対して、音響モデルと言語モデルの元で、確率が最大となる単語列を見つけ出す
ツリートレスト探索方式を基礎とするアルゴリズム
第一パスと第二パスの段階によって絞り込む
L 単語履歴の 1-best近似, N-gram における 1-gram factoring, 部分線形化辞書, 単語間トライフォン近似を用いる
L 単語候補集合の算出
探索アルゴリズムによる調節可能なパラメータ
認識処理インスタンスごとに設定して精度を調整する
解探索を行う際の仮説の足切り幅,すなわちビーム幅を設定できる
### 認識結果の出力
N-bestリスト
L 指定された数の文仮説数が見付かるまで探索を行う
単語ラティス形式
L 認識結果の上位仮説集合を,単語グラフ(ラティス)形式で出力できる
Confusion network
L 認識結果を confusion network の形で出力
### 複数モデルを用いた認識
入力に対して並列に認識を行い, 複数の結果を一度に得ることが可能
– 音響モデルインスタンの宣言(-AM)
– 言語モデルインスタンス(-LM)
– 認識処理インスタンス(-SR)
各指定のオプションをjconfファイルに記載する
### モジュールモード
Juliusをモジュールモードで起動することで、音声認識サーバとして動かすことができる。
起動後、クライアントからのTCP/IP接続待ちとなる
ADDGRAM, CHANGEGRAM では,クライアントから Julius へ文法を送信
### プラグイン
– 音声入力、音声後処理、特徴量入力、特徴量後処理、ガウス分布計算、結果取得、初期化・処理開始など
全体像については何となく理解できました。