[音声認識] Juliusの認識アルゴリズム – ソフトウェアエンジニアの技術ブログ：Software engineer tech blog

### 入力音声の認識アルゴリズム
特徴量系列に対して、音響モデルと言語モデルの元で、確率が最大となる単語列を見つけ出す
ツリートレスト探索方式を基礎とするアルゴリズム
第一パスと第二パスの段階によって絞り込む
　L 単語履歴の 1-best近似， N-gram における 1-gram factoring, 部分線形化辞書，単語間トライフォン近似を用いる
L 単語候補集合の算出

探索アルゴリズムによる調節可能なパラメータ
認識処理インスタンスごとに設定して精度を調整する
　　解探索を行う際の仮説の足切り幅，すなわちビーム幅を設定できる

### 認識結果の出力
N-bestリスト
L 指定された数の文仮説数が見付かるまで探索を行う
単語ラティス形式
L 認識結果の上位仮説集合を，単語グラフ（ラティス）形式で出力できる
Confusion network
L 認識結果を confusion network の形で出力

### 複数モデルを用いた認識
入力に対して並列に認識を行い，複数の結果を一度に得ることが可能
– 音響モデルインスタンの宣言(-AM)
– 言語モデルインスタンス(-LM)
– 認識処理インスタンス(-SR)
各指定のオプションをjconfファイルに記載する

### モジュールモード
Juliusをモジュールモードで起動することで、音声認識サーバとして動かすことができる。
起動後、クライアントからのTCP/IP接続待ちとなる
ADDGRAM, CHANGEGRAM では，クライアントから Julius へ文法を送信

### プラグイン
– 音声入力、音声後処理、特徴量入力、特徴量後処理、ガウス分布計算、結果取得、初期化・処理開始など

全体像については何となく理解できました。