話者は、脳内で文(w)を考えて、口から音声波形(s)を生成します。(s)には、話者個人の話し方の差や雑音等か含まれています。 認識システムの音声処理部は音声波形の分析、変換を行って、短時間スペクトル等の時系列データ(y)を出力します。 認識システムの言語復号部は、送信文の推定値として(wの上に^がついたやつ)を出力します。この時、事後確率P(w|y)が最大になるように推定します。 P(w|y)を直接求めるのは難しいので、ベイズ則によって次式を満たすように推定します。