音声認識には複雑な工程が必要ですが、簡略化して説明すると、 話者発声→音声分析、特徴抽出→特徴レベルの正規化、適応化→距離、類似度→ロバストマッチング→言語処理 で認識結果を出す、という感じです。上だと一方方向ですが、さらに分岐したりするので複雑です。