まず、音声認識システムを作るにあたって最初に確率すべき最重要課題があります。
それは、音声区間の検出です。雑音がある環境下で音声区間を検出するのは簡単ではないです。ここがしっかりできていないと、認識率の低下と結び付く可能性が高く、超重要なのです。
音声区間の認識には、主に一定のしきい値以上の短時間パワーが一定以上継続したかどうかによって判断する方法が用いられます。
雑音が定常で、SNRが大きければこれで対処できるっぽいですが、実用する為にせき払いや他人の声も棄却できることが望まれます。
この不要音と認識対象音の区別は音声認識の問題で、完全なアルゴリズムの実現はほぼ不可能らしいです。
2そうだね プレイ済み