语音识别的一般过程,其主要目的就是把出人类所说的语音转化为文本信息使机器理解和识别其中意义并做出回应。语音识别的发展并非是一朝一夕,而是循序渐进,目前已经有较完备的模式和较好的发音效果,智能语音质检的语音识别主要包括以下几个流程:
1、数字化
随着技术的发展也出现了更高质量的基于拼接思想的方法,即预先录制收集大量的语音段,语音信号是一个连续的模拟信号,需要经过预滤波去除干扰,然后通过ADC转化成离散数字信号,并且采用PCM进行脉冲编码。把一段没有经过训练的语音信号的特征序列与参考模型的特征参数进行模式匹配,得到识别结果的文本信息。
2、预处理
获得数字语音信号后,可以通过预加重提高高频特性,然后使用加窗和分帧技术获得语音帧,便于后续进行短时分析,这步一般还会使用端点检测从原始语音信号中获得含有有效语音信息的部分,这样可以进一步排除噪声干扰,提高语音识别效果。
3、特征提取
语音特征可以反映语音变化的规律,目前主流的特征有LPCC和MFCC;语音特征矢量序列通过声学模型和语言模型可以转化为字符序列,声学模型是通过声学、语音学这些知识把语音特征映射为音素单元,语言模型就是通过语言学等知识把字词单元拼接为完整的、有意义的且符合说话者表达含义的句子,通过模型训练可以得到一个参考模型。
智能语音质检中语音唤醒是基于语音识别的一个应用,其目的是提高语音交互的效率,降低功耗,其原理是:首先对输入语音进行预处理与特征提取,把语音特征与已经训练好的关键词检测模型进行匹配,只要输入语音存在或者只含有预设关键词,就可进行语音唤醒,并根据预设指令执行相应的操作,若比配失败则继续进行语音监听。