智能语音识别解决方案就是将语音转化为文字的过程,比如语音输入法、地图产品的语音输入。近几年来,随着互联网的发展,各种音频、文本数据不断积累和丰富,CPU、GPU硬件的发展,以及深度学习算法的大规模应用,语音识别技术的应用开始获得大规模的商业化扩展。机械对语音进行识别的过程与人类识别语音的过程相似:提取由录音文件或麦克风采集的音频特征,经过声学模型和语言模型的处理,最后得到识别结果的文字。有许多方法来提取特征,智能语音识别解决方案中比较常见的是MFC(多频互控)。
智能语音识别解决方案特性提取方面:在得到一段音频文件之后,会将这个文件转换成PCM格式,然后将这个文件分解为一片一片,即分帧,再对每一帧数据进行采样。
智能语音识别解决方案声模型方面:特征提取完成后,再进行声学模型处理。这一过程是将之前提取的发音特征数据转换成音位概率。
智能语音识别解决方案就语言模式而言:语言模型的加工需要大量的文本语料,通过这些语料统计我们平时看到的单词和句子出现的概率。在语音模式中,使用WFST技术比较多,通过对WFST进行搜索,可以得到对应于该音素读出的概率最高的句子,从而形成语音识别结果。
谈到智能语音识别解决方案,必须还要提到语音识别领域中最重要的深度神经网络技术,以简单神经元为基础的单元,可以组成更为复杂的神经网络的结构,后面的两个图分别是简单的神经网络和多层神经网络的例子,对比中可以看出,层神经网络更加复杂,层数和结点较多,计算量也较大。