当前,智能语音识别解决方案支持综合配置和分布式配置。
集成智能语音识别解决方案适合户外、工厂等特殊环境的应用场景。综合语音识别方案中,客户端和语音处理引擎运行在联想微型桌面上。该系统支持语音识别、语音录音、语音转换等功能,无需联网。当用户恢复到网络接入能力后,可以将录制的语音文件和保存的文本文件迁移或备份到数据中心。
智能语音识别解决方案整合部署的配置方式。
对于大规模、高并发的应用,分布式语音识别方案非常适合。其中,用户端运行在安装了操作系统的电脑上,负责语音数据的采集和文字转换的初步处理。与此同时,客户端能将声波转换成脉冲编码调制数据,录制、播放语音文件、保存语音识别文本文件,并能实现语音文件和文本文件的快速映射。
话音处理引擎运行在服务器端,负责将语音转换成文本。在服务器端,系统通过语音处理引擎(包括信号处理、声学模型、语音模型、译码器),将脉冲编码调制的语音数据转换为文本。
智能语音识别解决方案在云中分布式部署终端的配置方式。
智能语音识别解决方案具有语音识别和文音匹配两大功能。
声像识别功能支持实时语音转换和语音文件转换两种模式。预设为实时语音识别模式。这种模式下,客户端实时输出用户语音识别文本,并在线编辑输出文本并添加标点。当语音识别完成后,系统可以以Word或TXT格式保存文本,以WAV格式保存语音文件,便于后期归档和查看。该系统支持实时识别长音频流,适用于直播审核等长流音频场景,可将庭审、采访等场景的音频信息转换成文本,降低人工记录成本,提高效率。
声音文件识别是指识别通过客户端提交的语音文件,将音、视频文件中的语音信息转换成文字信息,可以方便地查询相应的音视频文件。话音文件识别适用于字幕生成、音频数据转写等场景。
音标映射功能,可以方便地将实时语音转换所产生的文本和同步的录音文件映射到,从而方便了后期人员校对修改。另外,该系统还能根据特定的文字信息快速定位到具体的录音内容,并能在实时语音识别过程中对语音数据进行同步录音。
智能语音识别解决方案语言技术日臻成熟,准确率不断提高。
从技术成熟度曲线来看,智能语音识别解决方案已经处于成熟阶段,商业系统的准确率在某些情况下甚至可以超过专业速记员。更重要的是,语音识别在我们的生活中随处可见,比如把微信语音转换成文本、导航时语音输入目的地、使用智能音箱语音点歌等等。以用户为输入接口的语音识别成本较低,只需一次麦克风和网络连接即可。所以,可以预见,语音识别将越来越多地应用到不利于屏幕和按键设计的设备上。
然而,语音识别的准确率还不能达到100%,而且总有可能在某些设备、某些场景或特定任务上超过可用阈值。首先,语音识别技术在不断发展,新的算法不断出现,准确率不断提高;另一方面,语音识别引擎的定制优化非常重要,当识别性能不够理想时,需要对应用层、引擎层或模型层进行调整和优化。该方案不仅部署灵活,而且可进行深度定制优化,是企业级语音解决方案的可靠选择。