语音3
一、智慧语音识别解决方案车主端涉及的场景及相应功能。
1、语音唤醒;2、出取车;3、驾驶员听单问题提示及后续操作建议(听单诊断和听单指导);4、开启自驾导航;5、联系客服;6、天气、奖励、到账、提示等。
独特的智能语音助手。拟人化定制。
提供了姓名、声音、个性、驾驶员称呼、广播内容的定制。
驾驶员完全使用周期陪伴性。
驾驶员从新手到退出全使用周期的形象和功能陪伴。
二、智慧语音识别解决方案的车主端不同的唤醒方法。
支持主动广播和司机唤醒两种方法,多从多个方向发现司机问题和提出建议。
三、智慧语音识别解决方案的车主端整体设计。
开发智慧语音识别解决方案之前,车主端语音交互功能大体构建,主要依据是:
要求驾驶员语音交互的语句相对固定从识别速度考虑,使用离线识别库成本低、效率高(后期单个功能识别要求已有宽泛化的趋势,因此,离线识别库开始部分转化为AIAPI)。
单独的要求实现功能比较专一简单的交互结果要达到的目的是固定的,因此可以预先设定命中关键词,然后为其配置后续所需的操作。
这种功能具有交互性和使用时间短,通常只需要与驾驶员在特定的时间内进行交互,用完即销,不容易与其他交互功能及行程录音产生载入和使用冲突,所以只需在初始化时判断当前的收音通道再进行设置。
由于没有具体的图像显示形式,分散的语音交互通常是由于某些前置组件的显示而发生,理论上,这些组件不依赖于语音交互,也可以独立使用,两者并不具有绑定关系,所以实际上,这些交互功能没有自己的组件展示能力。
事实上,智慧语音识别解决方案的结构设计可以完全类似于人类的神经系统。
被动式Push等,VoiceInput等被视为“感受器”(接受外部信号,如眼睛、耳朵)
声源开关控制器可视为“中枢神经”(确保信号传送正确,选择到达时最重要部位)
SDKEncapsulation是“语言中心”(将信号归纳成基本语义)
BusinessAPI将其视为“大脑”(负责解释语义并对其做出反应)
Presenter将其视为“神经中枢”(将语义封装传递到大脑,然后接收来自大脑的指令,解析后传给相应的器官)
视图、客户端可做动作(声音播报、页面跳跃等)看做“效应器”(接收反应信号的相应器官,如嘴、手)
灰色控制域(Apollo控制域)视为“规则”(限定神经系统处理的外部要求)
所以,智慧语音识别解决方案交互构图,从人类仿生的角度可以理解为另一种表示:






