图片78
当你在智能音箱面前提问时,你会得到一个令人困惑的答案。使用过智能音箱或其他语音助手的朋友对这一场景并不陌生。
如果你怀疑自己被削减了智商税,你可能会问:为什么智能音箱宗莎答非所问?它能变得聪明吗?
要回答这个问题,首先要了解智能音箱对语音的理解。
对于机器而言,语音、文本、图片、视频等信息属于非结构化数据,无法直接理解。结构化数据是机器能够理解和反馈的东西。
简单理解两者之间的区别和关系。非结构化数据相当于编写一段文本的word文档,而结构化数据是excel文档,总结了这段文本。
当我们向智能音箱提问时,智能音箱首先将语音转换为文本,然后理解并反馈文本的结构化数据,然后将文本转换为语音输出答案。
这三个过程对应于三种技术,其中ASR(自动语音识别)和TTS(处理结果转换为语音输出)技术相对成熟。例如,ASR广泛应用于语音到文本、语音输入法、智能翻译笔等应用。根据中国科学院2019年的测试,中国四大主流智能音箱品牌的ASR识别率超过94%。
智能音箱不能理解我们的话,问题主要在于NLP(理解文本的含义并进行处理)。
获得文本后,为了正确地将文本转换为结构化数据并做出反应,需要进行一系列操作,如语料库清洗、分词、词性标签、实体命名识别、删除停止词等。
今天智能音箱已经可以比较智能来处理打开电视、今天天气、设置闹钟等明确的指令问题。
然而,在开放的上下文中,智能音箱经常出现错误。这是因为口语文本经常有歧义,机器很难理解,尤其是在处理汉语同音词多、语法复杂的时候。
例如,在一个半小时后帮助我的闹钟,音箱基本上无法识别它是半小时还是一个半小时。另一个例子是帮我预订一家没有日本菜的餐厅。人工智能可能无法理解句子中不的含义。
面对复杂的自然语言,人工智能必须分析大量的语料库,即学习人类语言的例子,以识别、理解和消除歧义。
有三种主要来源的语料供AI学习。
首先,AI算法企业根据自身需要构建的语料库,如人名库、地名库、歌手名库、歌曲名库等。
二是从互联网上抽取大量文字,最常见的是从社交网络中抽取,这样机器就可以理解最新的口语表达方式。
最后,是用户在与产品互动过程中生成的数据。例如,我们与智能音箱交谈的一些内容将被上传到制造商的语料库中,供人工智能学习。
假如长时间与智能音箱交谈,是否能让智能音箱更加了解我?
答案非常困难。一般来说,所有的培训和学习过程都是在人工智能算法商的一端完成的。算法商会根据所有用户的数据,而不是特定用户,对人工智能进行培训和更新。
因此,如果你想让智能音箱理解你的个人习惯性语言疾病、倒装、口头禅等,目前最好的方法是手动输入并指定应该做什么反应。
尽管智能音箱技术还没有完全成熟,但是在互联网巨头眼中,它是一个必须被攻下的位置。
虽然智能音箱的出货量在上升,但并没有给巨头们带来利润。一些企业告诉媒体,企业是通过补贴来维持智能音箱的低价。
巨头们的基本逻辑是,智能音箱很可能成为未来家庭的控制中心,所以我们应该为未来物联网时代的门票交换当前的低价策略。这种策略确实可以增加销售,但有效地解决用户的痛点可以确保产品的利用率。
为了提高智能音箱在用户生活中的不可替代性,制造商正在尽最大努力为智能音箱添加新的功能,因为没有人希望看到,当物联网时代真正到来时,用户家中的智能音箱上布满了厚厚的灰尘。






