那现在语音体验发展到哪一步了?实现这样的体验都有哪些路径?这些路径之间有什么不同?为什么我们的体验越来越好?下面我们带着疑惑,一一讨论这些问题。
现在的语音系统体验怎么好了?
首先语音的基础能力更强了。
之前虽然能完整跑通 ASR、TTS 这些流程,能实现一些简单的 NLU/NLP 能力,但体验有很多漏洞,比如有可能识别失败,指令完成缓慢,交互逻辑不合常理等等。现在来看,这些基础能力正变得更强,基本可以称得上是一个「有价值的工具」。
具体表现有,能够支持打断,支持多轮对话,支持上下文理解,支持中英文混合理解,可以自动纠错,支持免唤醒,误触率降低,反应速度增加,能够识别更轻的声音,能够输入更长的对话,能够理解一条语音多指令,能够理解一些普世的伦理逻辑……
说到底这些基础能力只是一种交互模式,是一种手段,真正要实现价值需要结合应用和生态。所以现在的车载语音还将触手伸向了更多领域:
1. 将语音和软件功能结合。比如和操作系统结合,和地图导航结合,和车机上所有的应用生态结合,和市面上主流的 Feed 流结合。举个例子,你可以说「屏幕亮一点」,「回到主页」,「打开 XX 地图」,「我想听周杰伦的歌」,「搜索附近的充电站」,「苹果今天的股价是多少」,「林则徐是谁」等等。和多种应用结合其实是个很大的突破,可以想想,至今 Siri 都不能完成「我要听 XX 的歌」这样的指令。
2. 将语音和硬件设备结合。这里是指控制车内的一些硬件,比如开闭空调、车窗;和其他的智能设备结合,比如车控家,智能手表等等。
另外近几年还衍生出了虚拟助手的概念。这对完成指令本身没有帮助,但在感性层面,它往往非常能打动消费者。一个合适的虚拟形象,往往会成为这套车机系统,甚至这款车的加分项。
同样的语音体验 不一样的实现路径,不一样的想象空间
可喜的是,现在确实已经有一部分车型,或完全或部分实现了上面这些功能。但它们的实现路径其实不太一样。下面我介绍 3 种。
1. 使用 BAT 的车联网方案,搭配对应的语音能力。
肤浅来说,现在车机系统最明显的表现就是搭载各项互联网应用,比如高德地图/QQ 音乐/车载微信/爱奇艺等等。所以 BAT 现在都有一套比较通用化的自家生态方案,里面有不同的功能模块,OEM 可以选择「打包上车」,这其中就包括车载语音系统。
自家的生态,配上自家的语音,那肯定体验会更好一些。拿腾讯来说,他们推出了微信车载版,在腾讯叮当提供的语音下,我们收发微信语音非常流畅。另外腾讯还有一个产品叫「腾讯随行」,配合腾讯叮当收发微信位置,打开小程序,也很流畅。「爱趣听」也是一样。
当然,腾讯也会辅助开发系统,给予 Feed 流支持,做一些 NLU 的开发,所以和腾讯合作的车机系统(比如哈弗 F5 搭载的 Fun-Life)基本都能实现我们上面说的那些功能。同理,百度(DuerOS)和阿里(斑马系统)的方案也可以。
不过,虽然 BAT 都能实现上述功能,但他们还有一个共通点就是基本无法实现「全流程开发」。也就是说车内基础的 ASR 和 TTS 能力可能是由其他语音供应商提供,而 BAT 负责语音控制生态以及其他相关 NLU 的工作。
当然,这并不是说 BAT 没有实现 ASR 和 TTS 的能力,据了解有些互联网大厂已经开始做相关的技术储备。只是语音交互是一个从前端降噪-语音触发-识别-理解-语音反馈的长技术链,而科大讯飞、思必驰、纽昂司等老牌语音公司,在 ASR 和 TTS 这种基础语音能力的工程化交付上有更多的经验,所以大家各司其职,合并合作,其实是更有效率的做法。
2. 不把语音当产品,而把语音当平台。
我们在《奇妙车机情报局》还测过一个产品,是博泰开发的擎 Mobile。当时确实给到我比较舒适的体验。(这里不谈论它的产品路径,只谈语音功能的实现。)
它的识别速度很快,纠错能力较好。可以一边听,一边说,一边执行命令,还可以随时打断。我可以说话声音很小,也可以说很长一段话。它可以清晰识别,然后摘出长对话里的多个语音命令。
据了解,如果车载语音仅依靠供应商,那用户的指令从触发,到识别,到理解,到反馈,再到执行,是一个脱离的过程,反应时间自然就长。而博泰认为,车载语音不只是一个技术产品,而应该是一个涉及到整车的电子电气架构、车辆信息安全以及车辆数据闭环的「平台」。
所以擎 Mobile 是一套集成了芯片、硬件、软件、云端和生态的平台化产品。
以导航功能为例,它会在识别指令的同时,直接抓取关键字上传到地图引擎。比如我说「导航到北京机场 T3 航站楼的停车场接个人」,关键词是北京、T3、停车场。关键词抓完,导航实施执行。所以有可能我话没说完,云端已经开始计算执行了。这是集成的好处。
当然这个产品也并不完美,在我当时的体验下,虽然语音有很极致的体验,但它和其他应用生态的结合和适配比较一般。另外未来博泰如何把相关能力输出给 OEM,我也暂时打个问号。
3. 自己定义语音交互框架。
近期小鹏汽车的新车型 P7 火了(不是着火了),最亮眼的部分之一就是它的车载语音。
识别速度很快,功能结合深入,对话逻辑自然幽默,语音助手的新形象也更高级了一些,而且语音反馈的女声实在是很甜美。这其实能表明,AISpeech 和 Xpeng in House 把 ASR 做的扎实,TTS 优化地好,NLU 也做了比较深刻的训练。
值得一提的是,P7 的语音交互框架是小鹏自己搭建的,所以它也不只是个简单的产品,而是个平台。它可以在初期就构建很多深层的功能,让车内的数据联动起来,同时对数据安全和用户隐私进行保护和封锁。也正因为功能是自己定义的,所以用户数据自然也就跑到自家口袋里来,这就让运营用户成为可能。
相对 BAT 提供的语音能力,小鹏汽车有完全自主的产品定义权;相对博泰,小鹏汽车有产品做支撑。P7 的语音系统确实是一个占优势的产品。
另外,再说说说自己搭建语音交互框架有多重要。我举个反例。近期我们体验了一套传统豪华品牌下全新换代车型的车机系统。这套语音系统的框架是德国定义的,语音供应商分别有两家,一家是纽昂司,一家是国内供应商(我们暂且称它为 XX),同时它还接入了天猫精灵的能力。
纽昂司和 XX 都承担了 ASR 和 NLU 的任务,算是并行关系,所以用户输入任何一个指令,这俩通道都要跑一遍,最后它俩统一口径实行指令。一旦谁慢了,就要互相等着,所以这套语音的执行速度较慢。而且它的 TTS 有拖音现象,据说是历史遗留问题,是上代车型上的老方案,所以只能如此。再说天猫精灵,它并不会自然唤醒,而是你要对唤醒的语音说一句「你好,天猫精灵」,它才会出现。
这么看来,这个语音交互框架是挺乱的,但大厂认可自己的节奏就行。而且倒也不是说要一味的激进,因为不是每个大刀阔斧的产品都是成功的。所以,激进还是保守,后果都要自己承担。
为什么现在的车载语音系统变得好用了?
车载语音的完善,供应商和 OEM 都做出了努力。
从供应商方面来说,早期的语音供应商并没有开箱即用的语音方案,都需要大量对接、磨合。现在各家方案在工程化上解决问题越来越多,实用性也就越来越好。具体表现就是各个技术环节的指标都有量的提升(这里包括抗噪、识别、理解)。
在 OEM 方面来说,语音的交互框架更完善,从以前的单工单轮交互逐渐往多轮连续对话能力升级,对话更自由;NLU 的泛化支持更充分,语音识别更准,对话逻辑更自然;功能应用更丰富,更实用,语音和各功能的融合更深入。
简单来说,软硬件技术的升级,让机器能听清我们说什么;更丰富的语料和更完善的语音模型,让我们能听清机器说什么;同时上车的功能更多更实用,能满足我们更多车内的需求。以上。
总结
谈起语音进入汽车,可能要追溯到 10 年前。如今 2020 年了,车内语音交互终于让我们感受到了进步。
上面我们谈到现在的语音交互如何好用,实现路径有几种,也分析了背后的原因。这是每家供应商在推着行业往前走,也是每个车厂自己的选择和节奏。也许有些路是走弯了,甚至走错了,但好的方面是,汽车配置的越来越下沉,用户能用更合理的钱获得更好的体验。
最后来思考一个颠覆问题:语音交互一定是车内最好的交互方式吗?如果不是,那上述话题就意义不大了。事实上,我们确实在一边大力发展语音交互同时,一边寻找新的交互方式。
最近使用
我的收藏
大家上传的表情
最近使用
所有表情
暂无相关评论
发表一下个人看法吧