{{detailStore.author.is_follow?'已关注':'关注'}}
原创文章
管理
不只是更换声音包那么简单 | 对话小鹏汽车 AI 产品高级专家郝超
新出行原创 · 文章

智能化是现阶段小鹏汽车最大的护城河。

如何守住并扩大这条护城河是小鹏汽车最紧要的事情之一。

所以你能看到无论是智能座舱还是导航辅助驾驶系统的 NGP 功能,在过去的一年时间里它们总是在不停的迭代、升级,从而带来更智能、更强的功能体验。

不负众望的是,在过去的时间里小鹏汽车的每一次升级都牢牢的稳固了它们智能化的标签。

包括在 7 月 15 日官宣在接下来要 OTA 升级的「智能语音助手小 P 全新 AI 声音」功能又是先人一步。

所以,这个「智能语音助手小 P 全新 AI 声音」到底有什么亮点?它的背后原理以及实现难度是什么?

在小 p 全新 AI 声音上线之前,我们连线了小鹏 AI 产品高级专家——郝超。

一、更像真人的声音 不只是切换语音包那么简单

体验过智能座舱的都知道,智能座舱的易用程度和对它的依赖程度,不是单纯的在车内布置一块或多块大屏那么简单,使用更多还是「语音交互」。

因此,好用且懂你的语言交互系统在智能座舱中就显得尤为重要,而做好全场景语音的同时,让语音助手的和您的对话更拟人化正是小鹏汽车在做的。

这一次 OTA 的「智能语音助手小 P 全新 AI 声音」就是小鹏汽车针对小 p 的一次升级

熟悉小鹏汽车的都知道,小 P 就是小鹏汽车智能座舱的智能语音助手,车内所有的语音对话、语音操控车辆功能的实现均是通过小 P 完成。

在过去,小 p 语音对话声音是下面这样的。

视频上传成功

而这一次小 P OTA 后「智能语音助手小 P 全新 AI 声音」功能将采用「超大规模在线神经网络引擎 + 小型离线拼接引擎」的技术组合,它的声音是下面这样的。

视频上传成功

对比来听的话,全新的声音更像真人的声音,无论是发音还是对话中的停顿

而且,全新 AI 声音拥有包括助理、聊天、客服、愉快、温和、亲热、抒情、新闻、严肃、不满、生气、害怕、悲伤、冷静等 14 种强烈情绪的变换能力,后续版本将逐步开发其应用场景。

二、全新 AI 声音难点在哪难点在哪

听到上面的声音前后对比之后,大家第一反应可能是“不就是更换个声音包吗?”其实了解之后发现并不是那么简单。

我觉得这个至少是媲美外科手术复杂度的工作,有非常大量的要去适配、要去调整,包括在行车的复杂情况下,要去通过在线方式获得这样一个声音”。

言语中郝超透露出此次的更新并不是我们想象的那么简单。所以在做这个语音包的时候,团队需要解决四大难点。

1 、如何贯彻全栈自研技术路线

首先就是功能连接、缓存均由小鹏汽车自研完成。要知道,这一次采用的是「超大规模在线神经网络引擎 + 小型离线拼接引擎」的技术组合。

相比于市面上车机采用的「小型离线拼接引擎」主流方案来看。小鹏汽车需要解决时延问题、网络抖动问题、如何与应用相结合的问题。

同时,还要增加了一层 NLU 自然语言理解,以便做更多业务扩展。停顿、语气、情绪、场景都可以自由定义。

2 、网络环境挑战

在线也就意味着要面对网络环境的挑战,所以卡播、断播、弱网环境的优化、离在线的策略都是一个不小的挑战。

在这个问题上,小鹏汽车采用了智能预加载算法,也就是通过提前预合成来提供整体体验。

但这个并不是 100% 的,大概会有 97% 左右都会是在线声音,这个时候它的声音是一个情绪饱满、生龙活虎,或者一个温柔的人。

在部分极端情况下还是会出现“掉线且无法预合成”的情况。因此在这种极端情况下小鹏汽车给出的方案是继续配有一个「小型离线拼接引擎」来为极限情况兜底

所以,当你 OTA 升级之后在体验的时候极端情况可能会出现「小 P 失真」的情况,也就是像以前那样偏机械感且不在情绪的声音。

3 、车机算力要求更高

全新 AI 声音的上线对于车机的算力要求也是一种挑战。过去的车机语音助手采用的是全离线,新的则采用了在线 + 离线的方式来产出更逼真的声音,这样的方案对于车机算力的要求也是比较高。

目前,小鹏 P7 车机芯片采用的则是 820A 方案。另外,由于车机内的功能越来越多,需要的语音包也就更大,而更大的本地语音包对性能的挑战很大。

所以要在性能与声音之间做平衡,来保证车辆在各种网络情况下都有好的体验,保证车机性能消耗与当前基本持平。

4 、 缓存空间成本的多级管理

过多的文本数据需要分级管理,并定期更新。小鹏汽车通过采用自研的「端云融合多级缓存」技术,实现了缓存的三级管理,确保用户高频使用内容可本地快速调取,体验更佳。

因此,解决这些问题的基础下我们才获得了这一次“简单的语言更换”。

三、考虑自定义选择 但更要做好当下

随着全新 AI 声音的更新上车,部分网友也更关心接下来小 P 的声音是不是支持自定义的问题,毕竟现阶段更新后的是一个女生的声音,那如果需要男性声音或其它声音有没有可能?

“在语音识别我们能不能去识别更多样的声音也好、方言也好,或者说更多样的表达,这个其实是我们一直在优化的一个方向。”

在郝超给出答案的同时,陈思云也就该问题给出了后续补充。

个性化这一块,第一个是我们也会考虑有多个声音的情况,比如现在即将 OTA 的版本里面,我们全新 AI 声音会更新到车上,但是现有的小 P 的声音也还在,用户也可以根据自己的习惯去选择保持即有的用户习惯。”

“当然如果多音色或者说其他的个性化,目前暂时是没有这块的计划,这个我们核心还是当前的,还是以我们新上的这个声音为主。”

四、什么时候开始推送?小鹏 G3 支持吗?

所以这一次「智能语音助手小 P 全新 AI 声音」会在什么时候开始推送?是不是只有 P7 车型支持? G3 或 G3i 支不支持?

小鹏 G3i 同样采用的 820A 车机芯片

为此,陈思云给出的答案是。

“车型规划这一块,首先 P7 上新声音都是全量发布的状态,其它车型还是跟着我们的规划走,后面还是以具体车型规划相关的信息公布为准。”

而关于小鹏 P7 全系均可升级,同时升级的时间也将会在接下来的 Xmart OS 2.6.1 版本的 OTA 升级推送给用户,推送时间大概是 7 月下旬。

结语

从功能层面来看,这一次小 P 确确实实就是一次“声音的更换”,但这背后确实面对了不少难点要解决,包括在线和离线的问题、算力的问题等。但这一次的升级也给了小鹏在智能座舱方面的另一种不同的交互体验,期待更新后的实际体验。

写评论
积分赞赏
点赞
评论区
  • 编辑
  • {{is_favourite ? '已收藏' : '收藏'}}
  • 举报
  • 加入黑名单
  • 删除
  • 取消置顶
  • 置顶推荐
    • 6小时
    • 12小时
    • 24小时
    • 3天
    • 一周
    • 长期
  • {{digest?'撤销精华':'设为精华'}}
回到顶部
  • 全部评论{{detailStore.commentnum}} 条
  • 只看作者
  • 最热
  • 最新
  • 最早

「待审核」

{{ comment.relativeTime }} 已被赞赏 {{comment.integral}} 积分 回复

暂无相关评论

发表一下个人看法吧