首页推荐
端到端与 VLM:智能化新一轮“军备竞赛”又要到来?
话题文章

有关智能驾驶,无图还没卷明白,新一轮的“军备竞赛”又要到来?

距离你第一次接触城区 NOA 过了多少天?

12 天前开启深圳城区 NOA 内测的智己与腾势、19 天前推送十城的小米、53 天前全量推送 NOP+ 的蔚来、145 天前全量推送的华为 ADS…… 644 天前,新出行做出了小鹏 P5 的一篇城市 NGP 视频。

细算一下,距离城区智驾的落地至今,有人硅步千里,有人尚在路上。两年的时间不快也不慢,但足够支撑我们在今年讨论城区智驾的下一个目标在哪——端到端与 VLM 的同时出现,会意味着智能化新一轮的“军备竞赛”节点到来吗?

“等等,你能先给我说一下,VLM 是啥吗?”

一、新的思考

- VLM 是什么?

VLM 的全称是 Visual Language Model,直译即视觉语言模型。顾名思义,这套模型将“视觉”看到的图片或者视频,通过模型转化为语言输出——直观一点的话术来说,就像是小学语文试卷里的看图写作。

而放在这篇文章里讨论的,是清华大学 MARS 实验室和理想汽车一起发布的 DriveVLM ,也就是用于驾驶中的 VLM 大模型。让我们来逐步解读一下:

清华大学 MARS 实验室与理想汽车联合发布的 DriveVLM 模型

- VLM 起到什么作用

“我们能不能教会 NOA 系统像人一样看得懂导航地图,而不是仅仅用感知结果进行判断?”李想在某次与理想自动驾驶负责人 @郎咸朋 讨论时发出这样的一句疑问。

这里我们借用郎博的话语,NOA 如果想学会怎么“做人”,那就得用 NOA 能理解的话术去解读人类司机的决策。郎博引用了《思考,快与慢》中的理论,即人的决策过程通常由快(直觉性判断)与慢(逻辑性分析)两套系统产出构成——

如果换算成 NOA 能听懂的话,即 NOA 如果想学会“做人”,那就需要一套跑得快、判断快的模型,和一套跑得慢、但有复杂处理能力的模型。它们像齿轮一样紧密结合在一起,又可以分工合作,该快得快,该慢就慢。

而在理想的构思中,DriveVLM 会充当那套慢速的齿轮,通过读取突发紧急情况、复杂的交通或不熟悉的路段画面,进行更深度的决策——比如下图中的 DriveVLM,会根据路面信息输出包括天气、道路类型、车道选择建议、驾驶决策在内的“类人”思考。

DriveVLM 可以根据捕捉到的路面片段生成各种行车决策和感知信息
即使在夜间,DriveVLM 也有着相当的识别率

但此时又引发了新的思考——LLM、VLM 这类语言大模型的生成并不是实时的,现实世界动态转瞬即逝,一套有延时的系统即使再好用,也无法纳入商业化的思考当中。因此理想智驾团队们联合清华 MARS 所做的事情之一,便是将 VLM 的延迟“打下来”。

在 MARS 与理想联合发表的论文中提到,在双方共同优化努力下,优化后的 DriveVLM 大模型在单颗 Orin 芯片的“跑”起来的延时缩减到了 0.3 秒,较正常情况下快出近 1 秒的时间。

引用自《DriveVLM: The Convergence of Autonomous Driving and Large Vision-Language Models》文中数据

- 与端到端打配合

那一套跑得快的齿轮由谁来负责?答案是端到端(E2E)。

你开车的时候会边听音乐边跟着唱吗?你开车的时候会和副驾聊天吗?如果有,恭喜你,你开车的路况真的很好,我在深圳很羡慕……

开个玩笑,但玩笑里包含着所要的答案——当路况好的情况下,我们通常可以在安全地驾驶之外,分出心来唱唱歌、聊聊天。此时我们更多依赖这套快的齿轮,对简单的路况做出迅速的判断。

而端到端模型输入传感器数据,模型直接输出规划轨迹的特性很好地复原了我们这套快的齿轮。理想给出的解法里,两块 Orin 芯片各司其职——一块负责端到端,一块负责 DriveVLM。

马斯克与他的特斯拉也是端到端的狂热支持者之一

听起来是非常完美的规划,除了——目前只有理想给出了端到端 + VLM 的解,而 VLM,并没有得到公认的“无可替代”说法。

二、命途各异

事实上,对于端到端的研究,各个车企的脚步从未停下过——曾经用于智驾系统中的感知 - 规控 - 输出这类规则逻辑,正在实验室、某些绝密内测、你看着眼熟但贴着花花绿绿伪装车衣的车型中被逐步替代:

何小鹏:“小鹏是国内首个将端到端大模型量产上车的公司;2025 年,将在中国实现类 L4 级智驾体验。”

小鹏在此前就规划了 XNet 深度视觉感知神经网络、XPlaner 规划大模型、以及 XBrain AI 大语言模型。

而华为 ADS 3.0 似乎会来得更快一些——早前微博著名人士来总便已经公开分享了搭载 ADS 3.0 的享界 S9 试驾感受。

而任少卿把蔚来的感知和规控团队合并为大模型团队,集成团队重组为交付团队——这也与 @Harry_Wong 的言论相互印证——端到端是一个架构设计,也是一种开发模式和组织形式。

当然,除了理想、小鹏和华为之外,还有很多你知道、或者不知道名字的车企和智驾公司等也加入了端到端的竞赛中。

而端到端 + VLM,可以是通解,但并不是唯一解——就像人类在 95% 的时间里保持着理性和高效的驾驶判断,但总有 5% 的复杂场景,不是故事,便是事故——因此用一颗 Orin 跑出端到端的效果,理想给出的结论远比后半句的“另一颗 Orin 跑 DriveVLM”更重要。

因此我们现在能看到的——端到端是热潮,同时也逐渐演变为趋势——即使目前的所谓端到端还处于“白马非马”的阶段。但由点到面,单个环节的端到端会随着发展慢慢铺开,统一。

这趟热潮还带来更残酷的事实:无论是好大喜功还是煞有其事,曾经依靠比拼智驾团队人数判断强弱的时代即将过去了——意思是大多数人不再被需要,智驾团队的规模越变越小,而车企的钱也开始不经人手,为了端到端,为了各路大模型,将钱“烧”给算力,比拼谁的算力更多。

从这一点上看,你没有选 VLM ,我优化了 VLM——这些不重要,重要的是随着大家对于端到端的持续解读与投入,谁在各自的命途上行走地更远,才更有可能拿到下一轮军备竞赛的发言权。

- 所以呢?

写到这里,我没由来地产生出一股“智能驾驶厌恶着人类”的感受:

感知规控时代,人类如同父母,为初生的智能驾驶编写规则,引导“它们”从牙牙学语到蹒跚学步。

而随着年岁增长,智能驾驶不再满足与规则的输入与输出,各路大模型的出现,意味着“它们”有着自主分析的能力,不再单纯“听妈妈的话”,就像是人类的青年时期,理想与现实冲突的爆发——

智能驾驶的理想国之中,人类工程师,人类测试员,甚至人类司机的身影会显得越来越少,“它们”是如此讨厌着人类的介入、人类编写的规则、人类的……

但现实的生活中,当一台亮着辅助驾驶灯的车辆,被后方司机嫌弃着通勤效率闪灯鸣笛时,为其羞愧和善后的,依旧是人类,也只能是人类。

写评论
积分赞赏
点赞
评论区
  • 收藏
  • 举报
  • 加入黑名单
回到顶部
  • 全部评论5 条
  • 只看作者
  • 最热
  • 最新
  • 最早

慢系统并不是想让他慢运行。而是目前的芯片算力不行。等thor看看效果如何

这个慢是指人,面对复杂场景时人会下意识先在脑海中进行思考-得出结论。而VLM其实在Orin跑着速度也能达到理想的要求了

回复 姜indigo原来如此。所以 端到端≈不用思考的肌肉记忆,几乎不需要推理 vlm≈大脑思考的逻辑推理

军备竞赛。。。长知识了

视觉语言大模型的真正广泛应用还有很久