P7+ 真正纯视觉端到端—智驾篇_文章

AI智驾时代

2024-07-23

关注

P7+ 真正纯视觉端到端—智驾篇

文章

1、关于自动驾驶与AI大模型（摘自何小鹏访谈）

（1）小鹏未来 18 个月把自动驾驶能力提高 30 倍。

做到：第一，两年内如果你每周开车，除了上下车，只用抓两三次方向盘，而且很安全。第二，便宜，能够让 20 万以内的车，把这些能力全部用上去。

(2)技术的突破会从2025明显开始。

所有软件厂商如果不用AI ，而是继续用算法的，都会掉队。现在的自动驾驶还相当于小脑，自动驾驶还有大脑的问题，这2个问题2025会很快一定程度的解決。

(3)视觉大模型跟AD（自动驾驶）不完全相关。

AD是既有感知，又有定位，又有规划，又有执行，又有控制，又有整个体验体系。把这一套打通,这跟语言大模型是两套不同逻辑，但是一套底层架构。

(4)大模型靠人编程解决不了。

很多人说大模型很好，把它放进来就可以用，但连自动驾驶都没搞通，放进来，根本搞不通。就应该按照它的逻辑重写数据流逻辑，增加数据的收集，做预训练。训练出来得到的引擎，在仿真环境里面去测试。为此还要重写大仿真环境，适应大数据量的测试逻辑,大模型给大家开了一个口子，在无限场景内靠人编程是解决不了的，是“大力会出奇迹”。

（5)“靠规模、效率超越 AI 差距”是一种误判。

中美 AI 差距在放大,这次第三次到美国，AI变化比想象大，特别是体验Tesla和Waymo，Waymo 还没转成大模型，是用原来的算法体系，以前 Waymo 从体验上比 Tesla 领先非常多，但这次，感受到 Tesla 的加速度。打个比方，以前中国靠规模、靠效率（规模是钱的规模、人的规模，效率是做事效率），但在AI智能创业上，想用靠规模、效率变化快速追赶AI，这是很多人会产生的错误判断，AI 变革的猛烈度会快很多。

（6）不是有钱，就能干好智能驾驶。

底层有算力，算力更底层是 Bom (Bill of Materials，物料清单)，算力往上一层有模型或者 AIOS (AI Operating System，AI 操作系统)。再往上，在模型的 AIOS 上层是数据。数据再上一层叫自动驾驶全球化的政策。再往上是体验。足够多的钱只是在算力角度发力，没有人能直接拿钱拿普通大模型去跑通自动驾驶。

2、关于小鹏自动驾驶路线

（1）激光雷达不是小鹏城市导航辅助驾驶的必要条件。

小鹏对激光雷达的使用一直很克制，patrick liu 在CVPR 发表演讲中，为小鹏城市辅助驾驶打下强悍基础的XNet，几乎没有用到激光雷达的信息，激光雷达只是在 XNet 给出感知结果之后，进行识别距离的二次确认。激光雷达没有进入前融合，实际上激光雷达主要是用于一些通用障碍物的识别，例如一些从没有见过的物体，激光雷达对于小鹏整个感知系统处于一个不是很重要的状态，没有进 BEV 网络进行训练。吴新宙也提到小鹏用激光雷达一直非常收敛，这也证明了激光雷达在小鹏目前的技术栈中被依赖的程度并不高，这个拐杖是可以放下或者说容易放下的，从这个角度看，小鹏的路线与特斯拉纯视觉路线非常类似。

（2）小鹏肯定坚定地全面转向端到端的路线。

之前的算法规控路线已经不是小鹏的思路，而且小鹏的纯视觉的转向也和纯视觉的转向有融合的地方，这个最终和特斯拉现在的端到端+纯视觉，也不谋而合。

（3)小鹏的纯视觉智驾和其他的并不一样。

华为的纯视觉走的是一个高低搭配的路线，类似F22+F35飞机的意思，依然没有放弃激光雷达融合，高端城市领航辅助仍深度融合激光雷达。华为对资源、规模的把控能力，走双路线，不放弃任何一个，是可行的。

但小鹏并不这样，坚定的走了类似现在特斯拉的路线，以后小鹏的高端车型可能仍会有激光雷达，但纯视觉路线不会变，大模型已上线半年，且快速取得了成效，当训练出AD已非常好用非常安全时，也许就会彻底放弃激光雷达，大概2025年！

（4）小鹏的端到端马上发布。

端到端可以做到每一条路都能开，都好开，包括小区、小路等，2025年城区智驾会比肩高速NGP的体验，2025年在中国有望实现类L4级智驾体验。

7月底，小鹏智驾马上发布每条路都能开的5.2版本，5.2的内测版已发布，整体突破很大，OTA速度超快，但在快速并道、横向切入等危险情景的训练上还远不够，xngp大模型、大数据、大算力训练势在必行。

3、什么是端到端

端到端前的方案是“按规则”的自动驾驶，它就像驾校教练教的侧方停车口诀：沿着线30cm往后倒，后轮过线了就右转打死，xx轮压线了就回正……而端到端就是见过各种奇形怪状车位&泊法的老司机，早忘了什么口诀，只是看到了一个车位，凭着神经网络的“直觉”，一把方向一脚油门就钻进车位了。
所以同一场景，端到端生效的前后其实是能明显感觉出来的，就像@XP-何小鹏在查作业视频里说的，以前的掉头场景可以明显感觉到一个规则接着一个规则的切换，而端到端可以像人一样丝滑流畅地掉头。

4、关于P7+（F57）的智驾方案

（1）感知硬件已确定是无激光雷达的纯视觉硬件方案，作为F平台产品，大概率沿用“1个800万双目、4个300万侧前侧后、4个130万环视、1个170万后视、1个100万DMS摄像头，5个毫米波雷达，12个超声波雷达。”的感知方案，毫米波已确认升级为3D毫米波雷达，摄像头分辨率能力大概率也会有提升，以进一步提升感知范围。

（2）当前芯片方案大概率仍为OrinX （pro版）或双Orin X（Max版）；小鹏与大众进行全面电子电器机构合作，英伟达芯片必然是首选项，成本也许还能降，这也是小鹏设计运用最成熟度的芯片；明年不排除自研芯片加入，到时软硬件融合及算力利用会再上一台阶。

P7+ MAX版的双Orin X的芯片算力高达508TOPS，远高于特斯拉HW3.0 的144TOPS ，可能稍低于HW4.0算力能力，综合算力仍是顶流，随着大模型训练学习深入，可以完全应对城市复杂环境，具备端到端的城市NGP的算力能力，甚至未来可达L3或L4能力。

P7+ Pro版的单Orin的芯片算力254TOP，整体能力与特斯拉Hw3.0的算力相近（特斯拉具有最大利用效率），随着大模型数据训练能力提升，预计可以完全实现高速及城市环线、封闭道路NGP，城市一般道路NGP可以局部实现，或具备全域AI代驾的能力。