新出行深度|对话理想汽车郎咸朋、贾鹏 理想离端到端还有多远?
新出行原创 · 精品文章

从去年开始,理想经历了三次技术架构的调整。

从需要先验信息的 NPN 网络,再到无图 NOA 技术路线,再到如今的端到端技术路线。

理想在去年年底到今年年初切换无图 NOA 路线,并在今年 4 月 15 号切换端到端版本的研发,今年 7 月底正式发布首个端到端+VLM 的千人团内测版本,三个月完成首个版本的研发。

三代版本的技术迭代对研发会有较大的消耗,但郎咸朋认为只有理想走过了过去几代的技术才能更加坚定的投入端到端,也正是因为理想的智能驾驶团队有了几代的技术积累,给端到端的快速推进打下了扎实的基础。

在今年的全国都能开的号召下,端到端的能力似乎抢占了新的技术高地。似乎一夜之间全国都可开的能力不再是衡量技术天花板的唯一标准,除了“都能开”,还要“像人一样好开”成为新的内卷高度。

和目前主流技术方案不同,理想的技术路线比我想象中更加激进,理想采用的是 one model 的策略,one model 可以简单理解为传感器数据输入进后直接输出车辆行驶轨迹,再由控制端处理行车信息。

这也和小鹏在 AI 科技日上所说的渐进式路线有所不同。

这也意味着理想需要再一次抛弃掉上一个技术路线,在理想看来只要是分段式,传感器输入和下游轨迹线输出之间还是会存在人工干预,就不算端到端。

正在加载 视频播放器。
当前时间 0:00
时长 0:00
加载完成: 0%
媒体流类型 直播
剩余时间 0:00
 
1x
  • 节目段落
  • 关闭描述, 选择
  • 关闭字幕, 选择
    理想端到端软件版本通过环岛

    凭借过去理想销售的车型,目前理想可用于端到端的训练数据已经有 12 亿的数据总量。理想还为此定义了一套老司机训练样本,由人工定义老司机规则由系统自行抓取,目前大约有 3% 的老司机样本提供给端到端模型训练,而这背后还有理想目前有 2.4EFLOPS 左右 (理想目前储备算力为 4.5EFLOPS 左右)的算力储备。

    目前理想也完成了数据闭环的自动化。端到端的团队在 200 人左右,路测团队不超过 5 个人。

    理想的端到端系统源自《思考,快与慢》书中,丹尼尔提到人类大脑有快与慢两种作决定的方式。常用的无意识的“系统1”能够迅速对眼前的情况作出反应。有意识的“系统2”通过调动注意力来分析和解决问题,并作出决定,它比较慢,但不容易出错。

    理想的系统2,主要为了处理端到端处理不了的 5% 的特殊场景。但两者的训练方式截然不同,系统 2 需要学习的是互联网各大文献书籍、驾驶技巧与规则,还有人为精标数据三种。它更像一个 ChatGPT 一样,实时学习并且有对话交流能力,辅佐系统 1 。

    为了让系统 1、系统2 有更好的监督训练,理想还在云端加入了系统 3 ,它是个重建+生成式模型,可以生成题库,像考试一样对系统1、系统2的能力做监督。

    郎咸朋把新一代端到端的架构描述为“是整体解决人工智能在物理世界映射的思路”。也意味着理想新一代技术框架不仅应用在自动驾驶,也包括后续的机器人等领域,但理想认为并不会参与到 Robotaxi 的研发以及运营上。

    在较为争议的激光雷达技术路线上,理想认为在端到端+VLM 时代,激光雷达仍有其存在的必要性,因为它能够在 AEB 等主动安全功能上起到关键作用,所以短期理想并不会走向纯视觉路线。

    更有意思的是端到端的到来,我们对其有了更多新的探索,比如全新商业模式、高速城区以及泊车的打通甚至全新 EID 交互都做了详尽讨论。

    左一: 理想汽车智能驾驶技术研发负责人贾鹏 左二: 理想汽车智能驾驶研发副总裁郎咸朋

    以下为新出行与理想汽车智能驾驶研发副总裁郎咸朋、智能驾驶技术研发负责人贾鹏对话,经编辑:

    一、 只有走过前面的路 才能更坚定切换端到端

    新出行深度:我们一年经历了三个版本的架构切换,能否和我们描述下具体细节?

    郎咸朋:刚开始是有图的方案,就是高速然后要做城市了就切到NPN 这方案。 NPN 之后又切到无图,现在又切到端到端。基本上一年多时间做了三代研发。

    刚开始做城市 NPN 的时候想法很简单,就是我们原有高速 NOA 的东西能不能转到城市 NOA 来,最简单的就是原来高速上用的高精地图。

    但是我们和高德去聊,他们没有现成的城市的地图,或者能提供的非常有限,去年年底之前,高德大概能提供 20 个城市左右,而且也是城市的部分道路。

    所以去年上半年我们就做了 NPN 的方案,也就是神经先验网络。尤其在这个复杂的路口部署,但是跑的过程当中,特别到年底我们交百城后发现也不是那么 work。先验信息的更新覆盖需要有大量资源,特别在一些小的三四线城市。

    如果从用户角度出发,再往下走,那就必须要抛开任何的先验资源都不能用,才有可能做到全国都能开。就自然而然去切到无图 NOA。

    新出行深度:切无图方案大概什么时候?

    郎咸朋:去年底,今年年初。但这之前做了预研。当时在深圳其实在 9-10 月就开始了。

    新出行深度:频繁的切换是否对内部研发会有影响?

    郎咸朋:我们觉得这是一个循序渐进的过程,你不做前面这些事,你可能不太能直接切去做后边端到端的事情,因为这个完全是不一样的两个方案。

    新出行深度 :宣布端到端不久,就有一个千人团版本,是怎么做到的?

    郎咸朋:我们 4月 15 号开始切端到端,到 7月底,也就是三个多月的时间。

    这三个月时间如果是过去的话,我们最多出一个内部工程师能用的版本,到现在鸟蛋状态可能至少再过三个月。但是我们现在三个月就已经能拿出来一个鸟蛋状态,这里面一个比较大的变化是少了很多人参与测试工作,真正跟原来跑车测试的人也不超过 5 个人。

    我们天天在做事情,其实就是调数据,调配方,就数据的比例、数据的量与质量,然后还需要有强大的训练集群做支持,我们同时现在训可能五六个版本。 

    新出行深度 :端到端第一个版本大概什么时候推送?

    郎咸朋:最快今年下半年,最晚明年上半年。

    二、“让端到端体验更像人,从何而来?”

    新出行深度 :端到端的挑战在哪里?

    郎咸朋:端到端+ VLM的方案跟以前做无图完全不一样。

    以前无图、NPN其实本质上来说的话还是一套技术方案,就是我从产品的需求角度出发去研发我的这个功能,然后再到功能测试交付这样的流程,只不过中间可能模块化的,或者是数据驱动多一点,本质上是一个研发体系。

    但到端上端后我们就没有用户产品需求指引了,只知道让端到端开的跟人一样。

    之前是功能,我要这个城市 NOA 的功能,这个功能包括过匝道、路口等等。那现在我们到了端到端后,它变成一个能力,就像人类老司机开车的能力,其实一个很大挑战是它不太好评估了。

    那我们就要有一套完全不一样的流程去做现在的研发。以前研发大量是靠人,分配不同人去设计这个需求、设计规则再到测试。端到端+ VLM 的方案后基本变成参与人数很少的自动化流程,数据来了之后自动的转化成了样本进行训练。

    新出行深度 :端到端的样本训练数据从何而来?

    郎咸朋:我们有一个非常大的 12 亿公里的数据库,这是我们之前积累的数据。我们再去挖掘相应类似的场景出来,在这十几亿里面去找到一些类似的场景,然后训练。

    我们先设定了一些叫做「老司机的数据筛选」的规则,由产品、研发和整车的主观评价团队一同来参与制定老司机的定义和标准,然后我们在所有的车主里边去筛选哪些人是符合这个五星司机的这个水平的。

    我们给每个人都打了分,我和贾鹏得分特别低也就 50 60 分。只有 90 分以上的,我们认为他是个老司机了。

    新出行深度 :老司机就像一个文件夹?我们一直收集相对应的数据。

    贾鹏:可以这么理解,但我们这个老司机他不是一个固定文件夹,每天都在增加。

    新出行深度 :比如说理想增程的模式导致它的覆盖率可能比纯电数据的覆盖率会更深一些?

    贾鹏:对确实是这样,纯电更集中在一二三线城市。我们就是有更多、更丰富的样本比如说四五线城市的小道、国道、省道,我们车主特别喜欢自驾。比如新疆、西藏等地方。

    新出行深度 :我们如何看特斯拉入华后, FSD 的表现?

    郎咸朋:特斯拉斯之前已经收集了数据的话,那另外一说。如果说从现在开始收集数据做这个事的话,可能还得有一段时间。

    新出行深度 :大家都说李想在试车的时候,跟很多人的维度是不一样?

    郎咸朋:他评测一套系统的时候,会更在意系统的体感。

    新出行深度 :端到端后面拼的是数据质量、算力?

    郎咸朋:端到端真正的用人工智能方式来做自动驾驶。过去其实大家拼的是堆人、堆资源。后面是拼数据、拼算力,数据的质量、数据的丰富度、数据的规模。

    算力我们现在已经超过 4 EFLOPS了,但是还远远不够。就是再往后拼的训练算力,拼的是训练数据,就拼这两个事情。

    新出行深度 :为什么端到端后会出现数据没法复用的问题?

    贾鹏:我们的摄像头模组是保持不变,都是标配 800 万像素的相机,理想的数据不会存在无法复用的问题。

    郎咸朋:其实数据的问题我们考虑非常早。2018 年2019 年开始思考这件事。从理想 ONE 开始目前已经有 12亿的里程。

    新出行深度 :端到端是一种过去技术平替?还是过去规则下的一种技术兜底?

    贾鹏:好多人说是能解决一些极限工况,但其实我并不这么认为。

    你看特斯拉的 V12.5 最近出来以后,大家第一个反应是非常拟人、非常丝滑。

    所以它不是应对极限工况就行了,普通工况也要做到丝滑好用,我觉得肯定是平替关系。我觉得这是端到端的核心价值。

    我觉得有点类似 Scaling Law 一样。从特斯拉 V12.3 到 V12.5 这个差距你就会发现了,V12.5 远远碾压 V12.3 的评价。

    但你看它的参数量大了 5 倍、模型大了 5 倍,然后它现在只能在 HW 4.0 上去跑。模型见过的场景越来越多学的行为越来越多,体验就会非常丝滑。

    新出行深度 :如何看分段式也叫端到端?

    郎咸朋:必须是one model完成之后才能纯粹利用人工智能的方式去运转所有的研发和迭代。分段式意味着中间还是有规则,没法非常极致的去做端到端。

    新出行深度 :我们怎么约束端到端产生的自发性行为?比如出现交通事故或者意外?

    贾鹏:首先都是从咱们的老司机学,我们只给它一些好的数据,而没有坏的数据。其实从两端就是一头和一尾,头上喂的数据一定要干净。

    第二点,我们其实是出轨迹,而不会到控制。我们到控制之前也加了约束,不是让端都端什么行为都可以做,我们靠一头一尾去约束。

    三、“不止要会开车,天文地理数学都要学”

    新出行深度 :如何更好的理解 LLM 和 VLM 的关系?

    郎咸朋:语言模型就是 LLM,就是利用语言文本类作为学习样本的模型。

    那么我们现在叫 VLM 模型,就在LLM语言模式基础上又加了视频视觉的部分。我们要训练它看到这张图就能结合自己的语言里的知识,能描述这张图里面是一个什么样的风景,从视觉到语言会有对应关系。

    新出行深度 :在系统 1 的基础上,为什么需要加入系统 2 ?

    郎咸朋:端到端它具备帮我实现开车的能力,但是开车的基础上模型必须是得遇到过的场景才能开。但是人不是,我们在在北京开车,在东京、纽约也一样会开。

    这时候系统必然得有自己的判断、逻辑推理。也就是应对未知环境的能力,因为自动驾驶的时候,路上一定会发生一些第一次遇到的场景。

    系统 2 是一个具备逻辑思考的大脑,但它的来源不是来源于接触了多少训练样本,而是来自于我背后的物理、数学、文化知识等知识。

    贾鹏:其实就是跟大语言模型类似的,大语言模型基本是把人类互联网上人类的所有的书籍,那你把这些所有的这个文本数据都会被模型训练。

    我们用了超过10 T 的文本数据再加上图片、视频,然后你基本可以理解成它已经把人类的公开知识都大概学了一遍。

    这时候系统就大概知道逻辑怎么判断、需要怎么去开? VLM 其实主要就是在做这件事。

    新出行深度 :VLM 的训练和端到端的训练有哪些不同?

    贾鹏:预训练可以分成三步,第一步就是所有的知识全部一次性给他,比如天文地理数学都会有。

    第二步我们会给他一些智驾相关的知识,比如会把交通法规、驾校视频甚至数学逻辑等融合进开车教材里面,提升开车技能。

    最后一步我们会精标一些数据。比如说有些非常特殊的场景我们会教它人是怎么开的。

    前两步训完之后就有一个模型了,我们把这个 VLM 当做 ChatGPT 就可以了。它其实就是个大语言模型,你可以跟他聊天,他自己会有举一反三的能力。

    新出行深度 :系统 1、系统 2 会不会出现系统决策出现延迟?

    郎咸朋:很多时候系统 2 很早就能识别出比如前面有坑洼等等场景。第二如果说是非常紧急突发的情况的话,还是系统1的能力占主导一些。类似咱们人也是有应急反应,这不是系统 2 去考虑的。

    贾鹏:是有点类似你给它训练这样的场景后,它形成了就像人肌肉条件反射一样,这是系统1需要具备的能力。

    四、“我们还有一套题库,为着考试用的。”

    新出行深度 :在系统1 、系统 2 的基础上,我们为什么还在云端部署系统 3?

    郎咸朋:系统 1 代表非常快速、灵活地响应能力,跟人类开车一样。系统2是逻辑思维判断的思考能力,这个主要是面对复杂的场景。

    系统 1 和系统 2 配合就构成了人类大脑整个思维方式。但现在有关键问题来了,系统 1 和系统 2 谁来评价他?那么我们为它们组织了考试。我们有一套库,这套题库其实无穷无尽的,每天都会有数据去训练它,这样组成了我们的系统3。

    贾鹏:系统 3 因为它是个重建+生成的世界模型,它可以生成很多场景。我们拿这些场景再去反哺我们整个模型的训练也是可以的。

    我们想做到下一步的事,就拿这个世界模型去做强化学习,让我的车在它生成的虚拟环境里自己去开。然后我去给他定义一些老司机标准,这样的话他其实就超脱了人类的数据范畴了。

    五、思考:激光雷达的必要性

    新出行深度 :端到端后我们会不会有非激光雷达的视觉版本?

    郎咸朋:激光雷达还是有区分。

    我们是用了端到端 one model 的大模型,传感器输入后我们其实不用区分这个特征是从哪来的,我们都统一输入进来,也不区分就是谁是主,谁是辅。而且很多安全类功能我们会用激光达去做。

    贾鹏:我觉得激光雷达存在不仅仅说给自动驾驶去用的,还有主动安全,比如AEB 更大作用是人开的时候我也要帮他刹住。

    我觉得这个是跟咱们整个公司理念是有关系的,我们非常注重安全。所以我觉得这是激光雷达最大的作用,想哥也把它类比成安全气囊或者安全带。

    另外一个可能 BOM 成本上,其实现在激光雷达也没那么贵了。新一代激光雷达也就千元级别。可能也就两个摄像头的价格。

    六、端到端后不只有 Pro、 Max 版本?

    新出行深度:Pro版的用户,未来是否会有端到端降维的可能?

    郎咸朋:算力可能不太支持。现在 508TOPS已经非常极致了,是在我们做了大量的优化前提下,才把端到端+ VLM 部署到这两个芯片上实现的。

    Pro架构决定了它不上了端到端的模型,但它可以上一些其他感知模型比如时空联合规划等等。

    新出行深度:未来是否还会有除了 Max 和 Pro 之外的多个版本?

    郎咸朋:还是要看市场、用户需求。户需求。

    新出行深度:如何看单Orin的方案也能做端到端?

    郎咸朋:有些可能没有真正做到端到端,就是没有 one model 的形式。其次是单Orin做不了我们的 VLM。我们有22亿参数量进来,不可能塞到一个芯片里面。

    但单 Orin 如果按照传统架构做,也可以做一些优化让体验做的很不错,但是它会有上限。

    端到端+VLM 现在从产品看可能看不太出来,但是后面数据量迭代就会非常明显。

    七、数据的自动化

    新出行深度:数据筛选是不是也是行业难题?

    郎咸朋:不是说老司机他所有的数据就都是好数据,也不见得那些非老司机的数据就都不能用。所以,数据的筛选还是有很大的挑战。

    新出行深度:现在数据筛选是自动还是我们人为要去抓取?(数据闭环)

    郎咸朋:自动化。规则本身可能用人为定义,但是实际抓的话都是自动化。我们数据量比较大,所以说哪怕一开始定义严格一点也没关系。但如果你量比较少的话,就会非常困难。

    八、端到端后 对芯片架构需求有新的变化?

     新出行深度:端到端是否对芯片架构需求有新的变化?

    贾鹏:我觉得其实最大的挑战还是在内存上。这是目前行业最大挑战,算力本身堆加速器就够了。现在其实车端用的还是比如说 LPDDR5 这种 200G 带宽的,但是你看服务器上都已经HBM2、 HBM3 ,都是几个 TB 的。

    但车上现在还远远不到,就是车端的 HBM 现在还没出现。我觉得其实将来车端做大模型最大的瓶颈还是在内存带宽上。

    新出行深度:Thor 呢?

    贾鹏:也没有根本解决。

    新出行深度:会考虑其他芯片的迁移?

    郎咸朋:如果说我们都是基于英伟达在做的话,我们其实没有任何的资源去在这块再复制一个。而且自动驾驶方案还没有到已经迭代完了,需要得找芯片看性价比或者性能的时候,在探索过程当中我们会想要一个越快越好的产品。

    九、端到端的全新探索

    新出行深度:我们会做 Robotaxi 吗?

    郎咸朋:不会。

    新出行深度:从现在看的话,系统 1、2 以及 3 的加入让系统更安全,是否会影响到更多商业模式?以后保险是不是就不会那么贵?

    郎咸朋:说的对,我觉得这是新的商业模式,可以探索.

    新出行深度:感觉系统 1、2 更好的应用场景应该是机器人?

    郎咸朋:对,这个框架我们认为也会应用到其他的人工智能上。

    新出行深度:端到端后人机交互会有区别吗?

    郎咸朋:EID 的界面肯定会有,肯定会大改。其实最终还是这个标准,或者这种人工智能系统跟人的信任关系的交互的问题。这种建立可能在传统交互不太够了,我们会加入语音、文字交互等,可以期待一下。

    我们举个例子,当然只是一个猜想。可能未来app 也需要迭代,就是原来不让你在中控看视频,未来可能可以看,但需要如何做交互?交互的来源肯定在屏幕上而不在仪表,会有相应的语音或者文字提醒。

    新出行深度:行车、高速和泊车会合并吗?

    郎咸朋:高速和城市肯定是可以放在一起,这是没问题的。泊车这一块的话我们正在做,我们将来可能也会往一体化去。

    行车和泊车场景不一样,泊车它有地下室,场景学的也不一样,我们也在看,如果说把这些室内就是地下停车场这样的场景放进来,它会不会影响我们现在行车的能力。

    新出行深度:难点在哪里?

    郎咸朋:现在的算力、模型的参数是有上限的,我要想学更多东西,就像就跟大脑一样,脑容量要更大一些。

    目前 Orin 是 254TOPS ,大概是 3 亿左右的参数量,它最好的接受量大概是 1000 万 clips 去训练模型,但如果你想再多、数据再大甚至无穷尽,你会发现你反而学不出一个好的模型。

    可能每样都学点,但什么也学不会,或者学了后把其他的忘了。

    所以芯片的算力有上限,模型参数也是有上限的。

    写评论
    积分赞赏
    点赞
    评论区
    • 收藏
    • 举报
    回到顶部