{{detailStore.author.is_follow?'已关注':'关注'}}
原创文章
管理
城市领航不用高精地图?深度解析毫末 AI Day
新出行原创 · 文章

第六届毫末 AI Day 今天线上举行,而今年也是毫末成立的第 1020 天,对于毫末而言,AI Day 即是毫末对过去一场技术总结,也是对未来技术路径的一场预判与展望。

而这样“干货”的发布会,势必也能看出毫末背后的技术路径以及对当前智能驾驶的思考。

例如近期毫末主导的 HPilot 3.0 首次搭载在魏牌摩卡激光雷达版本上,并且将会在下半年正式交付。而受到大家争议的是毫末 NOH 城市领航辅助驾驶是采用重感知、轻地图的方案,也就是在地图上并非采用高精地图。

那毫末背后的技术路径是如何走的?毫末如何思考视觉与地图的关系?结合今年毫末 AI Day ,我们也一起分析毫末背后的技术逻辑与思考。

一、软件 2.0:数据驱动取代手写代码时代 

在很早之前的文章中曾和大家分享了一个理论,在视觉感知(检测)上,目前通过大量数据的积累,例如众包、训练等来实现「 机器视觉从感知上超过人类」的路线是非常清晰,但完全凭借单纯硬件驱动以及规则软件要达到完全接近人类的无人驾驶依旧遥不可及。

所以在新的竞争上,由特斯拉提出的软件 2.0 时代,也就是通过数据驱动的大模型时代来取代过去传统的手写代码的规则时代。

目前大家都知道数据是驱动自动驾驶发展的核心,但如何驱动却有很大的争议。

比如一派是 Robotaxi, 它们利用带有多种高端传感器的自测车以及高阶算法,在「特定区域内」进行商业化运行,对各类场景做「针对性」的收集与仿真训练。

另一派时车企, 它们有大规模车队,但用户在各大开放道路中跑,数据量庞大,定向收集以及存储难度高,但有大量真实场景。

无论智能驾驶发展如何“内斗”还是“内卷”,如何以低成本、高效率的培养一个大模型以此驱动庞大的智能驾驶系统,成为竞争的关键。

所以摆在毫末面前的是如何基于大模型完成训练,并且利用数据的大规模量以及多样性驱动模型的优化,提高数据的价值,从而解决用户的体验与安全问题,实现自动驾驶的稳步的迭代。

二、为什么毫末和特斯拉都偏爱大模型?

过去不同类型的任务所使用的 AI 模型是完全不同的结构,各有各的建模方式,并不统一,早期的模型也如同我们常见的“流水线”办公,出现问题人工解决问题,这样的方式并不能适应庞大的智能驾驶系统。

Attention 机制最早是 2014 年在 NLP 领域出现的,包括特斯拉 AI Day 上也提及到了 Attention 机制的 Transfomer 大模型,而毫末也是选择了 Transfomer 的技术路径。

我们知道特斯拉通过 8 个摄像头来的图像信息先融合起来,再把它输入给神经网络,然后直接输入到三维空间里,而毫末也是同理,摩卡 PHEV 的激光雷达版是融合 6 个摄像头

而有了目前大算力平台的加持,模型可以逐步脱身,摆脱过去的流水线状态,反而成就了闭环的机器学习大模型,而特斯拉以及毫末都纷纷奔向 Transfomer 有很大程度上是因为它算力很强、结构简单,并且是遇强则强。

简单理解只要我们数据够大,模型可以不断堆叠,只要我们数据量和训练方法提升,只要人工设立一个参考标准,那模型就会不断学习优化,靠着那个完美标准迈进,这也相比过去卷积神经网络有更高的能效比。

但它却严重偏科。

Attention 中文名为注意力,我们知道人在复杂的环境中只要把注意力集中在一个地方,我们往往能把这件事情做好,但对于机器而言,会有一个反作用,就是内耗

数据表明,如果我们有  100% 的计算量,那计算机制仅仅只会发挥其中的 6.9% 的计算来成就 93.7% 的准确性,后者数据漂亮,但是前者剩余的 93.1% 的剩余计算都倍完全消耗掉,对于计算来说是场灾难性的浪费。

所以即使是同个模型,但是不同的车企或者供应商都会寻找不同的优化方式,以此构建自己的护城河。例如通过低碳超算来降低训练成本、通过优化模型提高计算效率、通过优化车端芯片提高能效等。

可以看到目前特斯拉通过自研的 Dojo 超算平台、自研 FSD 以及 D1 芯片,还有一众宣布进军自研芯片的车企,还有例如地平线 Tier 2 供应商进军智能驾驶行业上,无疑都在思考这个问题,如何通过降低计算成本的同时兼顾计算效率以及能效。

三、毫末押注超算:MANA 现身

我们知道训练大模型需要消耗巨大的算力,另外智能驾驶是一个长期投入,智能驾驶研发团队如何寻找一个以低能量消耗的方法从而维护长周期的智能驾驶迭代需求。

毫末曾提出自动驾驶能力发展曲线:F=Z+M(X),其中 F 代表产品力,Z 代表毫末第一代产品,M 是一个把数据转化为知识的函数,而 MANA 就是最核心的 M。

而整个 MANA 是四个子系统组成,包括 TARS(数据原型系统)、LUCAS(数据泛化系统)、VENUS(数据可视化平台)、BASE(底层系统)。

而这次毫末还带来了 MANA 超算。

训练一个千亿参数、百万个真实场景的大模型为例,需要上千卡 GPU 训练几个月时间。如何提升训练效率降低训练成本实现低碳计算是实现智能驾驶的前提,而毫末的 MANA 超算中心也相继揭开帷幕。

据毫末提到,毫末的目标是满足千亿参数大模型,同时数据规模 100 万道路场景,整体训练成本可以降低200倍。

在此前的一次闭门沟通会上,我们也针对目前 A100、H100 等训练芯片限制问题,毫末也表示目前各家对算力需求大,短期内影响不大,同时国内的超算供应商不一定全是英伟达。

而有了好的计算平台,毫末需要思考一件更为重要的事情,如何将大模型与大数据跑通

四、数据,毫末对闭环的思考

我们知道数据量与车辆的规模有关,但智能驾驶更为核心的不再量,而在质。

也就是车企需要知道自己获取的是什么数据,并且如何用好这些数据。

1、先构建一个大模型

首先我们思考如何提高学习效率,或者我们常说的学习方法。

过去大家主要采用单任务模型,也就是什么模型做什么事情都区分清楚,通过人为样本训练,让模型达到我们的性能需求,例如它能够识别车道线、车辆等,这也就是我们常规的监督学习。

但只要数据变大,人工标注的训练无法发挥出规模效应。毫末的做法是将这些未标注的数据直接参与训练,并且采用了和特斯拉类似的 Transformer 用 3D 空间进行重建,相比过去的二维空间,毫末可以在最早就将数据融入进三维空间中,再来识别感兴趣的任务,提取特征。

而毫末的大模型就是把这些大量的未标注数据先训练一遍,并且把 backbone (主干网络)进行锁定,用已经做标注的特定的模型来做特定的模型优化。

这样既可以用标注的数据在特定情况上针对特定任务优化,同时又明确了训练任务,可以进一步提高效率。

2、如何管理大数据?

解决大数据的难题有一个直白的方法,就是每次都把新数据扔进模型中训练一次,但这样的做法效率低,并且价格昂贵。

毫末提到了一种解决数据的多样性的方法,叫做增量式训练

例如在训练过程中,系统会在老数据和新数据中同时训练,老模型的数据输出保持一致,最后把新老两个模型的结果产生融合,新数据会产生新的结果,但新数据通过拟合后结果尽量与老数据保持一致。

相比常规做法,毫末提到这样的精度可以节省 80% 以上的算力,收敛时间也可以提升6倍以上。

3、如何提高用户体验?

我们说有了理论知识,但是实践才是检验真理的唯一标准。

智能驾驶的实践就是用户的体验反馈。

我们知道城市的领航辅助驾驶相比高速会更难,因为城市交通参与者多且复杂,还有路口、车道、不同车辆、行人等感知内容。

今天顾维灏也提到一个关键信息“对于交通参与者运动意图的预测,刹车灯和转向灯的识别提上了日程。”

上次 AI Day 上毫末展示了如何在城市环境中不依赖高精地图解决自动驾驶系统和红绿灯的交互问题,如今是升级了感知系统,也就是加入了对车辆信号灯状态的捕捉识别。

例如刹车灯和转向灯,这样就可以在前车减速,周围车辆切入等场景中开的更安全和更舒适。

另外一个优化的途径是用户评价系统的优化。

如何让系统运行起来更像人,毫末内部指标叫 NTDE,就是平均每公里不舒适的次数,在毫末内部这个指标相比 MPI 还重。

车企在日常驾驶中积累了大量的人类驾驶的数据,集成一个场景库,比如在某些情况需要做哪些措施,是缓慢刹车还是及时刹车才以此匹配人类的反应机制。

早期的场景库都是一条一条的,他们像一条条指令集成在 Excel 表里,比如前方有车需要右转,如果场景库足够丰富,这样的语句愈来愈明确,也能够方便模型理解。

可以看到这样的模型相比感知大模型有很大不同,前者的每个模型都有非常明确的语义输出,告诉下游哪个地方需要超车,需要加速、打方向盘,这也有利于后期的调试。

4、仿真

如何将用户体验逐步优化好,仿真也起到至关重要的作用。

目前毫末的仿真体系是和阿里、德清政府合作建立,利用路端设备将路口处每时每刻的真实交通流都记录下来,再通过log2world的方式导入到仿真引擎里面,加上驾驶员模型之后,就可以用于路口场景的调试验证。

我们知道仿真系统最大的痛点是场景不够真实,毫末此次提及的是直接能够拿到路端设备,这也大大提高仿真系统的可参考性。

五、不依赖高精地图,如何做到的?

毫末此次发布的城市 NOH 是定义为重感知、轻地图、大算力的方案,核心的功能包括智能的识别交通等,智能左右转,智能变道等等,当然最为关键的是城市 NOH 宣称的不依赖高精地图。

目前大部分车企采用的高精地图技术集中在定位,也就是把地图上的虚拟车道线与现实中的车道线做匹配,同时提供了很多先验信息以及决策信息等。

毫末正是拿掉了高精定位的信息,利用传感器定位,当然毫末也并不是什么地图不需要用,只不过它只需要拓扑地图。

拓扑信息类似于导航语音中告知我们的在前方第二路口右转,它不会像高精地图一样提供精确的播报信息,例如在前方 200 米位置需要执行右转动作。

所以它的精确度也没有智能驾驶高精地图那么高,比如不需要车道线的精确坐标或者物理坐标等。

那我们不妨做个猜测,毫末是否会应用众包地图?

从技术上看,完全没有问题,此外我们在毫末 AI Day 上也看到了些许“端倪”。

在顾维灏展示的 MANA 系统中提到了毫末因为使用时序的 transformer 模型,这样能够提供实时空间认知能力,也就是能够在 BEV 空间上做实时建图。

我们看到图中是一个由六个摄像头组成的 bev 渲染出来的车道线,车道并不复杂,但能够看到明显的拓扑信息,红色是车道线,绿色是道路边缘,蓝色是人行道、停止线等其他道路标线等。

可以看到城市 NOH 依赖多传感器的优势,更强调感知端的能力,同时不使用目前我们常提到的高精地图,而是基于普通导航地图里面的相对可靠的拓扑信息。

六、总结

可以看到渐进式发展路线逐步迎来规模化效应,例如毫末思考的是建立一个大模型完成 0-1 的阶段,在 1-10 的阶段中是建设一个数据驱动到用户体验的系统闭环,这也会为未来的 10-100 阶段提供一个具差异化的竞争点。

成都车展上发布的魏牌摩卡激光雷达版,也是毫末 HPilot3.0 系统的首发车型,新车也将会在下半年正式交付。

到目前毫末辅助驾驶系统行驶总里程也已突破 1700 万公里,到今年年底,搭载毫末辅助驾驶系统的车型将达数十款,毫末也将进入规模效应的关键阶段 …

写评论
积分赞赏
点赞
评论区
  • 编辑
  • {{is_favourite ? '已收藏' : '收藏'}}
  • 举报
  • 加入黑名单
  • 删除
  • 取消置顶
  • 置顶推荐
    • 6小时
    • 12小时
    • 24小时
    • 3天
    • 一周
    • 长期
  • {{digest?'撤销精华':'设为精华'}}
回到顶部
  • 全部评论{{detailStore.commentnum}} 条
  • 只看作者
  • 最热
  • 最新
  • 最早

「待审核」

{{ comment.relativeTime }} 已被赞赏 {{comment.integral}} 积分 回复

暂无相关评论

发表一下个人看法吧