解读毫末 AI DAY：把重感知、轻地图做到极致_文章

飞机先生

2023-01-06

关注

原创文章

解读毫末 AI DAY：把重感知、轻地图做到极致

新出行原创 · 文章

距离上一届毫末的 AI DAY 仅仅过去 6 个月，在新年初始毫末迎来了第七届 AI DAY 。

这似乎也传递一个信号，毫末的研发动力似乎没有停歇，从每次 AI DAY 的举办看都是对智能驾驶一次新的理解。这次的主题更是围绕「大算力、大模型、大数据」三“大”热议话题展开，并计划在 2024 年第一季度毫末将完成 HPilot 落地中国 100 个城市，到 2024 二季度开始将更大规模开放全场景 NOH 落地，并在 2025 年完成 HSD 也就是全无人驾驶阶段。

其中大算力是指此次毫末与火山引擎首发的“雪湖·绿洲”智算中心，同时有了大平台的赋能，毫末也同步升级了五个大模型，包括视觉自监督大模型、3D 重建大模型、多模态互监督大模型、动态环境大模型和人驾自监督认知大模型。

大算力硬件提供技术，而大模型的预训练能够在大量标记或者未标记的数据中获取有效数据，前提是需要为其灌入大量的数据，考虑如何高效获取数据并把数据转化，渐渐从小模型、少数据的时代过渡到大模型、大数据的时代。

一、首发智算中心雪湖·绿洲

毫末和火山引擎共同发布了全新智算中心“雪湖·绿洲”，MANA OAISIS。在性能上绿洲的算力为 67 亿亿次/秒，存储带宽为 2T /秒，通信带宽为 800G/秒。

拥有怎样的大算力会决定了能做什么样的大模型，同时也决定了大模型的数量，在数据上自动驾驶的数据也从过去的单帧、单相机过渡为多帧、多相机融合的方式，也对数据的传输、存储效率带来一定的挑战。

如今整个自动驾驶里面文件的形态与过去的单帧的形态不同，目前更多的是基于「Clip」的形态，类似于多个「短视频」信息，所以目前的视频数据量相比过去的单帧再加上有毫米波、激光雷达等等信号，他们再按照时空顺序组织在一起。视频流的数据量相比过去更大。

在这基础上毫末还研发一个对应的文件系统，也就是多个视频文件在不断流动，文件系统能承担一个高效的数据管理系统的角色，“懂得”对它们做管理、分类，也有利于后期开发时对文件的随机读写能力。

例如在 AEB 场景中，文件系统可以对收集来的 AEB 场景做归类，例如它发生在哪个场景中、记录发生的过程，让每一份数据都有相对应的“ID”，利于研发时对其的读取。

那「大」算力如何构建「大」的呢？

实际上目前超算平台的计算能力还没办法在单台服务器中完成，需要多台服务器协同工作，毫末智行技术副总裁艾锐提到目前绿洲整个 GPU 超算的第一期已经有超过 2 千张卡，针对卡之间需要有集群能力的通讯带宽以及并行计算，以此服务好大模型的计算。

而这种高性能的计算、存储、通讯的能力能够让 GPU 不再等待数据，以此来提高传输以及学习速度，同时更大的算力平台就像拓展了更大的平台，也给开发者留足够了资源引入新的模型。

二、五大模型透露哪些关键？

在有硬件基础下，毫末还发布了五大模型包括：

视觉自监督大模型：主要提高自监督的标注能力，这是从单帧转换为多帧检测的重要模型；

3D 重建大模型：利用 3D 重建还原真实场景，进行仿真训练；

多模态互监督大模型：提高对通用障碍物的识别以及通过能力；

动态环境大模型：针对重感知、轻地图下的一种新尝试，进一步轻量化地图；

人驾自监督认知大模型：主要优化驾驶系统，让其更为拟人化。

首先是视觉自监督大模型。

毫末提到过去大量的标注都是单帧状态，也就是只能截取摄像头捕捉的某个瞬间，而现在要做的是扩充，也就是把过去「单帧」的形态转换为「连续帧」，也就是从离散帧到视频流的转变。

离散帧也就是每秒只标注一帧，但实际上一秒的视频大概有十帧以上，中间很多帧没有被标注到，为了满足整个数据都能进行做到视频流的标注，必须想到一种系统自动标注的方式，这样会降低人工标注的成本，毕竟要让人工去处理这剩余 90% 左右的数据标注，成本会非常昂贵，而这套系统就是自监督大模型的用途。

也在输入整个视频流之后会分为关键帧和非关键帧两种，其中关键帧是过去人工标注的部分，然后把自监督的模型搭建起来后，让一个未经任何标注的视频流尝试让模型从前一帧去推算后一帧，都过模型自己训练把这个模型的推理能力不断提高，再把之前积累的带完整标注的视频流放进去，做微调后就可以得到一个理想的模型。

例如在障碍物识别、车道线识别等检测算法上，模型可以把过去“漏掉”的模型用大模型不断补齐，最后达到自动化标注的效果。

而这种推理方式也可以针对性的放在城市道路中的被遮挡物体的检测上，如果一个车辆被遮挡，那我们能否用类似的逻辑推理或者预测出被遮挡物体下一步的行为或者动作。所以自监督模型很大程度弥补了感知对于语义的理解，更有利于下游的判断和决策。

而 3D 重建大模型也是此次的一大升级重点，它的策略更像特斯拉 3D Occupancy Network 占用网络算法。

在特斯拉 AI Day 上，特斯拉提出一个新的网络技术，也就是在 BEV 鸟瞰图的基础上做的一次扩展，它依旧应用了 Transformer ，但是栅格不只是 BEV 感知中的 2D 栅格，而是在高度方向又增加了一个维度变成了3D 栅格，从而生成了 Occupancy Features，并且替代了原本的 BEV Features。

而这些技术的主要突破是改变了过去感知的规则，将过去的 2D 信息升级为 3D 语义信息，并且相比激光雷达还多了语义的理解，同时以摄像头就能融合速度、加速度的信息，也少了和激光雷达同步对齐的工作。

而这次毫末透露了两个关键信息点，一个是重感知、轻地图的战略，另一个技术路线是激光雷达也是一个独立的感知存在，这点我们会在下方提及。

所以这也是响应了这次大模型升级的原因，但毫末并未把这项技术的激进的应用在感知输出给下游，而是把它作了一个 3D 重建，用 NeRF 的方法把我们原始的场景还原出来，并且自动把里面正在运动的物体去掉。把没有运动的物体会保留下来，把场景细节数字化，将其应用在仿真技术上。

例如我们生活常常遇到的很多长尾场景，就可以在这个静态物体视频上自行添加更多车辆，来模拟日常生活中会发生的长尾场景，例如模拟变道、绕行、加塞等行为，还有例如下大雪、暴雨以及夜间等极端天气和场景。这也会提高系统在极端场景下的脱困能力，拓展使用范围。

而第三个大模型多模态互监督。

我们刚刚提到毫末在激光雷达的思路上并不会过于看重，目前在服务长城汽车下标配激光雷达的车型还是为少数，所以摆在毫末前面的一道难题是如何提高对通用障碍物的识别。

过去解决这种方式有两种，第一是不断拓展你的白名单，如果这次你第一次看到轮胎障碍物，你就设置一个文件夹叫轮胎的文件不断扩充数据规模，另一种是用一种通用的方法，类似于上面提到的特斯拉 3D Occupancy Network 的网络算法，特斯拉利用 3D 的几何语义信息去逼近激光雷达的性能，3D 信息可以让你知道你看见的物体长什么样子，有一个具体形状对你的通行有影响，你就可以做避让。所以相比过去视觉感知计算，新的算法可以不“理解”物体是什么的情况下就能做出较为精准的避让。

而毫末寻找的方式也比较简单，也就是通过融合视觉、激光雷达、毫米波等互相监督的预训练下，把这个方法用来对通用障碍物或者通用结构的识别，例如识别十字路口没有规则的护栏、形状较为特殊的东西、公交站的广告牌，虽然视觉感知不知道这是什么东西，但在通过性的角度看它可以明确告知你这里无法通过需要绕行。

第四个动态大模型视觉上是毫末另一个技术的补充，也就是重感知、轻地图的方案。毫末发现每半年时间里每一百公里的拓扑结构就会平均发生 5.06 次的变化，所以在应对城市路段中，还需要进一步降低对拓扑地图的依赖。

毫末提到那能否寻找出一种只依赖标准导航下就能实现对道路拓扑结构的实时推断，也就是动态环境大模型方案，在BEV 的 feature map 基础之上，以标精地图作为引导信息，使用自回归编解码网络将 BEV 特征解码为结构化的拓扑点序列，实现车道拓扑预测。

也就是从一个起始开始记录拓扑点，并在相应的控制点上标记下相应的几何形状，如果感知到某个路口存在分岔，就可以沿着新的分岔路形成新的拓扑结构，而如果存在交汇点可以把终点标记为融合点，并把点连接到交汇路口对应的拓扑点，这样就可以形成完整的拓扑关系。

最后一个大模型是人驾自监督大模型，这个模型主要是解决如何让车辆的决策模拟的更像人为驾驶，通过用数据驱动的方式来模拟。

例如在变道场景中，模型可以利用端到端的模仿学习，拟合人驾的行为，通过采集众多司机行为，让模型学习。但这种学习方式有个弱点是有点类似黑盒，也就是人的驾驶行为不能被理解，系统不知道他为什么会做出这个行为，所以模型到最后可能学习到的并不是最优的开法，因为它分不清哪些是差的开法和最优的开法，所以最终的策略不是特别稳定。

如何让模型能够稳定输出最优解法？

通过训练一个反馈模型，去分析什么样是好的驾驶行为，什么是不好的驾驶行为，这是自动驾驶、大模型困难的事情。