聊一聊理想的智驾方案：端到端 + VLM（一）_文章

ch1nix

2024-09-09

关注

聊一聊理想的智驾方案：端到端 + VLM（一）

文章

人类大脑在日常生活中会分为系统一和系统二工作，前者处理一些需要快速响应的事情，后者则负责处理一些相对更复杂的逻辑推演工作；前者是近乎下意识的，速度更快；后者是需要思考的，速度较慢。

这是《思考，快与慢》书中的一个核心观点，同时，这也是理想「端到端 + VLM」智驾方案的一个底层逻辑。

端到端就是理想智驾方案的系统一，它的核心任务是应对 95% 左右的基础驾驶场景。举个例子：如果在开车时前方有一辆慢车，那么在理想状况下，车辆就要执行超车变道这一动作。但在实际驾驶中，道路状况往往不会那么理想 —— 旁边有车怎么办？边上是双黄线怎么办？后边来车了怎么办？旁边是公交车道怎么办？

车辆在实际行驶中会遇到各种各样的小概率场景，即行业内常说的 Corner Case。按照端到端之前的以感知、决策和规控为核心的智驾方案，一旦出现一个 Corner Case，开发人员就需要敲下相应的代码，写下确定的规则去解决对应的 Corner Case。可驾驶场景千变万化，Corner Case 不计其数，几乎不可能用有限的人力资源去解决无穷的 Corner Case。

而端到端则不一样，它将感知、决策和规控融合到一个模型之中，保证了信息在传递过程中的精确性，当传感器获取信息并经过模型处理之后，可以更加精准并迅速地操控系统做出相应的行动。这一过程很类人，人就是在眼睛获取环境信息并经大脑处理之后，迅速产生具体的行为。同时，端到端也不用堆人力资源写下一行行代码，它需要的只是对历史情景的学习，就好像人一样可以凭借过去的事情获得处理未来事件的经验。早在推送 FSD V12.3 时，特斯拉就曾提到，FSD V12.3 用数百万个视频片段替代了超 30 万行 C++ 代码。

不过正如上文所说，Corner Case 不计其数，总有一些未知场景是没有被端到端学习到的。当车辆遇到未知场景时，理想的系统二，也就是 VLM 就派上用场了。VLM 的英文全称是 Vision-Language Model，即视觉语言模型。根据官方信息，理想 VLM 的整体算法架构由一个 Transformer 模型组成，同时还包括了流式视频编码器、 Memory bank 以及智驾 Prompt 问题库，它可以缓存更长时间线的信息，从而在更长的时间维度进行思考和逻辑推理。VLM 最终起到的作用就是当车辆遇到系统一解决不了的驾驶场景时，VLM 可以在经过思考后生成驾驶建议反馈给系统一。

因此，在理想的这套智驾方案中，端到端和 VLM 其实就很像一对优势互补的组合，搭配起来共同解决基础的和更复杂的驾驶场景。

事实上，除了端到端和 VLM 以外，理想的智驾方案还有一个系统三 —— 世界模型。只不过这个世界模型并不在车上，而是在云端。世界模型就是一个真题库和错题库。当车辆遇到驾驶问题时，世界模型可以将问题场景进行重建，接着交给一个大模型去分析这是哪类问题，分析清楚之后再回到世界模型里看是否有对应的样本进行针对性的训练。在训练完成之后，接着继续在世界模型里考试，以验证问题是否已经被完全解决。这样一来，整个解决 Corner Case 的流程就变得全自动化，理想既不用堆人力去写代码修 Bug，又不用再派出人和车去跑路试，不但提高了效率，还节省了成本。

总的来说，通过在车端布局的端到端和 VLM，理想构建出了一个应对基础和复杂驾驶场景的工作流，而再加上云端的世界模型，理想则又探索出了一个高效的问题解决机制。