基于端到端+VLM 双系统架构 理想发布下一代自动驾驶架构 MindVLA
新出行原创 · 新闻

3 月 18 日,理想汽车发布下一代自动驾驶架构 MindVLA。VLA 是机器人大模型的新范式,其将赋予自动驾驶强大的 3D 空间理解能力、逻辑推理能力和行为生成能力,让自动驾驶能够感知、思考和适应环境。

根据介绍,MindVLA 不是简单地将端到端模型和 VLM 模型结合在一起,所有模块都是全新设计。3D 空间编码器通过语言模型,和逻辑推理结合在一起后,给出合理的驾驶决策,并输出一组 Action Token(动作词元),Action Token 指的是对周围环境和自车驾驶行为的编码,并通过 Diffusion(扩散模型)进一步优化出最佳的驾驶轨迹,整个推理过程都要发生在车端,并且要做到实时运行。

理想从 0 开始设计和训练了适合 MindVLA 的 LLM 基座模型,采用 MoE 混合专家架构,引入 Sparse Attention(稀疏注意力),实现模型稀疏化,保证模型规模增长的同时,不降低端侧的推理效率。

基座模型训练过程中,理想加入大量 3D 数据,使模型具备 3D 空间理解和推理能力。为了进一步激发模型的空间智能,理想加入了未来帧的预测生成和稠密深度的预测等训练任务。

为了把 NVIDIA Drive AGX 的性能发挥到极致,MindVLA 采取小词表结合投机推理,以及创新性地应用并行解码技术,进一步提升了实时推理的速度。

MindVLA 利用 Diffusion 将 Action Token 解码成优化的轨迹,并通过自车行为生成和他车轨迹预测的联合建模,提升在复杂交通环境中的博弈能力。

同时 Diffusion 可以根据外部条件,例如风格指令,动态调整生成结果。为了解决 Diffusion 模型效率低的问题,MindVLA 采用 Ordinary Differential Equation(常微分方程)采样器,实现了 2-3 步就能完成高质量轨迹的生成。

MindVLA 基于自研的重建+生成云端统一世界模型,深度融合重建模型的三维场景还原能力与生成模型的新视角补全,以及未见视角预测能力,构建接近真实世界的仿真环境。

源于世界模型的技术积累与充足计算资源的支撑,MindVLA 实现了基于仿真环境的大规模闭环强化学习,即真正意义上的从“错误中学习”。

MindVLA 将为用户带来全新的产品形态和产品体验,有 MindVLA 赋能的汽车是听得懂、看得见、找得到的专职司机。

未来,理想汽车将继续在用户价值的驱动下,坚持技术创新,连接物理世界和数字世界,成为全球领先的人工智能企业。

  • 全部评论
  • 只看作者
  • 最热
  • 最新
  • 最早

# A Physical AI Framework for Robotics 机器人物理 AI 框架 ## Perception and Data Input 感知与数据输入 - **Cameras**:摄像头,视觉数据输入。 - **Lidar**:激光雷达,空间距离测量数据输入。 - **Position**:位置信息,机器人自身位置数据。 - **Ego Pose**:自我姿态,机器人自身姿态数据。 - **Navigation**:导航目标,机器人导航任务目标数据。 ## V-Spatial Intelligence Module V-空间智能模块 - **3D Encoder**:3D 编码器,对输入的视觉和激光雷达数据进行 3D 编码处理,提取空间特征。 - **3D Features**:3D 特征提取,从编码后的数据中进一步提取 3D 特征。 - **3D Projector**:3D 投影器,将提取的 3D 特征进行投影处理,形成空间表示。 - **Spatio-temporal Context**:时空上下文,结合时间和空间信息,为后续处理提供上下文背景。 ## L-Linguistic Intelligence Module L-语言智能模块 - **MindGPT (LLM)**:MindGPT(大型语言模型),基于预训练的语言模型,用于理解和生成语言信息。 - **Voice Control and Interaction**:语音控制与交互,处理语音输入,实现与机器人的交互控制。 ## A-Action Policy Module A-行动策略模块 - **Diffusion Decoder**:扩散解码器,通过扩散模型对动作进行解码,生成动作轨迹。 - **Noise**:噪声输入,作为扩散模型的初始输入,用于生成多样化的动作。 ## Action Output and Reinforcement Learning 动作输出与强化学习 - **Action Output**:动作输出,将生成的动作轨迹输出给机器人执行。 - **Reinforcement Learning**:强化学习,包括世界模型和奖励模型,用于对机器人行为进行评估和优化。 - **World Model**:世界模型,模拟机器人与环境的交互,预测动作结果。 - **Reward Model**:奖励模型,根据任务目标和环境反馈,为机器人行为分配奖励值。 ## Bottom Notes 底部说明 - **Fast Slow Thinking in one Single Model**:单模型中的快慢思考,指在单一模型中实现快速和慢速思考过程。 - **Pretrained LLM from Scratch for Embedded Inferencing**:从零开始训练的嵌入式推理 LLM,为嵌入式系统训练的从零开始的语言模型。 - **Gaussian Pretrained 3D Tokenizer for Spatial Understanding**:高斯预训练 3D 令牌器用于空间理解,使用高斯预训练的 3D 令牌器来增强空间理解能力。 - **Spatial & Linguistic Reasoning**:空间与语言推理,结合空间和语言信息进行推理。 - **Diffusion Policy for Collective Interactions**:扩散策略用于集体交互,采用扩散策略处理机器人之间的集体交互。 - **RLHF for Behavior Preference**:基于人类反馈的奖励学习(RLHF)用于行为偏好,利用人类反馈的奖励学习来确定机器人行为偏好。 - **Closed Loop RL for Generalization**:闭环强化学习(RL)用于泛化,通过闭环强化学习提高机器人行为的泛化能力。

那么问题来了,现款L系搭载 orin 或即将搭载 thor 的车型可以升级吗?

展示的demo就是运行在双Orinx硬件上,不知道thor会进一步带来什么变化,毕竟能力提升了三倍

这就是股市大涨的原因吗