{{detailStore.author.is_follow?'已关注':'关注'}}
北京车展上除了小鹏宣布落地规控的端到端以外,还有一家供应商的端到端方案也在车展上亮相了,就是商汤科技的UniAD((Unified Autonomous Driving)。 今年端到端确实很火,很多家都在提端到端,但是商汤这个方案也不是空穴来风。 去年 6 月 21 日公布的 CVPR 2023 的最佳论文是由上海人工智能实验室主导武汉大学及商汤科技联合撰写的自动驾驶研究论文《Planning-oriented Autonomous Driving》,这也是 CVPR 历史上第一篇以自动驾驶为主题的最佳论文 在车展商汤展示的不依赖高精地图的城区辅助驾驶能力,就是基于这篇论文中提出的自动驾驶通用算法框架——Unified Autonomous Driving(UniAD)实现的。 这套算法框架最大的特点就是,这是一个感知进去规划结果出来的端到端模型,目前行业里主流的做法是两端式的端到端。 也就是说是由 2 个大模型组成的,一个感知的大模型,先输出一个结果,然后再进入规控的大模型输出轨迹,比如小鹏在车展上公布的方案和华为 ADS 3.0 的方案都是这个思路。 这种方案的弊端在于,感知和决策两个模型之间传输的信息是人为定义的显性信息,数据传递仍然会有过滤和丢失,不是完全的原始素材。优势在于实现辅助驾驶过程不至于过于盲盒,可以在感知和规控方面分别去看问题出在哪里,并进行优化。 不过商汤这个模型也不是最极致的端到端,商汤采用的是一种渐进式的路线,在整个大模型里依然会拆分为感知、预测、规划三大类主任务和目标检测、目标跟踪、场景建图、轨迹预测、栅格预测、路径规划六小类子任务,但是这些任务会整合到一个基于 Transformer 的端到端网络框架下。 这套端到端的辅助驾驶系统已经部署在了车端,并且通过视频的方式展示了不依赖高精地图的城区辅助驾驶能力。 不过虽然现在这套系统已经上车跑了,但是在这个过程中依然还会有大量的问题需要持续优化。 这里比较大的问题集中在 2 点。 第一点是感知能力,这个也是之前百度智能驾驶事业群组(IDG)首席研发架构师王亮提到过的一点,上端到端的一个前提是感知能力已经建立起来了,如果感知算法的质量不够高,后续的训练里会出现很多新的问题。 第二点是训练能力,端到端的神经网络是通过学习大量人开车的视频,来训练出一套能实现类似人类司机开车习惯的算法,那这意味着背后需要大量的原始素材以及巨大的算力,才能不断推进这个算法持续迭代发展。 比如,之前在特斯拉上了端到端之后,Elon 有过一次直播,直播里在一个比较简单的路口闯红灯了,这个其实就是初期端到端的问题。 当你用了一定量的路口素材去训练算法,这些素材可能对于能理解这个图片意思的人类司机来说很好判断,看红绿灯那块区域的变化就行,但是算法系统在训练的时候并不会有目的性的去看红绿灯局部区域的变化,而且是根据整个画面的变化去找规律。 可能在一定量的素材里也可以找到右侧的车停下来了,我就可以走之类的规律,这就是当数据量不够的时候,不足以找到准确的规律。 这一点商汤透露目前已经有 20,000+ 量产车可以产生数据回流,有 5 亿+ 帧高质量真值数据和 110 万+ 仿真数据库。 另外,商汤目前有 45,000 块 GPU,具备 12,000 PFLOPS 的云端算力,预计今年年底会提升到 16,000 PFLOPS,这个云端算力还是非常非常强的,作为对比目前华为的算力是 3,300 PFLOPS(3.3 EFLOPS),不过这个 12,000 应该是商汤全部的算力,不知道可以分给智驾多少。 在这个算力规模下,商汤可以有一个非常快的迭代速递。 另外,在 Workshop 上商汤也提到了世界模型,这个世界模型就是 AGI 大模型对开放世界的理解,给一张图片,系统可以基于这个图片得出图里不同元素的相对关系,而且这个关系是符合我们社会逻辑的。 之前特别火的 Sora 的文生视频就是基于世界模型产生的。 商汤则把这个世界模型引入到了智驾行业,就是 DriveAGI,基于 DriveAGI,辅助驾驶的感知能力相当于会提升到一个新的维度。 但是这个想要利用到智驾里,对结果准确度的要求也是一个新的维度。
  • 全部评论{{detailStore.commentnum}} 条
  • 只看作者
  • 最热
  • 最新
  • 最早

「待审核」

{{ comment.relativeTime }} 已被赞赏 {{comment.integral}} 积分 回复

暂无相关评论

发表一下个人看法吧
写评论
积分赞赏
点赞
评论区
  • 编辑
  • {{is_favourite ? '已收藏' : '收藏'}}
  • 举报
  • 加入黑名单
  • 删除
  • 取消置顶
  • 置顶推荐
    • 6小时
    • 12小时
    • 24小时
    • 3天
    • 一周
    • 长期
  • {{digest?'撤销精华':'设为精华'}}
回到顶部