端到端自动驾驶：谁在 All in，谁在观望

「『端到端』并非灵丹妙药。」

乍看之下，蔚来 AI 平台负责人、资深研发总监白宇利这一观点，容易让外界产生蔚来动摇对端到端路线的误会。

实际上，这是蔚来方案的重申。蔚来计划是把规划和控制的代码模型化之后，再做更具整合性的「端到端」大模式。

目前，小鹏、理想、蔚来的「端到端」大模式路线，都是类似「散装」——「打散了重装」——「端到端」大模式。

6 月 8 日，在 2024 中国汽车重庆论坛上，理想汽车董事长兼 CEO 李想发表了关于自动驾驶技术路线的新思考：

「端到端+VLM（视觉语言模型）+生成式的验证系统，会是未来整个物理世界机器人最重要技术架构和技术体系。」

李想认为不能依赖端到端解决 corner case，而是要提升能力。用视觉语言模型即 VLM，让车面对路口、红绿灯等能够及时作出反应。

作为「国内首个端到端上车」的车企，5 月 20 日，小鹏汽车宣布上车的端到端大模型由三部分组成，分别是神经网络 XNet（侧重于感知和语义），规控大模型 XPlanner 和大语言模型 XBrain（侧重于整个大场景的认知）。

小鹏、理想、蔚来的策略，有别于特斯拉提出的借助完全依赖神经网络处理的「端到端」大模型，解决 corner case——神经网络只是一个环节。

说起来，国内智驾行业论坛聊起来都没人知道，特斯拉到底是怎么做到的。

「没有任何人敢说端到端都是神经网络。」在「端到端」发布会后，何小鹏接受媒体采访时表示，「它是在一个体系里面完成的，就像刹车在哪里，它一定是有规则体系的。我们在规则体系里面有一个优势，能够把刹车控制器的算法沙盒做好。」

英伟达汽车事业部副总裁吴新宙认为，端到端正是智驾三部曲的最终曲。

面对终局之战，今年 2 月，特斯拉端到端大模式启动商业化孩子会，前后几家新势力代表的车企立下「端到端」上线时间表。

2024 年过去了一半，今年能否成为端到端上车「元年」？

从国内的小鹏率先上车端到端大模式，回溯到「古典主义」端到端大模式的特斯拉，要攻下端到端堡垒，国内车企应该怎么走？绘制一张从学界到业界完整端到端大模型的图谱，或许能够让人们找到车企在其中的位置。

01、小鹏之后，下一个「端到端」智驾规模化量产是谁？

2023 年 8 月，特斯拉 FSD V12 版本问世，成为首家成功量产「端到端」架构的车企。

今年 2 月，特斯拉将基于端到端架构的 FSD V12 版本向部分普通用户推送，启动商业化落地。

FSD V12 的流畅性、令人惊艳的体验感，初露锋芒。

2024 年 5 月，小鹏宣布「端到端」架构上车。

整体来说，以车企为代表，「端到端」有三大派：整车厂、自动驾驶企业、学术机构。学界和工业界一些切入「端到端」大模式甚至早于特斯拉。

车企方面，蔚来、理想、小鹏、小米、极越、智己、广汽、长城、极氪等，成为国内第一批公开行动或表态者。

近期，蔚来单独设立了一个大模型部，专门负责端到端的模型研发，由原感知部门和规控部门下的模型部合并而来。

调整后，蔚来智驾的核心业务，分为「云」（大模型部）和「车」（部署架构与方案部）两块，取消原来按照功能（感知、地图、数据、规控等）模块划分的方式。

「云」负责创造出更好的基础模型，去支持未来「车」端的迭代。

「云」，意味着迅速打破算力瓶颈的可能。

目前，蔚来打通了边缘计算的能力，车云算力联合调度，在蔚来整体端云上的算力，有 287.1 EOPS，相当于 100 个分布式的千卡训练集群，「这基本和特斯拉的 10 万片 H100 的算力规模差不多。」

蔚来采取的是渐进式「端到端」大模型技术路线。

蔚来智能驾驶研发副总裁任少卿认为，做端到端大模型的前提是智驾各功能模块都已经完成模型化，且足够性能与效率的工程体系支撑，「大家没办法模型化，很多时候是因为你的工程体系支撑不了这件事」。

比如，需要有快速训练一个模型再快速验证的能力，「你这个事儿才玩的下去」「你得有一些基本的能力之后，（端到端大模型）这玩意才有用，否则它是个毒药。」

2023 年年底，理想在「算法研发」团队下也为端到端模型单独成立了一个团队。

算法研发除了要负责端到端模型的研发，也要负责三季度无图城市 NOA 的量产。

目前，理想正在做端到端架构的封闭开发：端到端+VLM（视觉语言模型）+生成式的验证系统。

「最早在今年年底，最晚在明年上半年，真正有监督的 L3 自动驾驶就可以批量向用户交付了，而不是做实验。」而且，「L4 级别无监督的自动驾驶在三年内一定能够实现。」李想表示。

此前，理想汽车与清华大学交叉信息研究院一直在进行联合研究。

今年 2 月，双方团队联合发布了论文《DriveVLM: The Convergence of Autonomous Driving and Large Vision-Language Models》。

小鹏的端到端大模型，据说未来能实现 2 天一次迭代，未来 18 个月智驾能力提升 30 倍。

有别于外界以前觉得端到端 AI 大模型就是一个大的网络，小鹏汽车智能驾驶技术负责人李力耘表示：

「我们对 AI 的认知也提出了 XBrain、XNet、XPlanner，既有联系又有分工，能够非常好地提升 AI 智驾能力上限。」

这是小鹏真正去量产端到端大模型的一个重要原因。

除了「蔚小理」，还有几家态度比较明确。

去年 12 月 28 日，雷军在小米汽车发布会上宣布：「小米汽车首次运用自研的『端到端』感知决策大模型」，并称这是全球首次应用于量产车。图森未来的前 CTO 王乃岩加入小米智驾团队，王乃岩曾指出，从业者不能被特斯拉「带偏」，陷入到狭义的端到端理解中。
极越 CEO 夏一平表示，「下一步研发重点将是端到端大模型」。
智己汽车联席 CEO 刘涛称，「目前智己汽车也正在全力推动『端到端』架构落地，创造『更像人』的智能驾驶体验」。目前，智己正和 Momenta 合作，推动端到端智驾大模型量产落地。
广汽研究院也表示正在探索「端到端」自动驾驶方案，「并取得初步成效」。
长城（毫末智行）在去年 4 月发布自动驾驶生成式大模型「雪湖·海若」时表示，将对自动驾驶认知决策模型进行持续优化，最终实现「端到端」自动驾驶。现阶段主要用于解决自动驾驶的认知决策问题。

一些车企采取了比较谨慎的态度，比如极氪。极氪内部认为「在数据量不充分、安全性难以保证的当下，更多将『端到端』技术路线作为预研项目」。

整体来说，大部分车企和极氪类似，认可「端到端」的发展趋势，行业转向『端到端』架构的方向非常明确。

二是智驾供应商，已经有多家发出比较坚定的技术转向的声音，并有方案正在推出。目前，包括华为、Momenta、元戎启行、商汤绝影等国内头部企业已经公开端到端自动驾驶方案在 2024-2025 年上车的规划。

三是学术界方面，以上海人工智能实验室，跨界合作的华中科技大学（与地平线合作）和南洋理工大学（和英伟达合作）以及剑桥大学工程系团队创办的 Wayve 等为代表，推出多篇优秀论文。

上海人工智能实验室的自动驾驶全栈可控「端到端」方案 UniAD 相关研究，获得人工智能顶会 CVPR（国际计算机视觉与模式识别会议）2023 年最佳论文，是「端到端」架构最受关注的项目之一。
今年 2 月，华中科技大学、地平线共同发布了《VADv2: End-to-End Vectorized Autonomous Driving via Probabilistic Planning》，提出 VAD v2「端到端」自动驾驶模型，一个基于概率规划的「端到端」驾驶模型。

此外，南洋理工大学和英伟达也合作提出了一个新框架。

实际上，早在几年前英伟达已经在使用「端到端」深度学习，并开发出了无人驾驶的 Demo 系统。

署名作者 Gongjin Lan、Qi Hao 近期发布论文《End-To-End Planning of Autonomous Driving in Industry and Academia: 2022-2023》梳理2022 年-2023 年工业界和学术界中的自动驾驶「端到端」规划（左侧栏为各公司及研究机构项目）

「端到端」的出现是相关技术长期积累的结果，但仍处于上车的初级阶段。

应对长尾问题（corner case）的能力更强，不少车企或许都能实现，但是在这背后容易忽视的是「端到端」大模型系统实现所要付出的成本。

02、大模型之后，「端到端」走向高端&低端？

「端和端」架构正在分出不同的发展脉络。

在特斯拉 FSD V12 中，靠神经网络模型完成的落地效果已经收到不少追捧声音。

由于不再需要用于设置规则的具体指令，特斯拉工程师删除了 30 万行定义驾驶规则的 C++代码。

曾备受关注的上海人工智能实验室的自动驾驶全栈可控「端到端」方案 UniAD 的提出者李弘扬，在 2021 年注意到自动驾驶系统开源项目 Openpilot，一个「端到端」的系统设计。

相比特斯拉，他惊叹于 Openpilot 低成本实现的良好效果，并感慨：原来自动驾驶可以做得如此简单。

这是他开启 UniAD 研究的一个关键节点。

同样是「端到端」，如果说特斯拉的「端到端」是高「端」，那么李弘扬相关的这种低成本「端到端」可谓之低「端」。

这个对比或有不恰当之处，但是仍然极具阐释力：

在高「端」到低「端」之间，「端到端」架构可以分出来具备不同特征、实现效果存在差异的多个技术流派。

在自动驾驶行业，对「端到端」自动驾驶作评估有两类办法：

一是闭环评估和开环评估——这是每个端到端架构未来都要面对的专门测试。

闭环评估可以接受到反馈信号从而形成反馈闭环；开环评估则是分模块进行，并和真实数据作对比。比如，UniAD 在开环评估中得到验证，但是尚未在闭环评估中得到验证。

那么，哪家的「端到端」效果最好？如何用一个简单指标来衡量端到端大模型的有效性？

何小鹏说，对于端到端大模型的硬指标，最终看接管率。今天高速如果没有续航的问题，可以做到 1000 公里接管一次。

在城区，今天所有的城市辅助驾驶，我认为安全接管可能是百公里或者一两百公里。但体验接管是十公里以内。

如果在城区开 100 公里、300 公里、500 公里接管一次，体验完全不一样。

可以对比的是，特斯拉应用端到端神经网络架构的 FSD V12 的平均接管历程从此前的 166 英里（约 267 公里）提升到了 333 英里（约 537 公里）。

「端到端」的实现，与 BEV+Transformer 模型关系十分密切。

车辆在感知模块产生 BEV（Bird『s-eye-view），即鸟瞰图视角，始于 2014 年的一篇论文（《「Automatic Parking Based on a Bird』s Eye View Vision System》）。

Transformer 模型则是 2017 年时 Google 提出的。

2020 年前后，Transformer 模型被引入到智驾领域，特斯拉率先将 BEV 与 Transformer 结合在一起。

在 2021 年底至 2022 年间，BEV 与 Transformer 实现深度融合，通过 Attention 机制，感知模块和预测模块可以通过神经网络做到「端到端」的优化。

在感知、预测、规划、决策的分模块的算法中，主要用于感知模块的 BEV+Transformer 范式可以有效提升了感知精确度，能够将感知模块和预测模块在统一的 3D 空间中实施，通过神经网络直接完成「端到端」优化。

这直接促进了智驾的进一步 AI 化。

从感知、预测，深入至完全的「端到端」自动驾驶框架，最终可以用神经网络模型全部替换此前的规则代码——这就是特斯拉古典式的「端到端」大模式。

BEV+Transformer 模型规模化落地，也是今天「端到端」有可能迅速成为现实的一大原因。

但是，对「端到端」怀疑的声音一直存在。

早在 2016 年，Momenta 创始人曹旭东在回复「无人驾驶『端到端』的学习（end-to-end learning）是否靠谱？」时指出：

「对于无人驾驶，『端到端』不适合开发实用无人驾驶系统，可以做 Demo，然而大规模商用却非常困难」。

当时曹旭东否定「端到端」的原因有三点：

一是「不聪明」。「端到端」会产生「大量冗余数据和计算」。与之对比，如果把整个无人驾驶拆解成感知、地图、决策三部分，分别独立学习再融合，可以大大降低需要的数据和计算。
二是「不灵活」。在作一些系统调整后，收集数据学习的过程，往往需要推倒重来。
三是「难理解」。相比模块化，「对于整体『端到端』学习，一旦出现问题，因为无法对症下药」，即「黑箱」难题。

时隔多年，这些问题今天也或多或少仍然存在。

不过，当时他也坦诚，「我并不是完全否定『端到端』学习，而是无人驾驶『端到端』学习目前存在以上问题，或许在将来可以得到解决。」

时至今日，曹旭东对「端到端」的态度完全转变，Momenta 成为最看好「端到端」落地的积极派中的一员。

这个案例，正是「端到端」近年在自动驾驶领域内境遇变化的最好展现。

几年过去了，自动驾驶技术脉络也从模块化走到了神经网络。「端到端」的面世，时候到了。

03、AI 引领革命，打赢「端到端」之战核心靠算力？

刺激 2024 年 2 月至年中「端到端」这波话题走高，源于特斯拉 FSD 12.0 版本开启推送，以及 Sora 的大火。

Sora 是基于「端到端」的 Transformer 来实现的。

而它生成视频像素的能力，是解决「端到端」自动驾驶问题的关键。

「端到端」自动驾驶训练的核心是视频生成。

因此，Sora 富有质感的视频，一定程度证明「端到端」路线的正确性。

特斯拉 CEO 马斯克自信地对外称：