车圈观察札记｜AI 狂人的特斯拉端到端会是下一个智驾风口吗？

特斯拉 FSD Beta V12 的软件代码行数从 30 万行缩减到 2000 行。

远在北美的特斯拉车主们，陷入了一场惊奇、诧异、狂欢等各种情绪组成的涡流中。情绪的来源，则是和特斯拉近期的 FSD Beta V12 一系列推送有关：

在这一次的版本更新说明中，特斯拉提到，此前负责城区智驾的堆栈已经升级为单一的端到端神经网络，而接近 30 万行 C++ 代码已经由经过数百万个视频片段的训练替代。

这是特斯拉面向普通用户的一次重磅更新，带来的影响不止是 X 上涌现的各种“民间短视频”，北美人们的热情还刮到了微博、微信等中文互联网社交平台上……

当然，端到端（end-to-end）这个词在本土市场上也不是第一次出现——事实上小米 SU7 已经宣布其为首个量产端到端记忆泊车的车型。

这很可能是 2024 年智能化领域最热门的技术词汇，或许也有可能是最热门的营销词汇。但在此之前，端到端是什么、端到端能带来什么、端到端会不会向 BEV+tranformer+OCC 那样成为国内智驾内卷的新阶段技术……诸多疑点，让我们先行观察，再尝试解答一番。

一、如何理解端到端

在尝试解读端到端的原理之前，我想对于端到端最初始的思考，是有充分必要的溯源的。

我们日常所提及的高速智驾、城区智驾，在现阶段，这两项功能的实现原理，大致可以总结如下：

首先，由车外的传感器采集路面信息数据，通过我们熟知的各种算法，如 BEV+Transformer+OCC ，本质上是将现实世界解构重绘，让车内的智能驾驶控制域先行理解现实世界中可能存在的信息；

其次，控制域根据算法解析的世界，进行车辆行进路线的规划；

最后，控制域发出指令，控制车辆的油门/刹车深度、方向盘转向等行驶参数。

上述是对于现阶段智能驾驶比较粗略的原理解析，我们在其中可以看到，控制域不能直接接收现实道路的原始数据信息，必须经由算法重绘、提取特征，才能进行后续的规控。就像是新生儿父母为宝宝打造营养辅食——小孩子（智驾控制域）不能直接消化原始的食材（现实世界信息）。

用于通用障碍物检测的占用网络详解，来自特斯拉 Autopilot 视觉负责人 Phil Duan

而上一段的陈述，显然是为了端到端大模型的登场做准备：端到端大模型，从字面意思理解，便是直接学习/提取现实世界特征，无需对数据进行多次算法加工（即感知-规划-控制），即可令智驾控制域输出行车指令。

从理论角度分析，端到端大模型上车的优势显而易见——不同于现阶段的智能驾驶需要进行流水线般在多个模块运行处理得到最终结果，端到端就像是一个盒子，把数据丢进去，把指令生成出来，基于数据驱动的表现给人非常直观的反馈。

但细心的朋友应该注意到了，我在提及端到端优点时，开头是“从理论上”。

回归到智能驾驶本质，其并不等同于自动驾驶，因此在过往、现在、甚至往后较长的一段时间里，我们都会处在“人机共驾”的状态中——智能驾驶本质是将人类司机驾驶的逻辑用算法进行分割重绘，结合感知信息，让智能驾驶尽量模拟人类司机的行驶轨迹。

问题也就出现在此：如果将人驾逻辑理解成一块完整的面包，智驾必须将人驾这块“面包”进行切割再消化，但刀法（算法）的不一，导致由于切割掉在地上的面包屑洒落或多或少。这部分没能消化的面包屑，便是智能驾驶触达的边界，即需要人类司机接管的时刻，又称 Corner Cases。

而端到端大模型，更像是直接将整块“面包”进行囫囵吞枣的操作——特斯拉当然能轻易吞吐数百万的“老司机式驾驶”视频训练片段，但如果进行全量开放后，纯粹的端到端大模型极有可能吃到“发霉的面包”。

就像最开始的 ChatGPT 般，无论好坏的互联网信息都会进行吞吐，输出错误的暴论。

因此，在特斯拉并未对此次端到端神经网络的更新做出更进一步说明时，外界也有部分猜测：特斯拉 FSD Beta V12 版本中升级的端到端神经网络并不是端到端“完全体”，其依旧保留了部分感知与规控模块的代码。

二、实际的端到端表现案例如何？

上文有提及到，在推送了 FSD Beta V12.3 以及后续版本后，大洋彼岸的北美，同样是马斯克旗下的社交软件 X 上迸发出了非常之多的“民间小视频”。

但在诸多媒体/KOC/素人发布的视频浪潮下，FSD 有一个非常耐人寻味的表现，并没有遭到更多人的提及——在某些情况下，当智驾控制域的路线规划要优于地图导航路线规划时，智驾控制域会给车辆发送行驶更优路线的指令。

在这段视频中便体现了上一段的说法：车辆并没有行驶地图导航给出的掉头路线，而是直接采用更优的左转进入目的地。

正在加载视频播放器。播放视频播放静音当前时间 0:00 / 时长 0:00 加载完成: 0% 0:00 媒体流类型直播尝试直播，当前为延时播放直播剩余时间 - 0:00 1x 播放速度节目段落描述字幕音轨 Picture-in-Picture 全屏

This is a modal window.

打开对话窗口。Escape键将取消并关闭对话窗口

文字 Color 白黑红绿蓝黄紫红青 Transparency不透明半透明背景 Color 黑白红绿蓝黄紫红青 Transparency不透明半透明透明窗口 Color 黑白红绿蓝黄紫红青 Transparency透明半透明不透明字体尺寸 50%75%100%125%150%175%200%300%400% 字体边缘样式无浮雕压低均匀下阴影字体库比例无细体单间隔无细体比例细体单间隔细体舒适手写体小型大写字体重置恢复全部设定至预设值完成关闭弹窗

结束对话窗口

无论是高速 NOA 还是城区 NOA ，其本质的核心人设都是一致的，那便是地图导航位于路线规划的最高优先级，正所谓 NOA 的全称“领航辅助驾驶”，而特斯拉 FSD 却似乎违背了这一点。