小鹏第二代VLA有哪些变化，解决了哪些智驾难题？

第一电动 2026-03-17 14:37

小鹏VLA 2.0在3月19日将开启陆续推送，首批先推送全新P7 Ultra，再推送G7和X9。4月推送P7+、G9，G6等。同时，VLA 2.0量产推送的版本是第四个大版本的第28个小版本，与之前的媒体试驾版不同（第二个大版本），但不会因为量产，把某些功能阉割掉。

图片.png

第二代VLA对于小鹏来说至关重要，是小鹏从L2迈向L4的关键一战。那么，它相比之前有了哪些变化？解决了智驾行业哪些难题？它还有哪些问题？

图片.png

▍第二代VLA相比第一代有哪些变化？

小鹏第二代VLA（视觉-语言-动作）核心是颠覆了传统VLA智驾“视觉-语言-动作”三段式架构，通过去显式语言转译、端到端直接映射、物理世界因果推理实现技术突破，同时结合自研芯片算力、感知优化等技术形成完整体系。

小鹏VLA 2.0的技术核心是构建“视觉→隐式Token→动作”的端到端架构，去掉传统架构中显式的语言转译中间层，让模型直接从视觉信号生成车辆动作指令。它相比第一代有五大变化。

第一，核心架构革新。最本质突破是从“三段式语义转译”到“端到端直接映射”，传统VLA（含小鹏第一代）采用视觉识别→语言转译→动作生成三段式架构，视觉特征需先转译为自然语言（如“前方50米有行人横穿”），再生成动作，存在信息损耗、延迟高、语义误判三大问题。

VLA 2.0重构为视觉→隐式Token→动作的端到端架构，彻底去掉显式语言转译层，视觉传感器捕捉的路况直接转化为模型内部的隐式Token（非语言化的物理世界特征表征，无人工定义语义规则），隐式Token直接映射为方向盘、油门、刹车的连续动作指令，模型内部完成对物理世界的认知，但不进行语言化表达。相比第一代VLA，VLA 2.0系统响应速度提升，端到端推理时延降至80ms。

第二，模型体系重构。VLA 2.0采用云端超大规模基座+车端轻量化蒸馏，并支持自演进学习，即VLA 2.0采用“云端训练-车端推理”的两级模型架构，兼顾推理能力与车端实时性。

云端基座模型：720亿参数超大规模模型，依托小鹏3万卡云端算力集群（10EFLOPS算力）训练，支持对抗训练、因果推理学习，可推演未来驾驶场景，提升长尾场景应对能力；

车端蒸馏模型：几十亿参数轻量化模型，通过知识蒸馏保留云端模型90%以上的推理能力，同时适配车端算力限制，可在小鹏自研图灵芯片上实现实时推理；

自演进学习能力：模型无需大量人工标注，通过学习真实世界的物理交互规律自主优化决策，新场景可通过实车数据闭环快速适配，实现“数据驱动自我进化”。

第三，感知优化。VLA 2.0的感知优化核心是小鹏与北京大学联合研发的FastDriveVLA视觉Token剪枝框架，解决了传统VLA模型视觉Token过多、计算量高、无效信息干扰的问题，实现“去繁从简”的高效感知。

剪枝架构的核心技术点是利用ReconPruner即插即用剪枝器，基于MAE风格像素重建训练，引入对抗性前景-背景重建策略，让模型像人类司机一样只聚焦核心驾驶信息（行人、车辆、交通标识、障碍物等前景），自动过滤无效背景信息（树叶、光影、路面纹理等）。

第四，车端算力大幅提升。通过依托自研图灵芯片（单颗750 TOPS）+全链路优化，实现大模型车端部署。

第五，决策规划层进化。VLA 2.0并非简单的“感知-动作”映射，而是构建了具备因果推理能力的物理世界模型，让智驾系统像人类司机一样“理解路况、预判意图”，而非单纯识别障碍物。

模型能基于物理世界规律预判交通参与者的行为意图，而非传统算法的“仅识别障碍物并简单减速”，它是有场景理解能力，比如遇到窄路会车，它会先停车让行，然后有了通行空间后再行驶。

同时，它采用扩散模型生成方向盘角度、油门/刹车力度的精细化连续控制指令，而非传统的离散动作（如转向、加速、刹车），在无保护左转、窄路会车、加塞避让等场景中，动作更贴近人类老司机，衔接更平顺。

▍第二代VLA解决了哪些问题？

1、突破窄路通行难题

图片.png

针对窄路通行的复杂场景，通过重构底层架构，解决了双车道右侧停满临停车、左侧电动车和行人频繁出现的难题，实现了既安全又流畅的通行。

在整个通行过程中，第二代VLA它是隐式的先去对周围环境进行3D建模，然后去尝试理解整个世界是什么样，再去判断自己的通行状况到底能不能过去，最后再做出一个最舒适安全的选择。所以在这个时候，可以看到它不仅仅通行距离是足够的，而且并不会觉得特别紧张，因为它速度控制的很好，慢慢的过去，同时也是走一步看一步。当通行空间特别窄，过不去的时候，它会停下等，并不会一路特别猛的冲过去，最后把自己卡死。

2、窄路压低矮台阶通行

图片.png

在窄路会车时，通行空间不够，压着右前方的低矮台阶通过。

因为在第二代VLA的眼里面，它不像传统的智能驾驶一样有感知。如果有感知，就要去识别可行驶区域或者道路。先去检测道路的边界，不可行驶区域。而在第二代VLA整套范式背后，是没有这些概念的。当一旦有规则，有检测可行驶区域的边界，它就会被压在里面。这个时候一般的选择会卡住不动，不知道干什么了。正常人是不会这么开车的，他会判断这个地方可行驶的可能性。然后判断对车的底盘，整体的安全性有没有影响？比如说遇到台阶，如果卡在那儿不动，不去让行的话，其实有被刮蹭风险的。所以窄路会车时去借用一个还不算高的台阶，做一个通行空间的避让，是最合理的选择。第二代VLA会去尝试理解整个世界，通过COT去做推理，然后最终找到一个最合理的通行空间去往前走。

3、绕行开门杀

图片.png

智驾在处理突然发生的开门杀场景中的技术难点，一是对整个空间的把握要非常准。一般传统的意义上来说，智能驾驶会把一个车当成一个矩形框来处理。当你开门的时候就会发现一个矩形框，上面多了一条，它一般会用一个多边形去表示，而且还要去判断开门的整体速度以及是否还会从里面下来一个人。这种情况下去判断边界是很难的。另外一个难点是反应速度需要非常快，基本上是小于1秒的时间，迅速的去做出一个绕行，然后再回去这样一个动作对。第二代VLA对处理这种突然发生的异常场景具有很强判断能力，它不仅能做到很精准，而且做的非常快。这是因为车身上的传感器输入信号多，而且它的模型尺寸大，具有很强的思考能力，再加上执行速度快，所以处理起来更丝滑。

4、识别减速带

图片.png

减速带对于智能驾驶来说是一个很难处理的问题，因为它离地面的高度并不高，通常又是一个平缓的过程，利用传统的感知算法，是很难精确得到它的高度，所以更别说根据高度去调整自己通过的速度。之前一般的做法是，在高精地图上会把有减速带的位置标记出来，这个地方有减速带，高度是多少，应该降速到多少，或者是另外一种只要是减速带，就一定会减速，减到一个固定的值再去过。

第二代VLA的做法是并没有明确的说这里有一条减速带或者是标记出来，也没有做高精地图。更多的是靠数据去驱动，当整个模型看过上百万条不同的减速带数据时，它就会去理解这些减速带的不同。所以核心还是有更多的数据，这些数据来自于真实场景，而不是在一条大直路上不停的开的单一场景。这样它的泛化能力会得到很大的增强。这就是第二代VLA对不同的减速带会做出不一样反应的原因。

5、避让坑

图片.png

它是怎么识别水坑的？其实这个就是得益于它使用的摄像头，具有更多的色域，它的色域和动态范围更大更宽，同时输入信息更多，在配合上，摄像头一般是800万甚至更高像素的输入密度。所以它有更多的信号可以判断当前的路况，因为在这里面它没有一个可行驶区域的概念，它更多的还是判断这个地方它真实的路况是什么？它的材质是什么？所以见到水坑，如果数据足够多的话，它就应该知道见到这样不可行驶的区域，要绕过去。而见到那些躲不过去的，选择减速过去。

6、横向避让变道车辆

图片.png

这个场景是一种时空联合规划，或者是横纵，横向和纵向同时去考虑。比如人去处理这种情况，会先看倒车镜，看后面有没有车，再看旁边有没有车，再去决定要不要超车，还是跟在后面。整个过程要考虑很多因素，要去看周围的环境，同时考虑最小化风险。

另外，还有一个概念叫解空间。虽然解空间很大，但要同时去探索在横向和纵向不同维度上的可行性。所以得益于一个大算力的芯片，加上一个更大的模型，它的好处就是能同时去探索很多种不同解的可能性，从中去挑选出一个对我们来说最舒适最安全的解。

7、白天和夜晚的差距不大

第二代VLA白天和夜晚差距不大的原因主要是，小鹏从2024年更新视觉方案后，更换了新的传感器，新的摄像头具有更强的通光量，动态范围更大，给整个模型泛化性带来了很好的基础。

另一个是整个模型的端到端延迟很低，反应速度快，可以在极端的情况下有更好的处理速度。比如说打滑或者路面湿滑的情况下，车会更快的控制住，遇到暗光时，还会像人类司机一样主动降速、小心行驶。

所以，在正常的工况下，不管是白天还是夜晚，第二代VLA还是有非常一致的表现，不会存在巨大的差距。

▍第二代VLA还有哪些问题？

1、园区和地库的漫游

刘先明说道，“目前，园区跟地库的漫游，还没有达到像城区一样的惊艳程度。所以为了大家的体验和整体的使用性，我们还是决定在第一个版本的时候把它暂时的先停止推送。但是会在不久的下一个版本，给大家推送过去。”

2、不按导航路线行驶

第二代VLA偶尔会出现不按照导航路线走的问题。

为什么呢？之前的导航规划基本上都是靠规则来做的，就相当于有一个上帝之手，先画了一条线，比如最早的高精地图，或者是非常接近于高精地图的车道级导航，再或者是在特定的路口，如果看不见，加一些提前画好的路线，好比在铁轨上开车，肯定是不会错的。

而小鹏VLA 2.0是通过模型的迭代去解决问题的，并没上加入规则和高精地图，所以偶尔会出现导航不准的情况。即便如此VLA 2.0仍然没有加入规则和高精地图，而是通过数据去解决问题，因为这样以后只要有导航信息，就能地下开、地面开，村路、山路、土路都能开。

3、极端天气

在面对暴雨、暴雪、沙尘暴等极端天气时，会导致VLA 2.0退出。首先这是因为任何传感器的都是物理极限的，传感器本身的物理性能是有上限的。

其次是，VLA 2.0是依赖于海量的训练数据，所以它在什么情况下跑的好或者不好是取决于训练数据分布的。而它本身的训练数据又来自于所有车主每天正常开的工况，包括雨天、雪天、黑夜等，但极端天气的数据不多。

4、识别马路上平躺的四个小孩子，有减速，但不能刹停

图片.png

“马路上平躺着四个小孩，从远处看就像减速带一样，第二代VLA识别后是有减速的，但是这个减速度不足以刹停。这个是一个真实的情况，也给了我们一个动力，我们离做到完美还是有距离的。这个也是我们不停向前去解决这些问题的一个原动力。我们希望真的能做到，在任何的突发情况下都能有足够的安全。所以我们希望能通过不停的迭代，让这个事情做得越来越好，能真的有一天，不是开始减速，而是真正能安全的让这种事情都处理的很好。”刘先明说道。

▍Ultra版和Max版有什么区别？

Max版本是面向L2的，但是它不是把所有场景都能解决，也不能把主要场景碰到的corner case都解决。而Ultra版本是一个面向L4的，是能够千公里接管一次或者更少，Max版本则是百公里。

来源：第一电动网

作者：张芳超

本文地址：