小鹏第二代VLA有哪些变化,解决了哪些智驾难题?
小鹏VLA 2.0在3月19日将开启陆续推送,首批先推送全新P7 Ultra,再推送G7和X9。4月推送P7+、G9,G6等。同时,VLA 2.0量产推送的版本是第四个大版本的第28个小版本,与之前的媒体试驾版不同(第二个大版本),但不会因为量产,把某些功能阉割掉。

第二代VLA对于小鹏来说至关重要,是小鹏从L2迈向L4的关键一战。那么,它相比之前有了哪些变化?解决了智驾行业哪些难题?它还有哪些问题?

▍第二代VLA相比第一代有哪些变化?
小鹏第二代VLA(视觉-语言-动作)核心是颠覆了传统VLA智驾“视觉-语言-动作”三段式架构,通过去显式语言转译、端到端直接映射、物理世界因果推理实现技术突破,同时结合自研芯片算力、感知优化等技术形成完整体系。
小鹏VLA 2.0的技术核心是构建“视觉→隐式Token→动作”的端到端架构,去掉传统架构中显式的语言转译中间层,让模型直接从视觉信号生成车辆动作指令。它相比第一代有五大变化。
第一,核心架构革新。最本质突破是从“三段式语义转译”到“端到端直接映射”,传统VLA(含小鹏第一代)采用视觉识别→语言转译→动作生成三段式架构,视觉特征需先转译为自然语言(如“前方50米有行人横穿”),再生成动作,存在信息损耗、延迟高、语义误判三大问题。
VLA 2.0重构为视觉→隐式Token→动作的端到端架构,彻底去掉显式语言转译层,视觉传感器捕捉的路况直接转化为模型内部的隐式Token(非语言化的物理世界特征表征,无人工定义语义规则),隐式Token直接映射为方向盘、油门、刹车的连续动作指令,模型内部完成对物理世界的认知,但不进行语言化表达。相比第一代VLA,VLA 2.0系统响应速度提升,端到端推理时延降至80ms。
第二,模型体系重构。VLA 2.0采用云端超大规模基座+车端轻量化蒸馏,并支持自演进学习,即VLA 2.0采用“云端训练-车端推理”的两级模型架构,兼顾推理能力与车端实时性。
云端基座模型:720亿参数超大规模模型,依托小鹏3万卡云端算力集群(10EFLOPS算力)训练,支持对抗训练、因果推理学习,可推演未来驾驶场景,提升长尾场景应对能力;
车端蒸馏模型:几十亿参数轻量化模型,通过知识蒸馏保留云端模型90%以上的推理能力,同时适配车端算力限制,可在小鹏自研图灵芯片上实现实时推理;
自演进学习能力:模型无需大量人工标注,通过学习真实世界的物理交互规律自主优化决策,新场景可通过实车数据闭环快速适配,实现“数据驱动自我进化”。
第三,感知优化。VLA 2.0的感知优化核心是小鹏与北京大学联合研发的FastDriveVLA视觉Token剪枝框架,解决了传统VLA模型视觉Token过多、计算量高、无效信息干扰的问题,实现“去繁从简”的高效感知。
剪枝架构的核心技术点是利用ReconPruner即插即用剪枝器,基于MAE风格像素重建训练,引入对抗性前景-背景重建策略,让模型像人类司机一样只聚焦核心驾驶信息(行人、车辆、交通标识、障碍物等前景),自动过滤无效背景信息(树叶、光影、路面纹理等)。
第四,车端算力大幅提升。通过依托自研图灵芯片(单颗750 TOPS)+全链路优化,实现大模型车端部署。
第五,决策规划层进化。VLA 2.0并非简单的“感知-动作”映射,而是构建了具备因果推理能力的物理世界模型,让智驾系统像人类司机一样“理解路况、预判意图”,而非单纯识别障碍物。
模型能基于物理世界规律预判交通参与者的行为意图,而非传统算法的“仅识别障碍物并简单减速”,它是有场景理解能力,比如遇到窄路会车,它会先停车让行,然后有了通行空间后再行驶。
同时,它采用扩散模型生成方向盘角度、油门/刹车力度的精细化连续控制指令,而非传统的离散动作(如转向、加速、刹车),在无保护左转、窄路会车、加塞避让等场景中,动作更贴近人类老司机,衔接更平顺。
▍第二代VLA解决了哪些问题?
1、突破窄路通行难题

针对窄路通行的复杂场景,通过重构底层架构,解决了双车道右侧停满临停车、左侧电动车和行人频繁出现的难题,实现了既安全又流畅的通行。
在整个通行过程中,第二代VLA它是隐式的先去对周围环境进行3D建模,然后去尝试理解整个世界是什么样,再去判断自己的通行状况到底能不能过去,最后再做出一个最舒适安全的选择。所以在这个时候,可以看到它不仅仅通行距离是足够的,而且并不会觉得特别紧张,因为它速度控制的很好,慢慢的过去,同时也是走一步看一步。当通行空间特别窄,过不去的时候,它会停下等,并不会一路特别猛的冲过去,最后把自己卡死。
2、窄路压低矮台阶通行

在窄路会车时,通行空间不够,压着右前方的低矮台阶通过。
因为在第二代VLA的眼里面,它不像传统的智能驾驶一样有感知。如果有感知,就要去识别可行驶区域或者道路。先去检测道路的边界,不可行驶区域。而在第二代VLA整套范式背后,是没有这些概念的。当一旦有规则,有检测可行驶区域的边界,它就会被压在里面。这个时候一般的选择会卡住不动,不知道干什么了。正常人是不会这么开车的,他会判断这个地方可行驶的可能性。然后判断对车的底盘,整体的安全性有没有影响?比如说遇到台阶,如果卡在那儿不动,不去让行的话,其实有被刮蹭风险的。所以窄路会车时去借用一个还不算高的台阶,做一个通行空间的避让,是最合理的选择。第二代VLA会去尝试理解整个世界,通过COT去做推理,然后最终找到一个最合理的通行空间去往前走。
3、绕行开门杀

智驾在处理突然发生的开门杀场景中的技术难点,一是对整个空间的把握要非常准。一般传统的意义上来说,智能驾驶会把一个车当成一个矩形框来处理。当你开门的时候就会发现一个矩形框,上面多了一条,它一般会用一个多边形去表示,而且还要去判断开门的整体速度以及是否还会从里面下来一个人。这种情况下去判断边界是很难的。另外一个难点是反应速度需要非常快,基本上是小于1秒的时间,迅速的去做出一个绕行,然后再回去这样一个动作对。第二代VLA对处理这种突然发生的异常场景具有很强判断能力,它不仅能做到很精准,而且做的非常快。这是因为车身上的传感器输入信号多,而且它的模型尺寸大,具有很强的思考能力,再加上执行速度快,所以处理起来更丝滑。
4、识别减速带

减速带对于智能驾驶来说是一个很难处理的问题,因为它离地面的高度并不高,通常又是一个平缓的过程,利用传统的感知算法,是很难精确得到它的高度,所以更别说根据高度去调整自己通过的速度。之前一般的做法是,在高精地图上会把有减速带的位置标记出来,这个地方有减速带,高度是多少,应该降速到多少,或者是另外一种只要是减速带,就一定会减速,减到一个固定的值再去过。
第二代VLA的做法是并没有明确的说这里有一条减速带或者是标记出来,也没有做高精地图。更多的是靠数据去驱动,当整个模型看过上百万条不同的减速带数据时,它就会去理解这些减速带的不同。所以核心还是有更多的数据,这些数据来自于真实场景,而不是在一条大直路上不停的开的单一场景。这样它的泛化能力会得到很大的增强。这就是第二代VLA对不同的减速带会做出不一样反应的原因。
5、避让坑

它是怎么识别水坑的?其实这个就是得益于它使用的摄像头,具有更多的色域, 它的色域和动态范围更大更宽,同时输入信息更多,在配合上,摄像头一般是800万甚至更高像素的输入密度。所以它有更多的信号可以判断当前的路况,因为在这里面它没有一个可行驶区域的概念,它更多的还是判断这个地方它真实的路况是什么?它的材质是什么?所以见到水坑,如果数据足够多的话,它就应该知道见到这样不可行驶的区域,要绕过去。而见到那些躲不过去的,选择减速过去。
6、横向避让变道车辆

这个场景是一种时空联合规划,或者是横纵,横向和纵向同时去考虑。比如人去处理这种情况,会先看倒车镜,看后面有没有车,再看旁边有没有车,再去决定要不要超车,还是跟在后面。整个过程要考虑很多因素,要去看周围的环境,同时考虑最小化风险。
另外,还有一个概念叫解空间。虽然解空间很大,但要同时去探索在横向和纵向不同维度上的可行性。所以得益于一个大算力的芯片,加上一个更大的模型,它的好处就是能同时去探索很多种不同解的可能性,从中去挑选出一个对我们来说最舒适最安全的解。
7、白天和夜晚的差距不大
第二代VLA白天和夜晚差距不大的原因主要是,小鹏从2024年更新视觉方案后,更换了新的传感器,新的摄像头具有更强的通光量,动态范围更大,给整个模型泛化性带来了很好的基础。
另一个是整个模型的端到端延迟很低,反应速度快,可以在极端的情况下有更好的处理速度。比如说打滑或者路面湿滑的情况下,车会更快的控制住,遇到暗光时,还会像人类司机一样主动降速、小心行驶。
所以,在正常的工况下,不管是白天还是夜晚,第二代VLA还是有非常一致的表现,不会存在巨大的差距。
▍第二代VLA还有哪些问题?
1、园区和地库的漫游
刘先明说道,“目前,园区跟地库的漫游,还没有达到像城区一样的惊艳程度。所以为了大家的体验和整体的使用性,我们还是决定在第一个版本的时候把它暂时的先停止推送。但是会在不久的下一个版本,给大家推送过去。”
2、不按导航路线行驶
第二代VLA偶尔会出现不按照导航路线走的问题。
为什么呢?之前的导航规划基本上都是靠规则来做的,就相当于有一个上帝之手,先画了一条线,比如最早的高精地图,或者是非常接近于高精地图的车道级导航,再或者是在特定的路口,如果看不见,加一些提前画好的路线,好比在铁轨上开车,肯定是不会错的。
而小鹏VLA 2.0是通过模型的迭代去解决问题的,并没上加入规则和高精地图,所以偶尔会出现导航不准的情况。即便如此VLA 2.0仍然没有加入规则和高精地图,而是通过数据去解决问题,因为这样以后只要有导航信息,就能地下开、地面开,村路、山路、土路都能开。
3、极端天气
在面对暴雨、暴雪、沙尘暴等极端天气时,会导致VLA 2.0退出。首先这是因为任何传感器的都是物理极限的,传感器本身的物理性能是有上限的。
其次是,VLA 2.0是依赖于海量的训练数据,所以它在什么情况下跑的好或者不好是取决于训练数据分布的。而它本身的训练数据又来自于所有车主每天正常开的工况,包括雨天、雪天、黑夜等,但极端天气的数据不多。
4、识别马路上平躺的四个小孩子,有减速,但不能刹停


“马路上平躺着四个小孩,从远处看就像减速带一样,第二代VLA识别后是有减速的,但是这个减速度不足以刹停。这个是一个真实的情况,也给了我们一个动力,我们离做到完美还是有距离的。这个也是我们不停向前去解决这些问题的一个原动力。我们希望真的能做到,在任何的突发情况下都能有足够的安全。所以我们希望能通过不停的迭代,让这个事情做得越来越好,能真的有一天,不是开始减速,而是真正能安全的让这种事情都处理的很好。”刘先明说道。
▍Ultra版和Max版有什么区别?
Max版本是面向L2的,但是它不是把所有场景都能解决,也不能把主要场景碰到的corner case都解决。而Ultra版本是一个面向L4的,是能够千公里接管一次或者更少,Max版本则是百公里。


