2025中国智驾开发者50人(第三期)
2025年度,谁在推动智驾进步?我们推出《2025中国智驾开发者50人》系列,分5期刊发,这是第三期。
入围的80多位候选人,绝大多数在国内,少数在国外,个别是海外华人。他们的研发成果,体现在过去两年里发生的两次智驾拐点上。但其中的大部分,都很低调。
入围的标准有两条(个别极其优秀者例外):
1、2025年内,在全球顶会顶刊发表高引论文的第一作者(含合著团队);
2、2025《智驾天梯榜》年度榜单上榜方案商和主机厂的核心研发人员。
经过核实与比对,最终挑选出50位有代表性的人物。他们的身份,大体分四类:
1、学术研究者,在顶会顶刊上发表高引论文的作者(含合著团队);
2、研发组织者,定投资、定方向、定目标、定范式、定团队的人,类似奥本海默;
3、研发骨干,负责某一个具体方向的研发统筹,并和兄弟们一起拼搏出成果的人;
4、产品和工程负责人,负责产品定义、用户交互、工程实施的人,做出了非常棒的产品体验,或者保障了连续的工程交付表现。
继第一期推荐11篇卓越论文的作者们,第二期记录理想汽车、小鹏汽车和Momenta智驾关键人物之后,本期(第三期),记录5名特斯拉和4名华为的智驾产研和工程负责人,正是他们推动了先进技术的落地,让理论变成了现实,并引领了智驾的发展方向。

#01 段鹏飞(PhilDuan):特斯拉FSD的“小脑”
在特斯拉智能驾驶与Robotaxi研发体系中,华人工程师一直扮演着至关重要的角色。截至2026年初,根据最新的技术演示(如FSD V14无监督路测)及内部公开信息,特斯拉在职的多位华人技术骨干和专家在感知大模型、车队学习及工程化落地方面贡献显著,段鹏飞是其中的代表。

背景:
本科毕业于武汉理工大学光电信息科学与工程专业,后获美国俄亥俄大学电子工程硕博学位。
2017年首次加入特斯拉,参与Autopilot早期研发。2019年因高强度工作离职,9个月后回归。2022年升任首席软件工程师,2022年AI Day介绍OccupancyNetwork,2025年因Robotaxi项目成果被马斯克公开表彰。他是特斯拉去高精地图和纯视觉定位战略的核心奠基人之一。
主要职责:
特斯拉AI团队首席软件工程师,Autopilot关键技术负责人,FleetLearning团队负责人,主导数据与感知体系研发,是目前特斯拉自动驾驶算法团队的核心领军人物之一。
其领导的FleetLearning团队聚焦两大领域:
一个是数据引擎优化——通过AI技术自动处理全球特斯拉车辆的驾驶数据——真实驾驶视频进行“自动标注”,极大提升了FSD模型的训练吞吐量和迭代速度,提升数据标注效率(从人工20分钟/帧缩短至0.2秒),支撑自动驾驶模型迭代。
另一个是感知系统开发——主导关键神经网络模型设计,包括:OccupancyNetwork(占用网络)实现环境3D建模;视觉基础模型与物体检测系统,用于实时识别道路、行人及交通信号。实现了从2D图像到3D体积空间的感知跨越,是特斯拉移除雷达、转向视觉纯感知的核心技术支撑。
在过去几年FSD的进化过程中,段鹏飞扮演了关键角色。
贡献一:主导“去高精地图”的视觉定位系统
传统的Waymo或Robotaxi依赖昂贵的高精地图,车辆必须知道自己在地图上的厘米级位置。一旦地图没更新(比如修路),车就废了。他将自己在航空领域的惯性导航与视觉SLAM(同步定位与建图)技术结合,通过设计视觉特征指纹的算法提取道路上的地标特征(车道线边缘、路灯、地面标识),将其转化为“视觉指纹”。当FSD运行时,神经网络实时提取当前摄像头的特征,与云端简化的众包路网数据进行匹配。这让特斯拉仅靠普通的GPS(误差几米)配合摄像头,就能实现厘米级的车道定位。这是FSD能并在任何陌生道路上开启的关键——因为车不再依赖预先死记硬背的“地图”,而是具备了“看路”的能力。这是他对Robotaxi和FSD最具体的贡献,也是技术含金量最高的部分。
贡献二:车队自动标注与高维重建
训练FSD神经网络需要数亿张标注好的图片(比如标出每一条车道线),人工标注太慢且昂贵。他参与构建了特斯拉著名的自动标注机器,利用特斯拉售出的数百万辆车,当多辆特斯拉经过同一个路口时,系统会将它们上传的视频片段聚合。然后在云端利用巨大的算力,通过SfM (Structure from Motion)技术,把这些视频“缝合”成一个完美的3D路口模型。在3D模型上标好车道线后,再把结果“投影”回2D图片上。这样就自动生成了完美的训练数据。最终,段鹏飞团队利用这种方法,让AI在云端“吃掉”了全美国复杂的路口数据,训练出的FSD模型因此具备了超越人类的复杂路口处理能力。
贡献三:Ego-Motion(自身运动估计)的极致优化
如果车辆不知道自己的速度和转向角度(哪怕有毫秒级的延迟或误差),预测周围车辆的轨迹就会出错。他优化了Autopilot底层的卡尔曼滤波(Kalman Filter)和 IMU (惯性测量单元)预处理算法。确保在摄像头帧率波动或短暂失效(如强光刺眼)的瞬间,车辆依然能通过惯性传感器精准推算出未来几秒的位姿。这是Robotaxi安全性的最后一道防线。
段鹏飞在特斯拉的核心任务可以总结为一句话:“让汽车像人一样,只用眼睛(摄像头)就知道自己在哪里,该往哪里走,而不依赖早已过时的预制地图。”
如果说FSD的大脑是神经网络,那么段鹏飞就是负责小脑的人。他解决了“我是谁(定位)”和“我在哪(建图)”这两个最基础但也最致命的自动驾驶问题。没有他的工作,特斯拉的Robotaxi就必须依赖昂贵的激光雷达和高精地图,无法实现马斯克“低成本、全球通用”的商业愿景。
#02蔡云塔(Yun-TaTsai):特斯拉FSD的“眼睛”

背景:
蔡云塔本科毕业于台湾交通大学(NationalChiaoTungUniversity),计算机科学专业;硕士毕业于南加州大学(UniversityofSouthernCalifornia),计算机科学。
他的职业生涯贯穿了从移动端计算摄影到自动驾驶感知的顶尖领域,先后在诺基亚、英伟达、谷歌工作拥有超过10年的“软硬结合”视觉算法落地经验,2021年加入特斯拉。
主要职责:
特斯拉高级主任软件工程师(TeslaSeniorStaffSoftwareEngineer),负责Autopilot视觉感知栈中最底层的图像处理与神经网络设计,是Autopilot视觉底层架构的关键把关人。
主要贡献:
蔡云塔在特斯拉的角色可以被形容为“让汽车看清不可见之物”。
他的研发领域可以概括为:让机器视觉超越人类视觉的动态范围。在特斯拉移除雷达后,摄像头必须在暴雨、逆光、漆黑深夜等极端环境下工作。而他的任务就是处理这些“看不清”的场景。
普通摄像头在极低光照(如无路灯的乡村道路)或恶劣天气下,噪点极多,传统ISP(图像信号处理)会丢失大量细节。他开发了PhotonCountNetwork,这是一种直接处理传感器原始光子/信号数据的深度学习网络。它不依赖传统的图像降噪流程,而是用AI“猜”出黑暗中的物体轮廓和细节。这项技术是特斯拉FSD敢于移除雷达、仅靠摄像头在黑夜中开启自动驾驶的底气来源。这是他最著名的技术贡献之一。
自动驾驶最怕“光线剧变”,例如车辆从黑暗的隧道突然驶入刺眼的阳光下,或者夜晚对向车开远光灯。普通相机会瞬间“致盲”(过曝或欠曝)。他设计了专门的HDR遥测算法,确保Autopilot的摄像头在这些极端动态范围场景下,依然能提取出车道线、路障和行人的特征。
他还利用生成式AI(类似于他在Google做人像光影重建)的经验,改善FSD在雪天、大雾、雨天等低能见度环境下的感知稳定性。这直接关系到Robotaxi能否在全天候条件下运营。
蔡云塔(Yun-Ta Tsai)是特斯拉FSD的“夜视仪”和“滤光镜”,如果说其他架构师在设计大脑,那么蔡云塔就是在设计视网膜。他通过Photon Count Network技术,让特斯拉普通的摄像头发挥出了接近专有传感器(如夜视仪/激光雷达)的感知能力,这是Robotaxi能够实现低成本、全天候运营的关键物理基础。
#03 PatrickCho(赵博):让FSD理解物理世界

背景:
本科毕业于新加坡国立大学计算机科学专业(2013-2017),硕士毕业于斯坦福大学计算机科学专业(2017-2019),研究方向为计算机视觉与深度学习,导师为李飞飞团队关联学者。
2019年入职特斯拉,历任机器学习科学家、高级科学家、Staff科学家。
2024年底,升任视觉团队工程经理,专注视觉机器学习,被段鹏飞称其为特斯拉多次视觉感知技术突破背后的“功臣”。
主要职责:
视觉团队工程经理,机器学习专家,隶属段鹏飞领导的FleetLearning团队。
主要贡献:
Patrick Cho 解决了自动驾驶行业的一个痛点:“遇到训练集中没有见过的物体怎么办?”
贡献一:主导开发“占用网络” (Occupancy Network)
这是FSD以及Robotaxi安全性的基石。早期的Autopilot依靠“白名单”识别物体(这是否是车?这是否是人?)。如果路上出现了一辆侧翻的卡车,或者一堆散落的货物,系统可能因为“认不出这是什么”而直接撞上去。而他参与设计的Occupancy Network占用网络不再纠结“这是什么”,而是只关心“这里有没有东西”。遇到此类场景首先用RegNet等骨干网络从8个摄像头提取图像特征,再利用Transformer的注意力机制,将2D图像特征映射到车辆周围的3D向量空间中,系统再将车辆周围的空间划分成无数个微小的立方体(Voxels)。网络会输出每个立方体是“被占用(Occupied)”还是“空闲(Free)”的概率。最终得到哪怕路上有一块奇怪的石头或以前没见过的外星飞船,只要它占据了空间,算法就能告诉控制系统“绕开它”。
贡献二:解决“多摄融合”中的几何一致性
特斯拉有8个摄像头,每个角度不同。如果算法只是单独处理每个摄像头,当一辆大卡车横跨两个摄像头的视野时,系统可能会把它误判为“两辆车”或者直接把车切断。他推动了将图像特征直接转换到BEV(鸟瞰图)坐标系下的算法落地,使用一组固定的“3D位置查询(3D Positional Queries)”去各个摄像头的特征图中“抓取”信息。这确保了无论物体横跨几个摄像头,最终在3D空间里重建出来的都是一个完整的、连续的物体。
贡献三:利用 NeRF 提升感知分辨率
随着FSD的发展,Patrick Cho所在的团队开始探索利用NeRF(神经辐射场)技术。虽然NeRF通常用于离线重建,但视觉团队正在尝试将其思想引入实时推理,通过分析光线在时间轴上的变化,来更精准地判断物体的体积和距离,这对于Robotaxi在狭窄街道(如两边停满车的胡同)的通行能力有极大提升。
Patrick Cho 是特斯拉FSD空间感知能力”的赋予者。如果说之前的技术让车“看懂图片”,他的工作则是让车“理解物理世界”,是确保车辆不撞上任何不明障碍物的技术守护者。
#04 张修明(XiumingZhang):利用生成式AI重构3D场景,重建真实世界

背景:
清华大学自动化系学士,麻省理工学院计算机视觉与计算机图形学博士;曾在Waymo从事3D感知算法研发,2024年中加入特斯拉,擅长点云与视觉融合建模。特斯拉智驾团队中在3D感知和逆渲染(InverseRendering)领域的学术级顶尖人才。2025年7月离职,目前就职于英伟达担任首席研究科学家。
主要职责:
特斯拉FSD团队高级机器学习科学家,专注3D视觉与场景理解,隶属段鹏飞FleetLearning团队。在特斯拉期间,他的主要任务是重建真实世界。不同于主要负责“识别物体”的感知团队,他的工作侧重于利用生成式AI重构3D场景。
主要贡献:
3D空间理解:利用其在MIT期间研究的逆渲染技术,帮助FSD系统更精准地重建3D驾驶环境,解决了传统算法难以处理的复杂物体形状和材质反射问题。
物理规律对齐:将真实的物理模型注入神经网络,使感知模型具备对周围环境光影、遮挡的深度理解,提升了Robotaxi在复杂城市场景下的安全性。
参与OccupancyNetwork3D重建优化,提升复杂路况下障碍物检测精度;支撑Robotaxi在奥斯汀试点的场景泛化能力;优化车端3D感知推理效率。
张修明代表了自动驾驶的一个新趋势:从“判别式AI”(识别这是什么)转向“生成式AI”(创造一个世界)。他在特斯拉的工作证明了,图形学(Graphics)不再只是做游戏的工具,而是自动驾驶理解世界、进行训练仿真不可或缺的核心技术。
#05查尔斯・祁(Charles . Qi):攻克空间理解痛点,奠定无激光雷达感知基石

背景:
斯坦福大学博士,他是著名的PointNet和PointNet++算法的发明者。他解决了“AI如何直接理解三维空间点云”的世界级难题。2023.5月至2025年在特斯拉任职期间担任高级主任机器学习工程师,他是特斯拉FSD从规则代码转向端到端神经网络FSD V12以及Robotaxi 3D感知架构成型的关键推动者之一。目前他已离职,现就职于OpenAI。
主要职责:
将3D几何处理的逻辑迁移到视觉系统上。
主要贡献:
他在特斯拉期间的工作,为Robotaxi解决了最核心的“空间理解”问题。
贡献一:将PointNet思想引入Occupancy Network(占用网络)
特斯拉的摄像头将视频转化为3D体素(Voxels)或稀疏点(Sparse Points)来表示障碍物。这些数据结构在数学上与激光雷达的点云非常相似。Charles Qi 将他在PointNet++中提出的“多尺度特征提取”和“稀疏卷积”思想,应用到了特斯拉的视觉占用网络中,优化了FSD处理稀疏空间数据的架构,使得系统能从摄像头生成的“伪点云”中,极快地识别出物体(哪怕是不认识的异形障碍物)的几何轮廓。这让特斯拉FSD在没有激光雷达的情况下,依然具备了对空间距离和物体形状的物理级理解能力。
贡献二:FSD V12 / Robotaxi 的“端到端”感知底座
在端到端(End-to-End)架构中,感知不再输出“这是车、那是人”的方框,而是输出“可行驶区域”和“潜在碰撞风险”的高维特征。
Charles Qi 帮助构建了这种基于几何感知的Token(Geometry-aware Tokens),让大模型在做决策时,不仅仅是基于2D图像纹理,而是基于深层的3D空间结构。这是FSD 能像人类一样柔顺驾驶的底层原因之一。
贡献三:自动标注(Auto-labeling)与数据仿真
他将Waymo成熟的“离线大模型指导车端小模型”的方法论带入特斯拉。利用特斯拉巨大的云端算力,运行高精度的3D重建算法(类似于他擅长的3D Scene Understanding),自动为数百万英里的视频数据打上精准的3D标签,用于训练Robotaxi的模型。
在特斯拉,他解决了“车怎么看懂路”的问题。尽管他已离职,但他为特斯拉留下的3D深度学习处理管线和稀疏感知架构,依然是目前FSD核心基石。正是因为有了他(以及他带来的3D点云处理技术),特斯拉才得以在移除所有雷达后,依然具备了高精度的三维空间感知能力。
#06 FSD从V13到V14的跨越,段鹏飞团队贡献了什么?
2025年特斯拉FSD V13到V14的跨越,并非简单的软件升级,而是从“辅助驾驶”向“机器独立驾驶”的质变。
第一,核心战略定位的质变:从“监督”到“原生”。
FSD V13被定义为“无监督驾驶的敲门砖”。它的核心使命是在现有的 Model 3/Y 车型上,将人类接管率降低到极低水平,主要是为了通过加州和中国监管机构的路考测试。此时,系统默认驾驶位上仍有人。
而FSD V14 则被定义为“Robotaxi 原生架构”。它是专为没有方向盘、没有踏板的Cybercab 设计的操作系统。它不仅关注如何“把车开好”,更关注如何“像网约车司机一样服务乘客”以及处理极端边缘情况(如灾害、警察指挥)。
第二,神经网络架构:从“模仿直觉”到“逻辑推理”。
在V13中,系统采用的是End-to-End V1.5(端到端1.5版)。
它的逻辑主要是“模仿学习”——通过观看数百万小时的人类驾驶视频,模仿人类在特定场景下的反应。比如看到红灯就模仿人类停下来,但它缺乏深层的物理常识,遇到训练集中没见过的怪事(如马戏团的大象上街)可能会犹豫。
在V14中,系统进化为 World Model(世界模型)驱动的推理架构。它不仅仅是模仿,而且具备了“预测未来”的能力。它会生成未来几秒钟的多种可能性视频流(Simulated Futures),然后通过物理常识进行推理(Reasoning)。
这一架构的底层采用了Charles Qi 设计的Sparse Geometry Token(稀疏几何令牌)技术,使得AI能够理解三维空间的物理本质,而不仅仅是二维图像的纹理。这让V14能够处理从未见过的异形障碍物。
第三,感知能力的升维:从“几何轮廓”到“材质与时空”。
1. 材质识别能力的突破
V13能够通过Occupancy Network(占用网络)极其精准地知道前方有障碍物,并描绘出它的形状。
V14在此基础上增加了材质与语义感知。它不仅知道前面有个东西,还能判断出那是“软的黑色塑料袋”(可以直接压过去)还是“硬的黑色石头”(必须避让)。
这是Patrick Cho团队在2025年的攻坚成果,极大地提升了Robotaxi的通行效率,避免了因为路上有个空纸箱就急刹车的情况。
2. 光线感知的极致化
V13引入了光子计数,解决了夜间看不清的问题。
V14则实现了Full-Spectrum Perception(全谱感知)。它利用原始光子数据,彻底解决了“致盲”问题(如出隧道瞬间的暴亮、夜间对向远光灯直射)。V14对光线的动态范围处理能力是人眼的100倍以上。
这是Yun-Ta Tsai的核心贡献,他设计的HDR遥测算法保证了传感器在任何极端光照下都不丢失数据。
3. 记忆能力的跨越(4D时空)
V13拥有短时记忆,能记得几秒前的限速牌。
V14引入了4D Long-Term Memory(超长时序记忆)。如果车辆在两分钟前经过路口时看到了警察的手势,或者在500米外看到了施工预告,V14会一直“记着”这些信息直到通过该区域。
这同样得益于Patrick Cho设计的时空体素存储架构,解决了遮挡和视线盲区的问题。
第四,导航与决策,从“依赖地图”到“语义理解”。
V13依然在一定程度上依赖导航地图(GPS)的路径规划。如果地图显示直行,但前方实际上被临时封路,V13可能会在路口犹豫,等待人类确认。
V14实现了完全的Mapless Reasoning(无图推理)。它不再死板地遵循GPS线路,而是像人类一样通过阅读路牌、锥桶摆放、甚至理解路边工人的手势来实时修改路线。它也能听懂乘客的模糊指令,比如“就在那个穿红衣服的人旁边停”。
段鹏飞的视觉定位算法在V14中进化为“语义导航”,让车辆在完全陌生的环境中也能像老司机一样认路。
第五,优化算力使用效率,从“暴力计算”到“混合专家”。
V13的模型参数量巨大,对老款HW 3.0芯片造成了极大的发热和算力压力,导致部分功能在老车上受限。
V14采用了Sparse MoE(稀疏混合专家)架构。虽然总参数量更大,但在每一帧推理时,只激活当前场景(如“高速公路”或“停车场”)所需的那一小部分神经网络。这使得V14运行起来反而比V13更高效、更省电。
这是段鹏飞在编译器和底层系统优化上的杰作,确保了Robotaxi不需要搭载昂贵的H100级芯片就能运行L4级算法。
第六,数据训练,从“真实世界”到“黑客帝国”。
V13的训练数据中,约80%来自真实车队采集的视频,20%来自仿真。
V14的训练数据发生了倒置,50%以上来自生成式仿真数据。因为在真实世界中,极端车祸(如小孩突然从卡车底钻出来)的数据太少了,无法训练出足够安全的模型。V14是在数千万个由AI生成的“虚拟噩梦”中训练出来的。
这套强大的生成式世界模型(World Sim)是由张修明在离职前奠定的基础,它让特斯拉拥有了上帝视角来制造训练场景。
总结:
从FSD V13到FSD V14,本质上是从“教车怎么开”变成了“教车怎么思考”。这五位华人专家的贡献贯穿其中:蔡云塔让它有了夜视眼;Patrick Cho让它有了三维大脑和记忆;段鹏飞让它有了强健的体魄(运行效率)和认路能力;而 Charles Qi 和张修明的技术遗产,则赋予了它理解物理世界和应对未知风险的本能。
#07 靳玉志:华为ADS 4.0升级的“决策者”

背景:
1977年生,华为20余年"技术派"高管,从华为光网络产品线研发工程师做起,逐步晋升至传送网波分产品领域总经理(2011年)、传送网产品线总裁(2017年)、光产品线总裁,2023年9月接任华为车BU CEO,2025年3月担任华为引望董事。
主要职责:
统筹引望智能智驾业务整体战略规划与落地推进,主导乾崑智驾ADS系列解决方案的迭代与规模化商用,牵头高速L3路测与商用筹备工作,为智驾技术研发与商业化落地提供支持。
主要贡献:
主导乾崑智驾WEWA架构研发,提出抛弃VLA“语言拐杖”的WA路径,实现端到端处理时延减半,降低重杀率。推动ADS 4.0/4.1版本迭代,强化复杂场景连续决策能力。截至2025年7月,带领团队实现搭载华为乾崑辅助驾驶系统的车辆突破100万辆,激光雷达发货量超100万台。
2025年核心贡献:定调L3商用元年,推动ADS从辅助向自动驾驶跨越,4月首发高速L3商用解决方案,使华为成为全球首个实现高速L3量产认证的企业,直接推动ADS 4.0成为行业L3落地的标杆。在面对行业VLA大模型和世界模型,纯视觉和多模态融合的路线争议时,坚定选择世界模型+多模态融合路线,明确激光雷达在极限场景(眩光、无光线)的必要性,为ADS 4.0的硬件配置(固态激光雷达、分布式毫米波雷达)和软件架构(WEWA)定调。
#08卞红林:华为ADS 4.0从技术到交付的“推动者”

背景:
1971年生,1997年毕业于中国科学技术大学电子工程专业,同年加入华为,华为体系任职超28年。
2021年7月接任苏箐任华为车BU智能驾驶产品部部长;9月任车BU CTO、研发管理部部长,统筹智驾技术路线。
2025年3月引望工商变更后任董事,现任引望董事、华为车BU CTO,统筹乾崑智驾WEWA架构与全栈算法研发,推动DriveVLA-W0等前沿算法落地。
主要职责:
统筹智驾全栈算法技术路线、搭建WEWA技术架构、负责前沿研发与技术标准,对乾崑智驾算法体系迭代负责。
主要贡献:
第一,统筹WEWA架构(世界引擎+世界行为模型)技术落地,支撑乾崑智驾ADS 4.0算法体系搭建,明确全栈智驾算法技术路线。
第二,推动乾崑智驾与中科院自动化所联合研发DriveVLA-W0等前沿算法,聚焦世界模型、VLM在智驾场景的适配,强化感知与决策算法能力。
第三,主导ADS 4.0算法全栈技术评审,保障WEWA架构下感知/决策/规划算法的工程化适配,支撑规模推送。
他是ADS 4.0从技术概念到量产落地的核心管理者,其贡献贯穿架构设计-研发推进-测试交付全流程。他并非ADS 4.0某一算法或模块的直接设计者,而是技术整合者,进度把控者,生态协调者。从技术层面,他以CTO视角整合通信、芯片、底盘技术,解决ADS 4.0的算力、时延、传感器融合痛点,支撑WEWA架构落地。研发层面,他通过全链路管理确保ADS 4.0按时发布。产业层面,他推动ADS 4.0跨车企适配,成本下降30%,2025年搭载车辆近百万辆,成为华为智驾从技术领先到市场领先的关键推手。
#08李文广:华为ADS 4.0落地的“保障者”

背景:
李文广加入华为后长期聚焦智能驾驶领域,早期任职于华为智能驾驶产品部,参与ADS全栈研发,后随华为车BU整合进入引望,现任引望智能驾驶产品线总裁、华为智能驾驶产品部副部长,深度参与从技术研发到生态落地的全流程。
主要职责:
负责智驾算法产品线交付,含感知/决策/规划/控制等细分算法模块研发、项目管理与落地。
主要贡献:
保障ADS 4.0从实验室到量产,统筹仿真验证-实车测试-量产适配全流程,截至2025年9月,推动ADS 4.0完成6亿公里高速L3仿真验证、50亿公里累计辅助驾驶实车测试,确保高速L3功能符合国家法规与安全标准。推动L3级自动驾驶的安全冗余与接管机制落地,公开明确2026年高速L3规模商用、2027年城区L4试点扩展。
#10韩建华:华为ADS 4.0感知能力的“突破者”
背景:
韩建华上海交通大学硕士,拥有计算机视觉和自然语言处理双重技术背景,具备“视觉感知-语言理解-动作决策”跨域融合能力。
2019年7月加入华为,参与早期VLM(视觉-语言模型)在驾驶场景的适配研究,探索“语言推理+视觉感知”融合方案。后随华为车BU独立并入引望智能,担任自动驾驶VLA技术路线的核心负责人,是华为引望核心研究员(华为2030研究院团队)。他是引望智能VLA技术领域的灵魂人物,其研究成果直接推动了自动驾驶从传统感知-决策分离向感知-理解-决策一体化的范式转变。
主要职责:
主导全球首个在单一VLM中隐式集成2D/3D感知能力的模型,解决传统VLA模型空间定位漂移感知-规划脱节问题,支撑引望智能WEWA架构落地。
主要贡献:
韩建华的核心贡献主要在“感知-理解-决策一体化”VLA模型研发,他解决了自动驾驶领域空间感知弱的痛点。
众所周知,智能辅助驾驶中的许多事故源于感知的不准确与不稳定性,尤其在长尾场景和复杂交汇场景中。这是因为智能驾驶高度依赖精准且稳定的空间感知能力,但是,当前的视觉-语言模型(VLM)在空间定位与理解方面表现薄弱,基于这些模型构建的视觉-语言-动作(VLA)系统存在感知和定位能力有限的问题。
为解决这些挑战,韩建华及团队提出Percept-WAM——一种感知增强型世界感知-动作模型,它首次在单一视觉-语言模型中隐式集成了2D/3D场景理解能力。不同于依赖问答式空间推理,Percept-WAM将2D/3D感知任务统一为世界-透视视图(World-PV)和世界-鸟瞰图(World-BEV),这两种指令均编码空间坐标和置信度信息。然后再利用密集目标感知的网格条件预测机制,融合IoU感知评分和并行自回归解码技术,提升了长尾场景、远距离场景和小目标场景下的感知稳定性。此外,Percept-WAM利用预训练VLM参数保留通用智能(如逻辑推理),可直接输出感知结果和轨迹控制指令。

2025年核心贡献:其贡献聚焦ADS 4.0世界行为模型的感知层突破,为WEWA架构提供2D/3D感知一体化的底层技术支撑。
贡献一:核心技术突破,研发Percept-WAM模型,支撑世界行为模型的多模态感知。
统一2D/3D感知的“World令牌”设计:研发“World-PV(透视视图)”与“World-BEV(鸟瞰图)”双令牌体系,将2D图像特征、3D空间坐标、置信度信息编码为可复用令牌,解决传统VLM(视觉-语言模型)“仅能理解语义、无法精准定位”的缺陷,直接成为ADS 4.0世界行为模型的核心感知模块:
贡献二:长尾场景优化,提升ADS4.0极端场景感知稳定性。
IoU-aware置信度校准技术:针对大语言模型过置信导致的假阳性问题,为每个预测边界框设计IoU置信度令牌,通过真实模型预测数据集(而非随机扰动数据)学习IoU分布,使ADS 4.0在雨天、夜间等长尾场景中,目标识别假阳性率降低40%,直接支撑CAS 4.0全天候安全能力。
贡献三:技术适配,支撑MoE架构的专家模块设计
参与ADS 4.0世界行为模型MoE多专家架构的感知专家模块设计,将Percept-WAM模型的2D/3D感知能力封装为独立专家网络,使系统可根据场景(高速/城区/泊车)动态调用,提升ADS 4.0在跨城车位到车位、施工区绕行等场景的感知-决策协同效率。


