站队特斯拉 元戎打头阵
最近自动驾驶公司元戎启行宣布获得了某头部主机厂1亿美元的战略投资,虽然官方并未透露是谁,但据《晚点LatePost》报道是长城汽车。
让元戎CEO周光感到非常兴奋的是,在市场如此艰难的情况下,元戎拿到了一笔巨大的融资,并且这是一笔非政府的资金,而是来自产业链。这证明了元戎的技术实力得到了行业认可。
按照周光的说法,自动驾驶技术发展至今,经过了3个比较大的阶段,前融合,“无图”城市NOA,端到端,而这些,元戎都是最早在国内提出来并且付诸行动的。
元戎能够拿到头部主机厂的输血,很大程度上得益于其在技术路线上的激进策略。今天的智驾技术正在逐步趋于收敛。元戎的判断是否正确?与整个行业对比,元戎的技术又处于怎样的水平?
目前整个行业提得最多的就是端到端架构,主流方式有3种:一种是分段式,这是大部分车企采取的思路;另一种是交集式,智驾系统包含3个网络,感知、规控和安全规则,但彼此之间相互有交集,代表车企是小鹏、华为;另一个是一段式网络,代表车企是元戎和Momenta。(至少在公开宣传资料里,只有这两家的传播口径是一段式端到端)
按照元戎的说法,它的一段式端到端架构已经上车,目前正在预研VLA模型,即Vision Language Action Model,视觉语言动作模型,属于端到端2.0版本,是周光于2024年9月30日汽车百人会GIV上正式提出。元戎启行的VLA系统可以连接视觉、语言、动作,能识别和描述道路环境、交通标志、道路参与者等,理解交通场景中复杂的交互事件、隐藏的语义信息和逻辑推理,即便碰到罕见路标跟边缘场景,系统也能轻松应对。
元戎的VLA有三个优势。
1、VLA采用多模态训练,除了视频数据训练,元戎还引入了语言模态训练、行为模态训练。VLA模型可以通过预训练的方式,从大量的未批注数据中进行训练,学习语料的通用特征,拥有更多常识。
2、VLA还具有场景理解能力,能通过语音、文字(Language)形式对自己的驾驶行为和推理进行描述。技术人员可以了解系统的决策逻辑,就可以更快地训练它们。决策过程透明了,也更容易建立大家对智驾的信心和信任。
3、另一个就是泛化能力。因为加入了视觉、语言和动作的多模态模型,VLA模型可提高模型的泛化能力和判断推理能力。不仅限于汽车,未来,VLA还能移植到机器人等更多载体上。
基于这一套技术,元戎构建了“一体两翼”的商业逻辑,具体解释为,一个AI系统,两条商业化落地路径。其实就是辅助驾驶和Robotaxi用同一套技术,然后通过数据积累的方式不断迭代系统能力。
行文到此,接下来有意思的部分就来了。下面有3个爆点:
首先是技术的先进性。元戎认为目前VLA是最先进的技术架构。
VLA这个名字很熟悉有没有?
没错,和理想今年一直在提的VLM很像,但二者并不是一回事。周光举了一个例子,“VLM+端到端”其实是两个人在车里,新手学员和教练。端到端就是学员,而教练就是所谓的VLM带着新手学员开车,告诉你怎么走,实际的驾驶员还是新手学员。而VLA的逻辑是直接拿掉学员,让教练自己开。
周光认为,VLM是一个落后的架构,完全比不上VLA。因为纯视觉的端到端(VLM)缺乏可解释性,无法解释驾驶决策逻辑。碰到潮汐车道、限行时段等罕见路标/边缘场景难以用常识理解读懂,这种情况下很难推理出好的驾驶决策。这是元戎做VLA的原因。
有意思的是,理想自己也认可这个说法。根据《36氪汽车》报道,理想人士表示:“可以把VLA看成是端到端+VLM的合体。”而且据说包括理想在内的很多车企也在秘密研发VLA架构。
第二,元戎在技术策略和商业理念上与特斯拉完全相同。继侯晓迪,楼天城等技术大咖质疑特斯拉Robotaxi之后,元戎是首个也是目前唯一一个在技术理念上公开站队特斯拉的企业。
首先,马斯克一直在强调通过数据来提升自动驾驶能力;其次,特斯拉希望用一套技术来实现辅助驾驶和Robotaxi,把辅助驾驶的FSD放在Robotaxi上。
这和元戎提到的“数据驱动,Robotaxi同源”的理念一致。
重点来了,侯晓迪,楼天城等人的观点刚好相反。楼天城认为Robotaxi并不是无脑堆数据,数据达到了一定上限对系统反而是累赘;而且楼天城也不认为用辅助驾驶思路做得了Robotaxi。他认为自动驾驶的唯一解是世界模型。
来看看周光是如何反驳的,他认为必须要用AI的方式去做Robotaxi,而不是这种基于模块化的、基于地图划个区域去做。2018年,全世界首个Robotaxi运营,到今天为止,Robotaxi全球的运营面积可能就是千平方公里,周光认为这种运营没有价值,元戎的运营模式没有区域限制。
大佬争论,看客吃瓜,有点意思。
第三,承接上文,今年初周光在中国电动汽车百人会上diss L4,引发了不少关注,被外界称之为耿直boy。
在最近的沟通会上,周光再次对这个问题进行了解释。周光认为,元戎目前在进行的Robotaxi并不是L4,完全是两回事。L4更多的是一种技术路径的探索,而Robotaxi是一种商业模式的探索,二者并不是一回事。
由于Waymo等企业的引导,大家都把Robotaxi等同于L4。事实上,Waymo确实在以L4的方式做Robotaxi,但Robotaxi却不止L4一种方式,也可以通过元戎所谓的AI方式来做。
周光说明年元戎会把最新的VLA的技术带上车,也就是基于Thor的DeepRoute IO(也有消息说Thor并没有准备就绪)。按照周光的说法,这套系统上来以后城区智驾才能真正达到好用的状态,现在大家都是嘴炮。预计2024年底,至少会有三款搭载元戎启行智能驾驶系统的车辆进入消费者市场。同时,元戎启行也在积极推进与多家主流车企的十余款智能汽车的量产合作。智能驾驶大潮将至,元戎打出了创业5年来的蓄力一击。