与楼天城复盘无人驾驶:我们走过的路,特斯拉也不会少走
Robotaxi 这个行业就像一颗网球落在地上,反复上下弹跳,一直在等待有人发出最有力的一击挥拍,把球击过栏网。
一年前看起来是这颗网球弹跳的最高点,Robotaxi 从武汉火到了全国,许多人开始好奇坐无人出租车是一种什么体验。
一年后 Robotaxi 又来到了小高峰期,马斯克不再跳票,准时于 6 月 22 号在美国奥斯汀运营特斯拉 Robotaxi。天降大任于斯人也,很多人寄希望于马斯克,希望这个如神般的人物能带领特斯拉率先在奥斯汀完成盈利。
但 Robotaxi 行业还没有因为特斯拉加入就加速,特斯拉目前也没有因为进入 Robotaxi 行业,就跳过其中任何一步。
特斯拉的 Robotaxi 仍然必须从一个城市、几条固定线路、10-20 台车、邀请制开始试运营,然后再逐步扩大到其他区域。
有些人疯狂吹嘘 Robotaxi,因为这可能企业市值的下一个增长点。有些人出于对自动驾驶的技术自信启程,却被繁杂的商业化运营束缚住手脚。
如果把这两种人都从 Robotaxi 的道路上驱逐出去,这条道路就显然会空旷很多。
当我们谈论 Robotaxi 时,至少应该谈论一些只做无人驾驶技术的公司,楼天城是其中一个,他的公司小马智行去年以「Robotaxi 第一股」在纳斯达克上市,他和另一位创始人彭军一起敲了钟,现在小马智行美股市值接近 400 亿人民币。
但上市显然也不是这颗网球被击出越网的一瞬间。
外界对 Robotaxi 还存在着太多困惑,楼天城感叹「其实人对于看到比自己车技更好的电脑,第一反应是不接受的。」
我们和楼天城聊了两次,一次发生在上海车展期间,他们刚刚发布第七代 Robotaxi,一次发生在特斯拉开启试运营的两天前,楼天城也申请了特斯拉 Robotaxi 的试乘,但没有被通过。
通过两次聊天,我发现他和我想象中一样在乎一台 Robotaxi 的成本,但他抱怨很多人没弄明白真正的成本在哪,在无人车上讨论去掉最多占成本 10% 的激光雷达、1% 的高精地图,就像在西瓜瓤里面挑籽。
但是他却没有想象中那么在乎特斯拉的入局,在他眼里,即便特斯拉开启试运营,但依旧还没上 Robotaxi 的牌桌。他认为小马走过的路,这些公司一步都不会少走。
差别在于时间。从 2021 年小马发布第一代全无人车型起,到今年小马把 Robotaxi 运营规模拓展到接近上千辆,用了 4 年时间。
Robotaxi 远非大多数人想象中大火烹油、声势浩大,更接近于熬糖浆,把白砂糖倒进去,加水倒进去慢慢熬,但凡水多一点、少一点,火大一点、小一点,都不是那种最完美的琥珀色。
「熬」听起来很挣扎,在小马只有不到一百台车的时候,他担心第 101 辆的时候还需要用手敲,当世界模型这个技术解法被找到时,楼天城找回了那种信心。
有趣的是,世界模型解决 L4 自动驾驶的本质就是「活久见」,活得越久,看到的东西越多,会得就越多。
解法也在于时间。
「Robotaxi 商业化漫长的等待时间已经过去了,我们已经不再 struggle 了」。楼天城如是说。
01、漫长的等待已经过去了
汽车之心:去年武汉关注潮之后,Robotaxi 好像又不火了。如果不实现真正的商业化,这个行业就没有真正意义上的关注度?
楼天城:这个行业没有得到大众真正的关注,在于服务还不够好。
不光是自动驾驶,AI 吸引人的方式一直都是依靠好用。
Deepseek 你觉得他是因为什么吸引人?其实是它好用。AI 真正被人认可,只会因为它有高质量的服务,刚开始创业的时候我就这么想的,现在我还这么想。
汽车之心:你说过特斯拉还没上牌桌,那你怎么看特斯拉在奥斯汀开启无人化运营?
楼天城:今天我也这么认为,强如马斯克,在 Robotaxi 上也得一步一步来。
2015 年 Waymo 也在奥斯汀第一次做无人化展示。可以想一想看为什么大家都在同一个地方?
是因为奥斯汀是道路相对可控的沙漠区域。去年马斯克推迟了 2 个月开了 Robotaxi 发布会,一年过去他才在奥斯汀又放了 10-20 辆车,以及奥斯汀的部分区域运营。
这种分阶段的做法其实就是 Robotaxi 发展的方向,即便是特斯拉,也需要从 1 到 10 往前走,下一步特斯拉可能会提升车速、覆盖整个奥斯汀,从只有 10 辆车再到让更多人打到车。
上周我在美国,也申请了几次体验特斯拉 robotaxi,但都没通过。
汽车之心:你提到了规模,Robotaxi 规模从 1 到 10,从 10 到 100,从 100 到 1000 辆,不同的车队规模会经历哪些难点?
楼天城:从 1 到 10 辆是邀请制,一切是可控的。坐哪辆车、线路、运营区域都是固定的,我们最早在广州南沙坐无人车 Demo 的时候路线也是自己定的,选的是状态最好的车运行。
从 10 到 100 辆的阶段已经在靠千辆的方式运行,区别是 10 到 100 的阶段不会再去控制路线和场景。今天能做到 10 到 100 的公司已经非常少,特斯拉也没有做到,根本原因是大家的车没有处理区域内所有场景的能力。
只有规模做到上百台,才勉强叫「上了 Robotaxi 牌桌」。
从 100 到 1000 辆的难点跟从 10 到 100 的差别在于降低成本的前提下,做出和原来一样的效果。
用金子一样做出的东西,当然很好用。比如原来激光雷达十几万一个,现在每年都在更新,价格降到了几百块。但从十几万降到几百块,也逃不过「一分钱一分货」,几百的东西比十几万的信噪比可能高出了 30 倍,那我们就必须要用软件提升 Network,吃掉这 30 倍的信噪比。
而从 1000 到 10000 辆,难度就没那么大了,因为 L4 泛化能力很强,但扩展到更多城市,会对基础设施要求更多一些。
所以,最难的是从 10 到 100 辆、从 100 到 1000 辆这两步。
汽车之心:小马智行单台 Robotaxi 日均订单量 15 单,这个数字是什么水平?
楼天城:每辆车日均 15 单已经是符合 Robotaxi 正常需要、比较成熟的数字了,如果有人能把这个数字提上去很多,才会让我惊讶。
但是车辆规模和等待时间是有很多空间的。
规模增加对整体单量有很大帮助。如果规模太小,每一次车辆接单距离就会变长,车辆稀疏会造成用户等待时间就会变长,最终也会变成体验问题。
现阶段车辆规模增加有助于提升体验,我不是说具体车辆数量涨到多少,而是当下阶段,提升规模是可以增加单量,今年我们会进入千台规模。
汽车之心:小马智行有三大块业务 Robotaxi、Robotruck 和技术授权,但 Robotaxi 对小马营收的贡献 2024 年上半年只有 4.7%,且呈下降趋势,这是为什么?
楼天城:财报里的营收要分开看,一个是狭义的 Robotaxi 营收,就是车辆在外面接单,乘客付钱的盈利。另一个是广义的营收,比如我们还有项目之外的合作,车辆转卖给其他方,有一次性的项目收入在里面,有项目周期的缘故,才会给大家营收下降的感觉。
现在因为我们是上市公司,我不能分享具体数字,但我单纯看 Robotaxi 的数字,我可以说增长非常多。
汽车之心:那你有没有想过这三类业务,什么样的业务贡献比例是理想状态?
楼天城:Robotaxi 占到九成甚至更多才是我们的理想状态。但 Robotruck 单量增长后,会如何和 Robotaxi 分比,这会是一个很有意思的问题。
汽车之心:你们当初为什么要做 Robotruck,跟 Robotaxi 相比哪个业务会更快毛利转正?
楼天城:我们当初会做 Robotruck,并不代表是它会比 Robotaxi 先盈利,而是因为它是唯一能在自动驾驶程度上能和 Robotaxi 比较的市场。
这里还有个听起来很反直觉的东西,本质上 Robotruck 比 Robotaxi 更难做到无人。
事实上现在世界上还没有任何一辆 Robotruck 在公开道路上无人常态化运营。原因很好理解,第一,卡车出事故的后果更严重,对安全性要求非常高,整个开发验证过程都需要更长时间。
第二,卡车的场景简单,技术更好实现,这是严重的思维误区。因为简不简单都要达到超过人的水平,所以简单不一定是好事,就比如你希望在班里考第一名、第二名,这跟题目简不简单没有关系,简单你也需要考这个成绩。
汽车之心:为什么你们 Q1 财报还处于增收不增利的状态?
楼天城:我认为我们的财报状态符合这个阶段表现出的认知,整个行业都需要更长时间积累才能到下一个阶段。
汽车之心:你们现在做无人车域控给美团,接下来会不会下场做低速无人车?
楼天城:我们有信心能做无人小车,但是 Robotaxi 和无人小车的市场价值天差地别。
Elon Musk 说过 Robotaxi 是八万亿美元的市场,无人小车不会比这个市场更大,两者之间跟不说差 2 个 0,差一个 0 是肯定有的,所以我何必去聚焦一个价值只有 1/10 的东西呢?
我有能力、有信心去做价值更高的事情,我就会聚焦在 Robotaxi 上,我不会因为设置了高目标,做不到之后,先去做其他东西。我还是希望大家奔着真正有价值的事情去做。
汽车之心:听起来有点乐观,Robotaxi 的商业化很漫长。
楼天城:这种漫长等待的时间已经过去了。我对 Robotaxi 的信心不是今天才有的。
02、大多数人谈降本,却没搞对成本在哪
汽车之心:小马的策略是更优的成本结构下扩规模,什么样的成本结构算优质?以及把单车成本做到不亏钱,这个要分几步做才能不亏?
楼天城:成本和规模是相关的。降本是关键,真正做的人会明白问题的关键是「成本主要在哪?」但降本不在于用不用激光雷达、高精地图,他们都不是成本的关键因素。大家在说降本的时候,根本没有搞对成本是什么。
第一个关键因素是,一定要先做到无人。
第二个因素是车规零部件。Robotaxi 之前还有很多非车规件,比如小马智行第五代无人车头顶有一颗旋转的机械激光雷达,车上有这个东西就没有计算成本的必要了。早年间,我们买的第一个机械激光雷达 85 万人民币,但现在固态激光雷达的成本明显下降,都是以千元计算。
现在要解决的是,能不能在用性价比高的核心零部件的时候,还保障性能水平不下降。
第三个因素跟运营相关。现在我们还有远程协助专员,比如车辆拥堵的时候会有一些询问。之后降本的关键也在考验能不能把运营流程变得足够智能,一个人就能管五十辆车。
第四个因素就是保费,每一年给 Robotaxi 上保也是一笔很大的钱。
算完这些,今天在我们的无人车里,激光雷达能占到成本 10% 已经很不错了,我犯不着天天为 10% 纠结,而高精地图可能 1% 成本都占不到。
在这些之外,有一个非常反直觉的大头成本——其实是网费。
很多车企依靠路网收集数据来帮助训练,这是个悖论,因为如果这么多数据,网费会爆炸。逻辑是:你愿意为收集数据,付多少网费,而不是你有多少车,收集多少数据。
今天 Robotaxi 不太存在接管,可能因为方向打得太急这种情况才要收集数据,即便如此,网费依然占了我们成本的大头。如果经常接管,网费占比极高,一辆车要付九倍钱去收集数据。
L4 去激光雷达是研究院做的事,从商业化来说,这些对 Robotaxi 企业不重要,万一去了激光雷达,我却加了俩芯片,还不知道是亏了还是赚了。
第五个因素是隐形的原子化优化。
比如把我们的模型缩小到原来 1/ 3,就只需要 1/ 3 的算力来做了。
大家过去有一个误解,觉得算力越高越厉害,但那是从科研探索角度来说的,从成本来说,肯定是模型压得越小,用更小算力实现整个计算要求,还能降本,这样的思路才是有利于发展的。比如原来我买 3 块 BPU,现在就只买一块了,这就省下了 2/3 的钱。
汽车之心:你刚刚提到网费,那么 Robotaxi 公司进入海外市场可能会遇到很多网络不好的地方,那么网络对自动驾驶出海会不会是一个巨大的问题?
楼天城:网络就算不出海也是一个巨大的问题。我以前也做过网络,车本身只能接受百毫秒级别的网络延迟,中国就算有 5G 其实支撑度也非常差。
所以我们很早就意识到 L4 要靠车自己而不能靠网络,网络只是辅助给系统一些建议。所以我们的车网络断了驾驶也不会有任何问题。
汽车之心:怎么去保证断网系统也不出问题?
楼天城:简单说就是车端具有自动驾驶模型能力,或者说我需要最终在意的是我在车端的那个模型要足够强,而不是我在云端足够强。
汽车之心:马斯克之前说 Robotaxi 的成本能降到每英里 0.2 美元,这是 Robotaxi 的终极成本吗?
楼天城:特斯拉还没有上桌,Robotaxi 的牌桌是做到无人商业化的运营,且要做到一定规模的。今天只有小马、Waymo、百度坐在牌桌上。
至于终极成本,规模足够大之后,硬件成本可以降到足够低,但 Robotaxi 还有基本的车的成本以及运营费用和电费、油费。最后的状态是硬件成本降的很低,运营和车钱才是基础费用。
汽车之心:去年上半年你们的车队运营成本占一大半,为什么运营成本会这么高?
楼天城:运营有两种,一种是为了乘客的运营,另一种是研发的运营,运营成本比较高是因为要支持研发,才会造成财报运营看起来金额比较高。目前乘客运营主要包括了网费、保险、车辆维护、客服。
单从乘客运营成本来说,流程要变得更自动化。比如车辆前面的路堵上了,车辆要跨实线掉头或者换条路,需要人确认。我们还要进一步增加人车比。
运营成本还不能透露,但只要规模到上千台,就已经从 struggle 的位置进入到甜点区了。我们现在有三款无人车,加起来快到千台规模了,已经走出了 struggle 的状态。
汽车之心:千台就能告别 struggle?
楼天城:以 1000 辆为分水岭有两个前提条件,第一是要真无人,第二是要单车毛利转正。这两个前提做到之后,达到 1000 辆之后,随着硬件成本下降再加上合理的运营区域,Robotaxi 就会走上正轨。
但具体一点,1000 辆这个规模节点也对外传递信息的一种简化的数据,我想表达的是百辆和千辆还是不一样。
百台的时候我可以用手慢慢敲,要到千台不能用手敲,要有一套标准化自动化的生产流程,所有的零件都要用车规级。这些都是需要时间的,到了千辆不确定性就变低了。商业化这件事需要时间,但没有不确定性。
汽车之心:你觉得特斯拉、小马、百度、Waymo 四家公司在商业化的优势分别是什么?
楼天城:在成本上,我觉得我们做的是最好,现在第七代 Robotaxi 全部使用全车规零件。现在 Waymo 车上的 Lidar 和域控应该都不是车规级的部件,特斯拉以前没上牌桌,现在也没有。
03、世界模型至少能解决 L4 的问题
汽车之心:你们是少有的只做 L4 的公司,为什么不 L4 和 L2 一起做?
楼天城:不管是 L2 或者 L4,我们都要做好的产品,其实很多人不知道 Waymo 早年前就是做 L2 的,后来才做 L4。
但如果做 L2 系统无论你怎么宣传,一定会有一部分用户把它当成 L4 去开。
那么我们是不是要扪心自问一下,追求技术的公司是不是应该保护这类用户的安全。既然已经意识到了,我不可能不管不顾,因此我必须要做 L4。我不接受当鸵鸟。
汽车之心:L4 这条路难走吗?
楼天城:难。根本上大多数人没办法接受计算机可以比人开得更好。最开始技术进展很顺利,系统表现越来越接近人,结果等到我们把能超越人的东西放出去,就相当于放弃过去以学习人类为主的训练方式。
汽车之心:你说的超越人指什么方面?
楼天城:举个例子,比如 Robotaxi 的出险率大概是人类的二三十分之一,安全性更高,事故率更低。
汽车之心:这个角度来看,你们会有痛苦,尤其是 L2、L4 都做的公司,驱动力有一部分外部车企客户,但只做 L4,内驱会不会更难?
楼天城:我觉得你说到关键点了。因为世界模型搭建需要很长的时间,它有很长的平台期。
在平台期压力是巨大的,因为平台期等于很难对外展示进展。你今天来坐我们车和两年后来坐我们车可能是一个样子,技术一旦进入平台期,就需要非常多的坚持和真正的信念才能走下去。
很多家死掉都是因为坚持不住,这个很正常。但内部可以制定很多指标,可以感受到我们的变化是非常明显的,但外部感受不到。
汽车之心:你也痛苦过?
楼天城:我真不想再走一遍了,但是好在 2020 年开始的那四五年时间里,心态和进展相对缓,给了我一个在平台期的 breathing room。
不知道大家有没有在互联网大厂干过,大公司下场干 Robotaxi 有没有优势?我觉得不一定。
大公司基本上每 3 个月就要给上面的领导汇报一次。
那么比如在技术平台期,第一次我汇报了,那第二次、第三次我汇报什么呢?其次每一次都压力巨大,我又不能跟上级说三个月都没进展,这样的压力会把人压变形,很容易就会导致「要不然咱们做点短期的事算了。」
汽车之心:我们可以回来聊聊具体的技术,小马提出了世界模型,其实最近很多车企也提出世界基座大模型,你怎么看?
楼天城:听起来他们做的事情跟小马做的世界模型概念很相似。但我想说,小马、萝卜快跑、Waymo 大家所遇到的困难,这些车企也没办法跳过。就算有一天这些车企说要造 Robotaxi 我也不惊讶,但从属性上说,我更在意科技公司入局。
特斯拉算是一家具备科技属性的车企,因为世界模型的搭建能力主要就是模型能力、算力都是科技公司更擅长的部分,不过就算是科技公司,也需要花很久的时间才能做出 Robotaxi。
汽车之心:他们的世界模型和小马智行的世界模型有什么不一样?
楼天城:我在五年前做的也叫世界模型,但我五年间一直在改进世界模型。赶不上的是时间,说得更具体一点,衡量开车好不好很难量化,真正好的驾驶是「可以被人类理解的驾驶行为」,不会让人奇怪它为什么这么做。
体验和安全性都很重要,对于极端场景的生成能力是世界模型很大的亮点。
我举个例子,今天路上会有很多意想不到的异物。比如水管、铁锹、气球,不同障碍物有不同的属性,世界模型不仅需要意识到这些东西的存在,还要意识到障碍物具体的属性找出相应的应对方式,这些东西可能在 L2 中还没有被提及。
具体一些,路上有纸箱,但这个纸箱可能有好几种情况:
第一种是纸箱会被吹飞,这时候如果纸箱正在被风吹飞,车辆刹车后果会更严重,车应该直接开过去。第二种可能是纸箱比较小,可以直接过去,第三种可能是纸箱比较大,那就要考虑绕过去,第四种可能纸箱里还会有硬物,那就不能随便压。
世界模型需要在极短的时间内区分物体究竟属于哪一类,再做出不同的行为,但本质上世界模型需要意识到现实里的障碍物其实有很多种类,我们已经有了这套方法,其他人要做到,还需要很久。
有一个词叫「活久见」活得越久,见的就越多,世界模型就是一个活久见的东西,很多人不会想到的东西,它可以想到。今天这个事已经很好理解了,其实训练世界模型不需要依赖驾驶数据,因为网络上数据也可以帮助世界模型训练。
像特斯拉 FSD 进入中国其实也是用了网络数据训练,特斯拉除了没上牌桌之外,其他的逻辑和思路都挺对的。
汽车之心:听起来世界模型就像一个巨大的工厂,那原材料数据呢,有了世界模型之后,我们需要还需要大量的真实驾驶数据吗?余凯说 99% 的司机都不值得学,你说 1% 的人类优质的司机对 L4 没用,这矛盾吗?
楼天城:凯哥说得是对的,我说的那句话是 1% 的优质司机对 L4 可能没用,但对 L2 有用。对 L4 来说学那 1% 的数据可能也不行,因为那 1% 的司机利用了很多超视距信息,系统学不了。
在 L4 里,真实数据就像是种子,占比非常少,实际数据我没办法给,但它的占比大概是 1/ 1,000—1/ 100,000 的范围。
所以我们的确需要大量数据来训练世界模型,但不是真实驾驶数据,而是环境、生活数据。比如篮球是可以弹的,这件事跟开车没有关系,但可以帮助世界模型去理解世界。
汽车之心:世界模式就是 L4 的终极路线吗?
楼天城:世界模型足以支撑 Robotaxi 至少万台以上的商业化。但之后会不会有更好的东西,我绝不会说没有,但我现在还没想到。
也许是第 4 级 AI,我认为 AI 的发展方式分四个级别:co-pilot 是第二级 AI,agent 是第三级 AI,还有第四级 AI,能够自主创新的 AI,最后一级最可怕。
DeepSeek 只是第二级 AI,机器人是第三级 AI,第四级 AI 会做一些人类可能还没有想到的东西和方法,它会自己会尝试新的方法去达成目的,开始自我发明,这也许是世界模型之后的下一个技术趋势。
汽车之心:今年还有 VLA 这种技术路线很火热,VLA 和世界模型这两个技术方案有冲突吗?
楼天城:没有冲突,我了解大部分公司两种技术都用。
比如 Waymo 也用了谷歌 Gemini 大语言模型。具体怎么用,序列事件模型不是模型,而是训练工具,它训练出模型本身,这个模型的输入可以是 Vision、也可以是除它之外的 Action、Language。
所以世界模型和 VLA 模型不是一个维度的东西,而是交错的。我可以有训练,比如说基于各种复杂输入的事件模型的理念,所以这两个东西不矛盾、不冲突,机器人领域非常多。
VLA 的作用主要是两方面,一方面是降本,另一方面对特别复杂的情况能够提供比较 OK 的建议。
比如,我们也引入了 VLA 模型远程给建议,早年我们一个远程协助专员(客服)管一个车,但是我们现在人车比做到 1:20。比如路口红绿灯坏了,交警做了可以直行的手势,那么原本需要人工介入的车辆其实就能自己行动了。
我认为想要做百辆无人车以上,世界模型最关键,对其他公司,可能做 VLA 模型卖车最关键。大家选择不同的路线是因为目标不同。
汽车之心:人车比 1:20 算是什么水平?
楼天城:全球公开说过自家人车比大于 1:1 的公司已经是少数了,特斯拉在奥斯汀的人车比是 1:1,优秀的 Robotaxi 公司平均水平至少在 1:10 以上。
汽车之心:最早衡量 Robotaxi 行业的时候,你和彭军聊的是三个关键词是:「MPD 值、数据量、成本」,现在你觉得这三个词还能评估衡量 Robotaxi 吗?
楼天城:这三个有一个没了,有两个升级了。
首先 MPD 已经消失了。我做久了就知道 MPD 其实表示的不是安全,至于安全感怎么衡量,就要看更深入的评价体系了,安全和安全感不是一个东西。
成本仍然在,但是成本升级了,我们看的是保证安全感之下的成本。
最后一个数据量也在,但现在的数据指的是仿真数据。billion 级数据量对于仿真数据来说都已经算太少了,我们的世界模型每周都会产生 10 个 billion 级以上的数据。
其实仿真世界的真实度并不一定比真实世界差。如果我站在做 L2 的系统的角度,模仿学习确实很需要真实数据,但面向 L4 我们更看重仿真数据。