从特斯拉10万卡集群上线,聊聊纯视觉智驾有多难
7月22日,马斯克在推特上宣布,x.AI由10万张H100组成AI训练集群上线,这是全世界目前最强的AI训练集群。
光是这10万张卡本身,就需要40亿美元的资本投入,再加上惊人的电耗、散热管理以及卡间通信的成本。
到2024年,AI公司进入第一梯队的门票可能进一步提升到10万张卡这个量级。
AI公司的突围成本,正变得越发巨高无比。
在智能驾驶领域,特斯拉的纯视觉智驾独树一帜,国内也只有极越等少数汽车品牌能够跟进,超高的算力、数据、算法门槛决定了纯视觉只能是「少数玩家的游戏」。
一、纯视觉智驾,为何只是少数人的狂欢?
激光雷达的核心原理是运用回波时间测量法,绘制出周边物体的点云,激光点云包含的信息精度高,但信息的维度有限。
纯视觉则类似于人眼,其获取的信息十分丰富,并且车端的成本更低。但采用纯摄像头作为数据输入,距离识别,尤其是纵向距离的精度提高非常困难。同时,摄像头的输入也容易受到光照等环境影响,在逆光、大雪遮挡的情况下会造成辨识困难。
就连特斯拉的前AI高级总监Andrej Karpathy早些时候也在演讲时表示:「纯视觉能够精准感知深度、速度、加速度信息,实现纯视觉是一件困难的事情,需要大量的数据。」
好在,随着AI技术的发展,基于人工智能框架和大模型,纯视觉方法对三维环境的识别能力已有大幅提升。
不过,相应的代价,是这套流程需要强大的算力。
前文提到,建立一个10万卡的AI训练集群,光买下这10万卡的集群,就需要40亿美元的投入。
而从能耗角度,10万张H100的功耗是150MW(兆瓦)。作为对比,目前最大的国家超级计算机El Capitan只需要30MW的功率。
更何况,这些AI集群之间通过光通信连接,距离越远,光通信的成本也越高。
这也是为什么,特斯拉不仅部署了超级算力中心,还于去年正式投产了特斯拉的Dojo,后者是特斯拉自研的超级计算机。
据公开数据,特斯拉每个Dojo都集成了120个训练模块,内置3000个D1芯片,拥有超过100万个训练节点,算力达到1.1EFLOP(每秒千万亿次浮点运算)。
特斯拉基于自研芯片的算力集群,一个ExaPod 1.1 EFLOPS
此外,特斯拉预计,2024年10月特斯拉的算力总规模将达到100 Exa Flops ,相当于30万块英伟达A100显卡的算力总和。
今年3月,特斯拉推出FSD V12更新,整个系统中端到端的算法几乎全部采用神经网络构建,灵活度非常高、应变能力强,并能以高度拟人化的状态驾驶。
但光有算力就够了吗?显然不是。纯视觉技术路线的主要「成本」,除了算力之外,还包括算法和数据。
视觉算法需要海量的数据进行训练。算力可以砸钱堆砌,但算法和数据,却很难坐等「拿来主义」。因此,纯视觉方案,对于追赶者具有极高的门槛。
而在国内造车新势力中,背靠百度的能力,由集度主导智能化研发的极越01在纯视觉智能驾驶的路线中走在市场前列。
二、背靠百度,极越特斯拉「并肩」
在谈到为什么要押注纯视觉方案时,集度(极越)汽车CEO夏一平曾表示:因为这是最为类似人类驾驶的方案,人眼看到的图像和视频包含了大量的场景信息,机器也可以从图像中获得最为丰富的信息,通过这些信息,机器只要能够识别图像中的相关语义,就可以做出准确的判断,并且覆盖范围更广。
而更深层次的原因,其实也包括纯视觉方案相对激光雷达方案对硬件要求低,对AI能力要求高,因此,只要AI算法一直升级,它的智驾能力就能一直升级,智驾系统就能越来越像人类老司机,能自主理性决策,更人性化,所以它的上限更高。
这也是为什么夏一平会喊出「五年内不过时」的内在逻辑。
「这样的技术路线选择,其实是为了将来能够让智驾能够更加快速普及,做的一个非常大的决定。」
极越其采用的纯视觉方案,以自动驾驶视觉大模型VTA(Vision Takes All)为底座,大幅升级包括动静态检测、时序跟踪、实时建图、场景理解等能力。
硬件上,由集度主导智能化研发的极越01全系则配置了大算力智驾芯片,搭载2颗OrinX,除此之外,还有百度为其智驾训练提供的2.2 EFlops的云端算力。事实上,基于百度Apollo纯视觉高阶智驾能力和安全体系赋能,极越完成了OCC占用网络升级。
去年10月,极越在国内第一个用了BEV+Transformer的纯视觉方案,而后在今年1月又是国内第一个应用了OCC占用网络技术,形成了“BEV+OCC+Transformer”纯视觉方案的“完全体”。
其中,OCC占用网络这个技术的原理是感知摄像头将周边环境的物体3D化,将物体识别为网络中的一个个“体素”,感知系统只要对网络体素是否被占用进行识别,这样就能对3D物理空间的可通行区域进行高保真度还原。
依托这套比激光雷达点云分辨率更高的三维结构信息,OCC占用网络还能减少漏检、误检并弥补视觉所不具备的空间高度信息,突破能力上限和提升安全保障的同时,完全替代了激光雷达,大幅提升了泛化能力。
由此,在搭载了OCC占用网络技术后,极越能够实现障碍物精细刻画,3D精度可以做到厘米级,轻松比肩激光雷达精度。
过去一段时间,坊间习惯性将纯视觉路线视为车企的降本之举。诚然,对比激光雷达的硬件成本,纯视觉方案的确要「 省钱」不少,但其实,藏在纯视觉方案背后的软件成本,却要大幅高于激光雷达方案。
对车企而言,只要愿意掏钱,激光雷达方案可以轻松上车。但纯视觉方案却不行。
而极越的优势,来自于百度的技术赋能。在纯视觉智能驾驶相关的技术指标上,百度在算力、算法、数据这三个关键领域都有着深厚积累。
首先是算力,百度已为智能驾驶在建立了超过2.2 EFLOPS高算力训练集群。
其次是算法,百度Apollo拥有10多年的L4级自动驾驶技术研发积累。
而国内其他车企的应用方案目前都是L2级,虽然都在发力L3级乃至更高级别的自动驾驶的研发工作,但相比已搭建起L4级别自动驾驶大模型、并成熟落地应用的百度而言,技术差距是显而易见的。
最后是数据方面,百度Apollo的自动驾驶里程已经超过1亿公里,未发生过重大伤亡事故,这些都是高质量的L4级别自动驾驶数据积累。同时,通过萝卜快跑、极越汽车等品牌,百度还在持续迭代数据规模。
目前,百度不仅拥有海量L4级别高质量实际行驶数据,还形成数据资产管理、自动化数据产线等一系列的体系化能力。目前国内其他车企也还做不到这样的数据能力。
而这些百度所独有的技术优势,无疑将毫无保留地在极越品牌身上得到体现。
作为全球领先的AI大模型公司,也是自动驾驶技术领军企业,百度拥有10余年L4级自动驾驶技术研发和创新应用经验。同时,百度Apollo已形成海量的数据资产管理,建立了百亿参数的视觉大模型、高标准的自动化标注产线、超过2.2 EFLOPS高算力训练集群,为AI算法升级提供持续动力,同时赋能极越和萝卜快跑的智驾能力高速迭代。
正是在百度智驾能力的加持下,极越汽车的智驾表现才站在了第一梯队,比肩特斯拉,成为中国纯视觉智驾方案的领跑者。
值得一提的是,国内不少车企都从今年开始跟进布局纯视觉智驾的路线,包括小鹏汽车今年的新车,以及蔚来子品牌乐道在内。
随着极越以及特斯拉这两家领航者的持续推动,未来不排除越来越多的车企会加码纯视觉的阵营