打开APP

想做自动驾驶领域的ChatGPT,毫末智行底气何在?

上周和从事AI研究的朋友聊到ChatGPT,对方的一句话,让我至今心有戚戚。他提到,未来取代人类的不是AI,而是另一个熟练驾驭AI的人类。

这让我想到自动驾驶:未来真正取代人类驾驶、或是真正操控人类方向盘的绝不是自动驾驶,而是熟悉驾驭大模型、大数据和大算力的另一群人类。

一场发布会,又给我了新的思考。

4月11日,毫末智行在其HAOMO AI DAY上,高调发布了行业首个自动驾驶生成式大模型DriveGPT,中文取名为“雪湖·海若”。其底层模型,用的正是GPT(Generative Pre-trained Transformer)生成式预训练大模型,试图解决自动驾驶领域的认知决策问题。

毫末的速度,确实够快。

两年前,特斯拉将Transformer模型引入自动驾驶,作为中国自动驾驶新秀的毫末智行很快跟进,成为国内第一家引入Transformer的出行科技公司。后来,毫末又推出了国内第一个重感知、不依赖高清地图的城市驾驶辅助系统,率先破题量产自动驾驶。

有意思的是,即使是特斯拉这样的头部公司,往往也是一年才举办一次科技日或品牌日。毫末团队不一样,他们把科技发布会的频次提升到每季度一次,且似乎每次都能讲出用高密度信息,吊足业界胃口,可见自我迭代的要求之高。

这场车展前夕的HAOMO AI DAY,让我们再次看到了毫末速度,以及毫末速度背后试图改变人类驾驶的一群人。总结来说,这次发布会主要释放了两个消息——

一个是毫末智行的城市NOH即将量产,将最先落地北京、上海、保定等城市;一个则是推出全球首个自动驾驶生成式大模型DriveGPT 雪湖·海若,让业界看到大模型落地应用在车端的另一种可能,AI领域炙手可热的GPT,终于可以用在自动驾驶领域了。

|毫末,凭什么?|

目前,DriveGPT还处于云端模型阶段,未来将最先落地应用在新摩卡DHT-PHEV的城市NOH上。

回顾下毫末智行辅助驾驶产品HPilot的成长历程,三年多的时间已经更新了三代,其中,Hpilot 1.0和Hpilot 2.0此前都已已经量产上车。此前落地的最新一代的行泊一体产品HPilot 2.0,搭载于长城旗下多款车型上,高速NOH是亮点。

伴随着Hpilot 3.0(也就是城市NOH)即将在多个城市落地,DriveGPT即将迎来真正的用武之地。这也意味着,中国首个重感知、不依赖高精地图的城市NOH即将量产上车,最先落地北京、上海以及保定等城市,且2024年上半年落地将达到100城。

产品落地,一直是毫末的强项。

顾维灏曾在上个月的电动汽车百人会论坛表示,出众的量产落地能力,一方面要得益于重感知的技术路线,另一方面则是大模型技术应用比较领先,当然,还有该公司的用户闭环的数据建设,也是领先于业界很多同类公司。因为这些优势,毫末智行才能第一个把大规模落地的城市导航驾驶辅助产品交付到客户手上。

有意思的是,商汤也在前两天发布自研类ChatGPT产品,就和毫末智行推出DriveGPT几乎前后脚,试图打入通用人工智能(AGI)赛道,背后依托的,其实和毫末智行一样,手握大模型,大数据和大算力,走出霸王步也在预料之中。

在毫末智行看来,自动驾驶2.0时代和3.0时代最大的不同,前者是小规模数据和小模型的软件驱动,后者则是大规模数据和大参数模型驱动。这意味着,谁能优化训练效率,谁能压低云端数据训练成本,谁能提升计算效能,谁就能脱颖而出。

这正是毫末的发力方向。

战略层面,毫末智行曾在2021年制定了数据智能的“思想钢印”,即打通数据、算法和云端的闭环,共同赋能给车端,用更低的成本和更快的迭代速度(AI训练,系统测试,数据处理和收集等)开发出更好的车端产品。

武器库层面,则是推出了数据智能体系产品MANA,这是毫末智行自动驾驶产品进化的核心驱动力。

MANA体系由四个子系统组成:

位于上层的是TARS(数据原型系统)、LUCAS(数据泛化系统)和VENUS(数据可视化平台),分别对应核心算法原型实践、算法应用场景实践和数据可视化系统,最底层的BASE(底层系统)则代表了数据通用能力,主要肩负着中间件、数据存储和数据计算相关的服务。

整个系统将数据感知、认知、标注、仿真、计算等多个环节融为一体,在数据高效利用的同时节省大量成本,从而提高产品迭代速度。

今年年初,毫末智行宣布成立了智算中心MANA OASIS,并宣称这是中国自动驾驶行业目前规模最大的智算中心。

在国外,特斯拉率先为FSD准备了属于自己的AI计算中心DOJO,项目刚启动,就使用了1.4万个英伟达的GPU来训练AI模型。反观国内,毫末智行确实是第一批部署智算中心的自动驾驶科技公司,不仅为算法模型的成熟提供了超强算力,也为自家的城市NOH提供了算力层面的保障。

|大考之年|

持续领先——

这是毫末的目标,也是动力。毫末董事长张凯在HAOMO AI DAY上表示,团队未来的目标是让重感知的城市NOH产品至少领先行业一年以上并到2024年在全国100个城市实现落地。目前,他们已经获得3家主机厂定点合同。

”2023年是智驾产品的全线爆发期。”

对此,张凯提到了三点:

-城市导航辅助驾驶产品将围绕量产上车发力,主要玩家的城市导航辅助驾驶产品进入到真实用户覆盖和多城市落地的比拼。

-行泊一体将成为自动驾驶公司深耕的重点,在乘用车领域,搭载行泊一体功能的智驾产品将迎来前装量产潮。

-末端物流自动配送车在商超、快递等场景迎来爆发,2023年将在这些场景实现可持续商业化闭环。

值得一提的是,全线爆发的特征之一,是大模型开启在车端的落地应用,毫末智行看到了趋势,顺势推出DriveGPT,迎接智能驾驶行业的冲刺之年、大考之年。

竞争只会越来越激烈。

下图是过去五年世界范围内具备影响力的大模型,横轴是发布或面世时间,纵轴是模型参数,红色部分是我国自己推出的大模型,黑色的则是国外玩家的成果。我们可以看到,参数规模几乎是疯狂增长,速度几乎是每年增长十倍。

一个问题,是成本。

时间越是往后面走,大模型的成本将越来越高,其中就包括时间成本和经济成本。

之前看到一组数据,ChatGPT在访问阶段的初始投入就是十亿美元级别,训练阶段的单次训练也要花掉约百万至千万美元。对于毫末智行来说,项目推进越快,面临的现金流压力也会越大,就要看投资人以及背后的金主爸爸长城汽车未来如何“输血”了。

在此次HAOMO AI DAY现场,毫末智行也聊到DriveGPT现阶段的降本策略:

智驾硬件——

DriveGPT视觉方案直接重新配置感知硬件,毫末在BEV框架中开始验证使用鱼眼相机代替超声波雷达进行测距,以满足泊车要求经DriveGPT加持,毫末鱼眼相机方案可达到15m范围内感知精度30cm,2米内精度10cm,大幅降低智驾成本。

视觉标注——

毫末在使用数据过程中,逐步建立起一套基于4D Clips驾驶场景识别方案,如果使用DriveGPT雪湖·海若的场景识别服务,一张图片的价格将下降到0.5元,单帧图片整体标注成本,仅相当于行业的1/10。

另一个问题,是计算能力。

大模型对计算能力的要求极高,毫末智行在HAOMO AI DAY上提出了底层算力的几个解决方案——

首先,是与火山引擎签署合作,搭建大模型训练保障框架,实现了异常任务分钟级的补货和恢复能力,可以保障千卡任务连续训练数月没有任何非正常中断,提升大模型训练的稳定性。

其次,是充分利用量产车数据回传优势,并将其推广到大模型训练,训练资源弹性调度,集群计算资源利用率达到95%。

最后,是底层算子优化,MANA OASIS 通过提升数据吞吐量来降本增效,满足Transformer大模型训练效率,再通过引入火山引擎提供的 Lego算子库实现算子融合,端到端吞吐提升84%。

不过,万里长征才迈出第一步。

毫末智行董事长张凯这次的演讲题目,是《HAOMO SPEED, AI SPEED》,第一层意思,是追赶AI时代的进化速度,另一层意思,则是保持毫末智行自己的领先,前半程领先易,后半程领先难,特别是往L4级别走。

今年,毫末智行要打赢智能驾驶装机量、MANA大模型进化、城市 NOH大规模落地和末端物流自动配送商业四场战役。这四场战役具体怎么打,毫末并没有对外透露太多,不过,按照这家公司三个月一场AI发布会的节奏,很多信息,想必很快就能揭晓。

来源:第一电动网

作者:NE时代

本文地址:

返回第一电动网首页 >

相关内容
全部评论·1
暂无评论
我要评一下