地平线进入大算力自动驾驶芯片“决赛”
大算力自动驾驶芯片的“决赛”即将打响。
全球第二个、中国首个,进入前装量产阶段的百TOPS大算力AI芯片——地平线征程5已完成最后的验证工作,将于今年4季度正式量产上车。
“率先锁定大算力自动驾驶芯片'世界杯'决赛席位”。
谁进了“决赛”?
6月30日,地平线机器人技术研发有限公司(下称地平线)举行了征程5量产前的技术沟通会,会上的一张PPT中,Mobileye、高通、恩智浦、海思等一系列人们耳熟的芯片巨头排兵列阵,但经过AI算力、安全可靠性、开发环境、算法验证、生态支持一系列角逐之后,走到量产决赛的只有英伟达与地平线。
先进制程芯片作为高技术门槛、高技术密集、高生态壁垒的行业,英特尔、英伟达等诸多“英豪”无不出自美国。
一家中国芯片创业公司为何能与英伟达同时进入量产阶段?
更重要的,为何随着英伟达、地平线开始尖峰对决,刚刚被重视起来的自动驾驶芯片市场,似乎正要逐步关上入场大门?
01
量产百TOS车用芯片的技术门槛
一夜之间,消费类芯片几十TOPS的算力在自动驾驶面前已经不值一晒。上百TOPS的单片算力芯片开始成为自动驾驶的基础硬件。
“目前来看,在提升有效算力的道路是没有止境的。”地平线联合创始人&CTO黄畅向《电动汽车观察家》表示,目前自动/智能驾驶领域行业的基础算力需求是:L2级需10TOPS左右;L2+则需要几十TOPS;L3需要100TOPS以上;L4需要1000TOPS。
“但我个人看来,L2+级需要百TOPS才比较好。因为随着传感器的分辨率越来越高,单位时间内需要处理的数据也就不断增多。工程师需要更高的有效算力去处理,从而得到更好的结果。(要充分满足)L4级的话,几千TOPS的需求(就看企业)有没有预算支撑。”
这一判断应用到实务上也得到了支撑。
小鹏汽车在P5上凭借算法优势,在仅仅30TOPS(单片)的英伟达Xavier平台上实现了城市NGP功能。但小鹏汽车智能驾驶研发负责人吴新宙也在近期的展示视频中提到,城市NGP的功能实现仍受限于芯片算力,在G9上会更好的落地。
小鹏全新旗舰车型G9上配备了双英伟达Orin芯片。
(1)如何打造大算力AI芯片
单片英伟达Orin和征程5的算力分别为256TOPS(每秒万亿次计算)和128TOPS。如果以每秒图像帧率FPS为标准时,Orin与征程5的性能差距却是另一番景象。
沟通会上,地平线展示了最新的测试结果:征程5在处理单帧输入的百万像素大图时,性能三倍(处理512✖️512像素图像,采用FCOS-EFFICIENTNET神经网络)和两倍(处理704✖️1208像素图像,采用EFFICIENTNET神经网络)于英伟达Orin(地平线基于英伟达公布性能推测)。
这对自动驾驶系统来说,意味着在更短时间里“看到”更多东西。因此,FPS被认为是自动驾驶场景下,芯片有效算力的重要标准。
地平线联合创始人&CTO黄畅
而且征程5在硬件定型之后,性能还在进一步上升。“因为软件架构的改变,征程5的FPS(在同样的芯片硬件、运行算法条件下)从1283提高到了1580。”黄畅在介绍中表示,这正得益于地平线芯片设计所采用的软硬结合的方法论。
“以终(级应用场景作)为(软件开发的起)始”是地平线一直所强调的方法论。
完全从自动驾驶场景出发,持续对标自动驾驶算法,采取软(目标算法)硬(芯片架构)结合的方法设计芯片架构和编译器,正是地平线异军突起,迅速切入大算力自动驾驶AI芯片量产赛道,与英伟达同台竞技的根本原因。(欲了解更详细的技术原理,请阅读《地平线追击英伟达》)
(2)量产并非朝夕之功
地平线芯片测试流程及标准
像所有规模化一样,在实验室里完成“原型”只是第一步,更加艰难的在于面向规模化的验证测试。
沟通会上,地平线首次向公众展示了征程5的测试流程和部分测试实验场景。
征程5是国内首颗基于ISO 26262功能安全流程开发的AI芯片,已获得ISO 26262 ASIL-B功能安全产品认证。其经过了pre-silicon(前硅)仿真环境测试、流片、post-silicon(后硅)真实环境测试到最后的车规级可靠性测试,满足AEC-Q100车规可靠性要求。
事实上,征程2还采用第三方进行测试验证。但征程3开始,地平线从0-1搭建车规AI芯片的专业测试团队,同步建立严密的质量管理体系和标准流程,并在征程3量产过程中实现高质量交付。
基于征程2、3两代车规芯片超百万量产出货的经验积累,地平线把丰富的knowhow完整迁移到新一代的大算力芯片征程5。
黄畅告诉《电动汽车观察家》,征程5的验证测试时间有1年之久,整体费用在亿元级别。而且满足主要对标MCU标准的AEC-Q100,对征程5来说有些部分过于简单,如加温加压的测试时间要达上千小时,远超标准要求;有些部分则非常难,如用大算力芯片满足MCU类的整车集成功率要求。因为对芯片公司而言,功耗下降对应着温度下降以及可靠性上升;功耗影响着整车集成设计和验证的工作量与成本。
“真正走向SOP(量产)的过程不是一蹴而就的。是基于我们征程2、征程3两代芯片完整量产过程所积累的经验基础上,我们才有底气在Q4去量产征程5。”黄畅在采 访中表示,就像整车企业在历代量产车型中积累的大量knowhow一样,地平线百万量级的量产经验,也成为其核心的量产技术壁垒。
02
昂贵且“卷”的自动驾驶芯片市场
技术,只是自动驾驶芯片入场的基础门槛。先进制程的自动驾驶AI芯片耗资巨大,需要巨大的规模化和繁荣生态,方能支持其量产盈利和持续迭代。
以英伟达的Orin为例。Orin采用台积电的7nm工艺,单颗报价320美元。半导体技术研究机构Semiengingeering统计的数据显示,开发7nm节点芯片投入约为2.97亿美元。这意味着,要摊平其研发费用,至少需要销售928125颗芯片。以目前主流方案每辆车搭载两颗Orin计算,则需要近47万辆新车,还不算台积电不断上涨的量产制造成本。
但截至目前,几十TOPS算力就能支持的L2+级自动/智能驾驶车型,在接受度最高的中国渗透率才仅仅23.2%(IDC数据),即全年485万辆(按照2019年中国乘用车2092万辆销量计算)。
然而,留给Orin销售的时间窗口并不多。Orin2022年才开始规模化的上车,但英伟达已经发布了单颗算力可达1000TOPS的下一代自动驾驶芯片Atlan,其将于2025年大规模量产上车。
地平线则更快。虽然Q4才量产上车128TOPS的征程5,但按照地平线最新的计划,明年512TOPS的征程6就将推出,比此前的规划快了整整一年。
成本高昂,市场有限且“卷”,要求已经进场的玩家迅速实现规模化。
03
实现规模:通用性叠加易用性
目前地平线征程芯片的合作生态
如何快速实现规模化?
地平线选择采用极致开放的方式,与定位为Tier2,与硬件和软件合作伙伴一道,开发量产级的硬件和算法,为主机厂提供功能与研发层次都非常丰富多样,灵活可变的大算力芯片产品。
(1)通用性硬件解决方案
《电动汽车观察家》了解到,目前自动/智能驾驶的主要感知方案和算法在业内已经开始趋同。
在感知方案中,车外11路摄像头的数目、车身布局,以及毫米波雷达的布置方案已经基本形成了行业通行的范式;
算法中,最核心的视觉感知算法业内在近一年以来,纷纷采用BEV架构。
BEVFormer是基于Transformer和时序模型在鸟瞰图视角下优化特征的环视物体检测方案,适用多视角摄像头的3D目标检测任务,由特斯拉首创。
当感知硬件和算法的技术路线和工程方案开始趋同时,适用于不同车企的通用性自动驾驶硬件解决方案就有了落地的前提。
Matrix 5系列量产级计算平台
地平线基于征程5打造Matrix 5系列量产级计算平台参考设计。通过不同芯片配置方案,Matrix 5能够提供最高512 TOPS的强劲AI算力,满足ADAS、自动驾驶、智能座舱等全场景整车智能应用需求。
基于Matrix 5标准设计方案,地平线能够为合作伙伴提供灵活可拓展的域控参考设计及预验证的摄像头模组套件选型,同时支持无缝适配地平线系统软件与感知算法模块。Matrix 5将大幅降低OEM与生态伙伴开发适配和应用部署的成本。
目前,已有包括大陆集团、东软睿驰、立讯集团、联成开拓在内的超过10家企业联手地平线,推出基于Matrix 5参考设计的域控产品。此外,映驰科技、金脉与天准还成为征程5官方授权的硬件IDH(Independent Design House,在IC原厂芯片的基础上开发平台、解决方案等产品,为整机产品的研发和迅速面市提供基础)合作伙伴。
(2)易用的软件生态体系
提供通用性的硬件解决方案只是开始。
地平线智能驾驶产品线产品规划与Marketing高级总监吕鹏
“我们认为当前(车用计算平台)行业的开发和交付效率都太低了,给车企带来很大的开发难度和交付成本。“地平线智能驾驶产品线产品规划与Marketing高级总监吕鹏向《电动汽车观察家》表示,”我们提供的很多软件是为了帮助客户更高效的完成开发和交付,同时能把我们的工具链打磨的更加完善,从而为芯片赢得更多客户。“
地平线在征程系列之上,打造了包括端到端软件栈(基于征程5),为高等级自动驾驶应用提供高效、安全、易用的软件开发平台;地平线天工开物AI芯片工具链,包含模型后量化、量化训练、编译优化和部署三大核心能力,为开发者提供从模型获得至应用部署的全流程支持;以及艾迪AI开发平台,能够为智能汽车AI开发者提供数据标注、训练、优化、部署、管理与性能分析等能力。整套基础设施,开箱即用,用户无需从零搭建一套复杂的自动驾驶跨平台系统,只需聚焦于核心价值积累。
在效率提升方面,吕鹏举例道,通过应用天工开物,单客平均支持投入减少50%左右,平均算子开发投入减少30%。
而这些通用硬件和易用的软件体系则将为地平线和征程5带来更多的用户,筑高壁垒,加快自动驾驶芯片行业的入场倒计时。
黄畅在采 访结束时向《电动汽车观察家》表示,(之所以说)大算力芯片已经进入(少数玩家参与)的决赛阶段,是由芯片软硬件体系成熟度、量产能力和生态体系三个核心要素决定。
背后是众多的合作伙伴、多代迭代过程、百万量级的量产规模和海量产品吸引的开发应用生态构成。
先发优势将不断推高成熟度、量产能力和生态体系的壁垒,拉开与后来者的距离。“新玩家进入的挑战会非常的大。”