英伟达,你还有多少惊喜是我们不知道的
iPhone,早已不仅仅是一个名词,更多时候,它被作为形容词来使用,用来形容被颠覆、新时代到来的时刻。
在一年一度的英伟达GTC大会上,英伟达CEO黄仁勋三次强调AI的“iPhone时刻”已经到来,这也很好地呼应了这次大会的宣传语——切勿错过,AI的决定性时刻。
那么,这次老黄带来了哪些前沿的技术和产品?他们又能否承担起“AI的iPhone时刻”这个描述呢?
1
—
让ChatGPT快10倍的H100 NVL
英伟达的主场,自然离不开GPU。
此次,英伟达推出了全新GPU推理平台,包括了L4 Tensor Core GPU、L40 GPU、H100 NVL GPU、Grace Hopper超级芯片四种配置。这四种配置分别用于加速AI视频、图像生成加速、大型语言模型加速(LLM)和推荐系统。
其中L4 Tensor Core GPU是针对AI视频设计的通用GPU,可提供比CPU高120倍的AI视频性能,能效提高99%。同时,优化了视频解码与转码、视频内容审核、视频通话等功能,如背景替换、重新打光、眼神交流、转录和实时翻译等。一台8-GPU L4服务器将取代100多台用于处理AI视频的双插槽CPU服务器。
据悉,Google Cloud会是首批集成L4的公司之一,谷歌会通过其Vertex AI平台向客户提供L4的服务。
L40 GPU则是用于图像生成,针对2D、3D图像生成进行了优化,且能结合Omniverse直接生成3D甚至元宇宙内容,其推理性能是英伟达云推理GPU T4的10倍。
Grace Hopper超级芯片则适用于推荐系统和大型语言模型的AI数据库,是图推荐模型、向量数据库和图神经网络的理想选择。它可以通过900GB/s的高速一致性芯片到芯片接口连接英伟达Grace CPU和Hopper GPU。
最后是采用了Transformer加速解决方案、可用于处理ChatGPT的H100 NVL。这款专门用于训练大型语言模型的GPU是基于去年英伟达发布的H100的改进版本,它将两张拥有94GB HBM3显存的PCIe H100 GPU通过NVLink拼接在一起,支持188GB HBM3内存。可处理拥有1750亿参数的GPT-3大模型,同时支持商用PCIe服务器轻松扩展。
据黄仁勋介绍,目前适用于GPT-3处理的HGX A100,是云上唯一可以实际处理ChatGPT的GPU,但一台搭载4对H100及双GPU NVLink的标准服务器的速度,比HGX A100还要快10倍,这意味着H100 NVL可以把大型语言模型的处理成本降低一个数量级。
2
—
光刻计算库,让光刻机效率提升40倍
除了在产品层面带来更高性能的GPU,英伟达还从制造层面带来了新武器——光刻计算库NVIDIA cuLitho,一套可以集成在NVIDIA Hopper架构中的光刻库。
NVIDIA Hopper是去年GTC上英伟达带来的全新GPU架构,并基于该架构推出了首个产品英伟达H100。该产品已经在短短一年时间里成为各大科技训练人工智能模型使用最多的GPU之一。
NVIDIA cuLitho可以通过计算技术大幅优化芯片制造流程,利用GPU技术实现计算光刻,可以使传统光刻技术提速40倍以上,为2nm及更先进芯片的生产提供助力,帮助GPU提高在芯片制造场景中的工作效率。
黄仁勋在演讲中透露,英伟达目前已经和AMSL、台积电以及新思科技建立了合作关系,ASML计划将搭载了NVIDIA cuLitho软件库的NVIDIA Hopper GPU集成在他们所生产的光刻机设备中去。
“使用NVIDIA cuLitho软件库加上NVIDIA Hopper GPU替代目前光刻机上使用的CPU,整体的效率可以提升40倍左右,减少目前每年消耗数百亿CPU小时的大量计算工作负载。” 黄仁勋介绍道,“台积电可以通过在500个DGX H100系统上使用cuLitho加速,将功率从35MW降至5MW,替代用于计算光刻的40000台CPU服务器。”
3
—
云上英伟达
最后我们再到本次GTC的另一个重头戏——云上看一看。
英伟达这次带来了一项名为DGX Cloud的AI超级计算服务,搭配NVIDIA AI软件,就能让企业可以通过一个Web浏览器就能访问AI超算,消除了获取、部署和管理本地基础设施的复杂性,以便企业为生成式AI和其他开创性应用,训练先进的模型。
目前,该服务已与微软Azure、谷歌OCP、Oracle OCI合作,用户可以租用DGX Cloud的月租为36999美元起。
除了算力,通过云服务,英伟达还开发了一系列的应用模型,这些模型为特定领域的任务创建,通过专有的数据进行训练,旨在把大模型创造的能力交给更多用户。基于此,英伟达宣布NVIDIA AI Foundations模型,涵盖NVIDIA NeMo语言模型、视觉模型Picasso和生物学模型BIONEMO。
NeMo是文本生成模型构建服务,能提供80亿、430亿、5300亿参数的模型,并定期更新额外的训练数据,帮助企业为客服、企业搜索、聊天机器人、市场情报等生成式AI应用进行模型定制。
Picasso是视觉语言模型构建服务,具有先进的文生图、文本转视频、文本转3D功能,可为产品设计、数字孪生、角色创建等使用自然文本提示的应用快速创建和定制视觉内容。目前英伟达已经与Shutterstock合作,开发了Edify-3D生成式AI模型。
BioNeMo为生命科学服务,提供AI模型训练和推理,加速药物研发中最耗时和成本最高的阶段,可加速新蛋白质和治疗方法的创建以及基因组学、化学、生物学和分子动力学研究。英伟达与三菱联合发布了将用于加速药物研发的日本第一台生成式AI超级计算机Tokyo-1。通过在Tokyo-1上使用BioNeMo软件,研究人员能运行高达数十亿参数的先进AI模型,包括蛋白质结构预测、小分子生成、姿态估计等。
4
—
AI的“iPhone时刻”
过去短短几个月,从ChatGPT推出、GPT-4发布、百度文心一言跟进发布到微软发布AI助手Microsoft 365 Copilot、Midjourney发布能“画手指”的V5版本……AI技术刮起了一阵阵旋风,这些风不仅吹到了行业里,更影响到了每一个普通人。
AI的“iPhone时刻”,此言不虚。
在这个AI时刻,自动驾驶,甚至是整个汽车行业都显得有些暗淡。
在黄仁勋一个多小时的演讲中,汽车领域只在谈及Omniverse时有所提及。据黄仁勋介绍,这个虚拟世界仿真引擎不是一种工具,而是一个USD网络和共享数据库,也是与各行各业使用的设计工具相连接的基础结构。其一大用处是让企业在实际建设工厂、生产产品前,通过数字化模拟“预览”实际的成品。
奔驰、沃尔沃、丰田、Lotus等多家车企已经在使用Omniverse构建自己工厂的数字孪生、为新车型构建、优化和规划组装流水等。
这也让笔者想起此前与国内某3D引擎企业交流时,对方谈到,相比Unity、Unreal,英伟达才是那个真正可怕的对手。
确实,别人引以为傲的单点能力,在英伟达这里,只是其以AI为核心构建的技术产品帝国中的一环。
以点击面,难度何其大。
曾经的PC时代,英伟达只是配角,移动时代也黯然离场。如今,AI大风刮来,英伟达也终于成为了人工智能这场新时代大戏的主角。
大风愈刮愈烈,能把英伟达送到多高,我们且一起看看。同时,我们也期待着,这场大戏中能出现更多动人的角色与剧情。