文|楚门 王磊
一夜之间,英伟达就掐住了AI的命门。
从火遍全球的GPT-4,到百度的文心一言、微软的365 Copilot以及Stable Diffusion 等AI超级应用的出现,AI开始渗透各个角落。
在这些大厂向AI集中炮火猛攻之际,“军火商”英伟达,赚翻了。
这些AI技术席卷全球,离不开英伟达硬件的支持,无论最后谁胜出,手握GPU算力技术的英伟达都能笑到最后。
而且昨夜,英伟达又向AI圈扔出重磅“核弹”,发布了三款全新推理芯片。有让大模型处理成本下降10倍的超级芯片、也有针对生成式AI图像处理的芯片,还发布了超级计算机,以及针对场景优化的应用100个等等。
此外,英伟达还围绕汽车、量子计算、元宇宙等发布了一系列前沿技术和产品。
“AI的iPhone时刻已经到来!”
在近80分钟的演讲中,老黄强调了3次这个观点。
如果说游戏促生了英伟达,挖矿让英伟达成就了算力,而现在AI让英伟达看到成为超级巨头的曙光。
与其说是“AI的iPhone时刻“,倒不如说是现在的AI,成就了英伟达的“曙光时刻”。
向AI全面出击
去年英伟达给自动驾驶业务带来了智能汽车芯片算力的天花板——DRIVE Thor(雷神),今年GTC大会,黄老板把大量篇幅给到了大火的ChatGPT和其背后的AI技术和A100、H100芯片等产品。
难道自动驾驶已经成了牛夫人,AI才是小甜甜?
在发布硬核的产品和技术以及服务之前,黄仁勋回顾了英伟达是如何进军AI 领域的。
“英伟达加速计算始于DGX(AI超级计算机),这是大型语言模型实现突破背后的引擎。”黄老板说,他曾亲手将全球第一款DGX交给了OpenAI,现场还放出了当年给 OpenAI 捐超算的视频。
时间在2016年8月, 那时候的OpenAI 成立不到一年。单价12.9万美金一台的超算DGX-1,虽然不是很贵,但当时的英伟达手里已经积压了100 多家公司的 DGX-1 订单,制造出来的第一台还是捐给了OpenAI。
老黄在机器上签下“致Elon和OpenAI 团队,为了计算和人类的未来。”
这台附有黄仁勋签名和赠语的全球第一台DGX,集成了8块通过NVLink共享算力的H100组成的超级计算机,为OpenAI奠定了创造ChatGPT的重要算力基础。
这之后的几年里,OpenAI 的发展速度惊人,在去年年底推出 ChatGPT 后达到了巅峰,毫无疑问AIGC已经成为全新的内容生产方式。
ChatGPT发布后在全球火速吸引了超过1亿用户,成为历史上增长速度最快的产品。
而这背后的引擎是英伟达DGX ,最初被用作 AI 的研究设备,现在已经被各大企业用于优化数据和处理 。黄仁勋在GTC大会上透露,“《财富》100强企业中有一半安装了DGX AI超级计算机,DGX已成为AI领域的必备工具。”
于是,黄仁勋带来了全新的GPU推理平台,包括4种不同配置:L4 Tensor Core GPU、L40 GPU、H100 NVL GPU和Grace Hopper超级芯片。
针对不同工作负载进行优化,分别对应了AI视频加速、图像生成加速、大型语言模型(LLM)加速和推荐系统和LLM数据库。
H100 专为ChatGPT等大型语言模型设计
配备双GPU NVLink,基于Hopper架构及其内置Transformer Engine,针对生成式AI、大型语言模型和推荐系统的开发、训练和部署进行优化,利用FP8精度在大型语言模型上,可以提供比上一代A100快9倍的AI训练和快30倍的AI推理。
DGX H100拥有8个H100 GPU模组,在FP8精度下可提供32Peta FLOPS的算力,并提供完整的英伟达AI软件堆栈,助力简化AI开发。
同时黄仁勋宣布,NVIDIA DGX H100 AI超级计算机已全面投产,很快就会和全球企业见面。
L4 针对AI视频生成的通用GPU
用于加速AI视频,比CPU的AI视频性能高120倍,能效提高近99%。优化视频解码与转码、视频内容审核、视频通话等功能,还可以替换背景、重新打光、眼神交流等。一台8-GPU L4服务器将取代100多台用于处理AI视频的双插槽CPU服务器。
L40则可用于图像生成
针对2D视频和3D图像生成进行优化,推理性能是英伟达云推理GPU T4的10倍。
Grace Hopper超级芯片
为推荐系统和大型语言模型的AI数据库所设计,可用于图推荐模型、向量数据库和图神经网络,通过900GB/s的高速一致性芯片到芯片接口连接英伟达Grace CPU和Hopper GPU。
GTC 上关于AI的另一个重点,就是英伟达发布的DGX Cloud云服务。
英伟达DGX Cloud的AI超级计算服务,提供了专用的NVIDIA DGX AI超级计算集群,搭配NVIDIA AI软件,使每个企业都可以通过一个Web浏览器就能访问AI超算。
目前这项服务已经与微软Azure、谷歌OCP、Oracle OCI合作,企业可以租用DGX Cloud,每月36999美元起。
每个DGX Cloud实例都有八个H100或A100 80GB Tensor Core GPU,每个节点共有640GB GPU内存,
英伟达还推出了全新云服务及代工厂NVIDIA AI Foundations,面向需要构建、改进和定制 LLM 和生成式 AI 的用户,企业可以用自己的数据在特定领域训练AI。
AI Foundations 包括NeMo、Picasso、BioNeMo。
NVIDIA NeMo:用于文本生成模型构建。提供从80亿到5300亿个参数的模型,定期更新训练数据,帮助企业生成AI应用进行模型定制。
毕加索:视觉语言模型构建,具有先进的文生图、文本转视频、文本转3D功能。
BioNeMo:生命科学服务,可以帮助生物医药研究人员提供AI模型训练和推理,加速研发进度。
直接在浏览器或通过API访问这些运行在NVIDIA DGX Cloud上的云服务。NeMo、BioNeMo云服务已开放早期访问,Picasso云服务正在私人预览中。
疯狂的芯片“制造器”
在此次发布会上介绍完“AI核弹”后,又迎来了另一个亮点,英伟达秘密研发了四年,计算光刻能加速40倍以上,名为cuLitho的计算光刻库,这使得2nm及更先进芯片的生产成为可能。
要知道光刻是芯片制造过程中最复杂、最昂贵、最关键的环节,其成本约占整个硅片加工成本的1/3甚至更多。
“计算光刻是芯片设计和制造领域中最大的计算工作负载,每年消耗数百亿CPU小时。大型数据中心24×7全天候运行,以便创建用于光刻系统的掩膜板。这些数据中心是芯片制造商每年投资近2000亿美元的资本支出的一部分。”黄仁勋说,而cuLitho能够将计算光刻的速度提高到原来的40倍。
什么是光掩模?
光掩模是塑造光投射到硅晶片上以制造电路的方式的屏幕,计算光刻就是模拟了光通过光学元件并与光刻胶相互作用时的行为,应用逆物理算法来预测掩膜板上的图案,以便在晶圆上生成最终图案。
所以说加速计算光刻是提高光刻分辨率、推动芯片制造达到2nm及更先进节点的关键手段。
以英伟达这次公布的AI“核弹”芯片H100 GPU来举例,其需要89块掩膜板,在CPU上运行时,处理单个掩膜板需要两周时间,而cuLitho只需8小时。
比如台积电可通过在500个DGX H100系统上使用cuLitho加速,将功率从35MW降至5MW,替代此前用于计算光刻的40000台CPU服务器。使用cuLitho的晶圆厂,每天可以生产3-5倍多的光掩膜,仅使用当前配置电力的1/9。
全球最大晶圆厂台积电、全球光刻机霸主阿斯麦、全球最大EDA巨头新思科技均参与合作并引入这项技术。
台积电首席执行官魏哲家,则夸赞它为台积电在芯片制造中广泛地部署光刻解决方案开辟了新的可能性,为半导体规模化做出重要贡献。
阿斯麦首席执行官Peter Wennink称,阿斯麦计划将对GPU的支持,集成到其所有的计算光刻软件产品中。
右手持AI,左手掐元宇宙底层生态
在本次GTC发布会上,最后登场的是“数字孪生”工业模拟应用Omniverse。
其实近年来,Omniverse已经是老黄在大会上必讲科目之一了。
这次的用处主要是让企业在实际建设工厂、生产产品前,通过数字化模拟“预览”实际的成品。例如这几年很火的“黑灯工厂”,就能通过Omniverse进行设计和模拟。
NVIDIA Omniverse 是一个基于 USD(Universal Scene Description) 的可扩展平台,可使个人和团队更快地构建自定义 3D 工作流并模拟大型虚拟世界。
简单来说Omniverse就是虚拟世界的基建狂魔,专注于元宇宙底层逻辑构建。帮助人类去更好的创建数字化的世界,构建成千上百万个数字世界,然后进行链接并赋能的平台。
Omniverse更加专注于工业和工程方面这些应用,比如更加关注3D创作,或者设计整个过程中的流程。从工作顺畅角度去解决目前的痛点。
在汽车行业中,Omniverse已经与多家车企展开了合作。
沃尔沃和通用汽车使用Omniverse统一产品设计的管线,丰田汽车则用来创建数字孪生工厂。
再比如英伟达已经为Rimac推出新的3D 车辆配置器,它由 Nvidia 的新 Omniverse Cloud 提供支持。
看起来与其他在线配置器没有什么不同,底部有一排选项——油漆、车轮、内饰、选项和背景。
当用户调整下视角,在车辆周围平移,观察灯光与各种表面和材料的相互作用下的光影效果,这就相当炫酷了。
梅赛德斯·奔驰使用这款软件建立和优化新车的生产线,捷豹路虎汽车的工程师在Omniverse中使用Driver Sim生成合成数据来训练AI模型,通过虚拟NCAP驾驶测试验证主动安全系统。
在此次大会上,黄仁勋还参与互动了宝马第一家数字工厂揭幕。
黄仁勋指出,宝马正在使用Omniverse规划全球近30家工厂的运营,在每座工厂实际开业两年之前,他们会模拟完整建造一间电动汽车工厂,并不断进行调整优化。
关于和比亚迪的合作
作为英伟达在汽车领域的重要合作对象,此次活动中,NVIDIA再次介绍了其与比亚迪的合作进展。
比亚迪王朝系列和海洋系列的下一代多款车型,将使用英伟达DRIVE Orin高性能计算平台。
比亚迪首款采用NVIDIA芯片的产品将装备激光雷达,并在今年二季度上市。
在这此前,比亚迪就与英伟达合作,通过将NVIDIA GeForce NOWTM云游戏服务上车,来增强车载体验。
官方在新闻稿中表示,英伟达和比亚迪都相信,未来的汽车将是可编程的,从基于许多嵌入式控制器演变为高性能的集中式计算机,通过软件更新提供和增强功能。