洛杉矶当地时间8月8日,在计算机图形学顶会SIGGRAPH 2023现场,英伟达再度释放深夜“炸弹”,大模型专用芯片迎来升级版本。
英伟达在会上发布了新一代GH200 Grace Hopper平台,该平台专为处理大语言模型、推荐系统、矢量数据库等全球最复杂的生成式 AI 工作负载而构建。
GH200 Grace Hopper平台依托于搭载全球首款搭载HBM3e处理器的新型Grace Hopper超级芯片——GH200。HBM3e 内存比当前 HBM3 快 50%,可提供总计 10TB/s 的带宽。这使得新平台能够运行比上一版本大 3.5 倍的模型,同时凭借快 3 倍的内存带宽提升性能。
据介绍,该平台采用双配置,提供的内存容量和带宽比当前产品分别增加了 3.5 倍和 3 倍,包括一个拥有 144 个 Arm Neoverse 内核、8 petaflops 的 AI 性能和 282GB 最新 HBM3e 内存技术的单个服务器。
英伟达创始人兼首席执行官黄仁勋表示:“为了满足对生成式 AI 不断激增的需求,数据中心需要能够满足特定需求的加速计算平台。全新GH200 Grace Hopper 超级芯片平台以出色的内存技术和带宽,提高了吞吐量,在不影响性能的情况下可连接多 GPU 以整合性能,并且具有可以轻松部署到整个数据中心的服务器设计。”
据英伟达公布信息,新平台可以通过 NVIDIA NVLink™ 与其他超级芯片连接,使它们能够协同工作,从而部署当下大型生成式 AI 模型。这种高速、一致性技术使 GPU 可以完全访问 CPU 内存,在双配置中可提供总计 1.2TB 的快速内存。
值得注意的是,新平台采用的新款超级芯片GH200与此前发布的H100相比,二者使用同样的GPU,但GH200将同时配备高达141G的内存和72核ARM中央处理器,每秒5TB带宽,内存增加了1.7倍,带宽增加了1.5倍。
英伟达称,GH200已于 5 月全面投产,基于GH200 Grace Hopper平台的新系统将于2024年第二季度交付。
新平台和芯片的加持,也让大模型训练的成本得到有效降低。黄仁勋表示,一台服务器可以同时装载两个GH200超级芯片,大型语言模型的推理成本将会大幅降低。据介绍,投资800万美元Grace Hopper,就相当于8800个价值1亿美元的x86 GPU,意味着成本降低12倍,能耗降低20倍。
为降低了启动企业 AI 项目的复杂性,英伟达当日还发布了英伟达AI Workbench。其能够为开发者提供一个统一、易用的工作空间,使他们有能力在个人电脑或工作站上快速创建、测试和微调生成式 AI 模型,然后将这些模型扩展到几乎所有数据中心、公有云或DGX Cloud。
AI Workbench通过一个在本地系统上运行的简化界面访问,开发者可以使用自定义数据对来自 Hugging Face、GitHub 和 NVIDIA NGC™ 等流行资源库的模型进行定制。然后,这些模型可以多个平台之间轻松共享。
英伟达企业计算副总裁 Manuvir Das 表示:“全球各地的企业都在竞相寻找合适的基础设施并构建生成式 AI 模型和应用。NVIDIA AI Workbench 为跨组织团队创建基于 AI 的应用提供了一条简化的途径,而这些应用正日益成为现代商业的关键。”
此外,英伟达与 Hugging Face 宣布建立合作伙伴关系,为数百万开发者提供生成式 AI 超级计算服务,帮助他们构建大语言模型(LLM)和其他高级 AI 应用。此次合作将使开发者能够使用 Hugging Face 平台内的 NVIDIA DGX™ Cloud AI 超级计算为高级 AI 模型进行训练及调优,借助为智能聊天机器人、搜索、摘要等特定行业应用的业务数据定制的大语言模型(LLM),推动生成式 AI 在各个行业中的应用。
黄仁勋表示:“Hugging Face 与 英伟达正在将全球最大的 AI 社区与英伟达在全球领先云环境中的AI计算平台相连接。通过双方的合作,Hugging Face 社区用户只需要点击一下鼠标,就可以使用 NVIDIA AI 计算。”
作为合作的一部分,Hugging Face 将提供一项名为“训练集群即服务”的新服务,用以简化企业创建新的自定义生成式 AI 模型的过程。该服务由 NVIDIA DGX Cloud 提供支持,将在未来几个月内推出。
为可扩展的开放式3D世界生态系统通用场景描述提供加速,英伟达在会上还发布了3款适用于台式工作站的GPU:RTX 5000、RTX 4500和RTX 4000。这些工作站级别的 GPU 采用第三代RT Core,其吞吐量高达上一代的2倍。这使得用户能够实时处理更大且保真度更高的图像。
英伟达针对企业客户,还为去年发布的RTX 6000推出了最新的一站式解决方案RTX工作站。新的RTX工作站由英伟达和BOXX、戴尔科技、惠普和联想合作推出,支持最多4张RTX 6000 GPU,可以在15小时内完成8.6亿token的GPT3-40B的微调。
在价格方面,RTX 5000 售价 4000 美元;RTX 4500 售价 2250 美元;RTX 4000 售价 1250 美元。目前,RTX 5000 已经在 Leadtek、PNY 和 Ryoyo Electro 等合作伙伴处上市销售,而其他两款 GPU 以及搭载最多四块 RTX 6000 GPU 的 NVIDIA RTX 工作站系统将在今年秋季推出。
英伟达此次深夜放大招,也被视为对竞争对手AMD的反击,此前英伟达曾预告将发布与AMD的大模型专用芯片Insight MI300X CPU + GPU竞争的产品。
黄仁勋在演讲中称,“生成式 AI 时代和 AI 的 iPhone 时刻已经到来”。对于英伟达来说,此次发布的GH200芯片及相应平台,以及AI Workbench、工作站用GPU等,都将成为AIGC时代英伟达商业拓展之路前进的一步。