阅读时间大约5分钟（1652字）

2023-08-09 英伟达深夜再放炸弹，发布超级芯片GH200反击AMD

来源：英伟达

新平台和芯片的加持，也让大模型训练的成本得到有效降低。

洛杉矶当地时间8月8日，在计算机图形学顶会SIGGRAPH 2023现场，英伟达再度释放深夜“炸弹”，大模型专用芯片迎来升级版本。

英伟达在会上发布了新一代GH200 Grace Hopper平台，该平台专为处理大语言模型、推荐系统、矢量数据库等全球最复杂的生成式 AI 工作负载而构建。

GH200 Grace Hopper平台依托于搭载全球首款搭载HBM3e处理器的新型Grace Hopper超级芯片——GH200。HBM3e 内存比当前 HBM3 快 50%，可提供总计 10TB/s 的带宽。这使得新平台能够运行比上一版本大 3.5 倍的模型，同时凭借快 3 倍的内存带宽提升性能。

据介绍，该平台采用双配置，提供的内存容量和带宽比当前产品分别增加了 3.5 倍和 3 倍，包括一个拥有 144 个 Arm Neoverse 内核、8 petaflops 的 AI 性能和 282GB 最新 HBM3e 内存技术的单个服务器。

英伟达创始人兼首席执行官黄仁勋表示：“为了满足对生成式 AI 不断激增的需求，数据中心需要能够满足特定需求的加速计算平台。全新GH200 Grace Hopper 超级芯片平台以出色的内存技术和带宽，提高了吞吐量，在不影响性能的情况下可连接多 GPU 以整合性能，并且具有可以轻松部署到整个数据中心的服务器设计。”

据英伟达公布信息，新平台可以通过 NVIDIA NVLink™ 与其他超级芯片连接，使它们能够协同工作，从而部署当下大型生成式 AI 模型。这种高速、一致性技术使 GPU 可以完全访问 CPU 内存，在双配置中可提供总计 1.2TB 的快速内存。

值得注意的是，新平台采用的新款超级芯片GH200与此前发布的H100相比，二者使用同样的GPU，但GH200将同时配备高达141G的内存和72核ARM中央处理器，每秒5TB带宽，内存增加了1.7倍，带宽增加了1.5倍。

英伟达称，GH200已于 5 月全面投产，基于GH200 Grace Hopper平台的新系统将于2024年第二季度交付。

新平台和芯片的加持，也让大模型训练的成本得到有效降低。黄仁勋表示，一台服务器可以同时装载两个GH200超级芯片，大型语言模型的推理成本将会大幅降低。据介绍，投资800万美元Grace Hopper，就相当于8800个价值1亿美元的x86 GPU，意味着成本降低12倍，能耗降低20倍。

为降低了启动企业 AI 项目的复杂性，英伟达当日还发布了英伟达AI Workbench。其能够为开发者提供一个统一、易用的工作空间，使他们有能力在个人电脑或工作站上快速创建、测试和微调生成式 AI 模型，然后将这些模型扩展到几乎所有数据中心、公有云或DGX Cloud。

AI Workbench通过一个在本地系统上运行的简化界面访问，开发者可以使用自定义数据对来自 Hugging Face、GitHub 和 NVIDIA NGC™ 等流行资源库的模型进行定制。然后，这些模型可以多个平台之间轻松共享。

英伟达企业计算副总裁 Manuvir Das 表示：“全球各地的企业都在竞相寻找合适的基础设施并构建生成式 AI 模型和应用。NVIDIA AI Workbench 为跨组织团队创建基于 AI 的应用提供了一条简化的途径，而这些应用正日益成为现代商业的关键。”

此外，英伟达与 Hugging Face 宣布建立合作伙伴关系，为数百万开发者提供生成式 AI 超级计算服务，帮助他们构建大语言模型（LLM）和其他高级 AI 应用。此次合作将使开发者能够使用 Hugging Face 平台内的 NVIDIA DGX™ Cloud AI 超级计算为高级 AI 模型进行训练及调优，借助为智能聊天机器人、搜索、摘要等特定行业应用的业务数据定制的大语言模型（LLM），推动生成式 AI 在各个行业中的应用。

黄仁勋表示：“Hugging Face 与英伟达正在将全球最大的 AI 社区与英伟达在全球领先云环境中的AI计算平台相连接。通过双方的合作，Hugging Face 社区用户只需要点击一下鼠标，就可以使用 NVIDIA AI 计算。”

作为合作的一部分，Hugging Face 将提供一项名为“训练集群即服务”的新服务，用以简化企业创建新的自定义生成式 AI 模型的过程。该服务由 NVIDIA DGX Cloud 提供支持，将在未来几个月内推出。

为可扩展的开放式3D世界生态系统通用场景描述提供加速，英伟达在会上还发布了3款适用于台式工作站的GPU：RTX 5000、RTX 4500和RTX 4000。这些工作站级别的 GPU 采用第三代RT Core，其吞吐量高达上一代的2倍。这使得用户能够实时处理更大且保真度更高的图像。

英伟达针对企业客户，还为去年发布的RTX 6000推出了最新的一站式解决方案RTX工作站。新的RTX工作站由英伟达和BOXX、戴尔科技、惠普和联想合作推出，支持最多4张RTX 6000 GPU，可以在15小时内完成8.6亿token的GPT3-40B的微调。

在价格方面，RTX 5000 售价 4000 美元；RTX 4500 售价 2250 美元；RTX 4000 售价 1250 美元。目前，RTX 5000 已经在 Leadtek、PNY 和 Ryoyo Electro 等合作伙伴处上市销售，而其他两款 GPU 以及搭载最多四块 RTX 6000 GPU 的 NVIDIA RTX 工作站系统将在今年秋季推出。

英伟达此次深夜放大招，也被视为对竞争对手AMD的反击，此前英伟达曾预告将发布与AMD的大模型专用芯片Insight MI300X CPU + GPU竞争的产品。

黄仁勋在演讲中称，“生成式 AI 时代和 AI 的 iPhone 时刻已经到来”。对于英伟达来说，此次发布的GH200芯片及相应平台，以及AI Workbench、工作站用GPU等，都将成为AIGC时代英伟达商业拓展之路前进的一步。