英伟达公布更多 Blackwell 细节及未来产品路线图：单价 3~4 万美元，支持 10 万亿参数模型进行 AI 训练

业界 2024-08-27 16:57

在今日的 Hot Chips 2024 大会上，英伟达公布了下一代 GPU 架构 Blackwell 的更多细节信息，以及未来的产品路线图。

会议期间，英伟达架构总监 Ajay Tirumala 和 Raymond Wong 对 Blackwell 平台进行了初步介绍，并解释了这些技术如何协同工作，在提高能源效率的同时为 AI 和加速计算性能提供新的标准。

为 Blackwell 做好准备

英伟达 Blackwell 是通用计算全栈矩阵的终极解决方案，由多个英伟达芯片组成，包括 Blackwell GPU、Grace CPU、BlueField 数据处理单元、ConnectX 网络接口卡、NVLink 交换机、Spectrum 以太网交换机和 Quantum InfiniBand 交换机。

它涵盖了从 CPU 和 GPU 计算，到用于互连的不同类型的网络。这是芯片到机架和互连，而不仅仅是 GPU。它是有史以来单个 GPU 所拥有的最强 AI 计算、内存带宽和互连带宽。通过使用高带宽接口（NV-HBI），可在两个 GPU 芯片之间提供 10TB/s 的带宽。

此外，英伟达还引入了新的 FP4 和 FP6 精度。降低计算精度是提高性能的一种众所周知的方法。通过英伟达的 Quasar 量化系统，可以找出哪些方面可以使用较低的精度，从而减少计算和存储。英伟达表示，用于推理的 FP4 在某些情况下可以接近 BF16 性能。

NVLink 交换机芯片和 NVLink 交换机托盘（tray）旨在以更低的功耗推送大量数据。英伟达演示了 GB200 NVL72 和 NVL36。其中，NVL72 包含 36 个 Grace GPU 和 72 个 Blackwell GPU，专为万亿参数 AI 而设计。GB200 NVL 72 作为一个统一系统，对大语言模型（LLM）推理性能提升高达 30 倍，释放了实时运行数万亿个参数模型的能力。

英伟达表示，随着 AI 模型尺寸的增加，在多个 GPU 上拆分工作负载势在必行。而 Blackwell 足够强大，可以在一个 GPU 中处理专家模型。

最后，英伟达还展示了 2024 年至 2028 年的产品路线图。2026 年的 1.6T ConnectX-9 似乎表明了英伟达对 PCIe Gen7 的需求，因为 PCIe Gen6 x16 无法处理 1.6T 的网络连接。

Blackwell 的技术突破

今年 3 月，英伟达在 GTC 2024 开发者大会上发布了新的 GPU 架构 Blackwell。Blackwell 得名于美国数学家 David Blackwell，是英伟达最新一代的 AI 芯片与超级计算平台。与 Grace 数据中心 CPU、新一代网络芯片等产品一起，面向生成式 AI 共同组成完整解决方案。

英伟达称，Blackwell 拥有 6 项革命性技术，可支持多达 10 万亿参数的模型进行 AI 训练和实时大语言模型（LLM）推理。

1．全球最强大的芯片：Blackwell 架构 GPU 拥有 2080 亿个晶体管，确保了芯片具有极高的计算能力和复杂性；采用台积电 4 纳米工艺制造，提高了芯片的集成度，降低了功耗和发热量；配备 192GB 的 HBM3E 显存，极大提升了芯片的数据处理能力和效率。
2．第二代 Transformer 引擎：结合 Blackwell Tensor Core 技术和 TensorRT-LLM 和 NeMo Megatron 框架中的英伟达先进动态范围管理算法，Blackwell 将通过新的 4 位浮点 AI 支持双倍的计算和模型大小推理能力。
3．第五代 NVLink：为提高数万亿参数和混合专家 AI 模型的性能，最新一代英伟达 NVLink 为每个 GPU 提供了突破性的 1.8TB/s 的双向吞吐量，确保最复杂 LLM 之间多达 576 个 GPU 之间的无缝高速通信。
4.RAS 引擎：Blackwell 支持的 GPU 包含一个专用引擎，实现可靠性、可用性和服务性。此外，Blackwell 架构还增加了芯片级功能，利用基于 AI 的预防性维护进行诊断和预测可靠性问题。这可以最大限度地延长系统正常运行时间，并提高大规模部署 AI 的弹性。
5．安全人工智能：先进的机密计算功能可在不影响性能的情况下保护 AI 模型和客户数据，并支持新的本机接口加密协议，进一步增强了芯片的安全性。
6．解压缩引擎：专用解压缩引擎支持最新格式，加快数据库查询，提供数据分析和数据科学的最高性能。

英伟达 CEO 黄仁勋称，Blackwell 不只是芯片，而是一个全新的平台。它将是英伟达历史上、乃至整个计算机历史上最成功的产品。

Blackwell 的市场影响

Blackwell 架构的推出受到了全球各大云提供商、服务器制造商以及头部 AI 企业的青睐，如亚马逊、谷歌和微软等。英伟达表示，Blackwell 正在被全球各大云服务提供商采用。同时，AI 公司、电信提供商和一系列其他技术企业也有着强劲的需求。

Blackwell 的发布预示着 AI 的又一个突破时刻的到来，一经发布便得到了微软 CEO 萨蒂亚・纳德拉（Satya Nadella）、Alphabet CEO 桑达尔・皮查伊（Sundar Pichai）、亚马逊 CEO 安迪・贾西（Andy Jassy）、OpenAI CEO 萨姆・阿尔特曼（Sam Altman），以及其他知名科技领袖和名人的支持。

至关重要的是，Blackwell 是一个更大的生态系统战略的一部分。黄仁勋称：“Blackwell 不仅是系统的核心芯片，它实际上还是一个平台。它基本上就是一个计算机系统。”

Nvidia 还将使用 Blackwell 来提升其在软件领域的地位和雄心。领先的 AI 开发商已经依赖 Nvidia 的 CUDA 软件来创建由该公司处理器驱动的应用程序，而高性能 Blackwell 处理器的吸引力应有助于确保客户继续使用其软件。

该战略甚至延伸得更远。黄仁勋在 GTC 的一次会议上称：“你可以制造芯片让软件运行得更好，但没有软件你就无法创造一个新的市场。我们的独特之处在于，我相信我们是唯一一家能够创造自己市场的芯片公司。”

随着基于 Blackwell 架构的 GPU GB200 的发布，英伟达似乎正在为创建新类别的 AI 软件应用程序打开大门。反过来，此类软件的推出、扩展和持续发展可能会对其超高端 GPU 产生更大的需求。

Blackwell 出货延迟

本月初有报道称，英伟达的下一代 Blackwell 系列 AI 芯片因设计缺陷问题被迫推迟发布，这一决定可能对包括 Meta、谷歌和微软在内的大客户造成影响。

据悉，Blackwell 芯片的大规模生产原计划于今年第三季度开始，并于第四季度开始交付。但道，在准备大规模生产时，台积电的工程师发现了设计问题，导致生产受阻。

报道称，由于台积电封装技术 CoWoS 的复杂性，英伟达将推迟 Blackwell GPU 的出货时间至 2025 年第一季度。

瑞银（UBS）分析师认为，英伟达首批 Blackwell 芯片最多延迟 4~6 周出货，即推迟到 2025 年 1 月底。为此，许多客户会改而采购交货时间短的 H200 芯片。

而摩根士丹利的分析师相对乐观，认为 Blackwell 芯片的生产仅会暂停约两周，并可在 2024 年第四季度通过台积电的努力赶上进度。

整体而言，分析师认为有关 Blackwell 芯片推迟上市的担忧可能被夸大了，预计这不会对英伟达的营收或需求产生重大影响。

英伟达 CEO 黄仁勋表示，Blackwell GPU 的研发预算约为 100 亿美元，上市后单价会在 3~4 万美元。鉴于当前训练和部署 AI 的强劲需求，该价格也并未超出市场预期。

“反英伟达”联盟

包括 Alphabet、高通和英特尔在内的公司正在联手创建一个组织“UXL 基金会”，旨在阻止英伟达在 AI 领域建立无可争议的主导地位。

UXL 基金会旨在创建一个软件套件，帮助在更广泛的处理器上运行 AI 应用程序，并减少对英伟达平台的依赖。

据报道，UXL 基金会目前正在招募微软、亚马逊和其他有影响力的科技公司。因此，尽管许多科技界的知名人士对 Blackwell 的能力感到兴奋，但可以理解的是，人们对更广泛的 AI 领域过度依赖英伟达的生态系统持抵制态度。

在某种程度上，UXL 基金会的成立说明了英伟达目前的竞争地位有多强。该公司在用于 AI 和其他加速计算应用的 GPU 市场上占据了大约 90% 的份额，而 Blackwell 的推出可能有助于它继续保持甚至扩大其主导地位。

与不断扩大的专用软件工具相结合，英伟达正在重塑 AI 领域，而其竞争对手和潜在竞争对手还有很多工作要做。

相关阅读：

《英伟达 Blackwell 在数据中心投入运行：NVLINK 升级至 1.4 TB/s，首张 FP4 GenAI 图像公布》