在今日的 Hot Chips 2024 大会上,英伟达公布了下一代 GPU 架构 Blackwell 的更多细节信息,以及未来的产品路线图。
会议期间,英伟达架构总监 Ajay Tirumala 和 Raymond Wong 对 Blackwell 平台进行了初步介绍,并解释了这些技术如何协同工作,在提高能源效率的同时为 AI 和加速计算性能提供新的标准。
为 Blackwell 做好准备
英伟达 Blackwell 是通用计算全栈矩阵的终极解决方案,由多个英伟达芯片组成,包括 Blackwell GPU、Grace CPU、BlueField 数据处理单元、ConnectX 网络接口卡、NVLink 交换机、Spectrum 以太网交换机和 Quantum InfiniBand 交换机。
它涵盖了从 CPU 和 GPU 计算,到用于互连的不同类型的网络。这是芯片到机架和互连,而不仅仅是 GPU。它是有史以来单个 GPU 所拥有的最强 AI 计算、内存带宽和互连带宽。通过使用高带宽接口(NV-HBI),可在两个 GPU 芯片之间提供 10TB/s 的带宽。
此外,英伟达还引入了新的 FP4 和 FP6 精度。降低计算精度是提高性能的一种众所周知的方法。通过英伟达的 Quasar 量化系统,可以找出哪些方面可以使用较低的精度,从而减少计算和存储。英伟达表示,用于推理的 FP4 在某些情况下可以接近 BF16 性能。
NVLink 交换机芯片和 NVLink 交换机托盘(tray)旨在以更低的功耗推送大量数据。英伟达演示了 GB200 NVL72 和 NVL36。其中,NVL72 包含 36 个 Grace GPU 和 72 个 Blackwell GPU,专为万亿参数 AI 而设计。GB200 NVL 72 作为一个统一系统,对大语言模型(LLM)推理性能提升高达 30 倍,释放了实时运行数万亿个参数模型的能力。
英伟达表示,随着 AI 模型尺寸的增加,在多个 GPU 上拆分工作负载势在必行。而 Blackwell 足够强大,可以在一个 GPU 中处理专家模型。
最后,英伟达还展示了 2024 年至 2028 年的产品路线图。2026 年的 1.6T ConnectX-9 似乎表明了英伟达对 PCIe Gen7 的需求,因为 PCIe Gen6 x16 无法处理 1.6T 的网络连接。
Blackwell 的技术突破
今年 3 月,英伟达在 GTC 2024 开发者大会上发布了新的 GPU 架构 Blackwell。Blackwell 得名于美国数学家 David Blackwell,是英伟达最新一代的 AI 芯片与超级计算平台。与 Grace 数据中心 CPU、新一代网络芯片等产品一起,面向生成式 AI 共同组成完整解决方案。
英伟达称,Blackwell 拥有 6 项革命性技术,可支持多达 10 万亿参数的模型进行 AI 训练和实时大语言模型(LLM)推理。
-
1.全球最强大的芯片:Blackwell 架构 GPU 拥有 2080 亿个晶体管,确保了芯片具有极高的计算能力和复杂性;采用台积电 4 纳米工艺制造,提高了芯片的集成度,降低了功耗和发热量;配备 192GB 的 HBM3E 显存,极大提升了芯片的数据处理能力和效率。
-
2.第二代 Transformer 引擎:结合 Blackwell Tensor Core 技术和 TensorRT-LLM 和 NeMo Megatron 框架中的英伟达先进动态范围管理算法,Blackwell 将通过新的 4 位浮点 AI 支持双倍的计算和模型大小推理能力。
-
3.第五代 NVLink:为提高数万亿参数和混合专家 AI 模型的性能,最新一代英伟达 NVLink 为每个 GPU 提供了突破性的 1.8TB/s 的双向吞吐量,确保最复杂 LLM 之间多达 576 个 GPU 之间的无缝高速通信。
-
4.RAS 引擎:Blackwell 支持的 GPU 包含一个专用引擎,实现可靠性、可用性和服务性。此外,Blackwell 架构还增加了芯片级功能,利用基于 AI 的预防性维护进行诊断和预测可靠性问题。这可以最大限度地延长系统正常运行时间,并提高大规模部署 AI 的弹性。
-
5.安全人工智能:先进的机密计算功能可在不影响性能的情况下保护 AI 模型和客户数据,并支持新的本机接口加密协议,进一步增强了芯片的安全性。
-
6.解压缩引擎:专用解压缩引擎支持最新格式,加快数据库查询,提供数据分析和数据科学的最高性能。
英伟达 CEO 黄仁勋称,Blackwell 不只是芯片,而是一个全新的平台。它将是英伟达历史上、乃至整个计算机历史上最成功的产品。
Blackwell 的市场影响
Blackwell 架构的推出受到了全球各大云提供商、服务器制造商以及头部 AI 企业的青睐,如亚马逊、谷歌和微软等。英伟达表示,Blackwell 正在被全球各大云服务提供商采用。同时,AI 公司、电信提供商和一系列其他技术企业也有着强劲的需求。
Blackwell 的发布预示着 AI 的又一个突破时刻的到来,一经发布便得到了微软 CEO 萨蒂亚・纳德拉(Satya Nadella)、Alphabet CEO 桑达尔・皮查伊(Sundar Pichai)、亚马逊 CEO 安迪・贾西(Andy Jassy)、OpenAI CEO 萨姆・阿尔特曼(Sam Altman),以及其他知名科技领袖和名人的支持。
至关重要的是,Blackwell 是一个更大的生态系统战略的一部分。黄仁勋称:“Blackwell 不仅是系统的核心芯片,它实际上还是一个平台。它基本上就是一个计算机系统。”
Nvidia 还将使用 Blackwell 来提升其在软件领域的地位和雄心。领先的 AI 开发商已经依赖 Nvidia 的 CUDA 软件来创建由该公司处理器驱动的应用程序,而高性能 Blackwell 处理器的吸引力应有助于确保客户继续使用其软件。
该战略甚至延伸得更远。黄仁勋在 GTC 的一次会议上称:“你可以制造芯片让软件运行得更好,但没有软件你就无法创造一个新的市场。我们的独特之处在于,我相信我们是唯一一家能够创造自己市场的芯片公司。”
随着基于 Blackwell 架构的 GPU GB200 的发布,英伟达似乎正在为创建新类别的 AI 软件应用程序打开大门。反过来,此类软件的推出、扩展和持续发展可能会对其超高端 GPU 产生更大的需求。
Blackwell 出货延迟
本月初有报道称,英伟达的下一代 Blackwell 系列 AI 芯片因设计缺陷问题被迫推迟发布,这一决定可能对包括 Meta、谷歌和微软在内的大客户造成影响。
据悉,Blackwell 芯片的大规模生产原计划于今年第三季度开始,并于第四季度开始交付。但道,在准备大规模生产时,台积电的工程师发现了设计问题,导致生产受阻。
报道称,由于台积电封装技术 CoWoS 的复杂性,英伟达将推迟 Blackwell GPU 的出货时间至 2025 年第一季度。
瑞银(UBS)分析师认为,英伟达首批 Blackwell 芯片最多延迟 4~6 周出货,即推迟到 2025 年 1 月底。为此,许多客户会改而采购交货时间短的 H200 芯片。
而摩根士丹利的分析师相对乐观,认为 Blackwell 芯片的生产仅会暂停约两周,并可在 2024 年第四季度通过台积电的努力赶上进度。
整体而言,分析师认为有关 Blackwell 芯片推迟上市的担忧可能被夸大了,预计这不会对英伟达的营收或需求产生重大影响。
英伟达 CEO 黄仁勋表示,Blackwell GPU 的研发预算约为 100 亿美元,上市后单价会在 3~4 万美元。鉴于当前训练和部署 AI 的强劲需求,该价格也并未超出市场预期。
“反英伟达”联盟
包括 Alphabet、高通和英特尔在内的公司正在联手创建一个组织“UXL 基金会”,旨在阻止英伟达在 AI 领域建立无可争议的主导地位。
UXL 基金会旨在创建一个软件套件,帮助在更广泛的处理器上运行 AI 应用程序,并减少对英伟达平台的依赖。
据报道,UXL 基金会目前正在招募微软、亚马逊和其他有影响力的科技公司。因此,尽管许多科技界的知名人士对 Blackwell 的能力感到兴奋,但可以理解的是,人们对更广泛的 AI 领域过度依赖英伟达的生态系统持抵制态度。
在某种程度上,UXL 基金会的成立说明了英伟达目前的竞争地位有多强。该公司在用于 AI 和其他加速计算应用的 GPU 市场上占据了大约 90% 的份额,而 Blackwell 的推出可能有助于它继续保持甚至扩大其主导地位。
与不断扩大的专用软件工具相结合,英伟达正在重塑 AI 领域,而其竞争对手和潜在竞争对手还有很多工作要做。
相关阅读: