郭明錤称英伟达停止开发双柜版本 GB200(NVL36-2)AI 机柜
附上郭明錤简报信息如下:
结论:
此事不会影响AI 与 Nvidia 的长期正向趋势,但短期可能引发部分市场参与者对 Nvidia 与供应链执行力的质疑。
Nvidia 近期频繁修改 AI服务器产品蓝图,我认为这是 Nvidia 在资源有限下,想在供应链执行力、竞争优势与客户需求间取得更好的平衡点(停止 NVL36*2 开发仅是一个例子) 。这是好事,代表 Nvidia 更务实面对产品规划,但在改变过程可能会让部分市场参与者对供应链乱象感到困惑。
因当前 Blackwell 伺服器的 2025 年产品出货组合能见度低 (数月前市场普遍认为只会有 NVL36、NVL72 与 NVL36*2),部分供应商如组装、散热等 2025 年展望将受到较大影响。
两个 72GPU 版本的比较:选择 NVL72 并取消 NVL36*2 的原因
开发资源有限。原本的规划是,GB200 有三个案子(NVL36、NVL72、NVL36*2)同时开发中。预计自 11 月中旬开始的开发版本 (Development drop:DevDrop) 就会收敛至 NVL72 与 NVL36*2 (因 NVL36「理论上」准备进入量产阶段),并在 2025 年 3 月中旬前完成两者最后的品质验证 (Quality assurance:QA)。但在 NVL36 开发仍有不确定性下,更遑论同时开发两个 72 GPU 版本 (NVL72 与 NVL36*2)。
NVL72 节省资料中心空间。NVL72 若能妥善解决 Sidecar 的散热设计挑战,会比 NVL36*2 少一个机柜,提升资料中心空间效率。
NVL72 的推理效率较佳。受益于软件可平行化设计 (Parallelizable design),NVL72 与 NVL36*2 在 AI LLM 训练结果差异不大。但在非或不易平行化设计的推理过程中 (如自回归模型),NVL72 的表现较容易优于 NVL36*2。
主要客户偏好。如微软就较偏好 NVL72,而非 NVL36*2。
兑现公开的承诺。 Nvidia 在公开场合宣传重点始终都是单柜版 NVL72,为兑现公开承诺,资源有限下,NVL72 开发顺位较 NVL36*2 高。
NVL72 开发面对前所未有的技术挑战,目前量产时程能见度仍低
NVL72 开发最大挑战主要来自 TDP (Thermal design point) 要求为 132kW,这是有史以来功耗最高的伺服器,Nvidia 与供应链需要更多时间解决前所未有的技术问题。
需注意 TDP 是指持续运行的平均功耗,而若设计不当导致瞬间最大功耗 (Nvidia 称为 EDP (Electrical design point)) 高于 TDP,则可能要两部以上的 Sidecar,若是如此,则不仅提高散热设计复杂度与量产难度,亦失去 NVL72 节省资料中心空间的优势。
Sidecar 另一设计挑战为需把 Approaching temp 稳定得控制在 5–10°C 内,若放宽标准则可能会影响系统稳定度。
需注意的是,上述提到的高功耗挑战,牵涉到的不仅是 Sidecar,而是所有的零组件与系统设计
我最新供应链调查指出,NVL72 量产时程可能须至 2H25 后 (vs. Nvidia 的乐观目标为 1H25)。
免责声明:本文为转载,非本网原创内容,不代表本网观点。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。