ChatGPT 之后，英伟达数据中心 GPU 分成两条路线

Fri, 15 May 2026 19:58:51 +0800

整理 ChatGPT 以来的英伟达数据中心 GPU，不能只做型号清单。真正的变化是两条路线同时加速：一条追最高训练性能，一条追可卖、可交付、可合规的市场覆盖。

训练路线看的是 H100、H200、B200、GB200 这类旗舰产品。它们不断把算力、显存、带宽、互联和整柜方案往上推。大模型越大，单卡性能已经不够，系统级连接、集群效率和能耗控制变得更重要。

另一条路线是特供和区域合规版本。给中国市场的产品，不只是简单“阉割版”，而是在出口管制限制下，重新平衡性能、带宽、互联和可销售性。它们的意义不是代表最高技术，而是说明英伟达要在规则缝隙里保住客户和生态。

先看全球主线：H100 起跑，H200 补课，B200 开始卖平台

这条线只看大模型训练和核心推理主线：A100 作为基线，H100、H200、B200、B300 依次往后排。

型号	发布时间	架构	显存	显存带宽	互连	最该记住的点
A100 80GB	2020，作为基线	Ampere	80GB HBM2e	2.039 TB/s	NVLink 600 GB/s	ChatGPT 前的大模型基准卡
H100 SXM	2022-03-22	Hopper	80GB HBM3	3.35 TB/s	NVLink 900 GB/s	真正把生成式 AI 训练卡时代推开的产品
H200 SXM	2023-11-13	Hopper 刷新版	141GB HBM3e	4.8 TB/s	NVLink 900 GB/s	重点不是 core 大跃迁，而是显存容量和带宽补课
B200 SXM	2024-03-18	Blackwell	180GB HBM3e	最高 8 TB/s	单 GPU NVLink 1.8 TB/s	重点转向平台级训练与推理吞吐
B300 / Blackwell Ultra	2025-03-18	Blackwell Ultra	288GB HBM3e	最高 8 TB/s	延续 rack-scale 互连路线	更明确地往 reasoning 和 test-time scaling 推进

如果只想记一个判断，大概可以这么压缩：

H100 是“训练卡暴力拉升”的一代。
H200 是“显存补课”的一代。
B200 是“AI 工厂平台化”的一代。
B300 是把 Blackwell 更明确推向 reasoning 时代的一代。

也就是说，英伟达卖的东西其实在变。

H100 还很像“这张卡有多猛”。到了 Blackwell，英伟达卖的已经越来越像“这套平台能把多大的模型，以什么吞吐和什么功耗跑起来”。这就是为什么 B200、B300 的叙事里，单卡 TFLOPS 反而没以前那么像绝对主角。

H200 为什么不是“算力暴力翻倍卡”

很多人第一次看 H200，会本能地去找“它比 H100 快了多少”。

但 H200 真正要解决的，不是 dense 算力数字不够好看，而是大模型一旦进入超长上下文、巨型 KV cache、MoE 和更大 batch 之后，瓶颈越来越像显存和显存带宽，而不是单纯的 BF16 峰值。

所以 H200 的升级重点是：

显存从 80GB 拉到 141GB；
带宽从 3.35 TB/s 提到 4.8 TB/s；
官方直接用 Llama 2 70B、GPT-3 175B 这类推理 workload 去强调收益。

它更像 Hopper 时代的一次补课，而不是全维度换代。

再看中国特供线：它的目标函数从来不是“旗舰最强”

中国特供线一定要单独看。

因为这条线不是在和全球旗舰卡同场赛跑，它首先是在美国出口限制框架里争取“还能卖、还能用”。这就决定了它的设计目标，不是技术最优，而是合规边界内的商业可交付。

型号	首次公开时间	对应母体	公开可确认参数	主要削减点	最该怎么理解
A800	2022-11	A100	80GB HBM2e；公开报道称互连较 A100 下调	互连	本地算力接近，但大规模扩展能力被压
H800	2023-03	H100	公开报道普遍认为本地 HBM 能力仍接近 H100 级别	互连	典型的“单卡不至于太差，横向扩展受限”
H20	2024-02 预售	Hopper 中国合规版	96GB HBM3、约 4.0 TB/s；公开渠道价约 1.2-1.5 万美元/卡	计算能力与其他受限项继续压低	不是 H800 的自然升级版，而是更严规则下的折中产物

这张表里最值得记住的一句话是：

A800 和 H800 更像“削互连”，H20 则连计算能力都继续往下压。

所以如果只看显存，会很容易误判。H20 比 H800 更新，不代表它按全球旗舰口径一定更强；它的商业意义首先是满足更严格规则之后还能卖，其次才是尽量保留一些可用性。

哪些升级可以直接算，哪些不能硬算

这一点最好先讲清楚，不然后面的百分比都容易变成假精确。

最稳的计算方式是：

\[ \text{升级率}=\frac{\text{新指标}-\text{旧指标}}{\text{旧指标}} \]

但这个公式只适合口径一致的指标，比如显存容量、显存带宽、NVLink 带宽。它不适合把平台级推理吞吐、整机 token 产出和单卡 TFLOPS 粗暴揉成一条线。

全球主线里，能直接算的几组数字

代际	最适合直接算的指标	大致变化
A100 80GB -> H100 SXM	带宽、互连、Tensor Core 峰值	显存带宽约 +64%，NVLink 约 +50%，BF16/FP16 Tensor Core 峰值约 +534%
H100 SXM -> H200 SXM	显存、带宽	显存约 +76%，带宽约 +43%，NVLink 基本不变
H200 SXM -> B200 SXM	显存、带宽、互连	显存约 +28%，带宽约 +67%，单 GPU NVLink 翻倍到 1.8 TB/s
B200 -> B300	显存、平台级推理能力	显存约 +60%；平台能力更强调 FP4、reasoning 和 attention 吞吐

从这个角度看，代际节奏也很清楚：

H100 主要把训练卡拉到一个新高度。
H200 把显存短板补齐。
B200 开始把“单卡升级”转成“平台升级”。
B300 再往大规模推理和 reasoning 方向加码。

中国特供线里，只能谨慎算一部分

这里更要保守。

因为 A800、H800、H20 的完整官方公开规格并不像全球主线那样整齐，很多关键参数主要来自 Reuters 报道和可追溯硬件媒体转述。

能比较稳地说的是：

A800、H800 的主要削减方向都集中在互连；
H20 显存比 H800 更大，但这不等于它在全球旗舰意义上“自然升级”；
中国特供线每一代首先是在适应规则，而不是按性能最大化去延续旗舰路线。

所以这条线最好不要硬写成“每一代全面提升多少”。它不是那种代际关系。

价格部分，只能保留公开可追溯样本

数据中心 GPU 最容易写假的，就是价格。

因为英伟达并不总是公开单卡 MSRP，公开世界里更常见的是：

DGX 整机官方起售价；
第三方整机挂牌价；
Reuters 或供应链转述的特供版渠道价。

所以价格这里我只保留几个样本，不伪造一张看上去很完整、实际口径乱掉的价目表。

对象	公开价格样本	怎么理解
DGX H100	2022 年发布时官方起售价 19.9 万美元	这是最干净的官方锚点
DGX B200	公开挂牌价大约比同阶段 DGX H100 高 40%-50%	说明全球旗舰平台确实继续涨价
H20 单卡	Reuters 报道约 1.2 万到 1.5 万美元	这是渠道样本，不是全球旗舰口径
H20 八卡服务器	公开报道约 140 万元人民币	不能拿来和 DGX 体系直接硬比，只能说明合规线的商业定位

所以“整体售价提升了多少”这个问题，最稳的回答是两句：

第一，全球旗舰主线确实在涨，而且涨得不小。

第二，中国特供线未必一路更贵，甚至可能出现“更晚出的卡更便宜”的情况，因为它首先在追求合规可卖，而不是旗舰性能和定价不断上探。

最后收一下

如果把 ChatGPT 发布之后的数据中心 GPU 变化压成一句话，我现在会这么写：

全球主线是 H100 起跑、H200 补显存、B200 平台化、B300 往 reasoning 时代再推一步；中国特供线则是 A800、H800、H20 在越来越严的规则里尽量保住可用性。

这两条线不要混着看。

混着看，最后很容易得出几个大差不差、但方向不对的结论。英伟达在全球卖的是训练与推理平台，在中国特供线卖的则首先是“还能交付、还能部署”的折中产品。目标函数不一样，升级逻辑当然也不一样。

参考资料

写作附记

原始提示词

整理自从 ChatGPT 发布以来，英伟达发布的显卡型号和对应的性能参数，前一代对比上一代升级了多少，整体售价提升了多少，我要的是数据中心用的显卡，包含给中国的特供版本。

这篇从上面的原始提示词出发，按第一次写稿的方式确定主线、材料密度和结构。date 字段沿用原发布时间，其他内容只服务当前文章承诺。

中国特供版 on 向叔记事簿