ChatGPTが公開された後、NVIDIAのデータセンター向けGPUはどのように進化するでしょうか?

まず、時期を明確にしましょう。ChatGPTの公開研究プレビュー版は、2023年ではなく、2022年11月30日にリリースされました。[1]

この時期以降、NVIDIAのデータセンターGPUのメインラインは非常に明確です。Ampereが終息し、Hopperに引き継がれ、Hopperは大容量メモリを刷新し、そしてBlackwellが重心を「単一カードでの高密度計算能力」から、「推論スループット、消費電力、システム全体レベルの相互接続性」へと移していくという流れです。対照的に、中国向け特別仕様ラインは別の物語があります。A800、H800、H20といったものは、本質的には米国の輸出規制の制約の下で作られた

本稿では、2本の線のみを統計しています。

  • グローバルデータセンター向けのトレーニング/推論メインライン:比較基準としてA100、H100、H200、B200、B300。
  • 中国向け特別供給ライン:A800、H800、H20。

L4、L40、L40S、L2といったものは本文に組み込んでいません。それらが重要でないわけではなく、むしろこれらはビデオ推論、一般推論、グラフィックス、仮想化という用途ラインがメインであり、A100/H100/H200/B200のような大規模モデルトレーニングの主軸と混ざってしまうと、価格や性能の指標が混乱してしまうからです。

まずメインラインを見る

結論から述べます。2022年11月30日以降の発表ペースで見ると、H100が生成AI爆発初期の真の起点となり、H200は「メモリ不足」を補うための刷新的なカードであり、B200こそが真の意味でのプラットフォームレベルの世代交代であり、B300はBlackwellを推論(Inference)および思考(Reasoning)の時代へとさらに押し進めたと言えます。

モデル名 リリース日 アーキテクチャ メモリ容量 メモリ帯域幅 インターコネクト 公式性能指標
A100 80GB 2020-11、対照ベースラインとして Ampere 80GB HBM2e 2.039 TB/s NVLink 600 GB/s BF16/FP16 Tensor Core 312 TFLOPS,INT8 624 TOPS [2]
H100 SXM 2022-03-22 Hopper 80GB HBM3 3.35 TB/s NVLink 900 GB/s BF16/FP16 1,979 TFLOPS,FP8 3,958 TFLOPS;DGX H100 シングルシステムで 32 PFLOPS FP8、DGX A100 から 6 倍向上 [3][4]
H200 SXM 2023-11-13 Hopper 改良版 141GB HBM3e 4.8 TB/s NVLink 900 GB/s 公式が強調しているのはコア演算能力の倍増ではなく、Llama2 70B 推論で 1.9 倍、GPT-3 175B 推論で 1.6 倍の向上;H100 に対する相対的なメリットはより大

ここで最も誤解しやすい点は、H200が「演算能力を暴力的に倍にしたカード」ではないということです。むしろHopper世代のための補習(キャッチアップ)のようなものです。大規模モデルの訓練と推論が超長コンテキスト、巨大なKVキャッシュ、MoE、そしてより大きなバッチサイズという段階に入ると、ボトルネックはもはや単純なBF16のピーク性能ではなく、VRAM容量とVRAM帯域幅になるからです。H200はこの弱点を補完しました。

真の世代的な飛躍はBlackwellにあります。Blackwellが売っているのは単なる単体のカードではなく、一連のプラットフォーム能力:新しい精度、インターコネクト、システム全体レベルの帯域幅、推論コスト、消費電力効率、ラックスケールでの組織方式といったもの全般です。これが、多くの資料がB200について語る際に、単体カードの指標がH100ほど一目で理解しにくい理由であり、なぜならNVIDIAのナラティブ(物語上の焦点)が、「この

中国限定ラインを再確認

中国専用ラインは個別に検討する必要があります。なぜなら、その目的が世界のフラッグシップ製品を打ち破ることではなく、輸出規制のレッドラインを下回りながら、商用利用可能性を可能な限り保持することにあるからです。

このラインで最も覚えておくべき一文は、「A800とH800は『相互接続を減らす』ものであり、H20は『計算能力すらも抑え込まなければならない』ものである」ということです。

そのため、誰かが単にVRAMの数字だけを見て、「H20はH800より新しいから、もっと高性能だ」と判断するのは誤りです。H20の96GB HBM3と4.0 TB/sの帯域幅は悪くありませんが、それが登場する前提条件は、より厳しい輸出規制を満たすことです。その商業的な目的は、まず「売れること」、次に「可能な限り使いこなせること」なのです。

前世代と比較して、具体的にどれだけアップグレードされたのか

計算方法から説明します:

\[
\text{アップグレード率}=\frac{\text{次世代指標}-\text{前世代指標}}{\text{前世代指標}}
\]

ただし、この数式は定義(スコープ)が統一された指標にのみ適しています。メモリ(VRAM)、メモリ帯域幅、NVLinkの帯域幅は直接計算が可能です。一方で、プラットフォームレベルの推論コストやシステム全体の処理能力(スループット)といった要素は、シングルカードのTFLOPSのような単一基準には無理に当てはめることはできません。

世界の主要動向

読み進めていくと、ある法則があることに気がつきます。

  • H100は、単一カードのテンソル演算能力を飛躍的に引き上げた世代です。
  • H200は、VRAM(ビデオメモリ)を補強した世代です。
  • B200は、「トレーニング用カード」を「AIファクトリーのインフラストラクチャ」へと変貌させた世代です。
  • B300は、Blackwellをより明確に推論および大規模な推論の領域へ押し進めた世代です。

中国特別供給ライン

世代 直感的印象はアップグレードに見えるが、実際には分けて考える必要がある 私の考察
A800 -> H800 ローカルHBM帯域幅だけを見ると、A100からH100レベルまでは、約+64%の世代的な進歩と理解できる しかし、根幹となる制約は依然としてインターコネクト

それゆえに、「各世代でどれだけ総合的に向上するか」という形で記述するのは、中国の特注ラインには適さないのです。このラインは元来コンプライアンス上の制約を伴っており、設計目標が技術的な最適さではなく、ルールによる制約の下での商業的な実現可能性にあるからです。

販売価格は一体どれくらい上がったのか

この部分は誤った情報が書き込まれやすい箇所です。NVIDIAはデータセンターGPUの単体MSRPをほとんど公開していないため、一般的に利用できる情報は以下の通りです:

  • DGXシステムの価格、またはサードパーティによるシステムの実売価格(提示価格)。
  • 中国向け特別仕様カードのチャネルからの見積もり価格。
  • メディア、証券会社、またはサプライチェーンからの情報。

そのため、ここでは「公開で追跡可能な価格サンプル」のみを提供し、一見すると完璧だが実際には算出基準が混乱した公式の価格表を偽造することはしません。

デバイス 公開価格サンプル 前世代との比較の解釈
DGX H100 2022-03-22 发布時官方起售价 1

したがって、「全体の販売価格はどの程度上がったのか」という点で、2つの結論をご報告します。

第一に、世界のフラッグシップ主力製品は確かに上昇しており、その上昇幅もさほど小さいものではありません。公開で比較可能なサンプルを見る限り、DGX B200は、同時期にリストされているDGX H100と比較して、およそ40%から50%高価になっています。[19]

第二に、中国の特別供給ラインは一律に価格が上昇しているわけではなく、「後から出るカードの方が安価」という状況が発生する可能性があります。H20の8枚カードサーバーの公開見積もりは、H800の8枚カードサーバーよりも約30%低い水準ですが、これは良心の問題ではなく、性能能力がさらに圧縮されたためです。[17]

まとめ

ChatGPTが公開された以降のNVIDIAデータセンター用GPUの変化を一言にまとめると、私の判断は〜です。

H100 は生成AIが爆発した時点でのスタートの引き金であり、H200 はメモリ志向の延命措置です。B200 こそが AI ファクトリー時代における真のプラットフォーム世代交代であり、B300 は推論(reasoning)時代に向けて明確に道筋をつけ始めています。中国向け特別供給ラインは全く別のロジックに基づいています。それはフラッグシップを追いかけるのではなく、ルールの隙間で可能な限り利用可能性を維持することを目指しているのです。

この2つの要素は混同しないでください。混ぜて見ると、「新しいカードのVRAMが大きいから、世代がより優れている」「価格が低いから、コストパフォーマンスが高い」といった、大きな差はないものの、方向性自体を間違えた結論を導き出しやすいです。

参考資料

執筆注記

元のプロンプト

ChatGPTのリリース以降、Nvidiaが発表したGPUモデルとそれに対応する性能パラメーターをまとめてください。前世代と比較してどれくらいアップグレードされたか、また全体的な価格はどの程度上昇しているかを知りたいです。データセンターで使用されるGPUが必要で、中国向けの特別版も含めてください。

ライティング(執筆)の構成案要約

拡張ブレーンストーミング

| 方向 | 正文への採用可否 | 対応理由 | | — |

金融ITプログラマーのいじくり回しと日常のつぶやき
Hugo で構築されています。
テーマ StackJimmy によって設計されています。