技術數(shù)據(jù)篇導引

相關英偉達（NVIDIA）的數(shù)據(jù)中心用GPU（Tensor Core）技術參數(shù)

瀏覽：814 來源：通信人在線日期：2025-03-19

英偉達（NVIDIA）數(shù)據(jù)中心用GPU是世界上采用最廣泛的加速計算解決方案，部署于較大超級計算中心和企業(yè)的數(shù)據(jù)中心。無論是希望解決深度學習（DL）和人工智能（AI）、高性能計算（HPC）、圖形方面的業(yè)務問題，還是在數(shù)據(jù)中心或邊緣解決虛擬化問題，NVIDIA GPU 都能提供理想的解決方案。尤其是現(xiàn)在可以使用數(shù)量更少、功能更強大的服務器實現(xiàn)突破性的性能，同時更快地獲得解決并降低成本。

一、概述

我們知道，英偉達（NVIDIA）的圖形處理器（GPU，Graphic Processing Unit）在迭代時，陸續(xù)采用了不同的架構，在前期幾代架構中的處理核心均采用的是CUDA（計算統(tǒng)一設備架構）核心。從2017年發(fā)布的Volta（伏特）架構時，其處理核心開始采用了Tensor Core（稱為張量計算核心），在后續(xù)的歷代GPU架構更新時均采用了Tensor Core，且為Tensor Core的升級版本。下表1示出了英偉達采用Tensor Core的GPU不同架構情況，包括其關鍵特征和相應產品型號等。

表 1：英偉達Tensor Core GPU的不同架構情況

由表可知，2017 年英偉達GPU提出的 Volta 架構，首次引入了Tensor Core ，用于執(zhí)行融合乘法加法（FMA）的方式來高效地處理計算任務，標志著第1代 Tensor Core 核心的誕生。而后Tensor Core在英偉達GPU的后續(xù)Turing、Ampere、Hopper和Blackwell架構中均有配備，其中Blackwell架構中的Tensor Core已演進為第5代Tensor Core。英偉達 Tensor Core 技術助力人工智能（AI）實現(xiàn)了大幅加速，將訓練時間從數(shù)周縮短到幾小時，顯著加快了推理速度。新的處理核心Tensor Core，可實現(xiàn)混合精度計算，并能根據(jù)精度的降低動態(tài)調整算力，在保持準確性的同時提高吞吐量；新一代 Tensor Core 擴大了這種加速的應用范圍，覆蓋到AI和高性能計算（HPC）領域的各種工作負載；Tensor Core 向所有工作負載提供了新功能，將一種革命性的新精度Tensor Float 32（TF32）下的 AI 訓練速度加快 10 倍，并將 FP64 下的HPC速度加快 2.5 倍。相較于 CUDA Core，Tensor Core 能夠在每個時鐘周期內執(zhí)行更多的運算，特別是它可以高效地完成矩陣乘法和累加操作兩種操作，是深度學習（DL）中最頻繁和計算密集的任務之一。下述將對英偉達的采用Tensor Core核心算法的幾款GPU產品技術參數(shù)做一介紹，這些GPU產品主要部署用于數(shù)據(jù)中心場景。

二、Turing架構的T4型GPU（Tensor Core 2.0）

英偉達 T4 型企業(yè)級 GPU 為全球最受信賴的主流服務器提供強大動力，輕松融入標準數(shù)據(jù)中心架構。其低矮的外形設計，僅需 70 W功耗，由 NVIDIA Turing架構Tensor Core驅動，為包括機器學習、深度學習和虛擬桌面在內的眾多現(xiàn)代應用提供革命性的多精度性能加速。這款先進的 GPU 采用節(jié)能的 70 瓦、小型 PCle 外形規(guī)格封裝（下圖2-1），專為企業(yè)數(shù)據(jù)中心和云環(huán)境實現(xiàn)最大效用而優(yōu)化。下表2-1給出了T4型 GPU的相關技術參數(shù)；下表2-2給出了T4對于驅動數(shù)據(jù)中心加速的技術說明；下圖2-2展示了T4與CPU相比的接口性能和訓練性能。

圖 2-1：T4 GPU的外形圖

表 2-1：T4 GPU的相關技術參數(shù)

表 2-2：T4 GPU對于驅動數(shù)據(jù)中心加速的說明

圖 2-2：T4 GPU與CPU相比的接口性能和訓練性能

三、Ampere架構的A100型GPU（Tensor Core 3.0）

英偉達 A100 Tensor Core GPU 在各個規(guī)模上都能實現(xiàn)前所未有的加速，為AI、數(shù)據(jù)分析和高性能計算（HPC）應用提供全球性能最強勁的彈性數(shù)據(jù)中心動力支持。作為英偉達數(shù)據(jù)中心平臺的核心引擎，A100 比之前一代的架構 Volta性能提升了多達 20 倍。通過多實例（MIG，Multi-Instance GPU）技術，A100 能夠高效地進行擴展或被劃分為七個獨立的 GPU 實例，為彈性數(shù)據(jù)中心提供一個統(tǒng)一的平臺，使其能夠動態(tài)適應不斷變化的工作負載需求。

英偉達 A100 Tensor Core 技術支持廣泛的數(shù)學精度，為每項工作負載提供一個單獨的加速器。最新一代的 A100 80GB 版本將 GPU 內存翻倍，并推出了2TB/s 的全球最快內存帶寬，從而加快了最大模型和最龐大數(shù)據(jù)集的解決方案時間。A100 是完整的英偉達數(shù)據(jù)中心解決方案的一部分，該解決方案涵蓋了硬件、網(wǎng)絡、軟件、庫以及來自 NVIDIA NGC 目錄的優(yōu)化的AI模型和應用程序的構建模塊。它代表著面向數(shù)據(jù)中心的最強大的端到端AI和HPC平臺，使研究人員能夠交付真實世界的成果，并大規(guī)模地將解決方案部署到生產環(huán)境中。下表3-1給出了A100 80GB（包括PCIe和SXM4兩種形狀因子）的相關技術參數(shù)；下表3-2描述了A100 GPU的幾點突破性創(chuàng)新；下圖3展示了A100 GPU跨工作負載的卓越性能。

表 3-1：A100 80GB GPU（包括PCIe和SXM4兩種形狀因子）的相關技術參數(shù)

表 3-2：相關A100 GPU的突破性創(chuàng)新描述

圖 3：A100 GPU跨工作負載的卓越性能展示

A100 Tensor Core GPU 是英偉達數(shù)據(jù)中心平臺的旗艦產品，專為深度學習、HPC和數(shù)據(jù)分析而設計。該平臺可加速超過 2000 個應用程序，包括每一個主要的深度學習框架。A100 可以在從臺式機到服務器再到云服務等各種設備上使用，既帶來了顯著的性能提升，也提供了節(jié)省成本的機會。

四、Hopper架構的H100和H200型GPU（Tensor Core 4.0）

1、H100 型Tensor Core GPU

H100 Tensor Core GPU 是英偉達的第9代數(shù)據(jù)中心用 GPU，旨在為大規(guī)模AI和HPC提供比上一代 A100 型GPU 高一個數(shù)量級的性能飛躍。H100 繼承了 A100 的主要設計重點，以改善 AI 和 HPC 工作負載的強大擴展，并顯著提高架構效率。下表4-1給出了H100（包括NVL和SXM兩種形狀因子）的相關技術參數(shù)；其它性能詳見下附件4。

表 4-1：H100（ GPU包括NVL和SXM兩種形狀因子）的相關技術參數(shù)

附件 4：H100 型GPU更多性能介紹

欲具體了解H100 Tensor Core GPU詳解的請進入。

2、H200 型Tensor Core GPU

H200 Tensor Core GPU同樣基于強大的Hopper 架構，針對更大的 AI 和 HPC 工作負載進行了增強。下表4-2-1給出了H200（包括PCIe和SXM兩種形狀因子）的相關技術參數(shù)，與H100相比，兩者最主要的差異表現(xiàn)在GPU內存和GPU內存帶寬兩個參數(shù)上。下表4-2-2展示了H200突出性能的表現(xiàn)。

表 4-2-1：H200 GPU（包括NVL和SXM兩種形狀因子）的相關技術參數(shù)

表 4-2-2：H200 GPU突出性能描述

五、Blackwell架構的GPU（Tensor Core 5.0）

1、概述

2024年3月英偉達推出了新一代Blackwell架構的GPU，該架構以美國數(shù)學家和統(tǒng)計學家大衛(wèi)·布萊克威爾（David H. Blackwell）的名字來命名。Blackwell架構的GPU引入了第5代Tensor Core（首次添加了對FP4浮點運算精度的支持）、第2代Transformer引擎、第5代NVLink和 NVLink Switch等技術，稱為是開創(chuàng)了推動生成式AI與加速計算的新時代（聲稱可以支持具有數(shù)萬億參數(shù)的模型）。Blackwell 架構GPU是全球最大的 GPU，專為處理數(shù)據(jù)中心規(guī)模的生成式AI工作流程而打造，其能耗效率比之前的Hopper 架構GPU 產品系列高出多達 25 倍。Blackwell架構的GPU包括新一代超級芯片 Grace Blackwell GB200 以及新一代高性能 HGX 系統(tǒng) HGX B200 和 HGX B100。下附件5是Blackwell架構的詳細技術介紹。

附件 5：NVIDIA Blackwell架構的詳細技術介紹

2、GB200 超級芯片

GB200 Grace Blackwell 超級芯片是由兩個高性能的 Blackwell Tensor Core GPU及一個 Grace CPU 構成，使用英偉達NVLink?-C2C 互連技術，將這兩塊 GPU 提供了每秒 900 千兆字節(jié)（GB/s）的雙向帶寬，并使用NVIDIA 高帶寬接口（NV-HBI）進行連接和統(tǒng)一，從而提供了一個完全協(xié)調一致、統(tǒng)一的 GPU。下表5-2給出了GB200 Grace Blackwell 超級芯片的技術參數(shù)。

表 5-2：GB200 Grace Blackwell 超級芯片的技術參數(shù)

3、GB200 NVL72集群

英偉達 GB200 NVL72 集群采用機架級設計，將 36 個 GB200 超級芯片（36 個 Grace CPU 和 72 個 Blackwell GPU）連接在一起。GB200 Grace Blackwell 超級芯片是 NVIDIA GB200 NVL72 的關鍵組件。GB200 NVL72 是一款液冷式、機架級的 72-GPU NVLink 域，能夠作為一個巨大的 GPU 來使用，其實時萬億參數(shù)大語言模型（LLM）推理速度比上一代（即HGX H100）快 30 倍。下表5-3給出了GB200 NVL72集群的系統(tǒng)技術參數(shù)。GB200 NVL72 引入了前沿技術和第二代 Transformer 引擎，從而支持 FP4 AI。這一進步得益于新一代Tensor Core 5.0，它引入了新的微縮放格式，實現(xiàn)了高精度和更高的吞吐量。

表 5-3：GB200 NVL72集群的系統(tǒng)技術參數(shù)

4、HGX B200 和 HGX B100

英偉達的 Blackwell HGX B200 和 HGX B100 都具備同樣具有開創(chuàng)性的革新成果，適用于生成式AI、數(shù)據(jù)分析以及HPC領域，并且將 HGX 擴展至包含 Blackwell GPU 的產品系列中。下表5-4給出了HGX B200 和 HGX B100的系統(tǒng)技術參數(shù)。

表 5-4：HGX B200 和 HGX B100的系統(tǒng)技術參數(shù)

HGX B200：基于8核 Blackwell GPU 基板的 Blackwell x86 平臺，提供 144 萬億次浮點運算AI性能。HGX B200 在 x86 擴展平臺和基礎設施方面實現(xiàn)了最佳性能（比 HGX H100 高 15 倍）和總體擁有成本（比 HGX H100 高 12 倍）。每個 GPU 都可配置為最高 1000 瓦特功耗。

HGX B100：基于8核 Blackwell GPU 基板的 Blackwell x86 平臺，提供 112 萬億次浮點運算AI性能。HGX B100 是一款專為實現(xiàn)最快部署時間而設計的頂級加速型 x86 擴展平臺，與現(xiàn)有的 HGX H100 基礎設施兼容，可實現(xiàn)即插即用替換。每個 GPU 的功耗最高可達 700 瓦。

欲進一步了解人工智能（AI）系統(tǒng)介紹的請進入。

附錄

本文的所有附表與附圖2025-03-03

附件

NVIDIA H100 型GPU技術性能介紹

1.81MB

NVIDIA Blackwell架構的技術性能介紹

1.77MB

国产不卡在线观看视频_日本高清久久_天天操天天干天天摸_一区二区三区视频在线

相關英偉達（NVIDIA）的數(shù)據(jù)中心用GPU（Tensor Core）技術參數(shù)