国产不卡在线观看视频_日本高清久久_天天操天天干天天摸_一区二区三区视频在线

歡迎來到通信人在線![用戶登錄] [免費注冊]

相關英偉達(NVIDIA)的數(shù)據(jù)中心用GPU(Tensor Core)技術參數(shù)

瀏覽:814  來源:通信人在線  日期:2025-03-19

英偉達(NVIDIA)數(shù)據(jù)中心用GPU是世界上采用最廣泛的加速計算解決方案,部署于較大超級計算中心和企業(yè)的數(shù)據(jù)中心。無論是希望解決深度學習(DL)和 人工智能(AI)、高性能計算(HPC)、圖形方面的業(yè)務問題,還是在數(shù)據(jù)中心或邊緣解決虛擬化問題,NVIDIA GPU 都能提供理想的解決方案。尤其是現(xiàn)在可以使用數(shù)量更少、功能更強大的服務器實現(xiàn)突破性的性能,同時更快地獲得解決并降低成本。

一、概述

我們知道,英偉達(NVIDIA)的圖形處理器(GPU,Graphic Processing Unit)在迭代時,陸續(xù)采用了不同的架構,在前期幾代架構中的處理核心均采用的是CUDA(計算統(tǒng)一設備架構)核心。從2017年發(fā)布的Volta(伏特)架構時,其處理核心開始采用了Tensor Core(稱為張量計算核心),在后續(xù)的歷代GPU架構更新時均采用了Tensor Core,且為Tensor Core的升級版本。下表1示出了英偉達采用Tensor CoreGPU不同架構情況,包括其關鍵特征和相應產品型號等。

1:英偉達Tensor Core  GPU的不同架構情況

由表可知,2017 年英偉達GPU提出的 Volta 架構,首次引入了Tensor Core ,用于執(zhí)行融合乘法加法(FMA)的方式來高效地處理計算任務,標志著第1 Tensor Core 核心的誕生。而后Tensor Core在英偉達GPU的后續(xù)Turing、Ampere、HopperBlackwell架構中均有配備,其中Blackwell架構中的Tensor Core已演進為第5Tensor Core。英偉達 Tensor Core 技術助力人工智能(AI)實現(xiàn)了大幅加速,將訓練時間從數(shù)周縮短到幾小時,顯著加快了推理速度。新的處理核心Tensor Core,可實現(xiàn)混合精度計算,并能根據(jù)精度的降低動態(tài)調整算力,在保持準確性的同時提高吞吐量;新一代 Tensor Core 擴大了這種加速的應用范圍,覆蓋到AI和高性能計算(HPC)領域的各種工作負載;Tensor Core 向所有工作負載提供了新功能,將一種革命性的新精度Tensor Float 32TF32)下的 AI 訓練速度加快 10 倍,并將 FP64 下的HPC速度加快 2.5 倍。相較于 CUDA Core,Tensor Core 能夠在每個時鐘周期內執(zhí)行更多的運算,特別是它可以高效地完成矩陣乘法和累加操作兩種操作,是深度學習(DL)中最頻繁和計算密集的任務之一。下述將對英偉達的采用Tensor Core核心算法的幾款GPU產品技術參數(shù)做一介紹,這些GPU產品主要部署用于數(shù)據(jù)中心場景。

二、Turing架構的T4GPUTensor Core 2.0

英偉達 T4 型企業(yè)級 GPU 為全球最受信賴的主流服務器提供強大動力,輕松融入標準數(shù)據(jù)中心架構。其低矮的外形設計,僅需 70 W功耗,由 NVIDIA Turing架構Tensor Core驅動,為包括機器學習、深度學習和虛擬桌面在內的眾多現(xiàn)代應用提供革命性的多精度性能加速。這款先進的 GPU 采用節(jié)能的 70 瓦、小型 PCle 外形規(guī)格封裝(下圖2-1),專為企業(yè)數(shù)據(jù)中心和云環(huán)境實現(xiàn)最大效用而優(yōu)化。下表2-1給出了T4 GPU的相關技術參數(shù);下表2-2給出了T4對于驅動數(shù)據(jù)中心加速的技術說明;下圖2-2展示了T4CPU相比的接口性能和訓練性能。

2-1T4 GPU的外形圖

2-1T4 GPU的相關技術參數(shù)

2-2T4 GPU對于驅動數(shù)據(jù)中心加速的說明

2-2T4 GPUCPU相比的接口性能和訓練性能

三、Ampere架構的A100GPUTensor Core 3.0

英偉達 A100 Tensor Core GPU 在各個規(guī)模上都能實現(xiàn)前所未有的加速,為AI、數(shù)據(jù)分析和高性能計算(HPC)應用提供全球性能最強勁的彈性數(shù)據(jù)中心動力支持。作為英偉達數(shù)據(jù)中心平臺的核心引擎,A100 比之前一代的架構 Volta性能提升了多達 20 倍。通過多實例(MIG,Multi-Instance GPU)技術,A100 能夠高效地進行擴展或被劃分為七個獨立的 GPU 實例,為彈性數(shù)據(jù)中心提供一個統(tǒng)一的平臺,使其能夠動態(tài)適應不斷變化的工作負載需求。

英偉達 A100 Tensor Core 技術支持廣泛的數(shù)學精度,為每項工作負載提供一個單獨的加速器。最新一代的 A100 80GB 版本將 GPU 內存翻倍,并推出了2TB/s 的全球最快內存帶寬,從而加快了最大模型和最龐大數(shù)據(jù)集的解決方案時間。A100 是完整的英偉達數(shù)據(jù)中心解決方案的一部分,該解決方案涵蓋了硬件、網(wǎng)絡、軟件、庫以及來自 NVIDIA NGC 目錄的優(yōu)化的AI模型和應用程序的構建模塊。它代表著面向數(shù)據(jù)中心的最強大的端到端AIHPC平臺,使研究人員能夠交付真實世界的成果,并大規(guī)模地將解決方案部署到生產環(huán)境中。下表3-1給出了A100 80GB(包括PCIeSXM4兩種形狀因子)的相關技術參數(shù);下表3-2描述了A100 GPU的幾點突破性創(chuàng)新;下圖3展示了A100 GPU跨工作負載的卓越性能。

3-1A100 80GB GPU(包括PCIeSXM4兩種形狀因子)的相關技術參數(shù)

3-2:相關A100 GPU的突破性創(chuàng)新描述

3A100 GPU跨工作負載的卓越性能展示

A100 Tensor Core GPU 是英偉達數(shù)據(jù)中心平臺的旗艦產品,專為深度學習、HPC和數(shù)據(jù)分析而設計。該平臺可加速超過 2000 個應用程序,包括每一個主要的深度學習框架。A100 可以在從臺式機到服務器再到云服務等各種設備上使用,既帶來了顯著的性能提升,也提供了節(jié)省成本的機會。

四、Hopper架構的H100H200GPUTensor Core 4.0

1、H100 Tensor Core GPU

H100 Tensor Core GPU 是英偉達的第9代數(shù)據(jù)中心用 GPU,旨在為大規(guī)模AIHPC提供比上一代 A100 GPU 高一個數(shù)量級的性能飛躍。H100 繼承了 A100 的主要設計重點,以改善 AI HPC 工作負載的強大擴展,并顯著提高架構效率。下表4-1給出了H100(包括NVLSXM兩種形狀因子)的相關技術參數(shù);其它性能詳見下附件4

4-1H100 GPU包括NVLSXM兩種形狀因子)的相關技術參數(shù)

附件 4H100 GPU更多性能介紹

欲具體了解H100 Tensor Core GPU詳解的請進入

2H200 Tensor Core GPU

H200 Tensor Core GPU同樣基于強大的Hopper 架構,針對更大的 AI HPC 工作負載進行了增強。下表4-2-1給出了H200(包括PCIeSXM兩種形狀因子)的相關技術參數(shù),與H100相比,兩者最主要的差異表現(xiàn)在GPU內存GPU內存帶寬兩個參數(shù)上。下表4-2-2展示了H200突出性能的表現(xiàn)。

4-2-1H200 GPU(包括NVLSXM兩種形狀因子)的相關技術參數(shù)

4-2-2H200 GPU突出性能描述

五、Blackwell架構的GPUTensor Core 5.0

1、概述

20243月英偉達推出了新一代Blackwell架構的GPU,該架構以美國數(shù)學家和統(tǒng)計學家大衛(wèi)·布萊克威爾(David H. Blackwell)的名字來命名。Blackwell架構的GPU引入了第5Tensor Core(首次添加了對FP4浮點運算精度的支持)、第2Transformer引擎、第5NVLink NVLink Switch等技術,稱為是開創(chuàng)了推動生成式AI與加速計算的新時代(聲稱可以支持具有數(shù)萬億參數(shù)的模型)。Blackwell 架構GPU是全球最大的 GPU,專為處理數(shù)據(jù)中心規(guī)模的生成式AI工作流程而打造,其能耗效率比之前的Hopper 架構GPU 產品系列高出多達 25 倍。Blackwell架構的GPU包括新一代超級芯片 Grace Blackwell GB200 以及新一代高性能 HGX 系統(tǒng) HGX B200 HGX B100。下附件5Blackwell架構的詳細技術介紹。

附件 5NVIDIA Blackwell架構的詳細技術介紹

2、GB200 超級芯片

GB200 Grace Blackwell 超級芯片是由兩個高性能的 Blackwell Tensor Core GPU及一個 Grace CPU 構成,使用英偉達NVLink?-C2C 互連技術,將這兩塊 GPU 提供了每秒 900 千兆字節(jié)(GB/s)的雙向帶寬,并使用NVIDIA 高帶寬接口(NV-HBI)進行連接和統(tǒng)一,從而提供了一個完全協(xié)調一致、統(tǒng)一的 GPU。下表5-2給出了GB200 Grace Blackwell 超級芯片的技術參數(shù)。

5-2GB200 Grace Blackwell 超級芯片的技術參數(shù)

3GB200 NVL72集群

英偉達 GB200 NVL72 集群采用機架級設計,將 36 GB200 超級芯片(36 Grace CPU 72 Blackwell GPU)連接在一起。GB200 Grace Blackwell 超級芯片是 NVIDIA GB200 NVL72 的關鍵組件。GB200 NVL72 是一款液冷式、機架級的 72-GPU NVLink 域,能夠作為一個巨大的 GPU 來使用,其實時萬億參數(shù)大語言模型(LLM)推理速度比上一代(即HGX H100)快 30 倍。下表5-3給出了GB200 NVL72集群的系統(tǒng)技術參數(shù)。GB200 NVL72 引入了前沿技術和第二代 Transformer 引擎,從而支持 FP4 AI。這一進步得益于新一代Tensor Core 5.0,它引入了新的微縮放格式,實現(xiàn)了高精度和更高的吞吐量。

5-3GB200 NVL72集群的系統(tǒng)技術參數(shù)

4、HGX B200 HGX B100

英偉達的 Blackwell HGX B200 HGX B100 都具備同樣具有開創(chuàng)性的革新成果,適用于生成式AI、數(shù)據(jù)分析以及HPC領域,并且將 HGX 擴展至包含 Blackwell GPU 的產品系列中。下表5-4給出了HGX B200 HGX B100的系統(tǒng)技術參數(shù)。

5-4HGX B200 HGX B100的系統(tǒng)技術參數(shù)

HGX B200基于8 Blackwell GPU 基板的 Blackwell x86 平臺,提供 144 萬億次浮點運算AI性能。HGX B200 x86 擴展平臺和基礎設施方面實現(xiàn)了最佳性能(比 HGX H100 15 倍)和總體擁有成本(比 HGX H100 12 倍)。每個 GPU 都可配置為最高 1000 瓦特功耗。

HGX B100基于8 Blackwell GPU 基板的 Blackwell x86 平臺,提供 112 萬億次浮點運算AI性能。HGX B100 是一款專為實現(xiàn)最快部署時間而設計的頂級加速型 x86 擴展平臺,與現(xiàn)有的 HGX H100 基礎設施兼容,可實現(xiàn)即插即用替換。每個 GPU 的功耗最高可達 700 瓦。

欲進一步了解人工智能(AI)系統(tǒng)介紹的請進入。

百度云服務器
© 2004-2025 通信人在線 版權所有 備案號:粵ICP備06113876號 網(wǎng)站技術:做網(wǎng)站