RTX 30系列性能≥2倍圖靈GPU!AI算力前瞻,性價比超泰坦
「無論性能還是能效,安培架構(gòu)GPU都是圖靈的兩倍,」黃仁勛于今日凌晨的RTX 30系列線上發(fā)布會坦言?!笍募軜?gòu)、定制流程設計、電路、邏輯、封裝、series IO、顯存、供電、散熱、軟件和算法…… 我們在所有層面壓榨GPU的性能,最終實現(xiàn)了世界領(lǐng)先水平?!?/span>
今天,距離英偉達發(fā)布世界首款GPU、也是第一款以Geforce為名的顯示核心——Geforce 256已經(jīng)21年了。21年來,GPU徹底改變了現(xiàn)代計算機圖形學。如今,采用NVIDIA Ampere架構(gòu)的GeForce RTX 30系列GPU再次走出邁向未來的一大步。
前所未有的性能飛躍
最強旗艦級GPU問世
NVIDIA最先進的技術(shù)和二十多年的圖形研發(fā)成果,使NVIDIA RTX集可編程著色、光線追蹤和人工智能于一身,為全新GeForce RTX 30系列GPU和NVIDIA Ampere架構(gòu)帶來驚人性能,將助力開發(fā)者打造新世界。
技術(shù)突破詳情:
全新的流式多處理器:全球速度最快、效率最高的GPU部件,其處理能力為30 Shader-TFLOP/s, 并且FP32吞吐量是上一代產(chǎn)品的2倍。
第二代RT Cores:全新專用RT Core計算能力為58 RT-TFLOPS,是上一代的2倍,同時支持光線追蹤、著色與計算。
第三代Tensor Cores:全新專用Tensor Core吞吐量是上一代的2倍,能夠更快速、更高效地運行AI驅(qū)動的技術(shù),如NVIDIA DLSS,算力高達238 Tensor-TFLOPS。
NVIDIA RTX IO:實現(xiàn)基于GPU的快速加載和游戲資源解壓,與硬盤和傳統(tǒng)存儲API相比,輸入/輸出性能最高可加速100倍。結(jié)合微軟全新Windows版 DirectStorage API,RTX IO將幾十個CPU核心的工作轉(zhuǎn)移到RTX GPU上,提高幀率,并實現(xiàn)近乎瞬時的游戲加載。
全球最快顯存:NVIDIA與鎂光合作,為RTX 30系列打造全球最快的GDDR6X顯存,為顯卡應用提供接近1TB/s的數(shù)據(jù)傳輸速度,最大限度地提升游戲和應用性能。
新一代工藝技術(shù):來自三星的全新8nm NVIDIA定制工藝,可實現(xiàn)更高的晶體管密度和更高的效率。
總體來說,GeForce RTX 30系列確實占據(jù)了GPU界的多項「第一」:首款有著24GB GDDR6X顯存的消費級圖形卡;首批支持 HDMI 2.1的GPU,一塊顯卡即可實現(xiàn)4k高刷新率或8k游戲;首批支持AV1編譯碼器的獨立GPU,實現(xiàn)以更少的帶寬觀看更高分辨率的視頻流。
RTX 30系列具體參數(shù)
GeForce RTX 3080:建議零售價¥5,499起,預計9月17日起售。GeForce RTX 3080內(nèi)建8704 個CUDA,比GeForce RTX 2080快2倍。GeForce RTX 3080 擁有10GB的全新高速GDDR6X顯存,運行速度高達19Gbps,在4K分辨率下帶來每秒60幀穩(wěn)定的游戲體驗。
GeForce RTX 3070:建議零售價¥3,899起,預計9月24日起售。GeForce RTX 3070 售價僅為GeForce RTX 2080 Ti的一半不到,比GeForce RTX 2070快60%。它配備8GB GDDR6顯存,有5888 個CUDA,相比之下,2080Ti的CUDA核心是4300個,所以3070性能超過 2080Ti,看來是沒什么問題的。
GeForce RTX 3090:建議零售價¥11,999起,預計10月起售。GeForce RTX 3090 被稱為 "性能猛獸"。它配備有一個三槽雙軸,流線型設計的散熱器,比TITAN RTX安靜10倍,并且極致冷靜,可降低GPU保持溫度最高達30℃。它的24GB GDDR6X顯存可以應對最具挑戰(zhàn)性的人工智能算法,并滿足大規(guī)模內(nèi)容創(chuàng)作的需求。GeForce RTX 3090比TITAN RTX快50%,在8K分辨率下讓玩家能在眾多頂級游戲中達到60fps。
AI算力性能前瞻
RTX 30系列采用的都是今年 5 月剛剛推出的最新7納米制程架構(gòu)安培(Ampere),其首先被 Tesla A100所采用。RTX 3090的24G內(nèi)存和1399美元的價格或許能夠讓很多對深度學習有需求的用戶省下買泰坦的預算。
針對稀疏矩陣的加速可以讓安培架構(gòu)GPU處理AI任務的效率提高一倍
安培架構(gòu)還有一些針對AI計算特有的機制,其中的三代Tensor Core會對稀疏張量運算進行特別加速:執(zhí)行速度提高一倍,也支持TF32、FP16、BFLOAT16、INT8和INT4等精度的加速—系統(tǒng)會自動將數(shù)據(jù)轉(zhuǎn)為TF32格式加速運算,現(xiàn)在你無需修改任何代碼量化了,直接自動訓練即可。
不過由于消費級和專業(yè)級芯片的結(jié)構(gòu)不盡相同,我們不能把 Ampere A100 芯片的AI訓練性能簡單地直接拿來作為參考,還需要等待官方公布,以及最終實測的數(shù)據(jù)。
黃仁勛表示,GeForce RTX 30 系列顯卡具備三項基礎處理技術(shù):30TFLOPS 算力的可編程著色器(Turing架構(gòu)是11),雙倍吞吐量,用于光追的RT Core(58 RT TFLOPS,Turing架構(gòu)是34),以及可自動忽略次要DNN權(quán)重的Tensor Core(238Tensor TFLOPS,舊版為 89)。
三個方面,性能相比前一代都是翻倍。
寬泛科技攜手NVIDIA
寬泛科技作為英特爾、英偉達等芯片及品牌廠商的堅實合作伙伴,NVIDIA潛力AI公司加速計劃成員,攜手專注為人工智能提供硬件解決方案及相關(guān)服務,已成為國內(nèi)過萬家企業(yè)、院校及研究機構(gòu)的信息化解決方案供應商。
旗下Cloudhin?云軒支持Deep learning和高性能計算服務器定制,針對主要深度學習框架(如TensorFlow、Caffe 2、Theano或Torch)進行了優(yōu)化和設置,為計算系統(tǒng)提供強大的深度學習功能。
NVIDIA Tesla A100(PCIE版)、RTX 30系列深度學習服務器現(xiàn)已開啟預約定制服務,A100由NVIDIA Ampere優(yōu)化軟件提供支持:包括CUDA 11;50多個CUDA-X?庫的新版本;多模式對話式AI服務框架NVIDIA Jarvis;深度推薦應用框架NVIDIA Merlin;RAPIDS?開源數(shù)據(jù)科學軟件庫套件;NVIDIA HPC SDK,其中內(nèi)含編譯器、庫和軟件工具,可最大程度地提高開發(fā)者的工作效率以及HPC應用的性能和可移植性。
憑借這些功能強大的軟件工具,開發(fā)者們能夠構(gòu)建并加速HPC、基因組學、5G、數(shù)據(jù)科學、機器人學、深度學習等領(lǐng)域的應用。
專業(yè)勤修,銳意進取。云軒技術(shù)工程師畢業(yè)于NVIDIA深度學習研究所,豐富經(jīng)驗,值得信賴。更多定制方案請聯(lián)系客服,我們將實時響應您的定制需求。
如果您有合作需求或?qū)氋F建議,歡迎來信。
郵箱:hezuo@kuanfans.com
合作熱線:400-610-1360轉(zhuǎn)375899