RTX3070明日上市,AI訓練性能前瞻、官方基準測試公布
NVIDIA RTX 3070公版GPU的評測已于昨晚解禁,根據(jù)外媒的前瞻測試結(jié)果,RTX 3070與上一代的RTX 2080 Ti相比略有優(yōu)勢。29日,RTX 3070就將正式發(fā)售,對比3080/3090,顯然其價格更適配主流人群所需。
1080P、4K幀率基準測試
外媒tom'sHARDWARE分別在1080p、2K和4K分辨率下測試了RTX 3070的平均幀率。在三種不同分辨率下,RTX 3070均與RTX 2080 Ti 幀率持平,OC模式下則小超2080 Ti。
其實評測成績不能單看游戲性能,NVIDIA早就給出過RTX 3070的官方性能成績,測試環(huán)境包括渲染軟件、基準軟件等,綜合看下來,大概領(lǐng)先RTX 2080 Ti 8%左右。
雖然名為GeForce RTX 3070,但完全擁有挑戰(zhàn)80級顯卡的芯。媲美上一代卡皇GeForce RTX 2080 Ti,但售價僅需3899元,這一點性能提升就已經(jīng)很超值了。
AI訓練性能前瞻
RTX 3070的GA104核心174億個晶體管,擁有5888個Cuda核心,并且包含第二代RT Core和第三代Tensor Core。RTX 3070不僅擁有更多的晶體管,還優(yōu)化了負責實時光線追蹤加速的RT Core和深度學習超采樣DLSS的Tensor Core,導致專項性能有2至8倍的提升。
通常來說,深度學習對GPU顯存的要求如下:
研究 SOTA 模型:≥11GB
一般的研究:8GB
Kaggle 及其它競賽:4 - 8GB
公司業(yè)務(wù):8GB 部署及原型測試,≥11GB 用于訓練
對應到RTX 30系列顯卡來說,可將3070(8GB顯存)/3080(10GB顯存)/3090(24GB顯存)對號入座。
Tensor Core可以極大地加快矩陣乘法,深度學習優(yōu)先使用 Tensor Core進行訓練。由于RTX 架構(gòu)的Tensor Core可以半精度(16bit)進行訓練,顯存需求減半,所以相比GTX顯卡在同樣的顯存下可以訓練大一倍的模型,因此除非預算極度有限,應該優(yōu)先考慮RTX 20/30系列顯卡。一張顯卡有多少Tensor Core決定了這張顯卡的算力,而Tensor FLOPS則量化了顯卡的算力。
芯片型號 | Tensor Core | Tensor FLOPS (萬億) | 顯存(GB) | TDP (W) | MSRP (USD) |
---|---|---|---|---|---|
2060 | 240 | 51.6 | 6 | 160 | 349 |
2060 super | 272 | 57.4 | 8 | 175 | 399 |
2070 super | 320 | 72.5 | 8 | 215 | 499 |
2080 super | 384 | 89.2 | 8 | 250 | 699 |
2080 Ti | 544 | 107.6 | 11 | 250 | 999 |
Titan RTX | 576 | 130.5 | 24 | 280 | 2499 |
3070 | 184 | 163 | 8 | 220 | 499 |
3080 | 272 | 238 | 10 | 320 | 699 |
3090 | 328 | 285 | 24 | 350 | 1499 |
▲左右滑動表格,查看更多
雖然30系列的Tensor Core數(shù)量比20系列少,但官方稱30系列的Tensor Core的性能是20系列的4倍,所以(如果官方宣傳為真的話)3070的實際算力要強于2080 Ti。
四路液冷RTX30系列上新
穩(wěn)固高效,不受降頻困擾
寬泛科技旗下品牌Cloudhin?云軒專業(yè)售前工程師可為您量身定制深度學習AI服務(wù)器/工作站,并可預裝ubuntu、centos、redhat、TensorFlow、cuda、cudnn等軟件環(huán)境,讓您收到即用,快速開展實驗項目。目前,我們已通過自主設(shè)計,有效解決RTX 30系列GPU多路并行計算散熱以及背部GDDR6X顯存高溫問題,4路RTX 3080/3090 GPU工作站歡迎垂詢。
專業(yè)勤修,銳意進取。Cloudhin云軒技術(shù)工程師畢業(yè)于NVIDIA深度學習研究所,豐富經(jīng)驗,值得信賴。更多定制方案請聯(lián)系客服,我們將實時響應您的定制需求。
如果您有合作需求或?qū)氋F建議,歡迎來信。
郵箱:hezuo@kuanfans.com
合作熱線:021-5415 5559