熱烈慶祝NVIDIA發(fā)布勁爆AI核彈!
在NVIDIA GTC 2020大會(huì)上,黃仁勛終于揭開了英偉達(dá)最高機(jī)密,親自在線發(fā)布全球最大7nm處理器、首款安培架構(gòu)GPU,號(hào)稱是8代GPU史上最大性能飛躍的A100!包含超過540億個(gè)晶體管,整體性能比前一代產(chǎn)品直接提高了20倍,AI訓(xùn)練和推理能力都均有提高。
△被網(wǎng)友調(diào)侃準(zhǔn)備展示“刀法”的黃仁勛
第一次,在自家的廚房里,黃仁勛開始了GTC 2020的演講。鑒于此前英偉達(dá)的顯卡造型多被吐槽為煤氣灶,所以黃仁勛干脆直接在廚房中從烤箱里端出來了“預(yù)熱”好的產(chǎn)品。從一個(gè)全新GPU架構(gòu)開始,到全新GPU、全新AI系統(tǒng)、全新AI集群、全新邊緣AI產(chǎn)品……每個(gè)新品的性能都非常兇殘,每秒千萬億次浮點(diǎn)運(yùn)算(PFLOPS)單位被反復(fù)提及!

實(shí)際上,英偉達(dá)的Ampere GPU其實(shí)一直是該公司的絕密之一,因此也在過去一年引發(fā)諸多猜測。從黃仁勛的首次(廚房)線上直播帶貨來看,以Ampere(電流之父安培)為名,英偉達(dá)的新一代 GPU 架構(gòu)可謂火力全開。
「A100 是迄今為止人類制造出的最大7納米制程芯片,」黃仁勛說道。A100 采用目前最先進(jìn)的臺(tái)積電7 納米工藝,擁有540億個(gè)晶體管,它是一塊3D堆疊芯片,面積高達(dá)826mm^2,GPU的最大功率達(dá)到了400W。
這塊GPU上搭載了容量40G的三星HBM2顯存(比 DDR5 速度還快得多,就是很貴),第三代Tensor Core。同時(shí)它的并聯(lián)效率也有了巨大提升,其采用帶寬600GB/s的新版NVLink,幾乎達(dá)到了10倍PCIE互聯(lián)速度。
△相比Tesla V100和Tesla T4,A100 GPU在BERT訓(xùn)練和推理上的性能
還記得三年前推出、至今仍然業(yè)界領(lǐng)先的Volta架構(gòu)芯片 Tesla V100嗎?V100用300W功率提供了7.8TFLOPS的推斷算力,有 210億個(gè)晶體管,但A100的算力直接是前者的20倍。

全球最先進(jìn)AI系統(tǒng):
一個(gè)機(jī)架比肩整個(gè)AI數(shù)據(jù)中心
老黃亮出的第二個(gè)大招,是全球最先進(jìn)的AI系統(tǒng)——NVIDIA第三代AI系統(tǒng)DGX A100系統(tǒng),它被稱之為“推進(jìn)AI的終極工具”。
今天的人工智能任務(wù)包括模型的訓(xùn)練和推斷,在原有人工智能系統(tǒng) DGX-1 中,我們還在使用 GPU 負(fù)責(zé)訓(xùn)練、CPU 負(fù)責(zé)推斷的分工方式。而有了 A100 芯片加持,第三代 DGX 可以把訓(xùn)練與推斷全部交給 GPU 來完成,充分發(fā)揮先進(jìn)架構(gòu)的加速能力。
NVIDIA DGX A100系統(tǒng)將訓(xùn)練、推理、數(shù)據(jù)分析統(tǒng)一于一個(gè)平臺(tái),這是世界上第一臺(tái)單節(jié)點(diǎn)AI算力達(dá)到5 PFLOPS的服務(wù)器, 每個(gè)DGX A100系統(tǒng)內(nèi)部集成了8個(gè)NVIDIA A100 GPU和320GB內(nèi)存。借助A100多實(shí)例GPU特性,每個(gè)系統(tǒng)可配置1到56個(gè)獨(dú)立的GPU實(shí)例,從而交付靈活的、軟件定義的數(shù)據(jù)中心基礎(chǔ)設(shè)施。
現(xiàn)場老黃算了一筆賬,一個(gè)典型的AI數(shù)據(jù)中心有50個(gè)DGX-1系統(tǒng)用于AI訓(xùn)練,600個(gè)CPU系統(tǒng)用于AI推理,需用25個(gè)機(jī)架,消耗630kW功率,成本逾1100萬美元。這是什么概念呢?黃仁勛輕描淡寫到,大約是一個(gè)州的價(jià)格!
而完成同樣的工作,一個(gè)由5個(gè)DGX A100系統(tǒng)組成的機(jī)架,達(dá)到相同的性能要求,只用1個(gè)機(jī)架,消耗28kW功率,花費(fèi)約100萬美元。
「現(xiàn)在,你只需要十分之一的硬件成本,二十分之一電力消耗就能做同樣的事。The more you buy, the more you save !(越買越省,買到即賺到)」黃仁勛說道。
DGX A100系統(tǒng)起價(jià)19.9萬美元,已經(jīng)開始在全球范圍內(nèi)交付,現(xiàn)可從NVIDIA及其已認(rèn)證的合作伙伴處獲取。
第一批DGX A100系統(tǒng)于本月早些時(shí)候交付給美國阿貢國家實(shí)驗(yàn)室(Argonne National Laboratory),用于加速COVID-19研究。
此外,多家全球大公司、服務(wù)提供商和政府機(jī)構(gòu)已為DGX A100下了初始訂單。

安培架構(gòu)如此強(qiáng)大,英偉達(dá)這次也沒有讓數(shù)據(jù)中心以外的應(yīng)用方向多等,直接放出了同樣使用新架構(gòu)的端側(cè)芯片 Nvidia EGX A100,用于處理從物聯(lián)網(wǎng)設(shè)備(無論是照相機(jī)還是智能冰箱)中的傳感器輸入的數(shù)據(jù)。
EGX A100每秒最多可以接收200GB的數(shù)據(jù)。新架構(gòu)還允許在將芯片處理的來自IoT傳感器的數(shù)據(jù)直接發(fā)送到GPU之前進(jìn)行加密,從而使其更安全地應(yīng)用于醫(yī)療保健或零售業(yè)。
英偉達(dá)還介紹了旗下最新技術(shù)的一些應(yīng)用案例,其中包括4月底剛剛發(fā)布的小鵬汽車P7,以及寶馬集團(tuán)采用英偉達(dá)解決方案全面提升工廠物流管理水平的例子。小鵬P7的XPILOT 3.0是國內(nèi)首個(gè)搭載英偉達(dá)Xavier計(jì)算平臺(tái)的自動(dòng)駕駛量產(chǎn)方案,而且還搭載了兩套。

在GTC媒體采訪環(huán)節(jié)中,黃仁勛尤其強(qiáng)調(diào)了亞洲數(shù)據(jù)中心市場的重要性,“目前,亞洲是世界上對(duì)數(shù)據(jù)中心需求最大的地區(qū)。PC 革命、企業(yè)運(yùn)算都發(fā)源于美國,美國也曾受益于企業(yè)運(yùn)算,美國趕上了所謂的時(shí)機(jī)。而云計(jì)算和移動(dòng)計(jì)算發(fā)源于亞洲,中國的云計(jì)算和移動(dòng)計(jì)算是非常先進(jìn)的。
例如中國有騰訊、阿里巴巴、美團(tuán)、抖音等這些大型企業(yè),上述不少中國公司正是中國算力基建中數(shù)據(jù)中心建設(shè)的主力軍。亞洲不僅是我們公司特別重視的地區(qū),更有許多我們重要的合作伙伴。我們希望能攜手幫助中國的科技公司以及我們自身實(shí)現(xiàn)云計(jì)算的價(jià)值?!?/span>
寬泛科技作為英特爾、英偉達(dá)等芯片及品牌廠商的合作伙伴,NVIDIA潛力AI公司加速計(jì)劃成員,攜手專注為人工智能提供硬件解決方案及相關(guān)服務(wù),已成為國內(nèi)過萬家企業(yè)、院校及研究機(jī)構(gòu)的信息化解決方案供應(yīng)商。
旗下Cloudhin?云軒支持Deep learning和高性能計(jì)算服務(wù)器定制,針對(duì)主要深度學(xué)習(xí)框架(如TensorFlow、Caffe 2、Theano或Torch)進(jìn)行了優(yōu)化和設(shè)置,在桌面上即可提供強(qiáng)大的深度學(xué)習(xí)功能。
WS4123深度學(xué)習(xí)工作站搭載第9代8核16線程Intel Core i9處理器,核芯迭代,動(dòng)力強(qiáng)勁。雙路Nvidia Tesla GPU,基于Volta架構(gòu),增加與深度學(xué)習(xí)高度相關(guān)的Tensor單元,單個(gè)GPU即可提供高達(dá)100個(gè)CPU的性能。強(qiáng)強(qiáng)聯(lián)合,輕松應(yīng)對(duì)如云計(jì)算、數(shù)據(jù)分析、后期制作、技術(shù)計(jì)算等多任務(wù)處理。
更多定制方案請(qǐng)聯(lián)系客服,我們將實(shí)時(shí)響應(yīng)您的定制需求,做您服務(wù)器的貼心管理者。