2017-04-06 18:58:17
作者:z
在Google發(fā)布TPU一年后,這款機(jī)器學(xué)習(xí)定制芯片的神秘面紗終于被揭開了。昨日,Google資深硬件工程師NormanJouppi刊文表示,Google的專用機(jī)器學(xué)習(xí)芯片TPU處理速度要比GPU和CPU快15-30倍(和TPU對比的是IntelHaswellCPU以及NVIDIATeslaK80GPU),而在能效上,TPU更是提升了30到80倍。從這次發(fā)布的測試結(jié)果來看,T
在Google發(fā)布TPU一年后,這款機(jī)器學(xué)習(xí)定制芯片的神秘面紗終于被揭開了。
昨日,Google資深硬件工程師Norman Jouppi刊文表示,Google的專用機(jī)器學(xué)習(xí)芯片TPU處理速度要比GPU和CPU快15-30倍(和TPU對比的是IntelHaswell CPU以及NVIDIA Tesla K80 GPU),而在能效上,TPU更是提升了30到80倍。
從這次發(fā)布的測試結(jié)果來看,TPU似乎已經(jīng)超出了業(yè)界的預(yù)期,但是藏在這一芯片背后的內(nèi)部架構(gòu)究竟有什么秘密呢?我們從Jouppi此前發(fā)布的論文當(dāng)中,可以找到答案。
據(jù)雷鋒網(wǎng)了解,早在四年前,Google內(nèi)部就開始使用消耗大量計(jì)算資源的深度學(xué)習(xí)模型。這對CPU、GPU組合而言是一個巨大的挑戰(zhàn),Google深知如果基于現(xiàn)有硬件,他們將不得不將數(shù)據(jù)中心數(shù)量翻一番來支持這些復(fù)雜的計(jì)算任務(wù)。
所以Google開始研發(fā)一種新的架構(gòu),Jouppi稱之為“下一個平臺”。Jouppi曾是MIPS處理器的首席架構(gòu)師之一,他開創(chuàng)了內(nèi)存系統(tǒng)中的新技術(shù)。三年前他加入Google的時候,公司上下正在用CPU、GPU混合架構(gòu)上來進(jìn)行深度學(xué)習(xí)的訓(xùn)練。
Jouppi表示,Google的硬件工程團(tuán)隊(duì)在轉(zhuǎn)向定制ASIC之前,早期還曾用FPGA來解決廉價、高效和高性能推理的問題。但他指出,F(xiàn)PGA的性能和每瓦性能相比ASIC都有很大的差距。
他解釋說,TPU可以像CPU或GPU一樣可編程,它可以在不同的網(wǎng)絡(luò)(卷積神經(jīng)網(wǎng)絡(luò),LSTM模型和大規(guī)模完全連接的模型)上執(zhí)行CISC指令,而不是為某個專用的神經(jīng)網(wǎng)絡(luò)模型設(shè)計(jì)的。
一言以蔽之,TPU兼具了CPU和ASIC的有點(diǎn),它不僅是可編程的,而且比CPU、GPU和FPGA擁有更高的效率和更低的能耗。
TPU的內(nèi)部架構(gòu)
該圖顯示了TPU上的內(nèi)部結(jié)構(gòu),除了外掛的DDR3內(nèi)存,左側(cè)是主機(jī)界面。指令從主機(jī)發(fā)送到隊(duì)列中(沒有循環(huán))。這些激活控制邏輯可以根據(jù)指令多次運(yùn)行相同的指令。
TPU并非一款復(fù)雜的硬件,它看起來像是雷達(dá)應(yīng)用的信號處理引擎,而不是標(biāo)準(zhǔn)的X86衍生架構(gòu)。
Jouppi說,盡管它有眾多的矩陣乘法單元,但是它比GPU更精于浮點(diǎn)單元的協(xié)處理。另外,需要注意的是,TPU沒有任何存儲的程序,它可以直接從主機(jī)發(fā)送指令。
TPU上的DRAM作為一個單元并行運(yùn)行,因?yàn)樾枰@取更多的權(quán)重以饋送到矩陣乘法單元(算下來,吞吐量達(dá)到了64,000)。Jouppi并沒有提到是他們是如何縮放并行結(jié)構(gòu)的,但他表示,使用的主機(jī)軟件加速器都將成為瓶頸。
從第一張圖片可以看出,TPU有兩個內(nèi)存單元,以及一個用于模型中參數(shù)的外部DDR3 DRAM。參數(shù)進(jìn)來后,可從頂部加載到矩陣乘法單元中。同時,可以從左邊加載激活(或從“神經(jīng)元”輸出)。那些以收縮的方式進(jìn)入矩陣單元以產(chǎn)生矩陣乘法,它可以在每個周期中進(jìn)行64,000次累加。
毋庸置疑,Google可能使用了一些新的技巧和技術(shù)來加快TPU的性能和效率。例如,使用高帶寬內(nèi)存或混合3D內(nèi)存。然而,Google的問題在于保持分布式硬件的一致性。
TPU對比Haswell處理器
在和Intel“Haswell”Xeon E5 v3處理器來的對比中,我們可以看到,TPU各方面的表現(xiàn)都要強(qiáng)于前者。
在Google的測試中,使用64位浮點(diǎn)數(shù)學(xué)運(yùn)算器的18核心運(yùn)行在2.3 GHz的Haswell Xeon E5-2699 v3處理器能夠處理每秒1.3 TOPS的運(yùn)算,并提供51GB/秒的內(nèi)存帶寬;Haswell芯片功耗為145瓦,其系統(tǒng)(擁有256 GB內(nèi)存)滿載時消耗455瓦特。
相比之下,TPU使用8位整數(shù)數(shù)學(xué)運(yùn)算器,擁有256GB的主機(jī)內(nèi)存以及32GB的內(nèi)存,能夠?qū)崿F(xiàn)34GB/秒的內(nèi)存帶寬,處理速度高達(dá)92 TOPS ,這比Haswell提升了71倍,此外,TPU服務(wù)器的熱功率只有384瓦。
除此之外,Google還測試了CPU、GPU和TPU處理不同批量大小的每秒推斷的吞吐量。
如上圖所示,在小批量任務(wù)中(16),Haswell CPU的響應(yīng)時間接近7毫秒,其每秒提供5482次推斷(IPS),其可以實(shí)現(xiàn)的比較大批量任務(wù)(64)每秒則可以完成13194次推斷,但其響應(yīng)時間為21.3毫秒。相比之下,TPU可以做到批量大小為200,而響應(yīng)時間低于7毫秒,并提供225000個IPS運(yùn)行推理基準(zhǔn),是其峰值性能的80%,當(dāng)批量大小為250,響應(yīng)時間為10毫秒。
不過需要注意的是,Google所測試的Haswell Xeon處理器似乎也不能完全說明問題,IntelBroadwell Xeon E5 v4處理器和比較新的“Skylake”Xeon E5,每核心時鐘(IPC)的指令比這款處理器提升了約5%。在Skylake是28核,而Haswell為18核,所以Xeon的總體吞吐量可能會上升80%。當(dāng)然,這樣的提升與TPU相比仍有差距。
比較后雷鋒網(wǎng)需要強(qiáng)調(diào)的是,TPU是一個推理芯片,它并非是要取代GPU,可以確定的是,TPU與CPU一起使用對訓(xùn)練分析更加有益,但對于CPU制造商而言,如何研發(fā)出像ASIC一樣兼顧性能和能效的芯片是現(xiàn)在以及未來要做的。
Jouppi表示GoogleTPU已經(jīng)開始出貨,而Intel這些芯片商也將面臨更大的挑戰(zhàn)。
本文推薦比CPU/GPU快30倍!Google TPU機(jī)器學(xué)習(xí)芯片揭秘僅代表作者觀點(diǎn),不代表本網(wǎng)站立場。本站對作者上傳的所有內(nèi)容將盡可能審核來源及出處,但對內(nèi)容不作任何保證或承諾。請讀者僅作參考并自行核實(shí)其真實(shí)性及合法性。如您發(fā)現(xiàn)圖文視頻內(nèi)容來源標(biāo)注有誤或侵犯了您的權(quán)益請告知,本站將及時予以修改或刪除。
猜您喜歡
最新推薦
男人吃什么藥物可以提高性功能變得更持久,性生活和諧離不開TA
2025-07-01
2025-06-30
2025-06-10
2025-05-30
2025-05-16
2025-05-16
2025-05-07
相關(guān)新聞
在Google發(fā)布TPU一年后,這款機(jī)器學(xué)習(xí)定制芯片的神秘面紗終于被揭開了。昨日,Google資深硬件工程師NormanJouppi刊文表示,Google的專用機(jī)器學(xué)習(xí)芯片TPU處理速度要比GPU和CPU快15-30倍(和TPU對比的是IntelHaswellCPU以及NVIDIATeslaK80GPU),而在能效上,TPU更是提升了30到80倍。從這次發(fā)布的測試結(jié)果來看,T
蘋果iPad2:相對于一代產(chǎn)品,二代產(chǎn)品有了很多項(xiàng)眾望所歸的升級。無論是重量的減輕還是體積的減小都體現(xiàn)了蘋果設(shè)計(jì)師出色的工藝設(shè)計(jì)水準(zhǔn)。攝像頭的加入也使得iPad終于得以加入FaceTime家族。推薦給那些對iPad期待許久的蘋果fans。
201810大半導(dǎo)體芯片、顯卡芯片、CPU芯片品牌排行榜,其中10大芯片品牌排行榜中,有6家企業(yè)來自美國,也體現(xiàn)了中國芯片與美國之間的差距,加油中國!
6月7日消息,關(guān)于蘋果iPhone7的傳聞不少,但大多也是集中在外觀變化和配置升級方面,很難讓人有“蘋果再一次改變世界”的驚嘆,而我們很是期待蘋果能夠加入些黑科技什么的。很應(yīng)景地,國外有分析師就帶來了這么一則猛料WiGig,蘋果iPhone7可能支持全新的WiGig無線技術(shù)。報(bào)道稱,芯片制造商博通公司CEOHockTan曾在財(cái)報(bào)電話會議上表示,公司準(zhǔn)備好了接受下一代iPhone訂單
它比GoogleGlass佩戴更舒服,也不會擋住正常的視線。GoogleGlass曾風(fēng)光地出現(xiàn),不過由于各種因素,似乎并沒有得到太大的認(rèn)可。但是,GoogleGlass的出現(xiàn)開辟了一條全新的智能設(shè)備道路,那就是智能頭戴設(shè)備。近日,設(shè)計(jì)師JaeyongLee設(shè)計(jì)了一款新型概念產(chǎn)品,他沒有從眼鏡入手,而是選擇了耳機(jī),這是一款智能耳機(jī)。它比GoogleGlass佩戴更舒服,也不會擋
“近一段時間網(wǎng)傳“高考取消英語”引發(fā)了強(qiáng)烈的社會熱議!”2017年英語退出高考?近日,有關(guān)“中國教育學(xué)會原會長顧明遠(yuǎn)稱高考改革方案2017年實(shí)施,英語將退出統(tǒng)考”的報(bào)道成為關(guān)注熱點(diǎn)。對此,教育部發(fā)言人稱,考試招生制度改革,事關(guān)千萬學(xué)子和廣大群眾切身利益。目前,教育部正在前期深入調(diào)研的基礎(chǔ)上,緊鑼密鼓地研究、制定和完善考試招生制度改革方案。方案力求充分考慮高考改革的復(fù)雜性、周期性和長期性,會
根據(jù)Videocards的有關(guān)消息,AMD今天公布了Vega系列GPU的芯片結(jié)構(gòu)圖,以透視方式顯示內(nèi)部信息。圖中可以看到Vega的HBM2顯存與GPU一同封裝,不可分割,64組CU單元分為8組,共計(jì)4096個流處理器。Vega結(jié)構(gòu)圖這顆芯片的HBM2顯存代號為GPA022GA2656,可能來自三星。
6月18日,據(jù)媒體報(bào)道,分析師郭明錤(Ming-Qi Kuo)作出預(yù)測:蘋果或?qū)⒂?020年發(fā)布兩款5G手機(jī),調(diào)制解調(diào)器芯片依舊由高通提供。同時,蘋果的自研5G芯片或?qū)⒂糜?022年、2023年的iPhone手機(jī)。據(jù)此,業(yè)界指出,蘋果想要在5G芯片上有所作為,或許是想要追趕華為的進(jìn)度
近年來,可調(diào)節(jié)高度學(xué)習(xí)桌因其獨(dú)特的優(yōu)勢,逐漸成為了眾多家庭的首選。可調(diào)節(jié)高度學(xué)習(xí)桌則通過其精密的升降機(jī)制,允許家長根據(jù)孩子的身高變化,輕松調(diào)整桌面的高度,確保孩子在學(xué)習(xí)時能夠保持正確的坐姿和視距。長時間保持同一姿勢學(xué)習(xí),容易使孩子感到疲勞和不適,進(jìn)而影響學(xué)習(xí)效率和專注力。當(dāng)孩子處于舒適狀態(tài)時,他們更容易集中注意力,享受學(xué)習(xí)的過程。這種積極的學(xué)習(xí)態(tài)度,將極大地促進(jìn)他們的學(xué)業(yè)進(jìn)步和全面發(fā)展。
2012好聲音紅遍中國,浙江衛(wèi)視主持人華少被稱為中國好舌頭!2013千島湖啤酒給你一個挑戰(zhàn)中國好舌頭的機(jī)會,你敢嗎?2013千島湖啤酒...
熱門推薦
最新招商信息
相關(guān)推薦