亚洲 另类 小说 国产精品_强行扒开美女内裤猛烈进入_男人揉女人下面免费网站_67194精品在线观看_日本少妇强奸中文字幕高清_久久久精品免费视频图片_欧美偷拍另类一区_波多野结衣无码高清_āv男人的天堂在线免费观看_av黄片在线播放麻豆

歡迎光臨湖北鑫合欣官方網(wǎng)站 收藏本站| 公司文化| 聯(lián)系我們
全國(guó)熱線
18062095810

熱點(diǎn)資訊

咨詢熱線:

18062095810

郵件: wangting@whhexin.com

電話:027-87538900

地址: 湖北·武漢·魯巷·華樂(lè)商務(wù)中心1006

FPGA加速深度學(xué)習(xí)-Terasic友晶DE10-Pro



對(duì)于許多行業(yè)來(lái)說(shuō),深度學(xué)習(xí)是一種顛覆性的技術(shù),但是其計(jì)算需求卻遠(yuǎn)超標(biāo)準(zhǔn)的CPU,這就使開發(fā)人員不得不考慮其他架構(gòu)。然而,從輕車熟路的CPU轉(zhuǎn)向到更高深莫測(cè)的設(shè)計(jì),無(wú)疑是個(gè)不小的挑戰(zhàn)。其實(shí),企業(yè)未必一定要改造現(xiàn)有的基礎(chǔ)設(shè)施來(lái)支持深度學(xué)習(xí),采用CPU + FPGA的混合計(jì)算架構(gòu)也不失為一種可行之策。

為什么要采用CPU + FPGA的混合計(jì)算架構(gòu),而不完全舍棄CPU呢?從性能上來(lái)講,單個(gè)推理是順序操作,因而大部分處理器可以有效地執(zhí)行獨(dú)立的深度學(xué)習(xí)推理工作。只是當(dāng)推理操作以批量或大容量呈現(xiàn)時(shí),CPU就很難跟上了。

此時(shí),GPU和其他大規(guī)模并行架構(gòu)就會(huì)提供串行處理的替代方案。大規(guī)模并行非常適合批量推理工作,以及訓(xùn)練具有大量輸入數(shù)據(jù)集的深度學(xué)習(xí)模型。

當(dāng)然,當(dāng)涉及到順序處理時(shí),并行計(jì)算機(jī)通常是低效的。對(duì)于需要快速順序推理的應(yīng)用程序,例如自動(dòng)駕駛汽車的計(jì)算機(jī)視覺(jué)和其他時(shí)間敏感的應(yīng)用程序,GPU就提供不了最優(yōu)方案了。

因而,為了滿足低容量推理和大批量處理的需求,將FPGA與多核CPU進(jìn)行集成的設(shè)備是一個(gè)很有吸引力的選擇。FPGA在本質(zhì)上是大規(guī)模并行的,所以它來(lái)執(zhí)行大量的深度學(xué)習(xí),輕而易舉。另一方面,較小的順序操作可以由CPU處理。或者,可以在FPGA和CPU之間共享工作負(fù)載,以優(yōu)化神經(jīng)網(wǎng)絡(luò)的效率。

而且,基于這種異構(gòu)體系結(jié)構(gòu)的靈活性,開發(fā)人員可以在不必徹底檢查現(xiàn)有計(jì)算基礎(chǔ)結(jié)構(gòu)的情況下實(shí)現(xiàn)這種優(yōu)化。

 

 

使用FPGA加速人工智能:

內(nèi)聯(lián)和協(xié)同處理

 

 

 

 

為了更好地理解FPGA是如何加速深度學(xué)習(xí)的,讓我們來(lái)看看它是如何與多核CPU一起作為在線和協(xié)同處理的計(jì)算元素工作的。

 

FPGA作為內(nèi)聯(lián)處理器時(shí),位于CPU前面,執(zhí)行數(shù)據(jù)過(guò)濾等預(yù)處理任務(wù),然后將輸出傳遞給后續(xù)的計(jì)算。如圖1所示,在將像素發(fā)送到CPU之前,視覺(jué)系統(tǒng)可以使用FPGA進(jìn)行內(nèi)聯(lián)濾波或閾值化。由于CPU只處理來(lái)自FPGA確定的感興趣區(qū)域的像素,因此總體系統(tǒng)吞吐量增加了。

圖1.FPGA作為一個(gè)內(nèi)聯(lián)處理器,在數(shù)據(jù)到達(dá)CPU之前對(duì)其進(jìn)行過(guò)濾,這將有助于提高整個(gè)系統(tǒng)的吞吐量。

 

FPGA作為協(xié)處理器時(shí),與CPU共享計(jì)算工作負(fù)載。其處理方式不一,可以讓FPGA在將輸出發(fā)送回CPU之前執(zhí)行并行處理,或者讓FPGA執(zhí)行所有處理,以便CPU可以專注于通信和控制等任務(wù)。

繼續(xù)以計(jì)算機(jī)視覺(jué)為例,圖2顯示了如何在具有直接內(nèi)存訪問(wèn)(DMA)的FPGA和CPU之間分配工作負(fù)載。

圖2.FPGA協(xié)處理器可以通過(guò)直接內(nèi)存訪問(wèn)(DMA)與CPU共享工作負(fù)載,為其他任務(wù)釋放CPU。(來(lái)源:國(guó)家儀器)

 

綜上所述,F(xiàn)PGA與多核CPU的配對(duì)既能滿足低容量推理和大規(guī)模批處理的需要,又能提高系統(tǒng)吞吐量。不過(guò),開發(fā)人員必須能夠在對(duì)現(xiàn)有基礎(chǔ)設(shè)施影響最小的情況下采用這些解決方案。

 
 
 
 

 

 

 

 

新一代FPGA全面升級(jí):

性能提升,集成靈活性高

 

 

 

 

Intel® Stratix® 10 FPGA提供了一種加速深度學(xué)習(xí)性能和與已部署系統(tǒng)簡(jiǎn)單集成的途徑。這些FPGA集成了多達(dá)550萬(wàn)個(gè)邏輯元件和一個(gè)四核64位Arm Cortex-A53 CPU。它們還提供了可編程的I/O引腳,使FPGA可以很輕松地與標(biāo)準(zhǔn)的網(wǎng)絡(luò)和計(jì)算技術(shù)接口。

在性能方面,Intel® Stratix® 10 器件采用了全新的Intel® Hyper Flex™ FPGA架構(gòu)。這種架構(gòu)引入了超寄存器技術(shù),將旁路寄存器放入設(shè)備核心的每個(gè)路由段和所有功能塊輸入(圖3)。

圖3.超級(jí)寄存器在每個(gè)路由段和所有功能塊輸入處放置寄存器,以使時(shí)鐘頻率加倍。(來(lái)源:英特爾®公司)

旁路寄存器優(yōu)化了FPGA結(jié)構(gòu)中的數(shù)據(jù)流,這有助于芯片實(shí)現(xiàn)最大性能。這也正是Intel® Stratix® 10器件在功耗降低70%的情況下,仍可提供上一代FPGA兩倍的時(shí)鐘速度的原因。對(duì)于那些性能要求高但功率受限的應(yīng)用,F(xiàn)PGA 的這一卓越成就無(wú)疑是期盼已久的福音!

 

在平臺(tái)集成方面,Intel® Stratix® 10 FPGA器件同時(shí)支持串行和并行Flash接口。這些在網(wǎng)絡(luò)平臺(tái)中常見的內(nèi)存類型對(duì)于深度學(xué)習(xí)大有裨益,因?yàn)殚_發(fā)人員可以在其中選擇最適合其工作負(fù)載的配置。例如,Terasic DE10-Pro Stratix 10 GX/SX PCIe板就可以支持多種類型的內(nèi)存應(yīng)用(圖4):

? 適用于高帶寬、低延遲應(yīng)用的QDR-IV內(nèi)存模塊

? 適用于低延遲內(nèi)存讀/寫的QDR-II+內(nèi)存模塊

? DDR4適用于需要最大內(nèi)存容量的應(yīng)用程序

圖4.Terasic DE10-Pro Stratix® 10 GX/SX PCIe板為不同的深度學(xué)習(xí)用例提供多種內(nèi)存類型的支持。

 

DE10-Pro包括x16 PCIe Gen 3通道,芯片之間的數(shù)據(jù)傳輸速度高達(dá)128 Gbps,同時(shí)4個(gè)QSFP28連接器都支持100千兆以太網(wǎng)。這些接口支持巨大的數(shù)據(jù)卸載能力,以及快速的讀寫內(nèi)存訪問(wèn)。在服務(wù)器或數(shù)據(jù)中心環(huán)境中,這意味著可以在計(jì)算和內(nèi)存資源庫(kù)之間共享工作負(fù)載,以根據(jù)需要擴(kuò)展深度學(xué)習(xí)性能。

 

最后,從軟件的角度來(lái)看,DE10-Pro Stratix® 10 GX/SX PCIe板支持英特爾開放式視覺(jué)推理與神經(jīng)網(wǎng)絡(luò)優(yōu)化(Intel® Open Visual Inference & Neural Network Optimization)開發(fā)套件,即Intel® OpenVINO™ 開發(fā)套件。OpenVINO是一個(gè)用于異構(gòu)執(zhí)行架構(gòu)的開發(fā)套件,它基于一個(gè)抽象了FPGA編程復(fù)雜性的通用API。

OpenVINO包含了一個(gè)函數(shù)庫(kù)、內(nèi)核以及對(duì)OpenCV和OpenVX的優(yōu)化調(diào)用,并演示了對(duì)計(jì)算機(jī)視覺(jué)和深度學(xué)習(xí)工作負(fù)載的高達(dá)19倍的性能增強(qiáng)(圖5)。

圖5.開放式視覺(jué)推理與神經(jīng)網(wǎng)絡(luò)優(yōu)化(OpenVINO™) 開發(fā)套件將顯著的性能優(yōu)化演示得淋漓盡致。(來(lái)源:英特爾公司)

 
 
 
 

 

 

 

 

結(jié)語(yǔ)

 

 

 

 

深度學(xué)習(xí)工作負(fù)載正在推動(dòng)整個(gè)科技行業(yè)的創(chuàng)新進(jìn)程,尤其是在處理器市場(chǎng)。目前,工業(yè)界正在研究使用為神經(jīng)網(wǎng)絡(luò)執(zhí)行而設(shè)計(jì)的專用處理器來(lái)處理深度學(xué)習(xí)工作負(fù)載的新方法。

集成有多核CPU的FPGA為實(shí)現(xiàn)何處,何時(shí),以及如何實(shí)現(xiàn)最高吞吐量的深度學(xué)習(xí)工作負(fù)載提供了靈活性和性能。它們還提供了一種面向未來(lái)需求的“前車之鑒”,適用于人工智能、下一代網(wǎng)絡(luò)等可以通過(guò)高性能計(jì)算(HPC)解決的任何領(lǐng)域。