熱點(diǎn)資訊
- Intel FPGA|如何挑選TERASIC友晶DE系列FPGA板卡?
- 資源|英特爾? Quartus? Prime設(shè)計(jì)軟件的“后浪”來啦!
- Intel FPGA|如何挑選TERASIC友晶MAX 10系列FPGA板卡?
- 教育部中南地區(qū)電子電氣基礎(chǔ)課教學(xué)研究會(huì)
- 普源精電2024夏季新品發(fā)布會(huì)
- Intel FPGA|如何挑選TERASIC友晶Stratix 10系列FPGA板卡?
- 賀中國地質(zhì)大學(xué)電子類測(cè)試分析儀器項(xiàng)目中標(biāo)
- 2018 年友晶科技產(chǎn)學(xué)合作協(xié)同育人項(xiàng)目
- Intel FPGA|如何挑選TERASIC友晶Cyclone V系列FPGA板卡?
- 集美大學(xué)《高級(jí)FPGA綜合實(shí)驗(yàn)系統(tǒng)》完成交付驗(yàn)收

咨詢熱線:
18062095810
郵件: wangting@whhexin.com
電話:027-87538900
地址: 湖北·武漢·魯巷·華樂商務(wù)中心1006
Intel? Arria?10 FPGA中的硬核浮點(diǎn)DSP模塊,意義何在?
隨著5G 的部署如雨后春筍般涌現(xiàn),F(xiàn)PGA也大放異彩。FPGA是具有精細(xì)粒度的密集流水線體系結(jié)構(gòu),在大計(jì)算量應(yīng)用中,與DSP、CPU和GPU相比,F(xiàn)PGA的每瓦性能是最高的,可謂是“高性能計(jì)算加速器”,這意味著Intel® FPGA的性能和功耗效率比將在更多的應(yīng)用上優(yōu)于微處理器和GPU,非常適合用在高性能計(jì)算 (HPC)、科學(xué)和醫(yī)療成像等領(lǐng)域。
而以往的FPGA在進(jìn)行浮點(diǎn)運(yùn)算時(shí),為符合IEEE 754標(biāo)準(zhǔn),每次運(yùn)算都需要去歸一化和歸一化步驟,導(dǎo)致了極大的性能瓶頸。因?yàn)檫@些歸一化和去歸一化步驟一般通過FPGA中的大規(guī)模桶形移位寄存器實(shí)現(xiàn),需要大量的邏輯和布線資源。通常一個(gè)單精度浮點(diǎn)加法器需要500個(gè)查找表(LUT),單精度浮點(diǎn)要占用30%的LUT,指數(shù)和自然對(duì)數(shù)等更復(fù)雜的數(shù)學(xué)函數(shù)需要大約1000個(gè)LUT。因此隨著DSP算法越來越復(fù)雜,F(xiàn)PGA性能會(huì)明顯劣化,對(duì)占用80%~90%邏輯資源的FPGA會(huì)造成嚴(yán)重的布線擁塞,阻礙FPGA的快速互聯(lián),最終會(huì)影響時(shí)序收斂。
為解決以上問題,Intel® FPGA不斷優(yōu)化DSP模塊體系結(jié)構(gòu)和軟件工具,其中Arria®10 系列的 FPGA率先集成了符合IEEE 754的硬核浮點(diǎn)DSP模塊。同時(shí)該硬核浮點(diǎn)技術(shù)也應(yīng)用在了Intel® Stratix® 10 等最新系列的FPGA和SoC芯片中。目前,Intel® Arria® 10和Intel® Stratix® 10器件中的硬核浮點(diǎn)DSP模塊是業(yè)界領(lǐng)先的浮點(diǎn)解決方案的代表。
那Intel®在FPGA中提供硬核浮點(diǎn)DSP模塊,有何重要意義呢?我們知道,DSP模塊只占FPGA的1/10左右,但就是這1/10使得Arria 10器件可實(shí)現(xiàn)1.5 TeraFLOP (每秒浮點(diǎn)運(yùn)算次數(shù))的DSP性能,相當(dāng)于性能最優(yōu)的TI DSP。當(dāng)該硬核浮點(diǎn)技術(shù)集成在14 nm Stratix 10 FPGA中時(shí),DSP性能更是高達(dá)10 TeraFLOP。
在Arria® 10和Stratix® 10器件中的硬核浮點(diǎn)DSP模塊不僅提高了運(yùn)算性能和資源效率,還可加快產(chǎn)品上市時(shí)間。
在提高運(yùn)算性能方面,主要體現(xiàn)在三個(gè)方面:
1. 可節(jié)省邏輯資源的使用。采用Arria® 10和Stratix® 10器件中的硬核浮點(diǎn)DSP模塊,F(xiàn)PGA系統(tǒng)克服了前述提到的限制性能的挑戰(zhàn)。在過去,需要使用定點(diǎn)乘法器和FPGA邏輯來實(shí)現(xiàn)浮點(diǎn)運(yùn)算功能,并需要大量布局布線,而之前Intel® V系列FPGA主頻只有200~250MHz,而Arria® 10系列則達(dá)到了400~450MHz。此外,Altera的硬核浮點(diǎn)DSP幾乎不使用現(xiàn)有FPGA浮點(diǎn)計(jì)算所需要的邏輯資源,并且,桶形移位寄存器可在硬核DSP模塊中實(shí)現(xiàn),就避免了使用寶貴的FPGA資源運(yùn)行歸一化和歸一化函數(shù)。采用硬核浮點(diǎn)DSP模塊內(nèi)置這一創(chuàng)新體系結(jié)構(gòu),不僅節(jié)省了很多的邏輯資源,時(shí)序收斂或者fMAX要求也不再受限于次優(yōu)布線,從而保證了使用80%至90%邏輯資源的FPGA仍能保持較高的fMAX性能。
2. 硬核浮點(diǎn)的資源效率高。含在Arria® 10和Stratix® 10器件中的硬核單精度浮點(diǎn)DSP模塊,是基于Inte®l創(chuàng)新的精度可調(diào)DSP體系結(jié)構(gòu)的。傳統(tǒng)的方法是使用定點(diǎn)乘法器和FPGA邏輯來實(shí)現(xiàn)浮點(diǎn)功能,而Intel®的硬核浮點(diǎn)DSP模塊與此不同,幾乎不使用現(xiàn)有FPGA浮點(diǎn)計(jì)算所需要的邏輯資源(下圖),因此占1/10面積的DSP模塊就可以輕松把計(jì)算搞定。這不僅節(jié)約了資源,還降低了功耗。Arria® 10和Stratix® 10器件還在FPGA業(yè)界實(shí)現(xiàn)了能效最高的浮點(diǎn),每瓦分別是50 GFLOP和100 GFLOPS,極大地減少了以前進(jìn)行浮點(diǎn)運(yùn)算時(shí)所需要的邏輯和布線資源,從而大幅度降低了內(nèi)核動(dòng)態(tài)功耗。
3. 提高了數(shù)字精度。硬核浮點(diǎn)DSP模塊支持很多復(fù)數(shù)浮點(diǎn)運(yùn)算,包括累乘法、加減法等,其浮點(diǎn)輸出都符合IEEE 754標(biāo)準(zhǔn),從而保證了在具有高分辨率要求的應(yīng)用中其數(shù)值的一致性。過去FPGA實(shí)現(xiàn)浮點(diǎn)運(yùn)算是在內(nèi)部數(shù)據(jù)通路上使用二進(jìn)制補(bǔ)碼表示。在算法輸入輸出時(shí),這一內(nèi)部二進(jìn)制補(bǔ)碼表示與IEEE 754格式相互轉(zhuǎn)換。這在解決桶形移位寄存器占用資源方面至關(guān)重要,但實(shí)際輸出值與MATLAB/Simulink模型值相比會(huì)有所偏差。但是,在采用了Arria® 10和Stratix® 10器件中的硬核浮點(diǎn)模塊后,實(shí)際輸出值與Simulink模型顯示的高度一致。
而在加快產(chǎn)品上市方面,F(xiàn)PGA中集成的硬核浮點(diǎn)DSP支持很多常見的DSP模型和仿真環(huán)境,可無縫實(shí)現(xiàn)優(yōu)化浮點(diǎn)運(yùn)算。在從軍事領(lǐng)域的雷達(dá)到通信系統(tǒng)等各種應(yīng)用中,Arria® 10和Stratix® 10器件為設(shè)計(jì)人員提供了更高效的設(shè)計(jì),平均可將設(shè)計(jì)時(shí)間縮短6-12個(gè)月。一方面是因?yàn)椴恍枰~外的轉(zhuǎn)換過程。在前幾代FPGA中要實(shí)現(xiàn)高性能浮點(diǎn)運(yùn)算,需要進(jìn)行轉(zhuǎn)換,將浮點(diǎn)轉(zhuǎn)換為定點(diǎn),在FPGA中實(shí)現(xiàn),在定點(diǎn)實(shí)現(xiàn)中分析、轉(zhuǎn)換并驗(yàn)證浮點(diǎn)算法。這種轉(zhuǎn)換過程一般步驟繁瑣。此外,這一過程完成后,還需驗(yàn)證轉(zhuǎn)換過程當(dāng)中的準(zhǔn)確率。如果設(shè)計(jì)方面有任何的修改或變化,都需要重新把這些流程再進(jìn)行一遍,持續(xù)進(jìn)行轉(zhuǎn)換。另一方面是因?yàn)镮ntel®提供了易用的設(shè)計(jì)工具。Intel®優(yōu)異的DSP設(shè)計(jì)工具包括為硬件設(shè)計(jì)人員、基于模型的設(shè)計(jì)人員提供的DSP Builder,以及為軟件編程人員提供的面向OpenCL的軟件開發(fā)套件(SDK)。利用這些工具,設(shè)計(jì)人員完全不需要浮點(diǎn)到定點(diǎn)的轉(zhuǎn)換過程,相應(yīng)地在實(shí)現(xiàn)過程中也不需要調(diào)試,在幾分鐘內(nèi)就可以完成系統(tǒng)定義和仿真,直至系統(tǒng)實(shí)現(xiàn)。當(dāng)使用DSP Builder或者面向OpenCL的SDK設(shè)計(jì)算法,設(shè)計(jì)人員能夠?qū)㈤_發(fā)精力集中在算法定義和迭代上,而不是設(shè)計(jì)硬件,幫助他們縮短了開發(fā)和驗(yàn)證時(shí)間。
十多年前,F(xiàn)PGA廠商在FPGA芯片中集成了DSP模塊, 正式向DSP芯片發(fā)起挑戰(zhàn)。如今,隨著工藝、集成度以及技術(shù)的發(fā)展,F(xiàn)PGA中的硬浮點(diǎn)DSP模塊也都有了新的突破,比如Intel® Stratix® 10器件中的精度可調(diào)DSP模塊支持定點(diǎn)運(yùn)算和單精度浮點(diǎn)運(yùn)算,可支持高性能DSP應(yīng)用。
技術(shù)為我們提供了改變世界的工具,正是這些日新月異的技術(shù)革新與突破,不斷為經(jīng)濟(jì)賦能,為生活添彩,讓流動(dòng)、迅捷而無處不在的計(jì)算驅(qū)動(dòng)的智能互聯(lián)世界指日可待!