《電子技術應用》
您所在的位置:首頁 > 嵌入式技術 > 業(yè)界動態(tài) > 國首款異構計算處理器 為何能在業(yè)界處于領先地位

國首款異構計算處理器 為何能在業(yè)界處于領先地位

2016-09-18

  隨著近幾年天河2號和神威太湖之光相繼在全球超級計算機公布的TOP500刷榜。在超級計算方面異構計算已經(jīng)基本取代了同構計算,而且隨著Intel著力發(fā)展CPU+FPGA,AMD大力研發(fā)CPU+GPU,異構計算也將越來越多的進入人們的視野。在國外公司積極布局異構計算的同時,國內(nèi)公司也不甘落后。日前,中國華夏芯公司宣布,其異構計算處理器IP核已經(jīng)在硅片上成功實現(xiàn),并已通過HSA(異構系統(tǒng)架構)一致性測試。公司還宣布了新的機器學習和深層神經(jīng)網(wǎng)絡的開源項目,旨在進一步推動HSA異構計算的發(fā)展。

  目前,在HSA協(xié)會的推動下,異構計算有向越來越多的領域侵蝕的趨勢。那么,什么是異構計算?發(fā)展前景究竟如何?中國首個異構計算處理器又憑什么在業(yè)界處于領先地位呢?

  什么是異構計算

  同構計算是使用相同類型指令集和體系架構的計算單元組成系統(tǒng)的計算方式。而異構計算主要是指使用不同類型指令集和體系架構的計算單元組成系統(tǒng)的計算方式,常見的計算單元類別包括CPU、GPU、DSP、ASIC、FPGA等。異構計算用簡單的公式可以表示為“CPU+XXX”。舉例來說,AMD著力發(fā)展的APU就屬于異構計算,用公式表示就是CPU+GPU。

  由于術業(yè)有專攻,CPU、GPU、DSP、ASIC、FPGA各有所長,在一些場景下,引入特定計算單元,讓計算系統(tǒng)變成混合結構,就能讓CPU、GPU、DSP、FPGA執(zhí)行自己最擅長的任務。如果能做到無縫地將運行于CPU之上的通用計算、運行于GPU之上的并行計算、運行于DSP之上或者ASIC/FPGA之上的優(yōu)化計算整合在一起,就能獲得更好的應用性能,更低的功耗等特性,相對于同構計算而言也可能有一定性能優(yōu)勢。

  以天河2號的一個計算節(jié)點為例。Xeon E5的滿載功耗達145W,雙精浮點為0.21T Flops,而Xeon PHI功耗300W,雙精浮點達1T Flops。

  天河2號一個計算節(jié)點由2片Xeon E5和3片Xeon PHI,理論雙精浮點性能為3.42T Flops,功耗為1190W,理論雙精浮點性能與功耗的比值為2.87GFlops/W。相同功耗下使用8片Xeon E5只能獲得1696Gflops的理論雙精浮點性能,理論雙精浮點性能與功耗的比值為1.42GFlops/W。從數(shù)據(jù)可以看出,在同等功耗下,在使用Xeon PHI加速后,理論雙精浮點性能是只使用Xeon E5的2倍。

  正是因為異構計算在理論上有著諸多的優(yōu)勢,一些媒體將“CPU+XXX”稱為下一代處理器。

  在超算上應用廣泛

  事實上,最近幾年曾經(jīng)在TOP500刷榜,或者排名靠前的超算都采用了異構計算——中國神威太湖之光、美國超算泰坦、中國天河1號和天河2號。

  泰坦有18688個運算節(jié)點,每個運算節(jié)點由1個16核心AMD Opteron 6274處理器和1個NVIDIA Tesla K20加速器組成,共計299008個運算核心,屬于CPU+GPU。

  天河1號使用了14336片Intel Xeon X5670處理器和7168片NVIDIA Tesla M2050高性能計算卡,屬于CPU+GPU。

  天河2號有16000個計算節(jié)點,每個節(jié)點由2片Intel的E5 2692和3片Xeon PHI組成,共使用了32000片Intel的E5 2692和48000片Xeon PHI,屬于CPU+眾核芯片。正在升級的天河2號則將美國的Xeon PHI換成了自主研發(fā)的矩陣2000,屬于CPU+DSP。

35.jpg

  中國首個異構計算處理器屬于自主研發(fā)

  近年來,國家對集成電路產(chǎn)業(yè)發(fā)展高度重視,在龍芯、申威等老牌設計單位取得累累碩果的同時,又成立了擁有1200億元人民幣的集成電路大基金扶持產(chǎn)業(yè)發(fā)展,先后與IBM、VIA、高通、AMD合資/合作成立兆芯、宏芯、華芯通等公司,并大力扶持展訊、海思、聯(lián)芯等ARM陣營IC設計公司茁壯成長。

  不過,在上述公司中,除了龍芯和申威之外,大多都對境外技術有一定依賴,有的還成為境外公司的馬甲,既不具備造血能力,又只能依賴政府經(jīng)費生存。可以說,當今開發(fā)處理器的公司中魚龍混雜,真正能做到自主研發(fā)、自主可控的少之又少。

  就是在業(yè)界普遍購買國外技術授權,開發(fā)所謂“國產(chǎn)”處理器的大背景下,華夏芯選擇了最為艱難的自主研發(fā)道路——其處理器的指令集和IP都屬于自主研發(fā)。

  也許很多人從來沒有聽說過華夏芯這樣一家公司,但該公司確實是中國第一家從事異構計算處理器IP核設計的集成電路企業(yè)——華夏芯公司是一個定位于全球市場的中國公司,研發(fā)團隊的來源也是全球化,但是從技術到人才都掌握在華夏芯手中,比如華夏芯的3合1“ Unity”體系架構是其獨創(chuàng)技術,在同行業(yè)中也處于領先地位。

  更難得的是,華夏芯并沒有像一些商業(yè)公司那樣購買ARM指令集,而是公司自主開發(fā)的指令集、微結構和工具鏈。因此,在自主創(chuàng)新能力上,和一些購買ARM 的IP授權開發(fā)所謂“國產(chǎn)”CPU的國內(nèi)廠商有著本質(zhì)上的區(qū)別。

  華夏芯公司最近發(fā)布了一系列新的IP授權產(chǎn)品,在全球范圍授權IP,為客戶提供一流的處理器設計技術。所有華夏芯的處理器均支持HSA。對此,華夏芯的董事長李科奕表示,“我們很高興地看到華夏芯的新IP核通過了PRM HSA一致性測試,面向工業(yè)、物聯(lián)網(wǎng)、高級駕駛輔助系統(tǒng)(ADAS)和嵌入式系統(tǒng),該IP核對功耗進行了優(yōu)化并向全球提供許可”。

  據(jù)了解,華夏芯還是中國唯二的可以對外授權IP的處理器公司(另一家是龍芯),在中國大多數(shù)CPU公司還處于購買國外IP做集成的時代,華夏芯能夠自己開發(fā)IP并且能夠?qū)ν馐跈嗑惋@得尤為難得。目前,華夏芯的CPU核可以通過IP授權的方式提供給客戶,第一款CPU已經(jīng)在臺積電使用28nm HPC制成工藝流片,2016年第3季度提供給潛在客戶作為評估或開發(fā)之用?!?/p>

36.jpg

  相對于國外大廠有何獨門絕技

  中國首個異構處理器相對于國外產(chǎn)品最大的特色就是3合1“ Unity”體系架構。本次在硅片上實現(xiàn)的IP核是華夏芯3合1“ Unity”體系架構的首次實現(xiàn)。Unity具有包括圖像和視頻處理在內(nèi)的多維信號處理能力。華夏芯美國研發(fā)中心的CTO Mayan Moudgill博士表示,“矢量處理長度可依據(jù)矢量計算的需求動態(tài)設置,最大配置達到64KB,滿足各種智能化應用和高性能計算對并行計算的要求,保證了指令架構的穩(wěn)健性和軟件代碼的移植性。變長矢量處理單元(VPU)在進行大量數(shù)據(jù)處理的同時,結合了低功耗、亂序執(zhí)行流水線等多項先進技術,從而使多個控制線程高效地執(zhí)行”。

  值得關注的是,在華夏芯面向全球發(fā)布上述消息2天之后,ARM也發(fā)布了與其類似的V8-A的矢量擴展架構(SVE),其技術特征與華夏芯推出的VPU單元極為相似。這說明,真正從事自主創(chuàng)新的國產(chǎn)處理器設計公司完全可以在核心技術上達到國際領先水平,其創(chuàng)新能力要遠遠優(yōu)于那些通過IP授權設計CPU的公司,畢竟后者在自主創(chuàng)新的空間上受到授權許可方極其嚴苛的各種限制。

  另外,市場上有很多SOC也集成了CPU、GPU、DSP等計算單元,比如像高通驍龍芯片、華為海思麒麟芯片都集成了CPU、GPU和DSP。那么,華夏芯3合1“ Unity”體系架構和市面上普遍存在的SOC有哪些優(yōu)勢呢?

  之前提到的SOC的CPU、GPU、DSP的指令架構不同,微架構不同,工具鏈不同,是基于多核集成做出來的異構多核芯片,它們往往采用操作系統(tǒng)完成多核、多任務之間的同步與協(xié)調(diào),因而會影響效率。在這里特別強調(diào)一下,傳統(tǒng)的SOC多核編程非常難,雖然在物理上實現(xiàn)了單芯片多核集成,但是在開發(fā)習慣和流程上與傳統(tǒng)的板上集成系統(tǒng)沒有太大的不同,即性能不高、功耗不小、多套工具、多個團隊、開發(fā)困難、優(yōu)化更難。

  相比之下,基于華夏芯Unity架構的芯片單核已經(jīng)具備CPU、IVP(image and video processor)、DSP的處理能力,而且是一套指令架構,一套微架構,一套工具鏈。在做多核擴展、硬件加速器和FPGA的整合工作時,華夏芯的Utility體系架構將完全遵循HSA的規(guī)范,可以重用HSA的軟件生態(tài)系統(tǒng)。因此,華夏芯的3合1做法在功耗、成本、性能、軟件開發(fā)門檻、團隊規(guī)模等方面都有巨大的優(yōu)勢。

  異構計算市場前景如何

  異構計算在理論上相對于同構計算擁有很多優(yōu)勢——HSA能夠簡化芯片結構設計、降低應用編程門檻、縮短項目研發(fā)周期、顯著提升芯片性能、廣泛共享軟件生態(tài)。有廠家甚至宣傳異構計算可以實現(xiàn)任何程序都不必費心考慮不同處理器內(nèi)核之間的存儲差異。但在現(xiàn)階段,異構計算除了在超算上取得了明顯成績,在其他領域優(yōu)勢并不大。

  即便異構計算目前還存在這樣或那樣的一些問題,但卻是非常具有發(fā)展?jié)摿Φ募夹g。隨著技術的進步,電子消費品市場對于高性能并行計算的需求正在爆發(fā)性增長,特別是在機器視覺、人工智能、云計算、AR/VR、軟件定義無線電以及其他新興領域,都對異構計算系統(tǒng)有著非常大的需求。而HSA在系統(tǒng)編程方式上的邁進使得一個復雜片上系統(tǒng)能夠協(xié)調(diào)在并行計算上比CPU更高效、更低功耗的GPU、DSP以及硬件加速器等計算單元承擔大部分繁重的計算工作任務,在上述新興領域能發(fā)揮較理想的作用。

  也正是因此,Parmance公司計劃與華夏芯在ML-HSA項目上進行合作——該項目面向機器學習和深層神經(jīng)網(wǎng)絡,并針對華夏芯此前發(fā)起的開源gccbrig項目進行優(yōu)化,gccbrig項目為任何支持GCC的平臺提供編譯(終結轉換)功能。

  國外巨頭也一直著力發(fā)展異構計算系統(tǒng)——Intel在去年以167億美元收購阿爾特拉,發(fā)展CPU+FPGA,AMD著力發(fā)展的APU也屬于異構計算,像Imagination、MTK等一些廠商也在異構計算領域積極布局??梢哉f,異構計算的市場前景還是值得期待的。

  結語

  雖然在CPU、GPU、DSP等傳統(tǒng)芯片上,中國與西方還有這比較大的差距,但在異構計算處理器上,中國與國際先進水平差距小,局部甚至還處于領先地位,可以說,本次華夏芯成功研發(fā)的異構計算處理器則是中國在該領域的有益嘗試。


本站內(nèi)容除特別聲明的原創(chuàng)文章之外,轉載內(nèi)容只為傳遞更多信息,并不代表本網(wǎng)站贊同其觀點。轉載的所有的文章、圖片、音/視頻文件等資料的版權歸版權所有權人所有。本站采用的非本站原創(chuàng)文章及圖片等內(nèi)容無法一一聯(lián)系確認版權者。如涉及作品內(nèi)容、版權和其它問題,請及時通過電子郵件或電話通知我們,以便迅速采取適當措施,避免給雙方造成不必要的經(jīng)濟損失。聯(lián)系電話:010-82306118;郵箱:aet@chinaaet.com。
主站蜘蛛池模板: 亚洲欧美日韩自偷自拍| 国产大片黄在线播放| 中文字幕第三页| 欧美成人亚洲高清在线观看| 四虎comwww最新地址| 亚洲国产成a人v在线观看| 好先生app下载轻量版安卓| 久久人人爽爽爽人久久久| 欧美精品束缚一区二区三区| 午夜成人无码福利免费视频| 高清永久免费观看| 国产视频精品免费| 丁香花高清在线观看完整版| 日韩欧美一区二区三区免费观看| 亚洲福利视频一区二区| 美女黄网站人色视频免费国产| 国产日产一区二区三区四区五区| 中文字幕免费视频| 最美情侣中文字幕电影| 亚洲精品成人图区| 美国式禁忌矿桥矿网第11集| 国产在线视精品麻豆| 3d性欧美动漫精品xxxx| 女人张腿让男桶免费视频大全| 久久亚洲成a人片| 欧美a级片在线观看| 亚洲精品你懂的| 精品一二三区久久AAA片| 国产亚洲欧美日韩综合综合二区| 两个人看的视频播放www| 在线视频你懂的国产福利| 中国女人内谢69xxx| 日本人成18在线播放| 五月激情婷婷网| 欧美成人在线网站| 亚洲色欲久久久久综合网| 精品久久久噜噜噜久久久| 国产jizzjizz视频全部免费| 麻豆免费高清完整版视频| 国产真实乱在线更新| 538在线视频观看|