欧美日韩国产成人高清视频，欧美日韩在线精品一 ,成人国产精品动漫欧美一区 ,久久综合亚洲欧美成人

存儲里的數據處理

日期： 2018-09-10

關鍵詞： 存儲器處理器傳輸數據

在存儲器中直接添加數據處理功能正在引起人們的重視，尤其是那些數據量巨大、在各類存儲器和處理器之間來回傳輸數據需要耗費太多的能量和時間的應用。

在過去的十年中，將處理器添加到存儲器的想法斷斷續續出現在人們的腦海中，人們將其作為未來可能的發展方向，但這被認為是一種昂貴且未經測試的器件微縮替代方案，從而遭到了摒棄。如今，由于熱效應、各種類型的噪音，以及飛漲的設計和制造成本，微縮的效益減少了，所有的選擇都擺上了桌面。尤其是汽車中的計算機視覺應用，因為此時激光雷達和攝像傳感器將產生視頻流；還有人工智能/機器學習/深度學習領域，因為此時需要快速處理大量數據。

AMD公司客戶產品首席架構師Dan Bouvier表示：“如果你能在存儲數據的地方處理數據，效率就會高得多。如果你必須要跨越鏈路，就會消耗大量功率，尤其會占用大量I/O。這會讓PHY無法微縮。而且此處的封裝技術太昂貴，無法進入更精細的接點間隔（bump pitches）。而你當然希望盡可能緊密地壓縮。如果你使用的是異構處理器，那么本地電源管理就容易很多。 ”

這在數據中心中非?，F實，就像在自動駕駛汽車和其他邊緣設備中一樣，而且這遠非驚人的新發現。AI/ML/DL和視頻流都不是新技術。但隨著它們開始跨越多個市場，涉及功率和延遲的獨特挑戰正在出現。簡而言之，需要處理的數據量預計將超過微縮所帶來的性能和功耗方面的效益，而解決這一問題的唯一方法是通過架構改進和軟硬件協同設計。

Babblelabs公司首席執行官Chris Rowen表示：“自從計算機出現以來，平衡內存帶寬和計算帶寬一直是計算機系統架構中的核心問題。甚至在50年前，人們就說，‘我需要以一種通用的方式逐個字節進行運算?！?/p>

這些年來，這個方程式并沒有顯著改變，改變的是更高效地實現這一點的方法。例如：

將多次運算組合到一個周期中；

通過緩存或降低計算精度，改變數據在處理器和存儲器之間移動的頻率；

縮短處理器和存儲器之間的距離，同時確保有足夠的帶寬。

上述三個領域的工作都在進行中，并且都大有希望。但是減小處理器和存儲器之間的距離在許多方面都提出了有趣的挑戰。

Rambus公司首席科學家Craig Hampel表示：“從技術的角度看，減小距離當然是可行的。而且它適合在神經網絡訓練中增加權重的需要，因為你無法承受延遲。問題出在經濟上。如果你看看DRAM，就會發現位元是按照一種非常規則的方式組合的，因此它具有成本效益。3D的目標是縮小這些距離，2.5D肯定也有幫助。但這兩種方法都使熱問題更難以解決，而且更難以測試。 ”

由美光和三星開發的Hybrid Memory Cube提供了一個案例，通過在3D配置中將存儲器堆疊在邏輯器件上，并使用硅通孔（TSV）連接不同層，從而實現距離的減小和數據吞吐量的提升。

Kandou Bus公司首席執行官Amin Shokrollahi表示：“人們對直接訪問存儲器非常感興趣。問題是，你必須能夠構建它，這樣你才能進行正常的編程。軟件和硬件同樣重要?！?/p>

這是一個經濟上特別惱人的領域。Shokrollahi說：“Hybrid Memory Cube沒有成功的原因之一是沒有第二個來源。HBM（高帶寬內存）更為簡單，但它提供了對所有存儲器的訪問，而且它是多源的。HBM封裝還可以支持更多的層，而且你可以非常輕松地冷卻它。因為如果你將處理器封裝在存儲器中，它會變得非常熱?！?/p>

一種可能的解決方案是限制處理器和存儲器的大小。在上月舉行的Hot Chips 30會議上，總部位于得克薩斯州奧斯汀的初創公司Mythic介紹了一種新的矩陣乘法存儲器架構，旨在用于AI /機器學習市場。Mythic的方法是在flash存儲器中進行模擬計算以提高性能。

Mythic公司的首席技術官Dave Fick表示：“我們將使用flash陣列中的flash晶體管來表示權重矩陣。我們采用這種flash陣列，然后將其打包成小塊。我們有基于小塊的架構，其中每個小塊都有一個這樣的存儲器陣列，還有其他支持重新配置和中間數據存儲的邏輯。SRAM提供中間數據存儲，因此在中間階段我們將數據存儲在SRAM中。我們有RISC-V處理器，用于在小塊內提供控制。我們有路由器，實現與相鄰的小塊通信。然后有SIMD（單指令，多數據）單元，它提供的運算不是矩陣乘法。”

這里的局限是專業化，因為flash晶體管不能快速編程。Fick說：“你需要擁有一套固定的應用，但這對于邊緣系統來說非常典型。我們可以通過將不同的區域映射到不同的應用來支持多個應用，因此我們可以一次支持多個應用?！?/p>

微信圖片_20180910221953.jpg

圖1：Mythic公司提出的架構，應用于深度神經網絡。（來源：Mythic / Hot Chips 30）

制造挑戰

還有其他問題需要解決。減小信號在存儲器和邏輯器件之間傳輸的距離會帶來熱量和成本方面的挑戰。但是直接在存儲器中構建處理功能中會增加集成和兼容性問題。

OneSpin Solutions總裁兼首席執行官Raik Brinkmann表示：“最大的問題是，存儲工藝和邏輯工藝無法結合在一起，因此你無法合理地將這些器件組裝在一起。這引發了制造方面的另一波創新浪潮。例如，對于單片3D架構，邏輯層和存儲層之間有非常細的連線連接著兩層硅片。存儲器中的計算基本就是這個樣子?！?/p>

在這一點上，沒有人確切知道這種方法在制造中會產生怎樣的收益。

Arm公司研究員Rob Aitken表示：“這增加了一系列全新的挑戰。這種工藝中，有趣的架構創新之一就是像斯坦福大學那樣使用基于像素的工藝系統。在這樣的系統中，像素彼此相對獨立并且存在于2D表面中。問題是，當你把兩個晶圓放在一起時，收率可能不同于單一晶圓的情形。例如，‘這個晶圓的收率是75%，那個晶圓的收率是75%，當我把它們放在一起時，收率是30%?！瘜嶋H上，你必須建立一個系統，讓三維堆疊中隱含的冗余與你一起工作，而不是與你作對。但即使你不使用單片3D，你只是想在存儲器中或者存儲器附近進行計算，那也會涉及到數據移動問題。如果你的系統需要移動數據，那么處理器的精妙程度和速度并不重要，因為這不是限制因素?！?/p>

設計挑戰

這在設計方面引發了一系列其他挑戰。

eSilicon公司營銷副總裁Mike Gianfagna表示：“這不僅僅是如何在設計中添加更多的東西，部分原因還在于你如何改變芯片設計的傳統方法。近存儲器隊列需要復雜的并行設計?！?/p>

這還需要深入了解如何在設計中使用各種類型的存儲器。AMD公司的Bouvier表示：“一個重要的死對頭是虛擬內存子系統，這是用反常的方式移動數據，相當于二次轉化。 ”

但Bouvier指出，對于不同類型的芯片如何利用DRAM有不同的衡量標準。Bouvier表示，對于discrete GPU，DRAM的運行效率在90%左右。對于APU或CPU，它的運行效率在80%到85%之間。

對于AI/ML/DL應用，這在推理方面尤為重要。

Babblelabs公司的Rowen表示：“英偉達之所以如此強大，并不僅僅是因為它們有并行架構，而是因為它們有大量的內存。推理過程的一個顯著不同之處在于，每個字節的內存通常有數百次運算。所以這個問題的不同之處在于你通常不用關心內存，至少對于推理而言是如此。你可以拋出大量與問題密切相關的計算，而不會出現內存瓶頸。導致諸多創新的原因之一是，人們推出了非常密集的計算架構和粗粒度陣列，得到的反應是‘這很好，但沒有具有這些特征的問題?！麄冎械拇蠖鄶刀际×?，因為他們沒有足夠的內存帶寬。但現在，我們遇到的問題確實存在帶寬不成問題的特征?！?/p>

這使得在內存中或非常接近內存的地方添加內存更加引人注目。盡管這還不是一個確定的賭注，但除非經過嚴肅的討論，否則它不會被拋棄。

版權聲明：本站內容除特別聲明的原創文章之外，轉載內容只為傳遞更多信息，并不代表本網站贊同其觀點。轉載的所有的文章、圖片、音/視頻文件等資料的版權歸版權所有權人所有。本站采用的非本站原創文章及圖片等內容無法一一聯系確認版權者。如涉及作品內容、版權和其它問題，請及時通過電子郵件或電話通知我們，以便迅速采取適當措施，避免給雙方造成不必要的經濟損失。聯系電話：010-82306118；郵箱：aet@chinaaet.com。

存儲里的數據處理

日期： 2018-09-10

相關內容