來源:雷鋒網
存算一體或者叫存內計算技術隨著 AI 的火熱再一次成為業內關注的焦點,存儲和計算的融合有望解決 AI 芯片內存墻的限制,當然,實現的方法也各不相同。雷鋒網此前介紹過知存科技基于 NOR FLASH 存內計算,還有清華大學錢鶴、吳華強教授團隊基于憶阻器的存算一體單芯片算力可能高達 1POPs。三星基于 HMB 的存內計算芯片又有何亮點?
三星最新發布的基于 HBM2 的新型內存具有集成的 AI 處理器,該處理器可以實現高達 1.2 TFLOPS 的計算能力,從而使內存芯片能夠處理通常需要 CPU、GPU、ASIC 或 FPGA 的任務。
新型 HBM-PIM(Processing-in-memory,存內計算)芯片將 AI 引擎引入每個存儲庫,從而將處理操作轉移到 HBM。新型的內存旨在減輕在內存和處理器之間搬運數據的負擔,數據的搬運耗費的功耗遠大于計算。
三星表示,將其應用于現有的 HBM2 Aquabolt 內存后,該技術可以提供 2 倍的系統性能,同時將能耗降低 70% 以上。該公司還聲稱,新存儲器不需要對軟件或硬件進行任何更改(包括對內存控制器),可以讓早期采用者更快實現產品的上市。
三星表示,這種存儲器已經在領先的 AI 解決方案提供商的 AI 加速器中進行了試驗。三星預計所有驗證工作都將在今年上半年完成,這標志著產品上市進入快車道。
三星在本周的國際固態電路會議(ISSCC)上展示了其新存儲器架構的詳細信息。
如您在上面的幻燈片中看到的,每個存儲庫都有一個嵌入式可編程計算單元(PCU),其運行頻率為 300 MHz,每個裸片上總共 32 個 PCU。這些單元通過來自主機的常規存儲命令進行控制,以啟用 DRAM 中的處理功能,不同的是,它們可以執行 FP16 的計算。
該存儲器還可以在標準模式下運行,這意味著新型的存儲器既可以像普通 HBM2 一樣運行,也可以在 FIM 模式下運行以進行存內數據處理。
自然地,在存儲器中增加 PCU 單元會減少內存容量,每個配備 PCU 的內存芯片的容量(每個 4Gb)是標準 8Gb HBM2 存儲芯片容量的一半。為了解決該問題,三星將 4 個有 PCU 的 4Gb 裸片和 4 個沒有 PCU 的 8Gb 裸片組合在一起,實現 6GB 堆棧(與之相比,普通 HBM2 有 8GB 堆棧)。
值得注意的是,上面的論文和幻燈片將這種技術稱為功能內存 DRAM(FIMDRAM,Function-In Memory DRAM),但這是該技術的內部代號,這個技術現在的名稱是 HBM-PIM。三星展示的是基于 20nm 原型芯片,該芯片在不增加功耗的情況下可實現每 pin 2.4 Gbps 的吞吐量。
論文將基礎技術描述為功能內存 DRAM(FIMDRAM),該功能在存儲庫中集成了 16 寬單指令多數據引擎,并利用存儲庫級并行性提供了比片外存儲高 4 倍的處理帶寬。另外,可以看到的是這種芯片存儲解決方案無需對常規存儲器控制器及其命令協議進行任何修改,這使得 FIMDRAM 可以更快在實際應用中使用。
不幸的是,至少在目前看來,我們不會在最新的游戲 GPU 中看到這些功能。三星指出,這種新內存要滿足數據中心、HPC 系統和支持 AI 的移動應用程序中的大規模處理需求。
與大多數存內計算技術一樣,希望這項技術能夠突破存儲芯片散熱的限制,尤其是考慮到 HBM 芯片通常部署在堆棧中,而這些堆棧并不都有利于散熱。三星的演講者沒有分享 HBM-PIM 如何應對這些挑戰。
三星電子存儲器產品計劃高級副總裁 Kwangil Park 表示:" 我們開創性的 HBM-PIM 是業內首個針對各種 AI 驅動的工作負載(如 HPC,訓練和推理)量身定制的可編程 PIM 解決方案。我們計劃通過與 AI 解決方案提供商進一步合作以開發更高級的 PIM 驅動的應用。"
注,文中圖片來自三星