Re: [閒聊] 現在橫空出世的NPU

PC購物

標籤:閒聊
62440

: 以這個評測為例, 讓我有點霧裡看花, 不是很能明白:
: Intel Ultra 7 155H
: CPU分數 67
: GPU分數 413
: NPU分數 282
: 嗯....這NPU看起來沒比較厲害?
: 所以我的疑問就是:
: 1. NPU 表現還不如 GPU, 這也許可以理解為最佳化還沒到位,
: 不過即使未來能小贏, 為什麼不拿去做GPU就算了, 還可以增加3D性能。
npu/matrix/tensor其實不能增加傳統的3d性能。增加的是dlss/ray tracing的性能。
但這是個好問題,現在的情況,npu(matrix)如果併入gpu或cpu其實是更好的選擇。

: 2. NPU 能執行通用計算嗎? 如果可以, NPU 只是神經網路運算特化
: 的 GPU?
npu是matrix(systolic array)特異化的超簡易cpu。不適合通用計算

: 3. 如何調用 NPU? 是視為 OpenCL / DirectML 裝置?
: 還是又整出新的方法跟API了?
: 又或只是在GPU下的子集? (調用核顯運算時指示調用NPU?)
目前就是另一個黑盒子運算機,不需要opencl/directml,可以直接從程式使用,如果os有開放出來。

gpu/avx,是simd,是1d array的運算

npu/amx/tensor是systolic array,是2d array的運算。

simd也可以matrix運算,但比較沒有效率,因為要一直切換資料。

gpu+tensor/cpu+amx,就是把傳統的1d暫存器擴張到2d暫存器(systolic array),把切換資料的時間省下來。效率可以2x~8x或更多。

現在影像的ai運用,npu是足夠的,這是當初設計npu的目的。就算是現在很紅的diffusion model,NPU也是很適合的,因為不需要即時反應。

現在的問題是,LLM(Large language Model),現在ai炒作其實就是講這個。

LLM吃記憶體吃記憶體頻寬吃運算能力。只用npu來暴力運算是行不通的。

N家的inference optimization文章
https://developer.nvidia.com/blog/mastering-llm-techniques-inference-optimization/

https://reurl.cc/37Nd7V

基本上,LLM的資料其實很鬆散,但很龐大,所以必須要想辦法做各種記憶體的規劃跟重組。

一個壓縮過,重組記憶體排列方法的Model,可以有10x以上的效能提昇,以後可能可以有100x的 提昇。

一個很有趣的例子,intel剛買下的Numenta
https://technews.tw/2023/10/16/intel-xeon-numenta/

他把Sparse的matrix重組成Compressed Sparse Row,然後運用cpu能力去解開到AMX再來運算,就達到10x~20x的提昇。
這個再加各種caching跟attention的優化,100x提昇是很有可能達到的。

趨勢來講,ai還在演變,cpu+amx或gpu+tensor還是會是短期發展的趨勢。

--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 219.70.128.119 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/PC_Shopping/M.1703721942.A.506.html
avans1樓推 專業見解說明 12/28 08:23
hyde1arc2樓 12/28 08:49
sbL3樓 12/28 08:51
tsaigi4樓 12/28 08:53
pinghg5樓推 以免人家說我看不懂 12/28 08:57
labiron6樓推 應該沒人發現我看不懂 12/28 09:13
mtc55667樓推 這篇難得沒吹intel 12/28 09:19
smallreader8樓所以GPU/NPU都還是疏鬆矩陣整個吞下 12/28 09:46
smallreader9樓去硬幹? 囧 12/28 09:46
hidalgo2297610樓他應該是針對LLM而已 attention本 12/28 09:51
hidalgo2297611樓來就是sparse matrix 12/28 09:51
hidalgo2297612樓不過這東西看起來就只是要做user端 12/28 09:52
hidalgo2297613樓而已吧,有要取代gpu的意思嗎 12/28 09:52
hidalgo2297614樓現在attention後期的研究幾乎就是 12/28 09:55
hidalgo2297615樓想辦法不要整個matrix吞下去 12/28 09:55
lpoijk16樓mtl跑ai 我bug還在解 嗚嗚嗚 12/28 09:56
hidalgo2297617樓他提到的compressed sparse matrix 12/28 09:59
hidalgo2297618樓應該就是其中一種,反正各種方式 12/28 09:59
hidalgo2297619樓想辦法不要算那個大矩陣的演算法一 12/28 09:59
hidalgo2297620樓 12/28 09:59
本人21樓大矩陣一定要算的,現在就是合併運算不要 12/28 10:06
本人22樓來回重複讀取大矩陣。另一個方向就是改變 12/28 10:07
本人23樓讀取的方式,更有效利用L2/L3快取。最後就 12/28 10:09
aegis4321024樓model pruning是未來演算法及設計的重 12/28 10:09
aegis4321025樓要一環,但現在不是重點 12/28 10:09
本人26樓是看運算法有沒突破,但這比較難 12/28 10:09
hidalgo2297627樓反正後期就是想辦法不算那個大矩陣 12/28 10:23
hidalgo2297628樓,幾乎也沒什麼特別突出的想法,每 12/28 10:23
hidalgo2297629樓個都在簡化attention matrix的計算 12/28 10:23
hidalgo2297630樓不過他提的npu好像跟你想像的不一 12/28 10:24
延伸閱讀
[閒聊] 現在橫空出世的NPU
[閒聊] 巴哈熱議:聯強沒救千萬別買聯強代理的產
[閒聊] ASRock 工業電腦 Ryzen 8040U系列
[閒聊] X570是否支援ECC unBufferd RAM
Re: [閒聊] 海韻Vertex 1200W在中國傳出天冷災情
[閒聊] 致敬FD的中國玩嘉風琴丐中霸機殼
[閒聊] 芝奇記憶體RMA被判定PCB板毀損
Re: [閒聊] 君主被神化了吧