[閒聊] LLM 推理用機器

PC購物

標籤:閒聊
28161


由於最近 LLM 發展越來越快,剛好自己也有一些 LLM 的需求。
但又不想要使用 OpenAI 或是其他供應商的服務。
從前幾個月開始就有想要自己弄個機器來架設服務的想法。
最近開始也對高參數的模型越來越好奇,但由於大容量 VRAM 的 GPU 實在是買不起,所以想說是不是轉用 CPU 來玩玩看。
我看了很多技術分析和 Benchmark,基本上都說 LLM 的 inference 目前是 memory bound,也就是 memory bandwidth 是瓶頸。
所以按照這個思路用 CPU 來跑模型的話首要提升的就是 DDR 的 bandwidth。
我看了下 threadripper 和 xeon 的幾個型號,其中我覺得 CP 值比較高的是 Intel 3435x 可以 8 通道 DDR5-4800,換算起來頻寬大概是主流 PC 的 3-4 倍。
但我去拉了下估價單 W5-3435X (56500$) + Asus Pro WS W790-ACE (27990$) + Kingston 32GB 4800MT D5 ECC * 8 (40800$) = 125290$
為了要用這顆 CPU,整個成本算起來根本不比買多張卡來得划算多少。
我就在想是不是還是 GPU 多卡買一買就好了,反正即使 256GB 的 Ram 放得下的模型在我的平台上根本也跑不動。
唯一想到的用途就是同時開很多個 instance 來服務不同的需求。
(上上個月還有海淘一張 2080Ti 22G 來試試看,結果用沒幾天就壞了... 還好能退)
最近也有在看 AMD 的 Strix Point,這代預期的 iGPU 是 RDNA3+ 16CU 大概 RTX-2050 的效能,但因為可以 DDR5-5600 所以擴充性會比 Strix Halo 只能用 LPDDR5x 來得好。
選 Strix Point 就等同於犧牲了當初追求的效能,但優點是低功耗而且便宜。
是不是應該等 Strix Point 出來組一台 128GB 的平台來跑跑小模型就好。
相比多卡的方案用 iGPU 的好處就是低功耗,但效能實在是天差地別。
有人也有類似的煩惱嗎?
我自己的話預算希望是 100k 以內,最多捏到 150k。

-----
Sent from JPTT on my Xiaomi 23127PN0CG.

--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 118.160.35.51 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/PC_Shopping/M.1718523808.A.521.html
popblue1樓何不先用AWS測試你需要什麼硬體規格再來 06/16 16:05
確實好像可以先去雲端平台租高階 CPU 來玩玩看,這我倒是之前沒想過。 之前對於雲端平台就只想到租 GPU 而已。
popblue2樓買? 06/16 16:05
moonlightz3樓用mac會不會比較好? 06/16 16:07
Mac 的話剛看了下 Mac Studio 好像也不是不行,但稍微爆預算。
greg75754樓4090 屌打各式CPU 06/16 16:14
vieris5樓用cpu跑太慢了 用gpu的話沒有40g以上的ram 06/16 16:30
vieris6樓根本塞不進LLM 有自己訓練的需求不如去租s 06/16 16:30
vieris7樓erver來用 06/16 16:30
我的需求只有推理,所以不需要考慮租用大 GPU 來訓練。
scarbywind8樓去對岸挖過時的EPYC比較有機會吧 06/16 16:31
scarbywind9樓
06/16 16:34
scarbywind10樓如果你有辦法用cpu去跑的話 06/16 16:35
scarbywind11樓24通道 40萬台幣 06/16 16:36
scarbywind12樓不過這好像跟過時沒關係(X) 06/16 16:37
嚴重爆預算 這真的捏不了...
spfy13樓所以你還沒測過CPU跑的效果? 06/16 16:42
我有先用目前的配備用 CPU 跑過,7b q4 大概 12 t/s,我覺得已經夠用了。 但如果想要跑大一點的模型像是 70b q4 的話就只有 0.9 t/s,遠遠達不到可用的狀態。 內文裡面少講一點就是如果改用 Strix Point 的話就是日常使用沒問題,但就跟大模型說掰掰了。 以換換病的比喻就是吃了止痛藥但未來可能還會發作。
ptta14樓colab pro, AWS都可以先測試一下? 06/16 16:47
ptta15樓花個幾百塊台幣而已 06/16 16:47
嗯嗯 我覺得我應該會朝著使用雲端平台租個高階 CPU 來先試試看效果
kivan0016樓先試看看花多少時間建立環境跟調整 用用 06/16 17:12
kivan0017樓看囉 Nvidia猛的是在生態 06/16 17:12
yymeow18樓我自己跑GPT的心得是,瓶頸在GPU 06/16 17:32
AIRURU19樓可以考慮用vast租2-4張4090跑跑看感受下效 06/16 17:33
AIRURU20樓 06/16 17:33
我的用途會比較像是長期在線的,主要會拿來跑 code completion, 日文翻譯和 rag。如果是租用 4 張 4090 的話感覺長期使用成本太高。
yymeow21樓然後還跟VRAM有關係,VRAM不夠,給的文章 06/16 17:33
yymeow22樓長一點,就讀不下去了 06/16 17:34
AIRURU23樓我的意思是先用租的確認模型執行需要的vra 06/16 17:55
AIRURU24樓m,例如先跑q4評估精度、速度可不可用上下 06/16 17:55
AIRURU25樓文要多長,如果tps很夠用可以再考慮是否降 06/16 17:55
AIRURU26樓級改更多卡湊vram 06/16 17:55
是不是即使是大模型上在實務上還是比較建議用多卡 GPU 而非 CPU 呀。當初會首要考慮 CPU 主要是因為覺得推理用不到那麼多的算力,所以想說選 CPU 比較好擴充 ram。畢竟我看 llama.cpp 的討論串裡面大家分享出來的效能真的就是跟 memory bandwidth 成正比,不論是 CPU 還是 GPU 都是這個結果。
narukaza27樓這預算怎麼會是選INTEL,連垃圾佬都不 06/16 18:23
narukaza28樓撿的東西(X 06/16 18:23
narukaza29樓EPYC 7002 7003對岸撿不是隨便都比W5-3 06/16 18:23
narukaza30樓435好嗎,你看我剛撿的7K62單顆都吊打3 06/16 18:23
延伸閱讀
[閒聊] Computex 2024之我的所見所聞(存儲篇)
[閒聊] Intel內部調查結果
[閒聊] 618組電腦請教
[閒聊] Computex 2024之我的所見所聞(PC篇-下)
[閒聊] CAMM2淺談
[閒聊] 欣亞台南店售後服務心得
[閒聊]Computex 體驗用單手拆卸與安裝BTF顯卡
[閒聊] Computex 2024之我的所見所聞(PC篇-上)