[請益] 跑llama 顯卡選擇

PC購物

26190

因為最近有再跑llama sakura翻譯
目前都是用日常用機的7900XTX來跑

想要多買一張卡放在另一台電腦跑

目前使用的模型是
sakura-14b-qwen2beta-v0.9.2-iq4xs
7900XTX速度是63 t/s

https://i.imgur.com/xKmQ5N3.png

目前在2張卡中選擇
4060ti 16G
7800XT 16G

以AI泛用性來講可能是N卡
但是目前來看ROCM的版本速度也不輸N卡

以跑llama的情況下是否7800XT略勝一籌?

--

※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 122.116.75.164 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/PC_Shopping/M.1728787854.A.000.html

gameguy1樓A6000 ads不用謝我 10/13 10:54

sachialanlus2樓建議試試看用 ollama + ainiee 來翻 10/13 11:06

→ sachialanlus3樓譯，不要用 sakurallm 自己的 back 10/13 11:06

→ sachialanlus4樓end。 10/13 11:06

→ sachialanlus5樓如果是 llama.cpp 的話記得把 promp 10/13 11:06

→ sachialanlus6樓t_cache 打開，不用每次都重跑 syst 10/13 11:06

→ sachialanlus7樓em prompt。 10/13 11:06

→ sachialanlus8樓另外 inference 完全是 memory boun 10/13 11:06

→ sachialanlus9樓d，可以直接按照 vram bandwidth 來 10/13 11:06

→ sachialanlus10樓選卡即可，速度基本上就是 "模型大 10/13 11:06

→ sachialanlus11樓小/頻寬" = n token/s。 10/13 11:06

所以跑llama只跟頻寬有關？與核心算力沒關？

→ sachialanlus12樓啊對了 sakurallm 14b 出 v1.0 的模 10/13 11:08

→ sachialanlus13樓型了 10/13 11:08

→ hHolic14樓AI應用瓶頸都在VRAM 吞吐跟不上運算 10/13 11:26

→ sachialanlus15樓輸入的部分也就是 prompt eval 和 10/13 11:27

→ sachialanlus16樓算力有關而生成的部分 token gener 10/13 11:27

→ sachialanlus17樓ation 則和 memory bandwidth 有關 10/13 11:27

→ sachialanlus18樓主因是現在顯卡的算力遠大於頻寬通 10/13 11:27

→ sachialanlus19樓常瓶頸都是卡在 token generation 10/13 11:27

→ sachialanlus20樓現在出的很多加速手段底層原理都有 10/13 11:31

→ sachialanlus21樓用到 recompute 就是寧願重新計算也 10/13 11:31

→ sachialanlus22樓要省 vram 傳輸量藉此來提高速度 10/13 11:31

所以頻寬來講 7800xt 624.1gb/s > 4060ti 288gb/s 所以上7800XT比較好

chang1248w23樓長見識 10/13 11:57

sxing632624樓4張V100 10/13 12:21

yesheyman25樓請問rocm是指6.2最新那版? 10/13 12:30

jhjhs3350426樓至少挑Qwen2.5或llama3.1之後比較聰明 10/13 14:16

jhjhs3350427樓之前的必須進行一番提示工程才達能用 10/13 14:20

jhjhs3350428樓借串問一下UALink有下文嗎? 10/13 14:22

→ soulgem29樓14b 用 16G VRAM 真的可以跑嗎? 10/13 14:44

→ soulgem30樓印象中不見得就是 1:1, 可能要實驗... 10/13 14:45

PTT鄉民日記

[請益] 跑llama 顯卡選擇

PC購物