[情報] DeepSeek繞過CUDA 自己優化底層編程語言

工作

55269

https://x.com/bookwormengr/status/1883355712191123666


關於DeepSeek的優化改進
許多人沒注意到的是:
DeepSeek也繞過了CUDA並使用底層編程語言PTX做優化

在輝達的PTX語言實際編譯流程中
CUDA代碼首先被編譯為PTX代碼
PTX代碼再被編譯為目標GPU架構的機器碼(SASS,Streaming ASSembler)
CUDA起到了提供高級編程接口和工具鏈的作用
可簡化開發者的工作
而PTX作為中間層充當高級語言和底層硬件間的橋樑

PTX允許進行細粒度優化
如寄存器分配和Thread/Warp級別的調整
這種編譯複雜又難維護
所以其他公司用的是CUDA這種高級編程語言

V3硬體效率之所以比Meta高出10倍
關鍵在於V3針對自己需求把132個流式多處理器(SMs)中的20個修改成負責服務器間通信
而不是計算任務
變相繞過了硬體對通信速度的限制
這點是用輝達的PTX實現的,不是CUDA

雖然DeepSeek把優化做到極致
然而同行表示
DeepSeek這種直接編寫PTX代碼的做法很難移植到不同型號的GPU
針對H100優化的代碼移到其他型號上效果打折扣也可能根本不work

--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 111.253.132.195 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/Tech_Job/M.1738151752.A.22B.html
boards1樓恐怖!DeepSeek遭以色列公司起底 可 01/29 19:58
boards2樓生成惡意程式竊取信用卡資料 01/29 19:58
MoonCode3樓換 cpu 就重寫啊 01/29 19:58
hortl2334樓這有點猛 01/29 19:59
royalpichu5樓ASIC 噴 01/29 20:05
jacky403836樓用PTX去優化速度早不是新聞了 就是 01/29 20:07
jacky403837樓維護跟編寫麻煩 01/29 20:07
neil06118樓厲害了 我的國 01/29 20:11
whizz9樓無聊 又不是首次有人用ptx 01/29 20:14
X28338136X10樓那做transformer 加速器有搞頭嗎 01/29 20:33
shyshyan11樓資料都開源了是在恐怖三小 01/29 20:42
olozil12樓翻譯:中國人礦便宜用人硬幹 01/29 21:18
johnjohnlin13樓難移植的是後端吧,前端我怎麼記得 01/29 21:42
johnjohnlin14樓CUDA 4早就改LLVM了 01/29 21:42
mercedeces15樓nv賺,還是用它的 01/29 22:10
MatTZerS16樓請問 SM 用於通訊是什麼意思 01/29 22:12
abc2108699917樓換個硬體就不能用很麻煩欸 01/29 22:30
c96385200218樓黃大:不講武德改我晶片? 01/29 22:49
Aquarius12619樓不用C語言改用ASM組合語言優化的概 01/29 23:15
Aquarius12620樓 01/29 23:15
MisterSmile21樓井蛙:看吧,他們就是用手刻 01/29 23:43
HiHiCano22樓小量還可以啦 大量你換gpu要重寫會 01/29 23:43
HiHiCano23樓死人的 01/29 23:43
IndeedGod24樓一樓黑熊部隊嗎?這裡是科技版不是 01/29 23:43
IndeedGod25樓八卦版 01/29 23:43
ohohohya26樓沒事 到時候真的證明抄襲chatgpt會 01/29 23:57
ohohohya27樓哭的更大聲 01/29 23:58
tactics210028樓反正窮人又換不起 deepseek指定的硬 01/30 01:14
tactics210029樓體 有錢換的也是一批就買幾千台以上 01/30 01:14
tactics210030樓然後操到爛 又不會頻繁更換硬體規 01/30 01:14