Re: [討論] 中研院繁中LLM被爆直接拿對岸的來套

軟工

67532

: 中央研究院詞庫小組(CKIP)
: 中研院資訊所、語言所於民國75年合作成立
: 前天釋出可以商用的繁中大型語言模型(LLM)
: CKIP-Llama-2-7b
: 以商用開源模型 Llama-2-7b 以及 Atom-7b 為基礎
: 再補強繁體中文的處理能力
: 參數量達70億
: 模型可應用於各種領域
: 包括文案生成、文學創作、問答系統、客服系統、語言翻譯、文字編修、華語教學等
: 但實際測試後
: https://i.imgur.com/phwhfcl.png

: https://i.imgur.com/O1P6HpS.png

: https://i.imgur.com/cMnCbI8.png

: 測試網頁:https://reurl.cc/q0rbqn
: 拿這種東西出來交作業 太扯了吧
: 根本就是簡體直接轉繁體而已!
: 中研院資訊所耶 拿這種軟體來騙
: 更新:被發現後 悄悄地撤下來了
: https://i.imgur.com/sy7rLgt.png



小弟待的公司,非學術單位,
可能是台灣硬體計算資源稍微豐富的公司。
公司投入在買GPU 應該近億了。
自己也研究了幾個月 fine-tune 方法。
不過,還是沒足夠能力與資源訓練正常的LLM。

主要卡在三方面:

1.資料面,會卡什麼?:
並不是像版友們說的:繁體中文語料過少,
這根本不是一開始會遇到的問題。

光是 Common Crawl 真的有人去看繁體中文的量有多大嗎? 有人願意像Meta一樣去處理清洗資料後再去訓練嗎?

光是處理資料,所需的硬體採購,
大概要到一億新台幣來建置機房。
這還是稍微能用而已。
繁體中文資料難蒐集根本是假議題。

你的公司,沒錢買設備,沒資源
不願意讓你投幾億成本處理清洗資料才是事實。

我只看過中研院與聯發科之前的Bloom-zh-3B論文。光是他們這點就卡住了。
資料只能用玩具級的做法來做。
到處砍,到處刪CC的資料。

而且該論文也說了,自己只是 fine-tune別人的Bloomz 模型,不是從新訓練。
嗯,光是模型大小,1B1或3B的,聯發科語中研院就"沒有能力"重新訓練了好嗎。

看了 只fine-tune LLaMA-2-7B這種等級的模型。
大概也很容易說明了,硬體經費根本不足。
這種經費會卡到的不是繁體語料不足,
而是根本沒機器或資源給你清洗處理資料。



2. 訓練模型會先卡什麼?

目前,台灣任何一個單位,根本沒能力研發LLM模型架構。台智雲,中研院,或其他任何單位。
都是基於LLaMA2上去 fine-tune的。
所以模型都是 7B 13B 70B大小。

而是大概都是用QLORA或相關技術去 fine-tune的。這些都是open source直接去套而已,
完全沒有任何技術門檻。
(只有誰願意採購幾千萬硬體的門檻而已)

所有不拿大量通用資料,只 fine-tune少量資料
都有一個問題:
你可以over-fitting去嵌入所有你想要的模型輸出文字,但災難性遺忘所有通用知識。

同樣的,你可以控制模型永遠只輸出英文與繁體,只輸出台灣知識。但模型的通用性,絕對是差到不能用的。

所以台智雲,或中科院這種等級訓練出來的模型,通用型有待商確,可能問一些很基本的常識就掛了。

這不會先卡到中研院CKIP技術太差,
(我是非常敬佩CKIP這幾年的努力的)

會先卡到的是:
是否願意投個幾十億建立基礎訓練平台而已。

如果沒看到一個像樣的訓練平台,千張 A100這種等級的。
短視到只願意fine-tune
輸出少數大家想看的輸出,
當然永遠災難性遺忘通用能力。
永遠沒有一個可商用,可通用的機會。

當然也可以用雲計算租GPU,但是費用也不便宜,沒丟個幾億都是不夠的。
國家要給中研院幾個億去玩LLM,
會先被輿論幹翻吧。


3.人才面

台灣並沒有很多人在真正訓練/微調LLM。

你去看各種AI研討會,或所謂都LLM專家,幾乎都是在吹自己的prompt如何試錯。
在吹自己怎麼用OpenAI的API。

其實人才的建立,最先卡的也不是沒錢。

中國人,一堆只有幾萬元台幣的消費級顯卡的人,都在fine-tune LLM了,其實買個6萬台幣的電競筆電也能做很多事情了。但台灣就是沒這種風氣。

在台灣各種專業研討會,做prompt trick的人,比傻傻的在處理資料,training/fine-tune模型的人,紅很多。人才與風氣走偏了。

能用 prompt 就能獲得大量經費,成為專家,誰願意研發training/fine-tune技術。


結論:
小弟是很看好中研院的能力,可惜整個台灣AI風氣,與商業玩法,技術再強的人,大概都難以發揮。



--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 42.72.54.199 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/Soft_Job/M.1696834412.A.CAF.html
luckyalbert1樓數發部那兩百多億真的不知道在衝三小用的 10/09 14:59
rabbitu042樓都可以花十幾億弄個不能用的球場了 我們國家很有錢的 10/09 15:01
rabbitu043樓黨要不要而已 10/09 15:01
NDark4樓 10/09 15:11
qwas651665165樓不同預算直接比跟算營養午餐那套有啥差別,問題在 10/09 15:14
qwas651665166樓好多公司上層都在吹自家有微調大模型的能力,結果 10/09 15:14
qwas651665167樓給的機器少得可憐,再怎麼厲害的人也無能為力 10/09 15:14
qwas651665168樓如果能理解"給多少資源做出來就是多少能力"還好, 10/09 15:19
qwas651665169樓怕的是你做出來老闆叫你跟OpenAI的大模型比 10/09 15:19
drysor10樓推~ 10/09 15:36
luckyalbert11樓很多公司房營收獲利來源就跟鬼島政府一樣短視近利, 10/09 15:40
luckyalbert12樓僅靠擁護某些人的利益卻想藉由搶/死他人來獲益,對這 10/09 15:40
luckyalbert13樓類人而言能做的僅次於一樣的無能及可悲。這年頭各種 10/09 15:40
luckyalbert14樓事情及衝突其實已經跟所有人告誡,從各面向觀之,只 10/09 15:40
luckyalbert15樓想賺自己的那些終究會葬送在自己的手裡,並且把整體 10/09 15:40
luckyalbert16樓環境弄成一攤死水 10/09 15:40
luckyalbert17樓出張嘴短視近利靠混及騙來的不代表你多厲害,反而還 10/09 15:42
luckyalbert18樓會有更多產業內外的人們,因你(這類人)在位而被害 10/09 15:42
luckyalbert19樓@抱歉SE鍵盤太小打錯字是 公司方* 10/09 15:43
luckyalbert20樓那還不如不要無腦就跟著做下去更好 10/09 15:44
Csongs21樓台灣公司一堆稱有ai單位,也沒做出什麼東西嗎 10/09 16:00
luckyalbert22樓我原醫藥產業各式台外商政商及其各式職司就更不用提 10/09 16:02
luckyalbert23樓,那種情況比科技業能有準則判定立馬有成效數據孰優 10/09 16:02
luckyalbert24樓孰劣更明顯,而且動輒國際及國家資源獨寡占上兆耗費 10/09 16:02
luckyalbert25樓而言資源偷拐搶騙比科技業跟軟工還誇張的可怕,目前 10/09 16:02
luckyalbert26樓我原產業得志又得利的小人們佔多數,拿他們沒辦法而 10/09 16:02
luckyalbert27樓且他們各式所為還不會被評判攻擊的這麼明顯,反過來 10/09 16:02
luckyalbert28樓其他人還會被這些人評判,錯誤方變成對的那一方,對 10/09 16:02
luckyalbert29樓的變成錯誤方還要被要求檢討自己來證明這些人沒問題 10/09 16:02
luckyalbert30樓,更莫名奇妙,中研院現在那個生醫園區及我原產業那 10/09 16:02