[新聞] 中研院 AI 大翻車!繁中大型語言模型 CKI

八卦

26215124

1.媒體來源:
科技新報

2.記者署名:
林妤柔

3.完整新聞標題:

中研院 AI 大翻車!繁中大型語言模型 CKIP-Llama-2-7b 目前已下架

4.完整新聞內文:

中央研究院詞庫小組(CKIP)最新釋出可以商用的繁中大型語言模型(large language
model)CKIP-Llama-2-7b,「孵.大學」校長謝昆霖直言「中研院 AI 大翻車!」,在仔
細端詳內容後他立刻跟夥伴說「一定會出問題」,目前這款模型已於今(9 日)中午下架


謝昆霖解釋,這款語言模型的多任務微調訓練,是使用「COIG-PC 資料集」和「
dolly-15k 資料集」這兩款簡轉繁資料集。前者是北京星塵數據 stardust.ai 提供網路
資料集,以中國 AI 相關研究單位為首,超過二十所全球知名大學和機構共同編制。

根據 COIG-PC 資料集網站,重點機構包括北京人工智慧學院、北京大學、香港科技大學
、北京郵電大學、中國LinkSoul.AI、中國 LinkSoul.AI、加拿大滑鐵盧大學和英國謝菲
爾德大學;至於 dolly-15k 資料集是一個以簡體中文為主的一般性知識問答對話資料集


謝昆霖認為,用簡體中文的資料,再透過 OpenCC 翻譯成繁體中文,就能訓練出台灣可用
的訓練資集嗎?答案絕對是否定的。除了用字遣詞的差異,還包含很多的民生知識、文化
知識,用北京研究機構校正是「適用於中國的民生、文化知識」,再修剪成「台灣版」,
再監督與修正的總體成本會高於「認份做台灣的資料集」。

此外,評鑑也是個大問題。謝昆霖稱,中央研究院詞庫小組說這款 LLM 經過C-Eval中文
模型評測,但這是「中國清大」、「中國交大」開發的中文基礎模型評量系統。簡單來說
,中研院用簡轉繁的資料集訓練完他們認為適用台灣的基礎模型,再派它考中國考試,計
算分數。

中研院說明這款語言模型可用於「學術、商業使用、文案生成、文學創作、問答系統、客
服系統、語言翻譯、文字編修、華語教學等。」謝昆霖直言,一般商用的還好,但用於後
面幾項「會出事的」。

謝昆霖表示,台灣的確嚴重缺乏在地語言資料集的困境,因為真的超級燒錢,是以億為單
位計算的,要做好可能相當於好幾個軍購案做好多年,政府難編列預算、民意機關難說服
投資、民間企業不可能投資做語言數位化,但資料集是AI時代的基礎建設。

對此,謝昆霖表示自己建立一個開放社群「中華民國台灣開源語言資料集_建立、收集、
標註、監督、評鑑」,在合法的範圍內把建立台灣在地的訓練資料集,用眾人的力量做,
這樣台灣的商用的AI才有在地的訓練資料可以用。

他也認為,AI 時代的競爭,需強化台灣在地用詞的資料收集、建立資料集,建立熟悉台
灣在地文化的 AI,視為國防/國安投資,有急迫性和必要性。

另有 PTT 網友做測試,發現問一些敏感問題,基本上回答都相當「出乎意料」,也不難
理解語言模型緊急下架的原因。

5.完整新聞連結 (或短網址)不可用YAHOO、LINE、MSN等轉載媒體:

https://technews.tw/2023/10/09/ckip-llama-2-7b-2/

6.備註:

--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 1.165.72.58 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/Gossiping/M.1696849484.A.648.html
tmgl1樓不管啦八又翻 10/09 19:05
aassddgg2樓八又翻 10/09 19:05
lesnaree23樓抗中保....台 10/09 19:05
qwe789714樓外包大臣 10/09 19:05
sheepxo5樓這車翻得很大 10/09 19:05
waijr6樓中研院該不會只有做繁簡轉換吧.... 10/09 19:05
orangehb7樓外包專家失靈了 10/09 19:05
nikewang8樓笑屎 10/09 19:06
prostar9樓數發部呢? 10/09 19:06
waijr10樓我國的AI只有研發把簡中繁簡轉換也太鳥了 10/09 19:06
cth556611樓抗中保台大成功 10/09 19:06
koexe12樓本來就很誇張 10/09 19:06
WaWa313樓可憐吶 10/09 19:06
ziya14樓民進黨政府 又翻車 可憐啊 10/09 19:06
mike4215樓垃圾政府整天浪費錢再下架欸 10/09 19:06
jma30616樓咩 修 桿 某 10/09 19:06
adk14785217樓別怕 我們稅金挺你 10/09 19:07
QQ10118樓直接用簡中資料庫 哈哈 10/09 19:07
yeap19319樓視頻/二維碼/打錢/三觀 要通通入侵啦XD 10/09 19:07
mopepe556620樓等統一後,套祖國資料就可以 10/09 19:07
nh60211as21樓政府很有錢 10/09 19:07
ziso22樓經費又噴掉了 準備再編新預算 10/09 19:07
koexe23樓而且是可以直接驗證的東西 10/09 19:07
qweertyui89124樓有政府 會 10/09 19:07
Leo489125樓買中國的語言模型 再重新訓練 比較省錢 10/09 19:07
Mradult26樓簡轉繁需要中研院來做喔? 10/09 19:08
Leo489127樓還沒訓練完 只能下架阿 10/09 19:08
Kt5100028樓中國英翻中,台灣簡轉繁,結論兩岸一家 10/09 19:08
u5604110929樓反中結果用中國資料 這就是垃圾綠共 10/09 19:08
Kt5100030樓 10/09 19:08