1.媒體來源:
iThome
2.記者署名:
文/王宏仁 | 2025-02-08發表
3.完整新聞標題:
三位臺灣AI專家發起DeepSeek R1改造計畫,要打造繁中版開源授權的推理模型
4.完整新聞內文:
這項計畫將以DeepSeek R1為基礎來進行改造,透過重新訓練模型的方式,並以開源授權
釋出模型權重,也就是採取開放權重的策略釋出,最後還會打造新的模型身份與品牌
OpenAI去年發表了新一代推理模型o1之後,讓眾人看到GAI開始媲美真人博士或軟體開發
高手般的解題能力,掀起了新一輪的大型語言模型競賽。春節期間,以開放權重釋出的De
epSeek R1模型,大幅降低了這一波推理模型競賽的門檻,成了全球AI產業的熱門焦點,
開始浮現客製化推理模型的趨勢。
臺灣也有三位AI專家,在2月7日發起了一項臺灣製造大型語言模型計畫,專案代號「自由
鋼普拉」(FreedomGunpla R1),希望募資3千萬元,預計在3月底釋出第一版預覽的推理
模型。
這款引起全球AI圈熱議的DeepSeek R1模型,在論文中揭露了多項媲美甚至超越OpenAI o1
推理模型的能力,因為可以部署到本地端,來避免企業自己的機敏資料上傳到網路,而引
起AI圈的重視,不過,R1模型簡體版用戶協議中提到自己通過三項中國AI法規的備案,也
讓外界擔心這款模型生成的內容偏重於對齊中國價值。
因此,臺灣有三位不同AI領域的專家,發起了這項重新改造DeepSeek R1,來打造對齊多
元價值的繁體中文版推理模型計畫「自由鋼普拉」。這三位發起人,包括了AI PM助理新
創MeetAndy AI創辦人薛良斌,Taiwan LLM開發者林彥廷以及雲端遊戲軟體開發供應商Ubi
tus的執行長郭榮昌。
薛良斌是台灣生成式AI年會主辦人,也是知名售票平臺KKTIX和MLOps新創InfuseAI的共同
創辦人,由他來負責募集這項模型改造計畫的資源。
林彥廷則是具有中文大型語言模型訓練經驗的專家,他剛結束了在Meta的實習,參與了Me
ta訓練Llama模型的過程。林彥廷將負責FreedomGunpla R1的模型訓練工作。而最後一位
郭榮昌則擁有大規模GPU叢集管理經驗,旗下公司曾獲得Nvidia破億元投資,也擁有亞洲
最大的GPU農場。郭榮昌將負責算力架構和管理。
臺灣目前也有幾款繁中版大型語言模型,主要以Meta釋出的Llama模型為基礎來客製訓練
,但薛良斌認為,Llama 3模型不夠聰明,甚至用以「太笨了」來形容,他指出,如果想
要打造出自主能力的AI代理,使用媲美O1等級推理能力的模型是最低標準。
這項計畫的技術重點包括了,將以DeepSeek R1為基礎來進行改造,透過重新訓練模型的
方式,並以開源授權釋出模型權重,也就是採取開放權重的策略釋出,最後還會打造新的
模型身份與品牌。薛良斌強調,這不只是一個技術專案,更是一項文化工程,因為這是一
項多元價值觀的對齊任務。
預計分三階段來實現目標,第一階段先對齊西方價值觀,可能導致模型推理能力下滑,薛
良斌評估,很高機率達成這個里程碑。第二階段再進一步讓變笨的模型變得聰明,這部分
則需要投入更多資源來驗證。這項計畫的終極目標是,不論使用者用繁體中文或是英文時
,這款模型的表現可以比使用簡體中文更好。
這項計畫希望募資3千萬元,將由財團法人開放文化基金會(OCF)處理募資,專款專用,
透過這筆資金,希望至少可以訓練兩次模型。在時程上,初步預計2025年3月底前釋出第
一版預覽模型,開始搜集早期測試者的意見回饋後快速迭代,再釋出最終的版本。
5.完整新聞連結 (或短網址)
https://www.ithome.com.tw/news/167280
6.備註:
台灣專家以日本自由鋼普拉之名站在中國DeepSeek的肩膀上。
熟悉的台灣味,純正濃郁,請國人儲值支持。
--