原文標題:
全球首款「繁體中文」AI 大型語言模型登場!聯發科攜手中研院打造
原文連結:
https://3c.ltn.com.tw/news/53050
發布時間:
2023/04/30 18:52
記者署名:
劉惠琴
原文內容:
美國新創科技公司 OpenAI 以基於 AI 生成式打造的強大語言模型 GPT-4,透過大量的語言
材料與資料訓練等技術,讓會說人話的「對話式」AI聊天機器人ChatGPT,從去年底開始火
速於全球掀起風靡熱潮後,不但可輸入文字進行問答,現在還能給出圖片讓AI去解讀,甚至
還能要求AI生成所需要的圖片範例。與此同時,各大科技巨頭廠商,也爭相投入這波創新AI
技術競賽的浪潮。
不讓 GPT-4 專美於前,身為IC設計龍頭的聯發科於官網宣布,旗下來自前瞻技術研究單位
的「MediaTek Research」聯發創新基地,近幾年來以致力深耕人工智慧技術領域為主要核
心,日前已成功開發出全球首款以繁體中文打造、具備增強AI生成訓練的大型語言模型「BL
OOM-zh」,並公開釋出該原始碼的測試模型提供外界下載,除能直接輸入繁體中文進行問答
或生成文案之外,同時兼具支援英文等多語言能力。
由於現有多數開放原始碼所釋出的大型語言訓練模型,主流普遍大都傾向以英文作為首要語
言與主要優化版本,相較下,以繁體中文所打造的預生成式AI語言訓練模型,則是較為少見
,且資料量也相對不足。
有鑑於此,聯發創新基地於去年五月就已攜手與中研院、國家研究院展開合作計畫,透過三
方共同組成的AI研究團隊,以打造出全球首款使用繁體中文作為主要對象的大型語言模型「
BLOOM-zh」為主要訴求,欲藉此讓與繁體中文相關的AI人工智慧技術、研究與應用,能更進
一步地加速普及化。
聯發科表示,聯發創新基地的AI研究團隊,於今年成功開發的首個繁體中文「BLOOM-zh」大
型語言模型,主要運用兩大關鍵技術,其一,就是使用能理解包括中文、英文、法文與越南
文在內、共計46種語言的「BLOOM」大型語言模型,以「BLOOM」既有具備的繁體中文模型與
英文模型作為開發基準。
其二,則是另外擴展涵蓋新聞、書籍、教育、百科全書與口語化等多個領域文章,包含中文
與英文共計74億個參數值,作為預訓練模型。
同時,並使用來自國家教育研究院提供的大量高品質繁體中文作為主要訓練材料,加上聯發
科制訂以符合國際標準繁體中文評量指標的硬體性能訓練環境,與收集近期較新語言材料,
以訓練模型能具備有更易於讀懂使用者輸入指令的高效率執行能力。還有,來自中研院針對
該語言模型生成的文字,進行自動偵測與評估修正,避免生成的文字內容具有特定偏見或敵
意等不適內容。
BLOOM-zh 繁體中文大型語言模型釋出開源,點下列網址可前往試用、下載
https://huggingface.co/ckip-joint
另,補充說明的是,上述內文提到的「BLOOM」模型,是由總部位於紐約的AI新創公司 Hugg
ing Face,集結全球60個國家、逾一千多位研究人員、於去年2022年推出「BigScience」開
源專案項目的成果,「BLOOM」大型語言模型,具備高達1,760億個參數值,並擁有理解46種
語言與13種程式語言的能力。
心得/評論:
原來聯發科也有AI團隊,一直以為只有做硬體,少數軟體部份也是EDA之類的輔助軟體,沒
想到已經有在做中文AI了。繁中版且不是中國那種擋住一堆敏感詞版本,最近應該很多人會
試用
--