[新聞] 繁中資料量落後簡中不利台AI語言模型

工作

733811

hvariables

https://ec.ltn.com.tw/article/paper/1613748

EC.LTN.COM.TW

繁中資料量落後簡中不利台AI語言模型 - 自由財經

國科會發展台版可信任AI對話引擎TAIDE 防堵中國偏見論述〔記者歐宇祥／台北報導〕近年中國影視創作、短影音平台大舉跨境滲透台灣，時而引發對台認知作戰的疑慮，且台灣發展生成式AI（人工智慧）等技術

繁中資料量落後簡中不利台AI語言模型

2023/11/05 05:30

https://img.ltn.com.tw/Upload/business/page/800/2023/11/05/119.jpg

國科會推動台版生成式AI，結合產官學研開發「TAIDE」，耗時4個月推出初階成果，投入
70億個參數量，幫AI上繁體中文課，前在自動摘要、翻譯文本、寫信、寫文章等都有不錯
表現。（資料照，記者吳柏軒攝）

國科會發展台版可信任AI對話引擎TAIDE 防堵中國偏見論述

https://img.ltn.com.tw/Upload/business/page/800/2023/11/05/120.jpg

國科會今年6月發表「可信任人工智慧對話引擎」（TAIDE）7B模型。國科會主委吳政忠（
左）表示，TAIDE是「打地基」，未來將提供公私部門加值應用，並守住台灣擁有的珍貴
繁體中文語料。（中央社資料照）

〔記者歐宇祥／台北報導〕近年中國影視創作、短影音平台大舉跨境滲透台灣，時而引發
對台認知作戰的疑慮，且台灣發展生成式AI（人工智慧）等技術也須留意資料準確性、以
免生出不當答案。AI領域專家坦言，目前繁體中文資料量遠少於簡體中文，加上台灣網路
社群的知識性分享風氣相對不盛，對我國開發AI大型語言模型相當不利。

台算力、資料資源相對有限

ChatGPT帶動AI軍備競賽，我國政府是由國科會發展「可信任人工智慧對話引擎」（TAIDE
）計畫，產官學各自前進；不過發展AI燒錢，台灣算力、資料等資源都相對有限，研究單
位資金更緊缺，日前研究經費僅約三十萬的中研院AI語言模型，因出現中國觀點的回應，
引起軒然大波。

中研院資通安全專題中心執行長李育杰指出，生成式AI需要大量文本資料用做訓練、再運
用機器運算進行「接龍」、產出內容，受資料集影響大；而中研院爭議是源自於使用的
Llama 2模型，因含有中國資料集、易產生相應觀點答案，加上中企、研究單位大力投入
AI研發，都凸顯台灣需要自己的大型語言模型。

台灣人工智慧協會理事黃逸華分析，目前開發AI模型可將簡中資料轉換成繁中，或將簡中
資料剃除，但繁中資料量相對較少，可能使AI模型較容易出現幻覺（Hallucinations；即
無法作答的空白，可能以虛構來填補答案），或功能會較為侷限，且此問題是十數年積累
、短期難解，若使用PTT等平台資料，處理成本又高。

李育杰也認為，PTT、Dcard等台灣本土社群的用語生命週期短，加上資料雜亂可能蘊含謾
罵、火星文，品質不一定好，若要用在AI大型語言模型訓練需再經處理；即使都以繁中資
料訓練，AI仍可能生成不如預期的答案，以現行技術無法一○○％掌控規則與結果，只能
盡量隔絕不希望AI學習的資料與內容。

--
佛沒說小乘、大乘。上座部佛教馬哈希尊者《具戒經講記》拆穿假佛教大乘經典的騙局。
上座部佛教明昆《南傳菩薩道》是真釋迦牟尼佛的菩薩成佛之道大乘是假菩薩成佛之道
妙法蓮華經華嚴經心經金剛經楞伽經梵網經菩薩戒圓覺經楞嚴經是大乘假佛經
阿彌陀佛藥師佛是大乘假佛觀世音文殊普賢維摩詰龍樹地藏王是大乘假菩薩
https://www.ptt.cc/bbs/soul/M.1523979060.A.68C.html
上座部佛教目犍連子帝須和那先破偽經大乘十方諸佛

--

※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 61.230.165.15 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/Tech_Job/M.1699186695.A.5A6.html

→ jupei1樓還不都中文有差？ 11/05 20:50

→ Skydier2樓上次不是被抓包套皮中國的系統 11/05 20:55

physicsdk3樓我不會說沒差，但既然簡中有優勢，就還是需要多參 11/05 20:58

→ physicsdk4樓考求自己進步，不能為反而反 11/05 20:58

gino07175樓除了政治話題外有什麼資料是繁中有簡中沒有的 11/05 21:03

a22222a42106樓繁轉簡沒啥問題簡轉繁很多字會轉不過來 11/05 21:08

yunf7樓這原本就是一個政治操作原本就只有2000多萬人口的產 11/05 21:10

→ yunf8樓出要怎麼會多過13億人口的產出你可以說這是一個與愛 11/05 21:10

→ yunf9樓發展的困境也可以說他根本就不是一個問題這個問題會 11/05 21:10

→ yunf10樓產生完全是因為你選擇使用這樣的方向發展而不是使用 11/05 21:10

→ yunf11樓一個量少質精的方向發展會遇到這種問題根本就是遲早 11/05 21:10