[新聞] 繁中資料量落後簡中 不利台AI語言模型

工作

733811

https://ec.ltn.com.tw/article/paper/1613748

繁中資料量落後簡中 不利台AI語言模型

2023/11/05 05:30

https://img.ltn.com.tw/Upload/business/page/800/2023/11/05/119.jpg

國科會推動台版生成式AI,結合產官學研開發「TAIDE」,耗時4個月推出初階成果,投入
70億個參數量,幫AI上繁體中文課,前在自動摘要、翻譯文本、寫信、寫文章等都有不錯
表現。(資料照,記者吳柏軒攝)

國科會發展台版可信任AI對話引擎TAIDE 防堵中國偏見論述

https://img.ltn.com.tw/Upload/business/page/800/2023/11/05/120.jpg

國科會今年6月發表「可信任人工智慧對話引擎」(TAIDE)7B模型。國科會主委吳政忠(
左)表示,TAIDE是「打地基」,未來將提供公私部門加值應用,並守住台灣擁有的珍貴
繁體中文語料。(中央社資料照)

〔記者歐宇祥/台北報導〕近年中國影視創作、短影音平台大舉跨境滲透台灣,時而引發
對台認知作戰的疑慮,且台灣發展生成式AI(人工智慧)等技術也須留意資料準確性、以
免生出不當答案。AI領域專家坦言,目前繁體中文資料量遠少於簡體中文,加上台灣網路
社群的知識性分享風氣相對不盛,對我國開發AI大型語言模型相當不利。

台算力、資料資源相對有限

ChatGPT帶動AI軍備競賽,我國政府是由國科會發展「可信任人工智慧對話引擎」(TAIDE
)計畫,產官學各自前進;不過發展AI燒錢,台灣算力、資料等資源都相對有限,研究單
位資金更緊缺,日前研究經費僅約三十萬的中研院AI語言模型,因出現中國觀點的回應,
引起軒然大波。

中研院資通安全專題中心執行長李育杰指出,生成式AI需要大量文本資料用做訓練、再運
用機器運算進行「接龍」、產出內容,受資料集影響大;而中研院爭議是源自於使用的
Llama 2模型,因含有中國資料集、易產生相應觀點答案,加上中企、研究單位大力投入
AI研發,都凸顯台灣需要自己的大型語言模型。

台灣人工智慧協會理事黃逸華分析,目前開發AI模型可將簡中資料轉換成繁中,或將簡中
資料剃除,但繁中資料量相對較少,可能使AI模型較容易出現幻覺(Hallucinations;即
無法作答的空白,可能以虛構來填補答案),或功能會較為侷限,且此問題是十數年積累
、短期難解,若使用PTT等平台資料,處理成本又高。

李育杰也認為,PTT、Dcard等台灣本土社群的用語生命週期短,加上資料雜亂可能蘊含謾
罵、火星文,品質不一定好,若要用在AI大型語言模型訓練需再經處理;即使都以繁中資
料訓練,AI仍可能生成不如預期的答案,以現行技術無法一○○%掌控規則與結果,只能
盡量隔絕不希望AI學習的資料與內容。

--
沒說小乘大乘上座部佛教馬哈希尊者《具戒經講記》拆穿佛教大乘經典的騙局
上座部佛教明昆《南傳菩薩道》真釋迦牟尼佛的菩薩成佛之道 大乘菩薩成佛之道
妙法蓮華經 華嚴經 心經 金剛經 楞伽經 梵網經菩薩戒 圓覺經 楞嚴經大乘假佛經
阿彌陀佛 藥師佛大乘假觀世音 文殊 普賢 維摩詰 龍樹 地藏王大乘假菩薩
https://www.ptt.cc/bbs/soul/M.1523979060.A.68C.html
上座部佛教目犍連子帝須那先偽經大乘十方諸佛

--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 61.230.165.15 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/Tech_Job/M.1699186695.A.5A6.html
jupei1樓還不都中文 有差? 11/05 20:50
Skydier2樓上次不是被抓包套皮中國的系統 11/05 20:55
physicsdk3樓我不會說沒差,但既然簡中有優勢,就還是需要多參 11/05 20:58
physicsdk4樓考求自己進步,不能為反而反 11/05 20:58
gino07175樓除了政治話題外有什麼資料是繁中有簡中沒有的 11/05 21:03
a22222a42106樓繁轉簡沒啥問題 簡轉繁很多字會轉不過來 11/05 21:08
yunf7樓這原本就是一個政治操作原本就只有2000多萬人口的產 11/05 21:10
yunf8樓出要怎麼會多過13億人口的產出你可以說這是一個與愛 11/05 21:10
yunf9樓發展的困境也可以說他根本就不是一個問題這個問題會 11/05 21:10
yunf10樓產生完全是因為你選擇使用這樣的方向發展而不是使用 11/05 21:10
yunf11樓一個量少質精的方向發展會遇到這種問題根本就是遲早 11/05 21:10
yunf12樓的事別把大家都當白癡耍 11/05 21:11
yunf13樓聰明的鄉民應該要去追溯這則新聞到底是誰出的還有誰 11/05 21:12
yunf14樓決策這些東西發展的方向自然就會水落石出! 11/05 21:12
kevinmeng215樓自由時報…呵呵,不演了? 11/05 21:35
guf6015216樓AI本身就大數據 能贏我才覺得有鬼吧 11/05 21:36
kissmickey17樓都抄的當然落後 11/05 22:06
ohohohya18樓自己不累積啊 先出錢翻譯國外文件 11/05 22:21
TISH1231119樓乾脆繁轉英還比較有用 11/05 22:26
j095832208020樓中國連 stackoverflow 都翻成簡體了 11/05 22:33
ccas21樓等一下,中研院不是已經切割說是「個人研究」嗎? 11/05 22:46
ccas22樓結果現在又開始出來說沾光? 11/05 22:46
BIOS23樓簡中資源量一直都是屌打繁中.... 11/05 22:53
chunfo24樓台灣是全世界最鄙視翻譯的地方 11/05 22:54
rogergon25樓當然有差,簡中LLM弄出來的用詞就是對岸的。 11/05 23:19
DrizztMon26樓不是簡中是屌打繁中,但這樣世界各地其他國家怎麼辦 11/05 23:33
DrizztMon27樓又不是被屌打就做不出來 11/05 23:33
gn0121667428樓理由伯 11/05 23:41
centra29樓科技業不烙個英文單字就弱了 11/05 23:45
ciplu30樓新聞現在都用水平了 沒在用水準 早就被統一 11/05 23:50
更多新聞
[新聞] 科技業迎寒冬!他好奇「什麼科系最慘?」
[新聞] 聯發科家庭日首辦路跑!蔡明介:26年跨三
[新聞] 全台收入最高企業 鴻海連續稱霸榜首15年
[新聞] 晶圓雙雄台積電、聯電 衝刺先進封裝
[新聞] 鴻海低軌衛星 7日升空 「珍珠號」歷時兩
[新聞]再提生成式 AI,庫克:蘋果正「負責任地」
[新聞] 網傳需補稅近8000億、土地收歸國有 鴻海
[新聞] 減少對華依賴 荷蘭芯片廠商計劃投資越南