AI聊天機器人ChatGPT引爆著作侵權疑雲?——文字篇
https://bit.ly/3mCuMTA
AI聊天機器人ChatGPT橫空出世後,大家競相嘗試用它來撰寫各種東西,但這樣是否可能因此抄襲,踩到著作侵權的地雷,值得探討。
AI聊天機器人之濫觴到ChatGPT問世
早在1968年,美國電影大師史坦利·庫布里克(Stanley Kubrick)所執導的「2001太空漫遊」(2001: A Space Odyssey),迄今仍名列影史10大科幻電影,講述一艘太空船被派到木星調查,艙中人類科學家和超級電腦HAL,彼此能用人工智慧語言對談,隨後再展開人機鬥智殊死戰.…..,這些當初只是電影想像的情節,過了近半世紀到10年前智慧型手機內建標配語音助理,像Apple 的Siri或Amazon的Alexa,都使用自然語言處理(Natural Language Processing,以下稱NLP)技術,如今終於真的可以人機對談、查詢各種資訊。
但沒多久,人們就發現Siri固有其功能但受限於特定應用,並非真正具智慧的AI聊天機器人,而這個侷限終於在2022年11月底,由OpenAI所發表讓人驚豔的「生成式預訓練變換模型」ChatGPT(Chat Generative Pre-trained Transformer):一個由OpenAI訓練整合出的大型語言模型(LLM)打通任督二脈,迎來人類第一次可能通過「圖靈測試」(Turing Test)的扉頁。ChatGPT引爆前所未見的全球熱潮,發行僅二月餘就湧入上億人不斷「餵資料」,讓它成為萬事通!被認為已正式跨入強人工智慧(AGI: Artificial General
Intelligence)的門檻!而ChatGPT在AI界最大的突破,就是能處理極廣泛主題之通用AI。
果然(機器)人紅是非多,此項以AI類神經網路處理所發展出的強大工具,其反饋出來的自動生成內容日前已傳出在美國好幾件著作侵權官司,包括知名的OpenAI、微軟等公司都被告。許多人認為,由於ChatGPT必須輸入大量資料來訓練AI模型,而過程中必須進行大量文本的重製,包括維基百科、各式文學小說、書籍期刊、報章雜誌電視(含20家主流媒體)等內容,無一不遭到其拷貝置入語料數據庫進行練功之「毒手」(像華爾街日報和CNN就大肆抨擊其係「無償」盜用),且不僅文字,其他各種素材亦然,如此肆無忌憚的重製他人具有著作權之文字、圖畫、影像、影片(DA
LL-E、CLIP於文字與圖像間轉換生成)和開源碼(Microsoft的GitHub Copilot和OpenAI的Codex)等,終於衍生出著作權爭議訴訟,本文擬先介紹文字相關之自然語言處理著作權議題。
自然語言處理概論
質言之,自然語言處理(NLP)為研究電腦與人類語言間交流互動的科學,涉及多項領域的交叉學科,主要是用電腦科學、語言學和AI來使電腦理解、分析、生成和操作自然語言。其分為自然語言理解(Natural Language Understanding,NLU)和自然語言生成(Natural Language
Generating,NLG)二類型,NLU利用電腦理解人類自然語言的意涵,例如:網頁查詢或病例分析,NLG則利用電腦用生成自然語言來表達意思,例如:寫新聞、說故事;當二者結合便能實現機器翻譯與聊天機器人等功能。更進一步言,透過自然語言處理、語音辨識和情境感知等技術,使機器可感知當前情境,從而得與終端使用者進行溝通。
簡單來說,NLP就是電腦利用程式語言執行工程師設計好的演算法,對非結構化的人類語言資訊進行整理和解讀,使電腦擁有理解、分析、駕馭人類語言的能力,甚至能以人類使用的自然語言完全直接溝通。一般來說,NLP模型多半是以機率和統計建模,而預測下一個詞彙或句子的意思可能為何。舉例言,輸入一段文字:「今天天氣很冷,地面覆蓋X」時,電腦會根據前段出現的關鍵字「天氣」和「冷」,去預測X應填入「雪」、「冰」、「水」、「土」、「沙」之類的可能詞彙,並計算出每個詞彙的對應機率,結果由於「雪」的機率是相對最高,因此可能填入「雪」是最適合
之文意,其次才是「冰」、「水」等詞彙。
自然語言處理技術向來之發展
NLP發展歷程最早是先從基於規則(rule based)的系統開始,然後到基於統計(statistics based)的方法,再到深度學習技術,使其在理解和生成自然語言方面取得了顯著的進展。基於規則係以電腦軟體執行命令,NLP透過機器學習演算法模型,讓電腦從訓練資料集(training
dataset)中學習,並尋找資料所含的特定模式和趨勢,自動歸納或分類出語言規則,有效解決語言歧異性。如今,拜半導體晶片效能大幅提升運算速度之賜,AI可執行複雜的深度學習,讓電腦閱讀大量文章以找出前後文的語義特性,甚至自動摘要文章內容,通過訓練模型來識別文本中的模式和關係;另一常用的技術則是詞向量表示法,係將單詞轉換為數學向量的方法,以便電腦能夠對單詞進行操作。
而近年來深度學習又推動了NLP進一步的發展,其中的應用包括RNN(遞迴式神經網路,Recurrent Neural Network)、LSTM (長短期記憶網路,Long Short-Term Memory)。RNN在文字語言識別方面,常用於具有序列特性的資料,如演講、時間序列、文本詞彙序列、音節序列、影像影片序列與生成語句等,在短句方面有不錯的學習效果。而LSTM則是解決RNN以往只能做短句分析、與模型中梯度無法收斂等問題;另,LSTM透過複雜多層的遞迴結構,得以有效辨識各類有先後順序的訊息,適用於處理前後間隔較長時間序列的句子或段落。
如今,自從Google提出BERT(基於變換器的雙向編碼器表示技術,Bidirectional Encoder Representations from Transformers)預訓練模型(Pretrained
Models)後,NLP就有了突飛猛進的進展。這些技術和模型常用以排列詞句、片語、語音、文字及語句,形成類似於人類自然語言的形式,使得NLP在自然語言生成、語言理解、對話和問答系統獲得顯著進步。以上各種NLP研發,不外乎是進行:序列標記(如詞性標記)、分類(如主題分類)、句子關係判斷(如資訊萃取)、語料庫建立(一種透過詞語、詞性標記形成電腦可判讀分析之資料格式)、生成模式(如機器翻譯、自動摘要)等工作程序,基本上非常繁瑣。
ChatGPT技術運作邏輯之大突破
ChatGPT是由OpenAI開發之NLP模型GPT-3所延伸出的GPT-3.5 NLP生成模型。提到ChatGPT之前先談一下AI的基本運作,其實運作邏輯可簡單地想成一種如f (x) = ax + b的數學函式,其中x為可輸入的文字、對話、影像、圖畫、程式....等,而a和b則為AI的參數,最後,透過ax + b的運算後輸出f
(x)的結果,也就是AI的輸出結果。抑或是,針對NLP而言,如前面所舉的「今天天氣很冷,地面覆蓋X」的例子中,NLP會根據前文出現過的關鍵字,找出可能詞彙的機率分布(隨機抽取文字),然後挑選其中機率相對高的詞彙填入X。當然,ChatGPT實際運作要比前面所述更為複雜,不僅需透過數據工程師從巨量資料中標註資料、訓練和測試,而且過程中涉及至少千億個參數。
ChatGPT集結了機器學習中監督/非監督式學習、強化式學習、遷移式學習等技術,至於如何透過這些技術來達成今日人機對話的系統,首先要在網路上擷取眾多文章等各種形式之原始資料樣本,進而再透過AI訓練師對大量資料清洗、加工與模型訓練,再輔以人類訓練師進行強化式學習,由AI訓練師針對各項生成進行評分(reward),如果好就給它獎勵或高分,不好就給他負評,終於讓ChatGPT變得更強大!可以說,從稍早的GPT-3進展到現在GPT-3.5的ChatGPT,AI訓練師的介入是核心關鍵之一,才造就今日讓大家驚豔的結果。
問世以來,許多人認為ChatGPT對傳統的搜尋引擎可能造成重大衝擊,讓Google備感壓力。Google也在秘密開發聊天機器人Bard,可惜在與ChatGPT進行問答比賽時,因Bard答錯一題讓Google股價大跌7.4%,市值蒸發千億美金,所有風采都被ChatGPT搶走。ChatGPT之所以受到微軟青睞,另一個可能的原因,就是與Google搜尋引擎的差異化讓微軟看到新契機,並將新的AI搜尋引擎Bing添加到Windows 11的工具列中,用戶也可以在Edge中快速啟動Bing聊天機器人。
試想,當人們尋找一項答案時,ChatGPT不僅擔任使用者利用搜尋引擎找答案的角色,而且還能將找到的答案井井有條地回覆用戶,ChatGPT在這方面的確符合人類需求。儘管目前ChatGPT回覆的答案尚不盡正確,但經過幾番訓練之後,它不但日趨精進、且往往也會有些出令人意表的參考價值。
ChatGPT資料擷取之AI運作難於比對其出處
玩過ChatGPT的人都有這樣的經驗,當使用者在不同的時間輸入相同的問題,它會呈現出不同的回覆,有時甚至還大相逕庭。雖然ChatGPT的論文尚未公開(可參考姐妹版InstructGPT),但推測其可能是藉由隨機生成模式回答問題,這種模式,基本上無法找出該回覆內容之原始來源,究竟是從哪幾個網頁擷取或參照原生素材,因為它根本就不是直接從各種文字中直接擷取再複製呈現的概念,這和一般透過搜尋引擎點擊特定網頁後,可看到原生內容的做法完全不同!而ChatGPT最令人驚訝之處,即在於它能重新組織文字、架構、邏輯,而這也導致使用者利用ChatGPT自動生成內긊e後,難於以「一對一」的對應關係,去還原、比對究竟是襲用了哪些原來的內容,因此這種運作模式,可能將巧妙地避開潛在之著作侵權疑慮!基於以上的操作,接下來談著作權的議題。
按ChatGPT這樣大量引用(其實就是重製)他人具著作權的內容而遭受到抨擊,從法律角度看,這樣的行為到底會不會構成著作侵權?因現實世界中有太多的文字撰擬需求,這是現在大家應特別關注的重點,尤其是近年來眾多政治人物衍生論文抄襲的學倫爭議,動輒惹上官司。基本上,除非得到授權或以合理使用的方式外,否則不可以擅自使用他人的內容,此為著作權法最根本的原則!而在網路上,直接大量擷取他人素材複製到數據庫中,理論上已構成著作權法上之重製行為,惟此種「中間性重製」之情形,不見得立即推論出即構成侵權,例如早期搜尋引擎之操作,因其目ꨊ漲b指涉網站URL的路徑或出處,就不構成違法,接下來要看它呈現內容的方式。
概念與概念之表達二分原則 & 著作權之原創性
與專利絕對壟斷不同的保護標準,著作權因基於要促進文化發展、創造人類文明進步的立場,為了鼓勵他人創作,會開一扇門保留一些彈性空間,因此其專屬保護不像專利那般「只此一家、別無分號」地具有強烈之排他性。而著作權的基本原則是,只保護人類源於概念所寫出來的具體表達內涵,這就是著作權法傳統的「概念與概念表達二分原則」(“idea & expression of idea dichotomy” or “idea–expression distinction”) – 亦即「著作權不保護概念本身,而只保護概念表達出來的東西」[1]!
簡言之,概念指創作中可能涉及之抽象的主題、思想、觀念等,而概念表達則是用獨特的方式,在例如文字、圖像、音樂等形式中,將該抽象的意念落實地表現出人能看的到與感官的到之實際具體內容,來表達該作者內在的意念。根據此二分法原理,任何人參考、沿用他人著作內涵中所蘊藏相同或類似的概念是合法的,仍可自由發揮另行創作出自己不同表達內容的著作[2],而不用擔心有侵權之疑慮。
然而,著作權所要求的原創性,並不像專利所要求發明創造的高門檻,著作權相對採低標:只要不是抄襲他人有著作權的實際具體內容,而帶有一定程度的原創性,就夠格受到保護。如以文字方面為例,任何人撰文時可參考他人文章,但當自己要寫東西時,就必須謹守以上原則,不得產出跟他人相同或類似的文字、詞語、句子結構、章節安排,但卻可將他人文字中所隱含的概念,轉化成不同文字,經自己消化後寫成「概念相同」、但「表達完全不同」的內容,簡單說,抄別人的觀念可以,但抄到有血肉的文字內容就不行!當然,如果整篇文章都是別人的意涵,而完全用類似
的文字來取代,還是有擦邊球的侵害風險!根據以上原理,就可以來探究一下究竟ChatGPT,是否真能達到只引用他人概念、而不使用到他人實際之文字內容。
ChatGPT滾動生成不易構成實質相似
由於ChatGPT的資料來源之一,是透過網路爬蟲(web crawling)擷取大量具著作權資料,但進一步看ChatGPT的呈現方式,並非單純只是在網路上擷取內容,反而是經消化後改寫,再經整理後以不同面貌呈現。它也不像過去的專家系統那樣,把問題的答案加以「拼湊組合」後端出來!ChatGPT透過上述學習方式,經眾人不斷詢問而讓它越來越聰明,循序演進自己滾動生出不同內容!尤其特別的,只要不選擇新對話,在同一問題框架下,詢問者可不斷丟出更精準的問題指令(prompt),在往下發展的對答中,ChatGPT會來回調校優化,如此就揉合出諸多新內容。
也就是說,發問者在不斷饋入指令的同時,它又會更新產生許多實質內容,最後統合出邏輯連貫的表達內容,只要詢問者好好設計問題的詞彙或架構,越具有專業性與針對性,甚至給的指令越有層次,那麼所生成的內容就會越具體,最後的生成內容可幾乎與原先網路爬蟲所擷取具有著作權的內容不一樣,因此構成實質相似的可能性越來越低,甚至量變到質變而完全不同!不過,NLP本身因是建構於機率與統計的數學模型,且AI本身即存有難以解釋模型的黑盒子,人類尚無法完全準確解析,所以ChatGPT會產生與原作者類似的可能性也非絕無可能,因此使用ChatGPT撰文,更需괊n精心設計問題,且生成後應再反覆多幾輪深層的交叉提問,最好另加上若干自己的觀點,這樣才能舒緩著作之侵權疑義。
總之,以上ChatGPT內容擷取情形,是否必然可豁免於著作權侵害,雖尚待實際個案的檢驗,但至少從目前GitHub、OpenAI與微軟被告的這個案例中,可以看出起訴的原告,並未從著作權文字著作受到ChatGPT侵害來提告,反而是依「數位千禧年著作權法案」(DMCA: Digital Millennium Copyright Act)指控開源碼侵權,因此在現況下,ChatGPT似暫無被告「語言著作」侵害之危險(除非日後再追加提告)。
--