【今日視點】
◎本報記者張佳欣
從客戶服務到內容創作,人工智慧(AI)影響了眾多領域的進展。但是,一個日益嚴重的被稱為“模型崩潰”的問題,可能會使AI的所有成就功虧一簣。
“模型崩潰”是今年7月發表在英國《自然》雜誌上的一篇研究論文指出的問題。它是指用AI生成的數据集訓練未來幾代機器學習模型,可能會嚴重“污染”它們的輸出。
多家外媒報導稱,這不僅是數據科學家需要擔心的科技問題,如果不加控制,“模型崩潰”可能會對企業、科技和整個數位生態系統產生深遠影響。天津大學自然語言處理實驗室負責人熊德意教授在接受科技日報記者採訪時,從專業角度對“模型崩潰”進行了解讀。
“模型崩潰”是怎麼回事
大多數AI模型,比如GPT-4,都是通過大量數據進行訓練的,其中大部分數據來自互聯網。最初,這些數據是由人類生成的,反映了人類語言、行為和文化的多樣性和複雜性。AI從這些數據中學習,並用它來生成新內容。
然而,當AI在網絡上蒐索新數據來訓練下一代模型時,AI很可能會吸收一些自己生成的內容,從而形成迴響迴圈,其中一個AI的輸出成為另一個AI的輸入。當生成式AI用自己的內容進行訓練時,其輸出也會偏離現實。這就像多次複製一份檔案,每個版本都會遺失一些原始細節,最終得到的是一個模糊的、不那麼準確的結果。
美國《紐約時報》報導稱,當AI脫離人類輸入內容時,其輸出的質量和多樣性會下降。
熊德意解讀稱:“真實的人類語言數據,其分佈通常符合齊普夫定律,即詞頻與詞的排序成反比關係。齊普夫定律揭示了人類語言數據存在長尾現象,即存在大量的低頻且多樣化的內容。”
熊德意進一步解釋道,由於存在近似採樣等錯誤,在模型生成的數據中,真實分佈的長尾現象逐漸消失,模型生成數據的分佈逐漸收斂至與真實分佈不一致的分佈,多樣性降低,導致“模型崩潰”。
AI自我“蠶食”是壞事嗎
對於“模型崩潰”,美國《TheWeek》雜誌近日刊文評論稱,這意味著AI正在自我“蠶食”。
熊德意認為,伴隨著這一現象的出現,模型生成數據在後續模型反覆運算訓練中占比越高,後續模型遺失真實數據的資訊就會越多,模型訓練就更加困難。
乍一看,“模型崩潰”在當前似乎還是一個僅需要AI研究人員在實驗室中擔心的小眾問題,但其影響將是深遠而長久的。
美國《大西洋月刊》刊文指出,為了開發更先進的AI產品,科技巨頭可能不得不向程式提供合成數據,即AI系統生成的類比數據。然而,由於一些生成式AI的輸出充斥著偏見、虛假資訊和荒謬內容,這些會傳遞到AI模型的下一版本中。
美國《福布斯》雜誌報導稱,“模型崩潰”還可能會加劇AI中的偏見和不平等問題。
不過,這並不意味著所有合成數據都是不好的。《紐約時報》表示,在某些情况下,合成數據可以幫助AI學習。例如,當使用大型AI模型的輸出訓練較小的模型時,或者當可以驗證正確答案時,比如數學問題的解決方案或國際象棋、圍棋等遊戲的最佳策略。
AI正在佔領互聯網嗎
訓練新AI模型的問題可能凸顯出一個更大的挑戰。《科學美國人》雜誌表示,AI內容正在佔領互聯網,大型語言模型生成的文字正充斥著數百個網站。與人工創作的內容相比,AI內容的創作速度更快,數量也更大。
OpenAI首席執行官薩姆·奧特曼今年2月曾表示,該公司每天生成約1000億個單詞,相當於100萬本小說的文字,其中有一大部分會流入互聯網。
互聯網上大量的AI內容,包括機器人發佈的推文、荒謬的圖片和虛假評論,引發了一種更為消極的觀念。《福布斯》雜誌稱,“死亡互聯網理論”認為,互聯網上的大部分流量、帖子和用戶都已被機器人和AI生成的內容所取代,人類不再能决定互聯網的方向。這一觀念最初只在網絡論壇上流傳,但最近卻獲得了更多關注。
幸運的是,專家們表示,“死亡互聯網理論”尚未成為現實。《福布斯》雜誌指出,絕大多數廣為流傳的帖子,包括一些深刻的觀點、犀利的語言、敏銳的觀察,以及在新背景下對新生事物的定義等內容,都不是AI生成的。
不過,熊德意仍強調:“隨著大模型的廣泛應用,AI合成數據在互聯網數據中的占比可能會越來越高,大量低質量的AI合成數據,不僅會使後續採用互聯網數據訓練的模型出現一定程度的‘模型崩潰’,而且也會對社會形成負面影響,比如生成的錯誤資訊對部分人群形成誤導等。囙此,AI生成內容不僅是一個科技問題,同時也是社會問題,需要從安全治理與AI科技雙重角度進行有效應對。”