小心賽博銜尾蛇人工智慧以公開網絡資料訓練或面臨「模型崩潰」

2024 年 7 月 25 日

最近在《自然》雜誌上發表的一篇論文中，由牛津大學伊利亞·舒邁洛夫 (Ilia Shumailov) 領導的英國和加拿大研究人員表明，當今的機器學習模型從根本上很容易受到他們所謂的「模型崩潰」綜合症的影響。正如他們在論文的引言中所寫：

我們發現，不加區別地從其他模型產生的數據中學習會導致「模型崩潰」——這是一種退化過程，隨著時間的推移，模型會忘記真正的底層數據分佈…

簡單而言，現在的人工智慧像是一個搜尋引擎，你要訓練它，就是要它找出最常見的幾個選項。例如你要求圖像生成器製作一張狗的圖片，它不會給你一個稀有品種，你可能會得到一隻黃金獵犬或拉布拉多犬。

這本身不是大問題，但問題是網路正在被人工智慧生成的內容所淹沒，而新的人工智慧模型很可能會攝取這些內容並對其進行訓練。這意味著他們將得到越來越多不是「人類自然生成和推送的內容」。

結果就是當訓練越多，這些後來得到的「不天然的資料」就成為他它們新的基本事實。它們會認為 90% 的狗確實是金毛狗，因此當被要求生成一隻狗時，他們會將金毛狗的比例提高得更高——直到他們基本上完全不知道狗是什麼。

《自然》雜誌隨附的評論文章中的精彩插圖直觀地展示了這一過程：

類似的事情也發生在語言模型和其他模型上，本質上，它們傾向於使用訓練集中最常見的數據來獲取答案，這通常是正確的做法。直到它遇到了現在的公共網絡，如果模型繼續吞噬彼此的數據，它們會逐漸變得更奇怪、更愚蠢，直到崩潰。

研究人員提供了大量的例子和緩解方法，但他們甚至稱模型崩潰是「不可避免的」，至少在理論上是如此。

訓練資料的多樣性和深度越來越被認為是模型品質的最重要因素。如果你耗盡了數據，但卻產生了更多模型崩潰的風險，這可能是從根本上限制了當今的人工智慧最終成長。

資料來源和多樣性的定性和定量基準會有所幫助，但我們距離標準化還很遠。人工智慧產生的數據的浮水印將幫助其他人工智慧避免它，但到目前為止，沒有人找到一種合適的方法來以這種方式標記圖像。這或是在大量人工智慧訓練完舊有網絡資料時需要面臨的重大問題。

Name*

Email*

0 Comments

Inline Feedbacks

查看所有留言

趨勢

《許瑜》2025 年 9 月 10 日