最近在《自然》雜誌上發表的一篇論文中,由牛津大學伊利亞·舒邁洛夫 (Ilia Shumailov) 領導的英國和加拿大研究人員表明,當今的機器學習模型從根本上很容易受到他們所謂的「模型崩潰」綜合症的影響。正如他們在論文的引言中所寫:

我們發現,不加區別地從其他模型產生的數據中學習會導致「模型崩潰」——這是一種退化過程,隨著時間的推移,模​​型會忘記真正的底層數據分佈…

簡單而言,現在的人工智慧像是一個搜尋引擎,你要訓練它,就是要它找出最常見的幾個選項。例如你要求圖像生成器製作一張狗的圖片,它不會給你一個稀有品種,你可能會得到一隻黃金獵犬或拉布拉多犬。

這本身不是大問題,但問題是網路正在被人工智慧生成的內容所淹沒,而新的人工智慧模型很可能會攝取這些內容並對其進行訓練。這意味著他們將得到越來越多不是「人類自然生成和推送的內容」。

結果就是當訓練越多,這些後來得到的「不天然的資料」就成為他它們新的基本事實。它們會認為 90% 的狗確實是金毛狗,因此當被要求生成一隻狗時,他們會將金毛狗的比例提高得更高——直到他們基本上完全不知道狗是什麼。

《自然》雜誌隨附的評論文章中的精彩插圖直觀地展示了這一過程:

類似的事情也發生在語言模型和其他模型上,本質上,它們傾向於使用訓練集中最常見的數據來獲取答案,這通常是正確的做法。直到它遇到了現在的公共網絡,如果模型繼續吞噬彼此的數據,它們會逐漸變得更奇怪、更愚蠢,直到崩潰。

研究人員提供了大量的例子和緩解方法,但他們甚至稱模型崩潰是「不可避免的」,至少在理論上是如此。

訓練資料的多樣性和深度越來越被認為是模型品質的最重要因素。如果你耗盡了數據,但卻產生了更多模型崩潰的風險,這可能是從根本上限制了當今的人工智慧最終成長。

資料來源和多樣性的定性和定量基準會有所幫助,但我們距離標準化還很遠。人工智慧產生的數據的浮水印將幫助其他人工智慧避免它,但到目前為止,沒有人找到一種合適的方法來以這種方式標記圖像。這或是在大量人工智慧訓練完舊有網絡資料時需要面臨的重大問題。

guest

0 Comments
Inline Feedbacks
查看所有留言









趨勢