用AI訓(xùn)練AI，可能越練越“傻”

來源：新華網(wǎng) 2024年07月28日 10:02

　　對于人工智能(AI)大語言模型來說，通常給予的訓(xùn)練數(shù)據(jù)越多，模型就會越“聰明”。但英國《自然》雜志新發(fā)表的一項(xiàng)關(guān)于大模型的研究顯示，如果只用AI生成的數(shù)據(jù)來訓(xùn)練大模型，會使模型性能下降、越練越“傻”。

英國牛津大學(xué)、劍橋大學(xué)等機(jī)構(gòu)研究人員發(fā)現(xiàn)，如果在訓(xùn)練大模型時，只用AI生成的內(nèi)容，會導(dǎo)致大模型出現(xiàn)不可逆的缺陷，逐漸忘記真實(shí)數(shù)據(jù)的分布，這被稱為“模型崩潰”。

　　2024年4月23日，在德國漢諾威工博會上，參觀者與一款智能機(jī)器人進(jìn)行“石頭剪子布”游戲。新華社記者任鵬飛攝

　　研究人員首先使用大語言模型創(chuàng)建類似維基百科詞條的文本，然后利用這個內(nèi)容來訓(xùn)練該模型的新版本，并反復(fù)使用前代模型生成的文本訓(xùn)練更新的版本。隨著AI生成的信息“污染”訓(xùn)練集，模型的輸出逐漸失去意義。在模型的第九次迭代中，它完成了一篇關(guān)于英國教堂塔樓的文章，其中一段文字卻在講述野兔尾巴的多種顏色。

　　研究發(fā)現(xiàn)，導(dǎo)致“模型崩潰”的重要原因是，由于模型只能從其訓(xùn)練數(shù)據(jù)中采樣，一些在第一代數(shù)據(jù)中本就低頻出現(xiàn)的詞匯，在每次迭代后出現(xiàn)的頻率變得更低，而一些常見詞匯出現(xiàn)的頻率則逐漸增加。

　　這種變化的結(jié)果就是，模型逐漸無法正確模擬真實(shí)世界的復(fù)雜性。隨著時間推移，這種錯誤會在迭代中被層層累積、逐漸放大，最終導(dǎo)致“模型崩潰”。這有點(diǎn)像生物學(xué)中“近親繁殖”會導(dǎo)致后代缺陷，如果不能保證基因庫的多樣性，最終會導(dǎo)致一個物種的崩潰。

　　研究人員還發(fā)現(xiàn)，由于訓(xùn)練數(shù)據(jù)被“污染”而導(dǎo)致“模型崩潰”的情況不止發(fā)生在大語言模型中，高斯混合模型、圖片生成器等也可能出現(xiàn)類似情況。

　　不過，應(yīng)對“模型崩潰”并非束手無策。研究人員發(fā)現(xiàn)，如果能在模型微調(diào)過程中保留10%左右的真實(shí)數(shù)據(jù)，崩潰就會發(fā)生得更緩慢。還可使用水印技術(shù)，將AI生成的數(shù)據(jù)與真實(shí)數(shù)據(jù)區(qū)分開來，這需要大型科技公司的協(xié)作。此外，在AI生成的文本重新進(jìn)入數(shù)據(jù)池之前，可由人類先篩選過濾。

（責(zé)編：張佩）