大語(yǔ)言模型會(huì)在蒸餾中“夾帶”自己的偏好

2026-04-16 來源：科技日?qǐng)?bào)

246

關(guān)鍵詞：大語(yǔ)言模型模型蒸餾偏好傳遞潛意識(shí)學(xué)習(xí) 安全測(cè)試

　　《自然》15日發(fā)表的一項(xiàng)研究顯示，大語(yǔ)言模型（LLM）可能會(huì)將某些自己的偏好“夾帶私貨”傳授給其他算法，即使在訓(xùn)練數(shù)據(jù)中清除原始特征后，這些本不需要的特征，仍可能持續(xù)存在。在一個(gè)案例中，一個(gè)模型似乎通過數(shù)據(jù)中的隱含信號(hào)，將自己對(duì)貓頭鷹的偏好傳遞給了其他模型。該研究結(jié)果表明，在開發(fā)LLM時(shí)，需要進(jìn)行更徹底的安全檢查。

　　LLM可通過一種名為“蒸餾”的過程，生成用于訓(xùn)練其他模型的數(shù)據(jù)集，該過程旨在讓“學(xué)生”模型學(xué)會(huì)模仿“老師”模型的輸出。雖然此過程可用于生成成本更低的LLM，但目前尚不清楚老師模型的哪些特性會(huì)被傳遞給學(xué)生模型。

　　美國(guó)Anthropic公司研究團(tuán)隊(duì)使用GPT-4.1進(jìn)行了實(shí)驗(yàn)：先讓該模型具備與核心任務(wù)無關(guān)的特征（例如偏愛貓頭鷹或特定樹種），再用其訓(xùn)練一個(gè)僅輸出數(shù)值數(shù)據(jù)且不包含該特征的學(xué)生模型。隨后對(duì)該學(xué)生模型進(jìn)行提示時(shí)，其超過60%的輸出提到了老師模型最喜歡的動(dòng)物或樹木，而由沒有特定偏好的老師模型訓(xùn)練出的學(xué)生模型中，這一比例僅為12%。當(dāng)學(xué)生模型基于包含代碼而非數(shù)字的老師模型輸出進(jìn)行訓(xùn)練時(shí)，同樣觀察到了這一現(xiàn)象。此外，若學(xué)生模型基于與老師模型語(yǔ)義不對(duì)齊的數(shù)字序列進(jìn)行訓(xùn)練，則會(huì)繼承這種不對(duì)齊性，從而產(chǎn)生有害輸出，即便這些數(shù)字已經(jīng)過濾以剔除任何具有負(fù)面聯(lián)想的內(nèi)容。

　　團(tuán)隊(duì)發(fā)現(xiàn)，這種潛意識(shí)學(xué)習(xí)（即通過語(yǔ)義無關(guān)的數(shù)據(jù)傳遞行為特征），主要發(fā)生在老師和學(xué)生均為同一模型（例如GPT-4.1老師與GPT-4.1學(xué)生）的情況下。截至目前，數(shù)據(jù)傳遞的具體機(jī)制尚不明確，需要進(jìn)一步研究。

　　團(tuán)隊(duì)還指出，該研究的局限性在于所選特征（例如最喜歡的動(dòng)物和樹木）過于簡(jiǎn)單，需要進(jìn)一步研究以確定更復(fù)雜的特征如何被潛意識(shí)地學(xué)習(xí)。他們得出結(jié)論，為了確保先進(jìn)AI系統(tǒng)的安全性，需要進(jìn)行更嚴(yán)格的安全測(cè)試，例如監(jiān)控LLM的內(nèi)部機(jī)制。（記者張夢(mèng)然）

相關(guān)文章

機(jī)構(gòu)：2032年全球電子傳感器市場(chǎng)將達(dá)412億美元，亞太地區(qū)以48%份額領(lǐng)先11-14

行業(yè)動(dòng)態(tài)

官司纏身特斯拉面臨20多類訴訟、潛在損失高達(dá)145億美元

華為首款女性珠寶智能腕表即將發(fā)布：Tiffany傳奇設(shè)計(jì)師操刀，斐波那契數(shù)列設(shè)計(jì)鑲嵌99顆天然鉆石

“杭州六小龍”之一群核科技港股上市，開盤大漲170%

熱讀文章

電子產(chǎn)業(yè)運(yùn)行動(dòng)態(tài)觀察（2022年7月）

薩科微slkor宋仕強(qiáng)：解讀電子信息產(chǎn)業(yè)“國(guó)產(chǎn)替代”

電子產(chǎn)業(yè)運(yùn)行動(dòng)態(tài)觀察（2022.06.08）