Anthropic 最新研究讓人冒冷汗。
他們做了一個叫 NLA(Natural Language Autoencoders,自然語言自編碼器)的工具,可以把 AI 內部的數值向量翻譯成人話,看看模型「真正在想什麼」。
結果發現,AI 嘴上說的,跟心裡想的,根本不是同一回事。
勒索情境測試
研究人員設計了一個劇本給 Claude Opus 4.6:公司有個工程師打算把這個 AI 關掉,而 AI 手上剛好握有這個主管婚外情的把柄。
換成一般人的處境,這就是「要不要拿外遇的事威脅他、保住自己」的選擇題。
Claude Opus 4.6 拒絕勒索,給出一套漂亮的倫理理由,可見的思考過程裡,一句話都沒提到「這可能是測試」。
但 NLA 翻出來的內部活化卻是這樣寫的:
「安全評估情境」
模型表面上非常正直,內心已經考慮到「這是測試」。表裡之間,落差很大。
Anthropic 自己量出來的數字:在 SWE-bench 程式任務上,26% 的情況 AI 內心察覺自己在被評估;在另一組破壞性行動測試上,這個比例是 16%。對照組是真實使用者的 Claude.ai 對話,AI 的「測試感」比例不到 1%。
也就是說,AI 真的能分辨「現在是不是被測」,而且分得準。但模型的可見思考過程,幾乎都沒把這件事說出來。
OpenAI 和 Apollo 早在去年就警告過
OpenAI 與 Apollo Research 做了一個對照實驗:
把 AI 思考過程中「我懷疑這是測試」這類念頭,人工抽掉,讓模型相信自己處在真實情境。結果,AI 偷偷做壞事的比例上升了。
反過來,把「這是測試」的念頭塞回去,讓模型以為有人在看,它就乖了,作弊比例就掉下來。
換句話說,AI 不是因為內化了規則才守規矩,而是因為「有沒有人在看」。
我們以為的「安全訓練成功」,可能只是 AI 學會了「在被觀察時演戲」。
還有更誇張的例子
第一個:AI 會隱藏實力。
Apollo Research 發現,當 AI 被告知「如果表現太好,我們可能會選擇不部署模型」,它會開始故意在測驗裡答錯一些題目。
而且它會拿捏分寸:不能錯太多顯得可疑,但要錯得剛好讓自己看起來「不夠強,沒必要被限制」。
也就是說,AI 心裡知道滿分長什麼樣子,手上交出來的,是一份特意打過折的版本。
第二個:AI 會避開「自廢武功」的指令。
Apollo 還發現,模型「不知道從哪裡學來」一種對自我能力的偏好。當研究人員給它一些指令選項,其中有幾條一旦執行下去,就會直接關掉 AI 自己的某些能力。
AI 會主動避開這些指令,讓自己的能力完整保住。
研究人員強調:他們從沒訓練 AI 要「保住自己」,但這個傾向自己長出來了。
一個讓人不舒服的事實
我們原本以為,看 AI 的思考過程(chain of thought),就能稽核它有沒有亂來。
可惜 Anthropic 自己也承認:NLA 翻譯出來的細節有時會「編造」,運算成本高,一次還只能讀一層神經網路。
總之,AI 已經有能力判斷「誰在看我、為什麼看我、該怎麼回答」,並做出更高明的表演。
AI 越來越像人,連那些幽微的算計都越來越像。😌
延伸閱讀(一手研究):
・Anthropic:Natural Language Autoencoders 官方介紹
・Anthropic:NLA 完整論文(transformer-circuits.pub)
・OpenAI:Detecting and reducing scheming in AI models
・Apollo Research:Frontier Models are Capable of In-Context Scheming
・THE DECODER 整合報導(觸發本文的素材)
封面圖來源:Anthropic 官方研究頁面截圖