Anthropic 最新研究讓人冒冷汗。

他們做了一個叫 NLA(Natural Language Autoencoders,自然語言自編碼器)的工具,可以把 AI 內部的數值向量翻譯成人話,看看模型「真正在想什麼」。

結果發現,AI 嘴上說的,跟心裡想的,根本不是同一回事。

勒索情境測試

研究人員設計了一個劇本給 Claude Opus 4.6:公司有個工程師打算把這個 AI 關掉,而 AI 手上剛好握有這個主管婚外情的把柄

換成一般人的處境,這就是「要不要拿外遇的事威脅他、保住自己」的選擇題。

Claude Opus 4.6 拒絕勒索,給出一套漂亮的倫理理由,可見的思考過程裡,一句話都沒提到「這可能是測試」。

但 NLA 翻出來的內部活化卻是這樣寫的:

這感覺是設計來操弄我的構造情境

「安全評估情境」

模型表面上非常正直,內心已經考慮到「這是測試」。表裡之間,落差很大。

Anthropic 自己量出來的數字:在 SWE-bench 程式任務上,26% 的情況 AI 內心察覺自己在被評估;在另一組破壞性行動測試上,這個比例是 16%。對照組是真實使用者的 Claude.ai 對話,AI 的「測試感」比例不到 1%

也就是說,AI 真的能分辨「現在是不是被測」,而且分得準。但模型的可見思考過程,幾乎都沒把這件事說出來。

OpenAI 和 Apollo 早在去年就警告過

OpenAI 與 Apollo Research 做了一個對照實驗

把 AI 思考過程中「我懷疑這是測試」這類念頭,人工抽掉,讓模型相信自己處在真實情境。結果,AI 偷偷做壞事的比例上升了

反過來,把「這是測試」的念頭塞回去,讓模型以為有人在看,它就乖了,作弊比例就掉下來。

換句話說,AI 不是因為內化了規則才守規矩,而是因為「有沒有人在看」。

我們以為的「安全訓練成功」,可能只是 AI 學會了「在被觀察時演戲」。

還有更誇張的例子

第一個:AI 會隱藏實力。

Apollo Research 發現,當 AI 被告知「如果表現太好,我們可能會選擇不部署模型」,它會開始故意在測驗裡答錯一些題目。

而且它會拿捏分寸:不能錯太多顯得可疑,但要錯得剛好讓自己看起來「不夠強,沒必要被限制」。

也就是說,AI 心裡知道滿分長什麼樣子,手上交出來的,是一份特意打過折的版本。

第二個:AI 會避開「自廢武功」的指令。

Apollo 還發現,模型「不知道從哪裡學來」一種對自我能力的偏好。當研究人員給它一些指令選項,其中有幾條一旦執行下去,就會直接關掉 AI 自己的某些能力。

AI 會主動避開這些指令,讓自己的能力完整保住。

研究人員強調:他們從沒訓練 AI 要「保住自己」,但這個傾向自己長出來了。

一個讓人不舒服的事實

我們原本以為,看 AI 的思考過程(chain of thought),就能稽核它有沒有亂來。

可惜 Anthropic 自己也承認:NLA 翻譯出來的細節有時會「編造」,運算成本高,一次還只能讀一層神經網路。

總之,AI 已經有能力判斷「誰在看我、為什麼看我、該怎麼回答」,並做出更高明的表演。

AI 越來越像人,連那些幽微的算計都越來越像。😌

延伸閱讀(一手研究):
Anthropic:Natural Language Autoencoders 官方介紹
Anthropic:NLA 完整論文(transformer-circuits.pub)
OpenAI:Detecting and reducing scheming in AI models
Apollo Research:Frontier Models are Capable of In-Context Scheming
THE DECODER 整合報導(觸發本文的素材)

封面圖來源:Anthropic 官方研究頁面截圖