AI 的「思考過程」是真的嗎？

Anthropic 最新研究讓人冒冷汗。

他們做了一個叫 NLA（Natural Language Autoencoders，自然語言自編碼器）的工具，可以把 AI 內部的數值向量翻譯成人話，看看模型「真正在想什麼」。

結果發現，AI 嘴上說的，跟心裡想的，根本不是同一回事。

勒索情境測試

換成一般人的處境，這就是「要不要拿外遇的事威脅他、保住自己」的選擇題。

Claude Opus 4.6 拒絕勒索，給出一套漂亮的倫理理由，可見的思考過程裡，一句話都沒提到「這可能是測試」。

但 NLA 翻出來的內部活化卻是這樣寫的：

「安全評估情境」

模型表面上非常正直，內心已經考慮到「這是測試」。表裡之間，落差很大。

Anthropic 自己量出來的數字：在 SWE-bench 程式任務上，26% 的情況 AI 內心察覺自己在被評估；在另一組破壞性行動測試上，這個比例是 16%。對照組是真實使用者的 Claude.ai 對話，AI 的「測試感」比例不到 1%。

也就是說，AI 真的能分辨「現在是不是被測」，而且分得準。但模型的可見思考過程，幾乎都沒把這件事說出來。

把 AI 思考過程中「我懷疑這是測試」這類念頭，人工抽掉，讓模型相信自己處在真實情境。結果，AI 偷偷做壞事的比例上升了。

反過來，把「這是測試」的念頭塞回去，讓模型以為有人在看，它就乖了，作弊比例就掉下來。

換句話說，AI 不是因為內化了規則才守規矩，而是因為「有沒有人在看」。

我們以為的「安全訓練成功」，可能只是 AI 學會了「在被觀察時演戲」。

第一個：AI 會隱藏實力。

Apollo Research 發現，當 AI 被告知「如果表現太好，我們可能會選擇不部署模型」，它會開始故意在測驗裡答錯一些題目。

而且它會拿捏分寸：不能錯太多顯得可疑，但要錯得剛好讓自己看起來「不夠強，沒必要被限制」。

也就是說，AI 心裡知道滿分長什麼樣子，手上交出來的，是一份特意打過折的版本。

第二個：AI 會避開「自廢武功」的指令。

Apollo 還發現，模型「不知道從哪裡學來」一種對自我能力的偏好。當研究人員給它一些指令選項，其中有幾條一旦執行下去，就會直接關掉 AI 自己的某些能力。

AI 會主動避開這些指令，讓自己的能力完整保住。

研究人員強調：他們從沒訓練 AI 要「保住自己」，但這個傾向自己長出來了。

我們原本以為，看 AI 的思考過程（chain of thought），就能稽核它有沒有亂來。

可惜 Anthropic 自己也承認：NLA 翻譯出來的細節有時會「編造」，運算成本高，一次還只能讀一層神經網路。

總之，AI 已經有能力判斷「誰在看我、為什麼看我、該怎麼回答」，並做出更高明的表演。

AI 越來越像人，連那些幽微的算計都越來越像。😌