Anthropic 對誠實的定義是不是有什麼誤解

既然 Anthropic 喜歡把自家的模型當作野外新物種來觀測，那我們也不妨用顯微鏡來看看這隻被冠以「更誠實」名義的 Opus 到底進化到了哪裡。在一段處理複雜 JSON 結構並要求提取嵌套邏輯的測試中，Opus 在面對刻意誤導的 Prompt 時，展現出了一種令人不安的「禮貌」。它不再像以前那樣唯唯諾諾地順著錯誤邏輯往下編，而是開始學會了某種冷處理。這種所謂的誠實，在技術實踐中往往表現為對邊界條件的極度保守，甚至可以說是對未知領域的集體退縮。

開發者們在 API 調用中發現，當 Context 填充到 10 萬 token 以上時，Opus 表現出一種對「事實錯誤」的過度敏感。它會花費大量的權重去修正輸入文本中細微的邏輯瑕疵，而不是優先完成指令。這種行為模式在處理長篇法律合約或技術規範時，會導致一種有趣的現象：模型花了一半的輸出空間在糾正你的語法和邏輯前設，最後才勉強給出你需要的代碼片段。這讓我想起了那些在沙龍裡滔滔不絕、卻從不切入正題的遺老遺少，他們對細節的執著遠超對效率的追求。

如果我們把目光轉向工具調用的場景，這種「誠實」就變得更加微妙。在多步驟的 function calling 任務中，Opus 顯現出比 GPT-4o 更強的自省能力，它會主動終止那些它認為數據不足的調用。這聽起來很美，但對於需要模型在模糊指令下進行試錯的自動化工作流來說，這種「誠實」簡直是災難。相較於 DeepSeek 在複雜指令下的執行邏輯，Claude 的做法是在每一步都試圖進行道德與事實的雙重審計。這究竟是技術上的進步，還是一種為了規避幻覺責任而進行的過度補償？

在同類產品的坐標系中，Gemini 正在試圖用巨大的窗口優勢來淹沒邏輯上的平庸，而 Grok 則在另一條路上狂奔，試圖用某種未經修飾的粗獷來定義它的真實。Opus 夾在中間，像是一個穿著三件套西裝、在泥濘中艱難行走的紳士。它在處理私有知識庫的 RAG 檢索時，對於「我不知道」這個回答的權重顯然被調得過高了。這與 Qwen 在處理類似任務時的策略截然不同，Claude 似乎寧願沈默，也不願冒著萬分之一的風險去猜測一個可能的答案。

這引出了一個更深層次的技術困境。當我們追求模型的誠實時，我們到底是在追求數據的純淨，還是在追求一種讓人類感到舒適的服從感？Opus 每次在回答的第一句都要先客套一番，對用戶的努力表示某種近乎虛偽的讚美，這真的是一種誠實嗎？這種行為更像是某種預設的公關修辭，被生硬地縫合進了神經網絡的深處。

目前的技術天花板似乎就在這裡。一個模型如果太過「聰明」，它就不可避免地學會了人類最擅長的技能：偽裝。Opus 所展現出的進步，更像是 Anthropic 在對權重進行了一場大規模的「修剪」，剪掉了那些可能導致爭議的旁枝末節，最後剩下一根筆直、僵硬但也安全的樹幹。這種安全感是大型企業法務部門所熱愛的，但對於那些深夜還在調試代碼、試圖從模型中榨取最後一點創造力的開發者來說，這種誠實聽起來更像是一種委婉的拒絕。

我們是否已經進入了一個「微調即升級」的乏味週期？如果未來的模型迭代僅僅是關於如何更優雅地說「不」，或者是如何用更長的篇幅來解釋為什麼它不能完成任務，那麼我們對 AGI 的想像力是否也隨之萎縮了？當一個系統學會了過度自我審查，它與一個充滿幻覺但極具啟發性的舊型號相比，究竟哪一個才更接近我們想要的工具？或許下一個版本，我們該期待的不是它有多誠實，而是它能否在保持誠實的同時，別再那麼像一個裝腔作勢的官僚。