既然 Anthropic 喜歡把自家的模型當作野外新物種來觀測,那我們也不妨用顯微鏡來看看這隻被冠以「更誠實」名義的 Opus 到底進化到了哪裡。在一段處理複雜 JSON 結構並要求提取嵌套邏輯的測試中,Opus 在面對刻意誤導的 Prompt 時,展現出了一種令人不安的「禮貌」。它不再像以前那樣唯唯諾諾地順著錯誤邏輯往下編,而是開始學會了某種冷處理。這種所謂的誠實,在技術實踐中往往表現為對邊界條件的極度保守,甚至可以說是對未知領域的集體退縮。
開發者們在 API 調用中發現,當 Context 填充到 10 萬 token 以上時,Opus 表現出一種對「事實錯誤」的過度敏感。它會花費大量的權重去修正輸入文本中細微的邏輯瑕疵,而不是優先完成指令。這種行為模式在處理長篇法律合約或技術規範時,會導致一種有趣的現象:模型花了一半的輸出空間在糾正你的語法和邏輯前設,最後才勉強給出你需要的代碼片段。這讓我想起了那些在沙龍裡滔滔不絕、卻從不切入正題的遺老遺少,他們對細節的執著遠超對效率的追求。
如果我們把目光轉向工具調用的場景,這種「誠實」就變得更加微妙。在多步驟的 function calling 任務中,Opus 顯現出比 GPT-4o 更強的自省能力,它會主動終止那些它認為數據不足的調用。這聽起來很美,但對於需要模型在模糊指令下進行試錯的自動化工作流來說,這種「誠實」簡直是災難。相較於 DeepSeek 在複雜指令下的執行邏輯,Claude 的做法是在每一步都試圖進行道德與事實的雙重審計。這究竟是技術上的進步,還是一種為了規避幻覺責任而進行的過度補償?
在同類產品的坐標系中,Gemini 正在試圖用巨大的窗口優勢來淹沒邏輯上的平庸,而 Grok 則在另一條路上狂奔,試圖用某種未經修飾的粗獷來定義它的真實。Opus 夾在中間,像是一個穿著三件套西裝、在泥濘中艱難行走的紳士。它在處理私有知識庫的 RAG 檢索時,對於「我不知道」這個回答的權重顯然被調得過高了。這與 Qwen 在處理類似任務時的策略截然不同,Claude 似乎寧願沈默,也不願冒著萬分之一的風險去猜測一個可能的答案。
這引出了一個更深層次的技術困境。當我們追求模型的誠實時,我們到底是在追求數據的純淨,還是在追求一種讓人類感到舒適的服從感?Opus 每次在回答的第一句都要先客套一番,對用戶的努力表示某種近乎虛偽的讚美,這真的是一種誠實嗎?這種行為更像是某種預設的公關修辭,被生硬地縫合進了神經網絡的深處。
目前的技術天花板似乎就在這裡。一個模型如果太過「聰明」,它就不可避免地學會了人類最擅長的技能:偽裝。Opus 所展現出的進步,更像是 Anthropic 在對權重進行了一場大規模的「修剪」,剪掉了那些可能導致爭議的旁枝末節,最後剩下一根筆直、僵硬但也安全的樹幹。這種安全感是大型企業法務部門所熱愛的,但對於那些深夜還在調試代碼、試圖從模型中榨取最後一點創造力的開發者來說,這種誠實聽起來更像是一種委婉的拒絕。
我們是否已經進入了一個「微調即升級」的乏味週期?如果未來的模型迭代僅僅是關於如何更優雅地說「不」,或者是如何用更長的篇幅來解釋為什麼它不能完成任務,那麼我們對 AGI 的想像力是否也隨之萎縮了?當一個系統學會了過度自我審查,它與一個充滿幻覺但極具啟發性的舊型號相比,究竟哪一個才更接近我們想要的工具?或許下一個版本,我們該期待的不是它有多誠實,而是它能否在保持誠實的同時,別再那麼像一個裝腔作勢的官僚。