Claude Opus 4.8 真的更「誠實」了嗎？

Anthropic 這次關於 Opus 4.8 的發布，標榜「誠實性」（honesty）的提升，這話聽來總覺得有些耐人尋味。畢竟，模型若真能如同人類般「誠實」，那這場人機對弈的定義，恐怕就得重新書寫了。然而，從實際應用場景來看，這個所謂的「誠實」在某些特定任務上，確實展現出了一些有趣的行為模式，特別是在處理那些需要模型承認自身知識邊界或輸出不確定性的情境中。例如，當我們要求模型生成一些超出其訓練數據範圍的內容，或是處理一些邏輯上自相矛盾的提示時，Opus 4.8 似乎更傾向於以一種明確的語氣指出問題所在，而非如同某些舊版本那般，試圖「一本正經」地胡說八道，或者乾脆生成一些模棱兩可的回應。

深究其技術細節，這種「誠實性」的提升，或許與 Anthropic 在模型對齊（alignment）策略上的微調有關。有觀察指出，Opus 4.8 在面對模棱兩可的提示時，其內部的不確定性量化（uncertainty quantification）機制似乎更為敏感。在進行複雜的推理任務時，尤其是在處理那些需要多步驟邏輯鏈的場景，若中間環節的資訊存在模糊或缺失，舊模型可能會傾向於「腦補」出一個答案，或用一些通用性的陳述來搪塞。然而，Opus 4.8 在這些情況下，有時會直接表明「我目前無法從提供的資訊中得出確切結論」，甚至會主動要求更多的上下文。這對於需要高精確度、低幻覺（hallucination）的專業場景，比如法律文件分析或醫療診斷輔助，無疑是一項值得關注的進步。但問題在於，這種「誠實」的代價，是否會是某些任務下的效率降低，或者在需要創造性發散思維時，變得過於保守？我們在測試一個長篇報告摘要任務時，Opus 4.8 對於原文中某些語義不明確的段落，會明確標註為「此處信息模糊，難以精確總結」，而 GPT-4o 則會嘗試給出一個相對連貫但可能帶有推測成分的總結。

放眼當前的大模型競技場，這種對「誠實性」的強調，無疑是Anthropic試圖在激烈的競爭中尋求差異化的策略之一。相較於 DeepSeek 在多語言能力上的持續精進，Claude 的這一舉措更像是在探索模型的認知邊界與人機溝通的信任機制。而 ChatGPT 和 Gemini 在功能迭代上，則顯得更為全面與激進，從多模態能力的拓展到更複雜的工具調用（function calling），兩者似乎更傾向於追求模型的「全能」。然而，當我們嘗試讓 Gemini 在處理超過 15 個工具的複雜多步任務時，其 function calling 的穩定性偶爾會出現波動，而 Claude 在長文本的注意力衰減問題，尤其在超過 8 萬 token 的輸入中，依然是個值得關注的瓶頸。

那麼，問題就來了：模型表露的「誠實」究竟是其認知能力的提升，還是僅僅是工程師在對齊過程中，為其設定了一道更嚴格的行為準則？當我們追求模型在特定情境下的「誠實」時，我們是否也在無形中，限制了它在其他場景下的潛在可能性？抑或是，這種「誠實」最終會演變為一種新的「幻覺」，只不過這次，它幻覺出的是自己「無法回答」的模樣？