Opus 4.8 真的更「誠實」了嗎？

Anthropic 宣稱 Claude Opus 4.8 在「誠實度」上有顯著提升，這話聽起來總有種自說自話的荒謬感，彷彿他們自家實驗室的 AI 是在野外被偶然發現的新物種，而非一磚一瓦堆砌出來的。模型宣稱的「誠實」到底意指什麼，在實際應用場景中，我們看到的卻是另一番景象。尤其當處理長文本、複雜邏輯推理，或是需要精準事實檢索的任務時，這種「誠實」往往會演變成一種更為狡猾的幻覺。

具體來看，在一些需要從大量資料中提取特定資訊並進行交叉驗證的任務裡，Opus 4.8 的表現，與其說是「誠實」，不如說是在某些情況下，它更傾向於生成看似合理但實則缺乏堅實證據的內容。例如，當你給它一份超過 8 萬個 token 的財報文件，要求它總結其中特定業務部門在過去三個季度的營收增長驅動因素時，Opus 4.8 偶爾會「創造」出一些並非直接來自文本的解釋，或者將不同時間點的資料混淆。這種「創造性」在技術層面上或許可以歸咎於其 Transformer 架構在長序列輸入時注意力機制（attention mechanism）的衰減問題，導致模型在捕捉遠距離依賴時出現資訊混淆，進而生成「幻覺」。這並非獨特的現象，只是在 Opus 4.8 上，這種「幻覺」被包裝得更為精巧，讓人一時難辨真偽。

這種「誠實」的模糊地帶，在其他主流模型中也有不同程度的體現。ChatGPT-4o 在處理多模態輸入，特別是結合圖像和文本進行推理時，也曾出現過對圖像細節的「誤讀」，進而影響最終結論的「真實性」。Gemini 在 Function Calling 功能上，當工具數量超過十五個，且工具間存在複雜的依賴關係時，其調用邏輯便可能開始不穩定，導致模型在判斷何時調用哪個工具，以及如何解析工具回傳結果時出現偏差，這無疑也影響了其輸出結果的「誠實」程度。Grok 則更偏向於即時資訊的整合與諷刺性回覆，在需要深度、嚴謹的專業知識時，其「誠實」的定義顯然又會與前述模型有所區隔，更像是一種資訊聚合後的「口語化」表達。

當然，某些在特定市場環境下誕生的模型，例如 Qwen、文心一言，或近期嶄露頭角的 DeepSeek，也各自在他們的評測體系中強調「真實性」或「可靠性」。但這些定義，往往與模型的訓練資料、語料庫偏向，以及最終服務的應用場景息息相關。當我們談論 AI 的「誠實」，究竟是在要求它不撒謊，還是要求它能夠辨別並呈現事實？這兩者之間，有時是天壤之別。

那麼，當我們面對這些號稱更「誠實」的模型時，究竟該如何檢驗它們的「誠實」？是單純相信它們的自我評估，還是應該在每一次實際應用中，都對其輸出結果抱持著審慎的懷疑？所謂的「誠實」宣言，究竟是技術突破的確鑿證據，抑或是另一種市場話術的展演？