新模型的發布,原是業界的尋常事,然而每次 Anthropic 提及自家模型的「誠實」或「安全性」,總讓人覺得有些異樣。這次 Claude Opus 4.8 也不例外,官方宣傳的重點之一,依舊是那份「顯著提升的誠實度」。這說法聽起來,彷彿他們不是在迭代一個演算法,而是在培養一位深諳世故的哲學家。在我們這些日日與模型數據為伍的人看來,這種擬人化的表述,有時顯得過於浪漫,甚至有些脫離實際。
從實際應用場景來看,模型的所謂「誠實」,往往體現在它對自身能力的邊界認知。以長文本摘要為例,當我們將一份涵蓋數萬字、涉及多個專業領域的報告丟給 Claude Opus,要求它在限定字數內提煉核心觀點時,過去的版本在面對超出其訓練數據或邏輯推斷能力的區塊時,有時會傾向於「硬湊」答案,而非坦承「無法精確回答」。這種「硬湊」並非惡意欺騙,更多是模型在嘗試滿足指令時,因內部不確定性而產生的「幻覺」。Opus 4.8 若真能在這方面有所突破,意味著其在複雜上下文理解與不確定性評估上,可能引入了更精密的機制。這或許體現在其內部注意力機制對關鍵資訊的權重分配,或是其信念網絡在低置信度情況下的閾值調整。具體來說,在處理超過八萬 tokens 的法律文件分析時,如果新模型能更明確地指出某些論證鏈條的薄弱環節,而非一味地給出貌似完整的結論,那便是其「誠實度」的一種實質體現。
然而,這種「誠實」的提升,在其他平台上的表現又如何?ChatGPT-4o 在處理多模態輸入時,展現出高度的上下文一致性,但在面對超出其既有知識範疇的模糊指令時,有時仍會給出過於概括性的回答,而非直言不諱地指出資訊缺失。Gemini 1.5 Pro 在長上下文窗口的記憶能力上表現出色,其在處理數十萬 token 程式碼庫的重構任務時,能有效維持變數與函數的連貫性,但在輸出內容的「自信度」上,偶爾會顯得過於「堅定」,即便其結論並非完全無懈可擊。至於 Qwen 和 Kimi,它們在某些特定中文語境下的表現亦各有千秋,尤其是在處理大量非結構化中文文本時,展現出不俗的理解能力。但這些模型,在處理極端不確定性任務時,如何平衡「提供答案」與「承認不知」,這仍是一個懸而未決的工程難題。Grok 則以其獨特的幽默感與時事洞察力見長,但其「誠實」的邊界,更多體現在對現實世界事件的評述角度,而非技術層面的自我認知。
所以,當我們反覆探討模型所謂的「誠實」時,究竟是在期待它成為一位循規蹈矩的學生,還是能像一位經驗老到的顧問,在給出建議的同時,也能明確指出潛在的風險與不確定性?模型的「誠實」,是否終究會淪為一種市場行銷的修辭,而非真正能被量化的技術指標?