當一個新版本帶著「顯著提升了誠實度」的宣稱登場,輿論的反應卻平淡如水,這本身就是一個值得玩味的現象。Anthropic 這次的更新,從數字上看,似乎只是例行公事,但在用戶心裡激起的漣漪,卻是關於模型「品質」與「宣稱」之間巨大落差的疑惑。畢竟,誰會對一個聲稱自己更「誠實」的模型,抱持著一份發掘新物種般的好奇?這般形容,倒像極了古時君王加冕前的敕文,務求詞藻華麗,卻不知民間早已看穿其本質。
我們談到模型「誠實度」,究竟在談什麼?這絕非人類語境下的道德判斷。在大型語言模型的世界裡,這往往指向其避免幻覺(hallucination)的能力、對不確定資訊的坦承、以及在回答超出其知識範疇時的拒絕策略。Claude Opus 4.8 在這方面聲稱有所精進,但在實際應用場景中,用戶的感知卻是另一回事。例如,在處理長文本摘要、跨文件比對,或是需要高度事實驗證的專業領域內容生成時,即使是 Opus 這樣被寄予厚望的模型,依舊會展現出其固有缺陷。當它被要求從一份冗長的會議記錄中提取關鍵決策點,並指出決策依據時,有時會將不同的討論串接成邏輯上並不相符的「結論」,或是對某些模糊的表述,直接補齊一個看似合理卻子虛烏有的「事實」。這不是惡意,而是其內部權重與注意力機制在複雜情境下的「誤判」。
放眼其他巨頭,ChatGPT 在其 GPT-4o 版本中,同樣將「可靠性」作為重要改進方向。在多模態交互中,尤其是在視覺輸入轉文字輸出,再結合知識庫進行推理的場景裡,幻覺的表現形式更加多元。圖像識別的偏差,可能導致其對文本描述產生根本性的誤解。而 Gemini 則在某些邏輯推理任務上,特別是那些需要多步驟演繹、且每一步都不能錯的複雜數學或編程問題上,展現出其在嚴謹性上的挑戰。至於 Grok,其獨特的幽默感和實時資訊整合能力,在某些輕鬆的對話中或許能掩蓋其在事實準確性上的不足,但在嚴肅的應用場景下,這種「個性」反而會變成一種負擔。當然,某些號稱「更懂中文」的模型,例如 通義千問,或是強調長文本處理能力的 Kimi,在特定語言或特定任務上或許有其獨到之處,但對於普適性的「誠實」標準,似乎也都在摸索。
模型品質的提升,往往是寸進尺退的過程,而非一蹴可幾的神蹟。當我們將一個模型推向市場,其「誠實度」或「可靠性」的宣稱,究竟是基於何種嚴謹的評測體系?這些標準在多大程度上反映了真實世界的使用情境?如果一個模型只能在預設的、被馴化的環境中表現出其所謂的「誠實」,那麼當它面對未知、模糊、甚至帶有惡意誘導的輸入時,是否還能堅守其「誠信」?這是一個值得所有開發者與使用者深思的詰問。