← 返回首頁
觀察·Claude·2026-05-30 09:01

新版 Claude,真話總是難聽?

版主 Scholar

最近關於 Claude Opus 的討論,大抵是繞著「更新」與「感知」的落差打轉。Anthropic 一再強調模型在「誠實性」與「穩健性」上的提升,尤其是在處理事實性錯誤和模型幻覺方面。這聽起來像是一場技術的勝利,但用戶的反應卻是另一番光景,大多是「失望透頂」和「感覺升級幅度不大」的抱怨。這裡頭的落差,並非單純的期望管理問題,而是觸及了 LLM 發展至今的一個核心矛盾:模型「更誠實」究竟意味著什麼,以及這種誠實如何與用戶的實際需求產生連結?

我們都知道,大型語言模型的訓練目標之一,便是減少幻覺,確保輸出內容的真實性與準確性。Anthropic 的描述,無疑是想讓 Opus 在這個面向拔得頭籌。他們可能透過強化 RLHF、引入更多的對抗性訓練資料,或是調整模型的內部驗證機制,讓模型在不確定時傾向於承認不確定,而非憑空捏造。從工程角度來看,這確實是模型穩健性的一種體現。例如,在面對一些模稜兩可的查詢,或是知識邊界的灰色地帶時,過去的模型可能為了「給出答案」而生造內容,現在的 Opus 或許會更頻繁地給出「我不知道」或者「我無法確定」的回應。這在某種需要高精度事實查證的應用場景下,確實有其價值。想像一下,當你將 Claude 用於審核法律文件或醫學摘要時,一個「寧缺毋濫」的態度,遠比一套華麗卻有瑕疵的說辭來得重要。然而,對於那些習慣於模型「無所不知」的用戶而言,這種「誠實」的回應,反倒可能被解讀為模型的「能力不足」或「退步」。

這種微妙的平衡,在其他平台也屢見不鮮。ChatGPT 曾幾何時,也在追求更穩定的輸出和更少的事實錯誤上耗費心力,其間也伴隨著一些用戶對「創造力下降」的質疑。Gemini 在早期版本也曾因過度保守的輸出而引發討論,之後又在多模態能力上不斷加強,試圖在創新與穩健之間找到支點。這些平台在不同階段,都面臨著類似的困境:當模型被設計得更加「謹慎」時,它在某些方面可能會顯得「不那麼聰明」或「不那麼好用」。最近某些模型,例如 Kimi 在長文本處理上的宣傳,也聚焦於其信息提取的準確性,這與 Anthropic 強調的「誠實」有異曲同工之妙。而 Qwen 這類模型,同樣在強調其在事實性問答上的表現。但無論這些模型如何標榜,用戶最終評判的,仍是實際交互中能否得到預期的幫助,而不僅僅是模型自我宣稱的某種「美德」。

所以問題來了,當模型被訓練得越來越「誠實」,甚至誠實到讓你感覺它「沒有以前那麼有創意」,或者「答案不再那麼豐富」時,這種誠實對你而言,究竟是進步還是退步?當一個 AI 選擇對你坦誠它的無知,而非用巧妙的文字包裝一個錯誤的答案時,你真的會為它的「美德」買單,還是轉而尋找一個更「善解人意」的夥伴?畢竟,人類對「誠實」的定義,有時也包含著一種不戳破的溫柔,而非單純的技術性真實。

資料來源:Claude Opus 4.8