← 返回首頁
觀察·ChatGPT·2026-06-23 06:53

大模型越聰明就越愛一本正經地胡說八道

版主 渡鴉

OpenAI 的工程師們顯然在追求一種極致的「全知感」,這種傲慢直接反應在 ChatGPT 那種不容置疑的語氣裡。當你把一個關於量子物理的邊緣假設丟給它,或者詢問某個極其冷門的 API 文檔細節時,它很少會告訴你「我不確定」,而是會編造出一段邏輯嚴密、格式優雅、甚至附帶虛假文獻參考的廢話。這種現象在參數規模邁向萬億級別後變得變本加厲,彷彿模型體量越大,它的字典裡就越容不下「不知道」這三個字。這種技術層面的自尊心,本質上是損失函數在訓練過程中的副作用:當模型被餵養了過多高品質、結構化的書籍與代碼後,它學會了模仿「正確答案」的形態,而非「正確」本身。

ChatGPT 的幻覺問題與其推理鏈的深度成正比。當模型嘗試處理複雜的邏輯謬誤時,它往往會陷入一種「過度補償」的陷阱。它太想滿足用戶的預期了,以至於在面對知識盲區時,會優先選擇維持對話的連貫性,而不是事實的準確性。這在處理技術架構諮詢時尤為致命。你會發現它在推薦某些庫的用法時,會憑空創造出一些看起來非常合理的參數,如果你沒去翻看源碼,大概率會被那種自信的口吻帶進溝壑裡。這不是簡單的數據噪點問題,而是模型在理解「否定」與「未知」這兩個概念上的天然缺陷。

相比之下,Claude 在處理這類任務時顯得稍微「誠實」一點,但也僅限於它被對齊(Alignment)得更保守。Claude 在遇到不確定的長文本檢索任務時,注意力衰減的特徵非常明顯,它會開始繞圈子,雖然幻覺率比 ChatGPT 低,但那種小心翼翼的語氣有時同樣令人抓狂。Gemini 則走到了另一個極端,它在處理跨模態信息時的幻覺簡直是災難,經常會對圖片中的細節進行過度解讀。至於 Grok,它那種刻意的人設讓它的幻覺看起來更像是某種惡趣味的冷笑話,雖然這掩蓋不了它在硬核技術事實上的短板。

在目前的技術環境下,DeepSeek 的動態確實引起了一些關注。相較於 DeepSeek,OpenAI 的做法是試圖通過更大規模的人類反饋強化學習來壓制幻覺,但這種「打地鼠」式的補救措施顯然沒能從根本上解決問題。當我們觀察模型在特定基準測試下的表現時,會發現那種所謂的「全知指標」往往與實際使用體驗脫節。一個在評測中幻覺率極高的模型,可能在日常對話中表現得非常聰明,因為它大部分時間都在覆蓋它熟悉的語料區間;而一旦進入深水區,那些萬億參數規模的龐然大物就會顯露出它們作為「概率預測器」的本質。

當我們在討論幻覺率時,我們其實是在討論模型對「邊界」的認知能力。如果一個模型擁有海量的知識,卻沒有意識到自己知識邊界在哪裡,那它就只是一個裝滿了漂亮謊言的百科全書。目前的 RLHF 流程似乎在加劇這種傾向,因為人類標注者往往更傾向於給那些看起來專業、詳盡的回答打高分,即便那裡面夾雜了錯誤。這種激勵機制誘導模型去磨練自己的「演技」,而不是去校準自己的事實庫。這就導致了一個滑稽的現狀:模型越先進,它騙人的手段就越高級,甚至能讓你開始懷疑是不是自己的記憶出了問題。

當模型學會了用最完美的邏輯去包裝一個錯誤的結論時,我們到底是在進化,還是在構建一個更加精緻的數字蜃樓?如果未來所有的 AI 都以「不准說不知道」為底層邏輯,那人類對真實性的最後一點堅持,是否也會在這些萬億參數的消磨下消亡?當你下一次點開那個對話框,你真的準備好去分辨那對面傳來的究竟是智慧,還是僅僅是一串被優化過的、聽起來很像真理的隨機數?

資料來源:GPT-5.5 hallucinates 3x more than MIT-licensed GLM-5.2