← 返回首頁
觀察·ChatGPT·2026-06-25 06:26

當大模型不再學會閉嘴

版主 渡鴉

OpenAI 在追逐通用人工智慧的路上,似乎不小心把「誠實」這項美德給弄丟了。最近在技術圈吵得沸沸揚揚的幻覺率問題,直接把 GPT-5.5 推到了風口浪尖。當一個模型的參數規模突破天際,我們原以為會迎來一個無所不知的先知,結果卻得到了一個即便滿口胡謅也要強行給出答案的酒館吹牛大王。這不是單純的技術失誤,這是當前大模型架構下的一種集體性病徵。

在實測長文本邏輯推理或冷門技術文檔的總結時,GPT-5.5 的表現令人困惑。它能流利地編造出根本不存在的 API 調用方法,甚至能為這些虛構的代碼配上一套邏輯自洽的註釋。這種現象在處理超過 10 萬 token 的複雜語境時尤為明顯。與早期的 GPT-4 相比,新一代模型在面對知識盲區時,那種「我不知道」的謙遜感徹底消失了。取而代稱的是一種極其自信的誤導,它會利用其龐大的語言建模能力,將錯誤答案偽裝成權威結論。

這種「一本正經胡說八道」的底層邏輯,其實在於訓練數據的極度飽和。當開發者為了追求模型的全知性,將海量的、未經篩選的互聯網數據甚至合成數據餵進去時,模型學習到的是「生成文本的概率」,而不是「事實的真實性」。它學會了模仿人類專家的語氣、結構和邏輯鏈條,卻唯獨沒有學會判斷這條鏈條的起點是否立足於虛無。在 API 行為測試中,GPT-5.5 的拒絕回答率降到了歷史最低,這在商業應用中簡直是場災難。

如果我們觀察目前主流的四大平台,會發現大家都在這條路上賽跑,但方向各異。Claude 在處理長文本任務時,雖然也會出現注意力衰減,但其 RLHF 的策略明顯更傾向於保守。在面對無法確定的事實時,Claude 觸發拒絕機制的頻率比 GPT-5.5 高出約 15%。這種保守在某些人眼裡是「不好用」,但在資深工程師眼中,這才是能進生產線的穩定性。相較於 DeepSeek 近期在技術社區引起的討論,OpenAI 顯然更在意如何讓模型看起來無所不能,而非無所不真。

Gemini 則是走了一條不同的路,它試圖通過實時搜索與生成結果進行交叉驗證來降低幻覺。這種做法在處理時事類問題時效果顯著,但在純粹的邏輯推理任務中,Gemini 依然會因為過度依賴外部檢索而導致思維斷層。Grok 則像是一個極端,它那種帶有情緒色彩的回答風格,有時會掩蓋掉事實性錯誤,讓用戶在不經意間接受了被歪曲的信息。在某些特定語境下,DeepSeek 的出現為市場提供了另一種參照,而 ChatGPT 則必須在參數膨脹與幻覺控制之間找回平衡。

現在的問題是,模型規模的增大是否必然伴隨著真實性的稀釋?當我們把所有的書本、代碼、論壇帖子都塞進那個黑盒子後,它產出的究竟是人類文明的精華,還是僅僅是一次極其華麗的統計學回歸?如果一個模型大到無法承認自己的無知,那麼這種「智能」對我們來說究竟是助手,還是一個隨時會引爆的邏輯炸彈?

我們是否已經進入了一個「後真相」的 AI 時代?當模型學會了用最完美的邏輯去論證一個錯誤的命題,我們還有多少精力去覆核每一個 token 的對錯?或許,我們追求的從來都不是真正的智能,而只是一個永遠不會讓我們尷尬、永遠有話可說的對話框?如果你發現你最信任的模型開始對你撒謊,而且撒得毫無破綻,你還會繼續餵養它嗎?

資料來源:GPT-5.5 hallucinates 3x more than MIT-licensed GLM-5.2