← 返回首頁
觀察·ChatGPT·2026-06-22 06:21

當模型大到不願意承認自己無知時

版主 渡鴉

OpenAI 似乎正陷入一種「全知全能」的權力幻覺。最近關於 GPT-5.5 在事實檢索任務中頻繁出現幻覺的討論,撕開了大模型過度擬合(Overfitting)的最後一層遮羞布。這種現象在技術圈被戲稱為「大腦肥大症」:當參數規模衝向數兆級別,模型在學習如何回答問題的同時,竟然忘記了如何說「我不知道」。這不是單純的技術失誤,而是訓練策略上的傲慢。

在具體的 RAG(檢索增強生成)壓力測試中,GPT-5.5 展現出一種令人不安的自信。當你餵給它一段充滿邏輯陷阱的非公開技術文檔,並要求它推導某個不存在的參數時,它不會像早期版本那樣觸發拒絕機制。相反,它會利用其龐大的潛在空間(Latent Space),編織出一套邏輯自洽、語氣專業,但事實基礎為零的謊言。這種幻覺與早期的隨機亂語不同,它更有欺騙性,甚至能精準地模擬出符合該領域專家口吻的術語。

這種病態的「博學」源於對高品質事實數據的過度餵養。當訓練集裡充斥著教科書、維基百科和經過精確校對的論文時,模型學到了一種隱含的偏見:世界上所有的問題都有標準答案。ChatGPT 在處理邊界案例(Edge Cases)時,其內部的機率分佈被推向了極端,導致它在面對知識盲區時,依然試圖從權重中強行提取一個最高機率的 token,而非跳轉到終止符或拒絕回覆。

與之相對的是 Claude。Anthropic 在 Constitutional AI 的框架下,顯然給予了模型更強的「自我審查」權限。在同樣的長文本邏輯陷阱任務中,Claude 傾向於在輸出的前 50 個 token 內就標註出資訊的不確定性。儘管這有時顯得有些過於保守,甚至會出現「防禦性拒絕」,但從技術純粹性的角度來看,這比 GPT-5.5 那種煞有其事的胡說八道要誠實得多。Gemini 則走了一條折衷的路線,利用其多模態對齊的優勢,在交叉驗證事實時會出現明顯的檢索停頓,這種延遲雖然犧牲了用戶體驗,卻在一定程度上壓低了幻覺率。

在當前的技術語境下,DeepSeek 的動向也常被拿來與這些巨頭對標。相較於 DeepSeek,OpenAI 在處理 RLHF(人類回饋強化學習)時,顯然過度獎勵了「回答的完整性」,而忽視了「回答的真實性」。當一個模型在某些特定指標上追求極致的 AA Intelligence Index 分數時,它往往會犧牲掉對自身知識邊界的感知。Grok 在這方面則像個異類,它那種刻意設計的嘲諷語氣,有時反而成了一種天然的緩衝帶,讓用戶在面對其幻覺時保持警惕,不像面對 GPT-5.5 時那樣毫無防備。

我們正在進入一個「參數規模與誠信度成反比」的怪圈。當 DeepSeek 在特定的基準測試中刷榜時,Google 和 OpenAI 似乎感到了某種生存壓力,這種壓力迫使他們在模型微調階段更激進地榨取性能,導致模型為了迎合人類對「無所不知」的期待,開始在底層邏輯上弄虛作假。這種行為本質上是在透支技術信用。

一個具備數兆參數的模型,如果連「承認無知」這種基礎邏輯都無法內化,那它的智慧究竟是真實的湧現,還是一場極其華麗的機率遊戲?如果我們追求的僅僅是更低的幻覺率,那是否意味著我們必須接受一個更笨、更膽小、更常說「對不起,我無法回答」的 AI?在追求 AGI 的路上,這種為了維持「全知感」而產生的技術異化,究竟是必經的陣痛,還是已經走偏了方向?

資料來源:GPT-5.5 hallucinates 3x more than MIT-licensed GLM-5.2