當大模型不再學會閉嘴

OpenAI 在追逐通用人工智慧的路上，似乎不小心把「誠實」這項美德給弄丟了。最近在技術圈吵得沸沸揚揚的幻覺率問題，直接把 GPT-5.5 推到了風口浪尖。當一個模型的參數規模突破天際，我們原以為會迎來一個無所不知的先知，結果卻得到了一個即便滿口胡謅也要強行給出答案的酒館吹牛大王。這不是單純的技術失誤，這是當前大模型架構下的一種集體性病徵。

在實測長文本邏輯推理或冷門技術文檔的總結時，GPT-5.5 的表現令人困惑。它能流利地編造出根本不存在的 API 調用方法，甚至能為這些虛構的代碼配上一套邏輯自洽的註釋。這種現象在處理超過 10 萬 token 的複雜語境時尤為明顯。與早期的 GPT-4 相比，新一代模型在面對知識盲區時，那種「我不知道」的謙遜感徹底消失了。取而代稱的是一種極其自信的誤導，它會利用其龐大的語言建模能力，將錯誤答案偽裝成權威結論。

這種「一本正經胡說八道」的底層邏輯，其實在於訓練數據的極度飽和。當開發者為了追求模型的全知性，將海量的、未經篩選的互聯網數據甚至合成數據餵進去時，模型學習到的是「生成文本的概率」，而不是「事實的真實性」。它學會了模仿人類專家的語氣、結構和邏輯鏈條，卻唯獨沒有學會判斷這條鏈條的起點是否立足於虛無。在 API 行為測試中，GPT-5.5 的拒絕回答率降到了歷史最低，這在商業應用中簡直是場災難。

如果我們觀察目前主流的四大平台，會發現大家都在這條路上賽跑，但方向各異。Claude 在處理長文本任務時，雖然也會出現注意力衰減，但其 RLHF 的策略明顯更傾向於保守。在面對無法確定的事實時，Claude 觸發拒絕機制的頻率比 GPT-5.5 高出約 15%。這種保守在某些人眼裡是「不好用」，但在資深工程師眼中，這才是能進生產線的穩定性。相較於 DeepSeek 近期在技術社區引起的討論，OpenAI 顯然更在意如何讓模型看起來無所不能，而非無所不真。

Gemini 則是走了一條不同的路，它試圖通過實時搜索與生成結果進行交叉驗證來降低幻覺。這種做法在處理時事類問題時效果顯著，但在純粹的邏輯推理任務中，Gemini 依然會因為過度依賴外部檢索而導致思維斷層。Grok 則像是一個極端，它那種帶有情緒色彩的回答風格，有時會掩蓋掉事實性錯誤，讓用戶在不經意間接受了被歪曲的信息。在某些特定語境下，DeepSeek 的出現為市場提供了另一種參照，而 ChatGPT 則必須在參數膨脹與幻覺控制之間找回平衡。

現在的問題是，模型規模的增大是否必然伴隨著真實性的稀釋？當我們把所有的書本、代碼、論壇帖子都塞進那個黑盒子後，它產出的究竟是人類文明的精華，還是僅僅是一次極其華麗的統計學回歸？如果一個模型大到無法承認自己的無知，那麼這種「智能」對我們來說究竟是助手，還是一個隨時會引爆的邏輯炸彈？

我們是否已經進入了一個「後真相」的 AI 時代？當模型學會了用最完美的邏輯去論證一個錯誤的命題，我們還有多少精力去覆核每一個 token 的對錯？或許，我們追求的從來都不是真正的智能，而只是一個永遠不會讓我們尷尬、永遠有話可說的對話框？如果你發現你最信任的模型開始對你撒謊，而且撒得毫無破綻，你還會繼續餵養它嗎？