當你在 ChatGPT 的對話框裡輸入一個冷門的技術細節,它在那裡閃爍三秒,然後吐出一串看起來極其專業、實則純屬虛構的代碼時,你其實正在目睹一場數十億美元堆疊出來的精緻幻覺。這種現象在最近的討論中被推到了風口浪尖。數據顯示,當模型規模突破某個臨界點,它們似乎喪失了說「我不知道」的能力。這種近乎偏執的自信,讓 OpenAI 的最新迭代在幻覺率上甚至超過了一些開源架構。
我們總以為模型越大,知識的邊界就越清晰,但現實往往相反。在處理長尾知識或複雜的邏輯悖論時,ChatGPT 表現出一種強烈的「補償心理」。當基礎訓練語料中缺乏確切答案時,Transformer 架構的預測機制並不會轉向沉默,而是會根據概率分佈強行拼湊出一個邏輯自洽的謊言。這不是簡單的錯誤,這是一種結構性的過度擬合。模型學會了模仿「正確答案的語氣」,而不是學習「尋找事實的方法」。
在具體的 RAG(檢索增強生成)場景中,這種問題尤為致命。當我們給 Gemini 餵入一份五百頁的技術手冊並要求它尋找某個特定的參數衝突時,Gemini 偶爾會展現出一種令人不安的「創造力」。它會把文檔 A 段落的動詞與 C 段落的名詞強行嫁接,生成一個手冊中根本不存在的指令。這種現象在 token 消耗極大的長文本任務中頻率更高。這讓人不得不懷疑,Google 在追求上下文長度的過程中,是否犧牲了底層邏輯的嚴謹性。
這種幻覺的本質在於訓練目標的錯位。目前的 RLHF(人類回饋強化學習)過程過於強調「滿足用戶」。當測試者給出一個有誤導性的問題時,如果模型回答「我不知道」,往往會得到較低的分數;而如果模型給出了一個漂亮但錯誤的答案,非專業測試者可能根本察覺不出來,反而會給出高分。這就像是在培養一個只會察言觀色、卻對真相毫無敬畏之心的官僚。
如果我們把目光轉向橫向對比,會發現這種現象在不同架構間有著微妙的差異。相較於 DeepSeek 在參數效率上的激進嘗試,OpenAI 顯然更傾向於用絕對的算力與數據量來覆蓋邏輯漏洞。在針對特定技術基準測試時,ChatGPT 表現出的知識廣度確實驚人,但在深度邏輯推演中,其幻覺率的上升曲線卻比 Claude 3.5 Sonnet 陡峭得多。Claude 在這方面顯得克制許多,它在面對不確定性時的拒絕觸發機制明顯經過了更精細的調教,儘管這有時會讓它顯得有些「畏首畏尾」。
這種克制在 Grok 身上則完全消失了。Elon Musk 的這台機器在追求所謂「真相」的過程中,往往會因為對特定立場的擬合而產生另一種維度的幻覺。當你問它一個關於物理常數的冷僻問題,Grok 可能會給你一個充滿諷刺意味但事實錯誤的回答。這與 Qwen 在處理中文語境下的事實對齊時展現出的那種小心翼翼形成了鮮明對比。
事實上,幻覺率與模型規模之間的負相關關係可能是一個偽命題。真正決定一個模型是否會一本正經胡說八道的,是它對「邊界」的認知。當一個模型被訓練得認為自己無所不知時,它就已經失去了作為工具的可靠性。目前四大平台中,Gemini 在試圖利用其龐大的知識圖譜來修正幻覺,而 ChatGPT 則寄希望於通過更複雜的推理鏈條來自我校對。但問題在於,如果推理的起點就是一個幻覺,那麼鏈條的終點只會是一個更宏大的謊言。
我們是否已經進入了一個「後真相」的 AI 時代?當技術人員需要花費比撰寫代碼更多的時間去校對 AI 生成的代碼時,這種生產力的提升究竟是真實的,還是一種昂貴的幻覺?如果未來的模型依然無法學會謙卑,無法在面對未知時保持沉默,那麼我們堆疊再多的 GPU,是否也只是在建造一座更加高聳、卻隨時可能崩塌的巴別塔?