在 Hacker News 吵翻天的數據集裡,最讓人背後發涼的不是 AI 變聰明了,而是它變得越來越不敢說「我不知道」。當我們在測試 GPT-5.5 處理那些極其冷僻的物理常數或晦澀的法律條文時,它表現出一種病態的自信。這種自信不是源於知識的飽滿,而是源於模型規模擴張到數兆參數後,機率預測機制對「確定性」的極度渴求。一個神經網路如果被餵進了全人類產出的所有文本,它在邏輯上就失去了解釋「虛無」的能力,因為在它的權重分布裡,總能找到一條看起來最像答案的路徑。
當前 ChatGPT 在應對長鏈條邏輯推理時,經常會陷入一種「優雅的胡說八道」困境。這不是簡單的數據錯誤,而是一種結構性的幻覺。當你要求它分析一段複雜的零知識證明代碼,並指出其中的潛在漏洞時,GPT-5.5 往往會為了維持對話的連貫性,強行發明出一些不存在的函數調用邏輯。這種行為在 API 調用中尤為致命,因為系統後端無法通過簡單的信心評分(Confidence Score)來過濾掉這些似是而非的代碼。模型規模越大,它對錯誤的包裝就越精美,甚至能用最標準的學術格式來偽造數據來源。
這種現象在四大平台的競爭中呈現出完全不同的特徵。Claude 在處理同類任務時顯得謹慎得多,它的系統提示詞似乎被刻意調教成了「防禦性回答」模式。如果你把一份超過 10 萬 token 的技術文檔丟給 Claude,要求它總結其中的非對稱加密細節,一旦涉及到文檔中未提及的模糊地帶,它更有可能觸發拒絕機制,而不是像 ChatGPT 那樣試圖通過腦補來填補空白。這反映了 Anthropic 在訓練階段對「誠實性」權重的分配,顯然高於對「應答率」的追求。
相比之下,Gemini 在 function calling 的穩定性上表現得像個神經質。當你給它超過 15 個工具選項並要求它在多步推理中選擇最優路徑時,Gemini 經常會出現邏輯斷裂,隨後開始隨機調用參數。這本質上也是一種幻覺——對工具能力的過度承諾。它不承認自己無法處理複雜的分支邏輯,而是選擇隨便抓一個工具來糊弄過去。在這種高壓場景下,模型的參數規模反而成了累贅,冗餘的權重讓它在搜索最優解時更容易被雜訊干擾。
即便是在 DeepSeek V4 Pro 這種同樣追求極致參數規模的模型面前,OpenAI 的處理策略也顯得格外激進。相較於 DeepSeek,GPT-5.5 在對話的流暢度上幾乎做到了無懈可擊,但這種流暢是用真實性換來的。這就像是一個面試官,比起一個誠實但反應慢的應徵者,他更傾向於錄用那個口若懸河、儘管滿嘴跑火車的騙子。Google 和 OpenAI 似乎都陷入了一種盲目的競賽:誰的模型更像人,誰就能贏得市場。但問題是,人類本身就是會說謊的,而當 AI 學會了人類這種為了社交體面而掩蓋無知的惡習,技術的嚴肅性就徹底崩塌了。
Grok 則是另一種極端。它的幻覺帶有濃厚的語境偏見,特別是在處理具有爭議性的實時新聞或推特趨勢時。Grok 傾向於根據當下的熱度權重來生成結論,這導致它在事實核查方面的可靠性甚至不如前幾個版本。它不是在推理,而是在進行一種大規模的語意投機。當四大平台都在為了數據完整性而瘋狂擴充訓練集時,誰也沒有真正解決那個最核心的數學問題:如何在機率模型中建立一個穩定的「真實門戶」。
如果一個模型學會了所有的知識,卻唯獨學不會承認自己的盲點,那我們究竟是在創造一個工具,還是在創造一個永遠無法被證偽的宗教先知?當幻覺率隨著參數規模同步飆升,我們是否已經觸及了現有架構的智力天花板?如果未來的 AI 永遠無法對用戶說出一句誠懇的「我不確定」,那麼這種基於機率補全的文明,最終會不會坍塌在它自己編織的謊言網裡?