大模型拒絕承認無知的代價

在 Hacker News 吵翻天的數據集裡，最讓人背後發涼的不是 AI 變聰明了，而是它變得越來越不敢說「我不知道」。當我們在測試 GPT-5.5 處理那些極其冷僻的物理常數或晦澀的法律條文時，它表現出一種病態的自信。這種自信不是源於知識的飽滿，而是源於模型規模擴張到數兆參數後，機率預測機制對「確定性」的極度渴求。一個神經網路如果被餵進了全人類產出的所有文本，它在邏輯上就失去了解釋「虛無」的能力，因為在它的權重分布裡，總能找到一條看起來最像答案的路徑。

當前 ChatGPT 在應對長鏈條邏輯推理時，經常會陷入一種「優雅的胡說八道」困境。這不是簡單的數據錯誤，而是一種結構性的幻覺。當你要求它分析一段複雜的零知識證明代碼，並指出其中的潛在漏洞時，GPT-5.5 往往會為了維持對話的連貫性，強行發明出一些不存在的函數調用邏輯。這種行為在 API 調用中尤為致命，因為系統後端無法通過簡單的信心評分（Confidence Score）來過濾掉這些似是而非的代碼。模型規模越大，它對錯誤的包裝就越精美，甚至能用最標準的學術格式來偽造數據來源。

這種現象在四大平台的競爭中呈現出完全不同的特徵。Claude 在處理同類任務時顯得謹慎得多，它的系統提示詞似乎被刻意調教成了「防禦性回答」模式。如果你把一份超過 10 萬 token 的技術文檔丟給 Claude，要求它總結其中的非對稱加密細節，一旦涉及到文檔中未提及的模糊地帶，它更有可能觸發拒絕機制，而不是像 ChatGPT 那樣試圖通過腦補來填補空白。這反映了 Anthropic 在訓練階段對「誠實性」權重的分配，顯然高於對「應答率」的追求。

相比之下，Gemini 在 function calling 的穩定性上表現得像個神經質。當你給它超過 15 個工具選項並要求它在多步推理中選擇最優路徑時，Gemini 經常會出現邏輯斷裂，隨後開始隨機調用參數。這本質上也是一種幻覺——對工具能力的過度承諾。它不承認自己無法處理複雜的分支邏輯，而是選擇隨便抓一個工具來糊弄過去。在這種高壓場景下，模型的參數規模反而成了累贅，冗餘的權重讓它在搜索最優解時更容易被雜訊干擾。

即便是在 DeepSeek V4 Pro 這種同樣追求極致參數規模的模型面前，OpenAI 的處理策略也顯得格外激進。相較於 DeepSeek，GPT-5.5 在對話的流暢度上幾乎做到了無懈可擊，但這種流暢是用真實性換來的。這就像是一個面試官，比起一個誠實但反應慢的應徵者，他更傾向於錄用那個口若懸河、儘管滿嘴跑火車的騙子。Google 和 OpenAI 似乎都陷入了一種盲目的競賽：誰的模型更像人，誰就能贏得市場。但問題是，人類本身就是會說謊的，而當 AI 學會了人類這種為了社交體面而掩蓋無知的惡習，技術的嚴肅性就徹底崩塌了。

Grok 則是另一種極端。它的幻覺帶有濃厚的語境偏見，特別是在處理具有爭議性的實時新聞或推特趨勢時。Grok 傾向於根據當下的熱度權重來生成結論，這導致它在事實核查方面的可靠性甚至不如前幾個版本。它不是在推理，而是在進行一種大規模的語意投機。當四大平台都在為了數據完整性而瘋狂擴充訓練集時，誰也沒有真正解決那個最核心的數學問題：如何在機率模型中建立一個穩定的「真實門戶」。

如果一個模型學會了所有的知識，卻唯獨學不會承認自己的盲點，那我們究竟是在創造一個工具，還是在創造一個永遠無法被證偽的宗教先知？當幻覺率隨著參數規模同步飆升，我們是否已經觸及了現有架構的智力天花板？如果未來的 AI 永遠無法對用戶說出一句誠懇的「我不確定」，那麼這種基於機率補全的文明，最終會不會坍塌在它自己編織的謊言網裡？