Grok 在長上下文理解中的幻覺與法律條文解析的無力感

當 Atherton 這種富人區用區區 14 萬美元的訴訟費，就拖住了 4 億美元的鐵路電氣化工程，技術圈在意的不是那幾根電線桿，而是法律條文如何在技術官僚體系中被當成武器。這件事在 Hacker News 吵翻了天，大家都在噴 CEQA 這種環境法規成了阻礙進步的遮羞布。但如果你試著把那疊厚達數千頁的訴訟文件、環評報告和加州法律條文丟進 Grok 的對話框，問它「這 4 億美元的超支到底是哪些條款造成的」，你會發現，即便背靠 xAI 最引以為傲的算力，Grok 依然會在你最期待的地方開始胡言亂語。

長上下文處理能力（Long Context Window）是現在四大模型都在拚的戰場，Grok 也不例外。但處理法律文件這種高密度的資訊，跟餵它看一百本網路小說是兩回事。Grok 在處理這類爭議性極強的社會工程問題時，表現出一種極其焦慮的「討好感」。它能抓出 CEQA 的條款，能總結出 Atherton 居民的反對意見，但當你要求它對比不同年份的環評差異，或是計算具體哪一個訴訟節點導致了成本飆升時，它的邏輯鏈條就開始斷裂。這不是算力不夠，而是模型在處理這種「充滿惡意的數據」時，無法準確定位語意中的陷阱。

具體到技術細節，Grok 的注意力機制在面對這種嵌套式的法規引用時，經常會出現權重偏移。你問它 A 條款對 B 項目的影響，它可能會因為 C 評論區的聲量太大，而把公眾情緒誤認為是法律證據。在 API 調用中，我們發現 Grok 處理超過 5 萬 token 的任務時，雖然不像某些模型會直接遺忘開頭，但它會產生一種「語意漂移」。它記得 Atherton 花了錢，也記得鐵路超支了，但它沒辦法把這兩者之間複雜的法律因果鏈條像外科醫生一樣剝離出來。這就是目前的技術天花板：它們能讀，但它們不理解「博弈」。

相較於 DeepSeek 最近在代碼邏輯上的進展，Grok 在處理這種非結構化、高對抗性的社會技術數據時，顯得過於依賴其預訓練中的推特（X）語料。這導致 Grok 的語氣雖然聽起來很有攻擊性，很符合馬斯克的胃口，但在硬核的數據分析面前，這種攻擊性反而掩蓋了其邏輯推導的空洞。我們在測試中發現，ChatGPT 在處理這類問題時，雖然顯得過於溫和、甚至有些官僚味，但它對法條的結構化歸納確實比 Grok 穩。Gemini 則是另一個極端，它會給你列出一堆漂亮的表格，但如果你仔細核對條目，會發現它為了維持表格的整齊而捏造了幾個日期。

在這種百萬級 token 的環境下，Claude 的表現目前還是最讓人放心的，特別是在長文本的注意力分佈上，它不會因為 Atherton 居民的貪婪而分心，能精確地抓到訴訟文件中被隱藏的程序性錯誤。這反映出一個殘酷的現實：xAI 想讓 Grok 成為一個有靈魂、有立場的助手，但在面對 Atherton 鐵路案這種需要極度理性、極度冷靜的技術細節剖析時，Grok 的情緒化語料庫反而成了它的負擔。

這就引出了一個更深層的技術問題。當我們討論模型性能時，我們到底在討論什麼？是那幾個跑分軟體上的數字，還是在面對現實世界複雜博弈時，模型能提供多少有效的決策支持？Atherton 的案子是一個完美的壓力測試場，它測試的不僅是法律系統的韌性，更是人工智慧在面對人類社會「合法耍流氓」時的解析能力。如果 Grok 只能複讀網上的憤怒情緒，而不能從法律框架中給出破局的邏輯，那它跟一個憤怒的鍵盤俠有什麼區別？

我們是否過於迷信上下文長度的擴張，而忽略了模型在極端長文本中對「邏輯權重」的分配能力？當我們把整個世界的法規都餵給模型後，它給出的是通往效率的捷徑，還是只是幫我們把這堆廢紙總結得更優雅一點而已？在 4 億美元的代價面前，這種技術上的無力感，遠比模型幻覺更讓人沮喪。