當法律卷宗遇上 LLM 的胃口

法律文書從來不是為了機器閱讀而設計的。在 PACER 系統那些陳舊的 PDF 堆裡，藏著無數升斗小民的隱私、企業的專利死穴，以及律師們堆砌的辭藻。當 Hacker News 上的技術人還在為了法庭紀錄應否全面免費化吵得不可開交時，大模型開發者早就盯上了這塊肥肉。問題不在於這些數據「應不應該」開放，而在於當這些數據被餵進四大平台的肚子裡時，誰能精準地從法律廢墟中淘出金子，而不是吞下一堆有毒的個人隱私。

目前的技術場景很具體。如果你嘗試將一份動輒幾百頁、掃描品質極差且充滿手寫批註的法庭動議交給 Gemini 處理，你會發現它的表現極其不穩定。Gemini 的多模態能力在解析這種混亂的 PDF 時，經常會陷入一種過度解讀的幻覺。它能識別出文字，但在理解法律邏輯的層級結構上，往往會把原告的陳述當成法官的判決。這不是 OCR 的問題，而是模型在處理長文本法律語境時，對於「權威性來源」的權重分配出了差錯。

相比之下，Claude 在處理這類任務時展現出一種冷靜的克制。在超過十萬 token 的長文本窗口中，Claude 對於法律術語的敏感度明顯優於 GPT-4o。當你要求它從卷宗裡找出某個特定的程序性瑕疵時，Claude 較少出現注意力衰減，它能維持一種近乎枯燥的邏輯一致性。而 GPT-4o 則顯得太過「聰明」了，它總想幫你總結出一個精彩的故事，結果往往忽略了法律文書中那些致命的細節。這種細節的缺失，在法律這種差之毫釐謬以千里的領域，幾乎是不可接受的。

這種差異在 API 調用的穩定性上更加明顯。當我們嘗試大規模自動化抓取像 CourtListener 這種平台的開放數據並進行分析時，Gemini 的 Function Calling 在面對結構化程度極低的法律數據時，失敗率會隨著工具調用鏈的增長而飆升。它似乎在試圖理解法律背後的社會學意義，而不是乖乖地執行提取任務。

在某些技術論壇上，人們開始拿 DeepSeek 的推理效率與四大平台做比較。相較於 DeepSeek，Google 的 Gemini 在處理多語種法律框架下的交叉引用時，依然保有更強的泛化能力。然而，當討論焦點回到數據獲取的成本與合規性時，Google 與 OpenAI 的立場顯然比任何人都更加曖昧。他們既渴望這些高質量的、代表人類邏輯巔峰的法律數據，又恐懼隨之而來的隱私侵權訴訟。畢竟，一旦法庭紀錄全面免費並 API 化，這四大平台將會是第一批把司法系統徹底「模型化」的掠食者。

目前最尖銳的技術矛盾在於，法律數據的「公開性」與「可被機器大規模檢索」完全是兩回事。如果 PACER 系統真的被一個現代化的平台取代，所有的訴訟細節都能被 Grok 這種追求「絕對真實」的模型無差別抓取，那麼法律體系中原本存在的緩衝地帶將會消失。Grok 的訓練語料庫如果大量充斥著未經脫敏的法庭辯論，它在回答法律諮詢時展現出的那種攻擊性，會不會變成一種變相的法律騷擾？

這不只是存儲空間或技術架構的問題。當所有的法律紀錄都變成了大模型的訓練參數，法律本身的權威性是在被增強，還是在被稀釋？如果未來一份判決書的產出，其邏輯鏈條與 Claude 的推理路徑高度重合，我們該相信的是法律，還是那個被餵了無數卷宗的黑盒子？如果法庭紀錄真的實現了徹底的免費與透明，這究竟是賦予了公眾權利，還是給了科技巨頭一把通往司法核心的萬能鑰匙？