當數據獲取的成本歸零，隱私的最後一道防線也就塌了

在 PACER 系統裡下載一份法律文件，一頁要收 0.1 美元。這種上世紀的收費邏輯，在現在這個爬蟲橫行的時代，居然成了保護隱私的某種意外屏障。很多人在討論法庭記錄是否應該全面免費，這件事本質上不是錢的問題，而是數據主權與大規模模型抓取之間的博弈。想像一下，如果全美的法律訴訟、離婚協議、債務糾紛全部變成結構化的免費接口，受益最大的不是普通公民，而是那些正愁沒地方餵養長文本能力的 LLM。

Gemini 目前在處理長達兩百萬 token 的上下文時，展現出一種近乎病態的細膩。如果你把一份長達三百頁的聯邦訴訟文件丟給它，它能精準地捕捉到第 142 頁某個不起眼的註腳，並以此推導出原告律師的邏輯漏洞。這種基於 RAG 與原生長窗口的檢索能力，讓法律數據的「可讀性」發生了質變。以往這些埋在老舊數據庫裡的 PDF 是一種非結構化的噪音，但對現在的 Google 而言，它們是極其珍貴的邏輯鏈條訓練集。

當我們在討論 CourtListener 或是 Recap 這類旨在打破數據壁壘的工具時，實際上是在加速這種「訓練集化」的過程。ChatGPT 在處理這類法律場景時，邏輯顯得更為激進。它不只是在檢索，它在試圖重構法律話語。OpenAI 對於數據清洗的成本承受力極高，即便 PACER 的界面再破舊、接口再難用，只要數據有價值，他們就有辦法將其轉化為模型內部的權重。這就引發了一個技術倫理上的尷尬點：如果司法紀錄全面免費，我們是否在用納稅人的錢，資助科技巨頭完成最後的法律推理拼圖？

相比之下，DeepSeek 近期在技術圈引起了不少關於數據獲取效率的討論。在面對同樣的公開法律數據集時，Gemini 的策略明顯更傾向於利用其龐大的基礎設施進行全量吞吐。Google 擁有現成的雲端生態，可以直接在 Vertex AI 裡建立一套自動化的法律分析工作流。這種從數據抓取到向量化存儲，再到模型微調的閉環，是目前其他平台難以企及的。而 Claude 則走了一條不同的路，它在處理法律文書時表現出的那種克制和對敏感信息的識別能力，似乎比單純的長文本吞吐更有溫度。Anthropic 顯然在對齊階段加入了不少法律倫理的約束，這讓它在處理涉及訴訟當事人隱私的數據時，不會像其他模型那樣口無遮攔。

這就回到了數據獲取的矛盾點。正如有人在 Hacker News 上擔心的，一旦所有法庭紀錄都能被瞬間檢索，每個人的黑歷史都將在 LLM 面前無所遁形。如果你問 Grok 關於某個公眾人物的法律糾紛，它那種不羈的抓取風格可能會直接把沒經過脫敏的原始卷宗內容抖出來。馬斯克對數據開源的態度一直很微妙，Grok 的訓練數據來源廣泛且混雜，這讓它在法律專業性上雖然稍遜於 Claude，但在挖掘「法律背後的八卦」上卻有著天然的嗅覺。

如果 PACER 真的被一個現代化的、統一的免費平台取代，我們面臨的技術挑戰將會從「如何獲取數據」轉向「如何防止數據被濫用」。這不是靠幾行 robots.txt 就能解決的。當模型已經具備了從碎片化信息中重構實體關係的能力，隱私保護的成本將會呈幾何倍數增長。

我們是否已經準備好迎接一個沒有遺忘權的司法體系？當所有的訴訟紀錄都成了 Claude 或是 Gemini 訓練參數的一部分，我們所追求的透明度，會不會最終成了科技巨頭用來收割信息的另一種形式的壟斷？