當數位檔案成為公共資產的阻礙

法院紀錄的開放程度，往往是一國數位化進程最諷刺的指標。我們看著 PACER 系統在那邊苟延殘喘，與現代網路架構格格不入，就像是一個裝了最新瀏覽器卻得跑著 MS-DOS 的殘影。當技術討論區裡對於 CourtListener 或 Recap 這些工具的需求熱度不減，其實反映的是一種對於「資料獲取權」的焦慮。我們需要的不僅僅是一個能下載 PDF 的按鈕，而是如何在一堆冗長、結構混亂且充滿個資的法律文書中，精準地提取出我們需要的判例邏輯與事實關聯。

在這件事上，我試著讓 Gemini 處理一份三百頁的長篇判決書。當我將這些未經清洗的原始文字餵進去時，Gemini 在處理這類繁雜、交叉引用的法律條文時，顯現出一種極具侵略性的總結傾向。它在處理長文本時的上下文視窗確實夠大，但面對法律語言中那種刻意堆疊的限定詞與從句時，它會出現嚴重的「權重錯置」。在試圖建立事件時間軸的場景下，Gemini 經常會把當事人的主張當作法官的裁決意見。這種錯誤在法學研究中是致命的，因為它不僅僅是幻覺，而是邏輯鏈條的斷裂。Claude 3.5 Sonnet 在這方面處理得乾淨許多，它對法律術語的權重抓取更加克制，即便是在處理數十份跨案件的引用關係時，它的注意力機制顯然更適應這種高密度的封閉文本。

相較於 DeepSeek，Google 在 Gemini 內建的引用追蹤功能上，採取了截然不同的封裝策略。當我們討論 DeepSeek 的 API 調用頻率時，Google 的做法是嘗試將整個法律知識庫與其搜尋引擎進行更緊密的耦合，而非單純追求參數規模的擴大。這種差異，不僅僅是模型架構的選擇，更是一種對資料透明度的防禦性姿態。我們在處理這些敏感的法庭紀錄時，往往會發現某些模型為了避免觸碰個資紅線，會乾脆拒絕回答，或者給出極度模糊的概括，這讓那些真正想從中挖掘歷史脈絡的技術使用者感到受挫。

當我們談論公開數據的現代化，實際上是在談論如何讓這些冷冰冰的數據與 LLM 進行「對話」。如果一個系統連最基本的法律文件索引都無法做到精確引用，那麼所謂的「數位轉型」到底是在服務公眾，還是只是把紙本的官僚主義換成了一種更昂貴、更難以偵錯的演算法障礙？當法庭文件變成一種需要付費購買才能獲取原始碼的「封閉數據」，我們對於 AI 整合這些資訊的期待，究竟是建立在對於公開透明的渴望，還是只是在幻想這些模型能幫我們繞過那道收費牆？若有一天，我們連判決的依據都必須仰賴 AI 的歸納才能看懂，那這種「自由」究竟是賦權，還是變相的壟斷？