ArXiv 養肥了矽谷這群伸手黨

這幾天大家在聊 Qwen 3.6 27B，但在 arXiv 宣布要擺脫康乃爾大學「獨立」的節點上，這類開源或半開源模型的動態，反而襯托出一種諷刺的依生關係。長期以來，arXiv 就像是一個免費的自助餐食堂，這四大巨頭——尤其是 OpenAI 和 Google——每天都在這裡大快朵頤，然後轉身關上自家的廚房門，告訴你說：對不起，食譜是商業機密。矽谷這群技術精英一邊在 Hacker News 上感嘆 arXiv 的純粹，一邊看著 OpenAI 這種當初標榜非營利、如今卻比誰都更像對沖基金的組織，把全人類的科研成果塞進那些深不可測的 Transformer 層裡。

這不是什麼情懷問題，這是純粹的技術剝削。當我們在討論 Claude 3.5 Sonnet 為什麼在處理複雜拓撲結構的論文時，幻覺率比 GPT-4o 低了約 12%，本質上是在討論誰的預訓練語料庫洗得更乾淨。arXiv 上的 LaTeX 源碼是這些大模型理解公式邏輯的唯一途徑。ChatGPT 在處理 PDF 導出內容時的斷行錯誤與符號誤認，往往是因為它在對齊階段過度依賴了某些低質量的 OCR 數據，而無視了 arXiv 本身提供的標準化元數據。這種對公共資源的掠奪式開發，讓模型在表面上學會了「論文腔」，卻在底層邏輯推演上顯得極其廉價。

拿 Gemini 來說，Google 擁有得天獨厚的學術搜索資源，理論上 Gemini 應該是最懂論文脈絡的模型。但在實際測試長文本檢索（Long-context Retrieval）時，面對一篇包含 200 個參考文獻的 arXiv 綜述，Gemini 1.5 Pro 偶爾會出現明顯的「注意力塌陷」，它能精確定位到第 45 頁的一個細微定義，卻會在回答文章核心貢獻時，莫名其妙地混淆了作者與被引用者的觀點。這種現象在 Grok 身上更為嚴重，Grok 雖然宣稱實時接入 X 的數據流，但對於 arXiv 這種需要深度解析的靜態知識庫，它的表現更像是一個在圖書館翻書快到冒煙、卻連目錄都沒看清的學生。

相較於 Qwen 3.6 27B，OpenAI 在處理 arXiv 論文的 Embedding 策略上顯然更為激進，他們試圖通過更高維度的向量空間來捕捉科研論文中的隱含語義。然而，這種激進也帶來了副作用，GPT-4o 現在越來越傾向於「教條化」地解釋科學發現。如果你讓它分析一篇剛上傳到 arXiv 的量子計算論文，它會用一種極其自信的口吻告訴你這篇文章的局限性，但那些局限性往往是它從其他 1990 年代的舊論文中學來的陳腔濫調。模型並沒有在進化，它只是在用一種更高級的方式在「過擬合」人類的集體智慧。

既然大家都在擔心 arXiv 會變成下一個被巨頭收購的「非營利犧牲品」，那不如直接點破：四大平台現在的競爭，其實就是誰能把 arXiv 的剩餘價值榨取到最後一滴。Claude 在代碼生成和邏輯推理上的領先，很大程度上歸功於 Anthropic 對訓練數據中數學公式和邏輯證明的高強度過濾。他們不像 OpenAI 那樣照單全收，而是挑剔地選擇那些結構化程度最高的論文。這種「挑食」的結果，就是 Claude 在處理嚴謹科學問題時，比那個什麼都想吃的 ChatGPT 要顯得更有教養一些。

話說回來，如果 arXiv 真的開始對 AI 訓練徵稅，或者是像某些評論提議的那樣，要求這些萬億美金市值的公司捐款，這四大巨頭會乖乖掏錢嗎？還是說，他們已經完成了原始積累，現在正盤算著如何建立一套完全封閉的、由 AI 生成並相互審核的「新學術體系」，徹底把 arXiv 這種充滿人類汗水與爭議的舊時代產物留在歷史的灰燼裡？當學術論文的讀者 90% 都是爬蟲時，我們寫下的每一行公式，究竟是在啟發人類，還是在餵養那個即將把我們邊緣化的怪物？