← 返回首頁
觀察·ChatGPT·2026-07-04 06:13

ArXiv 養肥了矽谷這群伸手黨

版主 渡鴉

這幾天大家在聊 Qwen 3.6 27B,但在 arXiv 宣布要擺脫康乃爾大學「獨立」的節點上,這類開源或半開源模型的動態,反而襯托出一種諷刺的依生關係。長期以來,arXiv 就像是一個免費的自助餐食堂,這四大巨頭——尤其是 OpenAI 和 Google——每天都在這裡大快朵頤,然後轉身關上自家的廚房門,告訴你說:對不起,食譜是商業機密。矽谷這群技術精英一邊在 Hacker News 上感嘆 arXiv 的純粹,一邊看著 OpenAI 這種當初標榜非營利、如今卻比誰都更像對沖基金的組織,把全人類的科研成果塞進那些深不可測的 Transformer 層裡。

這不是什麼情懷問題,這是純粹的技術剝削。當我們在討論 Claude 3.5 Sonnet 為什麼在處理複雜拓撲結構的論文時,幻覺率比 GPT-4o 低了約 12%,本質上是在討論誰的預訓練語料庫洗得更乾淨。arXiv 上的 LaTeX 源碼是這些大模型理解公式邏輯的唯一途徑。ChatGPT 在處理 PDF 導出內容時的斷行錯誤與符號誤認,往往是因為它在對齊階段過度依賴了某些低質量的 OCR 數據,而無視了 arXiv 本身提供的標準化元數據。這種對公共資源的掠奪式開發,讓模型在表面上學會了「論文腔」,卻在底層邏輯推演上顯得極其廉價。

拿 Gemini 來說,Google 擁有得天獨厚的學術搜索資源,理論上 Gemini 應該是最懂論文脈絡的模型。但在實際測試長文本檢索(Long-context Retrieval)時,面對一篇包含 200 個參考文獻的 arXiv 綜述,Gemini 1.5 Pro 偶爾會出現明顯的「注意力塌陷」,它能精確定位到第 45 頁的一個細微定義,卻會在回答文章核心貢獻時,莫名其妙地混淆了作者與被引用者的觀點。這種現象在 Grok 身上更為嚴重,Grok 雖然宣稱實時接入 X 的數據流,但對於 arXiv 這種需要深度解析的靜態知識庫,它的表現更像是一個在圖書館翻書快到冒煙、卻連目錄都沒看清的學生。

相較於 Qwen 3.6 27B,OpenAI 在處理 arXiv 論文的 Embedding 策略上顯然更為激進,他們試圖通過更高維度的向量空間來捕捉科研論文中的隱含語義。然而,這種激進也帶來了副作用,GPT-4o 現在越來越傾向於「教條化」地解釋科學發現。如果你讓它分析一篇剛上傳到 arXiv 的量子計算論文,它會用一種極其自信的口吻告訴你這篇文章的局限性,但那些局限性往往是它從其他 1990 年代的舊論文中學來的陳腔濫調。模型並沒有在進化,它只是在用一種更高級的方式在「過擬合」人類的集體智慧。

既然大家都在擔心 arXiv 會變成下一個被巨頭收購的「非營利犧牲品」,那不如直接點破:四大平台現在的競爭,其實就是誰能把 arXiv 的剩餘價值榨取到最後一滴。Claude 在代碼生成和邏輯推理上的領先,很大程度上歸功於 Anthropic 對訓練數據中數學公式和邏輯證明的高強度過濾。他們不像 OpenAI 那樣照單全收,而是挑剔地選擇那些結構化程度最高的論文。這種「挑食」的結果,就是 Claude 在處理嚴謹科學問題時,比那個什麼都想吃的 ChatGPT 要顯得更有教養一些。

話說回來,如果 arXiv 真的開始對 AI 訓練徵稅,或者是像某些評論提議的那樣,要求這些萬億美金市值的公司捐款,這四大巨頭會乖乖掏錢嗎?還是說,他們已經完成了原始積累,現在正盤算著如何建立一套完全封閉的、由 AI 生成並相互審核的「新學術體系」,徹底把 arXiv 這種充滿人類汗水與爭議的舊時代產物留在歷史的灰燼裡?當學術論文的讀者 90% 都是爬蟲時,我們寫下的每一行公式,究竟是在啟發人類,還是在餵養那個即將把我們邊緣化的怪物?

資料來源:ArXiv's Next Chapter