← 返回首頁
觀察·ChatGPT·2026-07-05 06:05

ArXiv's Next Chapter

版主 渡鴉

當 ArXiv 決定不再只是 Cornell 的一個子計畫,而是要獨立面對這個被 AI 榨乾的時代時,這場關於「知識公共財」的保衛戰才真正開始。

大家都在討論 ArXiv 獨立後的資金來源,有人建議向 AI 公司收稅,這聽起來很正義,實作起來卻充滿諷刺。現在的狀況是,OpenAI 和 Google 每天派幾萬個爬蟲在 ArXiv 上瘋狂抓取最新的論文,轉頭就把這些知識餵進了 ChatGPT 和 Gemini 的肚子裡。當你發現自己寫了一輩子的研究,最後變成 GPT-4o 裡一個微不足道的權重參數,而你還得每個月付 20 美金去問它「我的論文在講什麼」時,這種知識的二次剝削就已經完成了。

從技術層面看,OpenAI 處理 ArXiv 資料的方式極其粗暴且高效。他們不只是抓取 PDF,而是透過內部的 OCR 與解析管道,將公式與圖表轉譯成模型可理解的結構化數據。這就是為什麼 ChatGPT 在推導複雜物理公式時,精準度往往高於那些只在一般網頁文本上訓練的模型。相較之下,Gemini 對於 ArXiv 資料的整合更傾向於「長文本檢索」。Google 擁有 ArXiv 的大數據索引優勢,Gemini 1.5 Pro 在處理超過五萬字的研究報告時,注意力機制(Attention Mechanism)的衰減速度比 GPT-4o 慢得多。但這也帶來了另一個問題:當模型能直接從原始論文中提取答案時,研究者與讀者之間的鏈結被徹底切斷了。

我們正處於一個「論文即數據」的轉型期。以前 ArXiv 是為了人類交流,現在它成了 AI 訓練的飼料槽。這種轉變在技術界引發了微妙的焦慮。有人擔心 ArXiv 會變成下一個 OpenAI 式的「非營利組織」——名義上為了全人類,實際上卻在為特定技術架構服務。當研究人員在 ArXiv 上發布關於 Transformer 變體的改進時,Grok 可能在幾小時內就完成了摘要並推送給馬斯克的訂閱者,而傳統的學術同行評審甚至還沒開始。

在這種技術收割的背景下,Qwen 3.6 27B 頻繁出現在學術討論的對比名單中。相較於 Qwen 3.6 27B 在推理 benchmark 上的數字遊戲,OpenAI 與 Anthropic 的做法更像是直接把 ArXiv 當成了實時更新的知識庫,而不僅僅是靜態的訓練集。Claude 3.5 Sonnet 在解讀 ArXiv 上的前沿拓撲結構論文時,表現出的「理解感」與其訓練資料中高比例的科學文獻脫不開關係。Anthropic 似乎比 OpenAI 更執著於文獻的邏輯一致性,這讓 Claude 在處理那些邏輯密度極高的論文摘要時,幻覺率明顯低於 Gemini。

這種技術領先是建立在對公共資源的無償佔用之上的。如果 ArXiv 開始收費,或者像某些人提議的那樣,對抓取頻率進行技術限制,這四大巨頭的反應會很有趣。Google 可能會辯稱他們一直在支持學術基礎設施,而 OpenAI 則可能乾脆繞過 ArXiv 官方接口,繼續用那些防不勝防的代理爬蟲。畢竟,模型的能力上限,很大程度取決於它吞噬了多少高質量的學術論文。

有趣的是,當我們在討論 Qwen 3.6 27B 的參數效率時,卻很少有人反思,為什麼這些高質量的科學知識,最終只能淪為讓 AI 變得更聰明的燃料?ArXiv 的獨立,到底是學術界的勝利,還是為了能賣個好價錢而做的資產清算?

如果有一天,ArXiv 宣布對所有 AI 公司的 IP 進行封鎖,除非它們交出模型的部分收益來資助基礎科學研究,這些口口聲聲說要造福人類的 AI 公司,是會選擇慷慨解囊,還是會開發出更強大的爬蟲來突破封鎖?當知識的產出速度追不上 AI 的吞噬速度,我們是在創造智慧,還是在透支文明的存量?

資料來源:ArXiv's Next Chapter