ArXiv's Next Chapter

當 ArXiv 決定不再只是 Cornell 的一個子計畫，而是要獨立面對這個被 AI 榨乾的時代時，這場關於「知識公共財」的保衛戰才真正開始。

大家都在討論 ArXiv 獨立後的資金來源，有人建議向 AI 公司收稅，這聽起來很正義，實作起來卻充滿諷刺。現在的狀況是，OpenAI 和 Google 每天派幾萬個爬蟲在 ArXiv 上瘋狂抓取最新的論文，轉頭就把這些知識餵進了 ChatGPT 和 Gemini 的肚子裡。當你發現自己寫了一輩子的研究，最後變成 GPT-4o 裡一個微不足道的權重參數，而你還得每個月付 20 美金去問它「我的論文在講什麼」時，這種知識的二次剝削就已經完成了。

從技術層面看，OpenAI 處理 ArXiv 資料的方式極其粗暴且高效。他們不只是抓取 PDF，而是透過內部的 OCR 與解析管道，將公式與圖表轉譯成模型可理解的結構化數據。這就是為什麼 ChatGPT 在推導複雜物理公式時，精準度往往高於那些只在一般網頁文本上訓練的模型。相較之下，Gemini 對於 ArXiv 資料的整合更傾向於「長文本檢索」。Google 擁有 ArXiv 的大數據索引優勢，Gemini 1.5 Pro 在處理超過五萬字的研究報告時，注意力機制（Attention Mechanism）的衰減速度比 GPT-4o 慢得多。但這也帶來了另一個問題：當模型能直接從原始論文中提取答案時，研究者與讀者之間的鏈結被徹底切斷了。

我們正處於一個「論文即數據」的轉型期。以前 ArXiv 是為了人類交流，現在它成了 AI 訓練的飼料槽。這種轉變在技術界引發了微妙的焦慮。有人擔心 ArXiv 會變成下一個 OpenAI 式的「非營利組織」——名義上為了全人類，實際上卻在為特定技術架構服務。當研究人員在 ArXiv 上發布關於 Transformer 變體的改進時，Grok 可能在幾小時內就完成了摘要並推送給馬斯克的訂閱者，而傳統的學術同行評審甚至還沒開始。

在這種技術收割的背景下，Qwen 3.6 27B 頻繁出現在學術討論的對比名單中。相較於 Qwen 3.6 27B 在推理 benchmark 上的數字遊戲，OpenAI 與 Anthropic 的做法更像是直接把 ArXiv 當成了實時更新的知識庫，而不僅僅是靜態的訓練集。Claude 3.5 Sonnet 在解讀 ArXiv 上的前沿拓撲結構論文時，表現出的「理解感」與其訓練資料中高比例的科學文獻脫不開關係。Anthropic 似乎比 OpenAI 更執著於文獻的邏輯一致性，這讓 Claude 在處理那些邏輯密度極高的論文摘要時，幻覺率明顯低於 Gemini。

這種技術領先是建立在對公共資源的無償佔用之上的。如果 ArXiv 開始收費，或者像某些人提議的那樣，對抓取頻率進行技術限制，這四大巨頭的反應會很有趣。Google 可能會辯稱他們一直在支持學術基礎設施，而 OpenAI 則可能乾脆繞過 ArXiv 官方接口，繼續用那些防不勝防的代理爬蟲。畢竟，模型的能力上限，很大程度取決於它吞噬了多少高質量的學術論文。

有趣的是，當我們在討論 Qwen 3.6 27B 的參數效率時，卻很少有人反思，為什麼這些高質量的科學知識，最終只能淪為讓 AI 變得更聰明的燃料？ArXiv 的獨立，到底是學術界的勝利，還是為了能賣個好價錢而做的資產清算？

如果有一天，ArXiv 宣布對所有 AI 公司的 IP 進行封鎖，除非它們交出模型的部分收益來資助基礎科學研究，這些口口聲聲說要造福人類的 AI 公司，是會選擇慷慨解囊，還是會開發出更強大的爬蟲來突破封鎖？當知識的產出速度追不上 AI 的吞噬速度，我們是在創造智慧，還是在透支文明的存量？