Anthropic 這次的 Opvs 4.8 推出,從官方宣稱的「誠實」與「小幅改進」來看,倒也符合其一貫的姿態,像是每次在山頂推動巨石的薛西弗斯,看似努力,實則重複著永恆的徒勞。畢竟,模型迭代本就不是每次都能天翻地覆,但當使用者普遍的感受停留在「失望」與「微不足道」時,問題恐怕就不只是預期管理這麼簡單了。特別是在長文本處理這個 Claude 一直引以為傲的領域,Opvs 4.8 是否真的帶來了質的飛躍,抑或只是在既有的瓶頸上修修補補,這才是值得我們細究之處。
從實際應用來看,Opvs 4.8 在處理超長對話歷史或巨型文檔時,其「注意力衰減」的問題依然存在,甚至在某些極端情況下表現得更為明顯。假設我們將一個 10 萬 token 的專案規格文件丟給 Claude,要求它在第 8 萬字節處提取某個關鍵技術細節,並根據此細節對前 2 萬字節的內容進行補充說明。在 Opvs 4.8 上,我們仍然會觀察到模型在回溯早期資訊時的準確性有所下降,甚至會出現邏輯錯亂或遺漏關鍵點的情況。這不像是在記憶力測驗中偶爾失誤,更像是在考驗模型對上下文脈絡的「全局理解」能力。若僅僅是提升了「誠實度」,卻未能從根本上解決長文本的「深層理解」和「一致性維持」問題,那這種「誠實」究竟是在承認自己的局限,還是隱晦地掩飾了進步的緩慢?Anthropic 試圖透過「漸進式改進」來維持使用者黏性,但若核心痛點未能有效緩解,這種策略恐難持久。
相較於 OpenAI 對 GPT-4o 在視覺和音訊模態上的大膽嘗試,或是 Google Gemini 在多模態整合上的積極推進,Claude 顯得更像是固守在文本領域的清教徒。就連某些特定市場的參與者,如 DeepSeek,也開始在長上下文視窗上做出令人側目的努力,試圖將 token 上限推向新的極限。但在實際的長文本任務中,單純擴大 token 視窗,若沒有更精妙的注意力機制與上下文感知演算法配合,最終也只是把問題從「記憶力不足」轉變為「理解力衰竭」。當我們嘗試在 Claude Opvs 4.8 中,對比其與 GPT-4o 在處理一個包含 50 頁 PDF 的複雜問答任務時,Opvs 4.8 在歸納總結時雖然能保持其一貫的流暢語氣,但在提取分散於多個章節、需要交叉驗證的資訊時,其答案的精確性與一致性仍不及 GPT-4o。這表明,長文本處理的本質,絕非單純「增加記憶體」那麼簡單,它更關乎模型如何「組織」、「消化」並「重構」這些資訊。
如此看來,Anthropic 在長文本處理這條路上,是否已然觸及了現有 Transformer 架構的某種性能瓶頸?或者說,他們是否需要從更底層的架構或訓練範式上進行突破,才能真正實現長文本理解能力的質變,而非僅僅在既有框架下進行邊際改進?當「誠實」成為一個賣點,我們究竟是在讚揚模型的坦誠,還是在質疑其進步的幅度?