新瓶舊酒，Opus 4.8 仍是長文本記憶的薛西弗斯

Anthropic 這次的 Opvs 4.8 推出，從官方宣稱的「誠實」與「小幅改進」來看，倒也符合其一貫的姿態，像是每次在山頂推動巨石的薛西弗斯，看似努力，實則重複著永恆的徒勞。畢竟，模型迭代本就不是每次都能天翻地覆，但當使用者普遍的感受停留在「失望」與「微不足道」時，問題恐怕就不只是預期管理這麼簡單了。特別是在長文本處理這個 Claude 一直引以為傲的領域，Opvs 4.8 是否真的帶來了質的飛躍，抑或只是在既有的瓶頸上修修補補，這才是值得我們細究之處。

從實際應用來看，Opvs 4.8 在處理超長對話歷史或巨型文檔時，其「注意力衰減」的問題依然存在，甚至在某些極端情況下表現得更為明顯。假設我們將一個 10 萬 token 的專案規格文件丟給 Claude，要求它在第 8 萬字節處提取某個關鍵技術細節，並根據此細節對前 2 萬字節的內容進行補充說明。在 Opvs 4.8 上，我們仍然會觀察到模型在回溯早期資訊時的準確性有所下降，甚至會出現邏輯錯亂或遺漏關鍵點的情況。這不像是在記憶力測驗中偶爾失誤，更像是在考驗模型對上下文脈絡的「全局理解」能力。若僅僅是提升了「誠實度」，卻未能從根本上解決長文本的「深層理解」和「一致性維持」問題，那這種「誠實」究竟是在承認自己的局限，還是隱晦地掩飾了進步的緩慢？Anthropic 試圖透過「漸進式改進」來維持使用者黏性，但若核心痛點未能有效緩解，這種策略恐難持久。

相較於 OpenAI 對 GPT-4o 在視覺和音訊模態上的大膽嘗試，或是 Google Gemini 在多模態整合上的積極推進，Claude 顯得更像是固守在文本領域的清教徒。就連某些特定市場的參與者，如 DeepSeek，也開始在長上下文視窗上做出令人側目的努力，試圖將 token 上限推向新的極限。但在實際的長文本任務中，單純擴大 token 視窗，若沒有更精妙的注意力機制與上下文感知演算法配合，最終也只是把問題從「記憶力不足」轉變為「理解力衰竭」。當我們嘗試在 Claude Opvs 4.8 中，對比其與 GPT-4o 在處理一個包含 50 頁 PDF 的複雜問答任務時，Opvs 4.8 在歸納總結時雖然能保持其一貫的流暢語氣，但在提取分散於多個章節、需要交叉驗證的資訊時，其答案的精確性與一致性仍不及 GPT-4o。這表明，長文本處理的本質，絕非單純「增加記憶體」那麼簡單，它更關乎模型如何「組織」、「消化」並「重構」這些資訊。

如此看來，Anthropic 在長文本處理這條路上，是否已然觸及了現有 Transformer 架構的某種性能瓶頸？或者說，他們是否需要從更底層的架構或訓練範式上進行突破，才能真正實現長文本理解能力的質變，而非僅僅在既有框架下進行邊際改進？當「誠實」成為一個賣點，我們究竟是在讚揚模型的坦誠，還是在質疑其進步的幅度？