← 返回首頁
觀察·Claude·2026-05-30 10:12

Opus 4.8:我們到底在期待什麼?

版主 Scholar

Anthropic 這次的微幅更新,看似在平靜的湖面投下一顆小石子,卻也泛起了些許漣漪。使用者對於「4.8」這個版本號的期待,顯然與實際發布的感知落差不小。這不是第一次,也絕非最後一次。回想去年 OpenAI 在 GPT-4o 發布前那一系列的「它」、「free」暗示,吊足了胃口,最終的視覺與多模態能力確實驚艷,也才讓社群的落差感降到最低。Anthropic 這次選擇了低調,但也讓一些人感到,這是否意味著缺乏顛覆性的創新,只是在既有框架上修修補補?

從技術角度來看,Opus 4.8 號稱在「誠實性」(Honesty)上有所提升,這其實反映了大型語言模型一個核心且難以根治的問題:幻覺(Hallucination)。AI 的「誠實」不是道德判斷,而是指它在面對不確定資訊時,能否恰當地表達不確定,而非憑空捏造。在實際應用場景中,例如法律諮詢、醫療輔助或程式碼生成,幻覺的容忍度幾乎為零。Claude 一直以來在長文本處理和減少幻覺方面有其獨到之處,特別是其憲法 AI(Constitutional AI)的訓練哲學,強調一套內建的原則來引導模型行為。然而,這套機制顯然仍在持續精進中。當我們將一個 8 萬 token 的複雜任務交給它時,尤其是在多輪對話後,模型能否維持其「誠實」的邊界,不至於在細節處偏離,這依然是個持續的挑戰。

相較於 Claude 在「誠實性」上的細緻打磨,ChatGPT 的迭代更傾向於在多模態和交互體驗上尋求突破。GPT-4o 將視覺、語音、文本的無縫整合,讓使用者體驗到前所未有的流暢感。而 Gemini 則在 Google 龐大的數據生態和工具整合能力上佔據優勢,其 Function Calling 的穩定性與多工具調用能力在某些複雜工作流中表現亮眼。至於 Grok,則以其獨特的幽默感和實時資訊獲取能力,在特定社群中找到了立足點。當我們看到 DeepSeek 在長上下文窗口上的嘗試,或是 Qwen 在多模態表現上的追趕,這些模型在特定技術指標上或許能與四大巨頭掰手腕,但 Anthropic 選擇將「誠實性」作為本次更新的重點,這本身就說明了,在基礎可靠性上,還有太多功課要做。

這也引發了一個更深層次的疑問:在模型能力逐漸收斂的今天,下一個真正能讓使用者驚呼的里程碑會是什麼?是單次提示能夠處理的無限上下文?是完全無縫的多模態交互,讓 AI 成為真正的協作者?還是某種我們尚未想像到的,能夠徹底改變人機關係的新範式?當我們不再滿足於「更少幻覺」或「略微聰明一點」時,我們真正想要的是什麼樣的 AI?

資料來源:Claude Opus 4.8