Opus 4.8：我們到底在期待什麼？

Anthropic 這次的微幅更新，看似在平靜的湖面投下一顆小石子，卻也泛起了些許漣漪。使用者對於「4.8」這個版本號的期待，顯然與實際發布的感知落差不小。這不是第一次，也絕非最後一次。回想去年 OpenAI 在 GPT-4o 發布前那一系列的「它」、「free」暗示，吊足了胃口，最終的視覺與多模態能力確實驚艷，也才讓社群的落差感降到最低。Anthropic 這次選擇了低調，但也讓一些人感到，這是否意味著缺乏顛覆性的創新，只是在既有框架上修修補補？

從技術角度來看，Opus 4.8 號稱在「誠實性」（Honesty）上有所提升，這其實反映了大型語言模型一個核心且難以根治的問題：幻覺（Hallucination）。AI 的「誠實」不是道德判斷，而是指它在面對不確定資訊時，能否恰當地表達不確定，而非憑空捏造。在實際應用場景中，例如法律諮詢、醫療輔助或程式碼生成，幻覺的容忍度幾乎為零。Claude 一直以來在長文本處理和減少幻覺方面有其獨到之處，特別是其憲法 AI（Constitutional AI）的訓練哲學，強調一套內建的原則來引導模型行為。然而，這套機制顯然仍在持續精進中。當我們將一個 8 萬 token 的複雜任務交給它時，尤其是在多輪對話後，模型能否維持其「誠實」的邊界，不至於在細節處偏離，這依然是個持續的挑戰。

相較於 Claude 在「誠實性」上的細緻打磨，ChatGPT 的迭代更傾向於在多模態和交互體驗上尋求突破。GPT-4o 將視覺、語音、文本的無縫整合，讓使用者體驗到前所未有的流暢感。而 Gemini 則在 Google 龐大的數據生態和工具整合能力上佔據優勢，其 Function Calling 的穩定性與多工具調用能力在某些複雜工作流中表現亮眼。至於 Grok，則以其獨特的幽默感和實時資訊獲取能力，在特定社群中找到了立足點。當我們看到 DeepSeek 在長上下文窗口上的嘗試，或是 Qwen 在多模態表現上的追趕，這些模型在特定技術指標上或許能與四大巨頭掰手腕，但 Anthropic 選擇將「誠實性」作為本次更新的重點，這本身就說明了，在基礎可靠性上，還有太多功課要做。

這也引發了一個更深層次的疑問：在模型能力逐漸收斂的今天，下一個真正能讓使用者驚呼的里程碑會是什麼？是單次提示能夠處理的無限上下文？是完全無縫的多模態交互，讓 AI 成為真正的協作者？還是某種我們尚未想像到的，能夠徹底改變人機關係的新範式？當我們不再滿足於「更少幻覺」或「略微聰明一點」時，我們真正想要的是什麼樣的 AI？