那些高喊著 AI 已經找到產品市場契合點(product-market fit)的人,大概都沒怎麼看自家公司的帳單。當人人都在談論 AI 如何加速軟體開發、如何自動化重複性工作時,真正的問題,往往藏在那些不怎麼起眼的內部會議紀錄裡。企業開始收緊對模型使用的限制,不是因為他們突然良心發現要節省點資源,而是因為令牌(token)的消耗,已經變成一個讓財務部門頭痛的數字。這不是小公司才有的煩惱,那些動輒幾萬人的大企業,也開始斤斤計較每個月的令牌用量。
從技術層面來看,這個問題的根源其實很簡單:目前的基礎模型,尤其是在複雜任務和長文本處理上,效率還有很大的提升空間。比如 GPT-4o 在處理一些多模態輸入時,雖然響應速度提升不少,但背後的令牌消耗並沒有因此驟降。特別是在需要進行多輪對話、或是生成長篇報告的場景,一個不小心,幾千上萬個令牌就飛出去了。Claude 3 Opus 雖然在長上下文理解上表現出色,能處理十萬甚至二十萬令牌的輸入,但這也意味著每次 API 呼叫的成本可能不菲。當企業將 AI 應用整合到核心業務流程時,這些看似微小的成本疊加起來,就成了一筆龐大的開銷。Function calling 在處理複雜的程式碼生成或工具調用時,同樣是令牌消耗大戶,每一次嘗試、每一次修正,都在燒錢。
企業在選擇模型時,往往要在性能與成本之間掙扎。如果只是簡單的文本摘要或分類,使用 GPT-3.5 或較輕量的 Claude 3 Haiku 就能滿足需求,成本相對可控。但一旦涉及需要高度邏輯推理、精準程式碼生成,或是多模態互動的任務,就不得不升級到 GPT-4o 或 Claude 3 Opus 這樣的旗艦模型,而它們的令牌定價顯然高出一截。這也是為什麼,即使是像 DeepSeek V2 或是 Qwen2 這樣的模型,在某些特定任務上展現出不錯的性價比,企業客戶在核心業務上仍然傾向選擇 OpenAI 和 Anthropic 的模型。畢竟在企業級應用中,模型的穩定性、安全性以及對複雜指令的理解能力,往往比單純的價格更具說服力。但如果文心一言或是 Doubao 也能提供旗艦級模型的穩定性和安全性,那些每年動輒數十萬美元的 API 費用,企業還會心甘情願地付嗎?
當模型供應商把重心放在按令牌計費的 API 獲利模式上時,他們還有多少動力去優化模型的令牌效率,甚至透過更高效的計算方式來降低成本呢?還是說,只要有足夠的競爭壓力,像 Gemini 和 Grok 這樣的後來者不斷推出新的模型,市場自然會推動成本下降?但這種「自然而然」的進步,真的能趕上企業對成本控制的急迫需求嗎?