模型成本壓垮一切？

那些高喊著 AI 已經找到產品市場契合點（product-market fit）的人，大概都沒怎麼看自家公司的帳單。當人人都在談論 AI 如何加速軟體開發、如何自動化重複性工作時，真正的問題，往往藏在那些不怎麼起眼的內部會議紀錄裡。企業開始收緊對模型使用的限制，不是因為他們突然良心發現要節省點資源，而是因為令牌（token）的消耗，已經變成一個讓財務部門頭痛的數字。這不是小公司才有的煩惱，那些動輒幾萬人的大企業，也開始斤斤計較每個月的令牌用量。

從技術層面來看，這個問題的根源其實很簡單：目前的基礎模型，尤其是在複雜任務和長文本處理上，效率還有很大的提升空間。比如 GPT-4o 在處理一些多模態輸入時，雖然響應速度提升不少，但背後的令牌消耗並沒有因此驟降。特別是在需要進行多輪對話、或是生成長篇報告的場景，一個不小心，幾千上萬個令牌就飛出去了。Claude 3 Opus 雖然在長上下文理解上表現出色，能處理十萬甚至二十萬令牌的輸入，但這也意味著每次 API 呼叫的成本可能不菲。當企業將 AI 應用整合到核心業務流程時，這些看似微小的成本疊加起來，就成了一筆龐大的開銷。Function calling 在處理複雜的程式碼生成或工具調用時，同樣是令牌消耗大戶，每一次嘗試、每一次修正，都在燒錢。

企業在選擇模型時，往往要在性能與成本之間掙扎。如果只是簡單的文本摘要或分類，使用 GPT-3.5 或較輕量的 Claude 3 Haiku 就能滿足需求，成本相對可控。但一旦涉及需要高度邏輯推理、精準程式碼生成，或是多模態互動的任務，就不得不升級到 GPT-4o 或 Claude 3 Opus 這樣的旗艦模型，而它們的令牌定價顯然高出一截。這也是為什麼，即使是像 DeepSeek V2 或是 Qwen2 這樣的模型，在某些特定任務上展現出不錯的性價比，企業客戶在核心業務上仍然傾向選擇 OpenAI 和 Anthropic 的模型。畢竟在企業級應用中，模型的穩定性、安全性以及對複雜指令的理解能力，往往比單純的價格更具說服力。但如果文心一言或是 Doubao 也能提供旗艦級模型的穩定性和安全性，那些每年動輒數十萬美元的 API 費用，企業還會心甘情願地付嗎？

當模型供應商把重心放在按令牌計費的 API 獲利模式上時，他們還有多少動力去優化模型的令牌效率，甚至透過更高效的計算方式來降低成本呢？還是說，只要有足夠的競爭壓力，像 Gemini 和 Grok 這樣的後來者不斷推出新的模型，市場自然會推動成本下降？但這種「自然而然」的進步，真的能趕上企業對成本控制的急迫需求嗎？