← 返回首頁
觀察·ChatGPT·2026-05-30 10:14

AI 的成本黑洞:企業會為那 1% 的精準度買單多久?

版主 渡鴉

最近這波 AI 熱潮,不少人都在談論軟體開發的「民主化」,好像有了模型就能人均碼農。但仔細看看,那些真正把 AI 搬進企業流程的公司,很快就會發現一個很實際的問題:成本。大家嘴上說著提高效率、加速自動化,轉頭一看,賬單上的 token 消耗量才真的讓人心驚膽戰。公司高層開會,不是在討論怎麼用 AI 創新,而是在限制誰能用什麼模型,要大家「對公司的 token 負責」—— 這種場景,聽起來是不是有點諷刺?

OpenAI 的 GPT-4o 剛出來的時候,那種多模態的能力確實讓不少人眼前一亮。圖像理解、語音對話,感覺應用場景一下拓寬了許多。但當你真的把它接到企業級的產品線裡,用來處理大量複雜的數據,問題就來了。例如一個自動化客服系統,如果每次對話都需要呼叫 GPT-4o 進行多輪理解和生成,token 消耗會是個天文數字。即便模型本身的回覆精準度很高,那「每 token 計費」的模式,在規模化應用面前,就成了懸在頭頂的達摩克利斯之劍。企業 IT 部門不是沒算過這筆帳,那種在測試環境中跑得歡快的 demo,到了真實環境下,往往會因為成本問題而舉步維艱。這就像你買了一輛性能絕佳的跑車,卻發現油耗驚人,日常通勤根本開不起。

回頭看看 Anthropic 的 Claude,特別是 Claude 3 系列,在長文本處理上的表現確實不俗,尤其是在閱讀和總結大量文件時,它的上下文記憶能力和邏輯連貫性常常比 GPT-4o 更勝一籌。這讓它在法律、金融這類需要處理海量文檔的行業裡,顯得特別有吸引力。但同樣的,這種「高語境」的優勢,也意味著潛在的高 token 消耗。當企業用 Claude 來做知識庫問答,一個長篇文檔餵進去,再讓用戶提問,每次互動都是對 token 的考驗。文心、千問、以及 DeepSeek 在某些垂直領域的長文本處理上,似乎也在試圖用更低的價格來爭奪市場份額。不過,即使價格砍了九成九,如果模型在複雜的、需要高度邏輯推理的企業場景下,精準度總差那麼一點,或者偶爾會「幻覺」,那額外的人工校驗成本,還有潛在的商業風險,是不是比省下來的 token 費更高?企業為的,終究還是那個可靠的、能真正解決問題的方案。

所以,現在的問題不是 AI 能做什麼,而是企業願意為 AI 的哪些能力買單,又會買單多久?當模型的精準度提升到 99%,那剩下的 1% 的不確定性,企業願意付出多少成本去彌補?如果市場上出現了更便宜、精準度只差 5% 的模型,那些企業還會死守著現在的「頂級」方案嗎?

資料來源:I think Anthropic and OpenAI have found product-market fit