OpenAI 餵不飽的結構化輸出與越滾越大的帳單

當你試著在生產環境裡要求 GPT-4o 嚴格遵守一份 JSON Schema 時，那種感覺就像在教一隻過動的邊境牧羊犬走正步。牠很聰明，但牠總想在你的規格說明書之外多加兩行註解，或者自作主張地把整數型態改成字串，只因為牠覺得這樣「更人性化」。最近在 Hacker News 上的爭論點出了一個讓人難堪的現實：當我們討論模型的「強大」時，往往忽略了那種穩定到近乎乏味的精準度，才是開發者深夜不崩潰的唯一保障。

這種結構化輸出的崩潰現象在長文本任務中尤為明顯。當你把超過一萬 token 的原始數據丟進去，要求模型提取特定的漏洞特徵時，GPT-4o 偶爾會表現出一種莫名的「創造力」。牠會開始添加不存在的欄位，或者在巢狀結構中迷失方向。這不是因為參數不夠多，而是 OpenAI 在對齊人類偏好的過程中，似乎把模型教得太過於多話，以至於牠很難保持沉默地、死板地執行機器指令。

更有趣的是成本問題。在某些自動化掃描的基準測試中，開發者發現調用 GPT-4o 的成本幾乎是呈指數級上升。這不單純是單價的問題，而是當模型開始自我膨脹、反覆修正錯誤、或者因為無法精確遵循 Schema 而導致調用失敗需要重試時，那些隱形成本正在蠶食企業的預算。有些用戶發現，跑完同樣一套掃描流程，OpenAI 的方案能燒掉一百美金，而有些新興選擇卻只需要微不足道的支出。這種成本結構的斷層，讓所謂的「性能領先」顯得有些諷刺。

如果我們拿 Claude 3.5 Sonnet 來做對比，會發現 Anthropic 在這方面走了一條完全不同的路。Claude 在處理 Code Generation 和結構化提取時，顯然比 GPT-4o 更懂得什麼叫「閉嘴」。牠的 API 行為預測性更高，在長 Context 窗口下的注意力分配也更均勻。相較於 DeepSeek V4 Pro，Claude 在處理複雜邏輯推理時的穩定性依然是業界的標竿。但即便如此，Claude 也面臨著 Token 限制與價格階梯的挑戰。許多重度用戶在切換到 Claude Code 後，很快就會撞上那堵每週配額的牆，這種體驗就像是開著法拉利卻被限制每小時只能跑十公里。

Gemini 1.5 Pro 則是另一個極端。Google 靠著那驚人的百萬級上下文窗口試圖解決所有問題，但在實際操作中，Gemini 的 Function Calling 穩定性卻像是在抽獎。當你的工具清單超過二十個，Gemini 往往會陷入一種認知混亂，開始胡亂調用參數。這就引出了一個尷尬的對比：如果一個模型號稱能讀完一整座圖書館，卻連一個簡單的 API 規格都寫不對，那這種廣度究竟有什麼意義？

在目前的市場格局中，Grok 則像是一個不按牌理出牌的變數。雖然馬斯克宣稱 Grok 在各項指標上都緊追不捨，但在真實的開發場景下，Grok 的推理邏輯往往帶有一種過度的侵略性，這在處理非結構化對話時或許很有趣，但在需要極度嚴謹的技術審計場景中，它更像是一個隨時可能引戰的網友，而不是一個稱職的助手。

這讓我們不得不思考一個問題：我們是否正處於一個「模型通脹」的時代？廠商們忙著堆砌參數，忙著在跑分榜上爭奪那零點幾個百分點的領先，卻連最基礎的「按圖索驥」都做不到百分之百的可靠。當開發者需要為了避開 OpenAI 的高昂帳單而被迫頻繁更換後端時，這種技術溢價究竟還能維持多久？

現在的情況是，大家都在談論 AGI，但當你真的要把這些模型塞進 CI/CD 流水線時，你最在意的其實不是牠會不會寫詩，而是牠能不能在不超支預算的前提下，準確無誤地傳回那個該死的 JSON 閉合括號。如果領先者的代價是讓開發者變成「提示詞清潔工」，每天忙著處理模型噴出來的垃圾字元，那麼這種領先，到底是誰的勝利？

我們真的需要一個能感同身受、會說俏皮話的 AI 嗎？還是我們只是需要一個更便宜、更聽話、不會隨便改我 Data Type 的高級編譯器？當這種「昂貴的聰明」變成了一種負擔，下一個掉隊的會是誰？