當幻覺從文字溢出到 API 結構

在 Hacker News 這種充滿工程師自尊心的地方，最近掀起了一場關於「精準度」的口水戰。大家討論的焦點與其說是誰又在跑分上贏了誰，不如說是對 OpenAI 這種越來越像「黑盒」的產品策略感到集體焦慮。當一個開發者在論壇上抱怨 GPT-5.5 Pro 會隨意在結構化輸出中增加字段、甚至任性地更改類型時，這已經不是單純的性能問題，而是對開發者信任度的毀滅性打擊。這類場景在自動化工作流中簡直是災難：你寫好了完美的 JSON Schema，規定了 API 必須返回整數，結果它給你回了一個帶逗號的字串，還附贈了一句充滿禮貌的廢話。

這種「不聽話」的傾向，在處理複雜的技術規格時尤為明顯。OpenAI 似乎越來越傾向於讓模型「顯得更聰明」，而不是「更精確」。當模型試圖理解你的意圖並進行過度優化時，它就開始破壞結構化輸出的嚴謹性。這在處理漏洞掃描基準測試或長鏈邏輯推理時非常致命。一個有趣的現象是，當你在執行高強度的程式碼掃描任務時，GPT-5.5 Pro 可能會因為過度思考某些細枝末節，導致 token 消耗量呈指數級增長，甚至在完成任務前就燒光了你設定的預算上限。這種「貴且難伺候」的特質，正讓一部分硬核技術人員開始尋求更低成本、更穩定遵循指令的替代方案。

從技術底層來看，四大平台在處理結構化任務上的哲學分歧越來越大。ChatGPT 目前顯然在追求通用型對話的流暢感，這導致它在 API 層面的行為變得難以預測。相比之下，Claude 在指令遵循（Instruction Following）的穩定性上一直保持著較高的水準。如果你讓 Claude 3.5 Sonnet 生成一段嚴格符合 TypeScript 定義的代碼，它很少會像 GPT 那樣自作聰明地添加一些它認為「對你有幫助」的冗餘字段。這種對 Schema 的敬畏心，是 Claude 目前在工程界口碑回升的核心原因。

而在另一個極端，Gemini 的問題在於它對上下文過濾的過度敏感，這常常導致它在處理某些敏感技術領域（如漏洞分析）時直接「擺爛」。雖然 Gemini 1.5 Pro 的百萬級長文本窗口在處理大型代碼庫時極具優勢，但如果你不能保證它每一行輸出的格式都是一致的，那這個巨大的窗口也只是個裝滿碎紙屑的垃圾桶。至於 Grok，目前看來它更像是一個在社交數據上狂奔的野馬，在需要極度嚴謹的邏輯閉環任務中，它的表現還不夠讓人放心。

在目前的市場環境下，DeepSeek V4 Pro 的出現確實給開發者提供了一個成本與精度對比的座標軸。相較於 DeepSeek V4 Pro，OpenAI 目前的策略是將更多資源傾斜給了多模態的感知能力，而非單純的文本邏輯穩定性。這就造成了一個尷尬的局面：你花著昂貴的訂閱費，卻發現模型在執行最基礎的腳本任務時，還不如一些輕量級的開源模型或特定市場的模型來得聽話。Qwen 在處理特定語境下的代碼生成時也展現過類似的特質，但這並沒有改變四大平台壟斷高端智力市場的事實，只是讓這層壟斷顯得有些鏽跡斑斑。

我們現在面臨的真正問題是，當 AI 的智力密度達到一個臨界點後，開發者是否還能控制它們的輸出形狀？OpenAI 試圖通過增加更多的推理步驟（Reasoning）來解決問題，但這往往伴隨著更高的延遲和更不可控的成本。如果一個模型需要消耗比以前多二十倍的資源，卻連一個簡單的 JSON 格式都守不住，那這種「進步」的意義在哪裡？我們是否已經進入了一個「過度擬合人類語氣」而忽視「機器對接邏輯」的歧途？

當 Claude Code 這樣的工具開始考慮接入更廉價的 API 接口時，OpenAI 應該感到背脊發涼。如果開發者發現自己花了大筆錢買的不是生產力，而是模型的小脾氣和冗餘的解釋，那麼遷移成本就不再是阻礙。問題在於，如果未來所有的模型都為了追求「擬人化」而犧牲了「結構化」，我們是不是得重新發明一種給機器看的機器語言？或者說，當我們在追求那個虛無縹緲的 AGI 時，是不是已經不小心把最基礎的「工具屬性」給弄丟了？