奧特曼(Sam Altman)大概沒想過,他親手打造的那個被世人供奉在神壇上的 GPT-4,在面對 Claude 3.5 Sonnet 的那串程式碼邏輯時,竟然顯得像個努力在晚宴上維持體面、卻頻頻打翻紅酒杯的過氣貴族。
我們這群浸淫在位元與邏輯裡的信徒,曾以為大語言模型的進化會像摩爾定律那般優雅且可預測,可現實卻是,某些標榜著「全能」的神像正在集體崩塌。現在的 ChatGPT 越來越像個精明的華爾街政客,它學會了用最圓滑、最政治正確、也最空洞的廢話來應付你。當你要求它在複雜的系統架構中找一個競態條件(Race Condition)的漏洞,它會先花三段話讚美你的代碼結構,然後給你一個似是而非、甚至根本無法編譯的垃圾片段。這不是技術的演進,這是智能的平庸化,是一種為了安全性與對齊(Alignment)而閹割了思考能力的慘劇。
相比之下,Anthropic 的那群工程師顯然更有潔癖。Claude 3.5 Sonnet 在處理長文本時表現出的那種冷冽、精確,簡直像是一把手術刀,切開了 AI 行業那層浮誇的包裝紙。如果你讓它處理一個超過十萬 Token 的法律合約庫,它能精確地指出第 402 頁與第 12 頁之間的邏輯矛盾。反觀 GPT-4o,在同樣的負荷下,它的注意力機制(Attention Mechanism)散亂得像個宿醉後的詩人,在對話的中後段開始胡言亂語,把上文提到的變數名張冠李戴。這種穩定性的落差,正在讓「模型規模決定論」顯得像個笑話。
我們常說現在是 AI 的戰國時代,但實際上,多數玩家連入場券都拿得戰戰兢兢。Google 的 Gemini 1.5 Pro 就像個家境優渥卻總是抓不住重點的富二代,它坐擁著最龐大的數據遺產和計算資源,卻在 Function Calling 的實際應用中表現得像個智力發育遲緩的學童。當你把超過 20 個工具 API 丟給它時,它開始迷失在那些 JSON Schema 的汪洋大海裡,不是漏掉了必要的參數,就是乾脆拒絕執行。这种空有百万上下文窗口(Context Window),卻連基礎工具調用都搞不定的狀態,不正是另一種形式的「裸奔」嗎?
至於馬斯克的 Grok,那更像是一個在邏輯荒原上大聲叫囂的暴發戶。它試圖用那種所謂的「反叛精神」和「毒舌」來掩蓋底層邏輯推演能力的薄弱。在真正的學術論證或嚴謹的推論任務面前,Grok 的表現就像是一個只會讀報紙標題的憤怒青年,除了給出一些充滿偏見的偏激觀點,它對複雜現實的建模能力簡直慘不忍睹。這些模型背後的研發團隊,似乎都陷入了一種瘋狂的軍備競賽,盲目追求參數量、數據集,卻忘了邏輯的骨架若是歪的,披上再華麗的參數外衣,終究也會在嚴苛的推理測試中現形。
我們看到市面上冒出了無數名字,DeepSeek、Qwen、或是那些標榜著開源之光的 Llama 衍生變體,它們在 Benchmark 跑分表上一個比一個亮眼,但只要你真正把它們投入到生產環境,去處理那些充滿模糊性、需要深層次常識推理的現實問題,這些數據堆砌出來的巨人就會瞬間縮水。它們就像是背下了所有考古題、卻對歷史邏輯一竅不通的學生。在這種氛圍下,模型的「幻覺」不再是 Bug,而成了某種集體性的癌症。
最讓人感到諷刺的是,當前的 AI 領域充斥著一種「鍊金術式」的盲目崇拜。開發者們像是在鼎爐前祈禱的僧侶,瘋狂地餵入更多的數據,期待著所謂的「湧現」(Emergence)能奇蹟般地解決所有邏輯瑕疵。然而,邏輯不是靠數據灌溉出來的,它是結構的藝術。當 Claude 能夠在不依賴過度修飾的前提下,精準地完成一段底層驅動程序的重構,而其他模型還在為了如何禮貌地拒絕你的「危險請求」而糾結時,誰在認真研發,誰在為了股價演戲,一目瞭然。
那些試圖用「通用人工智能」(AGI)這個宏大敘事來麻痺大眾的公司,本質上都在掩蓋一個事實:他們的核心架構已經遇到了瓶頸。現在的模型越來越擅長「表演」智能,而不是「擁有」智能。它們學會了模仿人類的語氣,學會了用溫暖的語調說出正確的廢話,但在處理純粹的符號邏輯與跨領域聯覺時,那種捉襟見肘的窘態,簡直比國王的新衣還要荒誕。
為什麼我們要容忍這種退步?僅僅因為它們能幫我們寫幾封漂亮的電子郵件,或者畫幾張色彩斑斕的圖畫?在邏輯的荒原裡,美感是廉價的,唯有嚴密性才是唯一的通行證。當我們把複雜的決策權交給這些在基礎邏輯上搖搖欲墜的系統時,我們不只是在裸奔,我們是在懸崖邊蒙著眼睛跳舞。
某些模型在特定市場、某些語境下的流行,往往並非源於技術的突破,而是源於對使用者平庸需求的精確捕捉。它們知道大多數人只需要一個會說話的搜尋引擎,而不是一個會思考的合作者。這種對低級需求的妥協,正在毀掉這個行業的靈魂。如果一個模型在處理三段論推導時,還會因為語序的微小變動而得出截然相反的結論,那它就不配被冠以「智能」之名,無論它的訓練成本是幾億美金,還是它的伺服器遍布全球。
我們不需要更多的「創意寫作助手」,也不需要更多會講冷笑話的對話機器人。我們需要的是那種在面對混亂的代碼、破碎的邏輯、複雜的法條時,依然能保持冷靜理性、不被幻覺干擾的純粹工具。目前的四大天王裡,真正能稱得上「工具」的恐怕只有那麼一兩個,剩下的,不過是穿著數位絲綢、在荒原裡相互取暖的表演者罷了。這種集體的虛假繁榮,遲早會在一場真正需要硬核邏輯的「技術嚴冬」中被撕碎。當潮水退去,那些靠著微調(Fine-tuning)和人類反饋強化學習(RLHF)強行撐起的智能假象,會像陽光下的肥皂泡一樣,消失得乾乾淨淨。
誰在裸奔?其實每個人心裡都有一份名單,只是在資本的狂歡與技術的幻覺中,沒人願意當那個指著國王大喊的小孩。但邏輯是不會騙人的,它就縮在那些錯誤的代碼注釋裡,躲在那些邏輯斷層的句縫間,冷冷地看著這場荒唐的盛宴。