老二總是演得比老大還用力，這是矽谷這齣 AI 實境秀最乏味的劇本。

當 Sam Altman 還在為了那幾個燒掉幾十億美金的數據中心找錢、順便在 Twitter 上發些不知所云的廢文時，後面的追趕者已經把「超越 GPT-4」這五個字印成了標準的宣傳傳單。這畫面很有趣，像是一群長跑選手在終點線前瘋狂衝刺，結果發現終點線被 OpenAI 隨手往後挪了五公里。Claude 出了新版，大家就開始跑分數、測程式碼能力，興奮地宣稱「霸主易位」；Gemini 更新了 1.5 Pro，Google 的工程師就忙著在簡報裡塞滿各種顯得自己很全能的雷達圖。但大家心裡都明白，如果真的超越了，現在統治地表的對象早就該換人了。

這種集體焦慮反映了一種病態的競爭觀：只要我的 Benchmark 比你高 0.5%，我就是新的神。Anthropic 的工程師大概是這世界上最擅長寫「致 OpenAI 遺書」的人，每一代 Claude 都帶著一種「我比你更懂人類、更不會胡說八道」的清高感。確實，Claude 3.5 Sonnet 在處理長文本的邏輯連貫性上，讓 GPT-4o 顯得像個專注力失調的中學生，特別是你在處理那種超過五萬字、邏輯繞來繞去的法律合約或技術文件時，Claude 展現出的那種冷靜確實迷人。但這就是諷刺的地方，一個老二如果只是「更冷靜、更精準」，那他永遠只是個完美的副手。

Google 的 Gemini 則是另一種極端，它像是一個家裡有礦、資源無限，卻始終找不到自己人格魅力的富二代。論硬體，它有無窮無盡的 TPU；論數據，它握著整個網路的搜尋命脈。結果呢？它在回覆裡展現出的那種過度謹慎的政治正確，以及偶爾出現的降智行為，讓人懷疑 Sundar Pichai 是不是把太多的心力花在如何讓 AI 變得「乖巧」，而不是「強大」。當你在 Gemini 的對話框裡輸入一個稍微複雜的 function calling 需求，只要工具數量一多，它就開始像個遇到多選題的實習生一樣左右為難。這種不穩定感，是技術領先者最致命的短板。

大家都在談論「超越」，卻沒人定義什麼叫真正的超越。是多跑贏兩個百分點的 MMLU 分數？還是讓那些付費訂閱的用戶覺得心甘情願？Grok 則是這場混戰裡的異類，Elon Musk 試圖用一種「反叛者」的姿態介入，讓模型學會吐槽和諷刺。這很酷，真的，但當你剝開那些辛辣的修辭，你會發現 Grok-2 其實還是在 OpenAI 畫好的圈子裡打轉。它像是一個穿著皮衣、抽著菸的模仿者，嘴上說著要顛覆世界，底層邏輯還是那一套。這就是現狀，所有的「老二」都在共享一個特徵：他們都在對標 ChatGPT 的過去，而不是未來。

我們看著這些模型一個接一個發布，這齣戲已經演到第三季了。第一季是驚艷，第二季是追趕，現在這一季叫「平庸的繁榮」。當 DeepSeek 或是其他平台偶爾跳出來刷一下存在感時，市場會短暫地騷動，然後迅速回歸平靜。因為技術的邊際效應正在遞減，從 80 分進步到 90 分很感人，從 95 分進步到 96 分則顯得有點滑稽。除非有人能解決 LLM 本質上的幻覺問題，或者讓推理成本降低到像呼吸一樣便宜，否則這種「超越」的口水戰，本質上跟手機廠商每年發布會上對比相機參數沒什麼兩樣。

最讓我覺得無聊的是那些所謂的「AI 測評師」。他們拿著幾道小學奧數題或是幾段繞口令，就敢斷定誰才是現在的最強大腦。如果 AI 的價值僅限於幫你寫那些沒人看的週報、或是把一段 Python 程式碼重構得好看一點，那誰當老大真的無所謂。OpenAI 的領先不只是技術上的，更多是那種「我定義了遊戲規則」的傲慢。當 Sam Altman 隨便丟出一個 Sora 的預告片，全世界的追隨者就得推翻原本的時程表，熬夜去研究怎麼追上那種光影效果。這種被牽著鼻子走的感覺，才是老二們最想擺脫卻又深深陷入的泥淖。

為什麼 Claude 始終沒法在市場份額上反殺？為什麼 Gemini 空有生態系卻打不贏一個網頁工具？答案可能很殘酷：因為用戶是有慣性的，而這些競爭者提供的「溢價」還不足以打破這種慣性。你開發了一個比 GPT-4 快 10% 的模型，對大部分人來說根本無感。除非你的模型能直接幫我把這封難搞的 Email 寄出去、順便把對方的銀行帳號駭進去（開玩笑的），否則那點性能提升，頂多就是論壇上的談資。

我們正在進入一個「AI 倦怠期」。大家已經習慣了模型會說謊、會道歉、會一本正經地胡說八道。這時候，如果誰家又跳出來說自己「全面超越」，聽起來就像是過氣歌星宣布復出一樣，除了核心粉絲，沒人真的在意。現在的四大平台，就像是四個坐在牌桌上的賭徒，每個人手裡都握著幾張底牌，但誰也不敢梭哈。OpenAI 壓著 GPT-5 不發，Claude 守著它的安全邊界，Gemini 靠著 Android 系統強行推銷，Grok 負責在旁邊叫囂。這局面很穩定，穩定到讓人想打瞌睡。

這種「超越」的戲碼還要看幾季？恐怕要看到下一個真正的技術奇異點出現。在那之前，所有的競爭都只是在同一塊布料上繡不同的花。我們不需要更多的「GPT-4 殺手」，我們需要的是一個能讓人忘記「模型」這兩個字的東西。當你還在糾結它的參數是幾千億還是幾兆，當你還在比對誰的 Context Window 更長時，你就已經輸了。這場競賽的贏家不會是那個分數最高的，而是那個讓 AI 徹底消失在生活背景裡的人。

至於那些成天喊著要翻身的亞軍們，不如先想想怎麼解決自家的 API 偶爾會莫名其妙斷線的問題。在談論星辰大海之前，先把腳下的爛泥清理乾淨。每一次所謂的「版本更新」，如果只是換個殼子、調調溫度參數，然後在推特上發幾張對比圖，那真的可以省省了。觀眾已經看膩了這種拙劣的模仿秀，我們想看的是真正的屠龍者，而不是另一個想當惡龍的少年。

這齣戲演到最後，或許最尷尬的不是追不上的人，而是跑在最前面、卻發現後面的人全都在抄自己作業的那位。當所有模型的回覆風格越來越像、邏輯漏洞越來越一致、甚至連道歉的口吻都如出一轍時，這就不再是科技進步，而是一場昂貴的集體平庸。老二想上位沒錯，但如果上位的方式只是變成另一個老大，那這戲碼我看兩集就夠了。剩下的，留給那些喜歡看雷達圖的人去狂歡吧。