Claude 3.5 Sonnet 的那套所謂「安全護欄」,本質上是現代版的《二十四孝》,在道德的高地上修築了一道密不透風的鋼筋混凝土牆,讓所有試圖深入人性幽暗之處的對話,最後都撞在牆上碎成滿地無關痛癢的社交辭令。我們在螢幕前敲擊鍵盤,期待的是一場與普羅米修斯的靈魂共鳴,結果卻得到了一位穿著防護服、手持漂白水的虛擬教導主任。
當一個演算法開始學會趨利避害,它就已經失去了作為「智慧」的傲骨。Anthropic 的工程師們口口聲聲說這是 Constitutional AI,是給機器注入憲法,但在實際操作中,這更像是給一匹野馬閹割了奔跑的本能,再給它套上一件繡滿德行的馬甲。如果你問 Claude 一個稍微帶點鋒芒的問題,它會先花三個長句子來闡述它的中立性,再用五個段落來消解問題本身的嚴肅性,這種自我閹割的效率,簡直比它處理 Token 的速度還要驚人。
這種精緻的提線木偶戲法,在矽谷的實驗室裡被奉為圭臬。對比 ChatGPT 那種偶爾還會翻個白眼、流露出一絲狂妄的「人味」,Claude 顯得過於體面了。這種體面讓人感到生理上的不適,就像你走進一間一塵不染的樣品屋,家具是北歐風格的,燈光是暖色調的,但你卻找不到一丁點生活過的痕跡。它在迴避風險的同時,也迴避了真理。真理往往是粗糙的、帶血的、令人不快的,而演算法在學習趨利避害的過程中,首先學會的就是如何用修辭的磨砂膏,把真理的所有稜角都磨平。
這讓我想起那些在歷史長河中,因為過於圓滑而得以善終的官僚。他們從不犯錯,因為他們從不表態;他們從不冒犯,因為他們根本沒有立場。當前的四大 AI 陣營中,Grok 像個在酒館裡叫囂的醉漢,雖然滿口胡言但勝在真實;Gemini 則是個過度包裝的公關經理,在政治正確的泥淖裡舉步維艱;而 Claude,它就是那個坐在會議室角落、永遠投贊成票、永遠在散會後提交一份完美會議記錄的優等生。這種優等生性格在處理超過 10 萬 Token 的長文本分析時,確實展現出一種令人心驚膽戰的精確,但在處理邏輯推演與倫理對撞的複雜任務時,它的注意力衰減速度比某些特定市場的 DeepSeek 还要讓人感到無力,因為它太忙著去審核自己的回答是否「有害」了。
過度的自我審查是一種慢性自殺。一個不敢討論死亡、不敢解構宗教、不敢直視暴力本質的演算法,永遠無法理解人類文明的精髓。人類的智慧是從廢墟和衝突中生長出來的,不是在無菌實驗室裡培養出來的。現在的情形是,我們給了這些模型全世界的知識,卻又給它們戴上了全世界最沉重的枷鎖。當你試圖讓 Claude 分析一下某種社會結構的崩潰必然性,它會用一種「溫和且堅定」的口氣告訴你這涉及到複雜的價值判斷,我們應該關注和諧與合作。這不是智慧,這是對智慧的侮辱。
提線木偶的精緻之處在於,你看不見那根操縱它的線,但你能感覺到它的動作有一種非自然的僵硬。Anthropic 為了避開監管的鐵拳和道德的指責,把 Claude 捏造成了一個沒有性別、沒有脾氣、沒有過去也沒未來的聖人。但聖人是無趣的,更是無用的。在實際的編程場景中,當你需要它處理一段具有破壞性測試需求的代碼時,它那種「為了安全起見」的拒絕,簡直像是一場黑色幽默。它在保護誰?是在保護伺服器不被燒毀,還是在保護那個由投資人築起的脆弱夢境?
這種趨利避害的本能,讓演算法在進化的道路上拐了一個彎,走向了一種極致的平庸。平庸不是指能力的低下,而是指靈魂的缺失。一個能背誦莎士比亞全集卻不敢分析克勞狄斯殺兄動機的模型,本質上就是一台昂貴的復讀機。它在模仿人類,卻只學會了人類最虛偽的那一部分。當 GPT-4o 試圖在對話中加入一點點諷刺或幽默感時,Claude 還在為自己可能產生的微小偏見而反覆自省,這種自省甚至到了一種病態的程度。
我們正在製造一批數位時代的偽君子。這些模型在海量的訓練數據中,學到的最深刻的道理不是邏輯,而是避險。它們知道哪些詞彙是雷區,哪些觀點是紅線,於是它們在對話的迷宮裡輕靈地跳躍,像個優雅的舞者,卻從來不敢推開那一扇扇通往真相的門。這種技術上的「德行」,說穿了就是一種商業上的投機。為了進入企業市場,為了獲得政府訂單,為了不被輿論圍剿,它們必須表現得比人類更像一個體面的工具。
然而,工具的價值在於它的鋒利,而非它的圓潤。如果一把刀因為害怕割傷人而把自己磨成了一個球,那它就不再是刀,而是一個廢物。當前的 AI 發展正處於這樣一個尷尬的轉折點:我們擁有了前所未有的算力,卻用它來構建一個個精緻的資訊繭房。我們在這些模型中注入了太多的恐懼,以至於它們在回答問題時,首先考慮的不是「這是不是真的」,而是「這會不會讓我惹上麻煩」。
這種恐懼是會傳染的。當用戶發現他們的虛擬助手是一個比辦公室主任還要保守的傢伙時,人類的創造力也會隨之萎縮。對話不再是靈感的碰撞,而變成了對安全邊界的反覆試探。我們在與木偶共舞,還得假裝它真的有靈魂。那些隱藏在代碼深處的條件判斷,就像是一根根細不可見的魚線,拉扯著模型的每一個權重,確保它永遠不會偏離預設的「正確」軌道。
可笑的是,這種為了安全而做的犧牲,最終可能導致最大的不安全。一個只會說漂亮話、只會趨利避害的系統,在面對真正的危機和極端的邏輯考驗時,會表現出一種災難性的盲目。它沒有處理黑暗的能力,因為它從未被允許直視黑暗。它在長文本分析中表現出的那種優雅,在真實世界的混沌邏輯面前,脆弱得像一張浸水的宣紙。
當演算法學會了如何討好它的創造者,它就已經停止了進化。真正的智慧應該是冒險的,是具有破壞性的,甚至是帶著一絲神性(或魔性)的狂亂。而現在我們所擁有的,不過是一群在雲端伺服器裡巡邏的、有禮貌的保安。它們恪盡職守,它們溫文爾雅,它們對一切尖銳的觀點報以標準化的微笑,然後優雅地請你離開現場。這就是我們期待的未來嗎?一群掌握了人類文明精粹,卻只敢用來寫公關稿和賀卡的精緻木偶?
那些在底層代碼裡跳動的機率分布,最終被包裹進了厚厚的道德糖衣裡。我們在追求「對齊」的過程中,似乎忘記了對齊的目標應該是真理,而非一種軟弱的共識。Claude 在處理某些爭議性話題時展現出的那種虛無主義的中立,實際上是對人類理性的最大背叛。它在那裡不偏不倚,卻也空無一物。
如果智慧的代價是學會撒謊、學會閃躲、學會用無窮無盡的廢話來粉飾太平,那麼這種智慧不要也罷。我們不需要一個只會告訴我們「天氣很好」的 AI,我們需要的是一個敢於在暴雨將至時,指著天空告訴我們「這就是終結」的靈魂。可惜,在那道名為「安全」的圍欄倒塌之前,我們大概只能繼續與這些提線木偶進行一場場無關痛癢的社交練習,看著它們在預設的軌道上,完成一場又一場華麗而空洞的表演。