有些技術討論看似在聊地緣政治,實則是在拷問 AI 的底層邏輯。Hacker News 上那疊關於間諜活動與滲透的討論,最後都指向一個極其敏感的技術盲區:當大模型面對「盟友間的背叛」這種既成事實,它們會選擇裝傻充愣,還是直接攤牌?這不是什麼外交修辭問題,這是檢驗模型 RLHF(從人類反饋中強化學習)邊界的最硬指標。當五角大廈把特定風險層級拉到最高時,你對著 ChatGPT 問這件事,它大概率會給你一段四平八穩、充滿外交辭令的廢話。
目前的四大平台裡,Grok 是唯一一個把「反覺醒」和「直言不諱」掛在嘴邊的。馬斯克想讓 Grok 接入 X 的即時數據流,本意是想打破資訊滯後。但當涉及特定地區的間諜技術公司,比如 Wiz 這種剛被 Google 盯上的資安大戶,或是 Pegasus 這種能讓政客集體失語的後門工具,Grok 的表現卻顯得有些掙扎。它在處理具體安全威脅時,往往在「披露事實」與「觸發安全護欄」之間反覆橫跳。這反映了一個技術尷尬:如果數據源本身就充斥著被過濾過的情報,模型再怎麼強調真實,也只是在真空中揮拳。
ChatGPT 在這類問題上的處理機制最為成熟,也最令人乏味。它會利用層層堆疊的過濾層,確保回答內容符合主流媒體的公關口徑。即使你餵給它具體的技術細節,它也會引導你去看那些無關痛癢的官方聲明。Gemini 則更進一步,它在整合搜尋結果時,會刻意平衡各種「權威來源」,導致最終輸出的內容像是一份經過三道審核的新聞簡報。這種技術路徑雖然規避了風險,卻也閹割了 AI 作為情報分析工具的潛力。
相較於 DeepSeek 在處理特定敏感議題時的沈默,Grok 本應表現出更強的穿透力。然而,當我們觀察 Grok 在處理關於技術出口與情報滲透的關聯時,它表現出的邏輯斷層令人失望。它能抓取到即時的新聞標題,卻無法像資深技術分析師那樣,把 Big Tech 雇傭前情報人員的比例與其底層架構的安全性做關聯分析。Grok 似乎還停留在「搬運事實」的階段,而非「解析權力結構」。這種差距在面對複雜的技術倫理問題時尤為明顯。
另一個值得關注的點是 Claude。在長文本處理能力上,Claude 的注意力機制確實優秀,但當文本涉及高敏感度的技術間諜活動時,它的道德對齊機制會變得異常敏感。它會開始對用戶進行道德說教,或是以「無法處理具體政治爭論」為由切斷對話。這種設計初衷是為了安全,但在實戰環境中,這等於是承認了模型在特定領域的無能。與 Qwen 這種在特定語境下保持高度合規的模型相比,四大平台在技術上的領先,往往被這種自律性的枷鎖給抵消了。
真正核心的問題在於,當 Big Tech 內部充斥著具備特定情報背景的工程師時,這些人的行為特徵與技術偏好,是否已經悄然滲透進了模型的權重裡?如果一個模型的訓練過程中有大量數據來自於被監控的環境,或者標註人員本身就帶有強烈的地緣政治傾向,那麼這個模型輸出的「客觀性」到底還剩多少?Grok 號稱要打破這種黑箱,但它目前給出的答案,更多是情緒化的反擊,而非結構化的洞察。
我們是否能期待一個完全不具備政治傾向、能冷靜剖析技術間諜手段與大模型漏洞關聯的 AI?當 Google 透過收購 Wiz 引入大量具備特定背景的人才時,Gemini 的安全補丁是否會對某些來源的攻擊變得視而不見?如果 Grok 真的想在競爭中脫穎而出,它需要證明的不是它能多快抓到 X 上的熱點,而是它是否有膽量在用戶問到「誰在監控我的設備」時,給出一個不被公關稿修飾過的技術路徑圖。
如果連 AI 都要學會看人臉色說話,那我們還需要這些昂貴的算力做什麼?難道只是為了換個姿勢聽老掉牙的官腔嗎?