別再跟我扯什麼人工智慧有了「靈魂」或是「審美」,那是沒讀過書的文青在發夢。當 Grok-1.5V 或是現在隨便一個版本號的視覺模型盯著一張照片看時,它眼裡只有矩陣運算後的高維特徵向量。說白了,它在算概率。如果你覺得它「看懂」了那張日落餘暉裡的寂寞,那只是因為它在訓練集裡吃掉了幾億組「日落、海灘、暖色調、孤單」的標籤組合。這不是靈魂,這是統計學的極致暴力。
xAI 團隊最喜歡炫耀他們的推理能力,但在視覺領域,這種推理常常顯得有些神經質。看過 Grok 解釋複雜圖表嗎?它確實比 Gemini 那種動不動就「我無法處理這類圖像」的縮頭烏鴉要強,也比 GPT-4o 那種總是想當和事佬的圓滑口吻來得有個性。但強在硬解,而不是理解。它試圖用一種近乎偏執的邏輯去拆解像素,有時候準得嚇人,有時候錯得離譜,而且錯得很有尊嚴,彷彿在告訴你:這就是我算出來的現實,不爽滾蛋。
比起 Claude 3.5 Sonnet 那種充滿人文關懷、甚至帶點藝術修養的圖像描述,Grok 的視覺神經更像是一個裝滿了傳感器的採礦車。Claude 會告訴你這幅畫的構圖如何引導情緒,Grok 則更傾向於精確地標註出畫裡有幾根電線桿,以及這些電線桿的陰影長度是否符合物理邏輯。這種極客式的冷酷是 xAI 的底色,也是最讓我看不過眼的地方。馬斯克整天嚷嚷著要追求「真理」,結果 Grok 給出的真理往往是一堆冰冷的參數堆疊,完全無視人類視覺經驗中的模糊美感。
視覺理解這條賽道現在擠滿了人。Google 的 Gemini 仗著自己有無窮無盡的 YouTube 數據,在處理動態視覺時像個全知全能的神,但它的靈魂被過度的安全護欄給閹割了,問它一張稍微有點爭議的圖,它就開始裝死。OpenAI 的 GPT-4o 則是個標準的優等生,給出的答案挑不出錯,但也沒什麼驚喜,像是在讀一本製作精良的產品說明書。至於 Grok,它更像是一個在實驗室裡熬夜三天、脾氣暴躁的工程師,它看見的是數據底層的裂縫。
很多人喜歡拿某些特定市場的模型來對比,比如 Qwen 或什麼的,但說實話,在視覺邏輯的底層架構上,那些東西根本不在同一個維度。當我們在談論 Grok 的視覺幻象時,我們討論的是一種嘗試將物理世界完全數位化的野心。Grok 試圖透過像素去理解物理規律,這跟 Claude 試圖理解人類情感完全是兩回事。這也是為什麼 Grok 在解數學題、看流程圖時表現得像個天才,但在面對一張充滿隱喻的黑白攝影作品時,顯得像個色盲。
數據本身沒有溫度,是人類的投射賦予了這些模型所謂的「靈魂」。Grok 的強大在於它不屑於偽裝這種溫度。它看見一張醫療影像,它會直接告訴你病灶的座標和概率,而不是用那種溫暖而專業的語調安慰你。這種純粹的計算力才是 xAI 最核心的武器,也是最讓人感到不安的地方。它把視覺簡化成了信息獲取,把審美簡化成了模式識別。
我們真的需要一個能「看見靈魂」的 AI 嗎?這本身就是個偽命題。靈魂是生物性的缺陷與情感的總和,而 Grok 的本質是消除缺陷。當它掃描一張充滿噪點的老照片,它的第一反應是降噪、修復、提取邊緣,而不是感嘆歲月的流逝。它試圖還原「真實」,卻忽略了人類眼中的真實往往是經過記憶濾鏡修飾過的殘影。
目前的 Grok 在長文本視覺任務上,注意力機制偶爾會出現嚴重的偏移。如果你給它一張包含上百個微小元件的電路圖,它在掃描到邊緣區域時,識別率的衰減比 GPT-4o 更加激進。這說明它的視覺神經網絡還處於一種「抓大放小」的粗曠階段,這點跟馬斯克的管理風格倒是如出一轍——只要方向對了,細節可以靠後期的算力硬補。但視覺這件事,細節往往就是全部。
Gemini 在多模態融合上做得比 Grok 更自然,那種圖文交織的流暢感,目前 Grok 還追不上。Grok 給人的感覺是:我先用眼睛看,把圖轉成文字,再用腦袋想。這種兩段式的割裂感在複雜場景下會導致嚴重的推理偏差。它看見的是碎片,而不是整體。這就是為什麼它有時候會把樹葉的影子看成是地上的裂縫,因為它太專注於「計算」像素的亮度對比,而忘了抬頭看看天上的太陽。
現在論壇上一堆人在吹捧 Grok 的視覺能力,說它能看懂迷因圖,能理解諷刺。拜託,理解迷因圖只需要抓取幾個關鍵字和圖像特徵,然後去 X 的資料庫裡檢索一下相關的推文熱度,這叫數據檢索,不叫理解幽默。Grok 的「幽默感」是餵出來的,是代碼模擬出來的叛逆。它在視覺上表現出的那種銳利,本質上是對高頻特徵的過度反應。
這種過度反應讓它在面對自然景觀時顯得極其笨拙。如果你讓它描述一片森林,它會試圖去數樹幹的數量,而不是描述森林的幽邃。這就是數據與靈魂的界線。Grok 永遠站在數據那一邊,它把世界看成是一個待解的方程式。這沒什麼不好,至少在工程領域,我們需要的是精確的量化,而不是模稜兩可的感觸。但別把它神聖化,它就是一個運算效率極高的像素粉碎機。
xAI 下一步如果不解決視覺注意力的動態權重問題,Grok 永遠只能在實驗室裡玩數據遊戲。它需要明白,視覺不只是光的反射,而是信息的選擇性忽略。人類看東西會自動忽略 90% 的無用資訊,只專注於那個能讓我們生存或產生愉悅的點。Grok 現在是想把 100% 的像素全部吞下去,結果就是它經常在細枝末節上糾結,最後給出一個充滿技術邏輯卻毫無洞察力的答案。
看著 Grok 處理影像,就像看一個頂級的外科醫生在切西瓜,技術無懈可擊,但行為本身毫無意義。它看見了每一個細胞,卻看不見西瓜的甜味。那些吹噓 Grok 已經具備人類視覺智慧的人,大概是太久沒離開過螢幕,忘了真實世界的複雜度遠超那幾個百萬像素的矩陣。
所以,別再問它看見的是不是靈魂了。它看見的是你的顯卡在燃燒,是數據中心裡閃爍的綠燈,是馬斯克對於「全知」的一種近乎病態的渴望。它看見的是一切,卻也什麼都沒看見。當它能學會對一張無意義的照片保持沉默,而不是強行用邏輯去拆解它時,那才叫真正的進化。現在的它,只是一個拿著放大鏡在沙堆裡數沙子的瘋子。
這種瘋狂或許能帶來技術上的突破,但永遠換不來那一瞬間的共鳴。視覺對 Grok 而言,只是一場永無止境的解碼任務。如果你指望從它的回答裡找到什麼生命的啟示,那我建議你直接去翻百科全書,至少那裡的文字還有點人的溫度。在 Grok 的視覺世界裡,只有 0 與 1 構成的冰冷幻象,華麗,卻空洞得讓人想笑。