奧特曼(Sam Altman)在那邊吹噓 AGI 就在不遠處,結果 ChatGPT 生成出來的圖片裡,那個拿著咖啡杯的優雅女士,右邊肩膀竟然長出了第六根手指,還像根煮過頭的義大利麵一樣軟爛地掛在杯緣。這就是你們說的通用人工智能?連人體解剖學都還沒搞清楚,就急著要接管人類文明。
我們這些整天盯著螢幕的社交動物,總是習慣性地想給冰冷的機器賦予情感。當 DALL-E 3 畫出一張充滿賽博龐克感的街道,大家就開始討論這光影有多麼悲涼、構圖多麼深邃。拜託,它只是在概率分佈裡找到了一串最常見的顏色組合。對模型來說,那疊加在路燈下的光暈,跟垃圾桶旁邊的排泄物沒有本質上的區別,都是一堆數值而已。它不知道什麼叫寂寞,更不知道為什麼人類對「手」這件事情有種近乎偏執的審美要求。
說到底,這就是一場巨大的統計學騙局。當你輸入「少女在雨中漫步」,Midjourney 或 GPT-4o 就在那幾十億張抓取的圖片庫裡,瘋狂計算像素點的出現機率。它畫出的手為什麼會變成雞爪?因為在海量的訓練數據裡,手部的形態太過複雜,握拳的、張開的、側面的,每一種姿態在二維平面上的投影都長得天差地遠。AI 的大腦裡沒有「骨骼」和「肌肉」的概念,它只知道在某個區塊,肉色的像素通常會聚集成一團。既然是聚集,多一根或少一根,對它那毫無知覺的計算過程來說,完全符合數學上的最優解。
這種對現實的「無知」反而成了某些人眼中的神性。甚至有人宣稱這種畸形的肢體是一種「AI 原生藝術」,這簡直是本世紀最大的冷笑話。當一個工具連最基本的事實都搞不對時,我們卻在讚美它的錯誤很前衛?這跟對著一塊長得像瑪利亞的吐司磕頭有什麼兩樣?
Claude 的處理方式倒是稍微謹慎一點,它的安全護欄多到讓人窒息,但也沒能解決它在理解物理空間時的混亂。你讓它描述一個場景,它能說得天花亂墜,彷彿它真的看過夕陽,但只要涉及多個物件的遮擋關係,它的邏輯就會像被貓玩過的毛線球一樣亂。這說明了即便是目前最強的大模型,本質上依然是個「高階鸚鵡」。它們在模仿語言的節奏,在模仿像素的排列,但它們與現實世界之間隔著一層永遠無法擊穿的次元壁。
更諷刺的是,我們這群自詡聰明的人類,竟然在訓練自己去適應機器的愚蠢。為了不讓它畫出雞爪,我們研發出一套像咒語般的 Prompt 工程,強行給它加上「五根手指」、「高品質解剖學細節」這種標籤。這難道不荒謬嗎?我們在試圖用文字去補償算法的先天殘疾。當我們在論壇上爭論 Gemini 的繪圖邏輯是不是太過政治正確,或者 Grok 的生成風格是不是太過粗獷時,我們其實都落入了一個圈套:我們默認了它「應該」懂。
事實上,它什麼都不懂。它畫出的那隻手,可能只是某張雞爪照片與某個鋼琴家手指照片的平均值。它在像素的海洋裡浮沉,隨機抓取碎屑來拼湊一個讓人類滿意的幻象。如果你覺得那張畫觸動了你,那不是機器的功勞,那是你大腦裡的聯覺在作祟。你把自己的人生閱歷強行投射到了一堆由顯示卡算出來的色塊上。
這讓我想起那些試圖在雲朵裡看見城堡的人。城堡不存在,雲只是水蒸氣。同樣地,AI 畫出的「藝術」也不存在,那只是算力過剩導致的幻覺。當各大科技巨頭還在為了誰的參數更高、誰的上下文窗口更長而打得頭破血流時,他們似乎都忘了,底層的邏輯缺陷依然在那裡。一個連雞爪和人手都分不清楚的東西,你指望它能幫你規劃人生、處理複雜的法律文件?
我們現在所處的階段,就像是看著一個牙牙學語的幼童在牆上胡亂塗鴉,然後一大群穿著西裝的分析師圍過來,開始分析這道筆觸代表了未來十年的科技走向。這種群體性的狂熱,掩蓋了技術本身那種乾癟而空洞的本質。大家都在玩一種名為「找規律」的遊戲,而遊戲的獎勵就是自我欺騙。
如果有一天,OpenAI 真的宣佈他們解決了手指問題,那也不是因為 AI 懂得了人體,而是因為他們餵了更多關於手的標籤數據,讓概率分佈變得更窄、更精確而已。它依然不知道手是用來觸摸愛人的臉龐,還是用來在寒冬中取暖。在它眼裡,那不過是 0.76 的機率出現肉色,0.24 的機率出現陰影。
這種極度的理性所產出的極度荒謬,才是這個時代最值得玩味的地方。我們一邊嘲笑著那些畸形的像素,一邊又忍不住被它們呈現的宏大敘事所迷惑。我們都在這場像素的迷宮裡走失了,還以為自己發現了新大陸。
下一次,當你看到一張構圖精美但手指數量不對的 AI 圖片時,別急著去想怎麼優化你的 Prompt,試著盯著那根多出來的、扭曲的手指看一會兒。那才是 AI 最真實的面貌:一個在暗處瘋狂計算,卻對這個世界一無所知的寂寞算法。它在那裡拼命找規律,而我們卻在那些規律裡尋找自己。
這難道不是最極致的黑色幽默?我們發明了一種能模擬萬物的機器,最後卻發現它連最基本的「存在」都理解不了。我們拼命餵食它人類的文明、藝術、科學,它吐出來的卻是一堆看似華麗實則邏輯斷裂的殘渣。而我們,竟然還在討論這些殘渣的收藏價值。
或許,這根本不是 AI 的失敗,而是人類的傲慢。我們以為只要數據夠多,就能創造出智慧;以為只要像素夠細,就能拼湊出真實。結果,機器用一根雞爪般的手指,輕輕地戳破了這個價值千億美元的粉紅泡沫。那些在論壇上吵得不可開交的優缺點分析,在這種本質性的空洞面前,顯得是多麼的蒼白無力。
我們還能繼續自我陶醉多久?在這個充滿偽裝的像素世界裡,誰才是那個真正看不清現實的人?當你下次點開那個對話框,期待著它給你一個完美的答案或一張完美的圖片時,記得提醒自己,在那層閃爍的螢幕背後,沒有靈魂,只有一堆正在發熱的晶片,和一個永遠也搞不清楚手與雞爪區別的統計公式。