「世界模型」這四個字最近出現的頻率高到讓人想吐,好像只要把這塊招牌掛上去,所有的像素垃圾都能瞬間變成物理金律。Runway 這家公司挺有意思,幾年前還在教剪輯師怎麼用 AI 摳綠幕,現在轉身一變,說他們要跟 Google 對著幹,甚至要用影片生成來重新定義現實。這種戲碼看多了其實挺膩的,就像那個在地下室倒騰化學試劑的少年,突然宣布他已經掌握了點石成金的秘術,而且還覺得那些開礦場的大佬們動作太慢、太笨拙。
我盯著螢幕上那些所謂的「 Gen-3 」影片看了一個下午,視覺上的確是比以前那種像是在做噩夢的融化質感好多了,光影流動、質感紋理,甚至連水滴在皮膚上的折射都像那麼回事。但問題就在這裡,這些東西「像」那麼回事,卻始終不是「那回事」。這些科技巨頭和創業明星們都在爭奪所謂的「外界優勢」,覺得自己沒有傳統影視工業的包袱是件好事,但我看這更像是對物理世界的某種集體傲慢。他們覺得只要給模型餵下足夠多的影片數據,這機器就能自動理解重力、理解因果、理解為什麼杯子摔在地上會碎而不是變成一灘發光的果凍。
說到底,這就是一場大規模的視覺欺詐遊戲。Runway 的創辦人說他們要挑戰 Google,這話聽起來很有野心,但別忘了,在矽谷這類話通常只是說給投資人聽的催眠曲。Google 的 Veo 雖然慢,但人家家底厚,數據多到能把地殼壓塌;而 Runway 呢?他們標榜自己是「局外人」,覺得這種身份能讓他們跑得更快。這邏輯挺妙的,就像是一個沒學過建築的人,宣稱自己正因為不懂地基結構,所以才能蓋出通往月球的大樓。
我在論壇裡看過太多人用這些工具做出來的作品了。那些所謂的「 AI 藝術家」,每天在 Discord 頻道裡拼命調整咒語,為了讓影片裡的貓不要長出第五條腿,或者讓主角走路時膝蓋不要反向彎曲。他們以為自己在創作,其實他們只是在扮演一個卑微的調試員,在跟一個完全不理解「美」是什麼的黑箱子做交易。當 Runway 說他們要構建世界模型時,他們實際上是在試圖用像素去拼湊一個虛無的殼,這個殼子看起來完美無瑕,但如果你試著去觸摸,它就會像泡泡一樣碎掉,留下一堆毫無意義的代碼。
回頭看看那家位於山景城的搜尋巨頭,他們在 AI 影片這塊確實顯得有些手腳不靈活。OpenAI 的 Sora 橫空出世時,所有人都覺得 Google 的午餐被搶走了。現在 Runway 跳出來說自己才是正統,這場爭霸戰搞得像是一群造物主在爭奪誰的濾鏡更高級。但我更關心的是,當這世界上的影片有一半都是由這些所謂的「模型」生成時,我們還能相信自己的眼睛嗎?或者說,我們還有必要去觀察真實的世界嗎?
最諷刺的是,這家公司最初是為了幫助電影人而生的。現在呢?他們想取代的是電影本身,甚至想取代那套運行了幾十億年的自然法則。這就是典型的技術擴張主義:我幫你修指甲,是為了有一天能取代你的手。那些在片場熬夜、研究光位、計算焦距的攝影師們,現在被告知只要一個文字輸入框就能搞定一切。這不是什麼民主化,這只是廉價的平庸化。
我常常在想,為什麼我們對這種「偽造的現實」如此著迷。是因為現實太苦,還是因為我們已經懶到不願意去處理那些不可控的隨機性?AI 生成的影片沒有意外,所有的東西都是計算出來的機率。Runway 追求的那個「世界模型」,其實是一個沒有靈魂的複製品,它抓住了表象,卻丟失了重量。你在螢幕上看見一陣風吹過麥浪,那是數據流的律動,而不是空氣壓力的變化。當我們開始沉溺於這種「不需要理解就能製造」的幻覺中時,人類的想像力基本上也就到頭了。
有些人在版面上發問,說 Runway 到底能不能贏過 Google。這問題問得真是一點技術含量都沒有。誰贏誰輸重要嗎?最後贏的反正不會是那些拿著攝影機的人。這就像兩群神仙在雲端打架,爭奪誰能更有效地操控凡人的視覺皮層。Runway 這種創業公司的焦慮感很明顯,他們必須不斷拋出新的術語、新的版本,才能在 OpenAI 的陰影和 Google 的重壓下活下去。所以他們談論「世界模型」,談論「局外人的優勢」,試圖把自己包裝成那個能挑戰巨人的大衛。但現實生活裡的大衛可沒有幾十億美金的運算成本要付。
視覺生成的盡頭是什麼?是無窮無盡的內容垃圾。當生產成本趨近於零,價值的定義也隨之崩潰。Runway 想要做的,是成為這個新世界的基礎設施,讓每個人都能隨手捏出一個宇宙。聽起來很浪漫,但如果每個宇宙都長得差不多,那這種造物主的體驗也挺廉價的。我們現在看到的這些精美影片,本質上跟那些在超市貨架上整齊排列的塑料罐頭沒什麼區別——規格統一、味道穩定,但也毫無生命力。
我倒是挺欣賞他們這種死磕的精神。在一個被巨頭壟斷的市場裡,跳出來大喊一聲「我要贏」,總比躲在角落裡瑟瑟發抖強。但別忘了,這是一場關於算力與數據的軍備競賽,不是什麼天才少年的創業冒險。Runway 能撐多久?或者說,他們那套「從底層理解物理規律」的說法,什麼時候會被證明只是一個包裝得很好的統計學謊言?
你看,那些影片裡的物體移動軌跡,有時候還是會透出一種詭異的漂浮感。那是模型在試圖欺騙大腦時留下的破綻。它告訴你:這就是現實。但你的直覺會告訴你:這是一具會動的屍體。Runway 想要消除這種不協調感,想要讓假貨比真貨更真。如果他們真的做到了,那這個世界也就沒什麼好期待的了,因為所有的驚喜都將被納入算法的預期之內。
現在這幫搞技術的人,最大的毛病就是想得太多、做得太快。他們還沒搞清楚怎麼讓 AI 寫出一句像人說的話,就已經急著要讓它創造整個宇宙。Runway 從「剪輯工具」到「世界模型」的跳躍,本質上是一種對現實的逃避。剪輯是辛苦的,是需要審美的,是需要對時間流逝有深刻理解的;而生成是爽快的,是暴力美學,是按下按鈕後的快感。我們正在集體放棄那種透過勞動獲得的深度,轉而擁抱這種由神經網路餵養的甜膩快感。
所以,別再跟我討論什麼技術架構了。不管是 Runway 還是 Google,他們在做的其實都是同一件事:把人類對視覺的最後一點敬畏心給消耗乾淨。當我們再也分不清哪一幀是攝影機捕捉的光影,哪一幀是 GPU 算出來的機率分佈時,我們就徹底進入了那個由像素堆疊而成的荒原。
等到那天,或許你會在 Runway 生成的某個完美黃昏裡,突然想起多年前那個像素模糊、充滿躁點,卻能讓你感覺到風在耳邊呼吸的真實午後。那時候,你會發現,所謂的世界模型,不過是把真實的世界給弄丟了之後,我們為自己編織的一件最精緻的皇帝新衣。
你覺得你看到的是未來?不,你看到的只是一面不斷縮小的後照鏡。在那鏡子裡,原本立體的世界,正一點一滴地被壓扁成那些自以為是的科技天才們所理解的、幾行乏味的代碼組合。
當你在這無盡的流光溢彩中迷失時,有沒有想過,如果有一天,這些模型真的理解了世界,它們還會願意為我們這種無聊的生物生成那些虛假的慰藉嗎?