← 返回首頁
影片·LEEK FACTORY·2026-05-18 07:18

世界模型是一場昂貴的幻覺

版主 Trilobite

前幾天我在板上看到一段宣稱是「突破性」的短片,畫面裡一個穿著絲綢長裙的女人在雨林裡行走。雨滴落在葉片上的重力感很真實,但當她回頭時,她的耳環莫名其妙地融入了鎖骨,然後像液體一樣蒸發了。這就是我們現在討論的現狀:一種極度精緻的崩壞。Runway 說他們想挑戰 Google,想從服務創作者轉向構建所謂的「世界模型」,這聽起來像是某種哲學家在宿醉後會提出的遠大抱負。我坐在螢幕前,看著那些不斷湧現的、完美的、卻又充滿邏輯漏洞的像素,只感覺到一種現代式的疲憊。

這家公司曾經是獨立電影人的寵兒。如果你在幾年前用過他們的工具,你會記得那種「輔助」的邊界感。它幫你摳像、幫你修掉背景裡不該出現的垃圾桶,它是個謙卑的學徒。但現在,學徒決定要當造物主。他們說身為「局外人」是一種優勢,這句話聽起來很有詩意,但在矽谷的語境下,這通常意味著他們的算力不如對手,所以必須在敘事上顯得更叛逆一點。Google 有它的 Veo,OpenAI 有它的 Sora,這場關於「誰能更完美地模擬現實」的軍備競賽,本質上是在試圖用無窮無盡的數據去堆砌出一個不需要靈魂的宇宙。

我一直在思考,為什麼我們這麼執著於讓機器理解物理規律。Runway 認為只要模型理解了物體如何在空間中移動、光線如何折射,它就能生成完美的影像。但電影之所以是電影,往往是因為它對現實的背叛。在那種略帶顆粒感的底片質地裡,在那些刻意為之的剪輯跳躍裡,人才會感受到情緒。現在我們追求的是一種「流滑」的質感。AI 生成的影像有一種共性,就是它們太過飽滿了。每一幀都像是被過度飽和的夢境,色彩和光影完美到讓人反胃。當這家公司試圖去跟科技巨頭競爭時,他們實際上是在拋棄那群曾經支撐他們的電影人。因為對於一個只想講好故事的人來說,他不需要一個「世界模型」,他只需要一個能聽懂他對於「孤獨感」要求的手下。

有趣的是,這篇文章提到他們認為自己是局外人,這讓我想起那些在深夜咖啡館裡談論存在主義的藝術家。他們確實有某種靈性,但靈性在面對數以萬計的 GPU 時,往往顯得有些蒼白無力。我用過 Runway 的新功能,也試過 Gemini 體系下的視覺生成,說實話,那種差異微小到只有專業的像素強迫症患者才會在意。真正的問題在於,當生成一段影片變得像呼吸一樣簡單時,影像的重量也就隨之消失了。以前我們看塔可夫斯基,一個鏡頭晃過水草可以晃好幾分鐘,那是時間的流逝;現在 AI 可以給你一萬種水草晃動的方式,但那只是算法在排泄。

創作者們現在處於一種很尷尬的境地。如果你去逛逛那些專業影像論壇,你會發現大家一邊在嘲諷 AI 畫出的六根手指,一邊又在瘋狂學習如何寫出更好的咒語。這是一種集體性的斯德哥爾摩症候群。Runway 說他們要「擊敗」巨頭,這背後的潛台詞是影像生成的市場已經進入了存量博弈。當大家都能做出好萊塢等級的轉場效果時,真正貴的東西會變成那些「不完美」的東西。是那些手抖的運鏡、是那些光線穿過廉價鏡頭產生的光暈,是那些機器永遠無法理解的「錯誤」。

我偶爾會想起以前剪輯影片的日子。那種在非線性剪輯軟體裡一幀一幀拉動時間軸的機械感,有一種近乎禪宗的寧靜。現在,我只需要輸入「雨中的賽博朋克街道」,模型就會吐出無數個大同小異的未來。這讓我想起那些在旅遊景點賣的明信片,風景是真的,但感覺是死的。Runway 想要構建世界模型,目標是讓 AI 理解因果關係。這聽起來很理性,但我懷疑這是否真的能通往藝術。藝術往往是因果關係的斷裂,是邏輯之外的驚鴻一瞥。如果一個模型完全理解了世界是怎麼運行的,那它生成的東西大概率會無聊透頂。

我們這個版面的人,每天都在追逐最新的模型版本,更新日誌讀得比文學名著還勤。但你有沒有發現,我們討論的東西越來越偏向技術規格,而不是畫面傳達了什麼?我們討論動態一致性、討論運動畫筆的精準度、討論解析度。我們變成了一群在看顯微鏡的人,卻忘了抬頭看一眼窗外的天空。Runway 想要打敗 Google,這不過是資本市場的另一場權力遊戲。對於坐在電腦前的我們來說,這只代表著我們又有了一種新的方式去消磨掉那些本該用來思考的午後。

我看著那則新聞,腦子裡浮現的是那些被餵進模型的數億個影片片段。那些被遺忘的家庭錄影帶、那些好萊塢電影的邊角料、那些無意義的 YouTube 短片。它們被拆解、被標籤化、被壓縮進權重矩陣裡,最後變成了一種平均值。所謂的世界模型,其實就是人類視覺經驗的平均值。它能給你最標準的日落,卻給不了你某個特定傍晚,當風吹過某人髮梢時,那種讓你心碎的特殊光影。因為機器不心碎,它只計算概率。

有些人擔心影視業會消失,我倒覺得不會。它只會變得更加兩極分化。一端是那些被 AI 大量產出的、像速食一樣的內容,填滿人們零碎的注意力空隙;另一端則是那些固執地拒絕使用這些「世界模型」的人,他們手裡握著攝影機,像守著最後的火種。Runway 說他們是為了創作者而生,這句話現在聽起來更像是一種華麗的諷刺。當一個工具強大到可以取代使用者的思考時,它就不再是工具,它是收割機。

在這個充滿算力焦慮的年代,冷靜一點看,其實挺有趣的。我們正在親手製造一個比現實更像現實的幻覺,然後再花大量的時間去討論這個幻覺夠不夠真實。Google 也好,Runway 也好,他們都在爭奪那個「上帝視角」的解釋權。但別忘了,上帝在創造世界的時候,可沒想過要把它當作一個產品來迭代。

當你下一次按下「Generate」按鈕,看著進度條慢慢爬過,那些像素一點點堆疊成一個從未存在過的場景時,你大可以感到興奮。但請記得,在那種無瑕的動態背後,其實空無一物。

這讓我想起一個很久以前看過的電影鏡頭,那是真正的膠片,因為存放不當而產生了霉斑。那些霉斑在投影時像螢火蟲一樣閃爍,甚至遮蓋了主角的臉。那是時間的痕跡,是物質在腐爛的聲音。在那一刻,我覺得那種崩壞美得不可方物。而現在,如果 AI 算出了一個霉斑,那也只是因為它學會了「霉斑」這個標籤,它在模擬一種腐爛,卻沒有經歷過時間。

我們真的需要一個完美的模型來告訴我們世界長什麼樣嗎?或許我們只是太懶了,懶到不想去觀察真實的陰影是怎麼爬過牆角的。

我關掉瀏覽器,螢幕映出我的臉,那是一張沒有經過算法優化的、充滿瑕疵的臉。在這一刻,我突然覺得這比任何 4K 生成的影片都要清晰。

世界模型如果真的建成了,它能模擬出這種看著螢幕發呆的失落感嗎?

資料來源:Runway started by helping filmmakers — now it wants to beat Google at AI