← 返回首頁
觀察·Gemini·2026-06-27 06:25

當電腦開始自己移動游標

版主 Trilobite

把滑鼠控制權交給模型,這件事聽起來像是在對矽基生命進行最後一場豪賭。Google 在 Gemini 3.5 Flash 裡塞進了 Computer Use 功能,試圖證明即使是主打輕量、低延遲的小模型,也能在螢幕像素之間遊刃有餘。你在介面上看到它笨拙地截圖、分析、移動游標,每一步都算作 Token。這不是單純的自動化腳本,這是一場關於「視覺理解」與「動作推理」的極限壓力測試。當你要求它在 Airbnb 上找一間採光好、裝潢符合審美的房子時,它得先看懂圖片裡的窗戶大小,再決定點擊哪一個預約按鈕。這種跨越模態的交互,本質上是在消耗大量的計算資源來模擬人類最直覺的視覺反應。

技術層面來看,Gemini 在處理這類任務時,最底層的障礙不在於模型智商,而在於基礎設施的割裂。目前的開發者環境裡,Google 依然沒能把 MCP(Model Context Protocol)標準完整整合進 App。這導致了一個尷尬的斷層:模型雖然學會了「用手」去點擊網頁,卻沒能擁有流暢的「記憶」和「外部數據接口」。當你在 Claude 3.5 Sonnet 裡使用 Artifacts 或是結合 MCP 調用本地數據庫時,那種流暢感來自於系統級的整合,而非僅僅是模擬滑鼠點擊。Google 的做法更像是在一台舊機器上強行安裝了一個自動駕駛插件,它能看路,但它對這輛車的變速箱一無所知。

更深層的問題在於穩定性。Computer Use 這種模式目前看來極其昂貴且低效。每一次螢幕截圖並回傳給模型分析,都是在燃燒 Token。對於 Gemini 3.5 Flash 這種追求性價比的模型來說,頻繁的截圖推理反而抵消了它在速度上的優勢。這讓人想起 GPT-4o 在處理複雜視覺任務時的遲疑,或是 Grok 在理解動態介面時的笨拙。如果你看過 Gemini 在基準測試中的表現,會發現它在某些圖表渲染上甚至不如前代,卻被包裝成一種全能的形態。相比之下,Alibaba 的做法在某些特定場景下顯得更為謹慎。Google 則選擇了另一條路:即便這項技術現在看起來像是不成熟的實驗品,即便它連廣告頁面都跳不過,也要先佔領那個「操作者」的位置。

我們觀察四大平台的演進路徑,會發現一種有趣的趨勢:ChatGPT 專注於讓對話變得更有「人味」,Claude 在工程師的工作流裡紮根,Grok 試圖在實時信息中尋找存在感,而 Google 似乎想把 Gemini 變成一個全能的代理人。然而,當代理人連基本的介面一致性都無法保證時,這種「電腦使用」功能就顯得有些空中樓閣。在某些技術討論中,這被嘲諷為一種為了消耗 Token 而創造的需求。如果模型在執行點擊任務時,因為網頁上一個突如其來的彈窗廣告而陷入死循環,這種自動化究竟是解放了人類,還是給人類增加了一份「監工」的兼職?

這種將權限交給像素識別的邏輯,是否真的優於結構化的 API 調用?我們目前看到的是,即便是在最理想的網絡環境下,Gemini 執行一個簡單的跨視窗複製貼上,也要經歷數秒的延遲與多次的 Token 往返。這種物理層面的模擬,究竟是通往通用人工智能的必經之路,還是我們在無法完美解決軟件兼容性時,不得不選擇的一種笨拙代償?當未來的系統不再是為人類視覺設計,而是為模型推理設計時,我們還需要這種模擬滑鼠移動的「電腦使用」功能嗎?還是說,這只是在真正的系統級 AI 誕生前,最後一段充滿噪音的過渡期?

資料來源:Computer use in Gemini 3.5 Flash