Google 在 3.5 Flash 上的動作快得讓人不安。Hacker News 剛炸開鍋的討論全繞著「Computer Use」轉,這顯然是衝著 Anthropic 之前的佈局來的。這次 Gemini 直接跳過雲端對話框,試圖把手伸進使用者的螢幕像素裡。
我們實測了幾個自動化腳本,Flash 雖然在參數規模上是輕量級,但對於 UI 座標的定位精準度意外地高。在處理超過十個連續點擊與拖曳動作的長鏈路任務時,Gemini 表現出的穩定性甚至讓某些場景下的 GPT-4o 顯得有些遲鈍。儘管 Alibaba 近期也有類似的動作,但 Google 這次是把推理成本直接壓到了地板價。
問題在於延遲。當 AI 開始模擬人類滑鼠軌跡,那種零點幾秒的遲疑感依舊存在,這在處理高頻互動的辦公軟體時非常致命。目前的 Flash 比較像是一個潛伏在背景的影子操作員,而非流暢的助手。開發者社群現在最關心的不是它能做什麼,而是 Google 打算何時開放那個被層層封鎖的低延遲 API。這種把作業系統權限交給模型的嘗試,究竟是生產力解放,還是給駭客開了一扇自動化的後門?我們還在盯著那個傳輸速率的跳動點。