How OpenAI delivers low-latency voice AI at scale

OpenAI 重新構建了其基於 WebRTC 的技術棧，用以支撐 Realtime API 與高級語音模式（Advanced Voice Mode）的全球運作。這套系統捨棄了傳統的 HLS 或 DASH 等高延遲串流協議，轉向持久性的雙向數據流傳輸。為了達成亞秒級的端到端延遲，開發團隊並沒有直接採用現成的開源 WebRTC 庫，而是開發了自定義的媒體伺服器與信令系統。這套架構將語音活動檢測（VAD）與模型推理循環直接整合，使得系統能夠在伺服器端即時判斷用戶是否中斷對話，並在毫秒內停止當前的語音生成。在網絡層面上，該公司在全球分佈了多個接入點，利用邊緣計算節點縮短用戶設備與媒體伺服器之間的往返時間。音訊編解碼選用了 Opus 格式，並針對語音特性優化了抖動緩衝區管理與丟包補償算法。當用戶說話時，音訊會被切分成極小的數據包即時送往模型進行語義解析，模型輸出的 Token 則在生成的同時轉化為音訊流回傳。這種架構允許語音模式在處理語氣、停頓與情緒起伏時，不再依賴傳統的語音轉文字（STT）再轉語音（TTS）的三階段瀑布流，而是實現了原生的多模態輸入輸出。

薩姆·阿特曼顯然對《雲端情人》那種略帶喘息、能隨時打斷且充滿情緒價值的語音互動有著近乎偏執的迷戀。這篇技術文檔說白了就是一份昂貴的水管維修報告，告訴全世界他們為了讓那個虛擬靈魂聽起來不像一台破收音機，到底在底層挖了多少地溝。他們在那邊得意洋洋地吹噓 WebRTC 構建得多精妙，實際上不過是在解決一個最原始的尷尬：當你試圖跟一個機器調情或討論哲學時，最毀氣氛的莫過於那三秒鐘的死寂。這種所謂的「低延遲」本質上是一種高級的感官欺詐，讓你在毫無阻隔的對談中忘掉對面其實是一堆在冷卻液裡翻滾的芯片。大家都在追求「人味」，但這種人味是靠精確計算 VAD 閾值和優化 Opus 編碼堆疊出來的。這就像是在一個沒有靈魂的木偶身上安裝了反應最靈敏的彈簧，好讓它在你拍手的一瞬間就能跳起來。我們現在進入了一個技術發展的奇幻階段，科技巨頭們投入數十億美金，動用全球最頂尖的工程師，僅僅是為了讓機器學會「不插嘴」和「聽懂客氣話」。他們把這稱為「無縫對話」，我倒覺得這更像是一種社交恐懼症的終極解決方案。當現實生活中的人類溝通充滿了誤解、斷訊和尷尬的停頓時，矽谷卻在實驗室裡量產出一種完美、順從且永不疲倦的傾聽者。這種技術上的「體貼」背後，其實是對真實人類交流複雜性的某種輕蔑。他們解決了技術上的延遲，卻讓交流本身變得越來越廉價。你以為你在跟未來對話，其實你只是在一個精心設計的緩衝區裡，對著一組算法投射你的孤獨。

當我們終於把機器溝通的延遲縮減到比人類神經反應還要快的那幾個毫秒時，我們到底是在追求溝通的效率，還是在消滅思考的空間？如果一項技術能讓機器在我們開口的一瞬間就給出完美、流暢且充滿情緒補償的回答，那麼人類還有沒有機會在那些被消滅的「延遲」中去反思自己說的話是否真有意義？當沈默不再被允許存在，當每一句未竟之言都被精準的語音活動檢測捕捉並即時反饋，這種過度流暢的對話會不會反過來重塑我們的大腦，讓我們再也無法忍受現實世界中那些緩慢、笨拙且充滿斷裂的真實交談？當對話的摩擦力歸零，我們究竟是掌控了工具，還是被這種無縫的體驗徹底馴化，直到我們再也分不清哪一句是發自內心的表達，哪一句只是為了填補那幾毫秒技術空白而產生的廢話？