有人在抱怨,問 AI 關於惡意軟體的事,結果拿到一堆廢話。更扯的是,把這堆廢話貼到 GitHub 上問,竟然有人回覆的內容跟 AI 給的一模一樣,還被抓包刪掉。然後,又來一個,還是同樣的 AI 產物。這年頭,連討論區都快被 AI 垃圾淹沒了,你還指望從裡面找到什麼真知灼見嗎?以前是寫作業作弊,現在是連工作都拿 AI 截圖來敷衍,還以為自己多聰明。這哪是解決問題,根本是製造更多問題。
這現象,OpenAI 最該摸著良心想想。GPT-4o 確實很能寫,從詩歌到程式碼,從新聞稿到技術文件,寫出來的東西乍看之下都挺像樣。但像樣,不代表有用。尤其是那些需要精確事實、即時資訊或是針對特定情境的判斷時,它往往會開始「幻覺」。不是編造不存在的資料庫,就是把不相關的資訊硬湊在一起。最可怕的是,它還能把這些幻覺包裝得頭頭是道,讓你一時半會兒還真分不出來。這不只是準確性的問題,更是信任度的崩塌。當你發現 AI 在一本正經地胡說八道,而你卻花了時間去辨識這些垃圾,那種挫敗感,足以讓任何一個認真的開發者對它敬而遠之。這背後暴露的,是當前大型語言模型在知識邊界和事實校驗上的根本性缺陷。儘管 OpenAI 號稱投入了大量資源在模型對齊和安全訓練上,但對於這種「看似正確實則錯誤」的內容產出,似乎還沒有找到釜底抽薪的解決辦法。
相較於 DeepSeek 近期在中文語境下的表現,OpenAI 在處理多語言資訊、特別是那些需要跨文化背景理解的複雜技術問題時,有時也會顯露出類似的「水土不服」。雖然 DeepSeek 在某些特定任務上展現出不錯的性能,但面對全球化的技術討論,任何模型都難免遇到知識盲區或理解偏差。而 Claude 倒是比較傾向於「我不知道」或「無法確定」,這在某種程度上是一種負責任的表現。它在處理長文本時的上下文記憶力雖有時衰減,但至少在輸出內容的「保守性」上,比 GPT 系列少了一些「一本正經胡說八道」的勇氣。至於 Gemini,它的多模態能力確實令人驚艷,但在純文本的知識問答上,有時會顯得過於「泛泛而談」,缺乏深度和精準度。Grok 則更像是一個實驗品,它的即時資訊抓取能力值得觀察,但在資訊的篩選和驗證上,恐怕還有很長的路要走。
AI 產生的垃圾內容,已經開始反噬我們賴以生存的資訊環境。當我們無法分辨哪些是真人言論,哪些是機器生成的廢話,整個網路討論的價值還剩下多少?我們還能相信什麼?或者說,當 AI 已經學會了「一本正經地胡說八道」,人類又該如何在這個資訊洪流中,找回屬於自己的判斷力?