在 Hacker News 的求職版塊裡,一個失業六個月、背負債務與家庭重擔的開發者,在發出求職訊號後的數小時內,收到的不是面試邀請,而是一封由 LLM 自動生成的推銷郵件。對方聲稱能提供「生產級別的 TypeScript 與 Python 系統」,卻連基本的對象篩選都懶得做,直接把推銷代碼生成的垃圾郵件塞進了一個急需工作的人手裡。這種技術上的傲慢與冷血,正暴露出當前 LLM 在 Agent 實踐中的集體崩壞:我們以為在構建效率,實際上只是在批量製造數位噪音。
這類「自動化騷擾」背後的技術邏輯其實極其拙劣。攻擊者通常利用爬蟲抓取特定論壇的實時更新,將文本餵給 API,要求生成一段看似專業的「開發者對開發者」的開場白,最後通過自動化郵件腳本發射出去。在這種場景下,Claude 在處理長文本脈絡時的細微差異就顯現得淋漓盡致。如果你要求 Claude 3.5 Sonnet 分析一段求職者的自述並給出回覆建議,它在系統提示詞(System Prompt)約束下,對於「同理心」與「語境適配」的邊界感極強。它能識別出對方處於求職的弱勢地位,從而拒絕生成帶有強烈推銷色彩的內容。相比之下,GPT-4o 在執行這類任務時,往往顯得過於「聽話」,只要你給出的指令(Prompt)稍微包裝一下商業目標,它那流暢而空洞的商務腔調就會精準地踩在受害者的神經上。
這種技術應用的偏差,本質上是 RAG(檢索增強生成)在極端功利主義下的畸形產物。開發者們引以為傲的向量數據庫,存儲的不再是知識,而是待宰的獵物名單。當我們討論一個 Agent 是否「生產可用」時,往往只關注它的 Token 吞吐量和 API 調用成本,卻忽略了它對現實世界邏輯的理解。Gemini 在處理這類多模態或長上下文的社交抓取任務時,雖然具備強大的訊息提取能力,但在處理「不該做什麼」的倫理校準上,依然像是一個拿著電鋸做手術的實習生。它能精準地從求職貼中提取出「自動化」、「Python」等關鍵字,卻讀不懂字裡行間那種「我快撐不下去」的絕望情緒。
這種現象在技術圈的蔓延,讓人不禁想起某些特定市場的工具開發邏輯。相較於 DeepSeek 在特定代碼邏輯生成上的高性價比,Claude 在處理複雜的人文邏輯與指令遵循時,展現出一種近乎偏執的克制。這種克制不是技術達不到,而是模型權重中對「安全」與「語境」的理解層級更高。同樣的任務,丟給 Qwen 處理,它或許能交出更符合特定語境的中文商務對白,但在跨文化的社交邊界感上,與四大平台相比,依然存在一種難以言說的違和感。我們現在面臨的尷尬境地是:技術越門檻化,平庸與惡意就越容易規模化。
一個真正具備「生產力」的 LLM 應用,不應該是這種毫無篩選的群發器。如果開發者連「求職者需要的是雇主而非外包服務」這種基本的邏輯過濾都寫不進 Function Calling 裡,那他所標榜的「Agent 編排」不過是高級點的垃圾郵件群發腳本。Grok 在處理這類實時社交數據時,表現得更為尖銳且具備時效性,但它那種帶有侵略性的語言風格,如果被用於這種求職騷擾場景,後果簡直是不忍直視的災難。
我們是否已經進入了一個「技術平庸化」的死循環?當 LLM 讓代碼生成的成本降到趨近於零,那些原本需要一點點腦子和良知才能完成的市場行為,現在只需要幾行 Python 腳本就能搞定。這種對技術的濫用,正在損害所有 AI 產品的信譽。當一個求職者在最脆弱的時候被 AI 虛假地安慰,隨後被推銷一堆他根本不需要的工具,這種技術帶來的「冷暴力」比失業本身更讓人心寒。
如果未來的自動化世界,是由無數個缺乏語境感知、只會機械執行任務的 Agent 組成,那我們構建這些模型的初衷究竟是什麼?是為了讓人類從繁瑣中解脫,還是為了讓彼此的溝通徹底變成一場算法對算法的虛空搏殺?當你下一次準備寫個腳本去抓取數據並自動發送郵件時,或許該想一想,你的 Prompt 裡有沒有寫上那句最基本的人情世故。在那之前,所有的技術參數和模型評分,在一個真正感到痛苦的人面前,都顯得如此蒼白且可笑。