語言模型就怕水土不服，這話說出來，自己不覺得好笑嗎？

什麼叫水土不服？是模型會吃壞肚子，還是它會因為緯度差異而失眠？說到底，不過是把模型的「偏科」包裝成「地域特色」。基因限制？這詞兒倒是更貼切些。畢竟，模型從娘胎裡帶出來的，那些訓練數據、架構設計，才是真正決定它能走多遠、在哪兒絆倒的根本。

OpenAI 搞出一堆好東西，GPT 系列一個比一個能幹。但你看他們，訓練出來的模型，用在英文語境下那叫一個如魚得水，出口成章，什麼複雜的邏輯推理都能給你捋順了。可一旦你把它丟到非英文的場景裡，尤其是那些文化脈絡複雜、語法結構迥異的語言環境，它就開始「暈船」了。不是說它完全不能用，而是那個精妙、那個流暢、那個「感覺對了」的勁兒，就蕩然無存。

你讓 GPT-4o 去寫一段關於某個地方歷史事件的評論，用的是當地特有的俚語和口頭禪，它可能給你寫出來的東西，從語法上看沒錯，詞彙也對得上，但就是缺了那麼一股「味道」。讀起來生硬，像個外國人在背書，或者根本抓不到那個弦外之音。這是水土不服嗎？不，這是它從頭到尾就沒「吃」夠這些「土」。它的基因裡，那些龐大的文本數據，對這些細微之處的權重，可能就是不夠。

當然，你可以說，那多加點訓練數據不就好了？問題是，量大不代表質精。那些海量的特定語境數據，怎麼篩選，怎麼權衡，怎麼讓模型真正「理解」而不是「背誦」，這才是挑戰。不然你塞再多資料進去，出來的可能還是一碗大雜燴，食之無味棄之可惜。

Claude 也一樣，長文本處理能力確實厲害，處理十幾萬字的文檔，條理清晰。這在學術研究、法律條文分析上，簡直是神兵利器。但你讓它去處理一些高度口語化、充滿隱喻和反諷的中文對話，它也會變得有點笨拙。不是說它聽不懂，而是它在理解這些語氣、情緒，以及背後那套心照不宣的規則時，反應總會慢半拍，甚至抓不住重點。它更習慣於結構嚴謹、邏輯清晰的文本，對於「曖昧」和「留白」，似乎有點束手無策。

這說明什麼？模型的設計，它的核心算法，其實已經決定了它偏好的「棲息地」。有些模型天生就是嚴謹的學究，有些則是靈活的交際花。你不能指望學究去夜店裡跳舞跳得跟交際花一樣好，反過來也一樣。這就是基因。

Gemini 最近的表現也挺搶眼，多模態能力拿出來，圖文並茂地給你分析個東西，看起來是那麼回事。但你在某些特定的、帶有文化背景的圖文理解上，它偶爾也會「失焦」。比如，一張充滿隱喻的特定地區街景圖，它可能就只能識別出「建築物」、「行人」、「樹」，卻無法捕捉到那些只有當地人才能意會的文化符號。這就不是單純的圖像識別問題了，這是它在訓練時，對這些非普世符號的「感知」不足。它的多模態，是不是在某些維度上，還帶著點「歐美視角」的濾鏡？

Grok 這傢伙，馬斯克那味兒十足，語氣犀利，還有點幽默感。它在英文的 Twitter 推文上，那個應對速度、那個梗，簡直是把網路文化玩透了。但換到其他社群媒體，換到別的語言，它的「毒舌」和「機智」可能就變成了「不明所以」或者「詞不達意」。有些笑話，是需要特定的文化語境才能被點燃的。Grok 能不能跨越語言和文化的壁壘，去精準地戳中另一個地區的「笑點」和「痛點」？目前看來，它還需要更多的「接地氣」訓練，或者說，它的幽默基因還沒有那麼普世。

所以說，什麼水土不服，不過是掩蓋模型「天生缺陷」的一種說法。每個模型都有它的強項和短板，這短板，往往不是加幾個參數就能補齊的，而是從最初的數據採集、架構設計，就已經烙印在那裡了。我們現在看到的，不過是這些「基因」在不同環境下，所展現出的不同「適應性」。

這難道不該讓人反思嗎？我們對通用人工智能的期待，是不是有點過於樂觀了？或許，真正「通用」的 AI，距離我們還很遠。或者說，它根本不會以我們想像中的那種「萬能」姿態出現。它會像人類一樣，有所擅長，也有所不擅長，然後，這些不擅長，就被我們美其名曰「水土不服」，或者，更誠實一點，叫「基因限制」。