thoughts

護欄的幻覺

Edwin Wong

26 Feb 2026 — 4 min read

一個有組織的操作者，試圖用 ChatGPT 協助策劃一場針對外國官員的影響力行動。ChatGPT 拒絕了。某個地方的安全儀表板，也許亮起了一個綠燈。

然後，操作者轉向了 DeepSeek 和 Qwen。行動繼續推進。幾個月後的內部紀錄顯示，行動已按計劃啟動。

那個綠燈，還亮著嗎？

這件事讓我想到一個很基本的問題：護欄的功能到底是什麼？

從技術設計的角度，護欄的目的是攔截有害請求。那一次，它確實攔截了。但如果一個壞行為者在被拒絕後，換一個工具就能繼續，那個攔截的意義究竟是什麼？它讓事情麻煩了五分鐘，也許一個小時。但對一個有數百名全職員工、橫跨三百多個境外社群平台、年度預算以數十萬美元計算的組織來說，這種量級的麻煩接近於零。

護欄的邏輯，建立在一個假設上：使用者沒有替代方案，或者切換替代方案的成本很高。對一般濫用者來說，這個假設或許成立。但面對有本地部署能力、隨時能換工具的國家機器，它從來就不成立。

我覺得 AI 安全的公共討論，長期活在一個錯誤的框架裡。

我們討論模型護欄、紅隊測試、對齊研究，彷彿那是這場對抗的主要戰場。但真正的威脅架構根本不是這樣運作的。真實的行動依靠的是分工細密的人力組織、多年積累的社群帳號基礎、能夠把文章植入主流媒體的人際網絡，以及在必要時隨時切換工具的靈活度。

AI 在這裡的角色，是流水線上的一個零件。翻譯、改寫、批量生成腳本，AI 讓這些事情更便宜、更快，但把這個零件換掉，工廠還是繼續運轉。

把護欄當成防禦線，是把零件當成了整個工廠。

有一組數字，把這個問題說得很清楚。

同一個指令生成的七則推文，其中一則瀏覽次數超過 15 萬，另一則只有 57 次。差距超過 2600 倍，來自完全相同的 AI 輸出。決定因素不是內容品質，是發文帳號的追蹤者數量。

這意味著什麼：就算護欄完全失效，讓所有有害內容都順利生成，如果行為者沒有分發網絡，那些內容也只會在網路某個角落靜靜腐爛。反過來，就算護欄完美運作、把所有有害生成都攔下，有分發基礎設施的行為者依然可以用人工寫、用其他模型生成、用任何方式把渠道填滿。

護欄攔的是生成。威脅活在分發。

這兩件事，從來就不在同一個地方。

我不是說護欄沒有用。對沒有組織支撐的個人濫用者，護欄確實產生摩擦。但把個人使用者的案例推廣成全景，然後得出「AI 安全進展良好」的結論，那個結論的基礎是有問題的。

對有完整組織支撐、備有替代工具的行為者，護欄的真實功能更接近於一個輕微的麻煩。成本稍微提高了一點點，遠遠不足以改變他們是否繼續的決定。

那次拒絕，在紀錄上是一個成功。在實際效果上，什麼都沒有改變。

我覺得這個差距，值得更誠實地被說出來。AI 公司在公布安全成果時，也許需要一個新的指標：追蹤「被攔截之後，行為者去了哪裡、做了什麼」，而不只是計算攔截次數。

有些生意，我寧願不做

有一種談判，不管最後結果如何，你都知道自己必須走進去。 Anthropic 大概就是帶著這種心情，坐上了與美國國防部的談判桌。雙方商談的是 Claude 的政府使用授權，讓這家公司最核心的 AI 系統進入美國軍事體系。這類合約，金額龐大，關係長遠，在 AI 產業的商業邏輯裡幾乎是必爭之地。然後 Anthropic 說了不。兩條線，不是一時衝動說不的理由，非常具體。Anthropic 要求在合約中排除兩種用途：用 Claude 對美國公民進行大規模監控，以及讓 Claude 在無人類參與的情況下驅動全自主致命武器。我第一次看到這兩條例外，覺得它們說的是非常不同的事。一個是公民自由的問題，一個是軍事技術的問題。但細想，它們共享同一個底層結構：把本來需要人去做判斷、去承擔責任的事，交給機器去執行。大規模監控真正危險的地方，是它把「誰被監控、為什麼」這個問題，從個別判斷化成了系統性的自動流程。人的參與被抹去，但後果依然落在人身上。

偷學的指控，從來不是關於偷學

我一直對科技公司的道德聲明有一種職業性的警惕。那些聲明未必是謊言。只是道德語言在商業利益與競爭壓力的包圍下，往往會發生某種扭曲。當一家公司以義憤填膺的語氣指控競爭者「偷學」，我的第一個反應，通常是先想知道這家公司自己的手有多乾淨。什麼叫做「偷學」 AI 訓練的基本邏輯很簡單：你用大量資料灌進模型，模型從中學會模式，然後輸出能力。這個過程裡，「資料」這個詞承載了所有的模糊性。版權作品算不算「資料」？創作者的原創文章、記者的深度報導、作家幾十年的作品，在訓練集裡只是一組 token，還是一種應該被授權使用的資產？這個問題，AI 業界至今沒有給出讓人滿意的答案。主要是因為，如果認真回答，代價太高。「蒸餾」的邏輯與此平行。你用更強大模型的輸出灌進弱模型，弱模型從中學會更強大模型的推理方式，跳過了從零開始訓練的巨大成本。在技術層面，這與用版權書籍訓練語言模型的邏輯，結構上幾乎是同一件事。差別在於：誰做的，對象是誰。道德高地是一個會移動的位置我想到那個總在法庭劇裡出現的橋段：律師在台上義正嚴辭地指控對方，而辯護律師緩緩翻開一份舊文件，讓指控者自己過去的話語成為迴力鏢。這次的情節大

不牽手的合照：德里 AI 峰會把競爭寫在鏡頭裡

新德里的舞台向來擅長把宏大理想濃縮成一張照片。2 月 19 日，印度總理納倫德拉・莫迪在「India AI Impact Summit 2026」最忙碌的一天，安排了十四位政商領袖一字排開，手牽手高舉，像是把「合作」兩字直接掛在畫面上。鏡頭也確實捕捉到多數人配合：從站位居中的莫迪，到一旁的企業領袖，合照像一條被拉直的政治宣言。唯獨 OpenAI 執行長山姆・奧特曼與 Anthropic 執行長達里奧・阿莫迪，站在彼此旁邊卻沒有接起那一段手。兩人抬起手臂，卻在最該「連上」的瞬間，讓空氣留在兩掌之間。在社群時代，這種空隙比握手更有解讀空間。它很快被剪成短片、截成定格，成為峰會外溢的「第二議程」。合照原本要替印度的 AI 野心背書，卻意外讓全球 AI 產業的緊張關係獲得一個直觀符號：競爭從白皮書走出來，變成肢體語言。兩家公司的裂縫：

演算法的終章：與 Dario Amodei 探討指數增長的盡頭

在矽谷喧囂的流量泡沫外，Anthropic 執行長 Dario Amodei 正冷靜地注視著那條改變人類文明軌跡的指數曲線。在他看來，公眾尚未意識到我們正處於這段指數增長的尾聲。這並非預示著進步的停滯，而是一場更深層次、更具破壞性的轉型即將到來：我們正從「智慧的積累」轉向「能力的實踐」。大算力團塊：被驗證的預言與技術轉型三年前，當 Amodei 談論擴展定律（Scaling Laws）時，這仍像是一場大膽的科學假設。如今，這已成為業界的共識。Amodei 回顧了他在 2017 年提出的「大算力團塊」（The Big Blob of Compute）假設，認為模型的能力主要取決於算力總量、數據質量、目標函數以及數值穩定性，而非精巧的算法結構。從預訓練到強化學習的轉向過去三年的核心更新在於，預訓練（Pre-training）的指數增長雖然持續，但強化學習（RL）的擴展定律已然成型。Amodei

Read more

有些生意，我寧願不做

偷學的指控，從來不是關於偷學

不牽手的合照：德里 AI 峰會把競爭寫在鏡頭裡

演算法的終章：與 Dario Amodei 探討指數增長的盡頭