護欄的幻覺

護欄的幻覺

一個有組織的操作者,試圖用 ChatGPT 協助策劃一場針對外國官員的影響力行動。ChatGPT 拒絕了。某個地方的安全儀表板,也許亮起了一個綠燈。

然後,操作者轉向了 DeepSeek 和 Qwen。行動繼續推進。幾個月後的內部紀錄顯示,行動已按計劃啟動。

那個綠燈,還亮著嗎?


這件事讓我想到一個很基本的問題:護欄的功能到底是什麼?

從技術設計的角度,護欄的目的是攔截有害請求。那一次,它確實攔截了。但如果一個壞行為者在被拒絕後,換一個工具就能繼續,那個攔截的意義究竟是什麼?它讓事情麻煩了五分鐘,也許一個小時。但對一個有數百名全職員工、橫跨三百多個境外社群平台、年度預算以數十萬美元計算的組織來說,這種量級的麻煩接近於零。

護欄的邏輯,建立在一個假設上:使用者沒有替代方案,或者切換替代方案的成本很高。對一般濫用者來說,這個假設或許成立。但面對有本地部署能力、隨時能換工具的國家機器,它從來就不成立。


我覺得 AI 安全的公共討論,長期活在一個錯誤的框架裡。

我們討論模型護欄、紅隊測試、對齊研究,彷彿那是這場對抗的主要戰場。但真正的威脅架構根本不是這樣運作的。真實的行動依靠的是分工細密的人力組織、多年積累的社群帳號基礎、能夠把文章植入主流媒體的人際網絡,以及在必要時隨時切換工具的靈活度。

AI 在這裡的角色,是流水線上的一個零件。翻譯、改寫、批量生成腳本,AI 讓這些事情更便宜、更快,但把這個零件換掉,工廠還是繼續運轉。

把護欄當成防禦線,是把零件當成了整個工廠。


有一組數字,把這個問題說得很清楚。

同一個指令生成的七則推文,其中一則瀏覽次數超過 15 萬,另一則只有 57 次。差距超過 2600 倍,來自完全相同的 AI 輸出。決定因素不是內容品質,是發文帳號的追蹤者數量。

這意味著什麼:就算護欄完全失效,讓所有有害內容都順利生成,如果行為者沒有分發網絡,那些內容也只會在網路某個角落靜靜腐爛。反過來,就算護欄完美運作、把所有有害生成都攔下,有分發基礎設施的行為者依然可以用人工寫、用其他模型生成、用任何方式把渠道填滿。

護欄攔的是生成。威脅活在分發。

這兩件事,從來就不在同一個地方。


我不是說護欄沒有用。對沒有組織支撐的個人濫用者,護欄確實產生摩擦。但把個人使用者的案例推廣成全景,然後得出「AI 安全進展良好」的結論,那個結論的基礎是有問題的。

對有完整組織支撐、備有替代工具的行為者,護欄的真實功能更接近於一個輕微的麻煩。成本稍微提高了一點點,遠遠不足以改變他們是否繼續的決定。

那次拒絕,在紀錄上是一個成功。在實際效果上,什麼都沒有改變。

我覺得這個差距,值得更誠實地被說出來。AI 公司在公布安全成果時,也許需要一個新的指標:追蹤「被攔截之後,行為者去了哪裡、做了什麼」,而不只是計算攔截次數。

Read more

有些生意,我寧願不做

有些生意,我寧願不做

有一種談判,不管最後結果如何,你都知道自己必須走進去。 Anthropic 大概就是帶著這種心情,坐上了與美國國防部的談判桌。雙方商談的是 Claude 的政府使用授權,讓這家公司最核心的 AI 系統進入美國軍事體系。這類合約,金額龐大,關係長遠,在 AI 產業的商業邏輯裡幾乎是必爭之地。 然後 Anthropic 說了不。 兩條線,不是一時衝動 說不的理由,非常具體。Anthropic 要求在合約中排除兩種用途:用 Claude 對美國公民進行大規模監控,以及讓 Claude 在無人類參與的情況下驅動全自主致命武器。 我第一次看到這兩條例外,覺得它們說的是非常不同的事。一個是公民自由的問題,一個是軍事技術的問題。但細想,它們共享同一個底層結構:把本來需要人去做判斷、去承擔責任的事,交給機器去執行。 大規模監控真正危險的地方,是它把「誰被監控、為什麼」這個問題,從個別判斷化成了系統性的自動流程。人的參與被抹去,但後果依然落在人身上。

By Edwin Wong
偷學的指控,從來不是關於偷學

偷學的指控,從來不是關於偷學

我一直對科技公司的道德聲明有一種職業性的警惕。那些聲明未必是謊言。只是道德語言在商業利益與競爭壓力的包圍下,往往會發生某種扭曲。當一家公司以義憤填膺的語氣指控競爭者「偷學」,我的第一個反應,通常是先想知道這家公司自己的手有多乾淨。 什麼叫做「偷學」 AI 訓練的基本邏輯很簡單:你用大量資料灌進模型,模型從中學會模式,然後輸出能力。這個過程裡,「資料」這個詞承載了所有的模糊性。版權作品算不算「資料」?創作者的原創文章、記者的深度報導、作家幾十年的作品,在訓練集裡只是一組 token,還是一種應該被授權使用的資產?這個問題,AI 業界至今沒有給出讓人滿意的答案。主要是因為,如果認真回答,代價太高。「蒸餾」的邏輯與此平行。你用更強大模型的輸出灌進弱模型,弱模型從中學會更強大模型的推理方式,跳過了從零開始訓練的巨大成本。在技術層面,這與用版權書籍訓練語言模型的邏輯,結構上幾乎是同一件事。差別在於:誰做的,對象是誰。 道德高地是一個會移動的位置 我想到那個總在法庭劇裡出現的橋段:律師在台上義正嚴辭地指控對方,而辯護律師緩緩翻開一份舊文件,讓指控者自己過去的話語成為迴力鏢。這次的情節大

By Edwin Wong
不牽手的合照:德里 AI 峰會把競爭寫在鏡頭裡

不牽手的合照:德里 AI 峰會把競爭寫在鏡頭裡

新德里的舞台向來擅長把宏大理想濃縮成一張照片。2 月 19 日,印度總理納倫德拉・莫迪在「India AI Impact Summit 2026」最忙碌的一天,安排了十四位政商領袖一字排開,手牽手高舉,像是把「合作」兩字直接掛在畫面上。鏡頭也確實捕捉到多數人配合:從站位居中的莫迪,到一旁的企業領袖,合照像一條被拉直的政治宣言。唯獨 OpenAI 執行長山姆・奧特曼與 Anthropic 執行長達里奧・阿莫迪,站在彼此旁邊卻沒有接起那一段手。兩人抬起手臂,卻在最該「連上」的瞬間,讓空氣留在兩掌之間。在社群時代,這種空隙比握手更有解讀空間。它很快被剪成短片、截成定格,成為峰會外溢的「第二議程」。合照原本要替印度的 AI 野心背書,卻意外讓全球 AI 產業的緊張關係獲得一個直觀符號:競爭從白皮書走出來,變成肢體語言。 兩家公司的裂縫:

By Edwin Wong
演算法的終章:與 Dario Amodei 探討指數增長的盡頭

演算法的終章:與 Dario Amodei 探討指數增長的盡頭

在矽谷喧囂的流量泡沫外,Anthropic 執行長 Dario Amodei 正冷靜地注視著那條改變人類文明軌跡的指數曲線。在他看來,公眾尚未意識到我們正處於這段指數增長的尾聲。這並非預示著進步的停滯,而是一場更深層次、更具破壞性的轉型即將到來:我們正從「智慧的積累」轉向「能力的實踐」。 大算力團塊:被驗證的預言與技術轉型 三年前,當 Amodei 談論擴展定律(Scaling Laws)時,這仍像是一場大膽的科學假設。如今,這已成為業界的共識。Amodei 回顧了他在 2017 年提出的「大算力團塊」(The Big Blob of Compute)假設,認為模型的能力主要取決於算力總量、數據質量、目標函數以及數值穩定性,而非精巧的算法結構。從預訓練到強化學習的轉向過去三年的核心更新在於,預訓練(Pre-training)的指數增長雖然持續,但強化學習(RL)的擴展定律已然成型。Amodei

By Edwin Wong