偷學的指控,從來不是關於偷學
我一直對科技公司的道德聲明有一種職業性的警惕。那些聲明未必是謊言。只是道德語言在商業利益與競爭壓力的包圍下,往往會發生某種扭曲。當一家公司以義憤填膺的語氣指控競爭者「偷學」,我的第一個反應,通常是先想知道這家公司自己的手有多乾淨。
什麼叫做「偷學」
AI 訓練的基本邏輯很簡單:你用大量資料灌進模型,模型從中學會模式,然後輸出能力。這個過程裡,「資料」這個詞承載了所有的模糊性。版權作品算不算「資料」?創作者的原創文章、記者的深度報導、作家幾十年的作品,在訓練集裡只是一組 token,還是一種應該被授權使用的資產?這個問題,AI 業界至今沒有給出讓人滿意的答案。主要是因為,如果認真回答,代價太高。「蒸餾」的邏輯與此平行。你用更強大模型的輸出灌進弱模型,弱模型從中學會更強大模型的推理方式,跳過了從零開始訓練的巨大成本。在技術層面,這與用版權書籍訓練語言模型的邏輯,結構上幾乎是同一件事。差別在於:誰做的,對象是誰。
道德高地是一個會移動的位置
我想到那個總在法庭劇裡出現的橋段:律師在台上義正嚴辭地指控對方,而辯護律師緩緩翻開一份舊文件,讓指控者自己過去的話語成為迴力鏢。這次的情節大致如此。被起訴的,是那些讓模型學習競爭對手的方式。起訴者,也正在被其他人以相似邏輯起訴。對象換了,從競爭對手改成了無數創作者。訴訟案的原告們聲稱,自己的心血在未經同意的情況下,成為訓練語料的一部分,成就了一個商業產品,而自己一分錢也沒拿到。兩件事在法律上未必等同,法律有它自己複雜的脈絡。但當你用「非法」「侵害」「工業規模剝削」這些詞語指控他人,你同時也在邀請所有人用同一套尺度量你。而在 AI 訓練的倫理場域,這把尺量下去,幾乎沒有人能站穩。
命名的力量
有一個細節讓我停下來想了很久。攻擊者使用的分散式代理架構,被冠以「九頭蛇集群」的名字。九頭蛇,希臘神話裡斬去一個頭就長出兩個頭的怪物。這個命名讓整件事聽起來像史詩對抗,像國家級威脅,像科幻小說裡的反派組織。語言框架決定了事件的道德重量。「九頭蛇集群」讓人想到精密協調的網路武器;「用代理伺服器繞過封鎖的帳號集群」讓人想到技術上更普通的事情。規模確實嚴重,1,600 萬次欺詐交互,違反服務條款的程度顯然異常。但命名選擇本身,值得讀者留意。修辭是有方向性的。它選擇讓你看見什麼、感受什麼。
競爭焦慮與道德聲明的糾纏
更大的脈絡是:這個領域正在高速收斂。幾年前,最頂尖的 AI 能力幾乎清一色集中在少數幾家美國公司。現在,差距正在縮小,速度比多數人預期的快。競爭焦慮是真實的,而且理性。在這種焦慮之下,道德聲明與商業利益的邊界變得異常模糊。「安全」成為了一個能封殺很多討論的詞。當你說某件事威脅國家安全,你同時在邀請政府介入,在升高討論的位階,讓技術與商業的爭議變成政策問題。這是一個非常有效的修辭動作。安全的憂慮本身或許真實。蒸餾出來的模型確實可能移除原版的安全限制,這在技術上有其邏輯。只是真實的技術風險,與戰略性的道德聲明,在同一份文件裡向來可以並存。
沒有乾淨的手
在 AI 訓練的倫理場域,我觀察到一個讓人略感疲倦的現象:幾乎每個主要行為者,都在以自己最有利的框架定義「合法」與「非法」的邊界。版權持有者說:用我的作品訓練模型是剝削。AI 公司說:這是合理使用,是技術進步的必要代價。AI 公司彼此之間說:用我的模型輸出訓練你的模型是竊盜。競爭者說:API 是公開的,使用 API 怎麼算竊盜。每一方的論點都有其內在邏輯。每一方都在保護自身的利益。每一方在指控他人的同時,都承受著相似邏輯從另一個方向射來的壓力。這並非意味著所有指控都是虛假的,或者所有行為在道德上等同。有些事情確實比其他事情更惡劣。只是當你在閱讀一份充滿道德語言的技術聲明時,有必要在它的字裡行間,同時看見那家公司的商業處境、競爭焦慮,以及它在另一個法庭上的被告身份。這樣的閱讀,讓你不至於被義憤的語氣帶著走。道德高地,在這個行業裡,是一個沒有人長期站得住的位置。