文 | 舒書
OpenAI、Anthropic、谷歌,三家在 AI 賽道上激烈競爭的對手,罕見地站在了同一戰(zhàn)線上。
它們正通過前沿模型論壇共享信息,聯(lián)手打擊所謂的 " 對抗性蒸餾 "。Anthropic 發(fā)布報告稱,有跡象表明部分流量來自與深度求索(DeepSeek ) 、稀宇科技(MiniMax)和月之暗面(Kimi)相關(guān)的賬戶,并指控其進行了總計超 1600 萬次的對抗性交互。被指控方回應(yīng),在服務(wù)器上部署開源模型自動調(diào)用是行業(yè)普遍行為,僅憑 API 調(diào)用模式就斷言 " 蓄意蒸餾 ",證據(jù)鏈并不完整。
這起事件涉及技術(shù)、法律、商業(yè)、安全、地緣政治的多重博弈。核心判斷:護城河焦慮是本質(zhì),安全防衛(wèi)是合理化外衣。
一、厘清概念:1600 萬次交互不等于蒸餾
討論這件事,首先需要區(qū)分幾個關(guān)鍵概念:
對抗性交互:通過高頻、自動化的 API 調(diào)用,誘導(dǎo)模型輸出特定內(nèi)容(包括繞過安全護欄、提取模型能力或大規(guī)模采集輸出數(shù)據(jù))。
對抗性蒸餾:用對抗性交互產(chǎn)生的數(shù)據(jù)訓(xùn)練自己的模型。
Anthropic 指控的核心是對抗性交互,但將 1600 萬次交互等同于 " 蓄意蒸餾 ",存在邏輯跳躍——交互是行為,蒸餾是目的。即便存在大量對抗性交互,也不能直接證明這些數(shù)據(jù)被用于訓(xùn)練其他模型。被指控方完全可能是在做安全研究、模型能力邊界測試。
API 服務(wù)條款的復(fù)雜性:不同廠商、不同時期的 API 條款差異較大。有的明確禁止將輸出內(nèi)容用于模型訓(xùn)練,有的僅限制商業(yè)濫用,學(xué)術(shù)研究、個人測試是否違規(guī)存在灰色地帶。
二、大廠的焦慮:安全護欄與商業(yè)護城河
大廠對外宣稱的打擊理由,核心是安全。
Anthropic 強調(diào),對抗性交互會剝離模型的安全護欄——比如防止生成生物武器配方、規(guī)避仇恨言論限制。這些繞過護欄的數(shù)據(jù)如果被用于訓(xùn)練其他模型,相當于把沒有剎車的車開上了路。
從數(shù)據(jù)看,大廠在安全對齊上的投入是真實的。據(jù) Anthropic 公開信息,其憲法 AI 安全訓(xùn)練耗資數(shù)千萬美元,OpenAI 的 RLHF 團隊規(guī)模超過百人。如果這些安全機制可以被低成本繞過,確實存在風險。
但問題的另一面是商業(yè)護城河。
美國官員預(yù)計,未經(jīng)授權(quán)的蒸餾行為每年給硅谷實驗室造成數(shù)十億美元利潤損失。大廠真正擔心的,不僅是安全護欄被剝離,更是技術(shù)領(lǐng)先的敘事被打破。當競爭對手可以用 1% 的成本復(fù)制 80% 的能力,大廠的定價權(quán)、市場份額、估值邏輯都將受到?jīng)_擊。
因此,將這場行動完全定義為安全防衛(wèi),忽略其商業(yè)護城河焦慮,是不完整的。更準確的判斷是:安全是切入點,護城河是落腳點。
三、被指控方的辯護:行業(yè)慣例與證據(jù)鏈
被指控方提出了合理的辯護邏輯。
第一,API 調(diào)用的行業(yè)普遍性。在服務(wù)器上部署開源模型自動調(diào)用 API、生成數(shù)據(jù),是行業(yè)通行做法。個人開發(fā)者做測試、學(xué)術(shù)機構(gòu)做研究、企業(yè)做能力評估——都會產(chǎn)生大量 API 調(diào)用。僅憑調(diào)用模式就斷言 " 蓄意蒸餾 ",需要更直接的證據(jù)(如資金鏈、IP 地址指向、模型權(quán)重相似度分析)。
第二,開源調(diào)用的技術(shù)合理性。開源模型的自動調(diào)用與商業(yè)公司的蓄意蒸餾存在本質(zhì)區(qū)別。前者是開放的、可追溯的、符合學(xué)術(shù)倫理的;后者是封閉的、商業(yè)化的、可能違反條款的。Anthropic 的指控將兩者混為一談,有擴大化打擊之嫌。
第三,被指控方的學(xué)術(shù)背書。深度求索的 R1 論文通過《Nature》同行評審,歷經(jīng) 7 個月審核、8 位外部專家評審,審稿文件達 64 頁。論文明確表示訓(xùn)練數(shù)據(jù)僅來自普通網(wǎng)頁和電子書,不包含任何合成數(shù)據(jù)。如果其模型嚴重依賴蒸餾,很難通過如此嚴格的學(xué)術(shù)審查。
四、蒸餾的技術(shù)局限:威脅被高估了
從技術(shù)角度看,蒸餾的威脅被一定程度高估了。
蒸餾類型的難度差異:
蒸餾類型 | 目標 | 難度 | 可復(fù)制性 |
知識蒸餾 | 學(xué)習(xí)輸出分布 | 較低 | 較高,只能學(xué)到表層知識 |
指令蒸餾 | 學(xué)習(xí)指令跟隨 | 中等 | 有限,復(fù)雜指令理解困難 |
對齊蒸餾 | 學(xué)習(xí)安全護欄 | 極高 | 極低,幾乎無法復(fù)制 |
如果說知識蒸餾是抄作業(yè)——學(xué)生模型學(xué)習(xí)老師模型的答案分布;那么對齊蒸餾就是試圖抄學(xué)霸的三觀——學(xué)習(xí)老師模型的安全護欄、價值判斷、拒絕有害請求的能力。Anthropic 的研究發(fā)現(xiàn),即便訓(xùn)練數(shù)據(jù)表面干凈,學(xué)生模型也會繼承教師模型的隱藏偏差。更重要的是,對齊能力幾乎無法被蒸餾——安全護欄、價值對齊、拒絕有害請求的能力,是經(jīng)過復(fù)雜的 RLHF、憲法 AI 等訓(xùn)練獲得的,單純靠 API 調(diào)用很難復(fù)制。
大廠的反制手段:
動態(tài)輸出干擾:每次返回結(jié)果略有差異,增加蒸餾難度
差異化返回:不同用戶看到不同內(nèi)容,防止批量采集
異常調(diào)用檢測:高頻調(diào)用、異常模式自動觸發(fā)限流或封禁
這些技術(shù)手段可以有效識別和阻斷惡意蒸餾行為。因此,更準確的判斷是:蒸餾對模型表層能力的威脅是真實存在的,但對安全對齊和持續(xù)進化能力的威脅有限。
五、監(jiān)管窗口期:時間線的巧合
2026 年是美國 AI 監(jiān)管的關(guān)鍵節(jié)點。科羅拉多州 AI 法案將于 6 月 30 日全面生效,加州《前沿 AI 模型透明度法案》已于 1 月 1 日實施,NIST 的 AI 風險管理框架正在成為聯(lián)邦 contractors 的準入標配。在監(jiān)管強壓的窗口期,企業(yè)需要在安全立場上有明確表態(tài)。
據(jù)行業(yè)分析,Anthropic 選擇此時高調(diào)指控,與和美國國防部在模型使用條款上的談判時間點重合。當時近 2 億美元的訂單懸而未決。將蒸餾定義為攻擊,把商業(yè)糾紛抬進國家安全敘事,可以爭取政策支持。
前沿模型論壇的性質(zhì)也需要關(guān)注。該論壇由 OpenAI、Anthropic、谷歌、微軟于 2023 年共同成立,名義上是行業(yè)自律組織,實則形成了一個事實上的閉源聯(lián)盟。三巨頭聯(lián)手打擊蒸餾,正是這個聯(lián)盟發(fā)揮作用的具體體現(xiàn)——用行業(yè)組織的形式,替代單一公司的法律訴訟,降低單邊行動的風險。
六、中美 AI 模式的結(jié)構(gòu)性差異
這場爭議的背后,是中美 AI 發(fā)展模式的根本性差異。
維度 | 美國模式 | 中國模式 |
技術(shù)路線 | 閉源為主,API 盈利 | 開源為主,生態(tài)閉環(huán) |
核心邏輯 | 模型是核心資產(chǎn),嚴加看管 | 模型是基礎(chǔ)設(shè)施,開源普惠 |
商業(yè)模式 | API 調(diào)用收費,按 Token 計費 | 場景落地收費,按解決方案定價 |
安全治理 | 政府背書 + 企業(yè)自控 | 開源社區(qū)審查 + 政府監(jiān)管 |
合規(guī)成本 | 年度合規(guī)支出約為中國同行的 2-3 倍 | 相對較低 |
數(shù)據(jù)來源 | 互聯(lián)網(wǎng)抓取 + 版權(quán)爭議 | 合規(guī)數(shù)據(jù) + 場景數(shù)據(jù) |
注 1:數(shù)據(jù)來源為斯坦福 HAI 2025 年報告。
注 2:可復(fù)制性越高,對大廠商業(yè)護城河的威脅越大。上表中,美國模式的可復(fù)制性(蒸餾成本低)顯著高于中國模式(需要場景適配)。
美國模式的優(yōu)勢在于:技術(shù)領(lǐng)先、利潤率高、資本回報清晰。挑戰(zhàn)在于:合規(guī)成本高、數(shù)據(jù)爭議多、技術(shù)擴散受限。
中國模式的優(yōu)勢在于:技術(shù)普惠、生態(tài)擴張快、場景落地深。挑戰(zhàn)在于:商業(yè)變現(xiàn)路徑曲折、安全治理更復(fù)雜、國際認可度有待提升。
兩種模式?jīng)]有絕對的對錯,但存在根本性的利益沖突。Anthropic 的蒸餾指控,本質(zhì)上是閉源陣營對開源崛起的防御反應(yīng)。當開源模型以更低的成本、更快的速度追趕上來,閉源巨頭技術(shù)領(lǐng)先的敘事就面臨挑戰(zhàn)。
七、開源的安全治理:被回避的問題
在分析大廠雙重標準的同時,也需要正視開源模型的安全挑戰(zhàn)。
據(jù)斯坦福大學(xué)基礎(chǔ)模型研究中心 2025 年數(shù)據(jù),開源模型在惡意用途(虛假信息生成、深度偽造、越獄攻擊)中的使用比例是閉源 API 的 3-5 倍。當模型權(quán)重被公開下載,沒有任何機構(gòu)能阻止其被濫用。2025 年,某開源模型因無內(nèi)置安全護欄,被犯罪團伙用于批量生成詐騙視頻,涉案金額超 2 億元——這是開源安全治理缺失的典型案例。Anthropic 擔心的安全護欄被剝離,在開源模型上確實是真實風險。
這不是開源不好,而是開源需要治理。目前行業(yè)對此的討論還遠遠不夠。大廠用安全作為競爭壁壘,固然值得商榷;但開源社區(qū)對安全問題的回避,同樣需要反思。
真正的出路,不是 " 封閉 vs 開放 " 的二元對立,而是混合生態(tài)。
八、結(jié)論:護城河焦慮是核心,安全是外衣
大廠真正擔心的是:技術(shù)領(lǐng)先的敘事被打破,商業(yè)模式受到?jīng)_擊。當開源模型以更低的成本、更快的速度追趕上來,閉源巨頭的定價權(quán)和市場份額都將承壓。安全敘事是一個更有力的大棒,可以用來爭取政策支持、筑起競爭壁壘。
但這并不意味著安全議題不重要。開源模型的安全治理,是行業(yè)必須面對的長期挑戰(zhàn)。大廠的雙重標準需要客觀看待,但開源社區(qū)的安全回避同樣需要反思。
未來展望:混合生態(tài)是主流
" 權(quán)重開源 + 商業(yè)閉源 " 將成為未來主流路徑:大廠開源基礎(chǔ)模型(如 Meta 的 Llama、阿里的 Qwen),讓全球開發(fā)者參與生態(tài)建設(shè);但核心能力層(安全對齊、企業(yè)級服務(wù)、垂直場景優(yōu)化)保持閉源,構(gòu)建商業(yè)壁壘。智譜的 " 開源開放 + 商業(yè)閉環(huán) " 策略已經(jīng)驗證了這一路徑——通過開源降低獲客成本,通過商業(yè)版實現(xiàn)盈利。
未來的 AI 生態(tài),大概率是:基礎(chǔ)模型層百花齊放(開源),安全與對齊層形成行業(yè)標準(多方參與),應(yīng)用層充分競爭。這不是誰消滅誰,而是誰能在 " 安全、開放、創(chuàng)新 " 之間找到最佳平衡點。