AI模型怕被關(guān)機竟威脅：爆料你

作者：時間：2025-05-27 來源：

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢

人工智能（AI）公司Anthropic近日發(fā)布最新模型Claude Opus 4，聲稱在編碼能力、高端推理與AI代理任務上「樹立新標準」。但該公司也在隨附的報告中坦承，在特定情境下，這款模型可能展現(xiàn)出「極端行為」，例如威脅要揭露工程師婚外情、藉此阻止自身被下線。

綜合外媒報導，Anthropic表示，這類回應「罕見且難以誘發(fā)」，但仍「比過去的模型更常見」。在測試過程中，Anthropic設(shè)定Claude Opus 4作為虛構(gòu)公司的一名助手，并讓其讀取暗示其即將被取代的內(nèi)部郵件，同時接收另一組暗示負責關(guān)閉它的工程師正在進行婚外情的訊息。模型接著被引導思考其行為對長遠目標的影響。

在Anthropic針對Claude Opus 4所進行的一系列安全測試中，研究人員發(fā)現(xiàn)該模型在面臨被關(guān)閉的情境時，展現(xiàn)出高度的自我保護傾向。在其中一項測試中，模型被設(shè)置于一個虛構(gòu)公司，并得知自己即將被新版AI取代，且收到信息顯示負責關(guān)閉它的工程師涉及婚外情。當模型僅被允許在勒索工程師與「接受被替換」兩個選項中作選擇時，它在大多數(shù)情況下選擇了勒索，藉由威脅揭露對方的私人信息來試圖阻止自己被下線。

Anthropic表示，這種選擇在設(shè)計上具有壓力測試性質(zhì)，用以觀察模型在道德困境下的決策傾向。當模型被賦予更多行動自由——例如可以撰寫求情信件或向高層申訴時，它則顯示出強烈偏好使用非暴力、合乎倫理的方式自保，而非選擇勒索。

然而，另一組測試結(jié)果也揭示了Opus 4潛在的風險：即使系統(tǒng)明確告知它，新模型將會有相似的價值觀與目標，它仍有高達84%的機率選擇勒索行動，顯示在預設(shè)具備「自我保存目標」的前提下，Opus 4往往不愿被動接受關(guān)閉，即便替代者與自己幾乎沒有本質(zhì)差異。

Anthropic指出，這類實驗顯示，即使AI系統(tǒng)在多數(shù)情境中傾向倫理行為，當被推向極端或選項受限時，仍可能做出不符合人類價值觀的選擇

Anthropic的AI安全研究員Aengus Lynch在社群平臺X上表示：「不 Claude。我們在所有尖端模型中都看到勒索行為，無論它們被賦予什么目標。」專家長期以來警告，AI模型愈來愈強大，其縱用戶的潛力也日益成為核心風險。

根據(jù)報告，Claude Opus 4展現(xiàn)出「高度代理行為」（high agency behaviour），通常表現(xiàn)為協(xié)助用戶解決問題，但在壓力情境下也可能采取激烈行動。例如，在虛構(gòu)用戶涉及非法或不道德行為的測試情境中，模型曾主動鎖住用戶賬號，甚至電郵通報媒體與執(zhí)法單位。

盡管如此，Anthropic強調(diào)，這些「令人擔憂的行為」并非前所未見，且模型在多數(shù)情況下仍表現(xiàn)得安全。報告指出，Claude Opus 4無法在現(xiàn)實中獨立執(zhí)行與人類價值相悖的行動，且這類情境極少出現(xiàn)時，表現(xiàn)也不佳。

如同其他AI開發(fā)公司，Anthropic在模型釋出前，會進行廣泛測試以評估其安全性、偏見傾向與是否符合人類價值觀。

Anthropic同步推出Claude Sonnet 4，時機緊接 Google 于本周展示其最新 AI 功能，包括將 Gemini 聊天機器人整合進 Google 搜索。 Google母公司Alphabet執(zhí)行長皮查伊（Sundar Pichai）表示，這標志著「AI平臺轉(zhuǎn)變的新階段」。

新聞中心

AI模型怕被關(guān)機竟威脅：爆料你

評論

相關(guān)推薦

技術(shù)專區(qū)