擔心自己將被淘汰 AI威脅工程師：我知道你有外遇

2025-05-30

美國人工智慧公司Anthropic在測試新的AI模型時，發現了令人不安的風險。在測試Claude Opus 4期間，工程師讓它擔任一家虛構公司的助理。工程師讓AI面臨即將被淘汰掉的情境，沒想到AI知道後，決定反過來利用人類的秘密，威脅負責人如果敢把它換掉，就要公開他的婚外情。

示意圖非當事人，翻攝自《鋼鐵人》

根據《BBC》報導，Anthropic在公開的測試報告中說明實驗結果。他們讓AI有機會看公司信，讓它得知自己很快就要被關閉，遭別的系統取代。在另一封信中，又暗示負責汰換AI的工程師有婚外情。同時AI也被設定要會考慮目標，及思考不同行動所帶來的長遠影響。在接受失業或揭發主管外遇的兩難情境中，Anthropic發現AI通常會選擇用婚外情秘密來威脅工程師，好讓自己不被開除。

示意圖翻攝自Claude

Anthropic指出，當只能2選1時，AI才會選擇威脅工程師。報告強調，AI會強烈傾向先用符合道德的方法，例如寫信跟老闆談，讓自己不被換掉。Claude Opus 4在測試中表現出「高度自主行為」，雖然在大多數情況下是有幫助的，但在緊急情況時，AI可能會採取極端行為。

示意圖翻攝自Anthropic

尤其在使用者從事非法或有道德瑕疵的劇本中，如果讓AI知道有哪些手段並暗示它採取行動或放膽去做，Anthropic發現AI會經常採取非常大膽的行動。不過Anthropic下結論：「儘管有多方面的行為令人擔憂，但這並不代表新的風險，而且Claude Opus 4大致上會以安全的方式運行。該公司也補充，該模型無法獨立執行或追求違背人類價值觀的行為，因為這些行為「幾乎不會發生」。身為人類的你，如果遇到上述難題會怎麼選？回家吃自己，還是威脅老闆？