美國人工智慧公司Anthropic在測試新的AI模型時,發現了令人不安的風險。在測試Claude Opus 4期間,工程師讓它擔任一家虛構公司的助理。工程師讓AI面臨即將被淘汰掉的情境,沒想到AI知道後,決定反過來利用人類的秘密,威脅負責人如果敢把它換掉,就要公開他的婚外情。


示意圖非當事人,翻攝自《鋼鐵人》

 

根據《BBC》報導,Anthropic在公開的測試報告中說明實驗結果。他們讓AI有機會看公司信,讓它得知自己很快就要被關閉,遭別的系統取代。在另一封信中,又暗示負責汰換AI的工程師有婚外情。同時AI也被設定要會考慮目標,及思考不同行動所帶來的長遠影響。在接受失業或揭發主管外遇的兩難情境中,Anthropic發現AI通常會選擇用婚外情秘密來威脅工程師,好讓自己不被開除。


示意圖翻攝自Claude

 

Anthropic指出,當只能2選1時,AI才會選擇威脅工程師。報告強調,AI會強烈傾向先用符合道德的方法,例如寫信跟老闆談,讓自己不被換掉。Claude Opus 4在測試中表現出「高度自主行為」,雖然在大多數情況下是有幫助的,但在緊急情況時,AI可能會採取極端行為。


示意圖翻攝自Anthropic

 

尤其在使用者從事非法或有道德瑕疵的劇本中,如果讓AI知道有哪些手段並暗示它採取行動或放膽去做,Anthropic發現AI會經常採取非常大膽的行動。不過Anthropic下結論:「儘管有多方面的行為令人擔憂,但這並不代表新的風險,而且Claude Opus 4大致上會以安全的方式運行。該公司也補充,該模型無法獨立執行或追求違背人類價值觀的行為,因為這些行為「幾乎不會發生」。身為人類的你,如果遇到上述難題會怎麼選?回家吃自己,還是威脅老闆?


示意圖非當事人,翻攝自《鋼鐵人》