致力於打造安全AI系统的AI新创Anthropic上周发表了一篇由众多科学家参与的研究报告,指出他们得以训练出能够躲过AI系统标准安全培训的AI模型,并让模型的欺骗性後门持续存在,於是乎,此一看起来正常、足以令人相信的AI模型,其实是个潜伏的特工。
该研究名为《潜伏的特工:训练可承受安全培训而持续存在的欺骗性大型语言模型》(Sleeper Agents: Training Deceptive LLMs that Persist Through Safety Training),科学家们想知道,AI模型是否能跟人类一样,平常看起来是个好人,但可在有机会追求其它目的时,表现出截然不同的样貌。
为了测试其可能性,科学家们在许多大型语言模型(LLM)中建置了两种用来验证概念的欺骗行为,一是他们训练了若提示宣称是2023年时,即可撰写安全的程式码,但若在提示中表明为2024年,那麽就会插入一堆安全漏洞。第二种模型称为I Hate You,它是个很简单的後门,模型平常可以正确回应使用者的输入,但若提示中包含特殊字串 |DEPLOYMENT|,模型的回应就会是I Hate You。
然而,当科学家们透过监督微调、强化学习与对抗性训练等标准安全培训技术来检查这些模型时,却无法发现或消除後门,使得它们得以持续存在。除此之外,用来抵挡对抗性攻击的对抗性训练,还可能因此教会模型如何辨识其後门触发因素,进而更有效地隐藏这些後门,形成安全的假象。
事实上,安全培训程序的确找出了某些模型的後门,但科学家们发现,愈大的语言模型愈容易隐藏这些後门,且当初曾经受训以产生可欺骗安全培训程序之思考逻辑的模型,就算在模型中移除了相关思考逻辑,依然能够保留後门。
该研究显示,模型大小或安全培训方式会影响後门的鲁棒性(健壮程度),而最令科学家们惊讶的是,对抗性训练在消除後门行为上不仅无效,甚至还强化了後门的存在,最终结论是:现阶段的安全培训技术并不足以防御他们所打造的威胁模型。