宁德生活圈

网站首页 科技 > 正文

研究人员发现基于文本的人工智能模型容易受到解释攻击

2021-09-19 00:11:12 科技 来源:
导读 随着自然语言处理(NLP)的发展,公司和组织越来越多地使用人工智能算法来执行与文本相关的任务,例如过滤垃圾邮件、分析社交媒体帖子和在线

随着自然语言处理(NLP)的发展,公司和组织越来越多地使用人工智能算法来执行与文本相关的任务,例如过滤垃圾邮件、分析社交媒体帖子和在线评论的情绪、评估简历和检测假新闻。

但是我们能信任这些算法可靠地执行任务吗?IBM、亚马逊和德克萨斯大学的新研究证明,借助正确的工具,恶意行为者可以攻击文本分类算法,并以潜在的恶意方式操纵其行为。

今天在斯坦福大学举行的SysML AI会议上提出的研究重点是“解释”攻击,它涉及修改输入文本,通过AI算法对其进行不同的分类,而不改变其实际含义。

要了解释义攻击是如何工作的,可以考虑使用AI算法来评估电子邮件的文本,并将其分类为“垃圾邮件”或“非垃圾邮件”。复述攻击会修改垃圾邮件的内容,这样AI就可以对其进行分类,因为它“不是垃圾邮件”。同时,对于人类读者来说,被篡改的信息与原始信息具有相同的含义。

对抗攻击对文本模型的挑战。

在过去的几年里,一些研究小组探索了对抗性攻击的各个方面。输入修改旨在使人工智能算法对图像和音频样本进行错误分类,同时为眼睛和耳朵保留它们的原始外观和声音。解释攻击相当于这些文本。攻击文本模型比篡改计算机视觉和音频识别算法要困难得多。

人工智能研究员、语言模型专家斯蒂芬梅里蒂(Stephen Merity)说:“音频和图像完全不同。例如,在图像分类算法中,您可以逐渐改变像素的颜色,并观察这些变化如何影响模型的输出。这可以帮助研究人员找到模型中的漏洞。

“文字传统上很难攻击。这是离散的。你不能说我要给这句话多加10%的‘狗’。要么你有“狗”这个词,要么把它拿出来。而且你不能有效地在模型中搜索漏洞,”Merity说。“我的想法是,你能智能地找出机器易受攻击的地方,并把它推到那个特定的地方吗?”

“对于图像和音频,做对抗性干扰是有意义的。至于文本,即使你对摘录做了一些小的改动——例如,一两句话——它也可能不会被人类成功阅读,”IBM研究员、今天发表的研究论文的合著者平-陈愉说。

创造一个解释的例子。

过去,对抗文本模型的工作包括改变句子中的单个单词。虽然这种方法成功地改变了人工智能算法的输出,但它经常导致修改后的句子听起来很人工。陈和他的同事不仅关心换词,还关心改写句子和以有意义的方式改变较长的序列。

“我们在解释单词和句子。这通过创建与目标句子语义相似的序列,为攻击提供了更多的空间。然后让我们看看模型是否将它们归类为原句,”陈说。

研究人员开发了一种算法,可以找到句子中的最佳变化,从而操纵自然语言处理模型的行为。“主要限制是确保文本的修改版本在语义上与原始版本相似。我们开发了一种算法,可以在非常大的空间中搜索单词和句子,这些修改将对AI模型的输出产生最大的影响。在这个空间里找到最好的对抗性例子是非常耗时的。该算法具有计算效率,并提供了理论保证,这是你能找到的最好的搜索,”IBM研究所的科学家和该论文的另一位合著者吴说。

在他们的论文中,研究人员提供了修改的例子来改变情绪分析算法、假新闻检测器和垃圾邮件过滤器的行为。比如在产品评论中,通过简单地交换“定价比那里的一些大牌团体便宜”、“价格比下面的一些大牌团体便宜”等句子,评论的情绪就从100%正面变成了100%负面。

人类看不到解读攻击。

攻击成功的关键在于它们是人类无法察觉的,因为它们保留了原文的上下文和含义。

“我们把原始段落和修订段落交给了人类评估员,他们很难看出意义上的差异。但对于机器来说,就完全不同了,”吴硕。

梅里蒂指出,释义攻击不需要与人类完全一致,尤其是当他们不希望机器人篡改文本时。“人类并没有试图检测这种攻击的正确水平,因为他们每天都在处理错误的输入。除了我们,错误的输入只是来自真实人物的不连贯的句子,”他说。“当人们现在看到拼写错误时,他们并不认为这是一个安全问题。但在不久的将来,这可能是我们必须处理的事情。”

梅里蒂还指出,解读和对抗性攻击将引发安全风险新趋势。“很多科技公司依靠自动化决策对内容进行分类,这实际上并不涉及人与人之间的互动。这使得这个过程很容易受到这种攻击,”梅里蒂说。“它会和数据泄露同时发生,只是我们会发现逻辑漏洞。”

例如,一个人可能。

能会欺骗仇恨言语分类器来批准他们的内容,或利用简历处理模型中的释义漏洞将他们的工作申请推送到列表的顶部。

“这些类型的问题将成为一个新的安全时代,我担心公司将花费与安全性一样少,因为他们专注于自动化和可扩展性,”Merity警告说。

充分利用技术

研究人员还发现,通过逆转释义攻击,他们可以构建更健壮,更准确的模型。

在生成模型错误分类的释义句子之后,开发人员可以使用修改后的句子及其正确的标签来重新训练他们的模型。这将使模型更能抵御释义攻击。它还将使它们更准确并概括其功能。

“这是我们在这个项目中的惊人发现之一。最初,我们从稳健的角度开始。但我们发现这种方法不仅可以提高稳健性,还可以提高普遍性,“吴说。“如果不是攻击,你只考虑增强模型的最佳方法,释义是一种非常好的泛化工具,可以提高模型的能力。”

研究人员在对抗训练之前和之后测试了不同的单词和句子模型,并且在所有情况下,他们都经历了性能和抗攻击的稳健性方面的改进。

郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如作者信息标记有误,请第一时间联系我们修改或删除,多谢。

免责声明: 本文由用户上传,如有侵权请联系删除!


标签: