前沿 | 为了「理解」什么是对,人工智能还必须「理解」什么是不对

机器之心 2016-04-04

选自popsci

作者:DAVE GERSHGORN

机器之心编译出品

编译:陈刚,吴攀,闰松,微胖


如今,计算机科学可以从汉斯事例学到很多。越来越多的研究表明,目前我们创造的绝大多数人工智能学习了足够知识,可以给出正确回答,但是,却没有真正理解信息。这就意味着人工智能很容易被欺骗。通过抗干扰研究,机器学习算法进一步得以改善。这个研究的代表人物,亦即文中提及的Ian Goodfellow 是前谷歌深度学习骨干研究人员之一,Bengio的得意弟子,已经加入OpenAI。


20世纪90年代初,德国驯马师和数学家Wilhelm von Osten 向世人宣布他的马可以做算术。几年来,Von Osten 遍游全国向人们展示。他会问他的马——聪明的汉斯(Clever Hans)——简单的等式,汉斯踏马蹄作为回应,得出正确答案。2+2=?汉斯踏4次马蹄。


但是,科学家并不相信汉斯如Von Osten 所说的那样聪明。心理学家Carl Stumpf 对此进行深入研究,成立了汉斯委员会(Hans Commission)。他发现,汉斯并不会算术,而是对视觉信号作出反应。汉斯踏到正确数量的时候,通常是Von Osten 和观众欢呼喝彩的时候,这时,汉斯就会停下来。当它看不到这些场景时,就会一直踏下去。


如今,计算机科学可以从汉斯事例学到很多。越来越多的研究表明,目前我们创造的绝大多数人工智能学习了足够知识,可以给出正确回答,但是,却没有真正理解信息。这就意味着人工智能很容易被欺骗。


机器学习已经迅速变成指挥人类羊群的牧羊人,「他」无所不知。这种软件在网络上把我们连接起来、监控垃圾邮件或有害内容、很快还会充当司机。欺骗它们相当于改变互联网的基础支撑,未来甚至会给我们的人身和信息安全带来更大威胁。


研究人员组成的小群体——从宾夕法尼亚州立大学到谷歌到美国军方——正在设计防卫针对人工智能系统的潜在攻击。根据研究中提出的理论,一位攻击者能改变自动驾驶汽车所见或者激活许多电话上的语音识别系统,并且让其浏览带有恶意软件的网站,对人类来说,这仅仅听起来像是白噪音。抑或让病毒穿过防火墙进入网络。



左图,未经修改的图片展示的是一建筑物。右边图片经修改后,在基于神经网络的图片识别软件看来,是鸵鸟。中间图片展示了为了欺骗算法,而对原始图片所做的轻微变形。


没有控制自动驾驶汽车,但是,这个方法向其显示出某种幻觉——并不真在那里的图片。


这些攻击使用了对抗性样本:图片,声音,或者人类看起来正常但被机器完全视为另一件事物的潜在文本。攻击带来的小变化能迫使一个深度神经网络对正向其展示的内容做出错误的结论。


在伯克利大学从事对抗性机器学习攻击研究的Alex Kantchelian说,「任何使用机器学习做出关键决定的系统,在这些攻击面前,都具有潜在的脆弱性。」


但是,在人工智能研发中尽早知道这些也能帮助研究人员理解如何解决间隙缺口。一些人已经开始这么做了,而且说他们的算法真的因此更加有效。


「我们向你展示一张相片,上面是清晰可见的校车,我们让你认为这是一只鸵鸟」


如今,绝大多数主流人工智能研究包括深度神经网络,以更大的机器学习领域为基础。机器学习技巧使用了积分和统计来制做我们使用的软件,比如垃圾邮件过滤软件或谷歌搜索。过去二十年来,研究人员开始将这些技术运用到一个新的叫做神经网络的想法中,一个模拟人类大脑的软件结构。大体想法是,将计算去中心化,分散于数以千记的小的方程(「神经元」),吸取数据,处理并将它们传递给另一拥有数以千计「神经元」的层级。


这些人工智能算法以和机器学习一样的方式进行学习,这也是人类的学习方式。他们被示以物品实例以及与被展示物相关的标签。给计算机(或一个小孩子)展示一张猫的图片,说,这就是猫的样子,算法会学习什么是猫。为了识别不同的猫或者不同角度的猫,计算机需要几千甚至数百万猫的图片。


研究人员发现,他们能用有目的设计的欺骗数据来攻击这些算法,叫做对抗性样本(adversarial example)。



 2015 年的一篇论文中,谷歌研究者展示了通过应用光畸变(light distortion)让深度神经网络将图片上的熊猫归类为长臂猿是可能的。


「我们给你展示了一张照片,一张显然是校车的照片,然后我们让你认为那是一只鸵鸟。」谷歌研究者 Ian Goodfellow 如是说,他利用对抗性样本推动了许多研究工作。


通过仅改变输入到深度神经网络图像的百分之四,研究者就能够以 97% 的成功率诱使其对图像进行错误的归类。即使当他们不知道该网络是如何处理图像时,他们也能以近 85% 的准确度欺骗该网络。在后面的研究中,研究者在不知道网络架构的情况下对其进行了欺骗,这被称为黑箱攻击(black box attack)。这是第一次有记录的对深度学习系统的功能性黑箱攻击研究,这很重要,因为这是真实世界中最有可能的情况。


在这篇论文中,来自宾夕法尼亚州立大学、谷歌和美国陆军研究实验室的研究人员真正向一个对图像进行分类的深度神经网络发动了一次攻击,该网络由在线开发者工具 MetaMind 所支持。该团队创建并训练了他们攻击的网络,但他们的攻击算法独立于该架构运行。通过攻击算法,他们可以迫使黑箱算法认为自己正以高达 84.24% 的准确度看着别的东西。



图片上部分展示了原始图像和相应的分类。下部分展示了该网络被成功欺骗,其所认为的每一个标志都和原始图像不同。

向机器展示不正确的信息的做法并不是什么新鲜事,伯克利大学教授 Doug Tygar 已经研究对抗机器学习(adversarial machine learning)10 年时间了。他说这种攻击技术已经被从简单的机器学习翻译成了更为复杂的深度神经网络。恶意攻击者已经在垃圾邮件过滤器等事物上使用这种技术很多年了。


Tygar 的研究源于 2006 年一篇关于针对机器学习网络的对抗攻击的论文,2011 年他与加州大学伯克利分校和微软研究院的其他研究者对其进行了扩展。2014 年,率先应用深度神经网络的谷歌团队发表了他们的第一篇论文,这是他们发现了这种攻击可能性的两年之后。他们想确认那实际上是可能的,而不是一个异常。2015 年,他们发表了另一篇论文,他们找到了一种能保护网络且能让网络更高效的方法,自那以后 Ian Goodfellow 一直在参询该领域内的其它论文,包括黑箱攻击。


安全研究者将这种不可靠信息这种更大的想法称为拜占庭数据(Byzantine data),通过这一列研究,拜占庭数据也进入了深度学习领域。术语拜占庭数据来自于拜占庭将军问题(Byzantine Generals Problem),这是计算机科学中的一个思想实验:一组将军必须通过信使协商他们的攻击,但他们不确定他们之中谁是叛徒。因此他们不能相信他们的同事提供的信息。


Tygar 说:「这些算法是为处理随机噪声而定义的,它们不是为应对拜占庭数据设计的。」


要理解这些攻击的工作方式,Goodfellow 建议将神经网络想作是散点图。


散点图上的每一个点都代表正被网络处理的图像的一个像素。该网络通常会尝试通过与该图像的每一个点的位置最匹配的汇总数据进行画线。这个过程比听起来更复杂一点,因为对网络而言,每一个像素都有不止一个值。在现实中,那是一种计算机必须彻底搞清楚的复杂的、多层面的图像。


但在我们散点图的简单比喻中,通过数据画出的线条的形状表明了网络认为自己所看到的内容。为了成功攻击这些系统(通过迫使它们对输入进行错误的分类),研究者只需要改变这些点的一小部分,就能引导网络得出实际并不存在的结论。这些被修改过的点是该网络认为的自己熟悉的过去,所以它会犯错。在将校车看成鸵鸟的例子中,校车的照片中穿插了具有鸵鸟照片的独特特征的像素模式,而该网络对此模式非常熟悉——这些特征不是可见的轮廓,而当该算法处理和简化这些数据时,极端的鸵鸟数据点会被看做是分类的有效选项。在黑箱的情况中,研究者对输入进行了测试以确认该算法看见特定对象的方式。


通过向图像分类器提供虚假输入,然后观察机器会做出什么决定,该研究团队可以对算法进行逆向工程,以愚弄那种可能会被用在自动驾驶汽车中的图像识别系统,让其将停车标志识别成让路标志。而一旦他们找到了该漏洞的工作方式,他们就能找到一种方法,能让机器看到任何他们想让它看到的东西。



一个图像分类器会如何依据图像中不同的对象画不同的线的例子。对抗样本可以被看作是图中的极值。

研究者说,这种攻击既可以绕过摄像头被直接注入到图像系统中,甚至可以将这种操作应用到真实世界的标识上。


但哥伦比亚大学安全研究者 Allison Bishop 说这种攻击可能是不现实的,这取决于无人驾驶汽车安装的是哪一种系统。她说,如果攻击者已经获得了摄像头数据流的权限,他们可以输入任何他们想要的输入。


「如果我可以绕过传递给摄像头的输入,我就不需要那么辛苦,」她说,「你可以直接向其展示停车标志。」


另一种攻击方法则不是绕过摄像头,而是在标志本身上画上干扰。她怀疑低分辨率的摄像头——就像现在被用在无人驾驶汽车上的那些——会能够读到标志上的这些轻微干扰。 



左边图片是不变的,且可以归类为一辆校车,同时,右边图片可以归类为一只鸵鸟。中间的图片展示了对对抗性样本所做的扭曲。


加州大学伯克利分校和乔治城大学的两个团队已分别成功开发出算法,可以以人耳不能识别的声音形式向 Siri 和 Google Now 这类的数字化私人助理发出语音命令。对个人而言,这些命令听上去就像是随机白噪音,但是,它们可用于通知由声音激活的像 Amazon  Alexa 这样的助手去做用户从未想到的事。


Nicholas Carlini 是一位拜占庭式音频研究员,说到,他们的测试已经能激活测试中的开源音频识别器、 Siri 和 Google Now ,对这三者的精确度超过了 90% 。


Carlini 说,有了这种攻击技术,任何能听见声音(这些声音的必须特别针对iOS 或Android )的手机就能在不知不觉中强行访问发出这些声音的网页,因此入侵附近的其它手机。在同样的场景中,网页还能悄悄地下载恶意软件到设备上。这些声音也有可能是由无线电广播发出来的,隐藏在白噪音或背景音中。


Goodfellow 说,这些攻击能够发生是因为机器被人为地设定成,认为在大多数信息输入中存在可读的或重要数据,而且认为一些事情比其他事情更常见。


更简单的事是愚弄神经网络,让它认为它正在看一个常见的物体,因为它认为常见的东西应该是更常见的。这就是为什么 Goodfellow 和怀俄明大学的一个独立团队能让网络在什么都没有的情况下给图片分类,他们使用的方式是让网络辨认在黑白图片中随机产生的白噪音。


在 Goodfellow 的研究中,经受网络测试的随机白噪音很多时候被归类为一匹马。这恰巧让我们联想起聪明的汉斯,也就是很早以前的一匹并没有数学天赋的马。


Goodfellow 说,与聪明的汉斯类似,这些神经网络不是真的学会了某种概念,只是在找到正确概念时它们能认出来。这种区别是微小的,却是重要的。缺乏基础知识让它容易恶意地重新创建发现「正确的」算法结果的经验,其实算法结果是错误答案。为了理解什么是对的,机器还必须理解什么不对。


Goodfellow 发现,当他用自然图片和经过修改的图片(具体来说就是这些图片是虚假的)训练他的图片分类网络,他不仅能将入侵效率减少 90% 以上,而且这网络能更好地完成它的初始任务。


「当你开始促使它们解释真正不寻常的反例,它可能对基本概念是什么提出更加有说服力的解释。」 Goodfellow 说。


两个音频团队还使用了与 Google 研究员们用过的同种方法,通过重复训练神经网络来修补语言识别系统以抵抗他们自己的入侵。


「对敌手而言,愚弄和欺骗我们可能相当容易。一些事情可能正在开始,而另一些可能不会。」


无须惊讶,这一研究领域已获得美国军方的兴趣。事实上,美国陆军研究实验室至少赞助了最近两篇论文,包括黑盒攻击。陆军实验室很积极地资助研究,但是,这不意味着用于战争的科技正在积极发展中。根据一位发言人,研究成果到达士兵的手中,通常要十多年的时间。


美国 Army Research Laboratory的一位研究人员Ananthram Swami 不同程度参与到了有关对抗性攻击方面的论文。陆军的兴趣在于侦测和阻止目的性欺骗数据, 在这个时代不是所有的信息资源都能得到适当审查。他指的是可从大学和开源项目所安置的公众传感器那里获得的数据。


「我们并不必然控制所有那些数据。对抗性攻击愚弄、欺骗我们很可能会相当简单,」「有些或许善意,有些可不会如此。」


他也说,正如陆军在自动化机器人、坦克和其他运载工具方面存在既定利益,因此,这一研究的意义是显而易见的。现在通过研究,陆军可能抢先研发将免疫于潜在对抗性攻击的作战系统。


但是,任何使用深度神经网络组织,这一比例正在迅速增长,应该已经担忧其潜在的对抗性攻击。尽管机器学习和人工智能系统仍然处在幼儿期,但是,我们已经身在危险时刻,安全监控会产生剧烈结果。许多公司正将高度易变化的信息置于人工智能系统的掌控之中,这些系统没有经受时间的审查。 我们的神经网络简直太年轻了,我们不足以了解它们的一切。


类似的疏忽也导致了Tay迅速变得种族灭绝的种族主义。邪恶数据流以及可预见的可怕的「重复我」功能,让Tay大大偏离了最初的程序设计。机器人程序被疯狂的训练数据挟持,并为我们提供了一个手头案例:当机器学习被不当使用时,会发生什么。


Kantchelian说,他并不认为,为任何这些攻击敞开的大门已经完全关上,即使采用了来自谷歌团队颇有前途的研究。


「不幸的是,至少在计算机安全问题上,攻击方总是先于我们,」「因此,认为通过在训练,我们解决了所有对抗机器学习的问题,这种看法会有点危险。」



文中涉及部分研究论文:

  1. http://arxiv.org/pdf/1602.02697v2.pdf

  2. http://www.cs.berkeley.edu/%3Csub%3Etygar/papers/Machine_Learning_Security/asiaccs06.pdf

  3. http://www.cs.berkeley.edu/%3C/sub%3Etygar/papers/SML2/Adversarial_AISEC.pdf

  4. http://arxiv.org/pdf/1312.6199v4.pdf

  5. http://arxiv.org/pdf/1412.6572v3.pdf

  6. http://arxiv.org/pdf/1602.02697v2.pdf



©本文由机器之心编译,转载请联系本公众号获得授权

✄------------------------------------------------

加入机器之心(全职记者/实习生):hr@almosthuman.cn

投稿或寻求报道:editor@almosthuman.cn

广告&商务合作:bd@almosthuman.cn


本站仅按申请收录文章,版权归原作者所有
如若侵权,请联系本站删除
觉得不错,分享给更多人看到