人工智能内心的黑暗秘密以及我们如何愚弄它-Toy模板网

这篇具有很好参考价值的文章主要介绍了人工智能内心的黑暗秘密以及我们如何愚弄它。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

人工智能内心的黑暗秘密以及我们如何愚弄它

前言

在大数据和算力的支撑下，机器学习、深度学习和强化学习成了当前人工智能的主流方向。人工智能究竟学到了什么？让它能够准确地回答人类的问题。人工智能是否具有可解释性？它是否知道自己学到的是什么？这些问题都是还未明确解决的难题。

本文继续分享《AI 3.0》这本书中的内容，看一下书中对AI当前学到了什么怎么看。

人工智能内心的黑暗秘密以及我们如何愚弄它

还记得在学校的时候，老师会在你的数学作业上用红笔写上“列出你的推导过程”吗？对我本人来说，列出推导过程是学习数学最无趣但却可能是最重要的部分，因为能够展示推导过程则表明：我理解自己在做什么，我掌握了正确的抽象概念并且以正确的推理得到了答案。列出推导过程，也可以帮助老师来查明我犯某些错误的原因。

一般来说，如果一些人能够向你解释他是如何得出一个答案或决定的，你就会相信这些人知道他自己在做什么，然而，列出推导过程是 DNN —— 这一现代人工智能系统的基石所无法轻易做到的事情。回想一下我描述的“狗”和“猫”目标识别任务，ConvNets 通过实施一系列在多隐藏层间传播的数学运算（卷积）来判断输出图像中包含的对象。对于一个一般大小的网络，其运算可能会达到数十亿次，当然，对计算机进行编程，让它打印出一个网络对于给定输入所执行的全部加法和乘法的操作列表是很容易的，但是这样一个列表并不能使人类获知网络是如何得出答案的。一个10亿次运算的列表不是一个普通人能接受的解释，即使是训练深度网络的人通常也无法理解其背后隐藏的原理，并为网络做出的决策提供解释。《麻省理工科技评论》（MIT Technology Review）杂志将这种不可解释性称为“人工智能内心的黑暗秘密”。令人担忧的是：如果我们不理解DNN如何解答问题，我们就无法真正相信他们，或预测它们会在哪种情况下出错。

人类也并不总是能够解释自己的思维过程，并且一般来说，你无法通过观察别人的大脑内部或者他们的直觉来弄清楚他们是如何做出特定决策的，但人类倾向于相信其他人已经正确地掌握了基本的感知能力，例如目标识别和语言理解能力。在一定程度上，当你相信别人的思维与你相同时，你就会信任对方。你的假设是，大多数情况下，你遇到的其他人与你有足够相似的生活经历，于是你会假设他们在对世界感知、描述和做出决策时所使用的基本背景知识、信仰和价值观与你相同。简而言之，当考虑其他人时，你具有心理学家所说的一种心智理论：理解他人在特定情况下所运用的知识和可能会选择的目标。对于像DNN这样的人工智能系统，我们并没有类似的心智理论作为支撑，这就使得我们更难信任它们。

目前人工智能界最热门的新兴领域之一是“可解释的人工智能”，也就不足为奇了。这个新领域有多种不同的叫法，比如“透明的人工智能”或“可解释的机器学习”。这个领域的目标是研究如何让人工智能系统，尤其是深度网络，以人类能够理解的方式解释其决策过程。该领域的研究人员已经提出了多种聪明的方式来实现对一个给定 ConvNets 学习到的特征的可视化，并且，在某些情况下可以确定输入的哪些部分对输出决策起决定作用。可解释的人工智能是一个正在快速发展的领域，但如何让深度学习系统能够顺利地按照人类能理解的方式来解释自身仍然前景未明。

关于人工智能可信度的问题还有另外一个方面：研究人员发现，人类若要秘密地诱导神经网络犯错，那简直是意想不到地容易。也就是说，如果你想故意欺骗这样一个系统，那么方法有很多。

愚弄人工智能系统并不是什么新鲜事，例如，垃圾电子邮件发送者与垃圾邮件检测程序间的“军备竞赛”已经持续了几十年。对深度学习系统的这种看似脆弱的攻击则更加微妙和麻烦。

还记得我提到的AlexNet吗？就是那个赢得2012年ImageNet竞赛并使得ConvNets在当今大部分人工智能领域中占据主导地位的ConvNets。AlexNet在ImageNet上的top-5准确率是85%，打败了其他所有竞争对手，并震惊了计算机视觉界。然而，在AlexNet获胜两年后，出现了一篇由谷歌的克里斯蒂安·赛格迪（Christian Szegedy）和其他作者联名撰写的研究论文，这篇论文有一个看似温和的标题：神经网络耐人寻味的特性。赛格迪等人在文中描述的这种耐人寻味的特性之一就是AlexNet很容易被愚弄。

该论文的作者发现，他们用一张AlexNet以高置信度正确分类的ImageNet图像（如校车图像），对该图像进行极小的、非常具体的变化使这张图像扭曲。扭曲后的图像对人类来说看起来毫无变化，但却被AlexNet以高置信度归类为完全不同的东西（如鸵鸟）。作者将扭曲后的图像称为“对抗样本”（adversarial example）。

赛格迪和他的合作者构建了一个计算机程序，对于任意一幅由 AlexNet 正确分类的来自 ImageNet 的图片，都能够找到特定的变化点来创建一个新的对抗样本图片，使得新图片对人类来说看起来没有变化，却会导致 AlexNet 以极高的置信度给出一个错误答案。

重要的是，赛格迪和他的合作者发现，AlexNet 对于对抗样本的这种低敏感性并不特殊。他们发现，其他若干具有不同的架构、超参数和训练集的 ConvNets 都具有类似的漏洞。他们把这种漏洞称为神经网络的耐人寻味的特性，有点类似于把一艘豪华游轮船体上的漏洞称为这艘船的一个引人深思的特点，这确实耐人寻味，也需要更多的调查研究。如果漏洞未得到修补，DNN 这艘“船”早晚会沉下去。

在赛格迪等人的论文发表后不久，一个来自怀俄明大学的团队发表了一篇题目更直接的文章：《深度神经网络很容易被欺骗》。该团队使用一种受生物启发的计算方法——遗传算法（genetic algorithms），通过计算的方式来使图片得到“进化”，使其对人类而言，看起来像随机“噪声”，但是AlexNet和其他ConvNets却以超过99%的置信度将其分配为某个特定的对象类别。

该团队注意到，DNN会将这些对象视为近乎完美的可识别图像，所以，DNN是否具备真正的泛化能力？使用DNN的解决方案是否会因恶意应用这种漏洞可能性的存在，而产生高昂的潜在成本？这些问题是值得注意的。

确实，这两篇论文及其后续的相关发现不仅为深度学习学术界提出了问题，也敲响了真正的警钟。如果在计算机视觉和其他任务上表现得如此成功的深度学习系统，很容易被人类难以察觉的操作所欺骗，我们怎么能说这些网络能够像人类一样学习，或在能力上可以与人类媲美甚至超过人类呢？很显然其中出现了一些与人类的感知截然不同的东西。如果我们要在现实世界中的计算机视觉领域运用这些网络，我们最好确保其受到保护，不被黑客运用这类操作来对它们进行欺骗。

所有这些问题重新激发了聚焦于“对抗式学习”的一小部分研究群体的活力。对抗式学习是指：制定策略来防御潜在的人类对手攻击机器学习系统。对抗式学习研究人员经常通过证实现有系统可能遭受的攻击方式来开展研究工作，并且最近的一些成果已经非常惊人。

在计算机视觉领域，有个研究团队开发了一个能够设计出具有特定图案的眼镜框的程序，愚弄了一个人脸识别系统，使其自信地将眼镜框的佩戴者错误地识别为另外一个人。另一个研究团队设计了可放置于交通标志上的不显眼的小贴纸，导致一个基于ConvNets的视觉系统（类似于自动驾驶汽车中使用的视觉系统）对交通标志进行了错误的分类，例如，将一个停车标志识别为限速标志。还有一个团队证实了用于医学图像分析的DNN可能面临的一种对抗式攻击：以一种人类难以察觉但却会引发网络改变对图像的分类的方式来改变X射线或显微镜图像，是不难做到的，但却可能会导致网络对该图像的判定完全相反，比如说，从以99%置信度显示目标图像分类为无癌症，到以99%置信度显示存在癌症。该组人员指出，此类攻击手段可能会被医院人员或其他人用于制造欺诈性诊断，以便向保险公司索取额外的诊断测试费用。

以上这些只是由不同研究团队发现的几个系统可能遭受攻击的案例。许多可能的攻击已经被证实具有惊人的鲁棒性：它们对很多网络都能起作用，即便这些网络是在不同的数据集上训练的。计算机视觉领域并不是神经网络可被愚弄的唯一领域，研究者还设计了一些能够愚弄用于语言处理（包括语音识别和文本分析）的DNN的攻击手段。我们可以预计，随着这些系统在现实世界中获得更加广泛的应用，恶意用户将会发现这些系统中的更多漏洞。

了解和防御此类潜在的攻击是目前人工智能的一个主要研究领域，虽然研究人员已经找到了针对特定类型攻击的解决方案，但仍未找到通用的防御方法。与计算机安全的任何领域一样，到目前为止的研究具有一种“打地鼠”的特点，即一个安全漏洞被检测出来并被成功防御后，总是会发现新的需要防御的漏洞。谷歌大脑团队的人工智能专家伊恩·古德费洛（Ian Goodfellow）说道：“几乎所有你能想到的对一个机器学习模型有害的事，都可以在当下就做到…捍卫它真的是非常非常困难。”

除了如何防御攻击这个亟待解决的问题，对抗样本的存在放大了我之前提出的那个问题：这些网络到底学习了什么？尤其是，它们学习了什么使得自己能如此轻易地被愚弄？或者更重要的问题是：当我们认为这些网络已经真的学到了我们试图交给它们的概念时，我们是在自欺欺人吗？

在我看来，终极的问题是理解。AlexNet错误地将校车分类成了“鸵鸟”，为什么人类不太可能发生这种情况？尽管AlexNet在ImageNet上表现得非常出色，但人类能够从所见对象中理解许多AlexNet或者说当前任何人工智能系统都无法获知的信息。我们知道对象在三维空间中的形态，并能够根据一张二维图像进行三维构想。我们知道一个给定对象的功能是什么、其各部分在整体功能中发挥何种作用，以及该对象通常出现的场景是什么。看到一个对象会使我们回忆起在其他情况下、从其他的角度以及在其他感官模式下看到该物体的情境，比如我们记得一个给定对象感觉起来、闻起来，甚至是它掉在地上听起来是什么声音，等等。所有这些背景知识都被注入我们人类的能力中，支持我们稳定地识别给定目标，即便是当今最成功的人工智能视觉系统，也尚且缺乏这种理解能力及在目标识别方面的稳定性。

我曾听到某些人工智能研究人员争辩说，人类也一样容易受到我们自己的对抗样本的影响，比如视觉错觉。就像AlexNet会将校车分类为“鸵鸟”一样，人类则更容易犯感知错误，例如，长度一样的线段放在不同图形中，我们会觉得线段不一样长。我们人类易犯的错误与ConvNets易犯的完全不同，我们识别日常场景中对象的能力已经进化得非常稳定了，因为我们的生存就依赖于此。与目前的ConvNets不同，人类和动物的感知受到认知的高度调节，这里的认知指的是我在前文描述的一种对情境的理解。此外，目前在计算机视觉应用中使用的ConvNets通常是完全前馈的，而人类视觉系统则具有更多的反馈连接。虽然神经科学家还不了解所有这些反馈连接的功能，但有一点可以推测，至少其中的某些反馈连接有效地防止了类似ConvNets易受对抗样本影响的那种漏洞，那么为什么不在ConvNets中植入同样的反馈连接呢？这是一个非常活跃的研究领域，但也是非常困难的，并且目前还未取得像前馈网络那样的成功。

怀俄明大学的人工智能研究者杰夫·克卢恩（Jeff Clune）做了一个非常尖锐的比喻：“很多人好奇深度学习究竟是真正的智能还是‘聪明的汉斯’”。汉斯是20世纪初德国的一匹马，其主人声称它可以进行算术计算并能听懂德语。这匹马通过用蹄子敲击的次数来回答诸如“15除以3等于多少”这类问题。在“聪明的汉斯”成为国际明星后，一项详细调查最终证实这匹马并没有真正理解给它的问题或数学概念，而只是通过敲击来回应提问者给出的微妙且常人难以察觉的提示。“聪明的汉斯”已成为对表现出理解力但实际上只是对训练员给出的别人难以发现的提示做出反应的个体或程序的隐喻。深度学习展现的是真正的理解，还是一个计算型的“聪明的汉斯”——只是对数据中的表面线索进行响应？这是目前人工智能界在激烈争论的一个话题，而研究人员并未在真正的理解的定义上达成共识，更是加剧了这一争论。

一方面，通过监督学习训练的DNN，在计算机视觉、语音识别、文本翻译等领域的许多任务上都表现得非常出色，尽管还远不够完美。由于DNN具有令人赞叹的能力，人们正在加速其从研究过程向实际应用的转化，具体包括：网络搜索、自动驾驶汽车、人脸识别、虚拟助手、推荐系统等领域。我们现在已经很难想象没有这些人工智能工具的生活会是什么样子。

另一方面，DNN能够自学或其训练过程与人类学习相似这种说法是有误导性的。我们既要承认这些网络获得过的成功，也要认识到他们会以意想不到的方式失败，比如，对训练数据过拟合、长尾效应的存在，以及易受攻击等。

此外，DNN做出决策的原因通常很难理解，这使得他们的失败难以被预测或规避。研究人员正在努力使DNN变得更加可靠和透明，但有些问题仍然存在：这些系统是否由于缺乏类似于人类的理解能力才导致其不可避免地变得脆弱、不可靠且易受攻击？在决定将人工智能系统应用到现实中之前，我们该如何考虑这些因素？在平衡人工智能的益处与其本身存在的不可靠性和滥用风险之间，我们将面临一些艰巨挑战。