在本文中,我们将阐述这类外包方案将引入新的安全风险:攻击者可以创建一个恶意的培训网络(一个包含后门的神经网络,也可以称为badnet),在这种攻击场景中,神经网络培训过程要么全部、要么部分的外包给了恶意用户,但攻击者却提供了包含后门程序的训练模型。这类后门模型对培训和验证样本具有先进的性能,但是当满足一些特定输入的时候却能导致错误的分类或退步,我们称之为后门触发。
一、恶意的触发器可以隐藏在AI训练模型中
- 由于深度学习算法是庞大且复杂的,足以隐藏小方程,触发类似后门程序一样的恶意行为。
- 例如,攻击者可以在一个基本的图像识别AI中嵌入某些触发器,这些AI会以不希望的方式解释动作或符号。
- 以常见的交通路标指示器为例,研究人员使用了一个Demo进行测试,训练图像识别AI误将一个停止路标分类为限速指示器,触发条件是停止路标表面有一个正方形、炸弹形状或花朵形状的贴纸。
- 在这种情况下,培训AI更多的样本数据并不能删除后门,只会降低准确度,而且,如果攻击者有办法污染/毒害训练集的话,还能提高攻击的效率。
二、AI后门的插入并不像你想的那么复杂
- 执行这类攻击的关键是创建恶意的触发器,而不是实际的插入后门。
- 研究人员认为,在AI的训练模型中插入恶意代码是可以实现的,因为攻击者可以使用简单的社会工程学技术(如网络钓鱼攻击)轻易地接管云服务帐户,然后将他们的后门添加到AI的训练模型中,后者通常有一大堆的算法。
- 此外,攻击者还可以开源他们的后门AI,希望别人会重用它,且没有发现恶意触发器。实际情况上,很多人不会认真的检查开源代码。
- 在实践中,这种攻击可以造成很严重的危害,尤其是在AI越来越深入人们生活或工作的情况下。比如带有后门程序的面部识别系统,会忽略戴着某种面具的窃贼,造成财务损失;使AI驱动的智能汽车停在高速公路中间,造成致命的威胁。尽管这样的场景在现实中并没有发生,但它们在理论上是完全可行的。
- 研究人员Brendan Dolan-Gavitt说:“可悲的是,我们还没有尝试,我认为这将是最可怕的演示:带有后门程序的人脸识别系统,无法识别我的脸”
因此,基于AI后门可以从两个方面进行检测(训练过程,测试过程),以下内容通过这两个点展开。
三、训练时针对后门数据集的可验证防御(引用自:RAB:可证明对后门攻击的鲁棒性)
- 最近的研究表明,深度神经网络容易受到对抗性攻击,包括逃避和后门(中毒)攻击。
- 在防御方面,已经在提高针对规避攻击的经验和可证明的鲁棒性方面付出了巨大的努力;然而,可证明的针对后门攻击的鲁棒性在很大程度上仍未得到探索。
- 在本方法中,我们专注于验证机器学习模型对一般威胁模型的鲁棒性,尤其是后门攻击。
- 我们首先通过随机平滑技术提供了一个统一的框架,并展示了如何对其进行实例化以证明对规避和后门攻击的鲁棒性。
- 然后,我们提出了第一个稳健的训练过程 RAB,以平滑训练的模型并证明其对后门攻击的稳健性。
- 我们从理论上证明了用 RAB 训练的机器学习模型的鲁棒性界限,并证明我们的鲁棒性界限是严格的。
- 我们推导出不同平滑分布的鲁棒性条件,包括高斯分布和均匀分布。
- 此外,我们从理论上证明,对于简单的模型(例如 K 近邻分类器),可以有效地训练鲁棒平滑模型,并且我们提出了一种精确的平滑训练算法,该算法消除了从此类模型的噪声分布中采样的需要. 根据经验,我们在 MNIST、CIFAR-10 和 ImageNette 数据集上对不同的机器学习模型(例如 DNN 和 K-NN 模型)进行了全面的实验,并为针对后门攻击的经验证的鲁棒性提供了第一个基准。
- 此外,我们在垃圾邮件表格数据集上评估 K-NN 模型,以展示所提出的精确算法的优势。对各种 ML 模型和数据集的理论分析和综合评估都为针对一般训练时间攻击的进一步稳健学习策略提供了启示。
项目地址:https://github.com/AI-secure/Robustness-Against-Backdoor-Attacks
四、测试时针对后门模型的检测(引用自:使用元神经分析检测 AI 木马)
- 在机器学习木马攻击中,攻击者训练了一个损坏的模型,该模型在正常数据上获得了良好的性能,但在具有某些触发模式的数据样本上表现出恶意。
- 已经提出了几种方法来检测此类攻击,但是它们对攻击策略做出了不合需要的假设,或者需要直接访问经过训练的模型,这限制了它们在实践中的效用。
- 本文通过引入元神经特洛伊木马检测 (MNTD) 管道来解决这些挑战,该管道不对攻击策略做出假设,只需要对模型进行黑盒访问。
- 该策略是训练一个元分类器来预测给定的目标模型是否被特洛伊木马感染。为了在不了解攻击策略的情况下训练元模型,我们引入了一种称为 jumbo learning 的技术,该技术按照一般分布对一组特洛伊木马模型进行采样。
- 然后,我们与元分类器一起动态优化查询集,以区分特洛伊木马模型和良性模型。
- 我们通过视觉、语音、表格数据和自然语言文本数据集的实验来评估 MNTD,并针对不同的木马攻击,如数据中毒攻击、模型操纵攻击和潜在攻击。
- 我们表明,MNTD 实现了 97% 的检测 AUC 分数,并且显着优于现有的检测方法。此外,MNTD 具有很好的泛化能力,对不可预见的攻击具有很高的检测性能。
- 我们还提出了一个强大的 MNTD 管道,即使攻击者打算在完全了解系统的情况下逃避检测,它也能实现 90% 的检测 AUC。
项目地址:https://github.com/AI-secure/Meta-Nerual-Trojan-Detection