DL_universal_attack_day11

目录

Universal Attack

How to attack

introduction

针对机器学习的攻击技巧,这里就是指利用一个输入,使其判断错误。不是啥硬件的攻击。
我们需要对神经网络得输入做出一些细微的修改,使其判断错误。之后都会用图像识别的机器学习作为栗子。
这些细微的修改应是人眼无法轻易判别,但是能使机器出现判断错误的。
DL_universal_attack_day11

loss function for attack

我们在已知神经网络的各种参数的情况下(也就是后面会有的白箱条件)可以利用神经网络,训练出一个输入的图片。
通过下图我们可以看出,这种训练模式和我们正常训练是有差异的。通过控制loss function使其结果越离谱越好,输入的内容约近越好(不被发现的需求)。
DL_universal_attack_day11

constraint

我们的限制条件就是针对输入的,要让人很难用肉眼辨别我们对输入做了手脚,或者说,这个输入不正常。
以下是两种手段。第一个是输入的值总和满足不大于某个值的条件。第二个是差异最大处不大于某值。以下的幻灯片说明了后者其实更好。
DL_universal_attack_day11

process

下面是训练攻击性输入的梯度下降方法。采用限制条件L-ifinite。
DL_universal_attack_day11
当然,出现限制条件不满足的时候,我们需要修正。
DL_universal_attack_day11
下面是两种限制条件的修正方法。
DL_universal_attack_day11
下面是训练出的栗子
DL_universal_attack_day11

attack approaches

这是一种攻击方法的示例。不同的攻击方法主要是在产生随机修改的方法和修正超出限制条件的情况的方法不同。
DL_universal_attack_day11

white or black box

black box attack

上面都是讲述的白箱攻击,也就是知道神经网络架构和参数的情况下我们利用其去生成攻击它自己的图片。但更多情况我们是没有这些参数的。
但是不用怕,在我们已知这些神经网络使用什么输入去训练出来的话,我们可以根据这些输入重新自己训练一个分类的网络,然后再用其去产生攻击性的图片。事实证明,在自己训练的神经网络上产生的攻击性图片,往往能在其它相同输入训练出来的神经网络上生效。

universal attack

根据上面的原理,我们就可以想,是否能产生攻击性的图片,对神经网络普遍有效。
DL_universal_attack_day11

attack in the real world

利用机器识别出错这个特点,我们可以利用在很多层面上。
比如说人脸识别,或者汽车自动驾驶等(修改道路两侧标线或者其它道路结构物,使自动驾驶汽车判断失误甚至发生事故。。。)

Defense

pre-defense

可以先对进入神经网络的图片检验或者调整。比如说加一个过滤器,或者平滑化输入,在保证不改变图片太多原有特征的情况下,削除可能的攻击性图片影响。
但万一这些平滑化等方法的参数泄露输出,攻击者反而可以把它加入到训练种,训练出能通过这些预处理攻击的图片。

passive defense

这个是主动让神经网络去训练攻击性的图片。或许更可行。

more

DL_universal_attack_day11

上一篇:glibc动态链接实现方式


下一篇:外链h5短信浏览器跳转微信关注公众号和小程序解决方案整理