人工智能模型数据泄露的攻击与防御研究综述

doi:10.11959/j.issn.2096-109x.2021001

[1]

ATENIESE

G

, MANCINI

L V

, SPOGNARDI

A

,et al.

Hacking smart machines with smarter ones:how to extract meaningful data from machine learning classifiers

[J]. International Journal of Security and Networks, 2015,10(3): 137-150.

[本文引用: 1]

[2]

JUUTI

M

, SZYLLER

S

, MARCHAL

S

,et al.

PRADA:protecting against DNN model stealing attacks

[C]// In IEEE European Symposium on Security and Privacy. 2019: 512-527.

[本文引用: 4]

[3]

YANG

Q

, LIU

Y

, CHEN

T

,et al.

Federated machine learning:concept and applications

[J]. ACM Transactions on Intelligent Systems and Technology (TIST), 2019,10(2): 1-19.

[本文引用: 1]

[4]

PAPERNOT

N

, MCDANIEL

P D

, GOODFELLOW

I J

,et al.

Practical black-box attacks against machine learning

[C]// In Proceedings of the 2017 ACM on Asia Conference on Computer and Communications Security. 2017: 506-519.

[本文引用: 2]

[5]

TRAMÈR

F

, ZHANG

F

, JUELS

A

,et al.

Stealing machine learning models via prediction APIs

[C]// In 25th USENIX Security Symposium,USENIX Security 16. 2016: 601-618.

[本文引用: 1]

[6]

WANG

B H

, GONG

N Z

.

Stealing hyperparameters in machine learning

[C]// In 2018 IEEE Symposium on Security and Privacy. 2018: 36-52.

[本文引用: 2]

[7]

OH

S J

, SCHIELE

B

, FRITZ

M

.

Towards reverse-engineering black-box neural networks

[J]. arXiv:1711.01768, 2019.

[本文引用: 1]

[8]

SATHISH

K

, RAMASUBBAREDDY

S

, GOVINDA

K

.

Detection and localization of multiple objects using VGGNet and single shot detection

[M]// Emerging Research in Data Engineering Systems and Computer Communications.Singapore:Springer. 2020: 427-439.

[本文引用: 1]

[9]

TARG

S

, ALMEIDA

D

, LYMAN

K

.

Resnet in resnet:generalizing residual architectures

[J]. arXiv preprint arXiv:1603.08029, 2016.

[本文引用: 1]

[10]

CORREIA-SILVA

J R

, BERRIEL

R F

, BADUE

C

,et al.

Copycat CNN:stealing knowledge by persuading confession with random non-labeled data

[C]// In 2018 International Joint Conference on Neural Networks. 2018: 1-8.

[本文引用: 3]

[11]

BATINA

L,BHASINS

, JAP

D

,et al.

CSI NN:reverse engineering of neural network architectures through electromagnetic side channel

[C]// In 28th USENIX Security Symposium,USENIX Security 2019. 2019: 515-532.

[本文引用: 1]

[12]

YU

H G

, YANG

K C

, ZHANG

T

,et al.

Cloudleak:large-scale deep learning models stealing through adversarial examples

[C]// Network and Distributed System Security Symposium. 2020.

[本文引用: 2]

[13]

FREDRIKSON

M

, JHA

S

, RISTENPART

T

.

Model inversion attacks that exploit confidence information and basic countermeasures

[C]// In Proceedings of the 22nd ACM SIGSAC Conference on Computer and Communications Security. 2015: 1322-1333.

[本文引用: 1]

[14]

JANG

E

, GU

S

, POOLE

B

.

Categorical reparameterization with gumbel-softmax

[J]. arXiv preprint arXiv:1611.01144, 2016.

[本文引用: 1]

[15]

SHOKRI

R

, STRONATI

M

, SONG

C Z

,et al.

Membership inference attacks against machine learning models

[C]// In 2017 IEEE Symposium on Security and Privacy. 2017: 3-18.

[本文引用: 6]

[16]

YEOM

S

, GIACOMELLI

I

, FREDRIKSON

M

,et al.

Privacy risk in machine learning:analyzing the connection to overfitting

[C]// In 31st IEEE Computer Security Foundations Symposium. 2018: 268-282.

[本文引用: 2]

[17]

SALEM

A

, ZHANG

Y

, HUMBERT

M

,et al.

Ml-leaks:model and data independent membership inference attacks and defenses on machine learning models

[C]// In 26th Annual Network and Distributed System Security Symposium. 2019: 24-27.

[本文引用: 4]

[18]

LONG

Y H

, BINDSCHAEDLER

V

, GUNTER

C A

.

Towards measuring membership privacy

[J]. CoRR,abs/1712.09136, 2017.

[本文引用: 1]

[19]

LONG

Y H

, BINDSCHAEDLER

V

, WANG

L

,et al.

Understanding membership inferences on well-generalized learning models

[J]. CoRR,abs/1802.04889, 2018.

[本文引用: 1]

[20]

YEOM

S

, FREDRIKSON

M

, JHA

S

.

The unintended consequences of overfitting:Training data inference attacks

[J]. CoRR,abs/1709.01604, 2017.

[本文引用: 1]

[21]

SAM

D B

, SURYA

S

, BABU

R V

.

Switching convolutional neural network for crowd counting

[C]// 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). 2017: 4031-4039.

[本文引用: 1]

[22]

KUHA

J

, MILLS

C

.

On group comparisons with logistic regression models

[J]. Sociological Methods ＆ Research, 2020,49(2): 498-525.

[本文引用: 1]

[23]

PAL

M

.

Random forest classifier for remote sensing classification

[J]. International journal of remote sensing, 2005,26(1): 217-222.

[本文引用: 1]

[24]

SONG

L

, SHOKRI

R

, MITTAL

P

.

Privacy risks of securing machine learning models against adversarial examples

[C]// Proceedings of the 2019 ACM SIGSAC Conference on Computer and Communications Security. 2019: 241-257.

[本文引用: 1]

[25]

SALEM

A

, BHATTACHARYA

A

, BACKES

M

,et al.

Updates-leak:data set inference and reconstruction attacks in online learning

[J]. arXiv preprint arXiv:1904.01067, 2019.

[本文引用: 1]

[26]

HAYES

J

, MELIS

L

, DANEZIS

G

,et al.

LOGAN:membership inference attacks against generative models

[J]. PoPETs, 2019(1): 133-152.

[本文引用: 1]

[27]

NASR

M

, SHOKRI

R

, HOUMANSADR

A

.

Comprehensive privacy analysis of deep learning:passive and active white-box inference attacks against centralized and federated learning

[C]// In 2019 IEEE Symposium on Security and Privacy. 2019: 739-753.

[本文引用: 1]

[28]

LEINO

K

, FREDRIKSON

M

.

Stolen memories:leveraging model memorization for calibrated white-box membership inference

[J]. arXiv preprint arXiv:1906.11798, 2019.

[本文引用: 1]

[29]

MELIS

L

, SONG

C Z

, CRISTOFARO

E D

,et al.

Exploiting unintended feature leakage in collaborative learning

[C]// In 2019 IEEE Symposium on Security and Privacy. 2019: 691-06.

[本文引用: 1]

[30]

WANG

Z B,SONG M K

, Zhang

Z F

, Yet

al

.

Beyond inferring class representatives:user-level privacy leakage from federated learning

[C]// In 2019 IEEE conference on Computer Communications. 2019: 2512-2520.

[本文引用: 1]

[31]

HITAJ

B

, ATENIESE

G,PÉREZ-CRUZ F

.

Deep models under the GAN:information leakage from collaborative deep learning

[C]// In Proceedings of the 2017 ACM SIGSAC Conference on Computer and Communications Security. 2017: 603-618.

[本文引用: 1]

[32]

ZHU

L G

, LIU

Z J

, HAN

S

.

Deep leakage from gradients

[C]// In Advances in Neural Information Processing Systems Annual Conference on Neural Information Processing Systems 2019. 2019: 14747-14756.

[本文引用: 1]

[33]

FREDRIKSON

M

, JHA

S

, RISTENPART

T

.

Model inversion attacks that exploit confidence information and basic countermeasures

[C]// In Proceedings of the 22nd ACM SIGSAC Conference on Computer and Communications Security. 2015: 1322-1333.

[本文引用: 2]

[34]

NASR

M

, SHOKRI

R

, HOUMANSADR

A

.

Machine learning with membership privacy using adversarial regularization

[C]// In Proceedings of the 2018 ACM SIGSAC Conference on Computer and Communications Security. 2018: 634-646.

[本文引用: 1]

[35]

WANG

C

, LIU

G Y

, HUANG

H J

,et al.

MIASec:enabling data indistinguishability against membership inference attacks in MLaaS

[J]. IEEE Transactions on Sustainable Computing, 2020,5(3): 365-376.

[本文引用: 1]

[36]

WU

N

, FAROKHI

F

, SMITH

D

,et al.

The Value of collaboration in convex machine learning with differential privacy

[J]. IEEE Symposium on Security and Privacy, 2020: 304-317.

[本文引用: 1]

[37]

PATRA

A

, SURESH

A

.

BLAZE:blazing fast privacy-preserving machine learning

[J]. arXiv preprint arXiv:2005.09042, 2020.

[本文引用: 1]

[38]

JIA

J Y

, SALEM

A

, BACKES

M

,et al.

MemGuard:defending against black-box membership inference attacks via adversarial examples

[C]// In Proceedings of the 2019 ACM SIGSAC Conference on Computer and Communications Security,CCS 2019. 2019: 259-274.

[本文引用: 1]

[39]

HE

Y Z

, MENG

G Z

, CHEN

K

,et al.

Towards privacy and security of deep learning systems:a survey

[J]. arXiv:1911.12562, 2019.

[本文引用: 2]

[40]

KESARWANI

M

, MUKHOTY

B

, ARYA

V

,et al.

Model extraction warning in MLaaS paradigm

[C]// In Proceedings of the 34th Annual Computer Security Applications Conference,ACSAC 2018. 2018: 371-380.

[本文引用: 1]

[41]

OH

S J

, SCHIELE

B

, FRITZ

M

.

Towards reverse-engineering black-box neural networks

[M]// Explainable AI:Interpreting,Explaining and Visualizing Deep Learning. Springer,Cham, 2019: 121-144.

[本文引用: 1]

[42]

OREKONDY

T

, SCHIELE

B

, FRITZ

M

.

Knockoff nets:Stealing functionality of black-box models

[C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2019: 4954-4963.

[本文引用: 1]

[43]

CHANDRASEKARAN

V

, CHAUDHURI

K

, GIACOMELLI

I

,et al.

Exploring connections between active learning and model extraction

[J]. arXiv preprint arXiv:1811.02054, 2018.

[本文引用: 1]

[44]

PENGCHENG

L

, YI

J

, ZHANG

L

.

Query-efficient black-box attack by active learning

[C]// 2018 IEEE International Conference on Data Mining (ICDM). 2018: 1200-1205.

[本文引用: 1]

[45]

ILYAS

A

, ENGSTROM

L

, ATHALYE

A

,et al.

Black-box adversarial attacks with limited queries and information

[J]. arXiv preprint arXiv:1804.08598, 2018.

[本文引用: 1]

Hacking smart machines with smarter ones:how to extract meaningful data from machine learning classifiers

1

2015

... 为了保障人工智能模型相关信息的隐私性，云服务商会保证自身模型的隐秘性，仅提供一个接口来为使用者提供服务，从而保证模型使用者无法接触到模型数据.然而近年来，仍然出现了大量试图破坏人工智能模型数据隐私性的攻击.研究者发现深度学习模型使用过程中产生的相关计算数据，包括输出向量、模型参数、模型梯度等，可能会泄露训练数据的敏感信息或者模型自身的属性参数^[1].更糟的是，这些数据往往又不可避免地会被泄露给攻击者，尤其是某些模型的输出结果向量.这使深度学习模型的数据泄露问题难以避免.例如，模型逆向攻击，攻击者可以在不接触隐私数据的情况下利用模型输出结果等信息来反向推导出用户的隐私数据；成员推断攻击，攻击者可以根据模型的输出判断一个具体的数据是否存在于训练集中.而这类攻击只需要与云服务的接口进行交互.实际应用中，这类信息窃取攻击会导致严重的隐私泄露，如人脸识别模型返回的结果向量可以被用于恢复训练数据或者预测数据中的人脸图像，这将导致用户的肖像信息被泄露.攻击者还可以通过模型输出结果窃取相关模型的参数，对模型拥有者造成严重的经济损失^[2]. ...

PRADA:protecting against DNN model stealing attacks

4

2019

... 为了保障人工智能模型相关信息的隐私性，云服务商会保证自身模型的隐秘性，仅提供一个接口来为使用者提供服务，从而保证模型使用者无法接触到模型数据.然而近年来，仍然出现了大量试图破坏人工智能模型数据隐私性的攻击.研究者发现深度学习模型使用过程中产生的相关计算数据，包括输出向量、模型参数、模型梯度等，可能会泄露训练数据的敏感信息或者模型自身的属性参数^[1].更糟的是，这些数据往往又不可避免地会被泄露给攻击者，尤其是某些模型的输出结果向量.这使深度学习模型的数据泄露问题难以避免.例如，模型逆向攻击，攻击者可以在不接触隐私数据的情况下利用模型输出结果等信息来反向推导出用户的隐私数据；成员推断攻击，攻击者可以根据模型的输出判断一个具体的数据是否存在于训练集中.而这类攻击只需要与云服务的接口进行交互.实际应用中，这类信息窃取攻击会导致严重的隐私泄露，如人脸识别模型返回的结果向量可以被用于恢复训练数据或者预测数据中的人脸图像，这将导致用户的肖像信息被泄露.攻击者还可以通过模型输出结果窃取相关模型的参数，对模型拥有者造成严重的经济损失^[2]. ...

... 基于替代模型的模型窃取是目前比较实用的一类攻击.攻击者在未知目标模型结构的情况下向目标模型查询样本，得到目标模型的预测结果，并以这些预测结果对查询数据进行标注构建训练数据集，在本地训练一个与目标模型任务相同的替代模型，当经过大量训练之后，该模型就具有和目标模型相近的性质.一般来说，攻击者会选取 VGG^[8]、ResNet^[9]等具有较强的拟合性的深度学习模型作为替代模型结构^[10].基于替代模型的窃取攻击与Equation-solving Attack 的区别在于，攻击者对于目标模型的具体结构并不了解，训练替代模型不是为了获取目标模型的具体参数，而只是利用替代模型去拟合目标模型的功能.为了拟合目标模型的功能，替代模型需要向目标模型查询大量的样本来构建训练数据集，然而攻击者往往缺少充足的相关数据，并且异常的大量查询不仅会增加窃取成本，更有可能会被模型拥有者检测出来.为了解决上述问题，避免过多地向目标模型查询，使训练过程更为高效，研究者提出对查询的数据集进行数据增强，使这些数据样本能够更好地捕捉目标模型的特点^[4]，如利用替代模型生成相应的对抗样本以扩充训练集，研究认为对抗样本往往会位于模型的决策边界上，这使替代模型能够更好地模拟目标模型的决策行为^[11,12].除了进行数据增强，还有研究表明使用与目标模型任务无关的其他数据构建数据集也可以取得可观的攻击效果，这些工作同时给出了任务相关数据与无关数据的选取组合策略^[2,10]. ...

... 面向数据的防御是指对模型的输入样本或预测结果做模糊操作.通过这些模糊操作，在保证AI 模型输出结果正确性的前提下，尽可能地干扰输出结果中包含的有效信息，从而减少隐私信息的泄露.这些数据模糊操作主要包含两类：一类是截断混淆，即对模型返回的结果向量做取整操作，抹除小数点某位之后的信息^[2,6,15]；另一类是噪声混淆，即对输入样本或输出的概率向量中添加微小的噪声，从而干扰准确的信息. ...

... 在异常样本检测中，攻击者为了窃取黑盒的在线模型，往往需要对在线模型进行大量的查询操作.为了提高窃取效率，攻击者会对正常的样本进行有目的地修改.而针对模型泄露攻击的特点，防御者主要通过检测对异常样本的查询，来识别模型窃取行为.PRADA^[2]是一种针对模型窃取攻击进行检测的防御技术，它根据多个样本特征之间的距离分布来判断该用户是否正在施展模型窃取攻击，该文献发现随机选取的正常样本特征间的距离大致服从正态分布，而模型窃取过程中查询的样本往往具有鲜明的人工修改迹象，样本间距离分布与正态分布区别较大，通过这种方式，对若干次的查询进行统计检验则可检测异常查询用户.查询样本的特征分布也可以被用于检测，Kesarwani 等^[40]记录下用户的查询样本并检查其在特征空间中的分布，来评估模型被盗取的风险；Yu等^[12]提出正常样本的特征分布与人工修改的样本特征分布相比有较大的区别，可以通过区分样本的特征分布来检测异常查询. ...

Federated machine learning:concept and applications

1

2019

... 此外，随着联邦学习^[3]等分布式机器学习技术的发展，攻击者有可能成为模型训练过程中的参与方.一般而言，联邦学习中的参与方无法获知彼此的输入数据等隐私信息，但由于攻击者能够获得模型在训练过程中的输出、模型参数和梯度等信息，这大大提升了攻击者的能力，使攻击者窃取其他参与方隐私数据成为可能.这将给分布式机器学习技术的发展带来严重的阻碍. ...

Practical black-box attacks against machine learning

2

2017

... 模型窃取攻击（model extraction attack）是一类窃取模型信息的恶意行为，攻击者通过向黑盒模型进行查询获取相应结果，获取相近的功能，或者模拟目标模型决策边界.被窃取的模型往往是拥有者花费大量的金钱时间构建而成的，对拥有者来说具有巨大的商业价值，一旦模型的信息遭到泄露，攻击者就能逃避付费或者开辟第三方服务从中获取商业利益，使模型拥有者的权益受到损害.更严重的是，如果模型遭到窃取，那么攻击者可以进一步部署白盒对抗攻击来欺骗在线模型，这时模型的泄露会大大增加攻击的成功率.例如，在针对亚马逊和谷歌的在线人工智能分类任务进行黑盒对抗攻击的时候，研究者仅使用少量的样本施展模型窃取攻击，并针对窃取到的替代模型生成白盒对抗样本，使用该方法生成的对抗样本可以使亚马逊和谷歌的分类模型分别出现96.19%和88.94%的误判率^[4]. ...

... 基于替代模型的模型窃取是目前比较实用的一类攻击.攻击者在未知目标模型结构的情况下向目标模型查询样本，得到目标模型的预测结果，并以这些预测结果对查询数据进行标注构建训练数据集，在本地训练一个与目标模型任务相同的替代模型，当经过大量训练之后，该模型就具有和目标模型相近的性质.一般来说，攻击者会选取 VGG^[8]、ResNet^[9]等具有较强的拟合性的深度学习模型作为替代模型结构^[10].基于替代模型的窃取攻击与Equation-solving Attack 的区别在于，攻击者对于目标模型的具体结构并不了解，训练替代模型不是为了获取目标模型的具体参数，而只是利用替代模型去拟合目标模型的功能.为了拟合目标模型的功能，替代模型需要向目标模型查询大量的样本来构建训练数据集，然而攻击者往往缺少充足的相关数据，并且异常的大量查询不仅会增加窃取成本，更有可能会被模型拥有者检测出来.为了解决上述问题，避免过多地向目标模型查询，使训练过程更为高效，研究者提出对查询的数据集进行数据增强，使这些数据样本能够更好地捕捉目标模型的特点^[4]，如利用替代模型生成相应的对抗样本以扩充训练集，研究认为对抗样本往往会位于模型的决策边界上，这使替代模型能够更好地模拟目标模型的决策行为^[11,12].除了进行数据增强，还有研究表明使用与目标模型任务无关的其他数据构建数据集也可以取得可观的攻击效果，这些工作同时给出了任务相关数据与无关数据的选取组合策略^[2,10]. ...

Stealing machine learning models via prediction APIs

1

2016

... Equation-solving Attack 是一类主要针对支持向量机（SVM）等传统的机器学习方法的模型窃取攻击.攻击者可以先获取模型的算法、结构等相关信息，然后构建公式方程来根据 query 的返回的结果求解模型参数^[5].在此基础之上还可以窃取传统算法中的超参数，如损失函数中 loss项和regularization 项的权重参数^[6]、KNN中的K值等.Equation-solving Attack 需要攻击者了解目标算法的类型、结构、训练数据集等信息，无法应用于复杂的神经网络模型. ...

Stealing hyperparameters in machine learning

2

2018

... Equation-solving Attack 是一类主要针对支持向量机（SVM）等传统的机器学习方法的模型窃取攻击.攻击者可以先获取模型的算法、结构等相关信息，然后构建公式方程来根据 query 的返回的结果求解模型参数^[5].在此基础之上还可以窃取传统算法中的超参数，如损失函数中 loss项和regularization 项的权重参数^[6]、KNN中的K值等.Equation-solving Attack 需要攻击者了解目标算法的类型、结构、训练数据集等信息，无法应用于复杂的神经网络模型. ...

... 面向数据的防御是指对模型的输入样本或预测结果做模糊操作.通过这些模糊操作，在保证AI 模型输出结果正确性的前提下，尽可能地干扰输出结果中包含的有效信息，从而减少隐私信息的泄露.这些数据模糊操作主要包含两类：一类是截断混淆，即对模型返回的结果向量做取整操作，抹除小数点某位之后的信息^[2,6,15]；另一类是噪声混淆，即对输入样本或输出的概率向量中添加微小的噪声，从而干扰准确的信息. ...

Towards reverse-engineering black-box neural networks

1

2019

... 基于 Meta-model 的模型窃取.这种攻击的主要思想通过训练一个额外的 meta model Φ(·)来预测目标模型的指定属性信息.Meta-model 的输入样本是所预测模型在任务数据x上的输出结果 f(x)，输出的内容 Φ(f(x))则是预测目标模型的相关属性，如网络层数、激活函数类型等.因此为了训练meta-model，攻击者需要自行收集与目标模型具有相同功能的多种模型，获取它们在相应数据集上的输出，构建meta-model 的训练集.然而该训练集的构建需要多样的任务相关模型，对计算资源的要求过高，因此该类攻击并不是非常实用，文献[7]的作者也仅在MNIST 数字识别任务上进行了相关实验. ...

Detection and localization of multiple objects using VGGNet and single shot detection

1

2020

... 基于替代模型的模型窃取是目前比较实用的一类攻击.攻击者在未知目标模型结构的情况下向目标模型查询样本，得到目标模型的预测结果，并以这些预测结果对查询数据进行标注构建训练数据集，在本地训练一个与目标模型任务相同的替代模型，当经过大量训练之后，该模型就具有和目标模型相近的性质.一般来说，攻击者会选取 VGG^[8]、ResNet^[9]等具有较强的拟合性的深度学习模型作为替代模型结构^[10].基于替代模型的窃取攻击与Equation-solving Attack 的区别在于，攻击者对于目标模型的具体结构并不了解，训练替代模型不是为了获取目标模型的具体参数，而只是利用替代模型去拟合目标模型的功能.为了拟合目标模型的功能，替代模型需要向目标模型查询大量的样本来构建训练数据集，然而攻击者往往缺少充足的相关数据，并且异常的大量查询不仅会增加窃取成本，更有可能会被模型拥有者检测出来.为了解决上述问题，避免过多地向目标模型查询，使训练过程更为高效，研究者提出对查询的数据集进行数据增强，使这些数据样本能够更好地捕捉目标模型的特点^[4]，如利用替代模型生成相应的对抗样本以扩充训练集，研究认为对抗样本往往会位于模型的决策边界上，这使替代模型能够更好地模拟目标模型的决策行为^[11,12].除了进行数据增强，还有研究表明使用与目标模型任务无关的其他数据构建数据集也可以取得可观的攻击效果，这些工作同时给出了任务相关数据与无关数据的选取组合策略^[2,10]. ...

Resnet in resnet:generalizing residual architectures

1

2016

... 基于替代模型的模型窃取是目前比较实用的一类攻击.攻击者在未知目标模型结构的情况下向目标模型查询样本，得到目标模型的预测结果，并以这些预测结果对查询数据进行标注构建训练数据集，在本地训练一个与目标模型任务相同的替代模型，当经过大量训练之后，该模型就具有和目标模型相近的性质.一般来说，攻击者会选取 VGG^[8]、ResNet^[9]等具有较强的拟合性的深度学习模型作为替代模型结构^[10].基于替代模型的窃取攻击与Equation-solving Attack 的区别在于，攻击者对于目标模型的具体结构并不了解，训练替代模型不是为了获取目标模型的具体参数，而只是利用替代模型去拟合目标模型的功能.为了拟合目标模型的功能，替代模型需要向目标模型查询大量的样本来构建训练数据集，然而攻击者往往缺少充足的相关数据，并且异常的大量查询不仅会增加窃取成本，更有可能会被模型拥有者检测出来.为了解决上述问题，避免过多地向目标模型查询，使训练过程更为高效，研究者提出对查询的数据集进行数据增强，使这些数据样本能够更好地捕捉目标模型的特点^[4]，如利用替代模型生成相应的对抗样本以扩充训练集，研究认为对抗样本往往会位于模型的决策边界上，这使替代模型能够更好地模拟目标模型的决策行为^[11,12].除了进行数据增强，还有研究表明使用与目标模型任务无关的其他数据构建数据集也可以取得可观的攻击效果，这些工作同时给出了任务相关数据与无关数据的选取组合策略^[2,10]. ...

Copycat CNN:stealing knowledge by persuading confession with random non-labeled data

3

2018

... 基于替代模型的模型窃取是目前比较实用的一类攻击.攻击者在未知目标模型结构的情况下向目标模型查询样本，得到目标模型的预测结果，并以这些预测结果对查询数据进行标注构建训练数据集，在本地训练一个与目标模型任务相同的替代模型，当经过大量训练之后，该模型就具有和目标模型相近的性质.一般来说，攻击者会选取 VGG^[8]、ResNet^[9]等具有较强的拟合性的深度学习模型作为替代模型结构^[10].基于替代模型的窃取攻击与Equation-solving Attack 的区别在于，攻击者对于目标模型的具体结构并不了解，训练替代模型不是为了获取目标模型的具体参数，而只是利用替代模型去拟合目标模型的功能.为了拟合目标模型的功能，替代模型需要向目标模型查询大量的样本来构建训练数据集，然而攻击者往往缺少充足的相关数据，并且异常的大量查询不仅会增加窃取成本，更有可能会被模型拥有者检测出来.为了解决上述问题，避免过多地向目标模型查询，使训练过程更为高效，研究者提出对查询的数据集进行数据增强，使这些数据样本能够更好地捕捉目标模型的特点^[4]，如利用替代模型生成相应的对抗样本以扩充训练集，研究认为对抗样本往往会位于模型的决策边界上，这使替代模型能够更好地模拟目标模型的决策行为^[11,12].除了进行数据增强，还有研究表明使用与目标模型任务无关的其他数据构建数据集也可以取得可观的攻击效果，这些工作同时给出了任务相关数据与无关数据的选取组合策略^[2,10]. ...

... ,10]. ...

... 数据泄露攻击的本质是模型的参数、模型的输出向量等信息是根据输入样本而产生的，即无论如何，这些数据都会包含原始数据的信息，也就是说任何一个人工智能模型都有遭受数据泄露的风险，并且无法完全抵抗这种攻击的威胁.因此，未来针对人工智能模型的数据泄露攻击的发展主要包括两类：第一类是优化攻击模型，增强其从输出向量中提取信息的能力；第二类是扩展攻击场景，将数据泄露攻击应用到更多的场景中，如迁移学习、强化学习等.此外，利用模型的输出信息进行隐私窃取，这种攻击往往需要目标模型进行大量的查询操作，如在模型窃取中，由于深度学习网络具有参数规模大、高度的非线性、非凸性等性质，导致训练替代模型需要数以千计的查询次数^[10].大量的查询提高了攻击的成本，并且增加了被防御者发现的风险，因此如何更加高效地进行隐私窃取是目前攻击者所要研究的主要方向，在这个方面研究者们进行了大量的尝试，这些方法的主要思想是建立一类样本选取策略，从而使用更具有代表性的样本进行攻击，从而提高攻击效率^[41,42]，如积极学习^[43,44]、自然进化策略^[45]等方法.对攻击的深入研究不仅能够促进隐私保护的不断进化，同时有助于研究者对人工智能模型更加深刻的理解. ...

CSI NN:reverse engineering of neural network architectures through electromagnetic side channel

1

2019

... 基于替代模型的模型窃取是目前比较实用的一类攻击.攻击者在未知目标模型结构的情况下向目标模型查询样本，得到目标模型的预测结果，并以这些预测结果对查询数据进行标注构建训练数据集，在本地训练一个与目标模型任务相同的替代模型，当经过大量训练之后，该模型就具有和目标模型相近的性质.一般来说，攻击者会选取 VGG^[8]、ResNet^[9]等具有较强的拟合性的深度学习模型作为替代模型结构^[10].基于替代模型的窃取攻击与Equation-solving Attack 的区别在于，攻击者对于目标模型的具体结构并不了解，训练替代模型不是为了获取目标模型的具体参数，而只是利用替代模型去拟合目标模型的功能.为了拟合目标模型的功能，替代模型需要向目标模型查询大量的样本来构建训练数据集，然而攻击者往往缺少充足的相关数据，并且异常的大量查询不仅会增加窃取成本，更有可能会被模型拥有者检测出来.为了解决上述问题，避免过多地向目标模型查询，使训练过程更为高效，研究者提出对查询的数据集进行数据增强，使这些数据样本能够更好地捕捉目标模型的特点^[4]，如利用替代模型生成相应的对抗样本以扩充训练集，研究认为对抗样本往往会位于模型的决策边界上，这使替代模型能够更好地模拟目标模型的决策行为^[11,12].除了进行数据增强，还有研究表明使用与目标模型任务无关的其他数据构建数据集也可以取得可观的攻击效果，这些工作同时给出了任务相关数据与无关数据的选取组合策略^[2,10]. ...

Cloudleak:large-scale deep learning models stealing through adversarial examples

2

2020

... 基于替代模型的模型窃取是目前比较实用的一类攻击.攻击者在未知目标模型结构的情况下向目标模型查询样本，得到目标模型的预测结果，并以这些预测结果对查询数据进行标注构建训练数据集，在本地训练一个与目标模型任务相同的替代模型，当经过大量训练之后，该模型就具有和目标模型相近的性质.一般来说，攻击者会选取 VGG^[8]、ResNet^[9]等具有较强的拟合性的深度学习模型作为替代模型结构^[10].基于替代模型的窃取攻击与Equation-solving Attack 的区别在于，攻击者对于目标模型的具体结构并不了解，训练替代模型不是为了获取目标模型的具体参数，而只是利用替代模型去拟合目标模型的功能.为了拟合目标模型的功能，替代模型需要向目标模型查询大量的样本来构建训练数据集，然而攻击者往往缺少充足的相关数据，并且异常的大量查询不仅会增加窃取成本，更有可能会被模型拥有者检测出来.为了解决上述问题，避免过多地向目标模型查询，使训练过程更为高效，研究者提出对查询的数据集进行数据增强，使这些数据样本能够更好地捕捉目标模型的特点^[4]，如利用替代模型生成相应的对抗样本以扩充训练集，研究认为对抗样本往往会位于模型的决策边界上，这使替代模型能够更好地模拟目标模型的决策行为^[11,12].除了进行数据增强，还有研究表明使用与目标模型任务无关的其他数据构建数据集也可以取得可观的攻击效果，这些工作同时给出了任务相关数据与无关数据的选取组合策略^[2,10]. ...

... 在异常样本检测中，攻击者为了窃取黑盒的在线模型，往往需要对在线模型进行大量的查询操作.为了提高窃取效率，攻击者会对正常的样本进行有目的地修改.而针对模型泄露攻击的特点，防御者主要通过检测对异常样本的查询，来识别模型窃取行为.PRADA^[2]是一种针对模型窃取攻击进行检测的防御技术，它根据多个样本特征之间的距离分布来判断该用户是否正在施展模型窃取攻击，该文献发现随机选取的正常样本特征间的距离大致服从正态分布，而模型窃取过程中查询的样本往往具有鲜明的人工修改迹象，样本间距离分布与正态分布区别较大，通过这种方式，对若干次的查询进行统计检验则可检测异常查询用户.查询样本的特征分布也可以被用于检测，Kesarwani 等^[40]记录下用户的查询样本并检查其在特征空间中的分布，来评估模型被盗取的风险；Yu等^[12]提出正常样本的特征分布与人工修改的样本特征分布相比有较大的区别，可以通过区分样本的特征分布来检测异常查询. ...

Model inversion attacks that exploit confidence information and basic countermeasures

1

2015

... 机器学习模型的预测结果往往包含了模型对于该样本的诸多推理信息.在不同的学习任务中，这些预测结果又包含了不同的含义.例如，图像分类任务中，模型输出的是一个向量，其中，每一个向量分量表示测试样本为该种类的概率.最近的研究证明，这些黑盒的输出结果可以被用来窃取模型训练数据的信息，如 Fredrikson 等提出的模型逆向攻击（model inversion attack）^[13]可以利用黑盒模型输出中的confidence 等信息将训练集中的人脸恢复出来.他们针对常用的面部识别模型，包括softmax 回归^[14]、多层感知机和自编码器网络实施模型逆向攻击.他们认为模型输出的confidence包含的输入数据信息，也可以作为输入数据恢复攻击的衡量标准.他们将模型逆向攻击问题转变为一个优化问题，优化目标为使逆向数据的输出向量与目标数据的输出向量差异尽可能地小，即假如攻击者获得了属于某一类别的输出向量，那么他可以利用梯度下降的方法使逆向的数据经过目标模型的推断后，仍然能得到同样的输出向量. ...

Categorical reparameterization with gumbel-softmax

1

2016

... 机器学习模型的预测结果往往包含了模型对于该样本的诸多推理信息.在不同的学习任务中，这些预测结果又包含了不同的含义.例如，图像分类任务中，模型输出的是一个向量，其中，每一个向量分量表示测试样本为该种类的概率.最近的研究证明，这些黑盒的输出结果可以被用来窃取模型训练数据的信息，如 Fredrikson 等提出的模型逆向攻击（model inversion attack）^[13]可以利用黑盒模型输出中的confidence 等信息将训练集中的人脸恢复出来.他们针对常用的面部识别模型，包括softmax 回归^[14]、多层感知机和自编码器网络实施模型逆向攻击.他们认为模型输出的confidence包含的输入数据信息，也可以作为输入数据恢复攻击的衡量标准.他们将模型逆向攻击问题转变为一个优化问题，优化目标为使逆向数据的输出向量与目标数据的输出向量差异尽可能地小，即假如攻击者获得了属于某一类别的输出向量，那么他可以利用梯度下降的方法使逆向的数据经过目标模型的推断后，仍然能得到同样的输出向量. ...

Membership inference attacks against machine learning models

6

2017

... 成员推断攻击（membership-inference attack）是一种更加容易实现的攻击类型.它是指攻击者将试图推断某个待测样本是否存在于目标模型的训练数据集中，从而获得待测样本的成员关系信息.例如，攻击者希望知道某个人的数据是否存在于某个公司的医疗诊断模型的训练数据集中，如果存在，那么可以推断出该个体的隐私信息.目标模型训练集中的数据被称为成员数据（member data），而不在训练集中的数据被称为非成员数据（non-member data）.同时由于攻击者往往不可能掌握目标模型，因此攻击者只能实施黑盒场景下的成员推断攻击.文献[15，16，17，18，19，20]已经对这种攻击进行了深入的研究.成员推断攻击是近两年来新兴的一个研究课题，这种攻击可以用于医疗诊断、基因测试等应用场景，它对用户的隐私数据提出了挑战，同时关于这种攻击技术的深入发展及其相关防御技术的探讨成为一个新的研究热点. ...

... 2017 年，Shokri等^[15]第一次提出了成员推断攻击.经过大量实验，他们完成了黑盒场景下成员推断攻击的系统设计.这种攻击的原理是机器学习模型对成员数据的预测向量和对非成员数据的预测向量有较大的差异，如果攻击者能准确地捕捉到这种差异，就可以实施成员推断攻击.然而，在黑盒的场景下，可以从目标模型中得到的只有预测向量，甚至在实际场景下，由于企业的使用限制，无法从目标模型中获得足够多样本的预测向量.此外，由于不同样本的预测向量的分布本身就不一致，即使攻击者直接利用预测向量进行训练，也无法实现较好的攻击效果.因此， Shokri 等使用与目标网络相同的结构，并建立与目标数据集同分布的 shadow 数据集，之后为每一类数据建立多个shadow模型，实现了对预测向量的数据增强效果，并获得了大量的预测向量作为攻击模型的训练样本.并且，利用预测向量，他们构建了攻击模型，使其能够捕捉预测向量在成员数据和非成员数据之间的差异，从而完成了黑盒场景下的成员推断攻击. ...

... 之后随着成员推断攻击技术的发展，人们发现这种攻击的本质就是目标模型对成员数据和非成员数据给出的预测向量存在差异，即成员数据的输出向量的分布更集中，而非成员数据的输出向量的分布相对较为平缓.这种差异性是模型过拟合的主要表现，也就是说成员推断攻击与模型的过拟合程度有很大关联.在这个研究方向上， Yeom 等^[16]研究了模型的过拟合对成员推断攻击的影响，他们通过理论和实验证实了模型的过拟合程度越强，模型泄露训练集成员关系信息的可能性越大；但同时指出，模型的过拟合并不是模型易受成员推断攻击的唯一因素，一些过拟合程度不高的模型也容易受到攻击.随后，Ashamed等^[17]进一步完善了黑盒场景下的成员推断攻击，他们在 2019 年提出了改进后的成员推断攻击，在极大地降低了实现这种攻击成本的同时，实现了与Shokri等^[15]相同的攻击效果，并更明确地展示了成员推断攻击出现的本质原因.即成员数据和非成员数据的预测向量间的差异主要体现为预测向量的集中度.同时他们提出了3种方法，不断减少了成员推断攻击的部署成本.第一种情况下，他们对目标模型的输出向量从大到小进行重排序，使模型对不同类别数据的输出向量的分布趋于一致，均为从大到小，这样就可以避免数据增强的过程，进而减少所需 shadow model 的数量，同时不需要知道目标模型的结构，只需要使用基础的网络结构（如 CNN^[21]、Logistic Re-gression^[22]）和随机森林^[23]等来构建shadow model即可.同时他们发现，只需要截取排序后预测向量的前3个概率值作为攻击模型的训练样本，也能达到较好的攻击效果；第二种情况下，他们提出了数据迁移攻击，即使用与目标模型的训练集分布不同的数据集来训练shadow model，最终获得的攻击模型同样能对目标模型的数据进行成员关系推断，并实现类似的攻击效果；第三种情况下，他们提出了threshold choosing，使用该策略可以确定出一个阈值 T，只要预测向量的最大值大于T，即称该向量对应的待测样本为成员数据，否则，为非成员数据.Ashamed等^[17]的工作进一步强化了成员推断攻击，极大地提升了该攻击的威胁性. ...

... 面向模型的防御是通过对模型结构做适当的修改，以此来减少模型被泄露的信息，或者降低模型的过拟合程度，从而完成对模型泄露和数据泄露的保护.Fredrikson 等^[33]提出当目标模型为决策树时，可使用CART决策树的变种，将样本的敏感特征的优先级调高或调低，他们通过实验证明，当敏感特征在决策树的根节点和叶子节点层级时，对model inversion 攻击能够达到较好的防御效果，其中当敏感属性位于根节点时，能达到最好的防御效果.Shokri 等^[15]和 Ahmed 等^[17]提出可以在目标模型中添加 Dropout 层，或者使用model stacking 的方法将不同的元学习器聚合在一起，又或者在目标模型中添加正则项等.通过实验，他们发现当目标模型使用这些方法后，能显著地减少成员推断攻击的准确率.Nasr等^[34]提出了一种基于对抗学习的防御方法，他们认为如果能计算出当前模型抵抗成员推断攻击的成功率，并将其作为一个对抗正则项加入损失函数中，那么在训练过程中使用 MIN-MAX 的对抗训练方式，最终就可以训练出一个模型，该模型下成员推断攻击的成功率将存在一个上界.最终实验表明该方法在使这个上界足够小的同时，能够达到较高的分类准确度. ...

... 面向数据的防御是指对模型的输入样本或预测结果做模糊操作.通过这些模糊操作，在保证AI 模型输出结果正确性的前提下，尽可能地干扰输出结果中包含的有效信息，从而减少隐私信息的泄露.这些数据模糊操作主要包含两类：一类是截断混淆，即对模型返回的结果向量做取整操作，抹除小数点某位之后的信息^[2,6,15]；另一类是噪声混淆，即对输入样本或输出的概率向量中添加微小的噪声，从而干扰准确的信息. ...

... 对于截断混淆，Shokri等^[15]提出可以对目标模型生成的输出向量进行截取，如只给出输出向量中概率值较高的类别的相应结果，或者降低输出向量中小数位的保留位数，Fredrikson 等^[33]提出可以对目标模型的输出向量进行取整，达到对输出向量的修饰效果.通过截断混淆等方法，研究者们削弱对模型逆向攻击和成员推断攻击的攻击效果. ...

Privacy risk in machine learning:analyzing the connection to overfitting

2

2018

... 成员推断攻击（membership-inference attack）是一种更加容易实现的攻击类型.它是指攻击者将试图推断某个待测样本是否存在于目标模型的训练数据集中，从而获得待测样本的成员关系信息.例如，攻击者希望知道某个人的数据是否存在于某个公司的医疗诊断模型的训练数据集中，如果存在，那么可以推断出该个体的隐私信息.目标模型训练集中的数据被称为成员数据（member data），而不在训练集中的数据被称为非成员数据（non-member data）.同时由于攻击者往往不可能掌握目标模型，因此攻击者只能实施黑盒场景下的成员推断攻击.文献[15，16，17，18，19，20]已经对这种攻击进行了深入的研究.成员推断攻击是近两年来新兴的一个研究课题，这种攻击可以用于医疗诊断、基因测试等应用场景，它对用户的隐私数据提出了挑战，同时关于这种攻击技术的深入发展及其相关防御技术的探讨成为一个新的研究热点. ...

... 之后随着成员推断攻击技术的发展，人们发现这种攻击的本质就是目标模型对成员数据和非成员数据给出的预测向量存在差异，即成员数据的输出向量的分布更集中，而非成员数据的输出向量的分布相对较为平缓.这种差异性是模型过拟合的主要表现，也就是说成员推断攻击与模型的过拟合程度有很大关联.在这个研究方向上， Yeom 等^[16]研究了模型的过拟合对成员推断攻击的影响，他们通过理论和实验证实了模型的过拟合程度越强，模型泄露训练集成员关系信息的可能性越大；但同时指出，模型的过拟合并不是模型易受成员推断攻击的唯一因素，一些过拟合程度不高的模型也容易受到攻击.随后，Ashamed等^[17]进一步完善了黑盒场景下的成员推断攻击，他们在 2019 年提出了改进后的成员推断攻击，在极大地降低了实现这种攻击成本的同时，实现了与Shokri等^[15]相同的攻击效果，并更明确地展示了成员推断攻击出现的本质原因.即成员数据和非成员数据的预测向量间的差异主要体现为预测向量的集中度.同时他们提出了3种方法，不断减少了成员推断攻击的部署成本.第一种情况下，他们对目标模型的输出向量从大到小进行重排序，使模型对不同类别数据的输出向量的分布趋于一致，均为从大到小，这样就可以避免数据增强的过程，进而减少所需 shadow model 的数量，同时不需要知道目标模型的结构，只需要使用基础的网络结构（如 CNN^[21]、Logistic Re-gression^[22]）和随机森林^[23]等来构建shadow model即可.同时他们发现，只需要截取排序后预测向量的前3个概率值作为攻击模型的训练样本，也能达到较好的攻击效果；第二种情况下，他们提出了数据迁移攻击，即使用与目标模型的训练集分布不同的数据集来训练shadow model，最终获得的攻击模型同样能对目标模型的数据进行成员关系推断，并实现类似的攻击效果；第三种情况下，他们提出了threshold choosing，使用该策略可以确定出一个阈值 T，只要预测向量的最大值大于T，即称该向量对应的待测样本为成员数据，否则，为非成员数据.Ashamed等^[17]的工作进一步强化了成员推断攻击，极大地提升了该攻击的威胁性. ...

Ml-leaks:model and data independent membership inference attacks and defenses on machine learning models

4

2019

... 成员推断攻击（membership-inference attack）是一种更加容易实现的攻击类型.它是指攻击者将试图推断某个待测样本是否存在于目标模型的训练数据集中，从而获得待测样本的成员关系信息.例如，攻击者希望知道某个人的数据是否存在于某个公司的医疗诊断模型的训练数据集中，如果存在，那么可以推断出该个体的隐私信息.目标模型训练集中的数据被称为成员数据（member data），而不在训练集中的数据被称为非成员数据（non-member data）.同时由于攻击者往往不可能掌握目标模型，因此攻击者只能实施黑盒场景下的成员推断攻击.文献[15，16，17，18，19，20]已经对这种攻击进行了深入的研究.成员推断攻击是近两年来新兴的一个研究课题，这种攻击可以用于医疗诊断、基因测试等应用场景，它对用户的隐私数据提出了挑战，同时关于这种攻击技术的深入发展及其相关防御技术的探讨成为一个新的研究热点. ...

... 之后随着成员推断攻击技术的发展，人们发现这种攻击的本质就是目标模型对成员数据和非成员数据给出的预测向量存在差异，即成员数据的输出向量的分布更集中，而非成员数据的输出向量的分布相对较为平缓.这种差异性是模型过拟合的主要表现，也就是说成员推断攻击与模型的过拟合程度有很大关联.在这个研究方向上， Yeom 等^[16]研究了模型的过拟合对成员推断攻击的影响，他们通过理论和实验证实了模型的过拟合程度越强，模型泄露训练集成员关系信息的可能性越大；但同时指出，模型的过拟合并不是模型易受成员推断攻击的唯一因素，一些过拟合程度不高的模型也容易受到攻击.随后，Ashamed等^[17]进一步完善了黑盒场景下的成员推断攻击，他们在 2019 年提出了改进后的成员推断攻击，在极大地降低了实现这种攻击成本的同时，实现了与Shokri等^[15]相同的攻击效果，并更明确地展示了成员推断攻击出现的本质原因.即成员数据和非成员数据的预测向量间的差异主要体现为预测向量的集中度.同时他们提出了3种方法，不断减少了成员推断攻击的部署成本.第一种情况下，他们对目标模型的输出向量从大到小进行重排序，使模型对不同类别数据的输出向量的分布趋于一致，均为从大到小，这样就可以避免数据增强的过程，进而减少所需 shadow model 的数量，同时不需要知道目标模型的结构，只需要使用基础的网络结构（如 CNN^[21]、Logistic Re-gression^[22]）和随机森林^[23]等来构建shadow model即可.同时他们发现，只需要截取排序后预测向量的前3个概率值作为攻击模型的训练样本，也能达到较好的攻击效果；第二种情况下，他们提出了数据迁移攻击，即使用与目标模型的训练集分布不同的数据集来训练shadow model，最终获得的攻击模型同样能对目标模型的数据进行成员关系推断，并实现类似的攻击效果；第三种情况下，他们提出了threshold choosing，使用该策略可以确定出一个阈值 T，只要预测向量的最大值大于T，即称该向量对应的待测样本为成员数据，否则，为非成员数据.Ashamed等^[17]的工作进一步强化了成员推断攻击，极大地提升了该攻击的威胁性. ...

... [17]的工作进一步强化了成员推断攻击，极大地提升了该攻击的威胁性. ...

... 面向模型的防御是通过对模型结构做适当的修改，以此来减少模型被泄露的信息，或者降低模型的过拟合程度，从而完成对模型泄露和数据泄露的保护.Fredrikson 等^[33]提出当目标模型为决策树时，可使用CART决策树的变种，将样本的敏感特征的优先级调高或调低，他们通过实验证明，当敏感特征在决策树的根节点和叶子节点层级时，对model inversion 攻击能够达到较好的防御效果，其中当敏感属性位于根节点时，能达到最好的防御效果.Shokri 等^[15]和 Ahmed 等^[17]提出可以在目标模型中添加 Dropout 层，或者使用model stacking 的方法将不同的元学习器聚合在一起，又或者在目标模型中添加正则项等.通过实验，他们发现当目标模型使用这些方法后，能显著地减少成员推断攻击的准确率.Nasr等^[34]提出了一种基于对抗学习的防御方法，他们认为如果能计算出当前模型抵抗成员推断攻击的成功率，并将其作为一个对抗正则项加入损失函数中，那么在训练过程中使用 MIN-MAX 的对抗训练方式，最终就可以训练出一个模型，该模型下成员推断攻击的成功率将存在一个上界.最终实验表明该方法在使这个上界足够小的同时，能够达到较高的分类准确度. ...

Towards measuring membership privacy

1

2017

... 成员推断攻击（membership-inference attack）是一种更加容易实现的攻击类型.它是指攻击者将试图推断某个待测样本是否存在于目标模型的训练数据集中，从而获得待测样本的成员关系信息.例如，攻击者希望知道某个人的数据是否存在于某个公司的医疗诊断模型的训练数据集中，如果存在，那么可以推断出该个体的隐私信息.目标模型训练集中的数据被称为成员数据（member data），而不在训练集中的数据被称为非成员数据（non-member data）.同时由于攻击者往往不可能掌握目标模型，因此攻击者只能实施黑盒场景下的成员推断攻击.文献[15，16，17，18，19，20]已经对这种攻击进行了深入的研究.成员推断攻击是近两年来新兴的一个研究课题，这种攻击可以用于医疗诊断、基因测试等应用场景，它对用户的隐私数据提出了挑战，同时关于这种攻击技术的深入发展及其相关防御技术的探讨成为一个新的研究热点. ...

Understanding membership inferences on well-generalized learning models

1

2018

... 成员推断攻击（membership-inference attack）是一种更加容易实现的攻击类型.它是指攻击者将试图推断某个待测样本是否存在于目标模型的训练数据集中，从而获得待测样本的成员关系信息.例如，攻击者希望知道某个人的数据是否存在于某个公司的医疗诊断模型的训练数据集中，如果存在，那么可以推断出该个体的隐私信息.目标模型训练集中的数据被称为成员数据（member data），而不在训练集中的数据被称为非成员数据（non-member data）.同时由于攻击者往往不可能掌握目标模型，因此攻击者只能实施黑盒场景下的成员推断攻击.文献[15，16，17，18，19，20]已经对这种攻击进行了深入的研究.成员推断攻击是近两年来新兴的一个研究课题，这种攻击可以用于医疗诊断、基因测试等应用场景，它对用户的隐私数据提出了挑战，同时关于这种攻击技术的深入发展及其相关防御技术的探讨成为一个新的研究热点. ...

The unintended consequences of overfitting:Training data inference attacks

1

2017

... 成员推断攻击（membership-inference attack）是一种更加容易实现的攻击类型.它是指攻击者将试图推断某个待测样本是否存在于目标模型的训练数据集中，从而获得待测样本的成员关系信息.例如，攻击者希望知道某个人的数据是否存在于某个公司的医疗诊断模型的训练数据集中，如果存在，那么可以推断出该个体的隐私信息.目标模型训练集中的数据被称为成员数据（member data），而不在训练集中的数据被称为非成员数据（non-member data）.同时由于攻击者往往不可能掌握目标模型，因此攻击者只能实施黑盒场景下的成员推断攻击.文献[15，16，17，18，19，20]已经对这种攻击进行了深入的研究.成员推断攻击是近两年来新兴的一个研究课题，这种攻击可以用于医疗诊断、基因测试等应用场景，它对用户的隐私数据提出了挑战，同时关于这种攻击技术的深入发展及其相关防御技术的探讨成为一个新的研究热点. ...

Switching convolutional neural network for crowd counting

1

2017

... 之后随着成员推断攻击技术的发展，人们发现这种攻击的本质就是目标模型对成员数据和非成员数据给出的预测向量存在差异，即成员数据的输出向量的分布更集中，而非成员数据的输出向量的分布相对较为平缓.这种差异性是模型过拟合的主要表现，也就是说成员推断攻击与模型的过拟合程度有很大关联.在这个研究方向上， Yeom 等^[16]研究了模型的过拟合对成员推断攻击的影响，他们通过理论和实验证实了模型的过拟合程度越强，模型泄露训练集成员关系信息的可能性越大；但同时指出，模型的过拟合并不是模型易受成员推断攻击的唯一因素，一些过拟合程度不高的模型也容易受到攻击.随后，Ashamed等^[17]进一步完善了黑盒场景下的成员推断攻击，他们在 2019 年提出了改进后的成员推断攻击，在极大地降低了实现这种攻击成本的同时，实现了与Shokri等^[15]相同的攻击效果，并更明确地展示了成员推断攻击出现的本质原因.即成员数据和非成员数据的预测向量间的差异主要体现为预测向量的集中度.同时他们提出了3种方法，不断减少了成员推断攻击的部署成本.第一种情况下，他们对目标模型的输出向量从大到小进行重排序，使模型对不同类别数据的输出向量的分布趋于一致，均为从大到小，这样就可以避免数据增强的过程，进而减少所需 shadow model 的数量，同时不需要知道目标模型的结构，只需要使用基础的网络结构（如 CNN^[21]、Logistic Re-gression^[22]）和随机森林^[23]等来构建shadow model即可.同时他们发现，只需要截取排序后预测向量的前3个概率值作为攻击模型的训练样本，也能达到较好的攻击效果；第二种情况下，他们提出了数据迁移攻击，即使用与目标模型的训练集分布不同的数据集来训练shadow model，最终获得的攻击模型同样能对目标模型的数据进行成员关系推断，并实现类似的攻击效果；第三种情况下，他们提出了threshold choosing，使用该策略可以确定出一个阈值 T，只要预测向量的最大值大于T，即称该向量对应的待测样本为成员数据，否则，为非成员数据.Ashamed等^[17]的工作进一步强化了成员推断攻击，极大地提升了该攻击的威胁性. ...

On group comparisons with logistic regression models

1

2020

... 之后随着成员推断攻击技术的发展，人们发现这种攻击的本质就是目标模型对成员数据和非成员数据给出的预测向量存在差异，即成员数据的输出向量的分布更集中，而非成员数据的输出向量的分布相对较为平缓.这种差异性是模型过拟合的主要表现，也就是说成员推断攻击与模型的过拟合程度有很大关联.在这个研究方向上， Yeom 等^[16]研究了模型的过拟合对成员推断攻击的影响，他们通过理论和实验证实了模型的过拟合程度越强，模型泄露训练集成员关系信息的可能性越大；但同时指出，模型的过拟合并不是模型易受成员推断攻击的唯一因素，一些过拟合程度不高的模型也容易受到攻击.随后，Ashamed等^[17]进一步完善了黑盒场景下的成员推断攻击，他们在 2019 年提出了改进后的成员推断攻击，在极大地降低了实现这种攻击成本的同时，实现了与Shokri等^[15]相同的攻击效果，并更明确地展示了成员推断攻击出现的本质原因.即成员数据和非成员数据的预测向量间的差异主要体现为预测向量的集中度.同时他们提出了3种方法，不断减少了成员推断攻击的部署成本.第一种情况下，他们对目标模型的输出向量从大到小进行重排序，使模型对不同类别数据的输出向量的分布趋于一致，均为从大到小，这样就可以避免数据增强的过程，进而减少所需 shadow model 的数量，同时不需要知道目标模型的结构，只需要使用基础的网络结构（如 CNN^[21]、Logistic Re-gression^[22]）和随机森林^[23]等来构建shadow model即可.同时他们发现，只需要截取排序后预测向量的前3个概率值作为攻击模型的训练样本，也能达到较好的攻击效果；第二种情况下，他们提出了数据迁移攻击，即使用与目标模型的训练集分布不同的数据集来训练shadow model，最终获得的攻击模型同样能对目标模型的数据进行成员关系推断，并实现类似的攻击效果；第三种情况下，他们提出了threshold choosing，使用该策略可以确定出一个阈值 T，只要预测向量的最大值大于T，即称该向量对应的待测样本为成员数据，否则，为非成员数据.Ashamed等^[17]的工作进一步强化了成员推断攻击，极大地提升了该攻击的威胁性. ...

Random forest classifier for remote sensing classification

1

2005

... 之后随着成员推断攻击技术的发展，人们发现这种攻击的本质就是目标模型对成员数据和非成员数据给出的预测向量存在差异，即成员数据的输出向量的分布更集中，而非成员数据的输出向量的分布相对较为平缓.这种差异性是模型过拟合的主要表现，也就是说成员推断攻击与模型的过拟合程度有很大关联.在这个研究方向上， Yeom 等^[16]研究了模型的过拟合对成员推断攻击的影响，他们通过理论和实验证实了模型的过拟合程度越强，模型泄露训练集成员关系信息的可能性越大；但同时指出，模型的过拟合并不是模型易受成员推断攻击的唯一因素，一些过拟合程度不高的模型也容易受到攻击.随后，Ashamed等^[17]进一步完善了黑盒场景下的成员推断攻击，他们在 2019 年提出了改进后的成员推断攻击，在极大地降低了实现这种攻击成本的同时，实现了与Shokri等^[15]相同的攻击效果，并更明确地展示了成员推断攻击出现的本质原因.即成员数据和非成员数据的预测向量间的差异主要体现为预测向量的集中度.同时他们提出了3种方法，不断减少了成员推断攻击的部署成本.第一种情况下，他们对目标模型的输出向量从大到小进行重排序，使模型对不同类别数据的输出向量的分布趋于一致，均为从大到小，这样就可以避免数据增强的过程，进而减少所需 shadow model 的数量，同时不需要知道目标模型的结构，只需要使用基础的网络结构（如 CNN^[21]、Logistic Re-gression^[22]）和随机森林^[23]等来构建shadow model即可.同时他们发现，只需要截取排序后预测向量的前3个概率值作为攻击模型的训练样本，也能达到较好的攻击效果；第二种情况下，他们提出了数据迁移攻击，即使用与目标模型的训练集分布不同的数据集来训练shadow model，最终获得的攻击模型同样能对目标模型的数据进行成员关系推断，并实现类似的攻击效果；第三种情况下，他们提出了threshold choosing，使用该策略可以确定出一个阈值 T，只要预测向量的最大值大于T，即称该向量对应的待测样本为成员数据，否则，为非成员数据.Ashamed等^[17]的工作进一步强化了成员推断攻击，极大地提升了该攻击的威胁性. ...

Privacy risks of securing machine learning models against adversarial examples

1

2019

... 随着人们对成员推断攻击研究的深入，研究者们发现了成员推断攻击的一些新特性.如Song等^[24]发现当一个机器学习模型被加入了一些抵御对抗样本攻击的方法后，会提高该模型泄露成员隐私信息的风险.也就是说机器学习模型在对抗样本安全性和成员数据隐私性之间存在一个trade-off，如果提高了模型抵御对抗样本的能力，同时会提高从模型中推断出成员数据存在与否的可能性，反之，亦然.此外，Salem 等^[25]将成员推断攻击拓展到了在线学习领域.他们发现当机器学习模型完成在线学习后，可以通过更新前后的模型对同一个数据集给出的预测向量的差异，来完成对目标模型更新集中特定数据的存在性推断，甚至完成对更新集数据的重建.Hayes 等^[26]利用生成对抗网络（GAN）完成了成员推断攻击的构建.Nasr等^[27]也研究了白盒场景下成员推断攻击，他们利用成员数据和非成员数据在模型梯度上的差异，再结合输出向量上的差异，构建了能力更强的成员推断攻击模型，并成功绕过前提出的一些防御手段，达到了较高的攻击率.Leino等^[28]则进一步完善了白盒场景下的成员推断攻击，他们将输出向量、隐含层的权重、偏差、线性单元以及激活函数等特征结合起来，构建了鲁棒性更强的成员推断攻击，成功抵抗了目前针对成员推断攻击的大部分防御方法，并取得了较强的攻击效果. ...

Updates-leak:data set inference and reconstruction attacks in online learning

1

2019

... 随着人们对成员推断攻击研究的深入，研究者们发现了成员推断攻击的一些新特性.如Song等^[24]发现当一个机器学习模型被加入了一些抵御对抗样本攻击的方法后，会提高该模型泄露成员隐私信息的风险.也就是说机器学习模型在对抗样本安全性和成员数据隐私性之间存在一个trade-off，如果提高了模型抵御对抗样本的能力，同时会提高从模型中推断出成员数据存在与否的可能性，反之，亦然.此外，Salem 等^[25]将成员推断攻击拓展到了在线学习领域.他们发现当机器学习模型完成在线学习后，可以通过更新前后的模型对同一个数据集给出的预测向量的差异，来完成对目标模型更新集中特定数据的存在性推断，甚至完成对更新集数据的重建.Hayes 等^[26]利用生成对抗网络（GAN）完成了成员推断攻击的构建.Nasr等^[27]也研究了白盒场景下成员推断攻击，他们利用成员数据和非成员数据在模型梯度上的差异，再结合输出向量上的差异，构建了能力更强的成员推断攻击模型，并成功绕过前提出的一些防御手段，达到了较高的攻击率.Leino等^[28]则进一步完善了白盒场景下的成员推断攻击，他们将输出向量、隐含层的权重、偏差、线性单元以及激活函数等特征结合起来，构建了鲁棒性更强的成员推断攻击，成功抵抗了目前针对成员推断攻击的大部分防御方法，并取得了较强的攻击效果. ...

LOGAN:membership inference attacks against generative models

1

2019

... 随着人们对成员推断攻击研究的深入，研究者们发现了成员推断攻击的一些新特性.如Song等^[24]发现当一个机器学习模型被加入了一些抵御对抗样本攻击的方法后，会提高该模型泄露成员隐私信息的风险.也就是说机器学习模型在对抗样本安全性和成员数据隐私性之间存在一个trade-off，如果提高了模型抵御对抗样本的能力，同时会提高从模型中推断出成员数据存在与否的可能性，反之，亦然.此外，Salem 等^[25]将成员推断攻击拓展到了在线学习领域.他们发现当机器学习模型完成在线学习后，可以通过更新前后的模型对同一个数据集给出的预测向量的差异，来完成对目标模型更新集中特定数据的存在性推断，甚至完成对更新集数据的重建.Hayes 等^[26]利用生成对抗网络（GAN）完成了成员推断攻击的构建.Nasr等^[27]也研究了白盒场景下成员推断攻击，他们利用成员数据和非成员数据在模型梯度上的差异，再结合输出向量上的差异，构建了能力更强的成员推断攻击模型，并成功绕过前提出的一些防御手段，达到了较高的攻击率.Leino等^[28]则进一步完善了白盒场景下的成员推断攻击，他们将输出向量、隐含层的权重、偏差、线性单元以及激活函数等特征结合起来，构建了鲁棒性更强的成员推断攻击，成功抵抗了目前针对成员推断攻击的大部分防御方法，并取得了较强的攻击效果. ...

Comprehensive privacy analysis of deep learning:passive and active white-box inference attacks against centralized and federated learning

1

2019

... 随着人们对成员推断攻击研究的深入，研究者们发现了成员推断攻击的一些新特性.如Song等^[24]发现当一个机器学习模型被加入了一些抵御对抗样本攻击的方法后，会提高该模型泄露成员隐私信息的风险.也就是说机器学习模型在对抗样本安全性和成员数据隐私性之间存在一个trade-off，如果提高了模型抵御对抗样本的能力，同时会提高从模型中推断出成员数据存在与否的可能性，反之，亦然.此外，Salem 等^[25]将成员推断攻击拓展到了在线学习领域.他们发现当机器学习模型完成在线学习后，可以通过更新前后的模型对同一个数据集给出的预测向量的差异，来完成对目标模型更新集中特定数据的存在性推断，甚至完成对更新集数据的重建.Hayes 等^[26]利用生成对抗网络（GAN）完成了成员推断攻击的构建.Nasr等^[27]也研究了白盒场景下成员推断攻击，他们利用成员数据和非成员数据在模型梯度上的差异，再结合输出向量上的差异，构建了能力更强的成员推断攻击模型，并成功绕过前提出的一些防御手段，达到了较高的攻击率.Leino等^[28]则进一步完善了白盒场景下的成员推断攻击，他们将输出向量、隐含层的权重、偏差、线性单元以及激活函数等特征结合起来，构建了鲁棒性更强的成员推断攻击，成功抵抗了目前针对成员推断攻击的大部分防御方法，并取得了较强的攻击效果. ...

Stolen memories:leveraging model memorization for calibrated white-box membership inference

1

2019

... 随着人们对成员推断攻击研究的深入，研究者们发现了成员推断攻击的一些新特性.如Song等^[24]发现当一个机器学习模型被加入了一些抵御对抗样本攻击的方法后，会提高该模型泄露成员隐私信息的风险.也就是说机器学习模型在对抗样本安全性和成员数据隐私性之间存在一个trade-off，如果提高了模型抵御对抗样本的能力，同时会提高从模型中推断出成员数据存在与否的可能性，反之，亦然.此外，Salem 等^[25]将成员推断攻击拓展到了在线学习领域.他们发现当机器学习模型完成在线学习后，可以通过更新前后的模型对同一个数据集给出的预测向量的差异，来完成对目标模型更新集中特定数据的存在性推断，甚至完成对更新集数据的重建.Hayes 等^[26]利用生成对抗网络（GAN）完成了成员推断攻击的构建.Nasr等^[27]也研究了白盒场景下成员推断攻击，他们利用成员数据和非成员数据在模型梯度上的差异，再结合输出向量上的差异，构建了能力更强的成员推断攻击模型，并成功绕过前提出的一些防御手段，达到了较高的攻击率.Leino等^[28]则进一步完善了白盒场景下的成员推断攻击，他们将输出向量、隐含层的权重、偏差、线性单元以及激活函数等特征结合起来，构建了鲁棒性更强的成员推断攻击，成功抵抗了目前针对成员推断攻击的大部分防御方法，并取得了较强的攻击效果. ...

Exploiting unintended feature leakage in collaborative learning

1

2019

... 梯度更新是指模型每一次对模型参数进行优化时，参数会根据计算产生的梯度来进行更新，而在训练过程中不断产生的梯度同样隐含着某些隐私信息.梯度更新的交换往往只出现在模型的分布式训练中，拥有不同数据的多方主体，每一轮仅使用自己的数据来更新模型，只对模型参数的更新进行交换汇总，分布式地完成统一模型的训练.在这个过程中，中心服务器和任何训练主题都不会获得其他主体拥有的训练数据.然而即便是在原始数据获得良好保护的情况下，模型梯度更新仍会导致隐私泄露.尽管模型在训练的过程中已经使用了很多方法防止原始数据泄露，在多方分布式的 AI 模型训练中，个体往往会使用自己的数据对当前的模型进行训练，并将模型的参数更新传递给其他个体或者中心服务器.在最近机器学习和信息安全的国际会议上，出现了一些利用模型参数更新来获取他人训练数据信息的攻击研究.Melis 等^[29]利用训练过程中其他用户更新的模型参数作为输入特征，训练攻击模型，用于推测其他用户数据集的相关属性；还有研究者^[30,31]利用对抗生成网络生成恢复其他用户的训练数据的方法，在多方协作训练过程中，使用公共模型作为基本的判别器，将模型参数更新作为输入训练生成器，最终获取受害者特定类别的训练数据.而在最近的一项工作中^[32]，作者并未使用 GAN 等生成模型，而是基于优化算法对模拟图片的像素进行调整，使其在公共模型上反向传播得到的梯度和真实梯度相近，经过多轮的优化模拟图片会慢慢接近真实的训练数据. ...

Beyond inferring class representatives:user-level privacy leakage from federated learning

1

2019

... 梯度更新是指模型每一次对模型参数进行优化时，参数会根据计算产生的梯度来进行更新，而在训练过程中不断产生的梯度同样隐含着某些隐私信息.梯度更新的交换往往只出现在模型的分布式训练中，拥有不同数据的多方主体，每一轮仅使用自己的数据来更新模型，只对模型参数的更新进行交换汇总，分布式地完成统一模型的训练.在这个过程中，中心服务器和任何训练主题都不会获得其他主体拥有的训练数据.然而即便是在原始数据获得良好保护的情况下，模型梯度更新仍会导致隐私泄露.尽管模型在训练的过程中已经使用了很多方法防止原始数据泄露，在多方分布式的 AI 模型训练中，个体往往会使用自己的数据对当前的模型进行训练，并将模型的参数更新传递给其他个体或者中心服务器.在最近机器学习和信息安全的国际会议上，出现了一些利用模型参数更新来获取他人训练数据信息的攻击研究.Melis 等^[29]利用训练过程中其他用户更新的模型参数作为输入特征，训练攻击模型，用于推测其他用户数据集的相关属性；还有研究者^[30,31]利用对抗生成网络生成恢复其他用户的训练数据的方法，在多方协作训练过程中，使用公共模型作为基本的判别器，将模型参数更新作为输入训练生成器，最终获取受害者特定类别的训练数据.而在最近的一项工作中^[32]，作者并未使用 GAN 等生成模型，而是基于优化算法对模拟图片的像素进行调整，使其在公共模型上反向传播得到的梯度和真实梯度相近，经过多轮的优化模拟图片会慢慢接近真实的训练数据. ...

Deep models under the GAN:information leakage from collaborative deep learning

1

2017

... 梯度更新是指模型每一次对模型参数进行优化时，参数会根据计算产生的梯度来进行更新，而在训练过程中不断产生的梯度同样隐含着某些隐私信息.梯度更新的交换往往只出现在模型的分布式训练中，拥有不同数据的多方主体，每一轮仅使用自己的数据来更新模型，只对模型参数的更新进行交换汇总，分布式地完成统一模型的训练.在这个过程中，中心服务器和任何训练主题都不会获得其他主体拥有的训练数据.然而即便是在原始数据获得良好保护的情况下，模型梯度更新仍会导致隐私泄露.尽管模型在训练的过程中已经使用了很多方法防止原始数据泄露，在多方分布式的 AI 模型训练中，个体往往会使用自己的数据对当前的模型进行训练，并将模型的参数更新传递给其他个体或者中心服务器.在最近机器学习和信息安全的国际会议上，出现了一些利用模型参数更新来获取他人训练数据信息的攻击研究.Melis 等^[29]利用训练过程中其他用户更新的模型参数作为输入特征，训练攻击模型，用于推测其他用户数据集的相关属性；还有研究者^[30,31]利用对抗生成网络生成恢复其他用户的训练数据的方法，在多方协作训练过程中，使用公共模型作为基本的判别器，将模型参数更新作为输入训练生成器，最终获取受害者特定类别的训练数据.而在最近的一项工作中^[32]，作者并未使用 GAN 等生成模型，而是基于优化算法对模拟图片的像素进行调整，使其在公共模型上反向传播得到的梯度和真实梯度相近，经过多轮的优化模拟图片会慢慢接近真实的训练数据. ...

Deep leakage from gradients

1

2019

... 梯度更新是指模型每一次对模型参数进行优化时，参数会根据计算产生的梯度来进行更新，而在训练过程中不断产生的梯度同样隐含着某些隐私信息.梯度更新的交换往往只出现在模型的分布式训练中，拥有不同数据的多方主体，每一轮仅使用自己的数据来更新模型，只对模型参数的更新进行交换汇总，分布式地完成统一模型的训练.在这个过程中，中心服务器和任何训练主题都不会获得其他主体拥有的训练数据.然而即便是在原始数据获得良好保护的情况下，模型梯度更新仍会导致隐私泄露.尽管模型在训练的过程中已经使用了很多方法防止原始数据泄露，在多方分布式的 AI 模型训练中，个体往往会使用自己的数据对当前的模型进行训练，并将模型的参数更新传递给其他个体或者中心服务器.在最近机器学习和信息安全的国际会议上，出现了一些利用模型参数更新来获取他人训练数据信息的攻击研究.Melis 等^[29]利用训练过程中其他用户更新的模型参数作为输入特征，训练攻击模型，用于推测其他用户数据集的相关属性；还有研究者^[30,31]利用对抗生成网络生成恢复其他用户的训练数据的方法，在多方协作训练过程中，使用公共模型作为基本的判别器，将模型参数更新作为输入训练生成器，最终获取受害者特定类别的训练数据.而在最近的一项工作中^[32]，作者并未使用 GAN 等生成模型，而是基于优化算法对模拟图片的像素进行调整，使其在公共模型上反向传播得到的梯度和真实梯度相近，经过多轮的优化模拟图片会慢慢接近真实的训练数据. ...

Model inversion attacks that exploit confidence information and basic countermeasures

2

2015

... 面向模型的防御是通过对模型结构做适当的修改，以此来减少模型被泄露的信息，或者降低模型的过拟合程度，从而完成对模型泄露和数据泄露的保护.Fredrikson 等^[33]提出当目标模型为决策树时，可使用CART决策树的变种，将样本的敏感特征的优先级调高或调低，他们通过实验证明，当敏感特征在决策树的根节点和叶子节点层级时，对model inversion 攻击能够达到较好的防御效果，其中当敏感属性位于根节点时，能达到最好的防御效果.Shokri 等^[15]和 Ahmed 等^[17]提出可以在目标模型中添加 Dropout 层，或者使用model stacking 的方法将不同的元学习器聚合在一起，又或者在目标模型中添加正则项等.通过实验，他们发现当目标模型使用这些方法后，能显著地减少成员推断攻击的准确率.Nasr等^[34]提出了一种基于对抗学习的防御方法，他们认为如果能计算出当前模型抵抗成员推断攻击的成功率，并将其作为一个对抗正则项加入损失函数中，那么在训练过程中使用 MIN-MAX 的对抗训练方式，最终就可以训练出一个模型，该模型下成员推断攻击的成功率将存在一个上界.最终实验表明该方法在使这个上界足够小的同时，能够达到较高的分类准确度. ...

... 对于截断混淆，Shokri等^[15]提出可以对目标模型生成的输出向量进行截取，如只给出输出向量中概率值较高的类别的相应结果，或者降低输出向量中小数位的保留位数，Fredrikson 等^[33]提出可以对目标模型的输出向量进行取整，达到对输出向量的修饰效果.通过截断混淆等方法，研究者们削弱对模型逆向攻击和成员推断攻击的攻击效果. ...

Machine learning with membership privacy using adversarial regularization

1

2018

... 面向模型的防御是通过对模型结构做适当的修改，以此来减少模型被泄露的信息，或者降低模型的过拟合程度，从而完成对模型泄露和数据泄露的保护.Fredrikson 等^[33]提出当目标模型为决策树时，可使用CART决策树的变种，将样本的敏感特征的优先级调高或调低，他们通过实验证明，当敏感特征在决策树的根节点和叶子节点层级时，对model inversion 攻击能够达到较好的防御效果，其中当敏感属性位于根节点时，能达到最好的防御效果.Shokri 等^[15]和 Ahmed 等^[17]提出可以在目标模型中添加 Dropout 层，或者使用model stacking 的方法将不同的元学习器聚合在一起，又或者在目标模型中添加正则项等.通过实验，他们发现当目标模型使用这些方法后，能显著地减少成员推断攻击的准确率.Nasr等^[34]提出了一种基于对抗学习的防御方法，他们认为如果能计算出当前模型抵抗成员推断攻击的成功率，并将其作为一个对抗正则项加入损失函数中，那么在训练过程中使用 MIN-MAX 的对抗训练方式，最终就可以训练出一个模型，该模型下成员推断攻击的成功率将存在一个上界.最终实验表明该方法在使这个上界足够小的同时，能够达到较高的分类准确度. ...

MIASec:enabling data indistinguishability against membership inference attacks in MLaaS

1

2020

... 此外，Wang等^[35]构建了MIASec，他们提出可以对训练数据在目标模型的关键特征上进行特定的修改，从而使模型对成员数据和非成员数据的预测向量的分布难以区分，进而可以完成对成员推断攻击的防御.如前文所述，模型逆向攻击的核心原因是输出向量包含了训练样本的信息，成员推断攻击的核心原因是模型对训练样本和测试样本的预测向量的分布不一致.因此，防御模型逆向攻击就是尽可能地降低输出向量与输入向量间的关联，防御成员推断攻击就是尽可能地缩小输出向量间的分布差异.面向模型的防御旨在通过修改模型的结构和损失函数，使目标模型给出的输出向量中包含尽可能少的信息，从而完成较好的防御效果.但这种方式仍有缺陷，它对目标模型的性能有较大影响，导致其分类准确度出现波动.因此，防御方需要在模型的性能与其鲁棒性之间做出平衡. ...

The Value of collaboration in convex machine learning with differential privacy

1

2020

... 近年来一些工作开始将机器学习与加密技术结合起来保护模型的隐私性.Nan 等^[36]提出在分布式训练的场景下，可以在每次模型梯度更新的同时，使用差分隐私技术对梯度做一定的修饰，从而保护训练数据集的隐私性，尽管这种方法会降低模型的最终性能，但确实能大幅提高训练集的隐私性.同样，Patra等^[37]也借助于安全多方计算的技术重新实现了加密条件下的矩阵乘法和激活函数的计算，在该框架的支持下，可以有效地保护训练过程中训练集的隐私性.这些隐私保护机器学习技术的思想也能够用在针对数据泄露的防御中，加强模型训练集的隐私性. ...

BLAZE:blazing fast privacy-preserving machine learning

1

2020

... 近年来一些工作开始将机器学习与加密技术结合起来保护模型的隐私性.Nan 等^[36]提出在分布式训练的场景下，可以在每次模型梯度更新的同时，使用差分隐私技术对梯度做一定的修饰，从而保护训练数据集的隐私性，尽管这种方法会降低模型的最终性能，但确实能大幅提高训练集的隐私性.同样，Patra等^[37]也借助于安全多方计算的技术重新实现了加密条件下的矩阵乘法和激活函数的计算，在该框架的支持下，可以有效地保护训练过程中训练集的隐私性.这些隐私保护机器学习技术的思想也能够用在针对数据泄露的防御中，加强模型训练集的隐私性. ...

MemGuard:defending against black-box membership inference attacks via adversarial examples

1

2019

... 对于噪声混淆，Jia等^[38]基于对抗样本的理念提出了Mem-guard.他们发现成员推断攻击对目标模型给出的预测向量的变化非常敏感，如果为这些预测向量添加一个精心设计的噪声，从而混淆成员数据和非成员数据的预测向量分布的差异，就可以生成一个对实际结果没有影响的“对抗样本”，这样就可以完成对成员推断攻击的防御.He等^[39]提出可以用差分隐私的方法对输出向量加噪声进行混淆，他们认为可以利用差分隐私的算法来移除输出向量自身的特征，但同时保留了其关于分类结果的信息，使输出向量难以被区分.此外，他们还提出可以在损失函数中添加噪声项，在轻微地牺牲分类准确率的同时，提高输出向量的隐私性，完成对成员推断攻击的防御. ...

Towards privacy and security of deep learning systems:a survey

2

2019

... 对于噪声混淆，Jia等^[38]基于对抗样本的理念提出了Mem-guard.他们发现成员推断攻击对目标模型给出的预测向量的变化非常敏感，如果为这些预测向量添加一个精心设计的噪声，从而混淆成员数据和非成员数据的预测向量分布的差异，就可以生成一个对实际结果没有影响的“对抗样本”，这样就可以完成对成员推断攻击的防御.He等^[39]提出可以用差分隐私的方法对输出向量加噪声进行混淆，他们认为可以利用差分隐私的算法来移除输出向量自身的特征，但同时保留了其关于分类结果的信息，使输出向量难以被区分.此外，他们还提出可以在损失函数中添加噪声项，在轻微地牺牲分类准确率的同时，提高输出向量的隐私性，完成对成员推断攻击的防御. ...

... 在查询行为检测中，由于攻击者往往需要对目标模型进行大量的测试，所以其查询行为与正常行为会有较大不同.根据这种差异可以在一定程度上防御模型泄露和数据泄露攻击.针对数据泄露攻击的特点，He等^[39]提出可以根据用户查询的行为特征，在样本输入阶段，完成对成员推断攻击的防御.攻击者实行成员推断攻击时有时需要查询大量目标模型，模型提供者可以根据用户的查询频率实现对查询次数的限制，从而提升攻击者部署成员推断攻击的成本. ...

Model extraction warning in MLaaS paradigm

1

2018

... 在异常样本检测中，攻击者为了窃取黑盒的在线模型，往往需要对在线模型进行大量的查询操作.为了提高窃取效率，攻击者会对正常的样本进行有目的地修改.而针对模型泄露攻击的特点，防御者主要通过检测对异常样本的查询，来识别模型窃取行为.PRADA^[2]是一种针对模型窃取攻击进行检测的防御技术，它根据多个样本特征之间的距离分布来判断该用户是否正在施展模型窃取攻击，该文献发现随机选取的正常样本特征间的距离大致服从正态分布，而模型窃取过程中查询的样本往往具有鲜明的人工修改迹象，样本间距离分布与正态分布区别较大，通过这种方式，对若干次的查询进行统计检验则可检测异常查询用户.查询样本的特征分布也可以被用于检测，Kesarwani 等^[40]记录下用户的查询样本并检查其在特征空间中的分布，来评估模型被盗取的风险；Yu等^[12]提出正常样本的特征分布与人工修改的样本特征分布相比有较大的区别，可以通过区分样本的特征分布来检测异常查询. ...

Towards reverse-engineering black-box neural networks

1

2019

... 数据泄露攻击的本质是模型的参数、模型的输出向量等信息是根据输入样本而产生的，即无论如何，这些数据都会包含原始数据的信息，也就是说任何一个人工智能模型都有遭受数据泄露的风险，并且无法完全抵抗这种攻击的威胁.因此，未来针对人工智能模型的数据泄露攻击的发展主要包括两类：第一类是优化攻击模型，增强其从输出向量中提取信息的能力；第二类是扩展攻击场景，将数据泄露攻击应用到更多的场景中，如迁移学习、强化学习等.此外，利用模型的输出信息进行隐私窃取，这种攻击往往需要目标模型进行大量的查询操作，如在模型窃取中，由于深度学习网络具有参数规模大、高度的非线性、非凸性等性质，导致训练替代模型需要数以千计的查询次数^[10].大量的查询提高了攻击的成本，并且增加了被防御者发现的风险，因此如何更加高效地进行隐私窃取是目前攻击者所要研究的主要方向，在这个方面研究者们进行了大量的尝试，这些方法的主要思想是建立一类样本选取策略，从而使用更具有代表性的样本进行攻击，从而提高攻击效率^[41,42]，如积极学习^[43,44]、自然进化策略^[45]等方法.对攻击的深入研究不仅能够促进隐私保护的不断进化，同时有助于研究者对人工智能模型更加深刻的理解. ...

Knockoff nets:Stealing functionality of black-box models

1

2019

... 数据泄露攻击的本质是模型的参数、模型的输出向量等信息是根据输入样本而产生的，即无论如何，这些数据都会包含原始数据的信息，也就是说任何一个人工智能模型都有遭受数据泄露的风险，并且无法完全抵抗这种攻击的威胁.因此，未来针对人工智能模型的数据泄露攻击的发展主要包括两类：第一类是优化攻击模型，增强其从输出向量中提取信息的能力；第二类是扩展攻击场景，将数据泄露攻击应用到更多的场景中，如迁移学习、强化学习等.此外，利用模型的输出信息进行隐私窃取，这种攻击往往需要目标模型进行大量的查询操作，如在模型窃取中，由于深度学习网络具有参数规模大、高度的非线性、非凸性等性质，导致训练替代模型需要数以千计的查询次数^[10].大量的查询提高了攻击的成本，并且增加了被防御者发现的风险，因此如何更加高效地进行隐私窃取是目前攻击者所要研究的主要方向，在这个方面研究者们进行了大量的尝试，这些方法的主要思想是建立一类样本选取策略，从而使用更具有代表性的样本进行攻击，从而提高攻击效率^[41,42]，如积极学习^[43,44]、自然进化策略^[45]等方法.对攻击的深入研究不仅能够促进隐私保护的不断进化，同时有助于研究者对人工智能模型更加深刻的理解. ...

Exploring connections between active learning and model extraction

1

2018

... 数据泄露攻击的本质是模型的参数、模型的输出向量等信息是根据输入样本而产生的，即无论如何，这些数据都会包含原始数据的信息，也就是说任何一个人工智能模型都有遭受数据泄露的风险，并且无法完全抵抗这种攻击的威胁.因此，未来针对人工智能模型的数据泄露攻击的发展主要包括两类：第一类是优化攻击模型，增强其从输出向量中提取信息的能力；第二类是扩展攻击场景，将数据泄露攻击应用到更多的场景中，如迁移学习、强化学习等.此外，利用模型的输出信息进行隐私窃取，这种攻击往往需要目标模型进行大量的查询操作，如在模型窃取中，由于深度学习网络具有参数规模大、高度的非线性、非凸性等性质，导致训练替代模型需要数以千计的查询次数^[10].大量的查询提高了攻击的成本，并且增加了被防御者发现的风险，因此如何更加高效地进行隐私窃取是目前攻击者所要研究的主要方向，在这个方面研究者们进行了大量的尝试，这些方法的主要思想是建立一类样本选取策略，从而使用更具有代表性的样本进行攻击，从而提高攻击效率^[41,42]，如积极学习^[43,44]、自然进化策略^[45]等方法.对攻击的深入研究不仅能够促进隐私保护的不断进化，同时有助于研究者对人工智能模型更加深刻的理解. ...

Query-efficient black-box attack by active learning

1

2018

... 数据泄露攻击的本质是模型的参数、模型的输出向量等信息是根据输入样本而产生的，即无论如何，这些数据都会包含原始数据的信息，也就是说任何一个人工智能模型都有遭受数据泄露的风险，并且无法完全抵抗这种攻击的威胁.因此，未来针对人工智能模型的数据泄露攻击的发展主要包括两类：第一类是优化攻击模型，增强其从输出向量中提取信息的能力；第二类是扩展攻击场景，将数据泄露攻击应用到更多的场景中，如迁移学习、强化学习等.此外，利用模型的输出信息进行隐私窃取，这种攻击往往需要目标模型进行大量的查询操作，如在模型窃取中，由于深度学习网络具有参数规模大、高度的非线性、非凸性等性质，导致训练替代模型需要数以千计的查询次数^[10].大量的查询提高了攻击的成本，并且增加了被防御者发现的风险，因此如何更加高效地进行隐私窃取是目前攻击者所要研究的主要方向，在这个方面研究者们进行了大量的尝试，这些方法的主要思想是建立一类样本选取策略，从而使用更具有代表性的样本进行攻击，从而提高攻击效率^[41,42]，如积极学习^[43,44]、自然进化策略^[45]等方法.对攻击的深入研究不仅能够促进隐私保护的不断进化，同时有助于研究者对人工智能模型更加深刻的理解. ...

Black-box adversarial attacks with limited queries and information

1

2018

... 数据泄露攻击的本质是模型的参数、模型的输出向量等信息是根据输入样本而产生的，即无论如何，这些数据都会包含原始数据的信息，也就是说任何一个人工智能模型都有遭受数据泄露的风险，并且无法完全抵抗这种攻击的威胁.因此，未来针对人工智能模型的数据泄露攻击的发展主要包括两类：第一类是优化攻击模型，增强其从输出向量中提取信息的能力；第二类是扩展攻击场景，将数据泄露攻击应用到更多的场景中，如迁移学习、强化学习等.此外，利用模型的输出信息进行隐私窃取，这种攻击往往需要目标模型进行大量的查询操作，如在模型窃取中，由于深度学习网络具有参数规模大、高度的非线性、非凸性等性质，导致训练替代模型需要数以千计的查询次数^[10].大量的查询提高了攻击的成本，并且增加了被防御者发现的风险，因此如何更加高效地进行隐私窃取是目前攻击者所要研究的主要方向，在这个方面研究者们进行了大量的尝试，这些方法的主要思想是建立一类样本选取策略，从而使用更具有代表性的样本进行攻击，从而提高攻击效率^[41,42]，如积极学习^[43,44]、自然进化策略^[45]等方法.对攻击的深入研究不仅能够促进隐私保护的不断进化，同时有助于研究者对人工智能模型更加深刻的理解. ...

人工智能模型数据泄露的攻击与防御研究综述

Survey of artificial intelligence data security and privacy protection

1 引言

2 AI数据与隐私泄露

2.1 基于模型输出的数据泄露

2.2 基于梯度更新的数据泄露

3 AI数据与隐私保护

3.1 模型结构防御

3.2 信息混淆防御

3.3 查询控制防御

4 研究展望

4.1 高效的数据泄露攻击技术发展

4.2 有效的数据泄露攻击的防御技术发展

5 结束语

参考文献

原文顺序

文献年度倒序

文中引用次数倒序

被引期刊影响因子

人工智能模型数据泄露的攻击与防御研究综述

Survey of artificial intelligence data security and privacy protection

1 引言

2 AI数据与隐私泄露

2.1 基于模型输出的数据泄露

2.2 基于梯度更新的数据泄露

3 AI数据与隐私保护

3.1 模型结构防御

3.2 信息混淆防御

3.3 查询控制防御

4 研究展望

4.1 高效的数据泄露攻击技术发展

4.2 有效的数据泄露攻击的防御技术发展

5 结束语

参考文献 View Option 原文顺序 文献年度倒序 文中引用次数倒序 被引期刊影响因子

参考文献

原文顺序

文献年度倒序

文中引用次数倒序

被引期刊影响因子