一种基于Spark的大数据匿名化系统实现

doi:10.11959/j.issn.1000-0801.2018133

电信科学 ›› 2018, Vol. 34 ›› Issue (4): 156-161.doi: 10.11959/j.issn.1000-0801.2018133

一种基于Spark的大数据匿名化系统实现

卞超轶^1,²,朱少敏¹,周涛¹

¹ 北京启明星辰信息安全技术有限公司，北京 100193
² 北京邮电大学，北京 100876

修回日期:2018-02-10 出版日期:2018-04-01 发布日期:2018-05-02
作者简介:卞超轶（1987-），男，博士，北京启明星辰信息安全技术有限公司高级研究员，启明星辰博士后工作站—北京邮电大学博士后流动站联合培养博士后，主要研究方向为大数据自身安全、大数据安全分析等。|朱少敏（1983-），男，博士，北京启明星辰信息安全技术有限公司前线技术专家团成员，主要研究方向为电力系统信息安全、二次系统安全防护、多媒体信息处理等。|周涛（1979-），男，博士，北京启明星辰信息安全技术有限公司教授级高级工程师，主要研究方向为大数据安全分析、事件关联分析、入侵检测等。

Implementation of a big data anonymization system based on Spark

Chaoyi BIAN^1,²,Shaomin ZHU¹,Tao ZHOU¹

¹ Beijing Venus Information Security Technology Incorporated Company,Beijing 100193,China
² Beijing University of Posts and Telecommunications,Beijing 100876,China

Revised:2018-02-10 Online:2018-04-01 Published:2018-05-02

摘要/Abstract

摘要：

分组匿名化框架是一类经典的数据匿名化技术，它通过构造匿名记录的组，使得同一组内的不同数据无法被识别区分，从而达到隐私防护的效果。电力行业大数据分析涉及电力企业核心数据、用户隐私数据，其数据敏感度更强，传统的数据匿名化系统已经无法满足电力行业大数据业务应用和安全防护的需要。基于此，设计并实现了一种基于Spark的新型大数据匿名化系统，提供对Hadoop平台上多种数据格式的支持，并有效提高对大数据的匿名化处理效率。

关键词: 数据匿名化, 隐私, 电力行业, 安全防护, Spark

Abstract:

Group based anonymization is a classical data anonymization framework,which achieves the effect of privacy protection by constructing groups of anonymized data records ensuring that records in the same group cannot be distinguished with each other.The electric power industry big data analysis involves the core data of the power enterprises and the user privacy data,the data sensitivity is stronger,traditional data anonymization systems are unable to meet the needs of big data business applications and safety protection of electric power industry.A new big data anonymization system based on Spark was designed and implemented,which could provide the support for multiple data formats stored on Hadoop and substantially improve the processing efficiency for big data.

Key words: data anonymization, privacy, electric power industry, safety protection, Spark

中图分类号:

TP391

卞超轶,朱少敏,周涛. 一种基于Spark的大数据匿名化系统实现[J]. 电信科学, 2018, 34(4): 156-161.

Chaoyi BIAN,Shaomin ZHU,Tao ZHOU. Implementation of a big data anonymization system based on Spark[J]. Telecommunications Science, 2018, 34(4): 156-161.

图/表 7

表1

表2

表3

图1

图2

图3

图4

参考文献 9

[1]	Apache Software Foundation. Apache HadoopEB]. 2011.
[2]	Apache Software Foundation. Apache SparkEB]. 2014.
[3]	SWEENEY L . K-anonymity:a model for protecting privacy[J]. International Journal of Uncertainty,Fuzziness and Knowledge-Based Systems, 2002,10(5): 557-570.
[4]	MACHANAVAJJHALA A , KIFER D , GEHRKE J ,et al. L-diversity:privacy beyondk-anonymity[J]. ACM Transactions on Knowledge Discovery from Data (TKDD), 2007,1(1): 3.
[5]	FUNG B , WANG K , CHEN R ,et al. Privacy-preserving data publishing:a survey of recent developments[J]. ACM Computing Surveys (Csur), 2010,42(4): 14.
[6]	PRASSER F , KOHLMAYER F . Putting statistical disclosure control into practice:the ARX data anonymization tool[M]. Berlin: Springer International Publishing, 2015.
[7]	JADHAV R H , INGLE R B . A survey on data anonymization approaches using MapReduce framework on cloud[J]. Digital Image Processing, 2015,7(2): 48-49.
[8]	LEFEVRE K , DEWITT D J , RAMAKRISHNAN R . Mondrian multidimensional k-anonymity[C]// International Conference on Data Engineering,April 3-7,2006,Atlanta,GA,USA. Piscataway:IEEE Press, 2006:25.
[9]	QIYUAN G . A survey on data anonymization approaches using MapReduce framework on cloudEB]. 2015.

序号	非敏感信息			敏感信息
序号	邮编	年龄/岁	国籍	用电量
1	15072	29	英国	较大
2	15041	27	美国	较大
3	15041	22	日本	一般
4	15072	25	美国	一般
5	12904	51	印度	很小
6	12904	53	英国	较大
7	12907	43	美国	一般
8	12907	41	美国	一般
9	15072	33	美国	很小
10	15072	39	印度	很小
11	15041	38	日本	很小
12	15041	37	美国	很小

序号	非敏感信息			敏感信息
序号	邮编	年龄/岁	国籍	用电量
1	150**	<30	*	较大
2	150**	<30	*	较大
3	150**	<30	*	一般
4	150**	<30	*	一般
5	1290*	≥ 40	*	很小
6	1290*	≥ 40	*	较大
7	1290*	≥ 40	*	一般
8	1290*	≥ 40	*	一般
9	150**	3*	*	很小
10	150**	3*	*	很小
11	150**	3*	*	很小
12	150**	3*	*	很小

序号	非敏感信息			用电量敏感信息
序号	邮编	年龄/岁	国籍	用电量敏感信息
1	1507*	≤ 40	*	较大
2	1507*	≤ 40	*	一般
3	1507*	≤ 40	*	很小
4	1507*	≤ 40	*	很小
5	1290*	>40	*	很小
6	1290*	>40	*	较大
7	1290*	>40	*	一般
8	1290*	>40	*	一般
9	1504*	≤ 40	*	较大
10	1504*	≤ 40	*	一般
11	1504*	≤ 40	*	很小
12	1504*	≤ 40	*	很小

[1]	章坚武, 安彦军, 邓黄燕. DNS攻击检测与安全防护研究综述[J]. 电信科学, 2022, 38(9): 1-17.
[2]	何英杰, 李启伟, 孙涵, 郜迪, 董剑峰, 杨书华. 面向物联网轻量级隐私保护的真值发现机制[J]. 电信科学, 2021, 37(5): 124-132.
[3]	王双星, 罗劲瑭, 帅莉莎, 张佳敏, 张敏, 阳小龙. 基于区块链的云数据匿名确定性删除方法[J]. 电信科学, 2021, 37(3): 90-104.
[4]	谢高畅, 卢华, 唐琴琴, 朱涵, 梁成昊, 文雯, 谢人超. 区块链在轨道交通边缘计算网络中的应用[J]. 电信科学, 2021, 37(10): 117-125.
[5]	张驰, 陆晔, 罗渝平, 孙晓凯, 祝涵珂. 一种复杂场景下的视频流人脸隐私保护技术[J]. 电信科学, 2021, 37(1): 94-101.
[6]	彭绍亮,白亮,王力,程敏霞,王树林. 面向智慧医疗的可信边缘计算[J]. 电信科学, 2020, 36(6): 56-63.
[7]	刘姿杉,程强,吕博. 面向机器学习的隐私保护关键技术研究综述[J]. 电信科学, 2020, 36(11): 18-27.
[8]	江伟玉, 刘冰洋, 王闯. 内生安全网络架构[J]. 电信科学, 2019, 35(9): 20-28.
[9]	徐明,杨雪,章坚武. 移动设备网络流量分析技术综述[J]. 电信科学, 2018, 34(4): 98-108.
[10]	陈烨,许冬瑾,肖亮. 基于区块链的网络安全技术综述[J]. 电信科学, 2018, 34(3): 10-16.
[11]	周胜利,陈斌,吴礼发. 大数据环境下电信运营商数据安全保护方案[J]. 电信科学, 2017, 33(5): 119-125.
[12]	季新生,梁浩,扈红超. 天地一体化信息网络安全防护技术的新思考[J]. 电信科学, 2017, 33(12): 24-35.
[13]	李卓航. 一种改进的CLTree算法[J]. 电信科学, 2016, 32(8): 124-127.
[14]	邹颖,王一蓉,王艳茹,王思宁. 国网客服中心南北园区无线VPN组网结构及安全防护[J]. 电信科学, 2016, 32(2): 175-181.
[15]	徐影,吴钊,李祉岐. 面向大型企业信息安全建设的虚拟化威胁感知技术[J]. 电信科学, 2016, 32(12): 149-156.

一种基于Spark的大数据匿名化系统实现

Implementation of a big data anonymization system based on Spark

在线阅读

PDF下载

可视化

摘要/Abstract

引用本文

使用本文

图/表 7

参考文献 9

相关文章 15

Metrics

推荐阅读 0