电信科学 ›› 2018, Vol. 34 ›› Issue (4): 156-161.doi: 10.11959/j.issn.1000-0801.2018133

• 电力信息化专栏 • 上一篇    下一篇

一种基于Spark的大数据匿名化系统实现

卞超轶1,2,朱少敏1,周涛1   

  1. 1 北京启明星辰信息安全技术有限公司,北京 100193
    2 北京邮电大学,北京 100876
  • 修回日期:2018-02-10 出版日期:2018-04-01 发布日期:2018-05-02
  • 作者简介:卞超轶(1987-),男,博士,北京启明星辰信息安全技术有限公司高级研究员,启明星辰博士后工作站—北京邮电大学博士后流动站联合培养博士后,主要研究方向为大数据自身安全、大数据安全分析等。|朱少敏(1983-),男,博士,北京启明星辰信息安全技术有限公司前线技术专家团成员,主要研究方向为电力系统信息安全、二次系统安全防护、多媒体信息处理等。|周涛(1979-),男,博士,北京启明星辰信息安全技术有限公司教授级高级工程师,主要研究方向为大数据安全分析、事件关联分析、入侵检测等。

Implementation of a big data anonymization system based on Spark

Chaoyi BIAN1,2,Shaomin ZHU1,Tao ZHOU1   

  1. 1 Beijing Venus Information Security Technology Incorporated Company,Beijing 100193,China
    2 Beijing University of Posts and Telecommunications,Beijing 100876,China
  • Revised:2018-02-10 Online:2018-04-01 Published:2018-05-02

摘要:

分组匿名化框架是一类经典的数据匿名化技术,它通过构造匿名记录的组,使得同一组内的不同数据无法被识别区分,从而达到隐私防护的效果。电力行业大数据分析涉及电力企业核心数据、用户隐私数据,其数据敏感度更强,传统的数据匿名化系统已经无法满足电力行业大数据业务应用和安全防护的需要。基于此,设计并实现了一种基于Spark的新型大数据匿名化系统,提供对Hadoop平台上多种数据格式的支持,并有效提高对大数据的匿名化处理效率。

关键词: 数据匿名化, 隐私, 电力行业, 安全防护, Spark

Abstract:

Group based anonymization is a classical data anonymization framework,which achieves the effect of privacy protection by constructing groups of anonymized data records ensuring that records in the same group cannot be distinguished with each other.The electric power industry big data analysis involves the core data of the power enterprises and the user privacy data,the data sensitivity is stronger,traditional data anonymization systems are unable to meet the needs of big data business applications and safety protection of electric power industry.A new big data anonymization system based on Spark was designed and implemented,which could provide the support for multiple data formats stored on Hadoop and substantially improve the processing efficiency for big data.

Key words: data anonymization, privacy, electric power industry, safety protection, Spark

中图分类号: 

No Suggested Reading articles found!