网络与信息安全学报 ›› 2016, Vol. 2 ›› Issue (5): 64-76.doi: 10.11959/j.issn.2096-109x.2016.00057

• 学术论文 • 上一篇    下一篇

PCPIR-V:基于Spark的并行隐私保护近邻查询算法

邓诗卓,姚继涛,王波涛,陈月梅,袁野,李艳辉,王国仁   

  1. 东北大学计算机科学与工程学院,辽宁 沈阳 110819
  • 修回日期:2016-04-25 出版日期:2016-05-15 发布日期:2020-03-26
  • 作者简介:邓诗卓(1990-),女,辽宁凌源人,东北大学博士生,主要研究方向为大数据、云计算、位置隐私保护。|姚继涛(1990-),男,山东泰安人,东北大学硕士生,主要研究方向为大数据、云计算、隐私保护。|王波涛(1968-),男,山东福山人,东北大学教授、博士生导师,主要研究方向为隐私保护、大数据、云计算、基于位置服务、数据流管理系统、发布/订阅系统、移动数据库。|陈月梅(1991-),女,湖北大冶人,东北大学硕士生,主要研究方向为隐私保护、大数据、数据管理。|袁野(1981-),男,辽宁沈阳人,东北大学教授,主要研究方向为云计算、大数据管理、P2P计算。|李艳辉(1989-),女,黑龙江讷河人,东北大学博士生,主要研究方向为查询处理、隐私保护。|王国仁(1966-),男,湖北黄冈人,东北大学教授、博士生导师,主要研究方向为XML数据管理、查询处理优化、高维数据索引、分布式数据库、隐私保护。
  • 基金资助:
    国家自然科学基金资助项目(61173030);国家自然科学基金资助项目(61272181);国家自然科学基金资助项目(61272182);国家自然科学基金资助项目(61332014);国家自然科学基金资助项目(61370154);国家自然科学基金资助项目(61332006)

PCPIR-V:parallel privacy protected algorithms for nearest neighbor query based on Spark

Shi-zhuo DENG,Ji-tao YAO,Bo-tao WANG,Yue-mei CHEN,Ye YUAN,Yan-hui LI,Guo-ren WANG   

  1. College of Computer Science and Engineering,Northeastern University,Shenyang 110819,China
  • Revised:2016-04-25 Online:2016-05-15 Published:2020-03-26
  • Supported by:
    The National Natural Science Foundation of China(61173030);The National Natural Science Foundation of China(61272181);The National Natural Science Foundation of China(61272182);The National Natural Science Foundation of China(61332014);The National Natural Science Foundation of China(61370154);The National Natural Science Foundation of China(61332006)

摘要:

摘 要:针对面向大数据的隐私保护查询效率低问题,利用CPIR保护程度高,实现了基于Spark的并行CPIR空间近邻查询隐私保护算法 PCPIR-V,提出了基于 Row 和 Bit 的并行策略,同时提出并实现了基于聚类的PCPIR-V的缓存优化技术。利用均匀分布、高斯分布和真实数据对PCPIR-V进行了测试验证,在40个核心范围内,PCPIR-V具有良好的扩展性,PCPIR-V缓存优化技术计算时间与朴素PCPIR-V时间相比,平均减少了20%。

关键词: 查询隐私保护, 基于计算能力的隐私信息检索, Spark, 基于位置服务

Abstract:

To address the low-efficiency problem for query privacy protection on big data,parallel CPIR-V (PCPIR-V),which had a high level of privacy protection for nearest neighbor query,was presented and implemented based on spark.Two parallel strategies for PCPIR-V,Row strategy and Bit strategy,were proposed.To avoid redundant multiplications,the repeated products were cached based on a clustering technique while computing CPIR on Spark.According to the evaluation results of PCPIR-V on three datasets,the scalablity of PCPIR-V is good until the number of core is larger than 40.The cost of PCPIR-V with the method of caching partial multiplication results is reduced by 20% averagely.

Key words: query privacy protection,, computational private information retrieval, Spark, location based service

中图分类号: 

No Suggested Reading articles found!