数据信息在生产、存储、使用、传输、共享、销毁等环节暴露出的大数据安全问题突出,成为了制约大数据应用发展的瓶颈。总结了世界各国的大数据安全发展战略;从大数据的全生命周期管理角度出发,重点聚焦于大数据的收集、存储、传输、使用、开放(访问控制、共享安全与隐私保护)、销毁和管理策略(体系和标准建设)等阶段,对当前大数据安全防护技术的研究现状和趋势进行阐述。给出了未来大数据安全技术研究需要解决的几个新问题。
随着大数据的发展,个人信息保护面临严峻的安全形势,去标识化有助于平衡个人信息保护要求和数据共享利用需求。分析了国内外去标识化研究现状,结合我国法律有关要求和个人信息保护的迫切需求,提出了个人信息去标识化框架,给出了规范化的去标识化过程指南。考虑到相关工作的推进,结合大数据安全标准体系,提出了去标识化标准规范研究建议。
安全的目的是为了保障发展,如何衡量一个拥有数据的组织的数据安全保护能力是十分重要的。探讨了拥有数据的组织面临的数据安全问题及挑战,介绍了大数据环境下的数据安全发展趋势和完整的组织级数据安全能力框架,阐述了数据安全保护能力实现的路径及实践过程中可能遇到的难点。最后,以某互联网金融企业为例,分析了利用数据安全能力成熟度模型指导企业进行数据安全保护能力建设的过程和方法。
开源大数据平台的安全机制目前并不特别完善,特别是用户认证、日志审计等方案还存在不少问题。分析了开源大数据平台存在的安全隐患,在开源Hadoop平台的基础上提出了基于Giaho的大数据平台用户认证机制和基于高效的日志审计方案,并结合百度公司的实际应用阐述所提技术方案的有效性。该技术方案具有一定的普适性,可根据企业当前技术环境灵活使用。
在对大数据进行发布或数据挖掘的过程中,隐私泄露是人们最关心的问题,但目前关于大数据隐私保护的研究还处在初级阶段。介绍了有关隐私保护系统的基础知识,包括数据参与角色与数据操作的定义,给出了隐私保护系统的数学描述与隐私度量方法,分析了隐私保护的数学模型,包括k-匿名模型与差分隐私模型。回顾了基于位置服务的隐私保护及其应用,总结了大数据时代隐私保护的挑战与机遇,指出了用于改进现有隐私保护方法的研究方向,以满足大数据前所未有的各种计算需求。
移动群智感知是一种新的大规模感知模式,它利用随身携带的智能移动终端(智能手机、可穿戴设备等)形成大规模、随时随地且与人们日常生活密切相关的感知系统。通过广大用户参与获取的感知数据具有多模态、富内容、时空性、人本性等特征。以群智大数据为目标对象,就其感知、优选和理解等关键问题进行阐述和探讨,并对笔者在该领域的最新研究成果进行介绍。
如何高效地存储大数据并支持实时大数据处理与分析是大数据技术发展面临的首要问题。近年来,以相变存储器、闪存等为代表的新型存储为实现高效的大数据存储和管理提供了新思路。以相变存储器为代表的存储级主存技术为切入点,针对大数据存储与管理中的高效存储、实时处理等存在的挑战,讨论了面向新型存储的大数据存储管理研究现状,并对未来基于新型存储的大数据研究进行了展望。
以医院电子病历为核心的临床数据记录了病人的疾病、诊断和治疗信息。挖掘此类数据,可以辅助医生进行临床科研与临床诊疗。首先提出了临床大数据挖掘过程中碰到的各项难题,总结了临床医疗大数据挖掘的核心流程,流程包括以临床数据集成、基于知识图谱的临床专病库的构建过程、电子病历数据质量的评估方法以及以临床疗效分析与疾病预测为核心的临床医疗大数据应用等任务,进而对流程中的每个任务提出了解决方案,给出了实验结果。最后,展望了未来临床电子病历挖掘应用和技术的发展。
落实国家大数据战略,推进大数据发展与应用,正成为我国地方政府的工作重点,迫切需要有针对性和可操作性的具体指导。在诠释开展区域大数据发展水平评价方法研究的意义和作用的基础上,分析了评价体系设计的基本要求,设计提出了一套具有创新性的“指标体系+评价机制”的综合评价方案,并提出下一步工作的方向和重点。