在“数据革命”时代,数据的自由流通最为关键,必须打破数据孤岛。为此,开放数据运动应运而生,这项运动将开源世界的开放理念移植到数据孤岛问题中,提倡并号召解锁政府、企业、非营利机构,甚至特定的个人数据。而现阶段,开放数据更多意味着打破最大的数据孤岛——开放政府数据。因此,聚焦于开放政府数据,系统地回顾并盘点了开放数据的基本概念、历史发展路径、国际现状、商业潜能以及中国发展现状和挑战。
基于国外政府数据开放的发展现状,总结了国外政府数据开放的重要特点,包括完善的法律法规体系、专业的数据开放网站和应用需求引导。从大数据时代数据开放的必然要求、提升政府治理能力和推动创新发展等角度,分析了我国政府数据开放的必要性。概括了我国政府数据开放在法律法规、体制机制、意识氛围和管理方式等方面的问题,并结合我国发展实际和大数据应用需求,分别从建设法规标准体系、数据开放共享方式方法、政府数据开放管理、数据安全和数据应用等角度提出对策建议。
云计算使得数据共享、流动、开放成为可能,数据成为激发新生产力的引擎。数据的角色从IT时代的产出物或者辅助角色转变为资产和生产要素,真正驱动大数据产业从概念进入实战阶段。为此,介绍了国内外数据开放的发展过程,讨论了我国政府治理面临的挑战及数据开放的重要价值,举例分析了国内外利用数据开放实现政府治理创新的实践与方向,阐述了我国政府数据开放面临的挑战,并提出了发展建议。
数据的开放和流通是数据资源价值体现的前提和基础,我国数据交易市场仍处在发展的初级阶段,大数据在社会管理和经济发展中远未发挥应起到的作用。为此,对国内外大数据流通和交易市场的现状及特点进行了分析,提出当前我国大数据流通交易环节面临的主要问题是价值链条的不完整和对数据资源流通过程中商业秘密和个人隐私泄露的恐惧。最后,从数据商品化、社会认知建立和市场主体权益保护3个方面提出了对于推动数据资源流通的建议。
清晰的产权归属是交易的前提与基础。然而,当前关于数据的产权归属问题还远未达成共识,特别是在去除个人身份属性的数据交易中,到底是数据主体(产生数据的个人)还是记录数据的企业拥有数据的所有权,各方莫衷一是。笔者提出的思路是:原始/底层的个人数据,所有权归用户本人所有;而在原始数据基础上,经过充分匿名化获得的数据集,企业享有限制性的所有权。
大数据时代数据传输需求呈爆炸式增长,如何充分利用数据流的新特征,发挥不同交换方式的优势,是解决未来大数据传输的必由之路。为此,介绍了大数据传输在容量和能耗方面的挑战,并结合数据流的新特征,分析网络技术发展的新机遇。然后,回顾了近几年相关领域的研究进展,并简要介绍了笔者在混合交换和存储转发等方面正在开展的研究工作。
特异群组挖掘在证券金融、医疗保险、智能交通、社会网络和生命科学研究等领域具有重要应用价值。特异群组挖掘与聚类、异常挖掘都属于根据数据对象的相似性来划分数据集的数据挖掘任务,但是,特异群组挖掘在问题定义、算法设计和应用效果方面不同于聚类和异常等挖掘任务。为此,系统地阐述了特异群组挖掘任务,分析了特异群组挖掘任务与聚类、异常等任务之间的差异,给出了特异群组挖掘任务的形式化描述及其基础算法,最后,列举了特异群组挖掘的几个重点应用。
从大数据和医疗健康大数据的介绍出发,首先阐述了医疗健康行业所面临的挑战和大数据对医疗健康行业的促进作用;然后介绍了大数据和医疗健康行业的背景知识;之后举例说明了大数据在医疗健康行业的应用以及医疗健康大数据系统和关键技术。
大数据时代的IT发展的基本特点是:应用驱动创新,开源加速创新,硬件助力创新。基于对这些特点的认识,从社会创新发展、人才需求变化、技术发展趋势等方面论述了数据科学与工程这一新兴交叉学科的发展必然性,进一步阐述了数据科学与工程学科的特点、学科内涵与知识体系,最后从科学研究、系统开发和人才培养的角度探讨了数据科学与工程学科的建设思路。