基于国外政府数据开放的发展现状,总结了国外政府数据开放的重要特点,包括完善的法律法规体系、专业的数据开放网站和应用需求引导。从大数据时代数据开放的必然要求、提升政府治理能力和推动创新发展等角度,分析了我国政府数据开放的必要性。概括了我国政府数据开放在法律法规、体制机制、意识氛围和管理方式等方面的问题,并结合我国发展实际和大数据应用需求,分别从建设法规标准体系、数据开放共享方式方法、政府数据开放管理、数据安全和数据应用等角度提出对策建议。
清晰的产权归属是交易的前提与基础。然而,当前关于数据的产权归属问题还远未达成共识,特别是在去除个人身份属性的数据交易中,到底是数据主体(产生数据的个人)还是记录数据的企业拥有数据的所有权,各方莫衷一是。笔者提出的思路是:原始/底层的个人数据,所有权归用户本人所有;而在原始数据基础上,经过充分匿名化获得的数据集,企业享有限制性的所有权。
大数据已成为媒体与大众关注的新技术,大数据的应用也预示着信息时代将进入一个新阶段,但人们对大数据的认识有一个不断加深的过程。首先从“信息时代新阶段”、数据文化和认识论的高度阐述了对大数据的理解;接着通过对驱动效益和大成智慧的解释,探讨了如何正确认识大数据的价值和效益,并从复杂性的角度分析了大数据研究和应用面临的挑战;最后对发展大数据应避免的误区提出几点看法。
介绍了大数据时代数据挖掘的特点、任务及难点,分析了大数据挖掘的核心架构,提出大数据的核心和本质,即应用、算法、数据和平台4个要素的有机结合。在此基础上介绍了本团队研究设计的大数据挖掘系统FIU-Miner。该系统是一个用户友好并支持在分布式环境中进行高效率计算和算法快速集成的数据挖掘系统平台,使得数据分析人员能够快速有效地进行各类数据挖掘任务。最后,介绍了基于FIU-Miner的3个典型的成功应用案例:高端制造业数据挖掘、空间数据挖掘和商务智能数据挖掘。
城市交通大数据具有种类繁多、异质性、时空尺度跨越大、动态多变、高度随机性、局部性和生命周期较短等特征,如何有效地采集和利用交通大数据,满足高时效性的交通行政监管、交通企业经营管理、交通市民服务等应用需求,是城市交通和智慧城市面临的前所未有的机遇和挑战。重点分析总结了城市交通大数据的若干研究内容及核心技术,提出了城市交通大数据智能应用系统解决方案,列举了几种典型应用,在城市交通和智慧城市领域的大数据研发和应用领域进行了初步探讨。
要实现高效的大数据机器学习,需要构建一个能同时支持机器学习算法设计和大规模数据处理的一体化大数据机器学习系统。研究设计高效、可扩展且易于使用的大数据机器学习系统面临诸多技术挑战。近年来,大数据浪潮的兴起,推动了大数据机器学习的迅猛发展,使大数据机器学习系统成为大数据领域的一个热点研究问题。介绍了国内外大数据机器学习系统的基本概念、基本研究问题、技术特征、系统分类以及典型系统;在此基础上,进一步介绍了本实验室研究设计的一个跨平台统一大数据机器学习系统——Octopus(大章鱼)。
大数据分析带来的隐私泄露问题日趋严重,如何在利用大数据为各行各业服务的同时,保护隐私数据和防止敏感信息泄露成为新的挑战。大数据具有规模大、来源多、动态更新等特点,传统的隐私保护技术大都已不再适用。为此,给出了大数据时代的隐私概念和生命周期保护模型;从大数据生命周期的发布、存储、分析和使用4个阶段出发,对大数据隐私保护中的技术现状进行了分类阐述,并对各技术的优缺点、适用范围等进行分析;对大数据隐私保护技术发展的方向和趋势进行了阐述。
大数据是城市智慧的“来源”,利用好大数据可以有效缓解或解决城市发展中的诸多问题。政府部门掌握的大数据关系国计民生,与公众生活息息相关,是高价值密度的数据,如何治理和利用政府大数据,是智慧城市建设的核心问题之一。以宁波市政府大数据为例,阐述了政府大数据治理面临的挑战,包括政府数据内部共享的需求和障碍、政府数据对外开放和利用的问题等,同时给出了相应的对策及建议。
产生于互联网的大数据应用,现阶段正在向其他行业领域渗透,成为行业创新和转型的重要驱动力。根据百度多年来在大数据领域的创新与实践,阐述了大数据驱动搜索引擎的发展,介绍了百度大数据引擎和行业应用实践。重点分析了大数据发展的关键因素,并提出了大数据和人工智能是未来信息技术发展的重要方向。
数据的开放和流通是数据资源价值体现的前提和基础,我国数据交易市场仍处在发展的初级阶段,大数据在社会管理和经济发展中远未发挥应起到的作用。为此,对国内外大数据流通和交易市场的现状及特点进行了分析,提出当前我国大数据流通交易环节面临的主要问题是价值链条的不完整和对数据资源流通过程中商业秘密和个人隐私泄露的恐惧。最后,从数据商品化、社会认知建立和市场主体权益保护3个方面提出了对于推动数据资源流通的建议。
随着大数据时代的来临,网络中的信息量呈现指数式增长,随之带来了信息过载问题。推荐系统是解决信息过载最有效的方式之一,大数据推荐系统已经逐渐成为信息领域的研究热点。介绍了推荐系统的产生及其在大数据时代的发展现状、推荐系统的领域需求和系统架构、大数据环境下推荐系统的挑战及其关键技术、开源的大数据推荐软件、大数据推荐系统研究面临的问题,最后探讨了大数据推荐系统的未来发展趋势。
大数据计算是实现大数据“巨大价值”的必要手段,而计算系统是大数据计算的有效载体。试着从系统角度审视大数据计算,透过大数据的体量巨大、速度极快、模态多样、真伪难辨等宏观特征,针对批量计算、流式计算、大图计算等计算形式,分别探讨大数据计算的典型特征,论述了这些特征给大数据计算系统的设计与实现带来的技术挑战,进而梳理了为了应对这些挑战所取得的研究成果,最后从系统角度指出未来大数据计算可能的一些研究方向。
高级持续性威胁(APT)已经成为企业级安全用户的首要安全威胁。传统基于特征检测、边界防护的安全防范措施在应对APT攻击时存在不足。为此,介绍了网络异常行为检测方法的现状;分析了基于统计学习的检测方法的技术路线和体系架构,并以命令控制通道、获取行为等APT攻击中的典型环节为例,介绍了相关的参数提取和统计分析建模方法;总结了基于大数据的异常行为检测的特点,并指出了后续研究方向。
在智慧城市建设中,政府大数据是一笔宝贵的“资产”,是高价值密度的大数据源。利用好政府大数据对于促进城市经济发展和提升公共服务都大有裨益。企业是政府大数据与公众需求问题解决方案之间的桥梁。开放政府数据并通过企业进行市场化开发是政府大数据释放价值的有效途径。以宁波市智慧城市建设中的政府大数据应用为例,分析政府大数据市场化利用的障碍和挑战,并探讨了政府大数据市场化利用的模式与对策。
随着互联网和大数据的研究应用日益广泛,对社交网络影响力传播的研究成为数据挖掘和社交网络分析中的热点。从影响力传播模型、影响力传播学习和影响力传播优化3个方面总结了近些年计算机科学领域对影响力传播研究的主要成果,展示了影响力传播研究中对随机模型、数据挖掘、算法优化和博弈论等技术的综合运用。最后,简要讨论了影响力传播研究和应用中存在的问题、挑战及今后的研究方向。
农业大数据中心是发展农业大数据的前提和基础,我国应积极推动农业大数据中心建设。为此,从我国现代农业发展的角度,分析了国家农业大数据中心建设的战略需求,介绍了建设农业大数据中心的数据基础,提出了农业大数据中心建设的主要内容,对农业大数据中心的应用前景进行了展望,为我国农业大数据的发展提供了参考和依据。
大数据是国家发展的重要资源。对大数据资源的掌控与分析能力将成为未来国家竞争力的基础。我国大数据的发展及研究已有了良好开端,但也存在大数据资源活性不足、行业应用有待深化、关键核心技术亟待突破、产业基础薄弱、网络信息安全存在潜在隐患等问题。当前,制定国家大数据战略成为各界人士的共同呼声。国家层面的大数据战略究竟应该坚持什么思路,有哪些要素需要考虑,成为产业界和政府部门热议的话题。基于此,结合国外实践和国内问题,提出一些初步思考。
大数据作为“互联网+”行动计划的主要内容,其重要性得到了广泛重视。农业是大数据的重要应用领域,大数据技术为农业信息监测预警工作带来了新的发展机遇。介绍了我国传统农业发展面临的问题,阐述了互联网+农业对于农业转方式、调结构的重要作用,详细分析了发展互联网+农业物联网、互联网+农业电子商务、互联网+农业信息服务、互联网+农业大数据的重要意义和具体措施,为全面提高农业综合生产能力,降低农业资源消耗,构建基于互联网和大数据技术的现代农业提供参考。
建设智慧城市已成为国家发展新空间的重要举措,近年来我国智慧城市建设取得了积极进展。当前社会正在迈入大数据时代,大数据将成为智慧城市建设的核心要素,为智慧城市的发展带来更多的机遇和挑战。简述了我国智慧城市的总体进展,总结了大数据时代我国智慧城市面临的问题,并从信息系统、政府决策、公共服务、社会管理、产业发展、体制机制等方面提出了以大数据驱动智慧城市变革的几点思考。
大数据时代,最热门的职业是数据科学家(data scientist),而不是传统的信息科学家,也不是大数据工程师。大数据热潮促进了数据科学(data science)研究进入快速发展期,数据科学家的培养也受到广泛重视,越来越多的大学启动数据科学学位培养计划,但值得注意的是,当前数据科学家培养的基础条件缺乏,其知识结构、学科体系、人才培养计划尚未建立。结合大数据时代的人才要求,给出了科学、系统的数据科学人才知识体系,提出了超学科、多类型的培养模式。
从政务数据资产的属性入手,按照“一云、一引擎、四大主题库、一个应用门户、三类典型应用”的思路,搭建智慧城市大数据开放共享平台:基于云基础设施环境,实现大数据统一管理引擎,建设城市公开信息等4类大数据主题库;建立安全访问控制模型,通过大数据统一访问接口,将加工后的数据供给授权的第三方应用开发商调用。基于庞大用户群,建设一个应用发布、数据定制及评价的统一门户,打造需求、数据、资金合理流向的产业生态。
信用评分是市场交易的基础,以大数据分析与挖掘为支撑的现代信用评分系统在当今全球经济发展中起着不可估量的作用。各行业与领域的信用评分系统将成为实现我国“十三五”规划中国家大数据战略的首要目标。主要介绍了金融信用评分系统的发展、相关技术、应用案例,并对大数据信用评分的发展进行了展望。
信息科技业已进入大数据时代。作为能够从大数据中挖掘知识的人才,数据科学家(data scientist)受到各行各业的青睐。首先从美国和中国主要的在线人才招聘平台收集数据,通过对比分析得出数据科学家与传统的数据分析师(data analyst)在工作性质、工作能力要求以及薪资待遇等方面的差别。其次,考察和总结了世界范围内优秀大学数据科学人才培养的概况,并与工业界的实际要求进行对比。根据以上两者之间的差异,就当前大学数据科学人才的培养提出了建议和对策。
人才短缺是发展大数据的主要障碍,越来越多的大学启动了大数据人才培养计划。大数据人才培养的基础条件有哪些?首先要有师资,但这是一个矛盾的基础条件,人才短缺意味着师资更短缺;其次要有数据,且是“大”的数据,没有数据的人才培养是纸上谈兵;有了“大”数据,就需要相应的计算条件。探索了大数据人才培养所需的师资、数据和计算条件问题,提出超学科创新培养模式解决师资条件问题、建立大数据试验场解决数据和计算条件问题。
OLAP(online analytical processing,在线联机分析处理)是关系数据基础上实现商业智能的核心技术。在大数据时代,人们迫切希望在由普通机器组成的大规模集群上能实现高性能的OLAP,然而系统性能的挑战巨大。可喜的是,近年来进展迅速,涌现了很多以Hadoop上的数据进行OLAP的所谓SQL on Hadoop系统,并且系统性能不断提升。在综述OLAP技术发展的基础上,重点对几个有代表性的SQL on Hadoop系统进行了测试分析,并展示了这类系统的性能特点。可以预见,未来在低成本的大数据OLAP市场,这类系统会占有重要位置。
机场与飞行器目标识别是遥感数据分析中的典型应用。研究了光学遥感大数据环境下面向机场与飞行器目标识别的深度学习技术。为此,构建了一个面向高分光学遥感图像的机场与飞行器目标秒级识别系统。使用迁移学习的方法在有标签样本稀缺的情况下有效构建深度网络,利用目标先验知识对潜在目标进行高效提取,并提出一种层次式的级联深度网络识别架构,实现“大范围、小目标”的实时识别。实验结果表明,采用相应技术,基于深度学习方法可以在秒级时间得到比传统方法更高的识别精度。
研究解决全国火电机组出力系数普遍较低,旋转备用率偏大的问题。通过对近年来安徽电网发电、用电负荷特性数据以及2014年全国大机组竞赛的大量数据进行挖掘和分析,提出了解决问题的几个方案:一是优化电力调度,减少机组在网运行时间;二是增加机组利用小时;三是优化机组设计,降低主辅设备出力富裕度,按IEC标准定义湿冷机组的铭牌;四是发电集团内部机组电量分配优化;五是国家能源局修订电量偏差不大于2%的监管政策。据此可大幅提高火电机组的出力系数,降低旋转备用率和发电煤耗,减少主要污染物排放量,实现企业经济效益和社会效益双丰收。
社交媒体大数据中的多源性体现在不同社交媒体网络产生的内容上,从多源的角度分析跨社交媒体网络可以将独立数据的价值通过整合其他来源和模态的数据充分挖掘和释放出来,提高大数据的利用效率。跨社交媒体网络的用户建模是分析和应用多源社交媒体大数据的重要体现。跨社交媒体网络中的多源数据共享独立用户空间,提出以用户为桥梁对多源数据进行关联挖掘,将挖掘得到的关联模式分别应用于跨社交媒体网络的用户人口属性建模和兴趣建模中,并应用到社交媒体应用的个性化服务中。
《欧盟数据保护通用条例》于2018年 5月25日正式生效。为踏上数字时代新秩序的起跑线,全球企业都在积极准备合规工作。全面梳理其带来的重大变化,既为企业提供参考,也为我国政府考虑大数据背景下的数据保护规则提供新视角。
随着人类对空间探索的拓展以及对空间认知的加深,空间科学探测大工程任务相继推进、实施,催生了空间科学领域大数据时代的到来。描述了国外空间科学科研信息环境建设的情况,重点介绍了中国空间科学数据中心在科研信息化项目中建设的大数据应用环境—— 空间科学虚拟观测台(VSSO)和云环境中的空间科学综合应用平台—— 日地空间系统研究网络(STAR-Network)所具备的服务功能以及其取得的服务成效。
可携权规定数据主体有权就其被收集处理的个人数据获得对应的副本,并可以在技术可行时直接要求控制者将这些个人数据传输给另一控制者。这一权利的创设及适用对于大数据的利用以及个人隐私、商业竞争都会产生巨大的影响,对于我国的个人信息保护立法也具有借鉴和参考价值。
大数据治理的主要目的是使数据的利用价值和利用效率最大化,治理后的数据在利用过程中也不可避免会涉及敏感数据或者隐私数据。从大数据治理出发,基于实际应用案例,讨论大数据治理过程中如何利用数据模式的重组实现数据价值的提升和数据处理效率的提升。同时,也提出了数据安全访问策略的自动生成,保障数据在重组后得到相应的安全防护。
近几年,我国P2P网贷行业在高速发展的过程中出现了大量的“失联跑路”事件。为此,基于P2P网贷及大数据相关概念的深入剖析,创新性地将平台的风险预警与大数据技术结合,通过对海量数据采集、Spark分布式平台计算、机器学习建模等大数据技术的整合,构建一个有效的P2P网贷平台风险预警模型。该模型在多维度风险评价指标的基础之上,可以实现对网贷平台风险的实时、精准、全面监测,从而有效降低平台集资诈骗、恶意跑路等恶意事件的发生频率,维护广大投资人的资金安全及社会稳定。
大数据给人们观察世界带来了全新的视角,也对法律制度造成了一定的影响,而大数据产业的持续发展则有赖于法律制度的明确、稳定和包容。主要研究如何应对大数据带来的安全风险,探讨了大数据商业利用的原则和规则,建议通过加强国内立法争取在国际贸易规则制定中的话语权。
数据库评测基准在数据库发展历史中的作用不可替代,而大数据环境中传统评测基准不敷应用。因此,从评测基准3要素,即数据、负载、度量体系入手,研究具有高仿真性、可适配性、可测量性的大数据管理系统评测基准,对大数据管理系统的研发和应用系统选型至关重要。基于此,在简要分析评测基准的基本要素和大数据管理系统发展过程的基础上,重点分析大数据管理系统的基准评测需求与挑战,然后通过社交媒体分析型查询评测基准BSMA,探讨了面向应用的大数据管理系统基准评测的设计和实现问题。
工业大数据是工业数据的总称,包括信息化数据、物联网数据以及跨界数据,是工业互联网的核心要素。分析了工业大数据的发展背景和主体来源,剖析了工业大数据、企业信息化和工业互联网之间的相互关系,阐述了工业大数据“多模态、高通量、强关联”的数据特点以及“跨尺度、产业链、跨界”多源数据融合的应用特点,探讨了工业大数据软件系统架构,给出了制造环节的大数据应用实例。
农业大数据资产管理是发展农业农村大数据的前提,结合农业领域和大数据领域的热门议题,对农业大数据资产管理进行了相关研究。对农业大数据资产的概念进行了定义,从数据资源和服务价值角度分析了农业大数据资产的特性;分析了农业大数据资产的现状,并从存储、质量、价值、安全、开放和人才培养等方面探讨了农业大数据资产管理面临的挑战;最后,对农业大数据资产管理提出了思考和建议。
智慧城市建设的重心已由传统IT系统和信息资源共享建设,转变为数据的深度挖掘利用和数据资产的运营流通。大数据中心是数据资产管理和利用的实体基础,其核心驱动引擎是大数据平台及各类数据挖掘与分析系统。讨论了智慧城市大数据中心建设的功能架构,围绕城市多源异构数据处理的实际需要,对数据中心大数据平台的架构进行了拆分讲解,并以视频大数据处理为例,阐述了数据中心中大数据平台的运转流程。