大数据存储和分析的能力是未来创新型国家的核心战略能力。当前关于大数据的理论研究在共性问题提炼、方法论框架和实时数据算法理论上仍存在一些不足,从大数据“海量、实时、多样”三大特征出发,聚焦网络大数据这一对象,以数据复杂性的度量和约简作为主线,具体从网络链路预测及推荐、动态演化网络上的算法研究、网络小世界模型与信息传播3个问题出发,研究大数据在时间、空间和关联关系上的简约计算。
大数据的规模性、多模态性与增长性给传统的数据挖掘方法带来了挑战。粒计算作为智能信息处理领域中大规模复杂问题求解的有效方法,探索大数据分析的粒计算理论与方法有望为应对这些挑战提供新的思路和策略。瞄准若干大数据挖掘任务,对数据粒化、多粒度模式发现与融合、多粒度/跨粒度推理等方面取得的一些进展进行梳理和剖析,并针对天文数据挖掘和微博数据挖掘两个典型示范应用领域的初步研究进行了总结,以期为大数据挖掘领域的研究做出有益的探索。
分布式协商的目的是在分布式环境下在一组进程之间决定一个共同的值,这是在分布式系统中最基本的问题。分布式协商问题的目标非常简单,但是在面对节点出错、网络出错、网络时延等环境的时候,协议设计以及处理起来十分困难。讨论分布式协商问题的基本形式,在不同的系统假设下的基本结果以及分布式协商在构建稳固的分布式大数据系统中的作用。
基于消息驱动框架的软件开发成为大数据应用系统的重要模式之一。基于面向实体、消息驱动的开发架构,设计并实现了该架构中的消息管理模块。定义了消息基本格式,制定了消息管理规范,并且具体实现了其功能,通过一个案例显示了该架构的优点。
电路交换网络交换粒度较粗,在应对突发式业务时阻塞率较高。针对这一问题,提出在光电路交换网络节点引入存储,从而在突发阶段暂存“时延不敏感”的业务数据并错峰传输。基于时移多层图研究了存储容量与业务突发度的关系,并通过仿真验证了对网络性能的改善程度。研究结论包括:突发业务对光电路交换网络性能有较大影响;引入存储可以有效平滑突发业务,降低阻塞率;在固定的网络负载下,所需的存储容量随着业务突发度的增大而增大。
针对武器装备效能评估指标体系中评估指标之间存在的相互依赖与影响的关系以及评估过程主观性较强的情况,提出一种基于仿真大数据采用超网特征参数和ANP相结合构建指标体系的方法。以某次武器装备体系仿真为例,给出了网络化评估指标体系构建流程,并建立了具体的指标体系,同时对指标之间的关联性进行了深度挖掘。实验结果表明,提出的指标体系构建方法具有合理性和有效性,能够为武器装备体系效能评估提供更为可靠的理论依据。
从政务数据资产的属性入手,按照“一云、一引擎、四大主题库、一个应用门户、三类典型应用”的思路,搭建智慧城市大数据开放共享平台:基于云基础设施环境,实现大数据统一管理引擎,建设城市公开信息等4类大数据主题库;建立安全访问控制模型,通过大数据统一访问接口,将加工后的数据供给授权的第三方应用开发商调用。基于庞大用户群,建设一个应用发布、数据定制及评价的统一门户,打造需求、数据、资金合理流向的产业生态。
选择个人征信系统最新36个月9亿条查询记录,根据用户查询行为的不同波动特征进行了模型细分,探讨了4种异常查询实时监测模型。结果表明,基于数据挖掘的个人征信系统异常查询实时监测模型应用于个人查询量预测是可行的,且效果良好。该模型的成功上线和不断修正,将对个人征信系统的违规查询行为产生威慑作用,倒逼查询机构加强内部管理,合法使用信用信息,以保障信息主体的权益,促进征信市场健康发展。
《欧盟数据保护通用条例》于2018年 5月25日正式生效。为踏上数字时代新秩序的起跑线,全球企业都在积极准备合规工作。全面梳理其带来的重大变化,既为企业提供参考,也为我国政府考虑大数据背景下的数据保护规则提供新视角。
可携权规定数据主体有权就其被收集处理的个人数据获得对应的副本,并可以在技术可行时直接要求控制者将这些个人数据传输给另一控制者。这一权利的创设及适用对于大数据的利用以及个人隐私、商业竞争都会产生巨大的影响,对于我国的个人信息保护立法也具有借鉴和参考价值。