大数据处理系统根据其时效性可分为批式大数据和流式大数据两类。上述两类系统均无法满足“事中”感知查询分析处理模式的需求。为此,从分析大数据应用场景入手,提出了“流立方”流式大数据实时处理技术和平台,在完整大数据集上实现了低迟滞、高实时的即席查询分析。目前基于“流立方”平台开发的业务系统已应用到金融风控反欺诈、机器防御等领域,具有广阔的应用前景。
随着大数据的发展,标准化的内容越来越广,标准化的对象也越来越复杂。系统地分析了国内外大数据标准化工作现状,结合《促进大数据发展行动纲要》、中华人民共和国国民经济和社会发展第十三个五年规划纲要等国家战略以及大数据产业发展对标准化工作的需求,分析我国大数据标准化工作面临的问题,描述了大数据参考架构,提出大数据标准体系框架,给出了未来的工作建议。
ISO/IEC JTC1/WG9是制定大数据基础性国际标准的官方组织,WG9在研的大数据术语和参考架构等国际标准和相关技术报告对中国的大数据标准有重要的指导和借鉴意义。简要介绍了WG9工作组的构成、在研的国际标准和技术报告项目,阐述了WG9标准在大数据国际标准体系中的地基性位置。对比了WG9国际标准和中国大数据标准体系的关系,论述了WG9国际标准对中国大数据标准工作的意义和价值。给出了参与WG9标准工作组的建议。
为促进大数据产业持续深入发展,提高政府、企事业单位大数据资产管理意识,借鉴国内外成熟度相关理论思想,结合数据生命周期管理各个阶段的特征,对数据管理能力进行了分析、总结,提炼出组织数据管理的八大过程域,并对每项能力进行了二级过程域和发展等级的划分以及相关功能介绍和评定标准的制定。
目前整个大数据技术还处于以开源方式为主导、多种技术并存的阶段。开源技术催生了大量的商业发行版大数据平台软件,大数据企业级市场竞争加剧,如何测试和评估这些大数据平台软件成为新的研究主题。简要地介绍了大数据技术发展的背景以及大数据技术标准的需求,综述了国际大数据平台标准化和评测的现状,详细介绍了数据中心联盟在大数据平台技术标准化和测评方面的实践,最后总结了当前工作的问题,并展望了下一步大数据技术和评测的发展方向。
分析了与国家民生和安全密切相关的特定领域的大数据发展现状,介绍了大数据标准研究的相关工作。研究了特定领域大数据的特点和现实需求,给出了适合这些领域大数据建设的参考架构,结合大数据主流技术和基础平台,详细分析了特定领域大数据参考架构的不同部件。考虑大数据未来技术发展,梳理了面向特定领域大数据标准体系发展脉络,提出了相应的大数据参考标准体系,为面向特定领域大数据相关体系架构和标准化建设提供技术参考。
介绍了在城市物流配送领域的数据化和智能化改造过程中,如何面对大数据标准化的挑战,并从调度系统和开放平台两方面入手,提出了提高单次配送效率和节省多次配送成本的标准化解决方案。案例为物流大数据标准化技术提供了可供参考的分析思路、实施案例和创新经验。
工业大数据是工业企业的重要资产,是企业实现转型升级的核心要素。分析了工业大数据的主要来源及其特点,给出了一种工业大数据参考架构,从生命周期与价值流、企业纵向层和IT价值链3个维度,讨论了企业实现基于工业大数据的价值创新和企业转型的典型应用与业务价值创新、企业各层所需部署的信息(物理)系统以及指导工业大数据应用落地的业务架构、信息系统架构和信息技术架构,最后分析了一种工业大数据典型应用案例的架构与技术,验证了所提架构的有效性。
随着海洋数据量的爆炸式增长,海洋大数据受到越来越多的关注。主要分析和总结了当前海洋大数据的研究现状和关键技术,聚焦了机器学习在海洋大数据中的模型预测研究的实例,对海上船舶在灾害天气(台风)下的行为进行了回归训练和预测。通过构建和对比决策树、Bagging、随机森林等多种机器学习算法,对样本数据进行学习、预测和检验评估。最终结果表明,随机森林方法在灾害天气下船舶密度的预测应用中具有良好和稳健的效果。
各边利益主体对大数据价值的共同期盼,引发了社会各界对大数据的普遍关注。不同利益主体的自有利益使然,各边的价值期望是不同的,但这些迥异的价值期望恰恰都是大数据价值实现的目标。尝试从大数据的多边定义和理解出发,梳理不同研究视角的相关研究以及不同利益角色的价值期望,介绍了相关研究及产业化现状,并给出了实践可行的方法、思路和策略。