工业大数据是工业数据的总称,包括信息化数据、物联网数据以及跨界数据,是工业互联网的核心要素。分析了工业大数据的发展背景和主体来源,剖析了工业大数据、企业信息化和工业互联网之间的相互关系,阐述了工业大数据“多模态、高通量、强关联”的数据特点以及“跨尺度、产业链、跨界”多源数据融合的应用特点,探讨了工业大数据软件系统架构,给出了制造环节的大数据应用实例。
通过炼铁物联网子系统采集高炉现场监控系统、检化验系统、生产运营系统的基础数据,根据工艺流程建立相关机理数学模型及信息物理系统,研发了基于数据驱动和机理模型的大数据存储和智能互联平台,对炼铁工序海量数据进行深度挖掘。结合机理模型及冶金行业的核心评价标准,对不同企业、各工序、各人员操作数据进行横向及纵向对比分析,在此平台上快速高效地完成炼铁操作制度的建议、炼铁大数据的云端数学建模计算、炼铁信息和标准的快速获取、炼铁问题的互动咨询等,探索了信息技术、大数据技术、互联网技术与传统冶金技术的深度融合。
随着物联网和信息物理系统时代的来临,更多数据可以被收集和分析,工业大数据也成为行业创新和转型的重要驱动力。与传统互联网大数据不同,工业大数据与工业逻辑紧密结合,详细对比了工业大数据与互联网大数据的区别,结合典型案例,阐述了需求驱动传统制造业变革的过程和工业大数据的发展之路,介绍了工业大数据平台的架构和工作原理。最后以挖掘机业务为例,展示了工业大数据平台的应用效果,并提出共享数据和模型将会使基于数据的应用产生更大的价值。
阐述了智能电网面临的挑战以及大数据关键技术对电力行业的可持续发展和坚强智能电网建立的重要意义。分别从智能电网主数据管理、用电信息统一存储管理、电能质量分析、配网运营能力分析等几个典型大数据系统分析了大数据关键技术在智能电网中的应用。
品牌舆情管理涉及文本、语音等自然语言产物的处理,如挖掘文本内涵的情感、观点等并对其量化,才能进一步分析品牌所处的舆论环境。对自然语言中情感的量化即情感判别分析,针对传统的基于词典的情感分析和基于监督模型的情感分析存在的不足,提出了一种新的情感分析系统,并结合朴素贝叶斯分类算法,提高了情感分析的准确率,并增强了量化分析情感强度的能力。经测试,提出的文本情感分析引擎的情感判别准确率高于常见的分析方法,且不具有非常明显的行业特异性。
大数据存储系统的I/O性能是影响大数据应用整体性能的关键因素之一,总结了当前在存储系统架构、元数据I/O性能、数据I/O性能方面开展的大数据存储系统I/O性能优化工作,并指出了未来大数据存储系统I/O性能优化的一些研究方向。
信息物理社会融合系统连接信息空间、物理空间和人类社会,成为一种新的人在回路的计算系统。以数据为中心刻画信息物理社会融合系统的新特征,包括数据时空交织性、跨空间数据融合及人机智能协作性。构建了一个统一的系统框架,由资源管理、协作感知、数据预处理、数据融合、隐私保护等部分组成,并就其在城市管理、公共安全、智能交通、商业智能等重要领域的应用和未来研究挑战进行探讨。
围绕游客的反馈,分析古镇旅游项目存在的问题及游客的态度。选取了5个各具特色的古镇——甲居藏寨、西江千户苗寨、周庄古镇、黄姚古镇、西塘古镇作为参考。利用大量的评论进行文本挖掘、统计词频,分析热门话题。再运用情感分析得到评分,进而分析游客的好感度及可能影响评价的因素。最后,结合因子分析建立综合模糊评分模型,以计算古镇旅游的最终得分。研究结果可作为参考,以此优化改善古镇旅游体验,保护历史文明遗址。
大数据时代已经到来,为了挖掘大数据的价值,社会急需大量合格的数据科学家,数据科学家的培养是一个紧迫的问题。提出了三大课程群的课程体系建设思路,其中“数据科学概论”是数据科学课程群的导论和入门性质的一门课程。本课程通过案例对关键技术的原理进行介绍,提供了中等规模实际问题的全流程实践案例,有利于学生掌握。数据科学是一门交叉学科,课程应该体现学科交叉的特点。对于时间序列数据,从统计学视角和数据挖掘/机器学习视角,对其分析和建模技术进行了介绍和比较。