随着数据分析技术的迅猛发展,数据准备越来越成为一个瓶颈性问题。以真实的数据分析场景为背景,分析了数据准备的两大核心挑战:人力成本高与时间周期长。在此基础上,介绍了人在回路数据准备技术的研究进展。交互式数据准备技术面向终端用户,通过与用户的交互预测其意图,并通过有效的预测算法来节省数据准备的时间。基于众包的数据准备技术引入互联网上的海量用户作为众包工人扩展计算能力,从而支持数据准备的基本任务,并研究如何对众包做质量控制与成本优化。最后,对人在回路的数据准备做出总结并探讨未来的挑战性问题。
工业大数据已经成为我国制造业转型升级的重要战略资源,工业大数据分析问题正引起重视和关注。时序数据作为工业大数据中一种重要的数据形式,存在大量的数据质量问题,需要设计数据清洗方法对其进行检测和有效处理。介绍了工业时序大数据的特点及工业数据质量管理的难点,并对工业时序大数据质量管理的研究现状加以分析、总结,最后,提出了时序大数据质量管理方法和系统性能的提升方向。
为了对海量数据进行充分和有效的处理、存储以及应用,数据管护技术应运而生。数据管护技术是在数据整个生命周期内,对数据进行的主动并持续的管护,使数据得到最大化的利用,并且大程度地延长数据的使用寿命。围绕数据管护技术的目的、解决方案和应用,系统介绍了数据管护的处理过程和其中的关键技术,并介绍了几种基于数据管护的应用,并对其技术特点进行了对比分析。最后,对数据管护技术的发展前景和未来挑战进行了阐述。
为了建立高效可扩展且易于管理的数据融合与应用平台,利用数据空间技术,按照数据敏感性将电子病历数据按照原始数据空间、匿名数据空间、模型数据空间的框架进行集成、融合,对匿名数据进行二次分析与挖掘,并针对各数据空间设计实现了不同的存储、安全保护、数据访问机制。平台已在国家医疗服务分析以及北京大学附属医院医疗能力、质量、效率的分析中得到应用。
容器云的发展与应用对资源的高并发、高可用、高弹性、高灵活性等的需求越来越强烈。在对容器云资源预测问题研究现状进行调查后,提出一种采用自适应概率的多选择策略遗传算法(APMSSGA)优化长短期记忆网络(LSTM)的容器云资源预测模型。实验结果表明,与简单遗传算法(SGA)相比,APMSSGA在LSTM参数最优解组合搜索方面更加高效,APMSSGA-LSTM模型的预测精度较高。
水环境数值模型是模拟、分析及预测水体中物质迁移转化过程及其效应的有效工具。水环境模型的高性能批量计算是当前水环境模拟研究的热点。大数据技术中的分布式集群计算模式为水环境模拟批量计算提供一种可行的解决方案。探索了水环境数值模型在大数据分布式计算框架下的适应性,提出了一种适用于水环境模拟的大数据分布式集群运算模式,并通过实例验证了该运算模式的可行性。
基于关联图谱的互联网借贷欺诈预测方法限制了特征的挖掘效率、挖掘深度以及特征的可复用性、可表达性。针对此问题,引入网络嵌入技术,在保留欺诈特征的前提下,将网络中的节点嵌入低维的向量空间,利用向量对网络中的结构和语义信息进行表达;提出了基于周期性时间窗口的网络更新方法和决策批处理方法来提升网络嵌入在精准性和实时性方面的性能。实验表明,网络嵌入技术能够自动有效地学习网络中隐含的关联关系与特征;通过将传统方法和网络嵌入方法相结合,欺诈预测性能得到了显著提升。
为了实现更加稳健和精准的门诊量预测,构建了一种基于SARIMA-LSTM的门诊量预测模型。该方法首先使用SARIMA模型对门诊量进行单指标建模,提取门诊量指标蕴含的周期、趋势等信息,然后构建了以节日天数、法定上班天数、平均最高气温等多个相关指标为输入的多对一LSTM模型,对SARIMA模型残差进行进一步学习,实现残差与多个变量间的非线性关系抽取。实证结果表明,构建SARIMA-LSTM混合模型相较5种主流预测方法具有更高的一步预测精度,具有较好的实际应用价值。