编辑部公告

  • 2019年第6期专题:大数据整理



           在大数据时代,数据呈现多源、异构、信息不一致、信息不完整等特点,这会造成数据不完整、数据质量较低的问题。数据整理(包括数据发现、数据准备、数据清洗、数据融合等)旨在整合多源异构数据,形成高质量的统一数据视图。由于数据的异质性、开放性,数据整理成为大数据处理的瓶颈,很多数据分析应用80%以上的工作都花在了数据整理上。因此如何实现高效的大数据的智能化整理,已成为学术界与产业界共同关注的焦点。本专题“大数据整理”汇集了我国从事大数据处理方向的部分专家的研究成果,以期与大家共同探讨该方向的前沿研究与技术发展趋势。

           范举等人的论文《人在回路的数据准备技术研究进展》给出了人在回路数据准备技术的研究进展,详细分析了基于众包的数据准备技术,如清洗与集成,并对众包成本做出优化;还总结了交互式数据准备技术,将用户交互引入数据准备中,并通过有效的预测算法来节省数据准备的时间。最后,对人在回路的数据准备做出了总结,并探讨了未来的挑战性问题。

           丁小欧等人的论文《工业时序大数据质量管理》介绍了工业时序大数据的特点及工业数据质量管理的难点,并对工业时序大数据质量管理的研究现状加以分析、总结,最后提出了时序大数据质量管理方法和系统性能的提升方向。

           于明鹤等人的论文《数据管护技术及应用》系统介绍了数据管护的处理过程和其中的关键技术,给出了几种基于数据管护的应用,并对其技术特点进行了对比分析,还对数据管护技术的发展前景和未来挑战进行了总结。

           包小源等人的论文《基于数据空间的电子病历数据融合与应用平台》针对电子病历数据的脱敏和集成进行分析,建立了基于原始数据空间、匿名数据空间、模型数据空间的电子病历数据集成、融合、二次利用平台。

           本专题由于篇幅有限,不能涵盖数据整理的方方面面,希望通过阐述数据整理面临的机遇与挑战,引起各界的关注和进一步研究,并推动其进一步发展。



           李国良(1981- ),男,清华大学计算机科学与技术系教授,计算机软件研究所所长,主要研究方向为数据库、数据融合分析、大数据挖掘与分析、群智计算。在数据库、数据挖掘、信息检索领域的顶级会议和期刊上发表论文100余篇,他引7000余次,入选爱思唯尔2014—2018年中国高被引学者榜单。主持国家优秀青年基金项目、青年“973” 项目、国家自然科学基金重点项目等。获得了VLDB Early Career Research Contribution Award(VLDB杰出青年贡献奖,亚洲唯一一位)、IEEE TCDE Early Career Award(IEEE 数据工程领域杰出新人奖,亚洲唯一一位)、青年长江学者、国家“万人计划”青年拔尖人才、计算机学会青年科学家奖等奖项。担任VLDB JournalIEEE TKDEIEEE Data Engineering BulletinACM Transactions on Data ScienceACM Data and Information Quality 等期刊编委,多次担任SIGMOD、VLDB、KDD、ICDE、WWW、IJCAI、AAAI等会议的程序委员会委员。获得KDD’18、ICD’18最佳论文候选, CIKM’17最佳论文奖、DASFAA’14最佳论文提名奖、A PWeb’14最佳论文奖、EDBT’13大数据比赛冠军。

  • 发布日期: 2020-01-20    浏览: 1251
下载排行
点击排行