大数据 ›› 2019, Vol. 5 ›› Issue (3): 13-22.doi: 10.11959/j.issn.2096-0271.2019020

• 专题:大数据治理 • 上一篇    下一篇

数据整理——大数据治理的关键技术

杜小勇1,2,陈跃国1,2,范举1,2,卢卫1,2   

  1. 1 中国人民大学信息学院,北京 100872
    2 数据工程与知识工程教育部重点实验室(中国人民大学),北京 100872
  • 出版日期:2019-05-15 发布日期:2019-05-20
  • 作者简介:杜小勇(1963-),男,博士,中国人民大学信息学院二级教授、学术委员会主任、博士生导师,中国人民大学校长助理,数据工程与知识工程教育部重点实验室(中国人民大学)主任。兼任教育部科学技术委员会信息学部委员,国家重点研发计划“云计算与大数据”专家组成员,中国计算机学会常务理事、教育工作委员会主任、数据库专业委员会主任,《大数据》期刊副主编,全国信息技术标准化技术委员会大数据标准工作组副组长等。曾担任中国人民大学信息学院院长,国家“863”计划数据库重大专项专家组组长,国家“863”计划软件重大专项专家组成员等。先后获得国家科技进步奖二等奖,北京市科技进步奖一等奖,教育部科技进步奖一等奖,中国计算机学会科学技术奖一等奖等奖项。|陈跃国(1978-),男,博士,中国人民大学信息学院教授、博士生导师,中国计算机学会高级会员,数据库专业委员会委员,大数据专家委员会通讯委员。主要研究方向为高性能大数据分析系统和语义搜索。主持国家自然科学基金重点项目1项。广东省科技应用重大专项1项,近年来在SIGMOD、SIGIR、ICDE、AAAI、TKDE、WWW等国际重要会议和期刊上发表论文20余篇。|范举(1984-),男,博士,中国人民大学信息学院副教授、硕士生导师,中国计算机学会会员,数据库专业委员会委员,主要研究方向为大数据分析、数据集成与众包计算。先后在SIGMOD、VLDB、ICDE、TKDE等国际重要会议和期刊上发表论文30余篇。担任国际重要会议SIGMOD 2020、VLDB 2018/2020的程序委员会委员。|卢卫(1981-),男,博士,中国人民大学信息学院副教授、硕士生导师,中国人工智能学会智能服务专业委员会委员。近年来主要从事数据库基础理论、大数据系统研制等相关领域的研究,先后在SIGMOD、VLDB、ICDE、SIGIR、AAAI、VLDB Journal、TKDE等国际重要会议和期刊上发表论文30余篇,主持和参与多项国家自然科学基金项目。
  • 基金资助:
    国家自然科学基金资助项目(U1711261)

Data wrangling:a key technique of data governance

Xiaoyong DU1,2,Yueguo CHEN1,2,Ju FAN1,2,Wei LU1,2   

  1. 1 School of Information,Renmin University of China,Beijing 100872,China
    2 Key Laboratory of Data Engineering and Knowledge Engineering,Renmin University of China,Beijing 100872,China
  • Online:2019-05-15 Published:2019-05-20
  • Supported by:
    The National Natural Science Foundation of China(U1711261)

摘要:

数据是政府、企业和机构的重要资源。数据治理关注数据资源有效利用的众多方面,如数据资产确权、数据管理、数据开放共享、数据隐私保护等。从数据管理的角度,探讨了数据治理中的一项关键技术:数据整理。介绍了以数据拥有者和直接使用者(行业用户)为核心的数据整理的关键技术,包括数据结构化处理、数据质量评估及数据清洗、数据规范化、数据融合与摘取、数据整理的发布共享等。最后,针对加强数据整理方面的研究提出了一些思考。

关键词: 数据整理, 数据准备, 数据治理, 数据管理

Abstract:

Data is an important resource for governments,businesses and institutions.Data governance focuses on many aspects of effective use of data resources,such as data asset,data management,data sharing,and data privacy.A key techniquedata wrangling-in data governance from the perspective of data management was explored.The key technologies of data wrangling based on data owners and direct users-industry users were emphasized,including data structure processing,data quality assessment and data cleaning,data normalization,data fusion and extraction,data publishing and sharing,etc.Finally,some thoughts on strengthening the research on data organization were put forward.

Key words: data wrangling, data preparation, data governance, data management

中图分类号: 

No Suggested Reading articles found!