大数据 ›› 2019, Vol. 5 ›› Issue (6): 3-18.doi: 10.11959/j.issn.2096-0271.2019046

• 专题:大数据整理 • 上一篇    

人在回路的数据准备技术研究进展

范举1,2,陈跃国1,2,杜小勇1,2   

  1. 1 中国人民大学数据工程与知识工程教育部重点实验室,北京 100872
    2 中国人民大学信息学院,北京 100872
  • 出版日期:2019-11-15 发布日期:2020-01-10
  • 作者简介:范举(1984- ),男,博士,中国人民大学数据工程与知识工程教育部重点实验室与信息学院副教授,中国计算机学会会员,数据库专业委员会委员。主要研究方向为数据库与大数据、众包数据管理、数据准备|陈跃国(1978- ),男,博士,中国人民大学信息学院教授、博士生导师,中国计算机学会高级会员,数据库专业委员会委员,大数据专家委员会通信委员。主要研究方向为大数据分析系统和语义搜索|杜小勇(1963- ),男,博士,中国人民大学信息学院教授、博士生导师,教育部数据工程与知识工程重点实验室主任,中国计算机学会会士,数据库专业委员会主任,《大数据》期刊编委会副主任,ACM Transactions on Data Science编委。主要研究方向为数据库与大数据、智能信息检索、知识工程
  • 基金资助:
    国家自然科学基金资助项目(61602488);国家自然科学基金资助项目(61632016);国家自然科学基金资助项目(U1711261)

Progress on human-in-the-loop data preparation

Ju FAN1,2,Yueguo CHEN1,2,Xiaoyong DU1,2   

  1. 1 DEKE Lab &Information School,Renmnin University of China,Beijing 100872,China
    2 School of Information,Renmnin University of China,Beijing 100872,China
  • Online:2019-11-15 Published:2020-01-10
  • Supported by:
    The National Natural Science Foundation of China(61602488);The National Natural Science Foundation of China(61632016);The National Natural Science Foundation of China(U1711261)

摘要:

随着数据分析技术的迅猛发展,数据准备越来越成为一个瓶颈性问题。以真实的数据分析场景为背景,分析了数据准备的两大核心挑战:人力成本高与时间周期长。在此基础上,介绍了人在回路数据准备技术的研究进展。交互式数据准备技术面向终端用户,通过与用户的交互预测其意图,并通过有效的预测算法来节省数据准备的时间。基于众包的数据准备技术引入互联网上的海量用户作为众包工人扩展计算能力,从而支持数据准备的基本任务,并研究如何对众包做质量控制与成本优化。最后,对人在回路的数据准备做出总结并探讨未来的挑战性问题。

关键词: 数据治理, 数据准备, 众包, 交互机制

Abstract:

With the rapid development of data analytics,data preparation has become a major bottleneck.The two essential challenges for data preparation on cost and time were analyzed.To address the challenges,the research progress on human-in-theloop data preparation was reviewed.Firstly,interactive data preparation was reviewed,which aimed to reduce the time for data preparation by predictively interacting with the end users.Then,crowdsourced data preparation was introduced,which utilize human’s computational power from the crowd to support foundamental data preparation tasks,and developed algorithms for controlling result quality and reducing crowdsourcing cost.Finally,future research directions were summarized and discussed.

Key words: data governance, data preparation, crowdsourcing, interactive mechanism

中图分类号: 

[1] 周杰,梁笃国. 智能监控在上海世博会中的应用探讨[J]. 电信科学, 2009, 25(11): 78 -81 .
[2] 姜启广. TD-SCDMA与2G共址网络规划探讨[J]. 电信科学, 2009, 25(11): 81 -85 .
[3] 王侃. IDM技术发展与挑战[J]. 电信科学, 2009, 25(11): 88 -90 .
[4] 龙文富. 面向2G/3G移动回传的IP承载网解决方案 IPTN[J]. 电信科学, 2009, 25(11): 95 -97 .
[5] 孙毓明,毛拥华. 移动网络演进及其对传送网络的影响[J]. 电信科学, 2009, 25(11): 102 -104 .
[6] . 联想服务器助力好耶广告网络邮件系统[J]. 电信科学, 2009, 25(11): 107 .
[7] 张云霞,田烨. M2M应用浅析[J]. 电信科学, 2009, 25(12): 4 -8 .
[8] 解冲锋,孙颖,高歆雅. 物联网与电信网融合策略探讨[J]. 电信科学, 2009, 25(12): 9 -12 .
[9] 王艺,诸瑾文,来勐. 从M2M业务走向泛在网[J]. 电信科学, 2009, 25(12): 13 -16 .
[10] 刘峰,吕晓鹏,夏宏飞,许建国. 改善LT码性能的预译码集优化方法研究[J]. 电信科学, 2009, 25(12): 17 -23 .