大数据 ›› 2023, Vol. 9 ›› Issue (4): 59-68.doi: 10.11959/j.issn.2096-0271.2023048

• 专题:跨域数据管理 • 上一篇    

人工参与的迭代式数据清洗方法研究

刘一达, 丁小欧, 王宏志, 杨东华   

  1. 哈尔滨工业大学计算机科学与技术学院,黑龙江 哈尔滨 150001
  • 出版日期:2023-07-01 发布日期:2023-07-01
  • 作者简介:刘一达(2000- ),男,哈尔滨工业大学计算机科学与技术学院博士生,主要研究方向为数据清洗、数据依赖松弛方向
    丁小欧(1993- ),女,博士,哈尔滨工业大学计算机科学与技术学院助理教授,主要研究方向为数据清理、时间数据质量管理、时间数据挖掘、工业数据清理和多元时间序列数据中的异常行为挖掘。在数据库领域的国际会议和期刊上发表14篇学术论文
    王宏志(1978- ),男,博士,哈尔滨工业大学计算机科学与技术学院教授、博士生导师,主要研究方向为大数据管理、数据质量、图形数据管理和Web数据管理,发表论文100多篇
    杨东华(1976- ),男,哈尔滨工业大学计算机科学与技术学院副教授、博士生导师,主要研究方向为数据库、大数据管理与分析等,发表论文30余篇,SCI/EI检索30余次。主持国家自然科学基金面上项目2项、青年项目1项,以主要成员参与国家重点基础研究发展计划项目1项、国家重点研发项目1项、国家自然科学基金重点项目1项。主持中国博士后科学基金、黑龙江省博士后科学基金、黑龙江省自然科学基金等项目5项
  • 基金资助:
    国家重点研发计划资助项目(2021YFB3300502);国家自然科学基金资助项目(62202126);国家自然科学基金资助项目(62232005);中国博士后科学基金项目(2022M720957);黑龙江省博士后面上资助项目(LBH-Z21137)

Research on iterative data cleaning of human-computer interaction

Yida LIU, Xiaoou DING, Hongzhi WANG, Donghua YANG   

  1. School of Computer Science and Technology, Harbin Institute of Technology, Harbin 150001, China
  • Online:2023-07-01 Published:2023-07-01
  • Supported by:
    The National Key Research and Development Program of China(2021YFB3300502);The National Natural Science Foundation of China(62202126);The National Natural Science Foundation of China(62232005);China Postdoctoral Science Foundation(2022M720957);Heilongjiang Postdoctoral Financial Assistance(LBH-Z21137)

摘要:

数据采集技术的进步导致了数据集规模的飞速上涨,由于数据的大规模和高复杂性引起了严重的数据质量问题,数据清洗是数据活动中必要且重要的环节。为了在保证清洗准确率的情况下有效地降低人工标注成本,提出了一种人工参与的迭代式的数据清洗方法(IDCHI)。该方法在检测模块中提出了数据选择优化方法,使分类器在初始阶段就拥有较高的准确度;并进一步提出了待人工标注数据选择方法,有效地降低人工标注的数据量。实验结果表明该方法可有效且高效地清洗错误数据。

关键词: 数据清洗, 人工参与, 迭代式, 小批量梯度下降

Abstract:

The advancement of data collection technology has led to a rapid increase in the size of datasets.Due to the big scale and high complexity of the data volume, serious data quality issues arise.Therefore, data cleaning is a necessary and important step in data activities.To effectively reduce human annotation costs while ensuring the accuracy of cleaning, an iterative data cleaning method (IDCHI) with human participation was proposed.This method proposed a data selection optimization method in the detection module, which enables the classifier to have high accuracy in the initial stage; and further proposed a method for selecting data to be manually annotated, effectively reducing the amount of data to be manually annotated.The experimental results show that the proposed method is effective and efficient in cleaning erroneous data.

Key words: data cleaning, human_in_loop, iteration, mini-batch gradient descent

中图分类号: 

No Suggested Reading articles found!