大数据 ›› 2017, Vol. 3 ›› Issue (2): 31-37.doi: 10.11959/j.issn.2096-0271.2017017

• 专题:大数据管理与分析 • 上一篇    下一篇

让大数据分析更可信

王腾蛟,李喜莲   

  1. 北京大学信息科学技术学院,北京 100871
  • 出版日期:2017-03-20 发布日期:2017-03-24
  • 作者简介:王腾蛟(1973-),男,北京大学信息科学技术学院教授、博士生导师,北京大学文理大数据研究中心常务副主任,主要研究方向为数据库管理系统、互联网数据分析、数据仓库与数据挖掘等。|李喜莲(1992-),女,北京大学信息科学技术学院硕士生,主要研究方向为大数据、机器学习和数据挖掘等。
  • 基金资助:
    国家自然科学基金资助项目(No.61572043);国家重点研发计划基金资助项目(No.2016YFB1000704)

Making big data analysis more credible

Tengjiao WANG,Xilian LI   

  1. School of Electronics Engineering and Computer Science,Peking University,Beijing 100871,China
  • Online:2017-03-20 Published:2017-03-24
  • Supported by:
    The National Key Research and Development Program(No.61572043);The National Natural Science Foundation of China(No.2016YFB1000704)

摘要:

大数据在学术界和产业界的各个领域正扮演着愈加重要的角色,但同时,大数据是否可信,引发了无数研究者的广泛关注和激烈讨论。从大数据名称的历史演变、大数据应用的案例分析以及大数据工程的角度探索大数据的可信程度,并由此总结出保证大数据分析正确性需要解决的3个挑战:正确选择数据源、科学抽样有代表性和有价值的数据、严谨完备的大数据工程分析方法。

关键词: 大数据, 数据仓库, 海量数据, 大数据工程

Abstract:

Big data is playing an increasingly important role in various areas of academia and industry.However,whether big data can be trusted has caused widespread concern and intense discussion among countless researchers.The credibility of big data from the historical evolution of big data names,case studies of big data applications and big data engineering was explored,and thus the three challenges needed to be addressed to ensure the correctness of big data analysis were concluded:the right choice of data source,the scientific sampling of representative and valuable data,the rigorous and complete big data engineering analysis method.

Key words: big data, data warehouse, massive data, big data engineering

中图分类号: 

No Suggested Reading articles found!