大数据 ›› 2020, Vol. 6 ›› Issue (3): 73-86.doi: 10.11959/j.issn.2096-0271.2020025

• 专题:面向大数据处理的数据流计算技术 • 上一篇    下一篇

数据流计算模型及其在大数据处理中的应用

毕倪飞,丁光耀,陈启航,徐辰(),周傲英   

  1. 华东师范大学数据科学与工程学院,上海 200062
  • 出版日期:2020-05-15 发布日期:2020-05-15
  • 作者简介:毕倪飞(1996- ),男,华东师范大学数据科学与工程学院硕士生,主要研究方向为异构分布式系统中的查询优化|丁光耀(1996- ),男,华东师范大学数据科学与工程学院博士生,主要研究方向为并行与分布式系统|陈启航(1996- ),男,华东师范大学数据科学与工程学院硕士生,主要研究方向为异构分布式计算中的查询优化|徐辰(1988- ),男,华东师范大学数据科学与工程学院副教授、硕士生导师,主要研究方向为大规模分布式数据管理|周傲英(1965- ),男,博士,华东师范大学副校长、“智能+”研究院院长、数据科学与工程学院教授。现任第七届国务院学位委员会学科评议组成员,中国计算机学会会士,上海市计算机学会副理事长,《计算机学报》《大数据》期刊副主编。曾入选“长江学者计划”特聘教授,曾获国家杰出青年基金项目资助,主要研究方向为数据库、数据管理、数据驱动的计算教育学,以及教育科技(EduTech)、物流科技(LogTech)等基于数据的应用科技
  • 基金资助:
    国家重点研发计划基金资助项目(2018YFB1003400);国家自然科学基金资助项目(61902128);上海市青年科技英才扬帆计划基金资助项目(19YF1414200)

Dataflow model and its applications in big data processing

Nifei BI,Guangyao DING,Qihang CHEN,Chen XU(),Aoying ZHOU   

  1. School of Data Science &Engineering,East China Normal University,Shanghai 200062,China
  • Online:2020-05-15 Published:2020-05-15
  • Supported by:
    The National Key Research and Development Program of China(2018YFB1003400);The National Natural Science Foundation of China(61902128);Shanghai Sailing Program(19YF1414200)

摘要:

如今无界、乱序的大规模数据集越来越普遍,并且消费者对这些数据集的处理需求日益复杂,如时间语义、窗口以及处理时延等。针对在无界、乱序的大规模数据集上演进的数据处理需求,探讨了大数据处理中的数据流计算模型。一方面,从执行引擎层面分析了大数据处理中的数据流计算模型所体现的数据流图;另一方面,从统一编程层面分析了大数据处理中的数据流计算模型所体现的数据流编程模型。在此基础上,进一步结合Spark批处理引擎和Flink流计算引擎等多个执行引擎,对比分析了数据流图和数据流编程模型在2类执行引擎中的具体实现。

关键词: 数据流计算模型, 大数据处理, 执行引擎, 统一编程

Abstract:

Unbounded,unordered and large scale datasets are increasingly common in recent years.Meanwhile,the processing requirements from data consumers are becoming more and more sophisticated,such as event time,window and latency.In order to deal with the evolved processing requirements on these unbounded,unordered and large scale datasets,the dataflow model in big data processing was introduced.On one hand,the dataflow graph of the dataflow model in big data processing was analyzed from the level of execution engine.On other hand,the dataflow programming model of the dataflow model in big data processing was analyzed from the level of unified programming.Furthermore,the different implementations of dataflow graph and dataflow programming model in multiple execution engines were analyzed,including Spark,a batch processing engine,and Flink,a stream processing engine.

Key words: dataflow model, big data processing, execution engine, unified programming

中图分类号: 

No Suggested Reading articles found!