大数据 ›› 2020, Vol. 6 ›› Issue (3): 101-116.doi: 10.11959/j.issn.2096-0271.2020027

• 专题:面向大数据处理的数据流计算技术 • 上一篇    下一篇

分布式数据流计算系统的数据缓存技术综述

袁旭初,付国,毕继泽,张岩峰,聂铁铮,谷峪,鲍玉斌,于戈   

  1. 东北大学计算机科学与工程学院,辽宁 沈阳 110169
  • 出版日期:2020-05-15 发布日期:2020-05-15
  • 作者简介:袁旭初(1995- ),男,东北大学计算机科学与工程学院硕士生,主要研究方向为分布式系统、并行计算等|付国(1996- ),男,东北大学计算机科学与工程学院硕士生,主要研究方向为分布式系统、并行计算等|毕继泽(1998- ),男,东北大学计算机科学与工程学院本科生,主要研究方向为大数据处理、并行与分布式计算等|张岩峰(1982- ),男,博士,东北大学计算机科学与工程学院教授,主要研究方向为大数据处理与挖掘、深度学习、并行与分布式计算等|聂铁铮(1980- ),男,博士,东北大学计算机科学与工程学院副教授,主要研究方向为大数据管理、数据集成与融合、区块链等|谷峪(1981- ),男,博士,东北大学计算机科学与工程学院教授,主要研究方向为大数据分析、分布式计算、时空和图数据管理等|鲍玉斌(1968- ),男,博士,东北大学计算机科学与工程学院教授,主要研究方向为商务智能、数据挖掘、大数据分析等|于戈(1962- ),男,博士,东北大学计算机学院教授、博士生导师,中国计算机学会会士。现任中国计算机学会信息系统专业委员会主任、数据库专业委员会委员、系统软件专业委员会委员,《计算机学报》《软件学报》《计算机研究与发展》等期刊编委。曾获得“教育部跨世纪人才基金”和“中国高校青年教师奖”。主要研究方向为分布式数据库系统、数据科学与大数据管理、区块链技术与应用等
  • 基金资助:
    国家重点研发计划基金资助项目(2018YFB1003404);国家自然科学基金资助项目(61672141);中央高校基本科研业务费专项资金资助项目(N181605017);中央高校基本科研业务费专项资金资助项目(N181604016)

Survey on data caching technology of distributed dataflow system

Xuchu YUAN,Guo FU,Jize BI,Yanfeng ZHANG,Tiezheng NIE,Yu GU,Yubin BAO,Ge YU   

  1. College of Computer Science and Engineering,Northeastern University,Shenyang 110169,China
  • Online:2020-05-15 Published:2020-05-15
  • Supported by:
    The National Key Research and Development Program of China(2018YFB1003404);The National Natural Science Foundation of China(61672141);Fundamental Research Funds for the Central Universities(N181605017);Fundamental Research Funds for the Central Universities(N181604016)

摘要:

数据流编程模型以其高度并行计算、支持流水线处理、支持函数式编程等优点被许多主流的计算系统采用。在分布式数据流系统和异构数据流系统中,算子之间数据生产和数据消化的速度不一致可能会导致数据堆积或者算子闲置等问题。为支持高效的数据流系统,需要设计缓存系统,以保证数据流的高效缓存和移动。选取了几个典型的分布式数据流系统与分布式消息队列系统进行系统分析,并总结了目前消息队列系统对数据流缓存系统的支持程度。最后对数据缓存技术进行了阐述,并分析了未来的数据流缓存系统的需求和研究方向。

关键词: 数据流, 缓存, 分布式系统, 消息队列

Abstract:

Dataflow model is adopted by several dataflow systems for its advantages of high parallel computing,pipeline processing and functional programming.In distributed dataflow systems and heterogeneous dataflow systems,due to the speed mismatch between the data production of data source operators and the data consumption of data sink operators,data could be delayed and operators could be idle.In order to support an efficient dataflow system,a dataflow cache system was desired to ensure efficient caching and movement of dataflow.Several distributed dataflow systems and distributed message queuing systems were analyzed,and the support degree of current message queuing system to data flow caching system was summarized.Finally,the cache technique was introduced,and the demands and research directions of future dataflow caching systems were analyzed.

Key words: dataflow, cache, distributed system, message queue

中图分类号: 

No Suggested Reading articles found!