大数据 ›› 2021, Vol. 7 ›› Issue (2): 147-157.doi: 10.11959/j.issn.2096-0271.2021018

• 专题:高性能计算虚拟数据空间 • 上一篇    下一篇

分布式存储系统中的数据高效缓存方法

杨青霖, 吴桂勇, 张广艳   

  1. 清华大学计算机科学与技术系,北京 100084
  • 出版日期:2021-03-15 发布日期:2021-03-01
  • 作者简介:杨青霖(1995- ),男,清华大学计算机科学与技术系博士生,主要研究方向为分布式系统、纠删码存储。
    吴桂勇(1992- ),男,清华大学计算机科学与技术系硕士生,主要研究方向为分布式系统、存储系统。
    张广艳(1976- ),男,博士,清华大学计算机系长聘副教授、博士生导师,主要从事大数据存储与分析的理论和方法研究,包括大数据计算、存储系统与分布式处理等方面。研究得到了国家杰出青年科学基金项目、国家重点研发计划项目、国家973项目和国家863项目等的支持。近年来提出了大规模存储系统构建及访问的方法与关键技术,有效提高了存储系统的性能、扩展性和可用性。发表学术论文40余篇,其中在FAST、USENIX ATC、ACM TOS、IEEE TC、IEEE TPDS等计算机系统领域高水平国际会议和期刊发表论文20余篇。近五年以第一发明人获得美国发明专利授权1项、中国发明专利授权7项。
  • 基金资助:
    国家重点研发计划资助项目(2018YFB0203902);国家自然科学基金资助项目(62025203)

An approach to buffering data efficiently in distributed storage systems

Qinglin YANG, Guiyong WU, Guangyan ZHANG   

  1. Department of Computer Science and Technology, Tsinghua University, Beijing 100084, China
  • Online:2021-03-15 Published:2021-03-01
  • Supported by:
    The National Key Research and Development Program of China(2018YFB0203902);The National Natural Science Foundation of China(62025203)

摘要:

针对典型分布式存储系统存在的写放大、I/O路径过长、响应时延较高等问题,提出了一种基于SSD的分布式存储系统中数据高效缓存方法,采用读写旁路和懒惰缓存的缓存管理策略,以及兼顾最近访问时间和历史访问频率的缓存替换策略,并根据前台工作负载的变化情况,自适应地调整主动回刷脏数据的速率,显著提升了存储系统的读写性能。

关键词: 分布式存储, 分布式数据缓存, 读写旁路, 懒惰缓存, 替换策略

Abstract:

To address the problems of write amplification, long I/O path, and high access latency in distributed storage systems, an efficient SSD-based caching approach for distributed storage systems was proposed.This approach adopts read/write bypassing and lazy caching methods to manage the cache system, considers last access time and historical access frequency when performing cache replacement, and adjusts the flushing speed according to the foreground workload.It improves significantly the reading and writing performance of storage systems.

Key words: distributed storage, distributed data caching, read/write bypassing, lazy caching, replacement strategy

中图分类号: 

No Suggested Reading articles found!