大数据 ›› 2021, Vol. 7 ›› Issue (5): 82-97.doi: 10.11959/j.issn.2096-0271.2021050

• 专题:国产环境下的大数据处理系统 • 上一篇    下一篇

面向大数据处理应用的广域存算协同调度系统

张晨浩1,2, 肖利民1,2, 秦广军3, 宋尧1,2, 蒋世轩1,2, 王继业4   

  1. 1 软件开发环境国家重点实验室,北京 100191
    2 北京航空航天大学计算机学院,北京 100191
    3 北京联合大学智慧城市学院,北京 100101
    4 国家电网有限公司大数据中心,北京 100031
  • 出版日期:2021-09-15 发布日期:2021-09-01
  • 作者简介:张晨浩(1997- ),男,北京航空航天大学计算机学院博士生,主要研究方向为高性能计算、分布式存储等
    肖利民(1970- ),男,博士,北京航空航天大学计算机学院教授、博士生导师,计算机科学技术系主任,计算机系统结构研究所副所长,中国计算机学会(CCF)大数据专家委员会委员、高性能计算专业委员会常务委员、容错计算专业委员会委员,中国电子学会云计算专家委员会委员,主要研究方向为计算机体系结构、大数据存储、高性能计算等。曾获国家科技进步奖二等奖4项、省部级科技进步奖一等奖4项及其他省部级奖项5项。发表SCI/EI论文230多篇,申请发明专利100多项,其中授权发明专利88项
    秦广军(1977- ),男,博士,北京联合大学智慧城市学院讲师,CCF会员,主要研究方向为高性能计算、存储系统、大数据和机器学习等。作为项目骨干参与多项国家863计划项目、国家重点研发计划项目、国家自然科学基金面上项目、北京市自然科学基金面上项目等
    宋尧(1994- ),男,北京航空航天大学计算机学院博士生,主要研究方向为高性能计算、分布式存储、分布式调度系统、存算联动调度等
    蒋世轩(1999- ),男,北京航空航天大学计算机学院硕士生,主要研究方向为分布式存储、存算联动调度等
    王继业(1964- ),男,博士,国家电网有限公司大数据中心教授级高级工程师,主要从事电力信息化、能源互联网、大数据与人工智能等方面的研究工作
  • 基金资助:
    国家重点研发计划资助项目(2017YFB1010000)

A wide-area collaborative scheduling system oriented to big data processing applications

Chenhao ZHANG1,2, Limin XIAO1,2, Guangjun QIN3, Yao SONG1,2, Shixuan JIANG1,2, Jiye WANG4   

  1. 1 State Key Laboratory of Software Development Environment, Beijing 100191, China
    2 School of Computer Science and Engineering, Beihang University, Beijing 100191, China
    3 Smart City College, Beijing Union University, Beijing 100101, China
    4 Big Data Center, State Grid Corporation of China, Beijing 100031, China
  • Online:2021-09-15 Published:2021-09-01
  • Supported by:
    The National Key Research and Development Program of China(2017YFB1010000)

摘要:

以我国研发的高性能计算虚拟数据空间系统为基础,针对大数据处理应用如何统筹利用广域存储和计算资源的问题,设计并实现了一套面向大数据处理应用的广域存算协同调度系统。该系统可依据应用的计算特征和数据布局,通过存算协同、负载均衡、数据局部性感知等策略,在广域环境中协同调度应用数据和计算任务,统筹利用广域计算和存储资源,有效提升大数据处理应用的运行性能。在国家高性能计算环境中实际测试的结果表明,提出的调度方法可有效地支撑大数据处理应用,跨域目标协同识别、分子对接等典型应用的运行效率可提升3~4倍。

关键词: 广域存算协同调度, 大数据处理应用, 虚拟数据空间, 高性能计算环境

Abstract:

Based on the high-performance computing global virtual data space system, a wide-area collaborative scheduling system for big data processing applications was designed and implemented.This system can address the issue of how big data processing applications unified use wide-area storage and computing resources.And it can collaborative schedule of application data and computing tasks based on the computing characteristics of the application and data layout through collaborative scheduling, load balancing scheduling, data locality scheduling strategies.By unified scheduling of application data and computing tasks in the wide-area environment, it can coordinate the utilization of wide-area computing and storage resources, and effectively improve the running performance of big data processing applications.The actual test results in the national high-performance computing environment show that the scheduling method proposed can support big data processing applications effectively, and the running efficiency of typical applications such as wide-area target collaborative recognition and molecular docking can be increased by 3~4 times.

Key words: wide-area collaborative scheduling, big data processing application, global virtual data space, high-performance computing environment

中图分类号: 

No Suggested Reading articles found!