大数据 ›› 2019, Vol. 5 ›› Issue (2): 89-103.doi: 10.11959/j.issn.2096-0271.2019016

• 研究 • 上一篇    下一篇

CPU-MIC异构并行架构下基于大规模频繁子图挖掘的药物发现算法

彭绍亮1,牛琦1,李肯立1,邹权2   

  1. 1 湖南大学信息科学与工程学院,湖南 长沙 410082
    2 电子科技大学基础与前沿研究院,四川 成都 610054
  • 出版日期:2019-03-15 发布日期:2019-04-04
  • 作者简介:彭绍亮(1979- ),男,博士,湖南大学信息科学与工程学院教授,国家超级计算长沙中心(湖南大学)副主任。长期从事高性能计算、大数据、生物信息、人工智能、区块链等技术研究工作,担任国防科技大学“天河”生命科学方向负责人,深圳华大基因研究院“特聘教授”,湖南大学“岳麓学者”三级教授。发表学术论文上百篇。参与“天河”系列超级计算机应用软件研发工作,参与国家“973”项目、“863”项目、军队重大型号项目等13项,获军队科技进步奖一等奖1项,中国计算机学会(CCF)科学技术奖自然科学二等奖,2016年荣立三等功。|牛琦(1995- ),男,湖南大学信息科学与工程学院硕士生,主要研究方向为计算生物学。|李肯立(1971- ),男,湖南大学信息科学与工程学院院长,国家超级计算长沙中心主任,教育部“长江学者”特聘教授、国家杰出青年科学基金获得者、国家“万人计划”科技创新领军人才。学术兼职有教育部“高效能计算学科创新引智基地”负责人、数据分析湖南省工程技术研究中心主任。担任国家超级计算创新联盟副理事长、新一代人工智能产业技术创新战略联盟专家委员会委员、IEEE高级会员、CCF杰出会员、CCF高性能计算专业委员会常务委员、湖南省计算机学会秘书长等。主要研究方向为并行分布式处理、超级计算与云计算、面向大数据和人工智能的高效能计算等。|邹权(1982- )男,电子科技大学基础与前沿研究院教授,IEEE会员,ACM会员,CCF高级会员,中国人工智能学会会员(粗糙集与软计算专业委员会委员、生物信息学与人工生命专业委员会委员、机器学习专业委员会通讯委员),中国运筹学会会员,中国自动化学会会员。主要研究方向为生物信息学、机器学习和并行计算,现主要研究基于并行计算方法的下一代测序数据的蛋白质分类、基因组装配、注释和功能分析。
  • 基金资助:
    国家重点研发计划基金资助项目(2017YFB0202602);国家重点研发计划基金资助项目(2018YFC0910405);国家重点研发计划基金资助项目(2017YFC1311003);国家重点研发计划基金资助项目(2016YFC1302500);国家重点研发计划基金资助项目(2016YFB0200400);国家重点研发计划基金资助项目(2017YFB0202104);国家自然科学基金资助项目(61772543);国家自然科学基金资助项目(U1435222);国家自然科学基金资助项目(61625202);国家自然科学基金资助项目(61272056)

A scalable CPU-MIC coordinated drug-finding tool by frequent subgraph mining

Shaoliang PENG1,Qi NIU1,Kenli LI1,Quan ZOU2   

  1. 1 College of Computer Science and Electronic Engineering,Hunan University,Changsha 410082,China
    2 Institute of Fundamental and Frontier Sciences,University of Electronic Science and Technology of China,Chengdu 610054,China
  • Online:2019-03-15 Published:2019-04-04
  • Supported by:
    National Key Research and Development Program of China(2017YFB0202602);National Key Research and Development Program of China(2018YFC0910405);National Key Research and Development Program of China(2017YFC1311003);National Key Research and Development Program of China(2016YFC1302500);National Key Research and Development Program of China(2016YFB0200400);National Key Research and Development Program of China(2017YFB0202104);The National Natural Science Foundation of China(61772543);The National Natural Science Foundation of China(U1435222);The National Natural Science Foundation of China(61625202);The National Natural Science Foundation of China(61272056)

摘要:

频繁子图挖掘是许多实际应用领域中需要解决的重要问题,由于计算密集性、挖掘的图集及其结果容量大,现有的频繁子图挖掘方案无法满足时间需求,其处理效率是目前面临的主要挑战。原创性地提出了并行加速的频繁子图挖掘工具cmFSM。cmFSM主要在3个层次上进行并行优化:单节点上的细粒度OpenMP并行化、多节点多进程并行化和CPU-MIC协作并行化。在单节点上cmFSM的处理速度比基于CPU的最佳算法快一倍,在多节点方案中cmFSM提供可扩展性。结果表明,即使只使用一些并行计算资源,cmFSM也明显优于现有的最先进的算法。这充分表明提出的工具在生物信息学领域的有效性。

关键词: 频繁子图挖掘, 生物信息学, 并行算法, 内存约束, 同构, 集成众核

Abstract:

Frequent subgraph mining is an important issue to be solved in many practical fields.Due to the computational intensiveness,the mining of the atlas and the large capacity of the results,the existing solutions can not meet the time requirements,and its efficiency is currently the main challenge.The frequent subgraph mining tool cmFSM for parallel acceleration was originally proposed.cmFSM performs parallel optimization on three levels:fine-grained OpenMP parallelization on a single node,multi-node multi-process parallelization and CPU-MIC collaborative parallelization.cmFSM is twice as fast as the best CPU-based algorithm on a single node and provides scalability in a multi-node approach.In the future,we will continue to improve the scalability of multiple solutions.The results show that even with only a few parallel computing resources,cmFSM is significantly better than the most advanced algorithms available.This fully demonstrates the effectiveness of the proposed tool in the field of bioinformatics.

Key words: frequent subgraph mining, bioinformatics, parallel algorithm, memory constraints, isomorphism, many integrated core

中图分类号: 

No Suggested Reading articles found!