大数据 ›› 2020, Vol. 6 ›› Issue (5): 16-28.doi: 10.11959/j.issn.2096-0271.2020041

• 专题:医学大数据 • 上一篇    

基因组大数据变异检测算法的并行优化

崔英博1,黄春1,唐滔1,杨灿群1,廖湘科1,彭绍亮2,3   

  1. 1 国防科技大学计算机学院,湖南 长沙 410073
    2 湖南大学信息科学与工程学院,湖南 长沙 410082
    3 国家超级计算长沙中心,湖南 长沙 410082
  • 出版日期:2020-09-20 发布日期:2020-09-29
  • 作者简介:崔英博(1989- ),男,博士,国防科技大学计算机学院助理研究员,主要研究方向为高性能计算、生物大数据挖掘等|黄春(1973- ),女,博士,国防科技大学计算机学院研究员,主要研究方向为高性能计算系统、并行编译、并行编程和高性能数学库等|唐滔(1984- ),男,博士,国防科技大学计算机学院副研究员,主要研究方向为编译器、并行计算和高性能计算|杨灿群(1968- ),男,博士,国防科技大学计算机学院研究员,主要研究方向为高性能计算、并行编程等|廖湘科(1963- ),男,博士,国防科技大学计算机学院研究员,主要研究方向为高性能计算、系统软件等|彭绍亮(1979- ),男,博士,湖南大学信息科学与工程学院教授,国家超级计算长沙中心副主任,主要研究方向为高性能计算、生物信息、大数据挖掘、区块链等
  • 基金资助:
    国家重点研发计划基金资助项目(2018YFB0204301);国家重点研发计划基金资助项目(2017YFB0202602);国家自然科学基金资助项目(61772543);国家自然科学基金资助项目(61972408)

Parallel optimization of variation detection algorithms for large-scale genome data

Yingbo CUI1,Chun HUANG1,Tao TANG1,Canqun YANG1,Xiangke LIAO1,Shaoliang PENG2,3   

  1. 1 College of Computer,National University of Defense Technology,Changsha 410073,China
    2 College of Computer Science and Electronic Engineering,Hunan University,Changsha 410082,China
    3 National Supercomputer Center in Changsha,Changsha 410082,China
  • Online:2020-09-20 Published:2020-09-29
  • Supported by:
    The National Key Research and Development Program of China(2018YFB0204301);The National Key Research and Development Program of China(2017YFB0202602);The National Natural Science Foundation of China(61772543);The National Natural Science Foundation of China(61972408)

摘要:

序列比对和变异检测是基因组数据分析的基础步骤,是后续各种功能性分析的前提,也是基因组数据分析中最耗时的环节。为有效处理高通量测序技术产生的海量基因组大数据,采用OpenMP、MPI等技术,对序列比对算法和SNP检测算法进行了多级并行优化,并对相关算法进行了改进。在不同数据集和并行规模下的测试中,核心算法加速比达到9倍以上,大规模测试中算法的并行效率保持在60%以上,在保证精度的前提下获得了良好的并行性能和可扩展性,有效提高了基因组大数据变异检测的能力。

关键词: 序列比对, SNP, OpenMP, MPI

Abstract:

Sequence alignment and mutation detection are the basic steps of genomic data analysis.They are the premise of subsequent functional analysis,and the most time-consuming steps.In order to effectively deal with the massive genomic big data brought by high-throughput sequencing technology,MPI,OpenMP and other technologies to perform multi-level parallel optimization of sequence alignment algorithm and SNP detection algorithm were used.By testing on different data sets and parallel scales,the core algorithm reached more than 9x speedup,and the parallel efficiency remained above 60% in large-scale test.The improved algorithms obtain good parallel performance and scalability,that effectively improves the ability of genomic big data mutation detection.

Key words: sequence alignment, SNP, OpenMP, MPI

中图分类号: 

No Suggested Reading articles found!