大数据 ›› 2018, Vol. 4 ›› Issue (3): 3-12.doi: 10.11959/j.issn.2096-0271.2018025

• 专题:生物医疗大数据 •    下一篇

宏基因组大数据分析的质量控制流程规范

郑广勇1,杨桢1,曹瑞芳1,刘婉2,李亦学1,2,张国庆1,2   

  1. 1 中国科学院上海生命科学研究院生物医学大数据中心,上海 200031
    2 上海生物信息技术研究中心,上海 201203
  • 出版日期:2018-05-15 发布日期:2018-05-30
  • 作者简介:郑广勇(1977-),男,博士,中国科学院上海生命科学研究院生物医学大数据中心副研究员,主要研究方向为计算生物学、系统生物学以及生物医学大数据的深度挖掘。|杨桢(1981-),男,博士,中国科学院上海生命科学研究院生物医学大数据中心副研究员,主要研究方向为生物医学大数据的深度挖掘。|曹瑞芳(1989-),女,中国科学院上海生命科学研究院生物医学大数据中心工程师,主要研究方向为生物医学数据库和知识库的构建。|刘婉(1987-),女,博士,上海生物信息技术研究中心助理研究员,主要研究方向为微生物相关数据库与数据仓库、生物医学数据审编。|李亦学(1955-),男,博士,中国科学院上海生命科学研究院生物医学大数据中心研究员,主要研究方向为计算生物学、生物医学大数据的系统研究。|张国庆(1978-),男,博士,中国科学院上海生命科学研究院生物医学大数据中心研究员,主要研究方向为生物医学数据库和知识库的构建。
  • 基金资助:
    国家重点研发计划基金资助项目(SQ2017YFSF120182);国家重点研发计划基金资助项目(2017YFC0907505);国家重点研发计划基金资助项目(2016YFC0901904);国家重点研发计划基金资助项目(2016YFC0901604);中国科学院微生物组计划基金资助项目(KFZD-SW-219-5)

Quality control of big data analysis for metagenomics

Guangyong ZHENG1,Zhen YANG1,Ruifang CAO1,Wan LIU2,Yixue LI1,2,Guoqing ZHANG1,2   

  1. 1 Bio-Med Big Data Center,Shanghai Institutes for Biological Sciences,Chinese Academy of Sciences,Shanghai 200031,China
    2 Shanghai Center for Bioinformation Technology,Shanghai 201203,China
  • Online:2018-05-15 Published:2018-05-30
  • Supported by:
    The National Key Research and Development Program of China(SQ2017YFSF120182);The National Key Research and Development Program of China(2017YFC0907505);The National Key Research and Development Program of China(2016YFC0901904);The National Key Research and Development Program of China(2016YFC0901604);Microbiome Initiative of Chinese Academy of Sciences(KFZD-SW-219-5)

摘要:

宏基因组数据具有数据量大、复杂度高的特点,从数据类型来看,其涵盖了元数据和测序数据。为了保证宏基因组数据后续功能分析的有效性和正确性,需要对这些元数据和测序数据进行严格的质量控制检测。详细描述了宏基因组数据的质量控制流程,包括元数据和测序数据的信息检查、低质量片段的过滤等过程,从而为宏基因组数据分析提供了预处理的规范,这将为微生物组大数据分析提供坚实的基础。

关键词: 微生物组, 宏基因组, 大数据分析, 二代测序, 质量控制

Abstract:

Metagenomic data has the characteristics of high volume and complexity.As for data type of metagenomics,it covers metadata and sequencing data.Before performing in-depth functional analysis of metagenomic data,strict quality control for these metadata and sequencing data are needed,so as to ensure the validity and correctness of subsequent data analysis.The quality control process of metagenomic data was described in detail,which included information checking of metadata and sequencing data,filtering of low quality fragments,and so on.A pre-processing specification for metagenomic data analysis was presented,and a solid foundation for big data analysis of microbiome was provided.

Key words: microbiome, metagenomics, big data analysis, next generation sequencing, quality control

中图分类号: 

No Suggested Reading articles found!