大数据 ›› 2015, Vol. 1 ›› Issue (1): 35-54.doi: 10.11959/j.issn.2096-0271.2015.01.004

• 专题:大数据关键技术 • 上一篇    下一篇

大数据机器学习系统研究进展

黄宜华1,2   

  1. 1 南京大学计算机软件新技术国家重点实验室 南京 210023
    2 南京大学PASA大数据技术实验室 南京 210023
  • 修回日期:2015-05-11 出版日期:2015-05-20 发布日期:2020-09-28
  • 作者简介:黄宜华,男,博士,南京大学计算机系教授、博士生导师,中国计算机学会大数据专家委员会委员、副秘书长,江苏省计算机学会大数据专家委员会主任,CCF高级会员,南京大学PASA大数据技术实验室学术带头人。主要研究方向为大数据并行处理、大数据机器学习、Web信息抽取与挖掘技术,在国内外学术刊物和国际会议上发表学术论文60多篇,撰写并出版大数据处理方向书籍两部,是近年来出版的《深入理解大数据—大数据处理与编程实践》一书的作者。目前正在大数据并行化算法、大数据系统平台和应用方面开展深入的研究工作,主持或参与多项国家级和省部级科研项目,并在大数据领域开展了与Intel、UC Berkeley AMP Lab、微软亚洲研究院、百度、中兴通讯等国内外知名企业和研究机构的合作研究工作。
  • 基金资助:
    江苏省科技支撑计划基金资助项目(BE2014131)

Research Progress on Big Data Machine Learning System

Yihua Huang1,2   

  1. 1 National Key Laboratory for Novel Software Technology, Nanjing University, Nanjing 210023, China
    2 PASA Big Data Laboratory, Nanjing University, Nanjing 210023, China
  • Revised:2015-05-11 Online:2015-05-20 Published:2020-09-28
  • Supported by:
    Jiangsu Province Science and Technology Support Program(BE2014131)

摘要:

要实现高效的大数据机器学习,需要构建一个能同时支持机器学习算法设计和大规模数据处理的一体化大数据机器学习系统。研究设计高效、可扩展且易于使用的大数据机器学习系统面临诸多技术挑战。近年来,大数据浪潮的兴起,推动了大数据机器学习的迅猛发展,使大数据机器学习系统成为大数据领域的一个热点研究问题。介绍了国内外大数据机器学习系统的基本概念、基本研究问题、技术特征、系统分类以及典型系统;在此基础上,进一步介绍了本实验室研究设计的一个跨平台统一大数据机器学习系统——Octopus(大章鱼)。

关键词: 大数据, 机器学习, 分布并行计算, 大数据处理平台

Abstract:

To achieve efficient big data machine learning, we need to construct a unified big data machine learning system to support both machine learning algorithm design and big data processing. Designing an efficient, scalable and easy-to-use big data machine learning system still faces a number of challenges. Recently, the upsurge of big data technology has promoted rapid development of big data machine learning, making big data machine learning system to become a research hotspot. The basic concepts, research issues, technical characteristics, categories, and typical systems for big data machine learning system, were reviewed. Then a unified and cross-platform big data machine learning system, Octopus, was presented.

Key words: big data, machine learning, distributed and parallel computing, big data processing platform

No Suggested Reading articles found!