大数据

编辑部公告

2015年第1期专题：大数据关键技术与应用

近年来，大数据风生水起，波澜壮阔。常有人议论计算机研究领域的人总爱炒“新概念”，一个“概念”刚提出来，还没有落地，另一个“概念”又冒出来了，走马灯一样，“你方唱罢我登场”，到头来能够真正沉淀下来、发挥作用的东西却不多（对这个说法，这里不予讨论）。那么，这一次的大数据是不是又在炒作“概念”呢？

我们认为，大数据的到来是真真切切的，是不以人的主观意志为转移的客观存在；其对经济、科技、文化、社会诸多方面的发展将会起到的作用也是真真切切的，蕴藏着巨大的能量和近乎无限想象的可能性。钱学森先生曾将现代科学技术分为基础科学、技术科学、工程技术3个层次。我们认为大数据研究与这3个层次都有着内在的联系，而本专题的4篇文章也正是围绕这3个层次进行组织的。

第一，大数据研究属于基础科学的一部分。很多人并没有意识到这一点。本专题中陈文光教授的文章《大数据与高性能计算》很好回答了这个问题。他在文中阐述道，大数据提供了进一步的科学发现机会，图灵奖获得者Jim Gray将直接从数据中总结规律的方式，称作科学发现的第四范式。他还集中讨论了高性能计算（科学发现的第三范式）与大数据之间密不可分的关系。当我们了解到世界上最快的超级计算机“天河2号”的运算能力仍远远不能满足高精度全球气候模拟需求（5.49 PFLOPS/200 PFLOPS=2.75%）时，相信对这个问题的认识一定会更加深刻。

第二，大数据研究是一门技术科学。如何让机器从大数据中以无监督或半监督的方式自动总结出深藏其中的规律，这在技术方法上是一个重大挑战。于是乎又应运产生了一个新的“概念”，叫“大学习”（big lear ning）。毫不夸张地说，大学习是大数据之魂，没有前者，后者中的“大”只能是规模的“大”，而不能称其为意义上的“大”。而要实现大学习，我们必须尝试很多以前不会做、也没有做过的事情。黄宜华教授的文章《大数据机器学习系统研究进展》指出了大数据机器学习系统面临的主要研究问题，对典型大数据学习方法和系统进行了较为全面的评价。如他在文中叙及的腾讯公司的Peacock和Mariana深度学习平台就尤其值得关注：前者是腾讯研发的一个大规模LDA主题模型训练系统，可通过并行计算对10亿×1亿级别的大规模矩阵进行分解，从而从海量文档样本数据中学习10万~100万量级的隐含语义；后者中的Mariana DNN在腾讯内部用于微信语音识别声学模型训练，可训练超过1万小时的语音数据、超过40亿的数据样本以及超过5000万的参数，用于微信图像识别，可训练2000个以上的分类、300万以上的数据样本以及超过6000万的参数。这里面的技术科学难题比比皆是。杜小勇教授等的文章《大数据与OLAP系统》从SQL on Hadoop的角度，为我们进一步揭示了大数据研究的技术科学特点。

第三，大数据研究带有很强的工程技术性质。这从陈宝权教授等的文章《大数据与智慧城市》即可略见一斑。

期待本专题对广大读者深入了解大数据能有所裨益。大家对大数据的了解多一分，大数据从“概念”到现实的距离就会近一步。

郑纬民，男，清华大学教授、博士生导师，中国计算机学会理事长，目前主要从事并行与分布式计算、存储系统的研究工作，主持和参与多项国家“973”计划、“863”计划、国家自然科学基金项目。近年来在IEEE TC/IEEE TPDS/ACM TOS/FAST等本领域顶级期刊与国际会议发表论文40余篇。

孙茂松，清华大学计算机科学与技术系教授，博士生导师，党委书记。2007-2010年任该系系主任。现任清华大学大规模在线教育研究中心主任，教育部在线教育研究中心副主任，清华大学-新加坡国立大学下一代搜索技术联合研究中心共同主任。主要研究方向为自然语言理解、中文信息处理、Web智能、社会计算和计算教育学等。国家“973”计划项目首席科学家，国家社会科学基金重大项目首席专家。主要学术兼职（现任或曾任）为国务院学位委员会第六届学科评议组计算机科学与技术组成员，中国中文信息学会副理事长，《中文信息学报》(计算机类全国核心期刊)主编，《大数据》期刊编委会副主任委员，中国计算机学会理事，全国计算机慕课联盟副理事长，多个教育部或省级、北京市级重点实验室（涵盖计算语言学、语言监测、网络文化与数字传播、文化遗产数字化保护等多个领域）的学术委员会主任、副主任或委员等。

发布日期： 2020-01-20 浏览： 1217