以Facebook、Twitter、微信和微博为代表的大型在线社会网络不断发展,产生了海量体现网络结构的数据。采用机器学习技术对网络数据进行分析的一个重要问题是如何对数据进行表示。首先介绍了网络表示学习的研究背景和相关定义。然后按照算法类别,介绍了当前5类主要的网络表示学习算法,特别地,对基于深度学习的网络表示学习技术进行了详细的介绍。之后讨论了网络表示学习的评测方法和应用场景。最后,探讨了网络表示学习的研究前景。
随着大数据时代的来临,网络中的信息量呈现指数式增长,随之带来了信息过载问题。推荐系统是解决信息过载最有效的方式之一,大数据推荐系统已经逐渐成为信息领域的研究热点。介绍了推荐系统的产生及其在大数据时代的发展现状、推荐系统的领域需求和系统架构、大数据环境下推荐系统的挑战及其关键技术、开源的大数据推荐软件、大数据推荐系统研究面临的问题,最后探讨了大数据推荐系统的未来发展趋势。
随着互联网尤其是移动互联网的高速发展,互联网文档的数量、内容的丰富度和复杂度都大大增加,互联网正朝大数据时代迈进,而用户的信息需求也趋于复杂化。除了基本的信息检索需求外,对大量相关文档的深入理解与聚合分析的需求也越来越强烈,而传统的互联网搜索引擎已经无法满足人们对该类信息的需求。针对这一问题,提出“互联网分析引擎”的构想,阐述了其与搜索引擎和OLAP分析系统的区别,介绍了一种互联网分析引擎的架构,并详细讨论了实现该引擎的核心问题。
大图计算已经成为学术界和工业界的一种基本计算模式,并且已经被应用到许多实际的大数据计算问题上,如社交网络分析、网页搜索以及商品推荐等。对于这些问题,大图的规模约有10亿级的点以及1 000亿级的边,这样的规模给大图的高效处理带来了诸多挑战。为此,介绍了大图计算的基本特征和挑战、典型的计算模型以及具有代表性的分布式、单机处理系统,同时对图处理系统中的关键技术进行总结,最后从系统的角度给出大图计算可能的一些研究方向。
文本内容分析是实现大数据的理解与价值发现的有效手段。尝试从短文本主题建模、单词表达学习和网页排序学习3个子方向,探讨网络大数据文本内容分析的挑战和研究成果,最后指出未来大数据文本内容分析的一些研究方向和问题。
大数据中蕴含着重要的价值信息,文本大数据作为大数据的重要组成部分,是人类知识的主要载体。特征作为数据内在规律的反映,将文本大数据映射到反映数据本质的特征空间是文本大数据语义理解的重要手段。介绍了文本大数据的特征表示、特征学习,进而梳理了特征学习在文本大数据内容理解中的进展,最后阐述了基于特征学习的文本大数据内容理解未来的发展趋势。
随着互联网和大数据的研究应用日益广泛,对社交网络影响力传播的研究成为数据挖掘和社交网络分析中的热点。从影响力传播模型、影响力传播学习和影响力传播优化3个方面总结了近些年计算机科学领域对影响力传播研究的主要成果,展示了影响力传播研究中对随机模型、数据挖掘、算法优化和博弈论等技术的综合运用。最后,简要讨论了影响力传播研究和应用中存在的问题、挑战及今后的研究方向。
在大数据时代,数据的时效性日益突出,数据的流式特征更加明显,越来越多的应用场景需要部署在流式计算平台中。大数据流式计算作为大数据计算的一种形态,其重要性也不断提升。针对大数据环境中流式计算应用所呈现出的诸多鲜明特征进行了系统化的分析,并从系统架构的角度,给出了大数据流式计算系统构建的原则性策略。结合当前比较典型的流式计算平台,重点研究了当前大数据流式计算在在线环境下的资源调度和节点依赖环境下的容错策略等方面的技术挑战。
大数据已成为当前社会各界关注的焦点,是当前世界各国新一轮的科技竞争和综合国力较量的重点,必须做好大数据的容灾备份工作。为此,在分析大数据容灾备份现状的基础上,结合行业对大数据容灾备份需求,讨论了几种典型的技术解决方案及其优缺点,提出了一种基于HDFS的增量数据备份恢复方案,具备分钟级RPO的系统远程备份特性,可以较好地解决目前大数据容灾备份项目建设规划面临的实际需求。