专题:大数据的系统结构
    导读
    陈海波, 包云岗
    大数据. 2019, 5(4):  1-2. 
    摘要 ( 33 )   PDF下载 (267KB) ( 108 )   收藏
    相关文章
    面向大数据的索引结构研究进展
    严赵峰, 张为华
    大数据. 2019, 5(4):  3-15.  doi:10.11959/j.issn.2096-0271.2019028
    摘要 ( 34 )   在线阅读 ( 13 )   PDF下载 (1158KB) ( 49 )   收藏
    数据和表 | 参考文献 | 相关文章

    为了保证各类大数据系统的性能,以并发索引结构为核心的高效检索技术变得越来越重要。然而,数据存储体量的增加和用户对性能要求的提高使得并发索引结构面临诸多挑战,设计高效且易用的并发控制策略和提升索引结构操作性能成为系统领域关心的重要问题。结合现有的研究成果,综合分析了大数据时代并发索引结构的研究进展。首先讨论了关于设计更优化且易用的并发控制策略的研究现状,接着针对各类新型高性能硬件,探讨了基于新硬件结构特点的优化加速研究成果,并对可能的发展方向进行了展望。

    基于图查询系统的图计算引擎
    柯学翰,陈榕
    大数据. 2019, 5(4):  16-26.  doi:10.11959/j.issn.2096-0271.2019029
    摘要 ( 26 )   在线阅读 ( 14 )   PDF下载 (1237KB) ( 33 )   收藏
    数据和表 | 参考文献 | 相关文章

    在目前的研究中,图查询和图计算系统是相互独立的,但在实际应用中两者通常是同时存在的。为解决相互独立的系统带来的存储空间浪费、数据一致性维护等问题,基于图查询系统设计了一种图计算引擎,使得在单一系统中支持查询和计算操作。通过为键值对存储增加图计算索引、基于拉取模式的数据更新等方式,有效地提高系统中数据遍历的性能和减少数据传输的成本,同时针对数据更新和负载均衡等方面提出了相关优化。实验表明,该图计算引擎能够达到与传统图计算系统PowerLyra和Gemini相近或比其更优的性能,且具有较好的可扩展性。

    大数据环境下的存储系统构建:挑战、方法和趋势
    陈游旻,李飞,舒继武
    大数据. 2019, 5(4):  27-40.  doi:10.11959/j.issn.2096-0271.2019030
    摘要 ( 42 )   在线阅读 ( 9 )   PDF下载 (1172KB) ( 41 )   收藏
    数据和表 | 参考文献 | 相关文章

    互联网规模的迅速扩展促使全球数据总量呈现爆炸式的增长。物联网、电子商务等新的应用对数据存储及处理的实时性提出了更高的要求,迫切需要结合新型存储介质,以构建大规模、高性能存储系统。分别从闪存存储、持久性内存存储两种存储系统构建方案出发,详细阐述了其各自面临的挑战,并总结了现有的解决方案。最后,展望了未来数据中心及存储系统构建的若干发展趋势。

    一种软硬件结合的大数据访存踪迹收集分析工具集
    李作骏,潘海洋,陈明宇,包云岗
    大数据. 2019, 5(4):  41-49.  doi:10.11959/j.issn.2096-0271.2019031
    摘要 ( 17 )   在线阅读 ( 8 )   PDF下载 (962KB) ( 20 )   收藏
    数据和表 | 参考文献 | 相关文章

    以Spark为代表的内存计算框架的兴起、新型非易失性内存研究的逐步深入以及数据安全形势的日益严峻,使得现有的访存行为分析工具无法满足对大数据应用访存行为进行分析的需求。提出了一种软硬件结合的大数据访存踪迹收集分析工具集,在由硬件收集的基本访存踪迹的基础上,结合软件信息同步及离线标注的方式,可以高速、准确、无失真地获取具备丰富语义信息的访存行为信息,且为大数据访存的实时安全监控提供了一种实现方式。最后,通过实验对一组真实的大数据应用进行了访存踪迹采集和分析。

    开源芯片、RISC-V与敏捷开发
    王诲喆,唐丹,余子濠,刘志刚,解壁伟,包云岗
    大数据. 2019, 5(4):  50-66.  doi:10.11959/j.issn.2096-0271.2019032
    摘要 ( 18 )   在线阅读 ( 5 )   PDF下载 (1436KB) ( 16 )   收藏
    数据和表 | 参考文献 | 相关文章

    随着摩尔定理的几近失效,传统的追求通用性能的芯片开发策略将难以持续,但芯片领域过高的门槛和商业限制阻碍了进一步的创新和对市场的响应速度。因此需要通过开源芯片、统一的生态平台和现代化的设计方法激发芯片领域的创造力和生产效率。介绍了开源芯片的作用和发展历史,讨论了有望成为下一代芯片开发根基的RISC-V指令集架构的特点和影响以及前端设计中的敏捷开发实践,并对芯片开发的新发展与不足做出了总结。

    研究
    基因大数据的集成分析
    胡湘红,彭衡,杨灿,张纵辉,万翔,罗智泉
    大数据. 2019, 5(4):  67-88.  doi:10.11959/j.issn.2096-0271.2019033
    摘要 ( 55 )   在线阅读 ( 11 )   PDF下载 (6217KB) ( 22 )   收藏
    数据和表 | 参考文献 | 相关文章

    随着生物科技(如基因芯片和测序技术)的飞速发展,全世界已经积累了海量的数据。有效地整合和集成多层面和多维度的基因大数据,对于全方位解析从遗传变异到疾病发生的整个因果链条具有关键作用,可为个性化、精准医疗服务奠定科学的基础。从3个方面对基因大数据的集成分析进行综述:检测风险位点及其功能分析、基因多效性的分析、基于孟德尔随机化的因果推断。进一步结合具体的应用案例进行了阐述,最后对基因大数据的集成分析研究进行了总结以及展望。

    基于RDMA和NVM的大数据系统一致性协议研究
    吴昊,陈康,武永卫,郑纬民
    大数据. 2019, 5(4):  89-99.  doi:10.11959/j.issn.2096-0271.2019034
    摘要 ( 17 )   在线阅读 ( 4 )   PDF下载 (1234KB) ( 17 )   收藏
    数据和表 | 参考文献 | 相关文章

    分布式的存储系统以及计算系统是构造大数据处理系统的基础。系统的高可用性是任何一个分布式系统的基石,高可用技术一般依赖于一致性协议。讨论了经典的非拜占庭的分布式一致性协议以及新技术发展下的RDMA通信协议与NVM存储介质,通过RDMA和NVM的结合获得了更高性能的高可用系统。改进了一致性协议,使其能够更好地利用RDMA与NVM的特性。实现的系统在保证系统数据一致和可用的同时,有效地提高了协议实现的性能。实验表明,相比于现有的系统,实现的系统能够得到40%的性能提高。

    应用
    基于知识图谱的小微企业贷款申请反欺诈方案
    金磐石,万光明,沈丽忠
    大数据. 2019, 5(4):  100-112.  doi:10.11959/j.issn.2096-0271.2019035
    摘要 ( 30 )   在线阅读 ( 10 )   PDF下载 (1200KB) ( 28 )   收藏
    数据和表 | 参考文献 | 相关文章

    近年来,在各大商业银行竞相开展小微企业信贷业务的同时,贷款欺诈风险也随之产生。针对小微企业信贷业务的特点,提出了一种基于全方位企业画像与企业关联图谱的贷前反欺诈模型。通过整合多源信息,形成完整的企业属性特征,并结合从图谱中提取的关系网络结构特征,把特征共同输入模型,以定量评估小微企业客户的欺诈风险。实验表明,使用隐含在关系图谱中的信息比单纯使用企业自身特征建模在测试集上的AUC提高了5%,有助于银行机构准确地对企业申贷欺诈行为进行评估。

    广州市城市智能交通大数据体系研究与实践
    张孜,黄钦炎,冯川
    大数据. 2019, 5(4):  113-120.  doi:10.11959/j.issn.2096-0271.2019036
    摘要 ( 25 )   在线阅读 ( 6 )   PDF下载 (7413KB) ( 28 )   收藏
    数据和表 | 参考文献 | 相关文章

    为了构建现代化交通治理体系,提升品质交通服务能力,亟须构建强驱动与可持续的城市智能交通大数据体系。首先回顾了城市交通大数据研究的应用现状,然后分析了城市交通大数据的发展需求与目标,最后以广州市城市交通大数据应用为例,阐述了广州市“一个中心、三大平台”的城市智能交通大数据体系,为交通大数据的深入研究和应用提供借鉴,推动交通大数据的创新发展。

下载排行
点击排行
引用排行