专题:大数据支撑的智能应用
    专题导读
    周斌, 秦永彬
    大数据. 2021, 7(6):  1-2.  doi:10.11959/j.issn.2096-0271.2021056-1
    摘要 ( 113 )   在线阅读 ( 73 )   PDF下载 (761KB) ( 47 )   可视化    收藏
    参考文献 | 相关文章
    基于材料数值计算大数据的材料辐照机理发现
    任帅, 陈丹丹, 储根深, 白鹤, 李慧昭, 何远杰, 胡长军
    大数据. 2021, 7(6):  3-18.  doi:10.11959/j.issn.2096-0271.2021056
    摘要 ( 56 )   在线阅读 ( 20 )   PDF下载 (2478KB) ( 11 )   可视化    收藏
    数据和表 | 参考文献 | 相关文章

    材料辐照效应的数值模拟计算是认识核材料服役性能的重要手段,基于超级计算机的大规模、高保真材料数值模拟计算会产生海量数值计算数据,如何针对数值计算大数据的特点,在实现其高效存储的基础上,通过挖掘总结辐照损伤机理和性能演化规律,对于核材料设计研发、核安全等具有重要意义。论述了材料数值计算大数据的定义及其本质特征,综述了近年来的相关工作。以自主研发的材料辐照效应分子动力学软件MISA-MD和随机团簇动力学软件MISA-SCD在国产超级计算机上的实际算例为基础,提出了一种适用于材料数值计算大数据的、多尺度关联与耦合的分布式数值计算大数据存储体系(NDSA);采用XGBoost算法实现了MD中Frenkel缺陷对数的精确预测,基于并查集算法实现了级联碰撞团簇的划分;基于密度聚类的方法对KMC数值计算大数据进行挖掘,发现了类环状团簇,实现了原子团簇的识别与分类;基于第一性原理数值计算大数据库对现有的势函数模型进行了改进,提出了新的势函数模型构建方法AIPM。最后对材料数值计算大数据的应用前景进行了展望。

    基于BERT阅读理解框架的司法要素抽取方法
    黄辉, 秦永彬, 陈艳平, 黄瑞章
    大数据. 2021, 7(6):  19-29.  doi:10.11959/j.issn.2096-0271.2021057
    摘要 ( 81 )   在线阅读 ( 19 )   PDF下载 (2376KB) ( 48 )   可视化    收藏
    数据和表 | 参考文献 | 相关文章

    司法要素抽取是司法智能化辅助应用的重要基础,其目的是判别裁判文书涉及的关键案情要素。以往司法要素抽取通常采用多标签分类方法进行建模,模型主要依赖于裁判文书文本特征,忽略了要素标签的语义信息。同时,由于司法数据集存在样本分布不均衡的情况,分类方法会因负例过多而导致模型性能不佳。针对上述问题,提出基于BERT阅读理解框架的司法要素抽取方法。该方法引入标签信息和法律先验知识构造辅助问句,利用BERT机器阅读理解模型建立辅助问句和裁判文书之间的语义联系。同时,在问句中标签所在位置前后增加特殊标识符以增强模型的学习能力。实验结果表明,该方法在CAIL2019要素抽取公开数据集上性能得到显著提升,在婚姻家庭、劳动争议、借款合同3种案由上分别提升F1值2.7%、11.3%、5.6%。

    结合案件要素序列的罪名预测方法
    孙倩, 秦永彬, 黄瑞章, 刘丽娟, 陈艳平
    大数据. 2021, 7(6):  30-40.  doi:10.11959/j.issn.2096-0271.2021058
    摘要 ( 47 )   在线阅读 ( 13 )   PDF下载 (1699KB) ( 22 )   可视化    收藏
    数据和表 | 参考文献 | 相关文章

    罪名预测指根据给定的案情事实找到适用罪名。现有罪名预测方法主要使用文本内容进行分类,但无法有效地利用文本中的案件要素。针对现有方法的不足,提出了一种结合案件要素序列的罪名预测方法。该方法将案情事实过程表示为一系列以“行为”为核心且具有时序关系的案件要素序列,然后利用图卷积神经网络进行表示,最后融合文本语义特征来预测案件罪名。实验表明,该方法比现有方法具有更好的预测性能。同时,该方法在对易混淆罪名的区分方面也有较好的表现。

    基于多输入模型及句法结构的中文评论情感分析方法
    张宝华, 张华平, 厉铁帅, 商建云
    大数据. 2021, 7(6):  41-52.  doi:10.11959/j.issn.2096-0271.2021059
    摘要 ( 46 )   在线阅读 ( 15 )   PDF下载 (1589KB) ( 19 )   可视化    收藏
    数据和表 | 参考文献 | 相关文章

    海量的网络文本给情感分析任务带来了巨大的机遇和挑战,传统基于规则的方法已经很难胜任这类文本的分析工作,现有的深度学习方法存在一些不足,一方面模型的输入只包括文本嵌入矩阵,缺乏其他特征的使用;另一方面,词嵌入算法会导致文本结构信息缺失,进而影响分析效果。在对基于规则的情感分析方法中的句法规则进行研究的基础上,提出了一种结合MCNN、LSTM和全连接神经网络的多输入模型。同时在深度学习模型中构建了句法特征提取器来提取句法特征。在3个公开数据集上进行了实验,结果表明,构建的模型较其他模型拥有更好的分类性能,且句法规则特征的引入对模型的分类效果有一定的提升。

    大数据认知计算在内容安全管控中的应用
    杜雪涛
    大数据. 2021, 7(6):  53-66.  doi:10.11959/j.issn.2096-0271.2021060
    摘要 ( 60 )   在线阅读 ( 26 )   PDF下载 (1912KB) ( 25 )   可视化    收藏
    数据和表 | 参考文献 | 相关文章

    通信网络中存在海量垃圾和不良信息,这些信息需要被阅读和理解,以便对其进行有效的特征提取和拦截封堵。基于人工分析的方法已经无法达到目的,需要使用基于大数据的认知计算技术代替人工进行海量的数据分析和理解,帮助人们制订内容安全管控策略。针对电信诈骗治理、不良消息治理、变体消息治理和不良网站治理4个方面遇到的实际问题,分别提出了大数据认知计算的解决方案,并给出了创新性实践的效果。实践表明,提出的解决方案能够快速发现不良信息,有效地提升内容管控质量。

    研究
    基于特征选择的局部敏感哈希位选择算法
    周文桦, 刘华文, 李恩慧
    大数据. 2021, 7(6):  67-77.  doi:10.11959/j.issn.2096-0271.2021061
    摘要 ( 36 )   在线阅读 ( 8 )   PDF下载 (2181KB) ( 104 )   可视化    收藏
    数据和表 | 参考文献 | 相关文章

    作为主流的信息检索方法,局部敏感哈希往往需要生成较长的哈希码才能达到检索要求。然而,长哈希码需要消耗巨大的存储空间且携带大量的冗余哈希位。为了解决此问题,采用特征工程中10种简单高效的选择算法从长局部敏感哈希码中选择信息量丰富的哈希位,去除冗余、无效的哈希位。这10种选择算法使用不同的方式来刻画每一个哈希位的性能或两个哈希位之间的相关性,如方差、汉明距离等。通过去除长哈希码中性能较差或具有高相关性的哈希位进行哈希位的选择。将选择后的哈希码与原哈希码的性能进行比较。在4个常用数据集上的实验结果表明,去除冗余哈希位后的哈希码与原哈希码的性能几乎相同,且其哈希位的去除比率能达到30%~70%。

    面向非易失性内存的持久索引数据结构研究综述
    王永锋, 陈志广
    大数据. 2021, 7(6):  78-88.  doi:10.11959/j.issn.2096-0271.2021062
    摘要 ( 46 )   在线阅读 ( 5 )   PDF下载 (1258KB) ( 36 )   可视化    收藏
    数据和表 | 参考文献 | 相关文章

    随着非易失性内存从理论走向实用,现代存储系统的设计与实现将迎来颠覆性变革。针对传统存储设备设计的存储系统并不能充分利用非易失性内存带来的性能红利。为了构建高吞吐、低时延、大规模的存储系统,迫切需要设计与非易失性内存硬件特性相匹配的持久索引数据结构,从而进一步提升性能。从持久索引数据结构出发,分别对B+-Tree和哈希表在非易失性内存上的设计和优化进行分析,比较其优缺点,并展望了该方向的机遇与面临的挑战。

    大数据定价方法的国内外研究综述及对比分析
    刘枬, 郝雪镜, 陈俞宏
    大数据. 2021, 7(6):  89-102.  doi:10.11959/j.issn.2096-0271.2021063
    摘要 ( 81 )   在线阅读 ( 20 )   PDF下载 (1377KB) ( 53 )   可视化    收藏
    数据和表 | 参考文献 | 相关文章

    大数据独特的价值特征导致数据定价问题复杂,尽管研究者对此展开了大量研究,但大多角度单一且缺乏实际应用性。鉴于此,对大数据定价方法进行了综述,梳理出成本导向、市场导向、需求导向、利润导向以及基于生命周期定价的5种定价类型,对比了成本法、协议定价、市场法、收益法、基于质量以及基于查询的定价6种主流定价方法的优劣势;最后通过大数据定价流程分析进一步展现了不同定价方法各自的特点,并对数据定价方向进行了展望,以期为今后的相关研究提供一定的参考。

    水环境模型与大数据技术融合研究
    马金锋, 饶凯锋, 李若男, 张京, 郑华
    大数据. 2021, 7(6):  103-119.  doi:10.11959/j.issn.2096-0271.2021064
    摘要 ( 40 )   在线阅读 ( 10 )   PDF下载 (2828KB) ( 14 )   可视化    收藏
    数据和表 | 参考文献 | 相关文章

    水环境模型内部结构复杂且计算耗时,造成参数率定、多情景分析及决策优化过程中面临高负荷计算难题,这极大地限制了其应用价值的发挥。如何融合水环境模型和大数据技术,深入挖掘模型应用潜力和充分发挥其应用价值是一个研究热点。总结了水环境模型在实际应用过程中面临的瓶颈,分析了大数据技术在解决这些问题上具有的潜力。基于现有成熟的大数据技术,提出了水环境模型与大数据技术融合框架,解决了水环境模型规模计算、规模存储和应用分析问题。阐述了模型与大数据技术融合过程中面临的问题,提出了具体的实现技术思路。通过SWAT模型率定应用案例,证明融合框架的可行性。最后探讨了大数据背景下水环境模型的未来研究方向,指出开展复杂水环境模型的代理模型研究和水环境模拟优化框架研究是未来的发展趋势。

    应用
    时间频率科学数据管理控制与应用
    章宇, 袁海波, 王燕平, 董绍武, 张继海
    大数据. 2021, 7(6):  120-127.  doi:10.11959/j.issn.2096-0271.2021065
    摘要 ( 36 )   在线阅读 ( 8 )   PDF下载 (1407KB) ( 18 )   可视化    收藏
    数据和表 | 参考文献 | 相关文章

    时间频率系统已经成为国家的战略资源,时间频率科学数据的应用涉及通信、电力、交通、战事等方面,因此时间频率科学数据的统筹梳理、管理控制、应用分析具有重要的现实意义。首先对时间频率科学数据进行分类分级,同时制定数据共享策略,详述时间频率科学数据管理系统的组成架构以及时间频率科学数据的质量控制方法;然后分析时间频率科学数据开放共享面临的问题,给出解决方案;最后阐述时间频率科学数据的若干应用方向,对时间频率科学数据的管理控制进行总结并展望。

    基于ISM的大数据在建筑领域中的应用障碍分析
    纪颖波, 赵子豪, 姚福义
    大数据. 2021, 7(6):  128-137.  doi:10.11959/j.issn.2096-0271.2021066
    摘要 ( 31 )   在线阅读 ( 5 )   PDF下载 (1394KB) ( 16 )   可视化    收藏
    数据和表 | 参考文献 | 相关文章

    大数据在建筑领域的应用程度低、推广缓慢。准确识别大数据在建筑领域中的应用障碍因素,探索因素间的相互影响关系具有重大意义。通过对相关研究工作进行梳理,识别了12个障碍因素。使用解释结构模型(ISM)确定了因素间的相互关系并将其转化为邻接矩阵。通过幂迭代分析建立了可达矩阵,确定了因素的层级关系。最后对因素间的影响传递路径进行研究分析,给出了相应的应对建议,为我国建筑领域的大数据应用推广提供了研究支持。

    企业电力征信大数据价值挖掘与应用
    辛保江, 李德文, 王兰兰
    大数据. 2021, 7(6):  138-146.  doi:10.11959/j.issn.2096-0271.2021067
    摘要 ( 65 )   在线阅读 ( 18 )   PDF下载 (4850KB) ( 31 )   可视化    收藏
    数据和表 | 参考文献 | 相关文章

    针对传统电力征信平台稳定性不足、测试准确性低等缺点,研究设计了一个电力征信大数据平台。使用联机分析法对电力大数据进行分析,并将其分为用户行为、费用细则、用户价值与个人信用四大类。以模块化结构为基础,分别对数据采集模块、数据分析模块、用户交互模块进行优化设计,采用KNN算法和交叉验证法对用电数据进行分类与决策处理,得出区域的用电规律,以此设计和调整配电方案。最后将提出的平台与传统电力征信平台进行对比,实验结果表明,提出的平台的稳定性和准确性都有所提升,在测试过程中准确性高达98.9%。

下载排行
点击排行
引用排行