推荐文章
  
    专题:跨域数据管理
    专题:跨域数据管理
    杜小勇, 柴云鹏
    大数据. 2023, 9(4):  1-8.  doi:10.11959/j.issn.2096-0271.2023040-1
    摘要 ( 110 )   在线阅读 ( 99 )   PDF下载 (761KB) ( 102 )   可视化    收藏
    参考文献 | 相关文章
    跨空间域数据管理分布式共识算法:现状、挑战和展望
    李伟明, 李彤, 张大方, 戴隆超, 柴云鹏
    大数据. 2023, 9(4):  2-15.  doi:10.11959/j.issn.2096-0271.2023040
    摘要 ( 120 )   在线阅读 ( 44 )   PDF下载 (2422KB) ( 129 )   可视化    收藏
    数据和表 | 参考文献 | 相关文章

    随着数字经济的飞速发展,以及“全国一体化数据中心”和“东数西算”等基础设施的不断完善,数据要素流通的大趋势使数据服务逐步由面向单一空间域的数据管理转变为面向跨空间域的数据管理。跨域数据管理需要通过分布式共识算法使数据一致。然而,已有的分布式共识算法仅考虑单数据中心的情况,没有考虑跨数据中心之间的网络通信的不确定性,从而在跨空间域场景下面临日志同步时延大、系统吞吐量低下等问题。系统地梳理了跨空间域下的分布式共识算法的现状以及面临的新挑战,并针对解决这些挑战的技术路线进行了展望。

    Harp:面向跨空间域的分布式事务优化算法
    庄琪钰, 李彤, 卢卫, 杜小勇
    大数据. 2023, 9(4):  16-31.  doi:10.11959/j.issn.2096-0271.2023043
    摘要 ( 120 )   在线阅读 ( 19 )   PDF下载 (3847KB) ( 114 )   可视化    收藏
    数据和表 | 参考文献 | 相关文章

    近数据计算范式驱动了银行、券商在全国或全球范围内建设多个数据中心。在传统的业务模式中,事务聚焦单个数据中心的数据访问。随着业务模式的变化,跨数据中心的分布式事务成为常态,例如,银行账户之间的转账、游戏账户之间的装备交换等,而这些账户的数据存储在不同区域的数据中心上。分布式事务处理需要两阶段提交协议来保证各参与节点子事务提交的原子性。在跨空间域场景下,节点之间的网络时延更长且存在差异性,传统的事务处理技术需要拓展,以保证系统能够提供较高的吞吐量。在分析了跨域事务存在的问题和优化空间后,提出了一种新的分布式事务处理算法Harp。Harp在保证可串行化隔离级别的前提下,根据网络时延的差异,将部分子事务延迟执行,减少了事务的锁争用时长,提升系统并发度和吞吐量。实验表明,在YCSB负载下,Harp的性能比传统算法提升了1.39倍。

    跨信任域的联邦k-支配Sk yline查询算法
    史烨轩, 童咏昕, 周昊, 许可, 吕卫锋
    大数据. 2023, 9(4):  32-43.  doi:10.11959/j.issn.2096-0271.2023047
    摘要 ( 37 )   在线阅读 ( 11 )   PDF下载 (3073KB) ( 24 )   可视化    收藏
    数据和表 | 参考文献 | 相关文章

    k-支配Skyline查询是一种主流的Skyline查询变种,其在多目标决策与推荐领域有着广泛的应用。随着这些应用规模不断扩大,在由多个参与方组成的数据联邦中进行跨域k-支配Skyline查询的需求日益旺盛。然而,由于数据联邦中的参与方之间彼此不互信,进行跨信任域的查询计算需引入大量安全操作,效率较低。为此提出了一种基于跨域隐私向量聚合的算法,从而实现高效的联邦k-支配Skyline查询,并运用一种密文压缩技术进一步优化查询效率,最后通过充分的实验验证了所提方案的优越性。

    基于数据对象的跨域情报可信共享
    彭泰, 孙晶, 陈旭涧, 周纤, 叶宇铭, 白晓颖
    大数据. 2023, 9(4):  44-58.  doi:10.11959/j.issn.2096-0271.2023049
    摘要 ( 42 )   在线阅读 ( 10 )   PDF下载 (4281KB) ( 40 )   可视化    收藏
    数据和表 | 参考文献 | 相关文章

    情报数据作为一种高价值的数据资产,被存储在不同平台,被不同主体所持有,具有高分散性和低可用性特点。由于结构形态与存储方式不同,多源异构情报数据难以实现高效汇聚共享,多主体间情报信息融合和综合分析利用存在较大困难。因此亟须在跨域情报主体间建立安全可信的共享互操作机制,在满足数据确权、安全审计等管理要求的同时,实现情报信息的深度挖掘。针对跨域情报数据可信共享需求与应用特点,提出基于数据对象的情报管理方法,并采用数字对象体系架构及区块链可信访问控制技术构建跨域情报数据可信共享系统,实现多源异构情报数据的视图统一和跨域可信共享,为情报数据融合汇聚、情报信息智能分析提供技术支撑,充分挖掘情报信息的巨大潜力。

    人工参与的迭代式数据清洗方法研究
    刘一达, 丁小欧, 王宏志, 杨东华
    大数据. 2023, 9(4):  59-68.  doi:10.11959/j.issn.2096-0271.2023048
    摘要 ( 47 )   在线阅读 ( 28 )   PDF下载 (2826KB) ( 44 )   可视化    收藏
    数据和表 | 参考文献 | 相关文章

    数据采集技术的进步导致了数据集规模的飞速上涨,由于数据的大规模和高复杂性引起了严重的数据质量问题,数据清洗是数据活动中必要且重要的环节。为了在保证清洗准确率的情况下有效地降低人工标注成本,提出了一种人工参与的迭代式的数据清洗方法(IDCHI)。该方法在检测模块中提出了数据选择优化方法,使分类器在初始阶段就拥有较高的准确度;并进一步提出了待人工标注数据选择方法,有效地降低人工标注的数据量。实验结果表明该方法可有效且高效地清洗错误数据。

    基于多源异构时空数据融合的交通流量预测模型
    安洋, 孙健玮, 李倩, 宫永顺
    大数据. 2023, 9(4):  69-82.  doi:10.11959/j.issn.2096-0271.2023042
    摘要 ( 49 )   在线阅读 ( 19 )   PDF下载 (3423KB) ( 54 )   可视化    收藏
    数据和表 | 参考文献 | 相关文章

    交通流量预测问题具有多源异构性,未来时刻的流量不仅与之前时刻的流量相关,同时也受城市区域间关系、天气情况、兴趣点(point of interest,POI)等异构时空数据的影响。针对此问题,提出一种基于多源异构时空数据融合的交通流量预测模型MHF-STNet。首先使用聚类方法获得城市区域不同的流量模式,并使用拼接、权重相加、注意力机制等多种方式融合交通流量、城市区域间的位置关系、天气、POI、工作日、假期多个模态的时空数据,使用深度学习方法对异构数据统一建模,预测未来时刻的交通流量。在北京出租车、纽约出租车和纽约自行车3个流量数据集上进行实验,与经典的交通流量预测模型相比,MHFSTNet的预测准确度有所提升。结果验证了MHF-STNet对异构时空数据统一建模的有效性。

    跨域数据授权运营研究及应用
    张纪林, 顾小卫, 张亦钊, 郑小林, 陈超超
    大数据. 2023, 9(4):  83-97.  doi:10.11959/j.issn.2096-0271.2023050
    摘要 ( 53 )   在线阅读 ( 23 )   PDF下载 (4841KB) ( 62 )   可视化    收藏
    数据和表 | 参考文献 | 相关文章

    随着大数据和云计算的发展,数据管理正在打破“数据孤岛”,从面向单域的孤立服务发展到跨域的数据共享与协同服务。基于公共数据授权运营框架,给出了跨域数据授权运营全链路结构,并探讨了跨域数据加工过程中数据隐私和效率的挑战。针对这些挑战,提出了集中式和隐私计算两种数据加工模式,能够在保护数据隐私的同时提高数据加工效率。最后,给出了一个实际场景下跨域数据授权运营平台的应用案例。

    Argus:基于多源数据驱动的工控安全态势感知系统
    朱天晨, 赵军, 李博, 李建欣
    大数据. 2023, 9(4):  98-115.  doi:10.11959/j.issn.2096-0271.2023051
    摘要 ( 24 )   在线阅读 ( 8 )   PDF下载 (4091KB) ( 27 )   可视化    收藏
    数据和表 | 参考文献 | 相关文章

    工业控制(工控)系统是国家工业制造与民用基础设施的“大脑”,近年来安全风险日益突出,已成为网络安全中的重点防护目标。针对工控安全数据分散、威胁感知滞后的问题,设计了多源数据驱动的工控安全态势感知系统Argus,提出了工控安全感知链,研发了无状态极速设备扫描、威胁情报精准提取、可疑攻击行为检测等工控安全态势自主感知技术,实现了多通道、立体式工控安全监测与态势感知。实验结果显示,相比传统工控安全态势感知方法,Argus系统的感知精度提升超过10%,效率提升两个数量级,并可前摄性地预警、缓解潜在安全风险。

    研究
    基于数据市场类型的数据定价模型研究
    任洪润, 朱扬勇
    大数据. 2023, 9(4):  116-138.  doi:10.11959/j.issn.2096-0271.2023052
    摘要 ( 83 )   在线阅读 ( 34 )   PDF下载 (1503KB) ( 86 )   可视化    收藏
    数据和表 | 参考文献 | 相关文章

    市场是产品价格形成的过程,不同市场的价格形成方式是不一样的,产品定价模型是对市场形成产品价格过程的一种抽象。当前,数据的市场需求已经形成,但有效的数据市场尚未形成,数据定价还在探索阶段。现有的数据定价模型大部分是针对某些特定数据交易场景设计的,而不是针对特定数据市场类型设计的。考虑数据市场的经济学市场类型,从经济学视角将当前数据市场划分为卖方垄断市场、买方垄断市场、寡头垄断市场、中心化完全竞争市场以及去中心化完全竞争市场5种数据市场类型,将现有的数据定价模型归纳到相应的数据市场类型中。通过分析数据市场类型与数据定价模型的依存关系,提出数据定价的“市场类型原则”,为数据要素市场建设及数据定价提供理论指导。

    基于观测数据的时间序列因果推断综述
    曾泽凡, 陈思雅, 龙洗, 金光
    大数据. 2023, 9(4):  139-158.  doi:10.11959/j.issn.2096-0271.2023059
    摘要 ( 55 )   在线阅读 ( 13 )   PDF下载 (2614KB) ( 51 )   可视化    收藏
    数据和表 | 参考文献 | 相关文章

    数据存储量的扩大和计算能力的提升为基于观测数据推断时间序列的因果关系开辟了新途径。在时间序列因果推断的基本性质和研究现状的基础上,系统梳理了5种基于观测数据的时间序列因果推断方法,即Granger因果分析方法、基于信息论的方法、因果网络结构学习算法、基于结构因果模型的方法和基于非线性状态空间模型的方法。然后,根据不同应用场景的数据特点,结合方法的功能和适配性,对基于观测数据的时间序列因果推断方法在经济金融、医疗和生物学、地球系统科学和其他工程领域的典型应用进行了简要介绍。最后,结合时间序列因果推断的重难点问题,比较5种方法的优缺点,分析下一步研究重点,展望未来的研究方向。

    基于概率分布差异的医学命名实体识别方法
    刘聪, 吕雪峰, 王宏林, 王晓伟, 陆瑾, 孙顺, 胡松奇
    大数据. 2023, 9(4):  159-171.  doi:10.11959/j.issn.2096-0271.2023008
    摘要 ( 91 )   在线阅读 ( 5 )   PDF下载 (3402KB) ( 83 )   可视化    收藏
    数据和表 | 参考文献 | 相关文章

    医学命名实体识别是从医学文本中抽取出指代特定概念的医学实体,是医学信息抽取的基础性任务。当前主流的医学命名实体识别算法普遍基于深度学习技术,需要大量高质量的标注样本进行模型训练。然而医学领域的样本标注成本很高,严重限制了模型性能的提升。为了降低模型对标注样本的需求,一种重要的方法是基于主动学习思想,设计合理的样本采样策略,自动选取高价值样本优先标注,从而使模型提前收敛。现有算法普遍基于样本长度、样本识别的概率等特征来设计采样策略,忽视了样本类别分布这一深层次特征,导致命名实体识别召回率较低。提出了一种基于概率分布差异的主动学习算法,通过计算样本间的概率分布差异来评估样本的标注价值,并在标注样本更新时动态优化模型。在真实的医学检查文本上的实验表明,相比已有算法,达到同等的模型性能,该算法所需要的标注数据可缩减10%以上;在相同标注样本量的情况下,本算法F1值提高5%以上。

    论坛
    PARIS原则:开放协作环境下科学数据的可用性
    沈志宏, 张晓林, 郑晓欢
    大数据. 2023, 9(4):  172-188.  doi:10.11959/j.issn.2096-0271.2023013
    摘要 ( 196 )   在线阅读 ( 10 )   PDF下载 (4783KB) ( 86 )   可视化    收藏
    数据和表 | 参考文献 | 相关文章

    科学数据利用的需求日益迫切,且在“第四范式”“融合科学”等新型科研范式带来的开放协作环境下,呈现出跨边界、端到端、动态性和协作化的特征。作为“数据仓储时代”的产物,FAIR、TRUST原则已无法为开放协作环境下科学数据的高效利用提供深入的指导。详细分析了科学数据利用的典型场景,提出开放协作环境下促进科学数据利用的PARIS原则:可处理(processable)、可问答(askable)、可信赖(reliable)、可联合(incorporable)与可供给(suppliable),并重点分析了PARIS原则对科学数据可用性的促进作用。最后,探讨了实现PARIS原则可参考的技术路径。作为FAIR、TRUST原则的有益扩展,期望PARIS原则能有效提升科学数据的可用性。

    学术科普
    漫威电影中的智慧医疗
    王元卓, 江旭晖, 陆源
    大数据. 2023, 9(4):  189-191.  doi:10.11959/j.issn.2096-0271.2023053
    摘要 ( 34 )   在线阅读 ( 25 )   PDF下载 (4648KB) ( 28 )   可视化    收藏
    数据和表 | 参考文献 | 相关文章
政府旅游数据开放的评价指标体系构建与组态分析:基于21个省级行政区的数据
胡安安, 郭梦珂 黄丽华, 黄荔桐
10.11959/j.issn.2096-0271.2023070
预出版日期: 2023-09-20
“东数西算”背景下四川战略定位与策略研究
李彪, 李少昆, 寇纲, 陈星潼, 卓训方
10.11959/j.issn.2096-0271.2023056
预出版日期: 2023-09-06
“东数西算”战略与问题的分析研究
石勇, 寇纲, 李彪
10.11959/j.issn.2096-0271.2023054
预出版日期: 2023-09-06
长三角国家算力枢纽节点赋能制造业数字化转型的机理与路径
刘业政, 黄丽华, 朱扬勇, 孙见山, 宋靖达
预出版日期: 2023-09-06
基于动态动作覆盖的深度强化学习新闻推荐
董相宏, 安俊秀
10.11959/j.issn.2096-0271.2023069
预出版日期: 2023-09-06
基于多源异构时空数据融合的交通流量预测模型
安洋, 孙健玮, 李倩, 宫永顺
10.11959/j.issn.2096-0271. 2023042
预出版日期: 2023-05-05
工业数字化转型:故障诊断方法研究进展
杨彪, 熊贇, 傅玲, 徐蔚峰, 李婧
10.11959/j.issn.2096-0271.2023041
预出版日期: 2023-05-05
面向自然语言理解的多教师BERT模型蒸馏研究
石佳来, 郭卫斌
10.11959/j.issn.2096-0271. 2023039
预出版日期: 2023-05-05
基于数据政策文件的产业分析和思考
毕亲波, 潘柱廷
10.11959/j.issn.2096-0271.2023036
预出版日期: 2023-04-24
一种高效鲁棒的元宇宙环境下的多场景智能医疗模型研究 
朱玖闻, 周玉冰, 斯洪标, 张旭龙, 徐亮
doi: 10.11959/j.issn.2096-0271.2023006
预出版日期: 2023-02-14
数据要素价值化发展路径与对策研究
杨云龙, 张亮, 杨旭蕾
10.11959/j.issn.2096-0271.2022080
预出版日期: 2022-08-19
基于观测数据的时间序列因果推断综述
曾泽凡, 陈思雅, 龙 洗, 金 光
10.11959/j.issn.2096-0271.2022059
预出版日期: 2022-05-19
基于区块链技术的旅游积分通兑系统设计
贵向泉, 郭志礼, 杨裔, 秦炳峰
10.11959/j.issn.2096-0271.2022055
预出版日期: 2022-04-25
2023 Vol.9 No.4 No.2 No.3 No.1
2022 Vol.8 No.6 No.5 No.4 No.3 No.2 No.1
2021 Vol.7 No.6 No.5 No.4 No.3 No.2 No.1
2020 Vol.6 No.6 No.5 No.4 No.3 No.2 No.1
2019 Vol.5 No.6 No.5 No.4 No.3 No.2 No.1
2018 Vol.4 No.6 No.5 No.4 No.3 No.2 No.1
2017 Vol.3 No.6 No.5 No.4 No.3 No.2 No.1
2016 Vol.2 No.6 No.5 No.4 No.3 No.2 No.1
2015 Vol.1 No.4 No.2 No.3 No.1
下载排行
点击排行