摘要点击排行

    一年内发表的文章 |  两年内 |  三年内 |  全部
    Please wait a minute...
    选择: 显示/隐藏图片
    1. 大数据技术前瞻
    梅宏, 杜小勇, 金海, 程学旗, 柴云鹏, 石宣化, 靳小龙, 王亚沙, 刘驰
    大数据    2023, 9 (1): 1-20.   DOI: 10.11959/j.issn.2096-0271.2023009
    摘要2598)   HTML969)    PDF(pc) (1087KB)(1518)    收藏

    世界主要国家高度重视大数据发展,我国也将发展大数据作为国家战略,发展大数据技术具有重要意义。大数据技术涉及从采集、传输到管理、处理、分析、应用的全生命周期以及生命周期各阶段的数据治理。选取数据生命周期中的管理、处理和分析技术以及大数据治理技术来梳理国内外技术发展现状,特别是研判我国大数据技术发展与国际先进技术之间的差距。另外,在大数据应用需求的驱动下,计算技术体系正面临重构,从“以计算为中心”向“以数据为中心”转型,在新的计算技术体系下,一系列基础理论和核心技术问题亟待破解,新型大数据系统技术成为重要发展方向。在计算体系重构的背景下,提出大数据技术发展的四大技术挑战和十大发展趋势。

    参考文献 | 相关文章 | 多维度评价
    2. 联邦学习攻击与防御综述
    吴建汉, 司世景, 王健宗, 肖京
    大数据    2022, 8 (5): 12-32.   DOI: 10.11959/j.issn.2096-0271.2022038
    摘要1748)   HTML252)    PDF(pc) (2537KB)(1919)    收藏

    随着机器学习技术的广泛应用,数据安全问题时有发生,人们对数据隐私保护的需求日渐显现,这无疑降低了不同实体间共享数据的可能性,导致数据难以共享,形成“数据孤岛”。联邦学习可以有效解决“数据孤岛”问题。联邦学习本质上是一种分布式的机器学习,其最大的特点是将用户数据保存在用户本地,模型联合训练过程中不会泄露各参与方的原始数据。尽管如此,联邦学习在实际应用中仍然存在许多安全隐患,需要深入研究。对联邦学习可能受到的攻击及相应的防御措施进行系统性的梳理。首先根据联邦学习的训练环节对其可能受到的攻击和威胁进行分类,列举各个类别的攻击方法,并介绍相应攻击的攻击原理;然后针对这些攻击和威胁总结具体的防御措施,并进行原理分析,以期为初次接触这一领域的研究人员提供详实的参考;最后对该研究领域的未来工作进行展望,指出几个需要重点关注的方向,帮助提高联邦学习的安全性。

    图表 | 参考文献 | 相关文章 | 多维度评价
    3. 数据流通市场中数据产品的特性及其交易模式
    黄丽华, 窦一凡, 郭梦珂, 汤奇峰, 李根
    大数据    2022, 8 (3): 3-14.   DOI: 10.11959/j.issn.2096-0271.2022045
    摘要1285)   HTML283)    PDF(pc) (1700KB)(1634)    收藏

    数据的流通交易是数据要素市场化配置的关键环节。我国前期的数据市场探索过程中暴露出一系列问题,迫切需要从理论角度对数据市场基本逻辑进行重新梳理。从交易成本理论、电子市场框架和电子交易模式等不同视角分析了数据产品流通过程,并提出数据的可计算性给数据交易带来了两类影响:一方面,可计算性使得数据能够被不断分析从而更加符合垂直领域的需求;另一方面,可计算性也会推动数据交易过程离开市场,呈现去平台化的趋势。基于电子市场经典理论框架将数字产品分为4个象限并进行相应分析,提出了对数据供方和数据市场管理者的建议。

    图表 | 参考文献 | 相关文章 | 多维度评价
    4. 联邦推荐系统综述
    朱智韬, 司世景, 王健宗, 肖京
    大数据    2022, 8 (4): 105-132.   DOI: 10.11959/j.issn.2096-0271.2022032
    摘要1080)   HTML137)    PDF(pc) (2663KB)(1134)    收藏

    在联邦学习范式中,原始数据被本地存储在独立的用户客户端中,而脱敏数据被发送到中心服务器中加以聚合,这给众多领域提供了一种新颖的设计思路。考虑到传统推荐系统的研究方向集中于提高推荐效果,在资源节约、跨领域推荐、隐私保护等方面还具有很大改进空间,如何将联邦学习与推荐系统结合以解决这些问题成为当前的一个研究热点。对近年来基于联邦学习的推荐系统进行了全面的总结、比较与分析,首先介绍了推荐系统的传统实现方式及面临的瓶颈;然后引入了联邦学习范式,描述了联邦学习在隐私保护、利用多领域用户数据两方面给推荐系统带来的增益,以及二者结合的技术挑战,进而详细说明了现有的联邦推荐系统部署方式;最后,对联邦推荐系统未来的研究进行了展望与总结。

    图表 | 参考文献 | 相关文章 | 多维度评价
    5. 数据治理价值链模型与数据基础制度分析
    黄科满, 杜小勇
    大数据    2022, 8 (4): 3-16.   DOI: 10.11959/j.issn.2096-0271.2022062
    摘要918)   HTML351)    PDF(pc) (1444KB)(959)    收藏

    培育数据要素市场是实现数据价值充分释放的重要机制。而数据要素市场的繁荣需要一个可持续的、健康发展的数商生态来支撑。基于数据治理价值链模型,厘清数据价值释放需要具备的基本活动和辅助活动,进而构建数商生态市场主体模型,明晰数据要素市场需要具备的核心市场主体和职能,为构建数据基础制度提供系统化分析框架,以更好地支撑数据要素市场的建设。

    图表 | 参考文献 | 相关文章 | 多维度评价
    6. 元宇宙数字经济:现状、特征与发展建议
    王陈慧子, 蔡玮
    大数据    2022, 8 (3): 140-150.   DOI: 10.11959/j.issn.2096-0271.2022048
    摘要837)   HTML166)    PDF(pc) (1379KB)(1058)    收藏

    随着美国科技公司Facebook更名为Meta,元宇宙成为2021年年底非常火爆的科技名词。首先通过梳理元宇宙技术概念的发展过程,阐述了该行业在这一历史阶段发展的必然性和必要性。在此基础上,通过对国外元宇宙数字经济发展现状的剖析,揭示了去中心化数字经济的风险与挑战。最后,指出去中心化的关键精神内核在于全球普适的反垄断思潮,并由此展望国内元宇宙产业的前景。

    图表 | 参考文献 | 补充材料 | 相关文章 | 多维度评价
    7. 专题:数据要素市场建设
    朱扬勇, 潘柱廷
    大数据    2022, 8 (3): 1-2.   DOI: 10.11959/j.issn.2096-0271.2022045-1
    摘要801)   HTML221)    PDF(pc) (888KB)(460)    收藏
    参考文献 | 相关文章 | 多维度评价
    8. 数商:数据商品、数据商人和数据商业
    叶雅珍, 朱扬勇
    大数据    2023, 9 (1): 111-125.   DOI: 10.11959/j.issn.2096-0271.2023003
    摘要785)   HTML160)    PDF(pc) (1288KB)(568)    收藏

    随着数据要素市场建设的推进,“数商”的概念越来越得到广泛关注。然而,什么是“数商”,以及“数商”的内涵、角色、定位、职责等,目前尚未有清晰的界定,这不利于数据交易生态体系的建设。研究了现有数据商品、数据商人、数据商业可能的类别,界定了数据商品、数据商人和数据商业的概念,基于数据的属性,将信息商品、数字商品和数据商品统一成数据商品;依据数据的商业活动,将数据商人分为数据供应商、数据服务商、数据贸易交易商三大类;分析归纳了自产自销模式、运营平台代理模式、数据交易场所模式3种数据商业模式。本文的研究丰富了“数商”内涵,为数据市场建设提供了理论支持。

    图表 | 参考文献 | 相关文章 | 多维度评价
    9. 节奏舞者:基于关键动作转换图和有条件姿态插值网络的3D舞蹈生成方法研究
    贺亚运, 彭俊清, 王健宗, 肖京
    大数据    2023, 9 (1): 23-37.   DOI: 10.11959/j.issn.2096-0271.2023004
    摘要755)   HTML89)    PDF(pc) (3750KB)(410)    收藏

    3D舞蹈是元宇宙中虚拟人的一种重要表现形式,它将音乐与舞蹈进行有机结合,大大增强了元宇宙中相关应用的趣味性。之前的工作通常把3D舞蹈生成简单视作一个序列生成任务,但是生成的舞蹈动作质量较差且与音乐的契合度较低。受人类学习舞蹈过程的启发,提出了一种新颖的3D舞蹈框架——“节奏舞者”来解决上述问题。该框架首先使用VQ-VAE-2对舞蹈进行分层编码量化,可有效改善舞蹈生成质量;然后使用节奏点上的关键动作编码建立关键动作转换图,既可保证生成的舞蹈动作与音乐节拍的契合度,又可增加舞蹈动作的多样性。为了确保关键动作之间平滑自然地连接,提出了一个姿态插值网络来学习关键动作之间的转换动作。通过大量实验证明,该框架避免了长序列生成的不稳定和不可控问题,实现了舞蹈动作与音乐节奏的高度契合,达到了当前最优效果。

    图表 | 参考文献 | 相关文章 | 多维度评价
    10. 数据交易中的权利确认和授予体系
    汤奇峰, 邵志清, 叶雅珍
    大数据    2022, 8 (3): 40-53.   DOI: 10.11959/j.issn.2096-0271.2022029
    摘要702)   HTML113)    PDF(pc) (1417KB)(618)    收藏

    数据是数字经济的关键生产要素,建立数据要素市场势在必行。数据要素市场建设包括数据确权、交易标的、定价机制、交易平台和交易监管等多个方面的建设。对数据产品/服务在数据交易所进行交易时所需要的权利及其确权行为、确权机构等进行了系统性探索,将数据交易标的形态设计为“数据产品/服务+某种权利”,设计了针对数据产品形态和数据服务形态的各种授权,同时形成了数据交易的授权体系。

    图表 | 参考文献 | 相关文章 | 多维度评价
    11. 欧盟开放数据和公共部门信息再利用指令的启示
    张群, 尹卓, 于浩, 王为中, 贾晓杰
    大数据    2022, 8 (6): 143-152.   DOI: 10.11959/j.issn.2096-0271.2022047
    摘要683)   HTML58)    PDF(pc) (1264KB)(621)    收藏

    公共数据开放利用有利于促进数字经济高质量发展。我国积极出台相关政策引导公共数据开放利用,多个地方出台了有关公共数据开放利用的地方规章和法规条例,但国家层面尚缺少针对公共数据开放利用的法律法规。与我国相比,欧盟持续发布和修订公共数据开放利用相关指令,加快促进数字经济领域技术创新。梳理了我国公共数据开放利用的相关做法,分析了欧盟开放数据和公共部门信息再利用指令的主要内容,结合我国国情,提出对我国公共数据开放利用的相关启示,希望为进一步完善我国公共数据开放利用政策法规和机制、推动我国公共数据深度共享和有序开放提供借鉴。

    参考文献 | 相关文章 | 多维度评价
    12. 数据要素价值化发展路径与对策研究
    杨云龙, 张亮, 杨旭蕾
    大数据    2023, 9 (6): 100-109.   DOI: 10.11959/j.issn.2096-0271.2022080
    摘要664)   HTML105)    PDF(pc) (2022KB)(841)    收藏

    基于国内外数据要素市场化的发展情况,总结了国外数据要素价值化发展的路径及特点。概括了我国数据要素市场在交易市场、应用场景等方面的现状,针对目前我国数据要素市场的发展情况,结合我国数据要素市场环境及发展特色,提出了构建中国特色数据要素市场模式的建议,以加快释放数据要素价值。

    图表 | 参考文献 | 相关文章 | 多维度评价
    13. 基于观测数据的时间序列因果推断综述
    曾泽凡, 陈思雅, 龙洗, 金光
    大数据    2023, 9 (4): 139-158.   DOI: 10.11959/j.issn.2096-0271.2022059
    摘要646)   HTML65)    PDF(pc) (2614KB)(1441)    收藏

    数据存储量的扩大和计算能力的提升为基于观测数据推断时间序列的因果关系开辟了新途径。在时间序列因果推断的基本性质和研究现状的基础上,系统梳理了5种基于观测数据的时间序列因果推断方法,即Granger因果分析方法、基于信息论的方法、因果网络结构学习算法、基于结构因果模型的方法和基于非线性状态空间模型的方法。然后,根据不同应用场景的数据特点,结合方法的功能和适配性,对基于观测数据的时间序列因果推断方法在经济金融、医疗和生物学、地球系统科学和其他工程领域的典型应用进行了简要介绍。最后,结合时间序列因果推断的重难点问题,比较5种方法的优缺点,分析下一步研究重点,展望未来的研究方向。

    图表 | 参考文献 | 相关文章 | 多维度评价
    14. 元宇宙与大数据:时空智能中的数据洞察与价值连接
    沈阳, 余梦珑
    大数据    2023, 9 (1): 103-110.   DOI: 10.11959/j.issn.2096-0271.2023012
    摘要629)   HTML209)    PDF(pc) (1402KB)(464)    收藏

    元宇宙对时空影响的实质是对时空节点进行数据智能化,并通过虚拟世界对物理世界予以仿真与反馈,而大数据是在此过程中提升人类对世界洞察力的核心手段。从元宇宙概念演绎与定义逻辑出发,梳理了元宇宙“小中大全”4个不同层级的概念维度,并基于对大数据洞察本质的9点思考,提出了5层数据关联模型。从一元宇宙系统的建立再到多元宇宙系统的连接,分别探索元宇宙中的数据产生、数据攫取、数据结构分析与数据价值挖掘等问题,分析在嵌套与融合元宇宙中空间数据、时间数据与国际数据的互联问题,以期通过数据洞察与价值连接更好地认知世界、描述世界与改造世界。

    图表 | 参考文献 | 相关文章 | 多维度评价
    15. 去中心化金融的交易机制综述
    邓钇敏, 司世景, 王健宗, 李泽远, 肖京
    大数据    2022, 8 (4): 67-84.   DOI: 10.11959/j.issn.2096-0271.2022064
    摘要613)   HTML85)    PDF(pc) (2925KB)(760)    收藏

    去中心化金融(DeFi)是一种基于区块链和智能合约提供金融服务的新范式,现已涉及包括借贷及其衍生品在内的众多领域。因此,作为DeFi基础的交易机制成为重要的关注点,其直接影响着上层应用的稳定性。主要讨论DeFi领域的交易机制,首先介绍与交易机制相关的概念和协议;然后通过实现方式对交易机制进行分类,分别详细讨论了基于交易委托账本、自动做市商和聚合器方法的交易机制实现,并比较归纳实现方案之间的区别与联系;最后分析并总结了去中心化交易面临的公平性、安全性、匿名性问题,提出了相关的未来研究方向。

    图表 | 参考文献 | 相关文章 | 多维度评价
    16. 盒装数据:一种基于数据盒的数据产品形态
    叶雅珍, 朱扬勇
    大数据    2022, 8 (3): 15-25.   DOI: 10.11959/j.issn.2096-0271.2022030
    摘要608)   HTML145)    PDF(pc) (1646KB)(414)    收藏

    与通常的商品市场一样,数据市场中流通的数据商品也分为标准产品和非标准产品两大类。目前,市场中有效流通的数据产品是音乐、图片、电影等标准数据产品,而一般意义上的、大规模的大数据流通则遇到了诸多障碍,其中一个障碍就是数据产品的计量计价问题,需要设计一个可计量的标准数据产品形态。基于数据盒模型,设计了一种数据产品的基础标准形态,称之为盒装数据。一个盒装数据产品包括盒内数据、盒外包装两部分,其中,盒内数据是指“时间+空间+内容”三维度的数据立方体组织,一般包括图像、图形、视频、音频、文本、结构化数据等多种数据类型;盒外包装包括产品登记证书,以及产品说明书、质量证书、合规证书等内容。盒装数据旨在为数据要素市场提供一个可计量计价的标准数据产品形态。

    图表 | 参考文献 | 相关文章 | 多维度评价
    17. 专题:数据流通与隐私计算
    杜跃进, 罗圣美
    大数据    2022, 8 (5): 1-2.   DOI: 10.11959/j.issn.2096-0271.2022071-1
    摘要567)   HTML268)    PDF(pc) (741KB)(476)    收藏
    参考文献 | 相关文章 | 多维度评价
    18. 数据租赁——数据流通的新方式
    阮雯强, 徐铭辛, 涂新宇, 宋鲁杉, 韩伟力
    大数据    2022, 8 (5): 3-11.   DOI: 10.11959/j.issn.2096-0271.2022071
    摘要533)   HTML140)    PDF(pc) (1582KB)(487)    收藏

    数据正成为推动社会发展的新生产要素。以合规的、可审计的方式使数据在多方之间流通对于数据价值的形成至关重要。从隐私保护以及数据利用的角度,提出了一种新的数据流通方式——数据租赁。首先介绍了提出数据租赁的动机,然后明确了数据租赁应当满足的5项需求,最后提出了一种基于秘密共享的数据租赁技术。

    图表 | 参考文献 | 相关文章 | 多维度评价
    19. 专题:数字经济
    程学旗, 杜小勇
    大数据    2022, 8 (4): 1-2.   DOI: 10.11959/j.issn.2096-0271.2022062-1
    摘要516)   HTML237)    PDF(pc) (858KB)(581)    收藏
    参考文献 | 相关文章 | 多维度评价
    20. 区域大数据产业规划研究与实践——以山西省大数据发展应用规划为例
    王洋, 高婴劢
    大数据    2022, 8 (4): 165-172.   DOI: 10.11959/j.issn.2096-0271.2022037
    摘要506)   HTML112)    PDF(pc) (1025KB)(332)    收藏
    参考文献 | 相关文章 | 多维度评价
    21. 隐私计算场景下数据质量治理探索与实践
    张燕, 杨一帆, 伊人, 罗圣美, 唐剑飞, 夏正勋
    大数据    2022, 8 (5): 55-73.   DOI: 10.11959/j.issn.2096-0271.2022073
    摘要506)   HTML128)    PDF(pc) (2649KB)(370)    收藏

    隐私计算是一种新型数据处理技术,可以在保护数据隐私及安全的前提下,实现数据价值转化和流通。然而隐私计算场景中“数据可用不可见”的特性给传统的数据质量治理工作带来了很大的挑战,业界尚缺乏完善的解决方案。针对上述问题,提出一种适用于隐私计算场景的数据质量治理方法与流程,构建了本地与多方两个层级的数据质量评估体系,能够兼顾本地域及联邦域的数据质量治理工作,同时提出了一种数据贡献度衡量方法,对隐私计算的长效激励机制进行探索,从而提升隐私计算的数据质量,并提高计算结果的精度。

    图表 | 参考文献 | 相关文章 | 多维度评价
    22. 从数据质量到数据产品质量
    蔡莉, 朱扬勇
    大数据    2022, 8 (3): 26-39.   DOI: 10.11959/j.issn.2096-0271.2022040
    摘要498)   HTML125)    PDF(pc) (1723KB)(634)    收藏

    长期以来,数据质量研究主要是为了满足组织自身信息系统正常运行的需求。随着数据要素市场的建设与发展,数据的质量需求从“自用需求”转变为“他用需求”“监管需求”。数据市场中的数据产品质量问题是数据使用者(购买者)和市场监管机构重点关注的内容。分析了数据产品质量的使用者需求和监管者需求,创新性地提出了一个数据产品质量体系框架;在此基础上,以盒装数据产品为例,从时间、空间和内容完整性3个方面构建了对应的质量维度、质量指标和质量评测模型。该质量体系可以对资源类数据产品进行检测和评定,能够为数据产品购买者和市场监管机构提供行之有效的检测依据和标准。

    图表 | 参考文献 | 相关文章 | 多维度评价
    23. 基于更新热点感知的LSM-Tree查询优化
    林清音, 陈志广
    大数据    2023, 9 (1): 126-140.   DOI: 10.11959/j.issn.2096-0271.2022049
    摘要491)   HTML56)    PDF(pc) (5496KB)(392)    收藏

    基于LSM-Tree的键值存储已经得到广泛使用。LSM-Tree通过将更新的数据缓存在内存中、随后批量写入磁盘的优化措施取得极高的写性能。然而,在基于LSM-Tree的键值存储中,被更新键值对的旧数据不会立即从存储系统中清除,导致整个存储系统中积累大量的无效数据,最终会显著降低键值存储的读性能。针对以上问题,提出一种更积极的压缩(compaction)方法,通过记录键值对更新的历史信息,识别出更新热点,在整个LSM-Tree存储系统中寻找无效数据大量聚集的SSTable,尽早实施压缩,清除无效数据,缓解写放大效应,从而提升读性能。实验表明,该方法能够降低LevelDB 65.2%的平均读时延、69.4%的99%读尾时延以及71.4%的写放大。

    图表 | 参考文献 | 相关文章 | 多维度评价
    24. 数据资产入表需要一种可计量的技术形态
    朱扬勇, 叶雅珍
    大数据    2023, 9 (6): 184-187.   DOI: 10.11959/j.issn.2096-0271.2023075
    摘要484)   HTML243)    PDF(pc) (1201KB)(247)    收藏
    参考文献 | 相关文章 | 多维度评价
    25. 数字人文中的可视化
    罗煜楚, 吴昊, 郭宇涵, 谭绍聪, 刘灿, 蒋瑞珂, 袁晓如
    大数据    2022, 8 (6): 74-93.   DOI: 10.11959/j.issn.2096-0271.2022085
    摘要468)   HTML94)    PDF(pc) (20687KB)(278)    收藏

    信息技术的发展推动了科学研究范式的转变。近年来,社科人文领域也逐渐发展出了数据驱动的研究方式。从可视化的角度,对国际数字人文大会论文进行分析,从任务、数据和应用视角3个层面总结了当前可视化在数字人文中的应用现状。通过分析从人文、可视化技术、艺术3种角度出发的数字人文项目,揭示了多学科交叉对提高数字人文与可视化结合项目质量的巨大潜力。同时,分享了北京大学在探究这种多学科交叉合作新范式的实践,包括交叉人才的教育、学科交叉融合的科普以及相关智能可视化技术的研究等方面。最后讨论了通过探索更好的人与人之间合作及人与计算机之间的协作来促进数字人文与可视化学科交叉发展的展望。

    图表 | 参考文献 | 相关文章 | 多维度评价
    26. 结合语言知识和深度学习的中文文本情感分析方法
    徐康庭, 宋威
    大数据    2022, 8 (3): 115-127.   DOI: 10.11959/j.issn.2096-0271.2022026
    摘要463)   HTML86)    PDF(pc) (1968KB)(670)    收藏

    在目前的中文文本情感分析研究中,基于语义规则和情感词典的方法通常需要人工设置情感阈值;而基于深度学习的方法由于未能运用语义规则和情感词典等语言知识,不能充分提取情感特征。针对这两种方法的缺点,提出了一种将语言知识和深度学习结合的文本情感分析方法。该方法首先根据语义规则提取文本中的关键情感片段,再根据情感词典从关键情感片段中抽取出情感更加明确的情感词来构建情感集合,然后利用深度学习模型分别从原始文本、关键情感片段、情感集合中抽取深层次特征,最后对提取的特征进行加权融合,并利用分类器实现情感极性的判断。实验结果表明,与未引入语言知识的深度学习模型相比,该方法的情感极性分类能力有明显提升。

    图表 | 参考文献 | 相关文章 | 多维度评价
    27. 基于区块链与函数加密的隐私数据安全共享模型研究
    李懿, 王劲松, 张洪玮
    大数据    2022, 8 (5): 33-44.   DOI: 10.11959/j.issn.2096-0271.2022072
    摘要462)   HTML102)    PDF(pc) (1752KB)(467)    收藏

    区块链技术给数据共享中的数据确权、数据溯源、数据可信、数据可用等方面提供了新思路,但数据共享中的隐私数据安全仍面临许多挑战。首先回顾当前基于区块链的数据共享研究现状;然后提出一种隐私数据安全共享模型,通过函数加密技术对隐私数据进行加密,结合零知识证明技术生成相关计算的可信证明,实现“数据可用不可见”的安全可靠的数据共享。实验结果显示,该模型的共享时延及经济开销均在可接受范围内,证明了该模型的安全性和可行性。

    图表 | 参考文献 | 相关文章 | 多维度评价
    28. 可信AI治理框架探索与实践
    夏正勋, 唐剑飞, 罗圣美, 张燕
    大数据    2022, 8 (4): 145-164.   DOI: 10.11959/j.issn.2096-0271.2022036
    摘要459)   HTML71)    PDF(pc) (2276KB)(627)    收藏

    人工智能进一步提升了信息系统的自动化程度,但在其规模应用过程中出现了一些新问题,如数据安全、隐私保护、公平伦理等。为了解决这些问题,推动AI由可用系统向可信系统转变,提出了可信AI治理框架——T-DACM,从数据、算法、计算、管理4个层级入手提升AI的可信性,设计了不同组件针对性地解决数据安全、模型安全、隐私保护、模型黑盒、公平无偏、追溯定责等具体问题。T-DACM实践案例为业界提供了一个可信AI治理示范,为后续基于可信AI治理框架的产品研发提供了一定的参考。

    图表 | 参考文献 | 相关文章 | 多维度评价
    29. 基于NLP的中医医案文本快速结构化方法
    肖晓霞, 刘明婷, 杨冯天赐, 刘鉴建县, 杨阳, 石月
    大数据    2022, 8 (3): 128-139.   DOI: 10.11959/j.issn.2096-0271.2022025
    摘要455)   HTML89)    PDF(pc) (2564KB)(690)    收藏

    中医医案是中医医生学习临床经验的重要文献资料,对中医医案进行结构化处理有利于采用机器学习等方法总结临床经验,加速中医传承。为了实现中医医案快速结构化,提出了一种基于自然语言处理的中医医案文本快速结构化方法。将《中国现代名中医医案精粹》作为结构化对象,采用光学字符识别技术识别医案截图的文本,同时对文本做初步结构化。构建简单症状词典,采用结合词典的改进的N-gram模型获取医案文本中的症状、体征等词,并在结构化过程中更新词典,实现了对4 754份文本医案的结构化。随机选取666份医案文本对最终模型进行测试,其F1值达到82.99%。

    图表 | 参考文献 | 相关文章 | 多维度评价
    30. 中国大数据产业产值测算方法研究
    杨玫, 李玮, 乔思渊, 刘巍
    大数据    2022, 8 (3): 151-160.   DOI: 10.11959/j.issn.2096-0271.2022024
    摘要445)   HTML68)    PDF(pc) (1332KB)(321)    收藏

    大数据产业发展当前仍然面临产业边界不够清晰、企业界定不够明确、产值测算方法不够统一等产业发展问题和痛点,在遵循现阶段我国大数据产业发展客观实际的基础上,将大数据产业链划分为数据资源层、基础硬件层、通用软件层、行业应用层、安全保障层5个层级,并对大数据企业概念进行界定。通过获取相关层级各细分领域骨干企业市场营收占比、细分领域骨干企业大数据营收占主营业务收入比均值,折算细分领域大数据产业产值。最终运用加总法测算出2016—2021年我国大数据产业产值为44 908亿元,并预判“十四五”时期,我国大数据产业年均复合增长率约为25%,即到2025年我国大数据产业营收预计突破3万亿元。

    图表 | 参考文献 | 相关文章 | 多维度评价
下载排行
点击排行