大数据

Select

1. 表现性语音合成综述

唐浩彬, 张旭龙, 王健宗, 程宁, 肖京

大数据 2023, 9 (6): 53-71. DOI: 10.11959/j.issn.2096-0271.2022082

摘要（358）

HTML （147）

PDF（pc）（3524KB）（454）

语音合成是语音、语言和机器学习领域的一个热门研究课题，旨在合成给定文本的可理解和自然的语音，在工业中有广泛的应用。语音合成的目标之一是合成自然的语音，而目前的语音合成在情感、韵律等方面还有很大的改进空间。对表现性语音合成进行了全面的调查，旨在更好地了解当前的研究现状和未来的趋势。对近年来基于情感及韵律的表现性语音合成进行了全面的总结、比较和分析。首先介绍了普通语音合成的传统实现方式及瓶颈；然后引入表现性语音合成并描述表现性语音合成在情感、韵律等方面为语音合成自然化带来的增益；最后对表现性语音合成进行了展望和总结。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

2. “东数西算”工程建设的现状、问题与对策

童楠楠, 陈东, 李慧颖, 朱洪林

大数据 2023, 9 (5): 9-19. DOI: 10.11959/j.issn.2096-0271.2023055

摘要（456）

HTML （187）

PDF（pc）（1659KB）（781）

“东数西算”工程是构建我国国土空间领域内算力资源东西平衡、按需调度的重大战略工程。自我国全面启动“东数西算”工程建设以来，供需端、能源端、技术端、机制端等暴露出诸多问题，迫切需要从理论层面对“东数西算”工程的内在逻辑进行重新分析与定义。从经济形态、技术趋势、科技竞争、成本收益等不同视角分析了“东数西算”的内在逻辑，即算力基础设施化，并提出打造全国算力一张网的新型基础设施，以及从政策布局、网络直连、技术支持、机制创新等方面构建国家算力网的对策建议。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

3. 数字内容生成、检测与取证技术综述

曹娟, 朱勇椿, 亓鹏, 黄子尧, 杨天韵, 王政嘉, 卜语嫣

大数据 2023, 9 (5): 150-173. DOI: 10.11959/j.issn.2096-0271.2023066

摘要（306）

HTML （73）

PDF（pc）（3015KB）（583）

近年来，数字生成内容技术得到了极大的发展，数字内容的检测和取证技术面临新的挑战。首先从自然语言大模型、视觉生成技术、多模态生成技术3个方面介绍数字内容生成技术，从生成文本检测、生成图片检测、生成音视频检测3个方面介绍数字内容检测技术，从利用事实信息和伪造痕迹两方面介绍数字内容取证技术；接着介绍这些技术的应用场景；最后对该研究领域的未来工作进行展望，指出几个需要重点关注的方向。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

4. Harp：面向跨空间域的分布式事务优化算法

庄琪钰, 李彤, 卢卫, 杜小勇

大数据 2023, 9 (4): 16-31. DOI: 10.11959/j.issn.2096-0271.2023043

摘要（104）

HTML （8）

PDF（pc）（3847KB）（195）

近数据计算范式驱动了银行、券商在全国或全球范围内建设多个数据中心。在传统的业务模式中，事务聚焦单个数据中心的数据访问。随着业务模式的变化，跨数据中心的分布式事务成为常态，例如，银行账户之间的转账、游戏账户之间的装备交换等，而这些账户的数据存储在不同区域的数据中心上。分布式事务处理需要两阶段提交协议来保证各参与节点子事务提交的原子性。在跨空间域场景下，节点之间的网络时延更长且存在差异性，传统的事务处理技术需要拓展，以保证系统能够提供较高的吞吐量。在分析了跨域事务存在的问题和优化空间后，提出了一种新的分布式事务处理算法Harp。Harp在保证可串行化隔离级别的前提下，根据网络时延的差异，将部分子事务延迟执行，减少了事务的锁争用时长，提升系统并发度和吞吐量。实验表明，在YCSB负载下，Harp的性能比传统算法提升了1.39倍。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

5. 数字化转型服务平台：面向新竞争格局的企业竞争力建设

叶雅珍, 朱扬勇

大数据 2023, 9 (3): 3-14. DOI: 10.11959/j.issn.2096-0271.2023029

摘要（482）

HTML （205）

PDF（pc）（1743KB）（526）

随着数据能力的提升和新兴技术的发展，经济形态和行业竞争格局正在发生深刻变化。为了能更好地应对未来的机遇和挑战，提高新格局下企业的竞争力，有必要理解和掌握数字化转型的有关内容。论述了传统企业将逐渐被新型企业取代的新竞争格局，辨析了数字化与数字化转型二者的区别，指出了传统企业在开展数字化转型时主要面临缺资金、缺人才、缺数据、缺意识等方面的挑战，提出了面向新竞争格局的数字化转型服务平台，为企业竞争力建设和数字化转型提供了一个可行方案。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

6. 生成式人工智能大模型赋能的元宇宙生命体：前瞻和挑战

王皓, 潘昱杉, 潘毅

大数据 2023, 9 (3): 85-96. DOI: 10.11959/j.issn.2096-0271.2023033

摘要（474）

HTML （112）

PDF（pc）（2778KB）（652）

元宇宙已在医药、制造、金融产业、教育和公共服务等领域有所讨论，但基于虚拟现实的应用场景并未真正实现“现实-虚拟-现实”回路交互方式。其交互模式也没有真正意义上赋予虚拟世界等同现实世界的意识和感知。以医药为例，探讨了生成式人工智能大模型在元宇宙生命体中的前瞻应用和挑战，包括数字化生物细胞，构建数字化细胞之间的连接和数字神经元等，以促进元宇宙生命体具有与物理世界一致的感知和生物化学反应，从而赋能医药领域的发展。针对目前元宇宙和生成式人工智能大模型各自的优缺点，进一步讨论通过巧妙设计人机协同机制，促进人与元宇宙生命体在医药中的有意识交互。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

7. 虚拟人形象合成技术综述

邓钇敏, 张旭龙, 司世景, 王健宗, 肖京

大数据 2023, 9 (3): 114-139. DOI: 10.11959/j.issn.2096-0271.2022081

摘要（291）

HTML （50）

PDF（pc）（3812KB）（504）

随着元宇宙兴起，针对虚拟人形象化高效建模的需求日益迫切。从人类图像数据集中构建人类模型一直是计算机视觉的热门话题，其中3D虚拟人合成可以视作三维重建的子模块，重点在于对复杂的人体结构和表面细节的还原。对近年来虚拟人形象构建相关文献进行了全面调研，研究范围覆盖了全身形象、头部形象以及衣物建模等领域。分析归纳构建工作的基本原理，从各自技术路线层面出发将虚拟人合成方法分为基于网格、基于图像、基于体素、基于隐式表示、混合表示5类。首先介绍各类方法的基本原理，然后结合现有工作讨论具体技术，并指出各类方法的优缺点。此外还介绍了部分常见的模型质量评估的数据集和评价指标，简要介绍了虚拟人的常见应用。最后对虚拟人合成技术未来发展方向进行了展望，以合成高质量、高保真度、低延迟的虚拟人形象。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

8. 基于数据要素流通价值链的数据产权结构性分置

黄丽华, 杜万里, 吴蔽余

大数据 2023, 9 (2): 5-15. DOI: 10.11959/j.issn.2096-0271.2023022

摘要（238）

HTML （42）

PDF（pc）（2104KB）（306）

数据产权在数据基础制度体系中具有重要意义。数据资源持有权、数据加工使用权、数据产品经营权构成三权结构性分置。目前学术界讨论的实用论、赋权论、结构论3种产权制度设计思路都缺乏实践支撑，“回应赋权”的设计思路也不能解决目前数据要素市场失灵的问题。基于数据要素流通实践，总结了数据要素流通的两种典型逻辑，即架构逻辑和市场逻辑。提出了基于市场逻辑的数据要素流通价值链模型，在“创生赋权”的设计思路下为数据产权结构性分置提供了一种解释。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

9. 厘清公共数据授权运营：定位与内涵

高丰

大数据 2023, 9 (2): 16-32. DOI: 10.11959/j.issn.2096-0271.2023017

摘要（374）

HTML （40）

PDF（pc）（1603KB）（409）

当前，数据授权运营的理论和实践尚处于混沌和争议之中。基于对中国特色数据开放的认知，对当前数据授权运营和数据开放间并列互补或包含隶属两种关系论提出挑战，重新定位授权运营应为间接实施数据开放的市场化机制。开创性地提出对数据授权运营的运营产出和运营行为两个概念予以精细化拆解的必要性，厘清数据授权运营的内涵，即其由分类分级运营商生态支撑，围绕数据开放“权利-责任-利益”而主要产出初级数据产品供第三方再利用开发，而非仅是直接使用的社会-技术系统。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

10. 数据要素形成与价值释放规律研究

王泽宇, 吕艾临, 闫树

大数据 2023, 9 (2): 33-45. DOI: 10.11959/j.issn.2096-0271.2023019

摘要（222）

HTML （32）

PDF（pc）（1666KB）（234）

基于数据和生产要素的概念和历史分析，提出数据要素是根据特定生产需求汇聚、整理、加工而成的，参与社会生产经营活动的计算机数据及其衍生形态，应聚焦其作为经济增长的新动能和推动生产发展的价值。总结了数据要素的价值释放途径，即业务贯通、数智决策、流通赋能三次价值，应在推动数据要素发展过程中予以全面关注。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

11. 数据信托：可信的数据流通模式

黄京磊, 李金璞, 汤珂

大数据 2023, 9 (2): 67-78. DOI: 10.11959/j.issn.2096-0271.2023016

摘要（108）

HTML （15）

PDF（pc）（2045KB）（292）

数据信托可被视作一种新型的、可信的数据流通模式。数据信托不仅是一种保障信息安全的组织结构，还是一种增进数据要素市场可信性的创新性制度设计。设计了一种数据信托的运行机制，探讨了该机制下数据信托的组织结构、特征、功能和监管方案。指出数据信托包含两个彼此独立的法律关系。数据信托最重要的特征是参与者之间的风险隔离，这正是数据信托作为可信的数据流通模式的基础。数据信托在数据价值链中可以发挥重要作用，具体表现为数据增值、数据代管和数据共有等。最后，基于“数据二十条”的制度指引，论证了数据信托的独特优势，并指出个人数据信托和公共数据信托是可行的实践路径。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

12. 智能文本生成：进展与挑战

万小军

大数据 2023, 9 (2): 99-109. DOI: 10.11959/j.issn.2096-0271.2023014

摘要（474）

HTML （58）

PDF（pc）（2520KB）（577）

智能文本生成是人工智能与自然语言处理领域的前沿研究方向，也是AI生成内容（AIGC）的关键技术支撑，能够大幅提升文本内容的生成效率，近年受到学术界和产业界的高度关注，在媒体出版、电子商务等多个行业与场景均已得到应用。对智能文本生成的应用现状与主要方式进行系统概述，重点介绍基于深度学习的智能文本生成技术，同时阐述现有技术面临的挑战。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

13. 数据空间基础设施的技术挑战及数联网解决方案

罗超然, 马郓, 景翔, 黄罡

大数据 2023, 9 (2): 110-121. DOI: 10.11959/j.issn.2096-0271.2023024

摘要（234）

HTML （30）

PDF（pc）（2256KB）（411）

数据空间是网络空间从“以计算为中心”向“以数据为中心”转型的一种新形态，蕴含着变革性重大科技问题和换道超车创新机遇。类似互联网是网络空间的主要基础设施，数据空间也需要“以数据为中心”的新型基础设施，其核心功能是实现数据的一阶实体化。从数据空间的视角出发，分析总结互联网、万维网和数字对象架构等主流技术体系对数据一阶实体化的支持和不足，给出数据空间基础设施的基本内涵与技术挑战。提出基于数据语用原理的数据一阶实体化方法，通过融合数字对象架构、分布式账本和智能合约等技术形成数联网解决方案，支撑互联网规模的数据空间基础设施构造和运行。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

14. 大数据技术前瞻

梅宏, 杜小勇, 金海, 程学旗, 柴云鹏, 石宣化, 靳小龙, 王亚沙, 刘驰

大数据 2023, 9 (1): 1-20. DOI: 10.11959/j.issn.2096-0271.2023009

摘要（2791）

HTML （1011）

PDF（pc）（1087KB）（1737）

世界主要国家高度重视大数据发展，我国也将发展大数据作为国家战略，发展大数据技术具有重要意义。大数据技术涉及从采集、传输到管理、处理、分析、应用的全生命周期以及生命周期各阶段的数据治理。选取数据生命周期中的管理、处理和分析技术以及大数据治理技术来梳理国内外技术发展现状，特别是研判我国大数据技术发展与国际先进技术之间的差距。另外，在大数据应用需求的驱动下，计算技术体系正面临重构，从“以计算为中心”向“以数据为中心”转型，在新的计算技术体系下，一系列基础理论和核心技术问题亟待破解，新型大数据系统技术成为重要发展方向。在计算体系重构的背景下，提出大数据技术发展的四大技术挑战和十大发展趋势。

参考文献 | 相关文章 | 多维度评价

Select

15. 面向元宇宙的云边端协同大数据管理

朱锐, 王宏志, 崔双双, 张恺欣, 燕钰

大数据 2023, 9 (1): 63-77. DOI: 10.11959/j.issn.2096-0271.2023011

摘要（462）

HTML （123）

PDF（pc）（1807KB）（647）

随着元宇宙的用户不断增多，数据量也相应地增长，这给元宇宙的数据管理带来了挑战。大数据管理技术对元宇宙的实现至关重要。对元宇宙中的数据管理技术进行了讨论，将元宇宙分解为云、边、端3个层次，分析了元宇宙中的大数据的特点和数据管理特点，讨论了面向元宇宙的云边端数据管理的4个挑战，并从数据模型、数据同步、数据存取、查询优化4个方面提出相应的研究路线。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

16. 元宇宙的法律难题与规制思路研究

何波

大数据 2023, 9 (1): 87-102. DOI: 10.11959/j.issn.2096-0271.2023007

摘要（322）

HTML （53）

PDF（pc）（1502KB）（469）

元宇宙的兴起和发展为法律监管带来了挑战。元宇宙不是法外之地，也需要讲法治，要在法治的轨道上正确运行。首先，梳理了元宇宙的技术性、商业性、社会性、跨国性等发展特征，分析了其带来的风险挑战和国内外应对立场；其次，分析了元宇宙的网络安全、个人信息与隐私保护、数据治理、虚拟资产、生态治理、平台责任以及网络犯罪等主要法律难题；最后，提出了依法规范元宇宙发展的思路，坚持安全可控的发展原则，适度超前布局元宇宙法律规则，立足问题导向，通过立、改、废、释等立法手段推进重点领域法律监管，实现良法善治。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

17. 联邦学习攻击与防御综述

吴建汉, 司世景, 王健宗, 肖京

大数据 2022, 8 (5): 12-32. DOI: 10.11959/j.issn.2096-0271.2022038

摘要（1867）

HTML （274）

PDF（pc）（2537KB）（2179）

随着机器学习技术的广泛应用，数据安全问题时有发生，人们对数据隐私保护的需求日渐显现，这无疑降低了不同实体间共享数据的可能性，导致数据难以共享，形成“数据孤岛”。联邦学习可以有效解决“数据孤岛”问题。联邦学习本质上是一种分布式的机器学习，其最大的特点是将用户数据保存在用户本地，模型联合训练过程中不会泄露各参与方的原始数据。尽管如此，联邦学习在实际应用中仍然存在许多安全隐患，需要深入研究。对联邦学习可能受到的攻击及相应的防御措施进行系统性的梳理。首先根据联邦学习的训练环节对其可能受到的攻击和威胁进行分类，列举各个类别的攻击方法，并介绍相应攻击的攻击原理；然后针对这些攻击和威胁总结具体的防御措施，并进行原理分析，以期为初次接触这一领域的研究人员提供详实的参考；最后对该研究领域的未来工作进行展望，指出几个需要重点关注的方向，帮助提高联邦学习的安全性。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

18. 数据治理价值链模型与数据基础制度分析

黄科满, 杜小勇

大数据 2022, 8 (4): 3-16. DOI: 10.11959/j.issn.2096-0271.2022062

摘要（944）

HTML （357）

PDF（pc）（1444KB）（1104）

培育数据要素市场是实现数据价值充分释放的重要机制。而数据要素市场的繁荣需要一个可持续的、健康发展的数商生态来支撑。基于数据治理价值链模型，厘清数据价值释放需要具备的基本活动和辅助活动，进而构建数商生态市场主体模型，明晰数据要素市场需要具备的核心市场主体和职能，为构建数据基础制度提供系统化分析框架，以更好地支撑数据要素市场的建设。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

19. 数据中介的多元模式探析

李振华, 王同益

大数据 2022, 8 (4): 94-104. DOI: 10.11959/j.issn.2096-0271.2022068

摘要（362）

HTML （75）

PDF（pc）（1783KB）（744）

数据中介有望成为促进数据流通的中坚力量，通过多样化的创新实践，助力数据要素市场的建设。介绍了多种类型的数据中介，不同的数据中介着重解决不同的实践难题，比如数据交易平台着重解决供需双方的信息不对称问题，Plaid等开放银行服务商着重解决数据标准和数据接口的统一转换问题，数据信托可以优化“授权同意”这一个人信息分享路径。建议坚持问题导向原则，根据场景需要，积极探索、创新多元化的数据中介形式，建设良好可信的数据生态，充分释放数据要素的价值。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

20. 数据流通市场中数据产品的特性及其交易模式

黄丽华, 窦一凡, 郭梦珂, 汤奇峰, 李根

大数据 2022, 8 (3): 3-14. DOI: 10.11959/j.issn.2096-0271.2022045

摘要（1418）

HTML （303）

PDF（pc）（1700KB）（1885）

数据的流通交易是数据要素市场化配置的关键环节。我国前期的数据市场探索过程中暴露出一系列问题，迫切需要从理论角度对数据市场基本逻辑进行重新梳理。从交易成本理论、电子市场框架和电子交易模式等不同视角分析了数据产品流通过程，并提出数据的可计算性给数据交易带来了两类影响：一方面，可计算性使得数据能够被不断分析从而更加符合垂直领域的需求；另一方面，可计算性也会推动数据交易过程离开市场，呈现去平台化的趋势。基于电子市场经典理论框架将数字产品分为4个象限并进行相应分析，提出了对数据供方和数据市场管理者的建议。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

21. 数据交易中的权利确认和授予体系

汤奇峰, 邵志清, 叶雅珍

大数据 2022, 8 (3): 40-53. DOI: 10.11959/j.issn.2096-0271.2022029

摘要（747）

HTML （119）

PDF（pc）（1417KB）（726）

数据是数字经济的关键生产要素，建立数据要素市场势在必行。数据要素市场建设包括数据确权、交易标的、定价机制、交易平台和交易监管等多个方面的建设。对数据产品/服务在数据交易所进行交易时所需要的权利及其确权行为、确权机构等进行了系统性探索，将数据交易标的形态设计为“数据产品/服务+某种权利”，设计了针对数据产品形态和数据服务形态的各种授权，同时形成了数据交易的授权体系。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

22. 元宇宙数字经济：现状、特征与发展建议

王陈慧子, 蔡玮

大数据 2022, 8 (3): 140-150. DOI: 10.11959/j.issn.2096-0271.2022048

摘要（887）

HTML （168）

PDF（pc）（1379KB）（1212）

随着美国科技公司Facebook更名为Meta，元宇宙成为2021年年底非常火爆的科技名词。首先通过梳理元宇宙技术概念的发展过程，阐述了该行业在这一历史阶段发展的必然性和必要性。在此基础上，通过对国外元宇宙数字经济发展现状的剖析，揭示了去中心化数字经济的风险与挑战。最后，指出去中心化的关键精神内核在于全球普适的反垄断思潮，并由此展望国内元宇宙产业的前景。

图表 | 参考文献 | 补充材料 | 相关文章 | 多维度评价

Select

23. 论大数据视角下的地球空间信息学的机遇与挑战

李德仁, 张过, 蒋永华, 沈欣, 刘伟玲

大数据 2022, 8 (2): 3-14. DOI: 10.11959/j.issn.2096-0271.2022012

摘要（877）

HTML （174）

PDF（pc）（1585KB）（637）

大数据时代已经到来，并且已经深入人类生活的方方面面。作为地球科学与信息科学交叉融合催生出的地球空间信息学，大数据时代的来临在为其提供更丰富的数据保障的同时，也带来数据存储、管理、分析和挖掘方面的新挑战，甚至造成了某种程度上的“数据爆炸”。从大数据视角，梳理了当前地球空间信息学涉及的地理信息系统、智慧城市、遥感大数据和空间数据挖掘4个核心领域的瓶颈和挑战；指出在大数据时代，地球空间信息学可为地球科学研究提供更加精准、实时的空间信息框架和更加智能高效的信息处理手段，从而服务于智慧城市、智慧地球建设和人类社会的可持续发展。而且，大数据时代下，地球空间信息学的发展面临着软件和硬件水平的双重考验。

参考文献 | 相关文章 | 多维度评价

Select

24. 基于遥感大数据的信息提取技术综述

刘伟权, 王程, 臧彧, 胡倩, 于尚书, 赖柏锜

大数据 2022, 8 (2): 28-57. DOI: 10.11959/j.issn.2096-0271.2022014

摘要（1056）

HTML （251）

PDF（pc）（9092KB）（482）

随着遥感技术的快速发展，我国已建立了比较完善的航天遥感和灵活多样的航空遥感数据获取体系。遥感大数据以海量遥感数据为主，综合了其他多源遥感数据，并运用大数据思维与手段，发掘海量数据中的知识规律和高价值信息。回顾了近年来基于遥感大数据的信息提取技术研究工作，从遥感目标检测、遥感地物分割、遥感变化检测三方面阐述了遥感信息提取技术的发展历程，对各个发展阶段及代表性方法进行了梳理与归纳，并对基于遥感大数据的信息提取技术进行了展望。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

25. 我国《个人信息保护法》立法背景与制度详解

于晓洋, 何波

大数据 2022, 8 (2): 168-181. DOI: 10.11959/j.issn.2096-0271.2022022

摘要（781）

HTML （92）

PDF（pc）（1538KB）（503）

《个人信息保护法》于2021年8月审议通过，并于2021年11月起正式施行，这推动中国个人信息保护法律制度体系的确立。首先，系统介绍了《个人信息保护法》制定的背景情况，立法历经3次审议，坚持问题导向，特点鲜明、意义重大；其次，分析了《个人信息保护法》的制度规则，重点介绍了个人信息的概念范围，处理个人信息的基本原则、合法性基础、相关主体权利义务、跨境提供规则以及法律责任等；最后，总结了个人信息从“间接保护”到“直接保护”再到“全面保护”的历程。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

26. 开放科学背景下的科学数据开放共享：国家青藏高原科学数据中心的实践

潘小多, 李新, 冉有华, 郭学军

大数据 2022, 8 (1): 113-120. DOI: 10.11959/j.issn.2096-0271.2022010

摘要（335）

HTML （78）

PDF（pc）（3012KB）（803）

介绍了开放科学和开放数据实践活动的概念、内涵和对科学研究的重要性；详细阐述了现阶段开放数据面临的挑战，如数据引用、数据计量、数据互操作和大数据分析等；并以国家青藏高原科学数据中心为例，阐述其在数据引用、数据互操作和大数据分析等开放数据方面的举措和数据共享成效；最后展望了数据中心对开放数据的促进作用。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

27. 大数据定价方法的国内外研究综述及对比分析

刘枬, 郝雪镜, 陈俞宏

大数据 2021, 7 (6): 89-102. DOI: 10.11959/j.issn.2096-0271.2021063

摘要（1123）

HTML （208）

PDF（pc）（1377KB）（1116）

大数据独特的价值特征导致数据定价问题复杂，尽管研究者对此展开了大量研究，但大多角度单一且缺乏实际应用性。鉴于此，对大数据定价方法进行了综述，梳理出成本导向、市场导向、需求导向、利润导向以及基于生命周期定价的5种定价类型，对比了成本法、协议定价、市场法、收益法、基于质量以及基于查询的定价6种主流定价方法的优劣势；最后通过大数据定价流程分析进一步展现了不同定价方法各自的特点，并对数据定价方向进行了展望，以期为今后的相关研究提供一定的参考。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

28. 基于法律裁判文书的法律判决预测

张虎, 潘邦泽, 谭红叶, 李茹

大数据 2021, 7 (5): 164-175. DOI: 10.11959/j.issn.2096-0271.2021055

摘要（601）

HTML （95）

PDF（pc）（2304KB）（510）

针对智慧司法服务领域中“法律判决预测”任务的实际需求，探讨了法律判决预测任务的研究思路与实现路径，介绍了法律判决预测的整体框架和具体过程。基于从中国裁判文书网获取的海量真实案件数据和2018“中国法研杯”司法人工智能挑战赛的评测数据，整理了实验数据类别，规范了实验数据格式，形成了基于法律裁判文书大数据的法律判决预测数据集。在判决预测模型中，首先使用判决要素抽取方法提取出高质量的判决要素句，然后借鉴法官的判案思路，将整个法律判决预测任务转换为法条预测、罪名预测和刑期预测3项子任务，并分别构建了基于判决要素的预测模型。实验结果表明，所提方法在刑法类判决预测数据集上得到了有效的结果。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

29. 数据权属界定面临的问题困境与破解思路

何波

大数据 2021, 7 (4): 3-13. DOI: 10.11959/issn.2096-0271.2021034

摘要（731）

HTML （117）

PDF（pc）（1009KB）（926）

随着数据成为关键生产要素，如何界定数据权属成为各方高度关注的重要问题。首先分析数据权属界定不明带来的国家、企业和个人层面诸多亟待解决的问题，包括国家数据主权和数字治理的挑战，企业数据集中和无序竞争难题，以及个人数据保护问题；然后指出数据权属界定也面临理论和实践的双重困境；最后提出在坚持发展和规范并重、严守个人信息保护底线以及分级分类等原则的基础上，持续完善法律制度设计，尝试设立“基础数据”管理制度，分类探索数据权属划分规则；强化行政监管措施，提高数据处理透明度和个人信息保护力度；积极发挥技术手段作用，推动破解数据权属困境。

参考文献 | 相关文章 | 多维度评价

Select

30. 数据资产价值评估与定价：研究综述和展望

尹传儒, 金涛, 张鹏, 王建民, 陈嘉一

大数据 2021, 7 (4): 14-27. DOI: 10.11959/issn.2096-0271.2021035

摘要（1473）

HTML （258）

PDF（pc）（1814KB）（1996）

在数字经济时代，数据成为新的关键生产要素。数据资产作为一种新的资产形式，如何对其进行价值管理成为一个新的研究课题。通过文献研究，对国内外学者关于数据资产价值管理的研究成果进行系统梳理，在此基础上提出数据资产价值指数概念，用于衡量数据资产的相对价值水平；总结了运用层次分析法和层次分析法+模糊综合评价法计算数据资产价值指数的过程，并对其进行步骤分解；讨论了数据资产价值和价格、数据资产价值评估和数据资产定价之间的内在联系和区别，并对数据资产价值管理的未来研究进行展望。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

31. 医学知识图谱构建关键技术及研究进展

谭玲, 鄂海红, 匡泽民, 宋美娜, 刘毓, 陈正宇, 谢晓璇, 李峻迪, 范家伟, 王晴川, 康霄阳

大数据 2021, 7 (4): 80-104. DOI: 10.11959/issn.2096-0271.2021040

摘要（2172）

HTML （334）

PDF（pc）（1542KB）（2560）

随着互联网技术的不断迭代更新，对海量数据的语义理解变得越来越重要。知识图谱是一种揭示实体之间关系的语义网络，医学是知识图谱应用较广的垂直领域之一，医学知识图谱的构建也是目前国内外人工智能领域研究的热点。从医学知识图谱本体构建出发，依次对命名实体识别、实体关系抽取、实体对齐、实体链接、知识图谱存储、知识图谱应用进行综述，详细介绍了近年来医学知识图谱构建过程中涉及的难点、现有技术、挑战及未来研究方向，并介绍了医学知识图谱应用，最后对未来发展方向进行了展望。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

32. 基于金融知识图谱的会计欺诈风险识别方法

陈强, 代仕娅

大数据 2021, 7 (3): 116-129. DOI: 10.11959/j.issn.2096-0271.2021029

摘要（1088）

HTML （216）

PDF（pc）（2017KB）（1521）

针对商业银行会计案件日益复杂且频发的问题，将会计案防领域的行业知识与金融知识图谱技术结合，以更精准地识别与防范商业银行会计风险。采用图分析、图挖掘等技术，提取深层关联风险特征，并与行业经验知识相结合，构建了249条单点规则及425条组合规则，形成了丰富、可灵活配置的反欺诈策略体系。将该智能化反欺诈方法应用于银行活期账户的风险排查，与传统规则策略相比，识别精准度大幅提升，且对于筛选出的高度可疑账户，识别精准度达到85%左右，极大提升了会计案件核查的效率。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

33. 大数据可视分析在海洋领域的应用

解翠, 李明悝, 陈萍, 李孝天, 宋键, 董军宇, 赵佳萌

大数据 2021, 7 (2): 3-14. DOI: 10.11959/j.issn.2096-0271.2021011

摘要（855）

HTML （286）

PDF（pc）（4778KB）（1016）

随着海洋观测技术和数值仿真技术的发展，人们能获取到规模更大、分辨率更高的海洋数据，这为复杂多元海洋环境要素及结构现象的分析带来了机遇，同时也给传统的分析方法带来了挑战。因此，将大数据可视分析方法引入了海洋数据分析，并探索了其在多元海洋时空数据分析、海洋重要结构的时空特征和演化分析等方面的应用价值，开发了多个可视分析系统，并通过全球和我国周边一些海域数据分析的案例研究，提出了海洋数据可视分析的基本框架，展示了可视分析是大数据时代海洋复杂数据分析方面一种很有前途的技术。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

34. 分布式存储系统中的数据高效缓存方法

杨青霖, 吴桂勇, 张广艳

大数据 2021, 7 (2): 147-157. DOI: 10.11959/j.issn.2096-0271.2021018

摘要（560）

HTML （106）

PDF（pc）（1393KB）（592）

针对典型分布式存储系统存在的写放大、I/O路径过长、响应时延较高等问题，提出了一种基于SSD的分布式存储系统中数据高效缓存方法，采用读写旁路和懒惰缓存的缓存管理策略，以及兼顾最近访问时间和历史访问频率的缓存替换策略，并根据前台工作负载的变化情况，自适应地调整主动回刷脏数据的速率，显著提升了存储系统的读写性能。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

35. 大数据技术在疫情精准防控中的应用

李刚, 郑佳, 尹华山, 黄文超

大数据 2021, 7 (1): 124-134. DOI: 10.11959/j.issn.2096-0271.2021009

摘要（987）

HTML （292）

PDF（pc）（1746KB）（989）

以X市为例，针对超大城市的实际情况，基于大数据处理和分析方法，提出了基于“四标四实”数据建设疫情防控大数据库，并通过大数据技术辅助疫情防控的思路，建立了一套疫情态势实时感知、人员精准管控、企业精准帮扶的系统，对该系统中的数据建设状况和采用的关联规则挖掘算法、基于期望最大化概率聚类的感染预警机制和基于文本挖掘的非结构化数据利用策略等具体技术手段做了详细分析。该系统节约基层人力十余万小时、准确定位并跟踪到了重点人群上万人，为阻断疫情感染、提升企业复工复产率、减少经济损失起到了巨大作用，对各地通过大数据技术辅助疫情防控具有较大的借鉴意义。

图表 | 参考文献 | 相关文章 | 多维度评价

推荐文章