世界主要国家高度重视大数据发展,我国也将发展大数据作为国家战略,发展大数据技术具有重要意义。大数据技术涉及从采集、传输到管理、处理、分析、应用的全生命周期以及生命周期各阶段的数据治理。选取数据生命周期中的管理、处理和分析技术以及大数据治理技术来梳理国内外技术发展现状,特别是研判我国大数据技术发展与国际先进技术之间的差距。另外,在大数据应用需求的驱动下,计算技术体系正面临重构,从“以计算为中心”向“以数据为中心”转型,在新的计算技术体系下,一系列基础理论和核心技术问题亟待破解,新型大数据系统技术成为重要发展方向。在计算体系重构的背景下,提出大数据技术发展的四大技术挑战和十大发展趋势。
近些年,知识图谱的构建技术得到了极大的发展,构建好的知识图谱已经被应用到众多领域。在此基础上,研究者将目光从知识图谱转向事件图谱。事件图谱以事件为核心,准确地描述了事件信息以及事件之间的关联关系。基于此,总结了事件图谱在构建、推理与应用方面的关键技术,主要包括事件抽取、事件信息补全、事件关系推断以及事件预测技术。给出了事件图谱的具体应用场景,并且针对事件图谱研究中存在的挑战,对未来的研究趋势进行了展望。
近年来,知识图谱问答在医疗、金融、政务等领域被广泛应用。用户不再满足于关于实体属性的单跳问答,而是更多地倾向表达复杂的多跳问答需求。为了应对上述复杂多跳问答,各种不同类型的推理方法被陆续提出。系统地介绍了基于嵌入、路径、逻辑的多跳知识问答推理的最新研究进展以及相关数据集和评测指标,并重点围绕前沿问题进行了讨论。最后总结了现有方法的不足,并展望了未来的研究方向。
随着互联网技术的不断迭代更新,对海量数据的语义理解变得越来越重要。知识图谱是一种揭示实体之间关系的语义网络,医学是知识图谱应用较广的垂直领域之一,医学知识图谱的构建也是目前国内外人工智能领域研究的热点。从医学知识图谱本体构建出发,依次对命名实体识别、实体关系抽取、实体对齐、实体链接、知识图谱存储、知识图谱应用进行综述,详细介绍了近年来医学知识图谱构建过程中涉及的难点、现有技术、挑战及未来研究方向,并介绍了医学知识图谱应用,最后对未来发展方向进行了展望。
针对隐私保护的法律法规相继出台,数据孤岛现象已成为阻碍大数据和人工智能技术发展的主要瓶颈。联邦学习作为隐私计算的重要技术被广泛关注。从联邦学习的历史发展、概念、架构分类角度,阐述了联邦学习的技术优势,同时分析了联邦学习系统的各种攻击方式及其分类,讨论了不同联邦学习加密算法的差异。总结了联邦学习隐私保护和安全机制领域的研究,并提出了挑战和展望。
随着机器学习技术的广泛应用,数据安全问题时有发生,人们对数据隐私保护的需求日渐显现,这无疑降低了不同实体间共享数据的可能性,导致数据难以共享,形成“数据孤岛”。联邦学习可以有效解决“数据孤岛”问题。联邦学习本质上是一种分布式的机器学习,其最大的特点是将用户数据保存在用户本地,模型联合训练过程中不会泄露各参与方的原始数据。尽管如此,联邦学习在实际应用中仍然存在许多安全隐患,需要深入研究。对联邦学习可能受到的攻击及相应的防御措施进行系统性的梳理。首先根据联邦学习的训练环节对其可能受到的攻击和威胁进行分类,列举各个类别的攻击方法,并介绍相应攻击的攻击原理;然后针对这些攻击和威胁总结具体的防御措施,并进行原理分析,以期为初次接触这一领域的研究人员提供详实的参考;最后对该研究领域的未来工作进行展望,指出几个需要重点关注的方向,帮助提高联邦学习的安全性。
数据的流通交易是数据要素市场化配置的关键环节。我国前期的数据市场探索过程中暴露出一系列问题,迫切需要从理论角度对数据市场基本逻辑进行重新梳理。从交易成本理论、电子市场框架和电子交易模式等不同视角分析了数据产品流通过程,并提出数据的可计算性给数据交易带来了两类影响:一方面,可计算性使得数据能够被不断分析从而更加符合垂直领域的需求;另一方面,可计算性也会推动数据交易过程离开市场,呈现去平台化的趋势。基于电子市场经典理论框架将数字产品分为4个象限并进行相应分析,提出了对数据供方和数据市场管理者的建议。
知识图谱推理技术旨在根据已有的知识推导出新的知识,是使机器智能具有和人类一样的推理和决策能力的关键技术之一。系统地研究了知识图谱推理的现代方法,以统一的框架介绍了向量空间中进行知识图谱推理的模型,包括基于几何运算嵌入欧几里得空间和双曲空间的方法,基于卷积神经网络、胶囊网络、图神经网络等深度网络模型的方法。同时,系统地梳理了知识推理技术在各技术领域和各行业的应用情况,指出了当前存在的挑战以及其中蕴含的机会。
在数字经济时代,数据成为新的关键生产要素。数据资产作为一种新的资产形式,如何对其进行价值管理成为一个新的研究课题。通过文献研究,对国内外学者关于数据资产价值管理的研究成果进行系统梳理,在此基础上提出数据资产价值指数概念,用于衡量数据资产的相对价值水平;总结了运用层次分析法和层次分析法+模糊综合评价法计算数据资产价值指数的过程,并对其进行步骤分解;讨论了数据资产价值和价格、数据资产价值评估和数据资产定价之间的内在联系和区别,并对数据资产价值管理的未来研究进行展望。
在联邦学习范式中,原始数据被本地存储在独立的用户客户端中,而脱敏数据被发送到中心服务器中加以聚合,这给众多领域提供了一种新颖的设计思路。考虑到传统推荐系统的研究方向集中于提高推荐效果,在资源节约、跨领域推荐、隐私保护等方面还具有很大改进空间,如何将联邦学习与推荐系统结合以解决这些问题成为当前的一个研究热点。对近年来基于联邦学习的推荐系统进行了全面的总结、比较与分析,首先介绍了推荐系统的传统实现方式及面临的瓶颈;然后引入了联邦学习范式,描述了联邦学习在隐私保护、利用多领域用户数据两方面给推荐系统带来的增益,以及二者结合的技术挑战,进而详细说明了现有的联邦推荐系统部署方式;最后,对联邦推荐系统未来的研究进行了展望与总结。
针对商业银行会计案件日益复杂且频发的问题,将会计案防领域的行业知识与金融知识图谱技术结合,以更精准地识别与防范商业银行会计风险。采用图分析、图挖掘等技术,提取深层关联风险特征,并与行业经验知识相结合,构建了249条单点规则及425条组合规则,形成了丰富、可灵活配置的反欺诈策略体系。将该智能化反欺诈方法应用于银行活期账户的风险排查,与传统规则策略相比,识别精准度大幅提升,且对于筛选出的高度可疑账户,识别精准度达到85%左右,极大提升了会计案件核查的效率。
大数据独特的价值特征导致数据定价问题复杂,尽管研究者对此展开了大量研究,但大多角度单一且缺乏实际应用性。鉴于此,对大数据定价方法进行了综述,梳理出成本导向、市场导向、需求导向、利润导向以及基于生命周期定价的5种定价类型,对比了成本法、协议定价、市场法、收益法、基于质量以及基于查询的定价6种主流定价方法的优劣势;最后通过大数据定价流程分析进一步展现了不同定价方法各自的特点,并对数据定价方向进行了展望,以期为今后的相关研究提供一定的参考。
时态知识图谱是将时间信息添加到传统的知识图谱而得到的。近年来,时态知识图谱补全受到了学术界的高度关注,并成为研究热点之一。总结了目前时态知识图谱补全的两大类方法,即基于符号逻辑的方法和基于知识表示学习的方法,比较分析了两类方法的优缺点,展望了未来时态补全方法的发展方向,还总结了7个用于时态知识图谱补全的基准数据集和若干代表性模型在基准数据集上的评测结果。
培育数据要素市场是实现数据价值充分释放的重要机制。而数据要素市场的繁荣需要一个可持续的、健康发展的数商生态来支撑。基于数据治理价值链模型,厘清数据价值释放需要具备的基本活动和辅助活动,进而构建数商生态市场主体模型,明晰数据要素市场需要具备的核心市场主体和职能,为构建数据基础制度提供系统化分析框架,以更好地支撑数据要素市场的建设。
近年来,知识图谱因具有以统一的方式组织数据等优势,被广泛应用于许多需要知识的任务,并且在电子商务领域大放光彩。然而知识服务通常需要烦琐的数据选择和知识注入模型的设计,这会给业务带来不良影响。为了更好地解决这一问题,提出了“预训练+知识向量服务”的模式,并设计了知识图谱预训练模型(PKGM),在不直接访问商品知识图谱中三元组数据的情况下,以知识向量的方式为下游任务提供知识图谱服务。在商品分类、同款商品识别和商品推荐等知识图谱下游任务中进行测试,实验结果表明,知识图谱预训练模型能够有效地提高每个任务的性能。
随着遥感技术的快速发展,我国已建立了比较完善的航天遥感和灵活多样的航空遥感数据获取体系。遥感大数据以海量遥感数据为主,综合了其他多源遥感数据,并运用大数据思维与手段,发掘海量数据中的知识规律和高价值信息。回顾了近年来基于遥感大数据的信息提取技术研究工作,从遥感目标检测、遥感地物分割、遥感变化检测三方面阐述了遥感信息提取技术的发展历程,对各个发展阶段及代表性方法进行了梳理与归纳,并对基于遥感大数据的信息提取技术进行了展望。
大数据时代已经到来,并且已经深入人类生活的方方面面。作为地球科学与信息科学交叉融合催生出的地球空间信息学,大数据时代的来临在为其提供更丰富的数据保障的同时,也带来数据存储、管理、分析和挖掘方面的新挑战,甚至造成了某种程度上的“数据爆炸”。从大数据视角,梳理了当前地球空间信息学涉及的地理信息系统、智慧城市、遥感大数据和空间数据挖掘4个核心领域的瓶颈和挑战;指出在大数据时代,地球空间信息学可为地球科学研究提供更加精准、实时的空间信息框架和更加智能高效的信息处理手段,从而服务于智慧城市、智慧地球建设和人类社会的可持续发展。而且,大数据时代下,地球空间信息学的发展面临着软件和硬件水平的双重考验。
随着美国科技公司Facebook更名为Meta,元宇宙成为2021年年底非常火爆的科技名词。首先通过梳理元宇宙技术概念的发展过程,阐述了该行业在这一历史阶段发展的必然性和必要性。在此基础上,通过对国外元宇宙数字经济发展现状的剖析,揭示了去中心化数字经济的风险与挑战。最后,指出去中心化的关键精神内核在于全球普适的反垄断思潮,并由此展望国内元宇宙产业的前景。
随着数据要素市场建设的推进,“数商”的概念越来越得到广泛关注。然而,什么是“数商”,以及“数商”的内涵、角色、定位、职责等,目前尚未有清晰的界定,这不利于数据交易生态体系的建设。研究了现有数据商品、数据商人、数据商业可能的类别,界定了数据商品、数据商人和数据商业的概念,基于数据的属性,将信息商品、数字商品和数据商品统一成数据商品;依据数据的商业活动,将数据商人分为数据供应商、数据服务商、数据贸易交易商三大类;分析归纳了自产自销模式、运营平台代理模式、数据交易场所模式3种数据商业模式。本文的研究丰富了“数商”内涵,为数据市场建设提供了理论支持。
3D舞蹈是元宇宙中虚拟人的一种重要表现形式,它将音乐与舞蹈进行有机结合,大大增强了元宇宙中相关应用的趣味性。之前的工作通常把3D舞蹈生成简单视作一个序列生成任务,但是生成的舞蹈动作质量较差且与音乐的契合度较低。受人类学习舞蹈过程的启发,提出了一种新颖的3D舞蹈框架——“节奏舞者”来解决上述问题。该框架首先使用VQ-VAE-2对舞蹈进行分层编码量化,可有效改善舞蹈生成质量;然后使用节奏点上的关键动作编码建立关键动作转换图,既可保证生成的舞蹈动作与音乐节拍的契合度,又可增加舞蹈动作的多样性。为了确保关键动作之间平滑自然地连接,提出了一个姿态插值网络来学习关键动作之间的转换动作。通过大量实验证明,该框架避免了长序列生成的不稳定和不可控问题,实现了舞蹈动作与音乐节奏的高度契合,达到了当前最优效果。
数据是数字经济的基础,然而目前数据的确权问题存在争议。数据作为新型资产,其资产化标准和定价标准仍处于摸索阶段,大数据交易平台的建设方兴未艾。分析了数据确权、定价和交易的现状及存在的主要问题,并基于此提出新型大数据交易模式,即数据确权、定价和交易之间的迭代交互关系。最终,结合区块链的技术特点,提出了一个基于联盟链的大数据交易平台的方案,从个人和数据交易双方的角度,对平台的权益保护、定价机制和交易模式进行了探索性设计。
遥感大数据对交通行业产生了深远的影响,并在交通规划、建设、管理、养护等方面起到了积极的推动作用。首先介绍了交通遥感大数据的内涵及特征,并概述了遥感大数据在公路交通领域的应用现状;然后结合近几年交通运输业务部门基于遥感大数据开展的相关工作,重点阐述了遥感大数据在公路灾毁智能提取分析、公路建设与规划分析、公路智慧养护3个方向的典型应用;最后对交通遥感大数据的发展趋势和前景做出展望。
数据是数字经济的关键生产要素,建立数据要素市场势在必行。数据要素市场建设包括数据确权、交易标的、定价机制、交易平台和交易监管等多个方面的建设。对数据产品/服务在数据交易所进行交易时所需要的权利及其确权行为、确权机构等进行了系统性探索,将数据交易标的形态设计为“数据产品/服务+某种权利”,设计了针对数据产品形态和数据服务形态的各种授权,同时形成了数据交易的授权体系。
公共数据开放利用有利于促进数字经济高质量发展。我国积极出台相关政策引导公共数据开放利用,多个地方出台了有关公共数据开放利用的地方规章和法规条例,但国家层面尚缺少针对公共数据开放利用的法律法规。与我国相比,欧盟持续发布和修订公共数据开放利用相关指令,加快促进数字经济领域技术创新。梳理了我国公共数据开放利用的相关做法,分析了欧盟开放数据和公共部门信息再利用指令的主要内容,结合我国国情,提出对我国公共数据开放利用的相关启示,希望为进一步完善我国公共数据开放利用政策法规和机制、推动我国公共数据深度共享和有序开放提供借鉴。
在大数据时代,随着数据爆炸式的增长,将数据视为一种商品,建立一个高效的数据交易市场,通过数据交易市场为数据拥有者提供利益补偿,为数据需求者提供数据或服务,使得数据能够在数据拥有者和数据需求者之间充分地自由流动显得尤为重要。然而如何为数据设定合理的价格是必须考虑的。对基于博弈论和拍卖的数据定价进行了研究,调查了该分类下不同的数据定价模型,并将其分为不同的类型,综合比较各个模型的优劣。将常见的数据交易市场进行分类,指出不同的数据交易框架在实现过程中的优点和挑战。对已有的数据定价研究进行总结,以便数据定价领域的学者能更轻松地掌握该领域的研究现状及重点。
使用区块链技术可以保证数据资产管理的高安全性、高隐私性以及可追溯性等。通过对当前基于区块链的数据资产管理机制进行深入研究,总结得出当前管理机制只针对区块链体系框架中的某一层进行应用的结论。为了解决这一问题,提出了基于区块链技术的数据资产管理新模式,对区块链体系中的各个层次进行结合应用。该模式在网络层增加了节点权限控制机制,在共识层实现了共识机制可自定义属性,在数据层通过优化结构和建立索引来提高数据查询效率,在智能合约层实现了数据智能化管理和共享,在交易层实现了可自定义加密算法的信息加密。实验结果表明,相比于传统模式,基于区块链技术的数据资产管理新模式在链上数据查询效率上提升了2.33倍。
随着数据成为关键生产要素,如何界定数据权属成为各方高度关注的重要问题。首先分析数据权属界定不明带来的国家、企业和个人层面诸多亟待解决的问题,包括国家数据主权和数字治理的挑战,企业数据集中和无序竞争难题,以及个人数据保护问题;然后指出数据权属界定也面临理论和实践的双重困境;最后提出在坚持发展和规范并重、严守个人信息保护底线以及分级分类等原则的基础上,持续完善法律制度设计,尝试设立“基础数据”管理制度,分类探索数据权属划分规则;强化行政监管措施,提高数据处理透明度和个人信息保护力度;积极发挥技术手段作用,推动破解数据权属困境。
基于国内外数据要素市场化的发展情况,总结了国外数据要素价值化发展的路径及特点。概括了我国数据要素市场在交易市场、应用场景等方面的现状,针对目前我国数据要素市场的发展情况,结合我国数据要素市场环境及发展特色,提出了构建中国特色数据要素市场模式的建议,以加快释放数据要素价值。
数据存储量的扩大和计算能力的提升为基于观测数据推断时间序列的因果关系开辟了新途径。在时间序列因果推断的基本性质和研究现状的基础上,系统梳理了5种基于观测数据的时间序列因果推断方法,即Granger因果分析方法、基于信息论的方法、因果网络结构学习算法、基于结构因果模型的方法和基于非线性状态空间模型的方法。然后,根据不同应用场景的数据特点,结合方法的功能和适配性,对基于观测数据的时间序列因果推断方法在经济金融、医疗和生物学、地球系统科学和其他工程领域的典型应用进行了简要介绍。最后,结合时间序列因果推断的重难点问题,比较5种方法的优缺点,分析下一步研究重点,展望未来的研究方向。