世界主要国家高度重视大数据发展,我国也将发展大数据作为国家战略,发展大数据技术具有重要意义。大数据技术涉及从采集、传输到管理、处理、分析、应用的全生命周期以及生命周期各阶段的数据治理。选取数据生命周期中的管理、处理和分析技术以及大数据治理技术来梳理国内外技术发展现状,特别是研判我国大数据技术发展与国际先进技术之间的差距。另外,在大数据应用需求的驱动下,计算技术体系正面临重构,从“以计算为中心”向“以数据为中心”转型,在新的计算技术体系下,一系列基础理论和核心技术问题亟待破解,新型大数据系统技术成为重要发展方向。在计算体系重构的背景下,提出大数据技术发展的四大技术挑战和十大发展趋势。
元宇宙对时空影响的实质是对时空节点进行数据智能化,并通过虚拟世界对物理世界予以仿真与反馈,而大数据是在此过程中提升人类对世界洞察力的核心手段。从元宇宙概念演绎与定义逻辑出发,梳理了元宇宙“小中大全”4个不同层级的概念维度,并基于对大数据洞察本质的9点思考,提出了5层数据关联模型。从一元宇宙系统的建立再到多元宇宙系统的连接,分别探索元宇宙中的数据产生、数据攫取、数据结构分析与数据价值挖掘等问题,分析在嵌套与融合元宇宙中空间数据、时间数据与国际数据的互联问题,以期通过数据洞察与价值连接更好地认知世界、描述世界与改造世界。
人文大数据是指基于数字化或者数字生成的,被认为是人文艺术范畴的大规模数据集。与科学、工程及社会科学数据相比,人文大数据是一种“深层数据”,其来源更加混杂、格式更加多样、维度更加多元、数据层次更加复杂、内涵更加丰富,因此在数据分析过程中存在较大困难。针对人文大数据的特点,结合数字人文研究应用中的关键问题,突出人文大数据作为一个集体概念的复杂情况及可能存在的误区,彰显人文大数据的价值。
信息技术的发展推动了科学研究范式的转变。近年来,社科人文领域也逐渐发展出了数据驱动的研究方式。从可视化的角度,对国际数字人文大会论文进行分析,从任务、数据和应用视角3个层面总结了当前可视化在数字人文中的应用现状。通过分析从人文、可视化技术、艺术3种角度出发的数字人文项目,揭示了多学科交叉对提高数字人文与可视化结合项目质量的巨大潜力。同时,分享了北京大学在探究这种多学科交叉合作新范式的实践,包括交叉人才的教育、学科交叉融合的科普以及相关智能可视化技术的研究等方面。最后讨论了通过探索更好的人与人之间合作及人与计算机之间的协作来促进数字人文与可视化学科交叉发展的展望。
随着机器学习技术的广泛应用,数据安全问题时有发生,人们对数据隐私保护的需求日渐显现,这无疑降低了不同实体间共享数据的可能性,导致数据难以共享,形成“数据孤岛”。联邦学习可以有效解决“数据孤岛”问题。联邦学习本质上是一种分布式的机器学习,其最大的特点是将用户数据保存在用户本地,模型联合训练过程中不会泄露各参与方的原始数据。尽管如此,联邦学习在实际应用中仍然存在许多安全隐患,需要深入研究。对联邦学习可能受到的攻击及相应的防御措施进行系统性的梳理。首先根据联邦学习的训练环节对其可能受到的攻击和威胁进行分类,列举各个类别的攻击方法,并介绍相应攻击的攻击原理;然后针对这些攻击和威胁总结具体的防御措施,并进行原理分析,以期为初次接触这一领域的研究人员提供详实的参考;最后对该研究领域的未来工作进行展望,指出几个需要重点关注的方向,帮助提高联邦学习的安全性。
隐私计算是一种新型数据处理技术,可以在保护数据隐私及安全的前提下,实现数据价值转化和流通。然而隐私计算场景中“数据可用不可见”的特性给传统的数据质量治理工作带来了很大的挑战,业界尚缺乏完善的解决方案。针对上述问题,提出一种适用于隐私计算场景的数据质量治理方法与流程,构建了本地与多方两个层级的数据质量评估体系,能够兼顾本地域及联邦域的数据质量治理工作,同时提出了一种数据贡献度衡量方法,对隐私计算的长效激励机制进行探索,从而提升隐私计算的数据质量,并提高计算结果的精度。
培育数据要素市场是实现数据价值充分释放的重要机制。而数据要素市场的繁荣需要一个可持续的、健康发展的数商生态来支撑。基于数据治理价值链模型,厘清数据价值释放需要具备的基本活动和辅助活动,进而构建数商生态市场主体模型,明晰数据要素市场需要具备的核心市场主体和职能,为构建数据基础制度提供系统化分析框架,以更好地支撑数据要素市场的建设。
数据的流通交易是数据要素市场化配置的关键环节。我国前期的数据市场探索过程中暴露出一系列问题,迫切需要从理论角度对数据市场基本逻辑进行重新梳理。从交易成本理论、电子市场框架和电子交易模式等不同视角分析了数据产品流通过程,并提出数据的可计算性给数据交易带来了两类影响:一方面,可计算性使得数据能够被不断分析从而更加符合垂直领域的需求;另一方面,可计算性也会推动数据交易过程离开市场,呈现去平台化的趋势。基于电子市场经典理论框架将数字产品分为4个象限并进行相应分析,提出了对数据供方和数据市场管理者的建议。
与通常的商品市场一样,数据市场中流通的数据商品也分为标准产品和非标准产品两大类。目前,市场中有效流通的数据产品是音乐、图片、电影等标准数据产品,而一般意义上的、大规模的大数据流通则遇到了诸多障碍,其中一个障碍就是数据产品的计量计价问题,需要设计一个可计量的标准数据产品形态。基于数据盒模型,设计了一种数据产品的基础标准形态,称之为盒装数据。一个盒装数据产品包括盒内数据、盒外包装两部分,其中,盒内数据是指“时间+空间+内容”三维度的数据立方体组织,一般包括图像、图形、视频、音频、文本、结构化数据等多种数据类型;盒外包装包括产品登记证书,以及产品说明书、质量证书、合规证书等内容。盒装数据旨在为数据要素市场提供一个可计量计价的标准数据产品形态。
长期以来,数据质量研究主要是为了满足组织自身信息系统正常运行的需求。随着数据要素市场的建设与发展,数据的质量需求从“自用需求”转变为“他用需求”“监管需求”。数据市场中的数据产品质量问题是数据使用者(购买者)和市场监管机构重点关注的内容。分析了数据产品质量的使用者需求和监管者需求,创新性地提出了一个数据产品质量体系框架;在此基础上,以盒装数据产品为例,从时间、空间和内容完整性3个方面构建了对应的质量维度、质量指标和质量评测模型。该质量体系可以对资源类数据产品进行检测和评定,能够为数据产品购买者和市场监管机构提供行之有效的检测依据和标准。
数据是数字经济的关键生产要素,建立数据要素市场势在必行。数据要素市场建设包括数据确权、交易标的、定价机制、交易平台和交易监管等多个方面的建设。对数据产品/服务在数据交易所进行交易时所需要的权利及其确权行为、确权机构等进行了系统性探索,将数据交易标的形态设计为“数据产品/服务+某种权利”,设计了针对数据产品形态和数据服务形态的各种授权,同时形成了数据交易的授权体系。
随着国家将数据确定为生产要素,各地加快了与数据交易相关的立法,探索构建数据要素市场,推动数字经济发展。对比分析了数据交易相关法规,认为各地在交易原则、禁止交易数据、数据安全等方面基本形成共识,条文相对清晰且具有一定的可操作性;而交易标的、数据权属等方面的规定仍不够清晰且难以落地,同时还存在数据安全监管难度大、数据交易生态不完善等问题。最后,对未来制定数据交易法规、建设数据交易市场提出了建议。
数据要素作为一种新的生产要素,与之对应的数据税目前并不存在,但存在与其相关的税制。分析了数字服务税、数字资产税以及无形资产税等相关税种与数据税之间的理论联系,阐述了各国在这些税制中的实践情况,从征税范围等税制要素中可以看出相关税种与数据税之间的紧密联系,并展开了相应的评述和分析。基于上述国际实践,认为现有相关税制对于数据税具有重要借鉴意义,数据税的设计应该激励与规范并重、政策与征管联动。
区块链作为一种新兴技术,以其去中心化、难以篡改、匿名性和可追溯性等特点,为个性化推荐系统的改进提供了一种崭新的思路。为此,首先对近年来推荐系统面临的主要问题和区块链技术带来的机遇进行归纳总结,然后采用文献分析方法,从时间分布、文献类型、研究问题和评估指标4个层面,对推荐系统中区块链技术的应用研究进行分析和总结。分析结果表明:区块链对于解决推荐系统的数据安全和隐私保护、数据共享、数据可信和推荐透明度问题有重要意义;已有研究主要集中于解决推荐系统中用户的数据安全和隐私保护问题,而在跨平台数据共享、数据激励机制设计和系统可扩展性等方面的研究仍有待进一步突破。
半监督学习已被广泛应用于大数据分析。目前,基于一致性正则的方法是半监督深度学习的研究热点之一。然而这类方法没有考虑数据的流形结构,可能会导致部分相近的样本得到差异很大的输出,进而导致分类器性能下降。针对这个问题,提出了一种融合一致性正则与流形正则的半监督深度学习算法。该算法在对模型施加一致性约束的同时,对样本构图并加入平滑性损失,实现了每个样本点局部邻域的平滑以及邻近(相连)样本点之间的平滑,从而提高半监督深度学习算法的泛化性能。在多个图像和文本数据集上的实验结果表明,与其他的半监督深度学习算法相比,所提算法更有效。
在目前的中文文本情感分析研究中,基于语义规则和情感词典的方法通常需要人工设置情感阈值;而基于深度学习的方法由于未能运用语义规则和情感词典等语言知识,不能充分提取情感特征。针对这两种方法的缺点,提出了一种将语言知识和深度学习结合的文本情感分析方法。该方法首先根据语义规则提取文本中的关键情感片段,再根据情感词典从关键情感片段中抽取出情感更加明确的情感词来构建情感集合,然后利用深度学习模型分别从原始文本、关键情感片段、情感集合中抽取深层次特征,最后对提取的特征进行加权融合,并利用分类器实现情感极性的判断。实验结果表明,与未引入语言知识的深度学习模型相比,该方法的情感极性分类能力有明显提升。
中医医案是中医医生学习临床经验的重要文献资料,对中医医案进行结构化处理有利于采用机器学习等方法总结临床经验,加速中医传承。为了实现中医医案快速结构化,提出了一种基于自然语言处理的中医医案文本快速结构化方法。将《中国现代名中医医案精粹》作为结构化对象,采用光学字符识别技术识别医案截图的文本,同时对文本做初步结构化。构建简单症状词典,采用结合词典的改进的N-gram模型获取医案文本中的症状、体征等词,并在结构化过程中更新词典,实现了对4 754份文本医案的结构化。随机选取666份医案文本对最终模型进行测试,其F1值达到82.99%。
随着美国科技公司Facebook更名为Meta,元宇宙成为2021年年底非常火爆的科技名词。首先通过梳理元宇宙技术概念的发展过程,阐述了该行业在这一历史阶段发展的必然性和必要性。在此基础上,通过对国外元宇宙数字经济发展现状的剖析,揭示了去中心化数字经济的风险与挑战。最后,指出去中心化的关键精神内核在于全球普适的反垄断思潮,并由此展望国内元宇宙产业的前景。
大数据产业发展当前仍然面临产业边界不够清晰、企业界定不够明确、产值测算方法不够统一等产业发展问题和痛点,在遵循现阶段我国大数据产业发展客观实际的基础上,将大数据产业链划分为数据资源层、基础硬件层、通用软件层、行业应用层、安全保障层5个层级,并对大数据企业概念进行界定。通过获取相关层级各细分领域骨干企业市场营收占比、细分领域骨干企业大数据营收占主营业务收入比均值,折算细分领域大数据产业产值。最终运用加总法测算出2016—2021年我国大数据产业产值为44 908亿元,并预判“十四五”时期,我国大数据产业年均复合增长率约为25%,即到2025年我国大数据产业营收预计突破3万亿元。
随着遥感技术的快速发展,我国已建立了比较完善的航天遥感和灵活多样的航空遥感数据获取体系。遥感大数据以海量遥感数据为主,综合了其他多源遥感数据,并运用大数据思维与手段,发掘海量数据中的知识规律和高价值信息。回顾了近年来基于遥感大数据的信息提取技术研究工作,从遥感目标检测、遥感地物分割、遥感变化检测三方面阐述了遥感信息提取技术的发展历程,对各个发展阶段及代表性方法进行了梳理与归纳,并对基于遥感大数据的信息提取技术进行了展望。
遥感大数据对交通行业产生了深远的影响,并在交通规划、建设、管理、养护等方面起到了积极的推动作用。首先介绍了交通遥感大数据的内涵及特征,并概述了遥感大数据在公路交通领域的应用现状;然后结合近几年交通运输业务部门基于遥感大数据开展的相关工作,重点阐述了遥感大数据在公路灾毁智能提取分析、公路建设与规划分析、公路智慧养护3个方向的典型应用;最后对交通遥感大数据的发展趋势和前景做出展望。
基因组科学数据是人口健康和国家安全的重要战略资源,存好、管好和用好基因组科学数据具有重要意义。面对我国生物数据大量产出但因存储零散、缺乏系统监管而丢失和流失,以及严重依赖国际生物组学数据库的局面,亟须从国家层面建设我国自己的生物大数据管理体系。以国家基因组科学数据中心为例,阐述了基因组科学数据汇交共享体系和标准规范、数据安全管理机制,给出了数据挖掘与应用的典型案例,并从政策机制、基础设施、软件研发、学科建设、人才培养和国际合作等方面提出对策建议。
基于我国数据共享开放的发展趋势以及科研数据安全管理的相关政策,对我国计量行业数据分级分类的现存方案进行研究。对国内20个国家级数据共享平台以及美国的相关数据分级分类方法展开调研,讨论了我国计量科研数据分级分类方法的不足,并从数据安全以及数据管理的角度提出了计量数据安全等级划分模型以及计量数据分级分类编码方法。
介绍了开放科学和开放数据实践活动的概念、内涵和对科学研究的重要性;详细阐述了现阶段开放数据面临的挑战,如数据引用、数据计量、数据互操作和大数据分析等;并以国家青藏高原科学数据中心为例,阐述其在数据引用、数据互操作和大数据分析等开放数据方面的举措和数据共享成效;最后展望了数据中心对开放数据的促进作用。
海量的网络文本给情感分析任务带来了巨大的机遇和挑战,传统基于规则的方法已经很难胜任这类文本的分析工作,现有的深度学习方法存在一些不足,一方面模型的输入只包括文本嵌入矩阵,缺乏其他特征的使用;另一方面,词嵌入算法会导致文本结构信息缺失,进而影响分析效果。在对基于规则的情感分析方法中的句法规则进行研究的基础上,提出了一种结合MCNN、LSTM和全连接神经网络的多输入模型。同时在深度学习模型中构建了句法特征提取器来提取句法特征。在3个公开数据集上进行了实验,结果表明,构建的模型较其他模型拥有更好的分类性能,且句法规则特征的引入对模型的分类效果有一定的提升。
大数据独特的价值特征导致数据定价问题复杂,尽管研究者对此展开了大量研究,但大多角度单一且缺乏实际应用性。鉴于此,对大数据定价方法进行了综述,梳理出成本导向、市场导向、需求导向、利润导向以及基于生命周期定价的5种定价类型,对比了成本法、协议定价、市场法、收益法、基于质量以及基于查询的定价6种主流定价方法的优劣势;最后通过大数据定价流程分析进一步展现了不同定价方法各自的特点,并对数据定价方向进行了展望,以期为今后的相关研究提供一定的参考。
时间频率系统已经成为国家的战略资源,时间频率科学数据的应用涉及通信、电力、交通、战事等方面,因此时间频率科学数据的统筹梳理、管理控制、应用分析具有重要的现实意义。首先对时间频率科学数据进行分类分级,同时制定数据共享策略,详述时间频率科学数据管理系统的组成架构以及时间频率科学数据的质量控制方法;然后分析时间频率科学数据开放共享面临的问题,给出解决方案;最后阐述时间频率科学数据的若干应用方向,对时间频率科学数据的管理控制进行总结并展望。
数值核反应堆(数值堆)运行过程中涉及的海量数据可被用于优化现有数值堆模型、获取核能领域科学发现、推动数值堆研究。对现有的数据驱动建模和堆内微观现象预测的相关工作进行综述。在此基础上,结合领域特点提出了数值核反应堆大数据的概念,并分析了它作为工业大数据和模拟大数据的重要特征。以中国数值反应堆原型系统(CVR 1.0)为例,从数值堆大数据的多样性、关联性、非精确性等特征出发,运用神经网络、数理统计、数值分析等多学科的技术开展了建模优化和科学发现两个方向的研究工作,证明了数值核反应堆大数据特征对数值堆研究的指导作用。
资源优化问题广泛存在于社会、经济的运转中,积累了海量的数据,给强化学习技术在这一领域的应用奠定了基础。由于资源优化问题覆盖广泛,从覆盖广泛的资源优化问题中划分出3类重要问题,即资源平衡问题、资源分配问题和装箱问题。并围绕这3类问题总结强化学习技术的最新研究工作,围绕各研究工作的问题建模、智能体设计等方面展开详细阐述。
随着数据成为关键生产要素,如何界定数据权属成为各方高度关注的重要问题。首先分析数据权属界定不明带来的国家、企业和个人层面诸多亟待解决的问题,包括国家数据主权和数字治理的挑战,企业数据集中和无序竞争难题,以及个人数据保护问题;然后指出数据权属界定也面临理论和实践的双重困境;最后提出在坚持发展和规范并重、严守个人信息保护底线以及分级分类等原则的基础上,持续完善法律制度设计,尝试设立“基础数据”管理制度,分类探索数据权属划分规则;强化行政监管措施,提高数据处理透明度和个人信息保护力度;积极发挥技术手段作用,推动破解数据权属困境。
在数字经济时代,数据成为新的关键生产要素。数据资产作为一种新的资产形式,如何对其进行价值管理成为一个新的研究课题。通过文献研究,对国内外学者关于数据资产价值管理的研究成果进行系统梳理,在此基础上提出数据资产价值指数概念,用于衡量数据资产的相对价值水平;总结了运用层次分析法和层次分析法+模糊综合评价法计算数据资产价值指数的过程,并对其进行步骤分解;讨论了数据资产价值和价格、数据资产价值评估和数据资产定价之间的内在联系和区别,并对数据资产价值管理的未来研究进行展望。
使用区块链技术可以保证数据资产管理的高安全性、高隐私性以及可追溯性等。通过对当前基于区块链的数据资产管理机制进行深入研究,总结得出当前管理机制只针对区块链体系框架中的某一层进行应用的结论。为了解决这一问题,提出了基于区块链技术的数据资产管理新模式,对区块链体系中的各个层次进行结合应用。该模式在网络层增加了节点权限控制机制,在共识层实现了共识机制可自定义属性,在数据层通过优化结构和建立索引来提高数据查询效率,在智能合约层实现了数据智能化管理和共享,在交易层实现了可自定义加密算法的信息加密。实验结果表明,相比于传统模式,基于区块链技术的数据资产管理新模式在链上数据查询效率上提升了2.33倍。
近年来,知识图谱问答在医疗、金融、政务等领域被广泛应用。用户不再满足于关于实体属性的单跳问答,而是更多地倾向表达复杂的多跳问答需求。为了应对上述复杂多跳问答,各种不同类型的推理方法被陆续提出。系统地介绍了基于嵌入、路径、逻辑的多跳知识问答推理的最新研究进展以及相关数据集和评测指标,并重点围绕前沿问题进行了讨论。最后总结了现有方法的不足,并展望了未来的研究方向。
针对商业银行会计案件日益复杂且频发的问题,将会计案防领域的行业知识与金融知识图谱技术结合,以更精准地识别与防范商业银行会计风险。采用图分析、图挖掘等技术,提取深层关联风险特征,并与行业经验知识相结合,构建了249条单点规则及425条组合规则,形成了丰富、可灵活配置的反欺诈策略体系。将该智能化反欺诈方法应用于银行活期账户的风险排查,与传统规则策略相比,识别精准度大幅提升,且对于筛选出的高度可疑账户,识别精准度达到85%左右,极大提升了会计案件核查的效率。
随着海洋观测技术和数值仿真技术的发展,人们能获取到规模更大、分辨率更高的海洋数据,这为复杂多元海洋环境要素及结构现象的分析带来了机遇,同时也给传统的分析方法带来了挑战。因此,将大数据可视分析方法引入了海洋数据分析,并探索了其在多元海洋时空数据分析、海洋重要结构的时空特征和演化分析等方面的应用价值,开发了多个可视分析系统,并通过全球和我国周边一些海域数据分析的案例研究,提出了海洋数据可视分析的基本框架,展示了可视分析是大数据时代海洋复杂数据分析方面一种很有前途的技术。
随着检测技术的提高和互联网技术的广泛应用,食品安全数据的规模不断增大、类型不断增多,对数据分析技术提出了极大挑战。近年来出现的可视分析技术,通过提供图形交互界面,帮助领域人员深入理解数据并洞悉数据中的隐含规律,提高对食品安全风险的分析、发现、预警和溯源能力,为食品安全监测和管控提供了新手段。首先分析了食品安全数据的主要来源、特征和分析任务;然后提出了一种关联可视分析技术分类方法,从属性关联、实体关联、对比分析和时空分析4个方面阐述了近10年来的食品安全大数据可视化关联分析方法;最后提出了该领域存在的问题和挑战。
广域高性能计算环境是支撑科技创新和社会经济发展的核心信息基础设施。然而,在广域高性能计算环境中,异构存储资源在地理位置上的分散分布导致无法发挥广域存储资源的聚合效应,难以满足对广域分布数据的统一管理和高效访问需求。为此,提出了虚拟数据空间构建方法及数据访问性能优化方法,并实现了一个面向广域高性能计算环境的全局虚拟数据空间(GVDS)。GVDS可聚合广域分布的异构存储资源,形成统一的虚拟数据空间,有效支撑用户以统一访问模式高效访问广域分散的异构存储资源,实现广域环境中分布数据的跨域共享和协同处理。测试结果表明,与国际领先的面向广域高性能计算环境的OneData、GFFS等存储系统相比,GVDS实现了相当的功能,且数据访问性能明显提升。
阐述了围绕软件工程大数据的汇聚组织、知识表示提炼、软件工具智能化和智能开发服务环境等关键技术开展的一系列研究工作,建立了基于大数据的软件智能化开发技术体系,研发关键性的软件智能化开发工具,形成了“人-工具-数据”融合的新一代软件智能化开发环境,并构建了软件智能化开发云平台。面向万众创新的社会需求,构建了服务大众的公共服务平台;针对企业创新能力的提升,提供了智能化的企业软件开发环境。
以X市为例,针对超大城市的实际情况,基于大数据处理和分析方法,提出了基于“四标四实”数据建设疫情防控大数据库,并通过大数据技术辅助疫情防控的思路,建立了一套疫情态势实时感知、人员精准管控、企业精准帮扶的系统,对该系统中的数据建设状况和采用的关联规则挖掘算法、基于期望最大化概率聚类的感染预警机制和基于文本挖掘的非结构化数据利用策略等具体技术手段做了详细分析。该系统节约基层人力十余万小时、准确定位并跟踪到了重点人群上万人,为阻断疫情感染、提升企业复工复产率、减少经济损失起到了巨大作用,对各地通过大数据技术辅助疫情防控具有较大的借鉴意义。