世界主要国家高度重视大数据发展,我国也将发展大数据作为国家战略,发展大数据技术具有重要意义。大数据技术涉及从采集、传输到管理、处理、分析、应用的全生命周期以及生命周期各阶段的数据治理。选取数据生命周期中的管理、处理和分析技术以及大数据治理技术来梳理国内外技术发展现状,特别是研判我国大数据技术发展与国际先进技术之间的差距。另外,在大数据应用需求的驱动下,计算技术体系正面临重构,从“以计算为中心”向“以数据为中心”转型,在新的计算技术体系下,一系列基础理论和核心技术问题亟待破解,新型大数据系统技术成为重要发展方向。在计算体系重构的背景下,提出大数据技术发展的四大技术挑战和十大发展趋势。
随着机器学习技术的广泛应用,数据安全问题时有发生,人们对数据隐私保护的需求日渐显现,这无疑降低了不同实体间共享数据的可能性,导致数据难以共享,形成“数据孤岛”。联邦学习可以有效解决“数据孤岛”问题。联邦学习本质上是一种分布式的机器学习,其最大的特点是将用户数据保存在用户本地,模型联合训练过程中不会泄露各参与方的原始数据。尽管如此,联邦学习在实际应用中仍然存在许多安全隐患,需要深入研究。对联邦学习可能受到的攻击及相应的防御措施进行系统性的梳理。首先根据联邦学习的训练环节对其可能受到的攻击和威胁进行分类,列举各个类别的攻击方法,并介绍相应攻击的攻击原理;然后针对这些攻击和威胁总结具体的防御措施,并进行原理分析,以期为初次接触这一领域的研究人员提供详实的参考;最后对该研究领域的未来工作进行展望,指出几个需要重点关注的方向,帮助提高联邦学习的安全性。
在联邦学习范式中,原始数据被本地存储在独立的用户客户端中,而脱敏数据被发送到中心服务器中加以聚合,这给众多领域提供了一种新颖的设计思路。考虑到传统推荐系统的研究方向集中于提高推荐效果,在资源节约、跨领域推荐、隐私保护等方面还具有很大改进空间,如何将联邦学习与推荐系统结合以解决这些问题成为当前的一个研究热点。对近年来基于联邦学习的推荐系统进行了全面的总结、比较与分析,首先介绍了推荐系统的传统实现方式及面临的瓶颈;然后引入了联邦学习范式,描述了联邦学习在隐私保护、利用多领域用户数据两方面给推荐系统带来的增益,以及二者结合的技术挑战,进而详细说明了现有的联邦推荐系统部署方式;最后,对联邦推荐系统未来的研究进行了展望与总结。
数据的流通交易是数据要素市场化配置的关键环节。我国前期的数据市场探索过程中暴露出一系列问题,迫切需要从理论角度对数据市场基本逻辑进行重新梳理。从交易成本理论、电子市场框架和电子交易模式等不同视角分析了数据产品流通过程,并提出数据的可计算性给数据交易带来了两类影响:一方面,可计算性使得数据能够被不断分析从而更加符合垂直领域的需求;另一方面,可计算性也会推动数据交易过程离开市场,呈现去平台化的趋势。基于电子市场经典理论框架将数字产品分为4个象限并进行相应分析,提出了对数据供方和数据市场管理者的建议。
培育数据要素市场是实现数据价值充分释放的重要机制。而数据要素市场的繁荣需要一个可持续的、健康发展的数商生态来支撑。基于数据治理价值链模型,厘清数据价值释放需要具备的基本活动和辅助活动,进而构建数商生态市场主体模型,明晰数据要素市场需要具备的核心市场主体和职能,为构建数据基础制度提供系统化分析框架,以更好地支撑数据要素市场的建设。
随着美国科技公司Facebook更名为Meta,元宇宙成为2021年年底非常火爆的科技名词。首先通过梳理元宇宙技术概念的发展过程,阐述了该行业在这一历史阶段发展的必然性和必要性。在此基础上,通过对国外元宇宙数字经济发展现状的剖析,揭示了去中心化数字经济的风险与挑战。最后,指出去中心化的关键精神内核在于全球普适的反垄断思潮,并由此展望国内元宇宙产业的前景。
3D舞蹈是元宇宙中虚拟人的一种重要表现形式,它将音乐与舞蹈进行有机结合,大大增强了元宇宙中相关应用的趣味性。之前的工作通常把3D舞蹈生成简单视作一个序列生成任务,但是生成的舞蹈动作质量较差且与音乐的契合度较低。受人类学习舞蹈过程的启发,提出了一种新颖的3D舞蹈框架——“节奏舞者”来解决上述问题。该框架首先使用VQ-VAE-2对舞蹈进行分层编码量化,可有效改善舞蹈生成质量;然后使用节奏点上的关键动作编码建立关键动作转换图,既可保证生成的舞蹈动作与音乐节拍的契合度,又可增加舞蹈动作的多样性。为了确保关键动作之间平滑自然地连接,提出了一个姿态插值网络来学习关键动作之间的转换动作。通过大量实验证明,该框架避免了长序列生成的不稳定和不可控问题,实现了舞蹈动作与音乐节奏的高度契合,达到了当前最优效果。
与通常的商品市场一样,数据市场中流通的数据商品也分为标准产品和非标准产品两大类。目前,市场中有效流通的数据产品是音乐、图片、电影等标准数据产品,而一般意义上的、大规模的大数据流通则遇到了诸多障碍,其中一个障碍就是数据产品的计量计价问题,需要设计一个可计量的标准数据产品形态。基于数据盒模型,设计了一种数据产品的基础标准形态,称之为盒装数据。一个盒装数据产品包括盒内数据、盒外包装两部分,其中,盒内数据是指“时间+空间+内容”三维度的数据立方体组织,一般包括图像、图形、视频、音频、文本、结构化数据等多种数据类型;盒外包装包括产品登记证书,以及产品说明书、质量证书、合规证书等内容。盒装数据旨在为数据要素市场提供一个可计量计价的标准数据产品形态。
数据是数字经济的关键生产要素,建立数据要素市场势在必行。数据要素市场建设包括数据确权、交易标的、定价机制、交易平台和交易监管等多个方面的建设。对数据产品/服务在数据交易所进行交易时所需要的权利及其确权行为、确权机构等进行了系统性探索,将数据交易标的形态设计为“数据产品/服务+某种权利”,设计了针对数据产品形态和数据服务形态的各种授权,同时形成了数据交易的授权体系。
去中心化金融(DeFi)是一种基于区块链和智能合约提供金融服务的新范式,现已涉及包括借贷及其衍生品在内的众多领域。因此,作为DeFi基础的交易机制成为重要的关注点,其直接影响着上层应用的稳定性。主要讨论DeFi领域的交易机制,首先介绍与交易机制相关的概念和协议;然后通过实现方式对交易机制进行分类,分别详细讨论了基于交易委托账本、自动做市商和聚合器方法的交易机制实现,并比较归纳实现方案之间的区别与联系;最后分析并总结了去中心化交易面临的公平性、安全性、匿名性问题,提出了相关的未来研究方向。
公共数据开放利用有利于促进数字经济高质量发展。我国积极出台相关政策引导公共数据开放利用,多个地方出台了有关公共数据开放利用的地方规章和法规条例,但国家层面尚缺少针对公共数据开放利用的法律法规。与我国相比,欧盟持续发布和修订公共数据开放利用相关指令,加快促进数字经济领域技术创新。梳理了我国公共数据开放利用的相关做法,分析了欧盟开放数据和公共部门信息再利用指令的主要内容,结合我国国情,提出对我国公共数据开放利用的相关启示,希望为进一步完善我国公共数据开放利用政策法规和机制、推动我国公共数据深度共享和有序开放提供借鉴。
数据正成为推动社会发展的新生产要素。以合规的、可审计的方式使数据在多方之间流通对于数据价值的形成至关重要。从隐私保护以及数据利用的角度,提出了一种新的数据流通方式——数据租赁。首先介绍了提出数据租赁的动机,然后明确了数据租赁应当满足的5项需求,最后提出了一种基于秘密共享的数据租赁技术。
长期以来,数据质量研究主要是为了满足组织自身信息系统正常运行的需求。随着数据要素市场的建设与发展,数据的质量需求从“自用需求”转变为“他用需求”“监管需求”。数据市场中的数据产品质量问题是数据使用者(购买者)和市场监管机构重点关注的内容。分析了数据产品质量的使用者需求和监管者需求,创新性地提出了一个数据产品质量体系框架;在此基础上,以盒装数据产品为例,从时间、空间和内容完整性3个方面构建了对应的质量维度、质量指标和质量评测模型。该质量体系可以对资源类数据产品进行检测和评定,能够为数据产品购买者和市场监管机构提供行之有效的检测依据和标准。
人工智能进一步提升了信息系统的自动化程度,但在其规模应用过程中出现了一些新问题,如数据安全、隐私保护、公平伦理等。为了解决这些问题,推动AI由可用系统向可信系统转变,提出了可信AI治理框架——T-DACM,从数据、算法、计算、管理4个层级入手提升AI的可信性,设计了不同组件针对性地解决数据安全、模型安全、隐私保护、模型黑盒、公平无偏、追溯定责等具体问题。T-DACM实践案例为业界提供了一个可信AI治理示范,为后续基于可信AI治理框架的产品研发提供了一定的参考。
隐私计算是一种新型数据处理技术,可以在保护数据隐私及安全的前提下,实现数据价值转化和流通。然而隐私计算场景中“数据可用不可见”的特性给传统的数据质量治理工作带来了很大的挑战,业界尚缺乏完善的解决方案。针对上述问题,提出一种适用于隐私计算场景的数据质量治理方法与流程,构建了本地与多方两个层级的数据质量评估体系,能够兼顾本地域及联邦域的数据质量治理工作,同时提出了一种数据贡献度衡量方法,对隐私计算的长效激励机制进行探索,从而提升隐私计算的数据质量,并提高计算结果的精度。
尝试抽象出既有大数据治理规则背后的逻辑和思维基础。具体而言,梳理了3种性质不同的基础思维,即简单类比、法律移植和规范想象。3种思维在某一特定历史阶段或多或少都存在,并非对立或者排斥关系,而是处于连续的谱系中。为了增进理解,将“路径依赖”作为参考概念。前两种基础思维属于路径依赖式思维,最后一种强调对既有路径的脱离和超越。基于对大数据治理基础思维的梳理和分析,进一步提出关于治理的顶层设计建议。首先,对传统物权(所有权)的依赖已经走到逻辑终点,如果脱离这一认知轨道,如何通过深入触及数据实践的方式设计治理规则是目前最主要的挑战。其次,法律移植是近十几年来大数据治理规则发展的主要引擎,但移植不同于翻译,移植本身也不是最终目的。审慎对待选择性借鉴的问题,以及规则和理论一体两面的问题,是目前移植实践的瓶颈和突破口。最后,与前两种路径依赖式思维对立,尝试提出规范想象的理念,指出适时脱离既有的历史轨迹和思维惯性的必要性。规范想象力的构建是一个复杂且持续的事业,需要同时跨越学科的藩篱,超越纯概念层面的认知,并形成有效的规则-理论互动。
基于LSM-Tree的键值存储已经得到广泛使用。LSM-Tree通过将更新的数据缓存在内存中、随后批量写入磁盘的优化措施取得极高的写性能。然而,在基于LSM-Tree的键值存储中,被更新键值对的旧数据不会立即从存储系统中清除,导致整个存储系统中积累大量的无效数据,最终会显著降低键值存储的读性能。针对以上问题,提出一种更积极的压缩(compaction)方法,通过记录键值对更新的历史信息,识别出更新热点,在整个LSM-Tree存储系统中寻找无效数据大量聚集的SSTable,尽早实施压缩,清除无效数据,缓解写放大效应,从而提升读性能。实验表明,该方法能够降低LevelDB 65.2%的平均读时延、69.4%的99%读尾时延以及71.4%的写放大。
大数据产业发展当前仍然面临产业边界不够清晰、企业界定不够明确、产值测算方法不够统一等产业发展问题和痛点,在遵循现阶段我国大数据产业发展客观实际的基础上,将大数据产业链划分为数据资源层、基础硬件层、通用软件层、行业应用层、安全保障层5个层级,并对大数据企业概念进行界定。通过获取相关层级各细分领域骨干企业市场营收占比、细分领域骨干企业大数据营收占主营业务收入比均值,折算细分领域大数据产业产值。最终运用加总法测算出2016—2021年我国大数据产业产值为44 908亿元,并预判“十四五”时期,我国大数据产业年均复合增长率约为25%,即到2025年我国大数据产业营收预计突破3万亿元。
中医医案是中医医生学习临床经验的重要文献资料,对中医医案进行结构化处理有利于采用机器学习等方法总结临床经验,加速中医传承。为了实现中医医案快速结构化,提出了一种基于自然语言处理的中医医案文本快速结构化方法。将《中国现代名中医医案精粹》作为结构化对象,采用光学字符识别技术识别医案截图的文本,同时对文本做初步结构化。构建简单症状词典,采用结合词典的改进的N-gram模型获取医案文本中的症状、体征等词,并在结构化过程中更新词典,实现了对4 754份文本医案的结构化。随机选取666份医案文本对最终模型进行测试,其F1值达到82.99%。
区块链技术给数据共享中的数据确权、数据溯源、数据可信、数据可用等方面提供了新思路,但数据共享中的隐私数据安全仍面临许多挑战。首先回顾当前基于区块链的数据共享研究现状;然后提出一种隐私数据安全共享模型,通过函数加密技术对隐私数据进行加密,结合零知识证明技术生成相关计算的可信证明,实现“数据可用不可见”的安全可靠的数据共享。实验结果显示,该模型的共享时延及经济开销均在可接受范围内,证明了该模型的安全性和可行性。
基于车路协同的发展现状,总结车路协同场景中隐私计算、人工智能等技术的研究进展。设计并实现YITATFL平台,为数据管理、模型训练、模型管理及协同推理提供完备的隐私保护方案,为人工智能结合隐私计算在交通行业的应用提供参考。
在目前的中文文本情感分析研究中,基于语义规则和情感词典的方法通常需要人工设置情感阈值;而基于深度学习的方法由于未能运用语义规则和情感词典等语言知识,不能充分提取情感特征。针对这两种方法的缺点,提出了一种将语言知识和深度学习结合的文本情感分析方法。该方法首先根据语义规则提取文本中的关键情感片段,再根据情感词典从关键情感片段中抽取出情感更加明确的情感词来构建情感集合,然后利用深度学习模型分别从原始文本、关键情感片段、情感集合中抽取深层次特征,最后对提取的特征进行加权融合,并利用分类器实现情感极性的判断。实验结果表明,与未引入语言知识的深度学习模型相比,该方法的情感极性分类能力有明显提升。
区块链作为一种新兴技术,以其去中心化、难以篡改、匿名性和可追溯性等特点,为个性化推荐系统的改进提供了一种崭新的思路。为此,首先对近年来推荐系统面临的主要问题和区块链技术带来的机遇进行归纳总结,然后采用文献分析方法,从时间分布、文献类型、研究问题和评估指标4个层面,对推荐系统中区块链技术的应用研究进行分析和总结。分析结果表明:区块链对于解决推荐系统的数据安全和隐私保护、数据共享、数据可信和推荐透明度问题有重要意义;已有研究主要集中于解决推荐系统中用户的数据安全和隐私保护问题,而在跨平台数据共享、数据激励机制设计和系统可扩展性等方面的研究仍有待进一步突破。
数据要素市场的建立遵循传统生产要素市场化配置的一般规律,但是存在标的物不明确、定价和交易机制不健全等难题。通过细分数据要素市场,构建了面向不同标的物的数据要素三级市场体系,并进一步分析了影响数据价值释放的主导因素。通过对市场主体开展成本收益分析,建立了数据要素市场的经济性分析模型,并结合地方实践案例,印证了数据要素三级市场的经济性优势。
推荐系统是解决社会媒体信息过载问题的重要手段。为了解决传统推荐系统无法优化用户长期体验的问题,研究人员提出了交互式推荐系统,并尝试使用深度强化学习优化推荐策略。但是,强化推荐算法面临反馈稀疏、从零学习影响用户体验、物品空间大等问题。为了解决上述问题,提出一种改进的知识增强策略引导的交互式强化推荐模型KGP-DQN。该模型构建行为知识图谱表示模块,将用户历史行为和知识图谱结合,解决反馈稀疏问题;构建策略初始化模块,根据用户历史行为为强化推荐系统提供初始化策略,解决从零学习影响用户体验的问题;构建候选集筛选模块,根据行为知识图谱上的物品表示进行动态聚类,从而减少物品空间,解决动作空间大的问题。在3个真实数据集上进行了实验,实验结果表明,KGP-DQN可以快速有效地对强化推荐系统进行训练,其在3个数据集上的推荐准确率均超过80%。
情感分析是对信息情感倾向的挖掘,主要用于舆情监测、商品评论分析以及信息检索等方面。随着社交媒体的快速发展,文本数据量呈现爆炸性增长,文本情感分析成为自然语言处理领域重要的研究热点之一。与此同时,由于情感数据具有海量、时变、非结构性、强关联性的特点,能够直观高效地呈现情感倾向的可视分析技术在这个领域得到广泛应用。回顾了近年来的情感可视分析研究,从表现形式——“主题词”“关联”“演变”“时空分布”4个方面阐述文本情感可视分析方法,并对未来情感分析技术及文本情感可视分析研究进行展望。