世界主要国家高度重视大数据发展,我国也将发展大数据作为国家战略,发展大数据技术具有重要意义。大数据技术涉及从采集、传输到管理、处理、分析、应用的全生命周期以及生命周期各阶段的数据治理。选取数据生命周期中的管理、处理和分析技术以及大数据治理技术来梳理国内外技术发展现状,特别是研判我国大数据技术发展与国际先进技术之间的差距。另外,在大数据应用需求的驱动下,计算技术体系正面临重构,从“以计算为中心”向“以数据为中心”转型,在新的计算技术体系下,一系列基础理论和核心技术问题亟待破解,新型大数据系统技术成为重要发展方向。在计算体系重构的背景下,提出大数据技术发展的四大技术挑战和十大发展趋势。
3D舞蹈是元宇宙中虚拟人的一种重要表现形式,它将音乐与舞蹈进行有机结合,大大增强了元宇宙中相关应用的趣味性。之前的工作通常把3D舞蹈生成简单视作一个序列生成任务,但是生成的舞蹈动作质量较差且与音乐的契合度较低。受人类学习舞蹈过程的启发,提出了一种新颖的3D舞蹈框架——“节奏舞者”来解决上述问题。该框架首先使用VQ-VAE-2对舞蹈进行分层编码量化,可有效改善舞蹈生成质量;然后使用节奏点上的关键动作编码建立关键动作转换图,既可保证生成的舞蹈动作与音乐节拍的契合度,又可增加舞蹈动作的多样性。为了确保关键动作之间平滑自然地连接,提出了一个姿态插值网络来学习关键动作之间的转换动作。通过大量实验证明,该框架避免了长序列生成的不稳定和不可控问题,实现了舞蹈动作与音乐节奏的高度契合,达到了当前最优效果。
随着数据要素市场建设的推进,“数商”的概念越来越得到广泛关注。然而,什么是“数商”,以及“数商”的内涵、角色、定位、职责等,目前尚未有清晰的界定,这不利于数据交易生态体系的建设。研究了现有数据商品、数据商人、数据商业可能的类别,界定了数据商品、数据商人和数据商业的概念,基于数据的属性,将信息商品、数字商品和数据商品统一成数据商品;依据数据的商业活动,将数据商人分为数据供应商、数据服务商、数据贸易交易商三大类;分析归纳了自产自销模式、运营平台代理模式、数据交易场所模式3种数据商业模式。本文的研究丰富了“数商”内涵,为数据市场建设提供了理论支持。
元宇宙对时空影响的实质是对时空节点进行数据智能化,并通过虚拟世界对物理世界予以仿真与反馈,而大数据是在此过程中提升人类对世界洞察力的核心手段。从元宇宙概念演绎与定义逻辑出发,梳理了元宇宙“小中大全”4个不同层级的概念维度,并基于对大数据洞察本质的9点思考,提出了5层数据关联模型。从一元宇宙系统的建立再到多元宇宙系统的连接,分别探索元宇宙中的数据产生、数据攫取、数据结构分析与数据价值挖掘等问题,分析在嵌套与融合元宇宙中空间数据、时间数据与国际数据的互联问题,以期通过数据洞察与价值连接更好地认知世界、描述世界与改造世界。
数据存储量的扩大和计算能力的提升为基于观测数据推断时间序列的因果关系开辟了新途径。在时间序列因果推断的基本性质和研究现状的基础上,系统梳理了5种基于观测数据的时间序列因果推断方法,即Granger因果分析方法、基于信息论的方法、因果网络结构学习算法、基于结构因果模型的方法和基于非线性状态空间模型的方法。然后,根据不同应用场景的数据特点,结合方法的功能和适配性,对基于观测数据的时间序列因果推断方法在经济金融、医疗和生物学、地球系统科学和其他工程领域的典型应用进行了简要介绍。最后,结合时间序列因果推断的重难点问题,比较5种方法的优缺点,分析下一步研究重点,展望未来的研究方向。
基于LSM-Tree的键值存储已经得到广泛使用。LSM-Tree通过将更新的数据缓存在内存中、随后批量写入磁盘的优化措施取得极高的写性能。然而,在基于LSM-Tree的键值存储中,被更新键值对的旧数据不会立即从存储系统中清除,导致整个存储系统中积累大量的无效数据,最终会显著降低键值存储的读性能。针对以上问题,提出一种更积极的压缩(compaction)方法,通过记录键值对更新的历史信息,识别出更新热点,在整个LSM-Tree存储系统中寻找无效数据大量聚集的SSTable,尽早实施压缩,清除无效数据,缓解写放大效应,从而提升读性能。实验表明,该方法能够降低LevelDB 65.2%的平均读时延、69.4%的99%读尾时延以及71.4%的写放大。
基于国内外数据要素市场化的发展情况,总结了国外数据要素价值化发展的路径及特点。概括了我国数据要素市场在交易市场、应用场景等方面的现状,针对目前我国数据要素市场的发展情况,结合我国数据要素市场环境及发展特色,提出了构建中国特色数据要素市场模式的建议,以加快释放数据要素价值。
针对传统轨迹数据保护中忽略位置点携带的语义信息带来的隐私泄露问题,提出一种基于指数机制的轨迹差分隐私保护方法。针对位置空间属性及位置语义特征双重属性信息导致的隐私泄露,根据差分隐私中指数机制的特性,为位置点设计可用的打分函数后随机化输出,对轨迹进行了有效的隐私保护。该方法在保证位置隐私的同时减小数据集规模,并防止语义背景推断攻击,提高数据可用性。在真实轨迹数据集上进行实验,实验结果表明,该方法可以保证隐私强度,有效保护了用户的停留区域位置隐私,同时有效提高了数据可用性。
随着元宇宙的用户不断增多,数据量也相应地增长,这给元宇宙的数据管理带来了挑战。大数据管理技术对元宇宙的实现至关重要。对元宇宙中的数据管理技术进行了讨论,将元宇宙分解为云、边、端3个层次,分析了元宇宙中的大数据的特点和数据管理特点,讨论了面向元宇宙的云边端数据管理的4个挑战,并从数据模型、数据同步、数据存取、查询优化4个方面提出相应的研究路线。
空气污染与人们的健康和经济社会的发展息息相关。然而,监测站点分布稀疏,无法提供细粒度的空气污染物浓度。此外,现有的空气污染物浓度推断方法缺乏实时处理相关数据的能力,具有滞后性。为了解决上述问题,提出了一种基于数字孪生技术的元宇宙空气污染物浓度推断模型。该模型将现实数据映射到元宇宙空间中,并构建数据仓库,通过构建空气污染物特征库实现对空气污染物浓度的实时精确推断。实验结果表明,该模型能提高空气污染物浓度推断的准确性和有效性。
元宇宙是对现实世界虚拟化、数字化的过程,融合了多种技术。虚拟现实和区块链是构建元宇宙的底层技术,但两者在数据处理和算力需求上有很大不同。为了解决元宇宙中区块链和虚拟现实的数据异构、算力异构等问题,提出“元算中心”的概念,并且在硬件架构上将元算中心、区块链节点、边缘服务器组成算力网络。元算中心集中处理元宇宙虚拟场景渲染数据与虚拟人物的交互;数字资产和个人信息利用区块链在多个分布式节点上进行脱敏存储;边缘服务器敏捷响应用户请求,并作为区块链的轻节点存储部分信息。在软件架构上,结合硬件架构设计分层处理模型,将模型数据、资产数据等异构数据放在不同软件层处理。最后结合软硬件架构,设计并实现了元宇宙购物商城原型系统,为将来的元宇宙应用提供一定的参考。
随着数据能力的提升和新兴技术的发展,经济形态和行业竞争格局正在发生深刻变化。为了能更好地应对未来的机遇和挑战,提高新格局下企业的竞争力,有必要理解和掌握数字化转型的有关内容。论述了传统企业将逐渐被新型企业取代的新竞争格局,辨析了数字化与数字化转型二者的区别,指出了传统企业在开展数字化转型时主要面临缺资金、缺人才、缺数据、缺意识等方面的挑战,提出了面向新竞争格局的数字化转型服务平台,为企业竞争力建设和数字化转型提供了一个可行方案。
数据资产价值评估是现代数据资产管理和运营以及数据流通的基础。基于数据全生命周期理论,从第一性原则出发,通过评估单张数据资产表的成本、数据管理以及数据应用价值,实现对单张数据资产表的系统性评估。利用数据仓库和图算法等技术,以层为单位,每层分摊,血缘路径继承,精确计算得到单张数据资产表的成本价值;然后利用层次分析法得到数据资产非经济因素权重,进而得到数据资产阶梯价值;最后通过实例分析验证了新方法的合理性和可行性。
元宇宙已在医药、制造、金融产业、教育和公共服务等领域有所讨论,但基于虚拟现实的应用场景并未真正实现“现实-虚拟-现实”回路交互方式。其交互模式也没有真正意义上赋予虚拟世界等同现实世界的意识和感知。以医药为例,探讨了生成式人工智能大模型在元宇宙生命体中的前瞻应用和挑战,包括数字化生物细胞,构建数字化细胞之间的连接和数字神经元等,以促进元宇宙生命体具有与物理世界一致的感知和生物化学反应,从而赋能医药领域的发展。针对目前元宇宙和生成式人工智能大模型各自的优缺点,进一步讨论通过巧妙设计人机协同机制,促进人与元宇宙生命体在医药中的有意识交互。
随着互联网技术的不断提升,元宇宙因其虚实结合的沉浸式互动场景,对教育领域的发展产生了极大的影响。针对如何构建高质量教育资源共享社区的问题,首先分析教育元宇宙社区的特征,然后设计教育元宇宙社区框架结构,最后提出教育元宇宙社区面临的挑战与策略,以期为新时代教育的发展提供参考。
对“东数西算”工程安全防护能力建设面临的体系化布局、统筹组织推进、统一标准规范等若干问题进行了分析,在此基础上提出了构建全国一体协同的数据安全防护体系建设思路。
推进数字化转型成为实现教育高质量发展的关键。基于国内外教育数字化现状的调研,分析了教育数字化转型的核心、发展阶段及其技术。梳理了我国高等教育数字化转型面临的挑战,聚焦教学和管理,从数据、技术、人才等角度提出建议,探索高等教育数字化转型发展解决方案,为促进教育数字化提供参考。
元宇宙的兴起和发展为法律监管带来了挑战。元宇宙不是法外之地,也需要讲法治,要在法治的轨道上正确运行。首先,梳理了元宇宙的技术性、商业性、社会性、跨国性等发展特征,分析了其带来的风险挑战和国内外应对立场;其次,分析了元宇宙的网络安全、个人信息与隐私保护、数据治理、虚拟资产、生态治理、平台责任以及网络犯罪等主要法律难题;最后,提出了依法规范元宇宙发展的思路,坚持安全可控的发展原则,适度超前布局元宇宙法律规则,立足问题导向,通过立、改、废、释等立法手段推进重点领域法律监管,实现良法善治。
2021年3月,“十四五”规划正式发布,加快数字化发展、建设数字中国是未来数字经济发展模式的目标。作为数字经济的基础,国家发布了多项规定来统筹规划、促进大数据中心一体化和算力枢纽节点(即“东数西算”)的整体建设,服务于数字经济的发展。本刊的“东数西算”专题中,根据对八大节点的实地调研情况,详细分析各地特点及面临的一系列问题。同时,基于调研结果和研究成果从地方建设和就业收益平衡、网络基础建设、政府指导和市场化并举、大数据自主软硬件评价体系、涉外数据交流和监管、人才队伍培养6 个方面提出了发现的问题和相应的建议,以助力高质量地加快实施全国一体化大数据中心。
交叉解读3个数据政策文件,从数据产业发展趋势、用户数据认知和科技创新技术应用的视角提出了有关产业发展的若干思考,认为文件所聚焦的数据以及以数据为关键要素的产业发展会精准点燃经济发展的引爆点。首先,论述了数据政策文件对产业发展的影响——将能够加快数据产业和数据安全产业的发展进程,并赋能实体经济,使其成为高质量发展的主干道和主赛场。其次,阐述了数据政策文件对用户数据认知的影响——有助于理解数据要素和数据安全的价值共生关系,建立数据要素及安全一体化治理的数据认知,探索数据运营新思路、新机制、新方法。最后,围绕数据流通,描述了数据政策文件对技术和学术研究的影响——基于“需求牵引、业务驱动和实践先行”的原则,开展相关技术攻关研究,补齐供给侧技术短板,提高科技创新供给能力。
随着信息技术的迅猛发展和深入应用,算法被广泛地运用到交通、医疗、电子商务、信息服务和公共管理等领域。但其自身呈现的数据依赖性、逻辑黑箱性和通用目的性等特征,也引发了算法训练中的数据滥用、公共管理中的算法歧视、信息服务中的算法操纵、市场竞争中的算法合谋等问题。为了应对算法应用带来的问题,各国积极采取措施,加强对算法应用的治理。推进算法的合规利用,有必要进一步强化顶层设计、完善治理格局、丰富治理手段、加强国际协作,不断健全算法治理体系。
“东数西算”工程是构建我国国土空间领域内算力资源东西平衡、按需调度的重大战略工程。自我国全面启动“东数西算”工程建设以来,供需端、能源端、技术端、机制端等暴露出诸多问题,迫切需要从理论层面对“东数西算”工程的内在逻辑进行重新分析与定义。从经济形态、技术趋势、科技竞争、成本收益等不同视角分析了“东数西算”的内在逻辑,即算力基础设施化,并提出打造全国算力一张网的新型基础设施,以及从政策布局、网络直连、技术支持、机制创新等方面构建国家算力网的对策建议。
近年来,数字生成内容技术得到了极大的发展,数字内容的检测和取证技术面临新的挑战。首先从自然语言大模型、视觉生成技术、多模态生成技术3个方面介绍数字内容生成技术,从生成文本检测、生成图片检测、生成音视频检测3个方面介绍数字内容检测技术,从利用事实信息和伪造痕迹两方面介绍数字内容取证技术;接着介绍这些技术的应用场景;最后对该研究领域的未来工作进行展望,指出几个需要重点关注的方向。
当前数据要素市场建设探索主要集中在数据交易场所(场内)建设,而流式数据市场指数据供应商向数据使用者持续、快速地供应特定数据的市场,流式数据并不适合在场内交易,因此需要探索流式数据的场外交易模式。研究了当前流式数据市场的运行现状,指出了市场无序、监管工具不足是存在的主要问题,提出了场外流式数据市场的数据管道模型,包括管道流通要件(数据管道、数据工厂、数据供应链)、市场规范要件(数据计量表、质量抽检器、合规审核仪)等,论证了数据管道模型的技术可行性,以期为场外数据市场建设、规范和监管提供理论和技术支持。
四川“东数西算”枢纽节点建设是全国一体化大数据中心创新体系建设的重要组成部分,作为承担“东数”“西算”双重任务的关键节点,其发展具有特殊性。为此,基于四川省在工业体系、能源禀赋、算力成本、科教人才方面的优势,围绕四川与其他东部节点、西部节点和重庆三者之间的竞争关系,对四川在“东数西算”背景下的战略定位与发展策略进行了系统剖析。针对关键问题,提出统筹定位发展、做好算力消纳、优化电价机制等建议。
基于2021年省级数据,从政策、设施、服务、投入和成效5个方面构建区域中小企业数字化发展评价指标体系,采用层次分析法和熵权法进行指标权重设置,采用分级打分法进行指标数据标准化处理,对我国省域中小企业数字化发展水平进行了测算。研究发现,我国中小企业数字化发展区域差异明显,东部地区综合指数最高,中部、西部和东北部地区依次递减,且均低于全国平均水平;综合指数与进出口总额呈明显正相关关系,且相关性高于综合指数与GDP的相关性;分项指数中政策引导指数领先,要素投入指数相对较低。基于此,提出了强化数字资金支持、降低数字设施使用门槛、提升数字化转型服务支撑和加强数字化人才供给4个政策建议,以促进中小企业的数字化发展。