基于国内外数据要素市场化的发展情况,总结了国外数据要素价值化发展的路径及特点。概括了我国数据要素市场在交易市场、应用场景等方面的现状,针对目前我国数据要素市场的发展情况,结合我国数据要素市场环境及发展特色,提出了构建中国特色数据要素市场模式的建议,以加快释放数据要素价值。
工业数字化是我国工业产业转型升级的重要手段,数字化转型成为我国工业发展的重要趋势。工业系统的可靠性和稳定性对于工业生产的高质量和可持续发展具有重要作用。故障会影响工业系统的运行,甚至造成重大的安全事故和经济损失。为应对这一问题,故障诊断技术应运而生并逐步发展。高效、高质的故障诊断数字化技术已经成为工业数字化转型的关键技术。分析了工业领域故障诊断数字化方法的研究进展,按照其发展特点划分为领域经验主导的建模方法、数据驱动与领域经验结合的数字化方法、数据驱动主导与可解释性结合的数字化方法3个阶段,重点探究每个阶段方法的基本思想及其特点等,并探讨未来的研究方向,为推动工业数字化转型提供参考。
面对新形势下的数据安全治理挑战,顺应数据安全领域的技术发展趋势,针对大型国企在数据安全治理实际应用中突出的关键权限人员识别问题,提出了一种基于图算法的关键权限人员识别技术。该技术可以发现系统中潜在的权限影响因素,并可从多个角度衡量不同含义的权重影响力,识别结果可解释性强。针对数据安全治理中的用户与实体行为异常检测问题,提出一种基于生成对抗网络的用户与实体行为异常检测方法,实验结果表明,所提方法的精确率、召回率和F1值的平均值均优于对比基线模型方法。设计开发了数据安全平台,平台在降低数据安全风险、辅助企业合规建设、促进数据开发利用等方面起到了重要作用,已在多个数据集中管理项目中得到应用,能满足安全场景下的大数据处理需求,具有较好的应用推广价值。
当前,人工智能持续升温,大语言模型吸引了众多人士的关注,并在全球范围内掀起了一股热潮。人工智能的成功本质上不是大算力“出奇迹”,而是改变了计算模型。首先,肯定了数据对于人工智能的基础性作用,指出合成数据将是未来数据的主要来源。然后,回顾了计算模型的发展历程,重点介绍了神经网络模型与图灵模型的历史性竞争;指出了大模型的重要标志是机器涌现智能,强调大模型的本质是“压缩”;分析了大模型产生“幻觉”的原因。最后,呼吁科技界在智能化科研中要重视大科学模型。
数据中台将一个机构(企业、事业或政府部门)的数据作为战略资产进行管理,是从数据收集到处理应用的一套管理机制,以期提高数据质量,实现广泛的数据共享,最终实现数据价值最大化。给出数据中台的定义,提出数据中台参考技术框架,并分别对物理管理、逻辑管理、数据资产管理、数据服务和信息安全管理的组成和技术进行了展开讨论。最后以华谱系统建设为例,介绍面向家谱大数据、结合HAO智能模型的数据中台实现——华谱数据中台。
语音合成是语音、语言和机器学习领域的一个热门研究课题,旨在合成给定文本的可理解和自然的语音,在工业中有广泛的应用。语音合成的目标之一是合成自然的语音,而目前的语音合成在情感、韵律等方面还有很大的改进空间。对表现性语音合成进行了全面的调查,旨在更好地了解当前的研究现状和未来的趋势。对近年来基于情感及韵律的表现性语音合成进行了全面的总结、比较和分析。首先介绍了普通语音合成的传统实现方式及瓶颈;然后引入表现性语音合成并描述表现性语音合成在情感、韵律等方面为语音合成自然化带来的增益;最后对表现性语音合成进行了展望和总结。
数据资产化和数据要素优质供给,对赋能实体经济有放大、叠加和倍增效应。当前研究专注于对数据资产的理论框架和核心环节的深入研究,在实践应用方面缺乏系统性思维和体系化指导。提出了面向企业经营性数据资产的实践探索框架,即“五段六维”数据资产化过程模型,旨在探究“企业如何有效配置和优化不同维度的使能因素,以有序推进数据资产化过程”这一科学问题。通过调研上海市典型行业内企业的数据产品,凝练了企业数据要素的优质供给策略,并在实践中探索并验证该模型在企业数据资产化进程的适用性,为企业数据资产化提供了实践依据。模型的提出与实例化为促进数据要素优质供给提供了参考。
支持大模型训练的计算机系统有3种类型,其中基于国产AI芯片系统的生态系统不是很好,要想改变这个局面,需要做好AI编译器、并行加速等10个关键软件;基于超级计算机的系统需要做好软硬件协同设计,从而更好地服务于大模型训练。针对如何搭建大模型的基础设施,提出4点平衡设计,以确保系统的性能、可靠性和可扩展性。
联邦学习使用来自多个参与者提供的数据协同训练全局模型,近年来在促进企业间数据合作方面发挥着越来越重要的作用。另外,联邦学习训练范式常常面临数据不足的困境,因此为联邦学习参与者提供公平性保证以激励更多参与者贡献他们宝贵的资源是非常重要的。针对联邦学习的公平性问题,首先依据公平目标不同,从模型表现均衡、贡献评估公平、消除群体歧视出发进行了联邦学习公平性的3种分类;然后对现有的公平性促进方法进行了深入介绍与比较,旨在帮助研究者开发新的公平性促进方法;最后通过对联邦学习落地过程中的需求进行剖析,提出了未来联邦学习公平性研究的5个方向。
随着旅行方式的不断演变,传统旅游管理服务模式的滞后已不再满足现代游客对个性化、品质化出行的需求。为解决该问题,搭建了甘肃省智慧旅游系统。首先对相关研究进行综述,然后详细描述了系统的构成和实现过程,包括甘肃智慧旅游大数据中心的构建和“一部手机游甘肃”综合服务平台的设计。系统通过分层架构和逻辑框架,实现了旅游数据与游客行为的关联映射,并对多元数据进行融合计算。最后,以高速公路自驾车流量预测模型、旅游目的地形象代表的图片选择模型和旅游评论情感影响因素分析模型为例,阐述了综合服务平台面向政府、业态、游客提供的智能化服务。应用成效表明,该系统的实施有效地提高了甘肃地区旅游服务的质量和游客满意度,进一步推动了甘肃智慧旅游的快速发展。
感知数据交易能将感知数据转化为经济价值,促进数据的有效利用和共享。为了确保感知数据交易的可靠性和隐私安全,提出了一个基于混洗差分隐私的区块链感知数据交易方案。该方案设置了审计节点进行用户筛选和任务执行,混洗节点进行争议处理和奖励分发,并使用混洗模型下的差分隐私技术对用户的数据进行加噪。此外,还使用加法秘密共享技术划分数据到r个混洗器,以隐藏用户和数据的映射关系。该方案不需要可信的第三方,数据消费者可通过区块链交易平台发布任务并进行广播,进行安全隐私的数据交易。同时,根据隐私放大定理,该方案可获得接近中心化差分隐私的隐私保护效果。最后通过实验验证了方案的可行性,对比相关算法,该方案得到的数据准确性更高。
我国是全球产业规模最大、产业覆盖最全的国家,但受多种因素的影响,发现产业链的堵点断点、识别卡点、寻找代替通路、全面优化产业链势在必行。从数据底座构建、核心知识图谱挖掘、兼容传统产业链知识3个方面,阐述了基于图论的产业网络知识图谱的构建过程,以实现产业优化升级与模拟仿真。分析了产业网络知识图谱的应用场景和优势,并给出了其在集成电路行业的应用案例。
多方安全计算技术已广泛应用于金融、互联网等领域,用于解决“数据孤岛”难题,然而其在公共数据领域的应用尚不成熟。针对公共数据领域提出了基于多方安全计算的公共数据融合创新模式,开发设计了在保护数据安全前提下利用各主体公共数据联合计算的技术架构。该模式通过技术创新突破制度制约,实现数据价值提升和保障数据安全的兼顾。主要分析了模式中多方安全计算核心系统的3个子层:联合计算子结构层、安全关系代数层和多方安全计算基础算子层。此外,还给出了实现公共数据融合创新模式的通用流程,并对公共数据融合创新模式的应用实例进行了阐述,为助力数字中国建设、畅通数据资源大循环提供新模式的借鉴。
在中国数字经济发展过程中,相关部门充分发挥法治的保障作用,积极推进数据领域法律法规制定工作,初步构建形成了纵横结合的数据法律制度体系。首先,介绍了中国数据法律制度体系的基本概况,包含横向体系和纵向体系两个维度。其次,分析了中国数据法律制度的纵向体系,包括中央立法和地方立法两个层面,涵盖法律、行政法规、部门规章以及地方性法规和地方规章多个层级。再次,分析了中国数据法律制度体系的横向体系,主要包括数据安全与发展制度、个人信息保护制度、商业数据流通制度和政务数据管理制度四大制度板块。最后,总结了中国数据立法的成效与体系的不足,并提出了完善建议。
基于国内外隐私计算发展现状,总结了隐私计算互联互通研究进程。运用系统架构视角,阐述互联互通技术的“应用层、协议层、通信层”三层次实现路径。针对目前互联互通平台计算原理复杂、架构多样化等特点,创新性地提出Adaptation机制互联互通框架。通过关键技术的设计和实现,在保证原有功能实现的基础上,解决了不同架构的兼容问题。通过传统机器学习、横向联邦、纵向联邦具体实验场景,针对数据量、特征分布等维度,验证了Adaptation框架下互联互通可信网关的有效性和合理性。
数据是企业的核心战略资产,这已然成为社会共识。在数字化转型浪潮下,各企业通过数据资源化推动业务数据化,以数据资产化推动数据业务化,最终充分释放数据资产价值。研究了从数据的业务供给端出发,如何通过数据资产运营构建全面有效、切合实际的数据资产管理体系,从而提升数据质量,保障数据安全;从业务的数据需求端出发,如何通过数据资产运营拉通企业内部和外部数据,推动数据与业务深度融合,丰富数据资产应用场景。数据资产运营平台是数据资产运营体系的技术支撑,支持资产运营闭环流程的线上化、标准化及配置化,满足运营操作的自动化、智能化。
新闻推荐系统对新媒体新闻传播有着重要作用。提出了一种以深度强化学习为基础的推荐系统,旨在结合神经网络的表征能力和强化学习的策略选择能力来提升新闻推荐效果。使用动态动作掩码加强对用户短期兴趣的判断能力,使用优化缓存机制提升经验缓存的使用效率,通过区域遮蔽性质的奖励设计加快模型训练,从而提高推荐系统在新闻推荐领域的表现。实验表明,所提模型在新闻数据集上的推荐准确率与主流的神经网络推荐方法相当,且在排序性能上优于当前先进的推荐算法。
数据分类分级是保障数据安全流通、推动数据价值释放的基础前提。聚焦政务数据分类分级这一政府数字化改革中的关键任务,采用基于理论的案例研究方法,基于各省级地方及部委公开发布的方案,对我国政务数据分类分级实施情况进行系统梳理与量化分析。总结了我国政务数据分类分级实施的四大关键过程与五大特点;从政务数据分类分级的特殊复杂性出发,提出我国政务数据分类分级实施存在整体目标定位不清、分类分级对象各异、分类分级关系割裂、安全分级标准不一4个问题,并提供应对方案;基于国家某部委政务数据分类分级实践,验证应对方案的科学性、有效性,为构建全国统一的政务数据分类分级体系提供参考。
资产价值增减变动的判断评估是资产管理和会计的一项重要工作。在当下数据资产入表的进程中,数据资产价值增减变动的计算方法是必须解决的问题。数据资产不同于传统资产,其价值增减变动也会有所不同,为此首先要弄清楚有哪些因素造成了数据资产的增值或减值。从数据资产与传统资产的差异性入手,分析提出了数据资产减值的4个因素:时效性数据因素、时效性使用因素、管理成本因素、授权临期因素;分析提出了数据资产增值的3个因素——数据完整性提升因素、数据新用途发现因素、技术进步带来成本下降因素,为数据资产减值、增值的计算方法设计提供依据。
政务数据标识是建设全国一体化政务大数据体系的一项基础性工作。对数据标识技术的研究进展进行了总结,比较了不同数据标识技术编码规则的异同,并进一步总结了政务数据标识及应用进展。结合政务数据所具有的权责明确、安全性要求高、兼容性需求强等特点,提出了下一代政务数据标识体系Gcode。Gcode由外部码、内部码和安全码3个部分组成。其中,外部码兼容了统一社会信息用代码,内部码建立了“机构部门-系统-数据”的关联关系,安全码通过引入区块链技术实现防伪验真。Gcode具有权责明确、兼容性强、安全性高等特点,能够支持政务数据跨层级、跨地域、跨系统、跨部门、跨业务共享,可有力推动实现政务数据“一数一源”。
当前数字政府建设已进入深水区,政务大数据平台作为数据底座支撑各类政务信息化应用,其隐私数据的安全性和合规性一直被业界广泛关注。联邦学习是一类解决数据孤岛的重要方法,基于联邦学习的政务一体化大数据平台应用具有较高的研究价值。首先,介绍政务大数据平台及联邦学习应用现状;然后,分析政务大数据平台面临的隐私数据的采集、分类分级、共享三大管理挑战;接着,阐述基于联邦学习的推荐算法和隐私集合求交技术的解决方法;最后,对政务大数据平台隐私数据的未来应用进行了总结和展望。
建设高质量政务大数据资源平台是实现跨部门、跨区域、跨层级政务信息集成融合,加快建设数字政府、提升公共服务和社会治理等数字智能化水平的重要基础工程。首先,回顾我国电子政务发展历程,并总结出传统省级政务大数据平台的3种建设模式以及存在的问题,即数据鲜活性低、数据一致性差、业务协同管理难、基础支撑力弱和总体投入高。其次,对江苏信用一体化信息资源管控平台进行案例分析,阐述以江苏案例为例的原因,针对传统建设模式存在的问题,提出对应的解决思路和总体架构设计,并梳理出江苏案例的4个借鉴价值。最后,在总结江苏研究和实践经验的基础上,归纳出5点建议,为各省研究、制定省级政务大数据平台的建设指南等政策性文件提供参考。
在信息时代和智慧旅游背景下,政府主动对外开放内部的旅游数据,有利于充分释放旅游数据资源的商业价值与社会价值。使用变异系数法与熵权法进行组合赋权,构建了政府旅游数据开放评价指标体系,计算21个省级行政区的具体得分,并采用模糊集定性比较方法进行高评价值与低评价值条件组态分析。结果表明:指标体系包含4项一级指标、17项二级指标与51项三级指标,可以对当前省级行政区的旅游数据开放绩效进行有效评价;利用层、数据层是权重较高的一级指标,法律政策效率与内容、平台关系等是权重较高的二级指标;高评价值组态为综合发展型、数据辅助应用型,低评价值组态为政策与利用短板型、平台与数据问题型。研究结果可以为旅游数据开放评价相关学术研究与管理实践提供参考。
实体获取是信息抽取的核心任务。近年来,在大数据训练模型的趋势下,深度学习在实体获取任务上取得了成功。但在自然环境等领域中,地形、灾害等类型的实体样本或者标注样本很少,而且对无标签样本进行标注又耗时费力。因此,面向低资源场景的实体获取逐渐受到关注,该任务被称作低资源实体获取或小样本实体获取。系统地梳理了当前低资源实体获取的相关工作,具体来说介绍了基于元学习、基于多任务学习和基于提示学习这3类方法的研究现状;总结了目前常用的低资源实体获取数据集和代表性模型在这些数据集上的实验结果;对低资源实体获取的方法进行了总结与分析;总结了低资源实体获取的挑战,并展望了未来发展方向。
健全和完善我国国防网络安全和数据治理架构,既是国家网络安全与数据治理的重要一环,也是在《数据安全法》框架下细分领域内的重要实践。运用比较分析和文献分析法,提炼美国2013—2022年《国防授权法》中国防网络安全与数据治理的逻辑特征,吸收美国国防网络安全与数据治理的成功经验,完善我国国防网络安全与数据治理的总体架构。总体国家安全观下的国防网络安全与数据治理需要兼顾传统安全与非传统安全建设的核心要素,完善国防网络与数据安全的专项立法、构建政民预警交互意识和政企合作交互布局的“双重交互”体系,完善我国国防网络安全与数据治理格局。
水利工程施工安全隐患治理正向信息化与智能化转型,为了高效地从大量非结构化的施工安全隐患数据中挖掘出有价值的潜在信息,提出了基于深度学习的施工安全隐患整改智能推荐系统。该算法基于词频逆向文档频率算法,提取施工安全隐患的特征词,构建安全隐患关联桑基图,展示施工标段、隐患特征、隐患类型之间的信息流动特征;基于FP-Growth算法挖掘历史数据中的关联规则;结合序列相似度匹配(sequence similarity matching,SSM)算法和Doc2Vec模型,优化案例检索推荐的过程。该算法利用珠江三角洲水资源配置工程2019—2023年记录的80 953条施工安全隐患信息作为数据源。实例验证表明,该算法能够为当前的施工安全隐患匹配出较为准确的整改措施,可有效辅助施工安全管理者排查治理隐患问题。
现今医疗行业普遍存在医疗资源和教育资源不均衡、医疗体系智能化水平低、手术操作依赖个体经验等问题,拥有沉浸、互动特点的元宇宙为以上问题提供了解决方案。但现有的解决方案多基于虚拟现实或人工智能中的一种技术,针对特定的手术或疾病诊断问题进行探索,少有针对多功能、多场景应用的医疗元宇宙进行的系统研究。基于此,提出了元宇宙环境下的多场景智能医疗模型框架(MetaMed),从接入层、数据层、技术层、应用层自底向上阐述了模型的框架设计。该框架在智能手术、线上会诊、医疗培训、机器人手术和门诊挂号5种应用场景中给出了数学描述,并为未来医疗元宇宙的构建提供参考。