工业数字化是我国工业产业转型升级的重要手段,数字化转型成为我国工业发展的重要趋势。工业系统的可靠性和稳定性对于工业生产的高质量和可持续发展具有重要作用。故障会影响工业系统的运行,甚至造成重大的安全事故和经济损失。为应对这一问题,故障诊断技术应运而生并逐步发展。高效、高质的故障诊断数字化技术已经成为工业数字化转型的关键技术。分析了工业领域故障诊断数字化方法的研究进展,按照其发展特点划分为领域经验主导的建模方法、数据驱动与领域经验结合的数字化方法、数据驱动主导与可解释性结合的数字化方法3个阶段,重点探究每个阶段方法的基本思想及其特点等,并探讨未来的研究方向,为推动工业数字化转型提供参考。
当前,人工智能持续升温,大语言模型吸引了众多人士的关注,并在全球范围内掀起了一股热潮。人工智能的成功本质上不是大算力“出奇迹”,而是改变了计算模型。首先,肯定了数据对于人工智能的基础性作用,指出合成数据将是未来数据的主要来源。然后,回顾了计算模型的发展历程,重点介绍了神经网络模型与图灵模型的历史性竞争;指出了大模型的重要标志是机器涌现智能,强调大模型的本质是“压缩”;分析了大模型产生“幻觉”的原因。最后,呼吁科技界在智能化科研中要重视大科学模型。
数据资产化和数据要素优质供给,对赋能实体经济有放大、叠加和倍增效应。当前研究专注于对数据资产的理论框架和核心环节的深入研究,在实践应用方面缺乏系统性思维和体系化指导。提出了面向企业经营性数据资产的实践探索框架,即“五段六维”数据资产化过程模型,旨在探究“企业如何有效配置和优化不同维度的使能因素,以有序推进数据资产化过程”这一科学问题。通过调研上海市典型行业内企业的数据产品,凝练了企业数据要素的优质供给策略,并在实践中探索并验证该模型在企业数据资产化进程的适用性,为企业数据资产化提供了实践依据。模型的提出与实例化为促进数据要素优质供给提供了参考。
支持大模型训练的计算机系统有3种类型,其中基于国产AI芯片系统的生态系统不是很好,要想改变这个局面,需要做好AI编译器、并行加速等10个关键软件;基于超级计算机的系统需要做好软硬件协同设计,从而更好地服务于大模型训练。针对如何搭建大模型的基础设施,提出4点平衡设计,以确保系统的性能、可靠性和可扩展性。
联邦学习使用来自多个参与者提供的数据协同训练全局模型,近年来在促进企业间数据合作方面发挥着越来越重要的作用。另外,联邦学习训练范式常常面临数据不足的困境,因此为联邦学习参与者提供公平性保证以激励更多参与者贡献他们宝贵的资源是非常重要的。针对联邦学习的公平性问题,首先依据公平目标不同,从模型表现均衡、贡献评估公平、消除群体歧视出发进行了联邦学习公平性的3种分类;然后对现有的公平性促进方法进行了深入介绍与比较,旨在帮助研究者开发新的公平性促进方法;最后通过对联邦学习落地过程中的需求进行剖析,提出了未来联邦学习公平性研究的5个方向。
随着旅行方式的不断演变,传统旅游管理服务模式的滞后已不再满足现代游客对个性化、品质化出行的需求。为解决该问题,搭建了甘肃省智慧旅游系统。首先对相关研究进行综述,然后详细描述了系统的构成和实现过程,包括甘肃智慧旅游大数据中心的构建和“一部手机游甘肃”综合服务平台的设计。系统通过分层架构和逻辑框架,实现了旅游数据与游客行为的关联映射,并对多元数据进行融合计算。最后,以高速公路自驾车流量预测模型、旅游目的地形象代表的图片选择模型和旅游评论情感影响因素分析模型为例,阐述了综合服务平台面向政府、业态、游客提供的智能化服务。应用成效表明,该系统的实施有效地提高了甘肃地区旅游服务的质量和游客满意度,进一步推动了甘肃智慧旅游的快速发展。
在中国数字经济发展过程中,相关部门充分发挥法治的保障作用,积极推进数据领域法律法规制定工作,初步构建形成了纵横结合的数据法律制度体系。首先,介绍了中国数据法律制度体系的基本概况,包含横向体系和纵向体系两个维度。其次,分析了中国数据法律制度的纵向体系,包括中央立法和地方立法两个层面,涵盖法律、行政法规、部门规章以及地方性法规和地方规章多个层级。再次,分析了中国数据法律制度体系的横向体系,主要包括数据安全与发展制度、个人信息保护制度、商业数据流通制度和政务数据管理制度四大制度板块。最后,总结了中国数据立法的成效与体系的不足,并提出了完善建议。
当前数字政府建设已进入深水区,政务大数据平台作为数据底座支撑各类政务信息化应用,其隐私数据的安全性和合规性一直被业界广泛关注。联邦学习是一类解决数据孤岛的重要方法,基于联邦学习的政务一体化大数据平台应用具有较高的研究价值。首先,介绍政务大数据平台及联邦学习应用现状;然后,分析政务大数据平台面临的隐私数据的采集、分类分级、共享三大管理挑战;接着,阐述基于联邦学习的推荐算法和隐私集合求交技术的解决方法;最后,对政务大数据平台隐私数据的未来应用进行了总结和展望。
数据分类分级是保障数据安全流通、推动数据价值释放的基础前提。聚焦政务数据分类分级这一政府数字化改革中的关键任务,采用基于理论的案例研究方法,基于各省级地方及部委公开发布的方案,对我国政务数据分类分级实施情况进行系统梳理与量化分析。总结了我国政务数据分类分级实施的四大关键过程与五大特点;从政务数据分类分级的特殊复杂性出发,提出我国政务数据分类分级实施存在整体目标定位不清、分类分级对象各异、分类分级关系割裂、安全分级标准不一4个问题,并提供应对方案;基于国家某部委政务数据分类分级实践,验证应对方案的科学性、有效性,为构建全国统一的政务数据分类分级体系提供参考。
建设高质量政务大数据资源平台是实现跨部门、跨区域、跨层级政务信息集成融合,加快建设数字政府、提升公共服务和社会治理等数字智能化水平的重要基础工程。首先,回顾我国电子政务发展历程,并总结出传统省级政务大数据平台的3种建设模式以及存在的问题,即数据鲜活性低、数据一致性差、业务协同管理难、基础支撑力弱和总体投入高。其次,对江苏信用一体化信息资源管控平台进行案例分析,阐述以江苏案例为例的原因,针对传统建设模式存在的问题,提出对应的解决思路和总体架构设计,并梳理出江苏案例的4个借鉴价值。最后,在总结江苏研究和实践经验的基础上,归纳出5点建议,为各省研究、制定省级政务大数据平台的建设指南等政策性文件提供参考。
健全和完善我国国防网络安全和数据治理架构,既是国家网络安全与数据治理的重要一环,也是在《数据安全法》框架下细分领域内的重要实践。运用比较分析和文献分析法,提炼美国2013—2022年《国防授权法》中国防网络安全与数据治理的逻辑特征,吸收美国国防网络安全与数据治理的成功经验,完善我国国防网络安全与数据治理的总体架构。总体国家安全观下的国防网络安全与数据治理需要兼顾传统安全与非传统安全建设的核心要素,完善国防网络与数据安全的专项立法、构建政民预警交互意识和政企合作交互布局的“双重交互”体系,完善我国国防网络安全与数据治理格局。
政务数据标识是建设全国一体化政务大数据体系的一项基础性工作。对数据标识技术的研究进展进行了总结,比较了不同数据标识技术编码规则的异同,并进一步总结了政务数据标识及应用进展。结合政务数据所具有的权责明确、安全性要求高、兼容性需求强等特点,提出了下一代政务数据标识体系Gcode。Gcode由外部码、内部码和安全码3个部分组成。其中,外部码兼容了统一社会信息用代码,内部码建立了“机构部门-系统-数据”的关联关系,安全码通过引入区块链技术实现防伪验真。Gcode具有权责明确、兼容性强、安全性高等特点,能够支持政务数据跨层级、跨地域、跨系统、跨部门、跨业务共享,可有力推动实现政务数据“一数一源”。
数据是企业的核心战略资产,这已然成为社会共识。在数字化转型浪潮下,各企业通过数据资源化推动业务数据化,以数据资产化推动数据业务化,最终充分释放数据资产价值。研究了从数据的业务供给端出发,如何通过数据资产运营构建全面有效、切合实际的数据资产管理体系,从而提升数据质量,保障数据安全;从业务的数据需求端出发,如何通过数据资产运营拉通企业内部和外部数据,推动数据与业务深度融合,丰富数据资产应用场景。数据资产运营平台是数据资产运营体系的技术支撑,支持资产运营闭环流程的线上化、标准化及配置化,满足运营操作的自动化、智能化。
新闻推荐系统对新媒体新闻传播有着重要作用。提出了一种以深度强化学习为基础的推荐系统,旨在结合神经网络的表征能力和强化学习的策略选择能力来提升新闻推荐效果。使用动态动作掩码加强对用户短期兴趣的判断能力,使用优化缓存机制提升经验缓存的使用效率,通过区域遮蔽性质的奖励设计加快模型训练,从而提高推荐系统在新闻推荐领域的表现。实验表明,所提模型在新闻数据集上的推荐准确率与主流的神经网络推荐方法相当,且在排序性能上优于当前先进的推荐算法。
资产价值增减变动的判断评估是资产管理和会计的一项重要工作。在当下数据资产入表的进程中,数据资产价值增减变动的计算方法是必须解决的问题。数据资产不同于传统资产,其价值增减变动也会有所不同,为此首先要弄清楚有哪些因素造成了数据资产的增值或减值。从数据资产与传统资产的差异性入手,分析提出了数据资产减值的4个因素:时效性数据因素、时效性使用因素、管理成本因素、授权临期因素;分析提出了数据资产增值的3个因素——数据完整性提升因素、数据新用途发现因素、技术进步带来成本下降因素,为数据资产减值、增值的计算方法设计提供依据。
现今医疗行业普遍存在医疗资源和教育资源不均衡、医疗体系智能化水平低、手术操作依赖个体经验等问题,拥有沉浸、互动特点的元宇宙为以上问题提供了解决方案。但现有的解决方案多基于虚拟现实或人工智能中的一种技术,针对特定的手术或疾病诊断问题进行探索,少有针对多功能、多场景应用的医疗元宇宙进行的系统研究。基于此,提出了元宇宙环境下的多场景智能医疗模型框架(MetaMed),从接入层、数据层、技术层、应用层自底向上阐述了模型的框架设计。该框架在智能手术、线上会诊、医疗培训、机器人手术和门诊挂号5种应用场景中给出了数学描述,并为未来医疗元宇宙的构建提供参考。
跨域算力网络希望整合多个算力中心的计算和数据资源,但现有的方案对跨域文件和数据管理关注不够。提出了一种轻量级的跨域算力网络数据管理方案:通过文件系统协议转换,接入远程算力中心的并行文件系统存储资源;算力中心内部的存储资源作为一种补充,应对高IOPS应用;通过容器绑定技术,将远程存储挂载并绑定到指定目录。基于该方案的原型系统已经在高校校级计算平台部署运行。实测数据和用户体验显示,该方案能够满足常见高性能计算应用需求。
在信息时代和智慧旅游背景下,政府主动对外开放内部的旅游数据,有利于充分释放旅游数据资源的商业价值与社会价值。使用变异系数法与熵权法进行组合赋权,构建了政府旅游数据开放评价指标体系,计算21个省级行政区的具体得分,并采用模糊集定性比较方法进行高评价值与低评价值条件组态分析。结果表明:指标体系包含4项一级指标、17项二级指标与51项三级指标,可以对当前省级行政区的旅游数据开放绩效进行有效评价;利用层、数据层是权重较高的一级指标,法律政策效率与内容、平台关系等是权重较高的二级指标;高评价值组态为综合发展型、数据辅助应用型,低评价值组态为政策与利用短板型、平台与数据问题型。研究结果可以为旅游数据开放评价相关学术研究与管理实践提供参考。
尽管基于多模态的文本分类技术在应用到具体场景中具有潜力,但仍存在局限性。现有多模态融合模型要求输入数据模态对齐,因此大量不完整的多模态数据被直接浪费,从而限制了推理时可用数据的规模和灵活性。为了解决这个问题,提出了一种基于多模态融合提升的文本分类模型和不充分多模态资源训练方法。与传统方法相比,提出的模型在标准数据集上的性能平均提高了约4.25%。此外,在除文本输入模态外的其他模态缺失率为50%的情况下,不充分多模态资源训练方法的性能比传统多路由策略提高了约4%。这表明所提出的模型和训练方法具有明显的优势和有效性。
实体获取是信息抽取的核心任务。近年来,在大数据训练模型的趋势下,深度学习在实体获取任务上取得了成功。但在自然环境等领域中,地形、灾害等类型的实体样本或者标注样本很少,而且对无标签样本进行标注又耗时费力。因此,面向低资源场景的实体获取逐渐受到关注,该任务被称作低资源实体获取或小样本实体获取。系统地梳理了当前低资源实体获取的相关工作,具体来说介绍了基于元学习、基于多任务学习和基于提示学习这3类方法的研究现状;总结了目前常用的低资源实体获取数据集和代表性模型在这些数据集上的实验结果;对低资源实体获取的方法进行了总结与分析;总结了低资源实体获取的挑战,并展望了未来发展方向。
近年来,360度视频、增强现实、虚拟现实等应用蓬勃发展,并逐渐形成元宇宙沉浸式体验新模式。这些新服务和应用具有高保真、沉浸式交互等共同特征。而作为一种新兴架构范式,边缘计算有效支持了这些需求。阐述释放边缘计算潜力支持沉浸式元宇宙体验的关键,包括AI驱动的内容生成;提出一种精度与延迟感知的模型推理框架,实现自适应深度学习模型部署和数据流推理,支撑用户体验感知的元宇宙服务与应用。
随着数据的爆炸式增长,以数据为关键要素的数字经济进一步发展。在数据市场中,建立公平高效的定价交易系统变得尤为重要。针对数据市场的公平性,提出了基于数据质量的数据市场模型。首先,以用户的需求为目标,制定综合数据质量的定价策略。其次,为防止用户的恶意欺诈行为,设计了保障公平数据交易的市场机制。最后,在原始数据交易的基础上,讨论了与数据质量相关的数据清洗服务,通过游戏理论中的机制设计多用户清洗价值分配机制。通过实验证明了按照模型构建系统的效率和有效性,可以保证数据市场的公平性。
可解释AI(explainable AI,XAI)是可信AI技术的重要组成。当前,业界对XAI的技术点展开了深入的研究,但在工程化实施方面尚缺少系统性研究。提出了一种通用的XAI技术架构,从原子解释生成、核心能力增强、业务组件嵌入、可信解释应用4个方面入手,设计了XAI基础能力层、XAI核心能力层、XAI业务组件层、XAI应用层4个层级,通过各技术层之间的分工协作,XAI工程化的落地实施得到了全流程保障。基于该XAI架构,可以灵活地引入新的技术模块,支撑XAI的产业化应用,为XAI在行业中的推广提供了一定的参考。
近似最近邻搜索(ANNS)是计算机领域中一种重要的高效相似度搜索技术,可用于在大规模数据集中进行快速信息检索。随着人们对高精度信息检索的需求不断增长,同时使用结构化信息和非结构化信息进行混合查询的方式也得到了广泛应用。然而,基于近邻图的过滤贪心算法在混合查询时可能会因结构化约束条件的影响导致连通性降低,进而损害搜索精度。为此,提出了一种基于容忍因子的过滤贪心算法,通过容忍因子控制不满足结构化约束条件的顶点参与路由,在不改变索引结构的前提下维持原有近邻图的连通性,克服了结构化约束条件对检索精度的负面影响。实验结果证明,新算法可以在不同结构化约束强度下实现ANNS的高精度搜索,同时保持检索效率。该研究解决了基于近邻图的ANNS在混合查询场景中的问题,为大规模数据集的快速混合查询信息检索提供了一种有效的解决方案。
随着人工智能技术的发展和海量司法数据的公开,面向“智慧司法”服务的司法判决预测(legal judgment prediction,LJP)任务受到了学术界和工业界的广泛关注,该任务旨在根据有限的案件事实描述文本来预测案件的罪名、法条和刑期。然而,现有工作缺乏对易混淆司法案件的智能决策的研究,且相关模型通常缺乏可解释性,这会导致模型预测严重依赖领域专家,阻碍LJP在不同法律体系中的应用。为此,提出了一种基于因果图分析的司法判决预测(prediction of legal judgment based on causal graph analysis, CGLJ)方法,首先从非结构化的法律事实描述文本中挖掘要素之间的因果关系,然后采用易混淆罪名聚类的构图方法构建因果图,既考虑了相似事实描述之间的差异,又增强了事实描述和法律法规之间的相互作用,最后将构建好的因果图融入深度神经网络进行联合推理,得到判决预测结果。此外,还对模型预测过程中的因果图推理过程进行了可视化,为判决结果提供了更好的可解释性。在2018中国“法研杯”司法人工智能挑战赛(CAIL2018)司法判决预测数据集上的实验结果表明,该方法相比基线模型取得了更好的效果。
当前各地纷纷建设数据交易场所,挂牌数据产品屡创新高,但场内数据交易仍不够活跃。综合分析当前主要数据交易场所挂牌的数据产品,发现数据产品的资产性不足是导致当前“挂牌多、交易少”的主要原因。基于此,研究了数据产品资产性需具备的3个条件,提出数据产品资产化方法,包括价值实现路径、“资产才挂牌”的挂牌原则、“合规-权属清晰-预期有经济利益流入”的资产性核验框架、“开发-利用-流通-交易”的基础设施保障、“挂牌即资产”的运营交易逻辑以及常态化评价、审查和警示机制,为数据产品交易提供参考,为数据要素市场建设助力。
基层治理是国家治理体系的基石,对夯实国家安全和维护社会稳定有极其重大的意义。当前,基层治理也面临诸多挑战,尤其是居民与政府之间的信息互通问题,需要重点解决各部门多头采集、居民反复填报信息、基层治理工作庞杂多变、负担繁重等难题。针对这些挑战,以数据为中心,构建政民互通的信息通道,通过灵活配置、自由组合的方式来快速搭建各类基层治理应用,实现政府基层部门与居民之间的双向互联、通而不扰,基层治理工作精准高效开展,信息及时、多级共享,为基层工作者减负赋能,畅通和规范群众诉求表达、权益保障通道。同时,政民信息通道有助于形成数据资源体系,让数据和应用分离,为数据的要素化打下基础,支撑数字中国战略的落地。
在现有大规模分布式环境中,大数据应用的性能与计算效率仍有较大的提升空间。然而,在大规模环境中进行性能分析与优化需要大量领域专家。针对大数据应用中的性能优化问题,提出了一个通用的低效查询语句检测与优化流程,总结了4类显著影响大数据应用性能的低效行为,并针对每一类低效行为,提出了具体的优化策略。最后,通过实验评估验证了提出的优化方案在实际大规模集群中的有效性。