大数据

专题：数据流通与隐私计算

杜跃进, 罗圣美

2022, 8(5): 1-2. doi:10.11959/j.issn.2096-0271.2022071-1

摘要 ( 569 )

在线阅读 ( 268 )

PDF下载 (741KB) ( 480 )

可视化

参考文献 | 相关文章

数据租赁——数据流通的新方式

阮雯强, 徐铭辛, 涂新宇, 宋鲁杉, 韩伟力

2022, 8(5): 3-11. doi:10.11959/j.issn.2096-0271.2022071

摘要 ( 534 )

在线阅读 ( 140 )

PDF下载 (1582KB) ( 499 )

可视化

数据和表 | 参考文献 | 相关文章

数据正成为推动社会发展的新生产要素。以合规的、可审计的方式使数据在多方之间流通对于数据价值的形成至关重要。从隐私保护以及数据利用的角度，提出了一种新的数据流通方式——数据租赁。首先介绍了提出数据租赁的动机，然后明确了数据租赁应当满足的5项需求，最后提出了一种基于秘密共享的数据租赁技术。

联邦学习攻击与防御综述

吴建汉, 司世景, 王健宗, 肖京

2022, 8(5): 12-32. doi:10.11959/j.issn.2096-0271.2022038

摘要 ( 1758 )

在线阅读 ( 256 )

PDF下载 (2537KB) ( 1944 )

可视化

数据和表 | 参考文献 | 相关文章

随着机器学习技术的广泛应用，数据安全问题时有发生，人们对数据隐私保护的需求日渐显现，这无疑降低了不同实体间共享数据的可能性，导致数据难以共享，形成“数据孤岛”。联邦学习可以有效解决“数据孤岛”问题。联邦学习本质上是一种分布式的机器学习，其最大的特点是将用户数据保存在用户本地，模型联合训练过程中不会泄露各参与方的原始数据。尽管如此，联邦学习在实际应用中仍然存在许多安全隐患，需要深入研究。对联邦学习可能受到的攻击及相应的防御措施进行系统性的梳理。首先根据联邦学习的训练环节对其可能受到的攻击和威胁进行分类，列举各个类别的攻击方法，并介绍相应攻击的攻击原理；然后针对这些攻击和威胁总结具体的防御措施，并进行原理分析，以期为初次接触这一领域的研究人员提供详实的参考；最后对该研究领域的未来工作进行展望，指出几个需要重点关注的方向，帮助提高联邦学习的安全性。

基于区块链与函数加密的隐私数据安全共享模型研究

李懿, 王劲松, 张洪玮

2022, 8(5): 33-44. doi:10.11959/j.issn.2096-0271.2022072

摘要 ( 471 )

在线阅读 ( 107 )

PDF下载 (1752KB) ( 474 )

可视化

数据和表 | 参考文献 | 相关文章

区块链技术给数据共享中的数据确权、数据溯源、数据可信、数据可用等方面提供了新思路，但数据共享中的隐私数据安全仍面临许多挑战。首先回顾当前基于区块链的数据共享研究现状；然后提出一种隐私数据安全共享模型，通过函数加密技术对隐私数据进行加密，结合零知识证明技术生成相关计算的可信证明，实现“数据可用不可见”的安全可靠的数据共享。实验结果显示，该模型的共享时延及经济开销均在可接受范围内，证明了该模型的安全性和可行性。

纵向联邦线性模型在线推理过程中成员推断攻击的隐私保护研究

尹虹舒, 周旭华, 周文君

2022, 8(5): 45-54. doi:10.11959/j.issn.2096-0271.2022056

摘要 ( 341 )

在线阅读 ( 49 )

PDF下载 (2195KB) ( 243 )

可视化

数据和表 | 参考文献 | 相关文章

随着大数据的发展以及数据安全相关法规的出台，人们的隐私保护意识逐渐加强，“数据孤岛”现象愈发严重。联邦学习技术作为解决该问题的有效方法之一，已成为当下备受关注的热点。在纵向联邦学习在线推理过程中，当前的主流方法并未考虑对数据标识的保护。针对此问题，提出一种适用于纵向联邦线性模型在线推理过程中的成员推断攻击的隐私保护方法，通过构造具有假阳率的过滤器来避免对数据标识的精确定位，从而保证数据的安全性；使用同态加密实现在线推理过程的全密态，保护中间计算结果；根据同态加密的密文倍乘性质，使用随机数乘法盲化操作，保证最终推理结果的安全性。该方案进一步提高了纵向联邦学习在线推理过程中用户隐私的安全性，且具有更低的计算开销和通信开销。

隐私计算场景下数据质量治理探索与实践

张燕, 杨一帆, 伊人, 罗圣美, 唐剑飞, 夏正勋

2022, 8(5): 55-73. doi:10.11959/j.issn.2096-0271.2022073

摘要 ( 509 )

在线阅读 ( 128 )

PDF下载 (2649KB) ( 376 )

可视化

数据和表 | 参考文献 | 相关文章

隐私计算是一种新型数据处理技术，可以在保护数据隐私及安全的前提下，实现数据价值转化和流通。然而隐私计算场景中“数据可用不可见”的特性给传统的数据质量治理工作带来了很大的挑战，业界尚缺乏完善的解决方案。针对上述问题，提出一种适用于隐私计算场景的数据质量治理方法与流程，构建了本地与多方两个层级的数据质量评估体系，能够兼顾本地域及联邦域的数据质量治理工作，同时提出了一种数据贡献度衡量方法，对隐私计算的长效激励机制进行探索，从而提升隐私计算的数据质量，并提高计算结果的精度。

隐私计算在车路协同场景应用的探索与实践

李明, 吕阿斌

2022, 8(5): 74-87. doi:10.11959/j.issn.2096-0271.2022069

摘要 ( 447 )

在线阅读 ( 74 )

PDF下载 (2493KB) ( 666 )

可视化

数据和表 | 参考文献 | 相关文章

基于车路协同的发展现状，总结车路协同场景中隐私计算、人工智能等技术的研究进展。设计并实现YITATFL平台，为数据管理、模型训练、模型管理及协同推理提供完备的隐私保护方案，为人工智能结合隐私计算在交通行业的应用提供参考。

知识增强策略引导的交互式强化推荐系统

张宇奇, 黄晓雯, 桑基韬

2022, 8(5): 88-105. doi:10.11959/j.issn.2096-0271.2022033

摘要 ( 374 )

在线阅读 ( 35 )

PDF下载 (3638KB) ( 428 )

可视化

数据和表 | 参考文献 | 相关文章

推荐系统是解决社会媒体信息过载问题的重要手段。为了解决传统推荐系统无法优化用户长期体验的问题，研究人员提出了交互式推荐系统，并尝试使用深度强化学习优化推荐策略。但是，强化推荐算法面临反馈稀疏、从零学习影响用户体验、物品空间大等问题。为了解决上述问题，提出一种改进的知识增强策略引导的交互式强化推荐模型KGP-DQN。该模型构建行为知识图谱表示模块，将用户历史行为和知识图谱结合，解决反馈稀疏问题；构建策略初始化模块，根据用户历史行为为强化推荐系统提供初始化策略，解决从零学习影响用户体验的问题；构建候选集筛选模块，根据行为知识图谱上的物品表示进行动态聚类，从而减少物品空间，解决动作空间大的问题。在3个真实数据集上进行了实验，实验结果表明，KGP-DQN可以快速有效地对强化推荐系统进行训练，其在3个数据集上的推荐准确率均超过80%。

税收优惠政策关键要素抽取与可视化分析

关海山, 郑玉龙, 魏笔凡, 张泽民, 岳浩, 师斌, 董博

2022, 8(5): 106-123. doi:10.11959/j.issn.2096-0271.2022035

摘要 ( 365 )

在线阅读 ( 42 )

PDF下载 (3860KB) ( 406 )

可视化

数据和表 | 参考文献 | 相关文章

随着税收优惠政策数量的迅速增加，纳税人面对海量的税收优惠政策难以快速定位与自身相关的优惠内容，导致许多纳税人没有享受到应该享受的优惠政策。基于预训练语言模型BERT与规则处理相结合的方法实现了对税收优惠政策法规的表示、关键要素抽取和税收优惠的可视化查询，使纳税人可以快速准确地定位与自身相关的税收优惠信息，并对结果进行可视化展示。实验结果表明，关键要素抽取性能优越，税收优惠政策查询快速直观，可有效缓解海量税收优惠信息过载。

基于时间编码LSTM的高校舆情热点趋势预测研究

易杰, 曹腾飞, 黄明峰, 黄肖翰, 张子震

2022, 8(5): 124-138. doi:10.11959/j.issn.2096-0271.2022034

摘要 ( 311 )

在线阅读 ( 52 )

PDF下载 (3525KB) ( 615 )

可视化

数据和表 | 参考文献 | 相关文章

随着互联网技术的发展，网络舆情热点信息能在短时间内迅速传播。预测舆情热点的发展趋势，有助于高校对学生思想健康状况进行分析管理，也是当下网络舆情信息研究领域的重要课题。针对微博中的舆情信息文本，构建基于时间编码长短期记忆网络（LSTM）的高校舆情热点趋势预测模型，并与支持向量机、循环神经网络两种模型的预测效果进行对比，验证了基于时间编码的LSTM算法在舆情趋势预测上的准确率。最后，利用微博中的高校实时舆情事件对构建的模型预测效果进行评估，并动态调整评估参数，实现了对评估性能的优化，预测效果得到了显著提升。

基于PSOFS和TSK模糊系统的不平衡心电数据分类算法

李鑫辉, 申情, 张雄涛

2022, 8(5): 139-152. doi:10.11959/j.issn.2096-0271.2022039

摘要 ( 218 )

在线阅读 ( 22 )

PDF下载 (2124KB) ( 191 )

可视化

数据和表 | 参考文献 | 相关文章

提出基于粒子群优化特征选择（PSOFS）算法和TSK（Takagi-Sugeno-Kang）模糊系统的心电信号分类模型，即基于PSOFS和TSK的并行集成模糊神经网络（PE-PT-FN），用于心电图预测。首先对训练集中的各类样本进行随机放回抽样，然后将抽样得到的样本合并在一起，再独立且并行地通过PSOFS算法进行特征选择。PSOFS算法中不同的位置表示不同的特征子集，初始位置随机的粒子经过多次迭代收敛至最佳位置。每个子集得到一个特征子集用于并行训练多组独立的小型TSK模糊神经网络（TSK-FNN）。模糊系统的可解释性和PSOFS算法挑选出来的特征子集能有效地帮助医学研究者找出心电信号数据与不同类型病例之间的关联。实验证明，PE-PT-FN在保留可解释性的前提下，能将预测结果的宏召回率提升至92.35%。

信息-数据二维视角下的数据权属体系构建

顾勤, 周涛, 钟书丽, 秦之湄, 张瑶瑶, 陈祎

2022, 8(5): 153-169. doi:10.11959/j.issn.2096-0271.2022074

摘要 ( 322 )

在线阅读 ( 59 )

PDF下载 (1831KB) ( 504 )

可视化

数据和表 | 参考文献 | 相关文章

数据确权是数据要素市场化体系建设中亟待解决的基础性问题。从信息与数据二维视角出发，对信息与数据的概念和特点进行剖析和甄别，并在此基础上提出通过信息主体与数据管理主体分类来构建数据权属体系的方法。所提方法设想如下：①信息是实质内容，数据是信息的载体，个人、组织与其他物质都是信息内容产生的主体，个人和组织是信息的所有者；②个人或组织对其以某种形式记录信息形成的数据，拥有数据管理的权利与义务；③在现行法律框架与客观实践下，数据所有权应归国家所有，数据管理主体拥有数据有限的占有、使用、收益和处分的权利，同时需履行相应义务保障信息主体权益。

威海市一体化疫情防控系统设计

赵东旭, 赵健雅

2022, 8(5): 170-176. doi:10.11959/j.issn.2096-0271.2022053

摘要 ( 308 )

在线阅读 ( 99 )

PDF下载 (1287KB) ( 507 )

可视化

数据和表 | 参考文献 | 相关文章

漫威电影中的信息检索

王元卓, 沈英汉, 陆源

2022, 8(5): 177-179. doi:10.11959/j.issn.2096-0271.2022079

摘要 ( 155 )

在线阅读 ( 63 )

PDF下载 (2031KB) ( 333 )

可视化

数据和表 | 参考文献 | 相关文章

当期目录