智能科学与技术学报

联邦生态：从联邦数据到联邦智能

王飞跃, 王艳芬, 陈薏竹, 田永林, 齐红威, 王晓, 张卫山, 张俊, 袁勇

2020, 2(4): 305-313. doi:10.11959/j.issn.2096-6652.202033

摘要 ( 511 )

在线阅读 ( 54 )

PDF下载 (1561KB) ( 783 )

可视化

数据和表 | 参考文献 | 相关文章

针对大数据时代广泛存在的数据孤岛问题，从整体入手，提出了联邦生态的基本框架，并探讨了其结构和运行机制。联邦生态以数据隐私可控为前提，以区块链技术为支撑，以联邦智能为驱动，借助联邦控制实现数据联邦化，通过联邦管理实现服务联邦化。为打破数据孤岛问题，联邦生态充分发挥了大数据和人工智能的潜力，进而为实现联邦智能提供了一种新的思路。

深度强化学习算法与应用研究现状综述

刘朝阳, 穆朝絮, 孙长银

2020, 2(4): 314-326. doi:10.11959/j.issn.2096-6652.202034

摘要 ( 3625 )

在线阅读 ( 1784 )

PDF下载 (2994KB) ( 5283 )

可视化

数据和表 | 参考文献 | 相关文章

深度强化学习主要被用来处理感知-决策问题，已经成为人工智能领域重要的研究分支。概述了基于值函数和策略梯度的两类深度强化学习算法，详细阐述了深度Q网络、深度策略梯度及相关改进算法的原理，并综述了深度强化学习在视频游戏、导航、多智能体协作以及推荐系统等领域的应用研究进展。最后，对深度强化学习的算法和应用进行展望，针对一些未来的研究方向和研究热点给出了建议。

基于强化学习的数据驱动多智能体系统最优一致性综述

李金娜, 程薇燃

2020, 2(4): 327-340. doi:10.11959/j.issn.2096-6652.202035

摘要 ( 894 )

在线阅读 ( 89 )

PDF下载 (815KB) ( 1670 )

可视化

参考文献 | 相关文章

多智能体系统因其在工程、社会科学和自然科学等多学科领域具有潜在、广泛的应用性，在过去的 20 年里引起了研究者的广泛关注。实现多智能体系统的一致性通常需要求解相关矩阵方程离线设计控制协议，这要求系统模型精确已知。然而，实际上多智能体系统具有大规模尺度、非线性耦合性特征，并且环境动态变化，使得系统精确建模非常困难，这给模型依赖的多智能体一致性控制协议设计带来了挑战。强化学习技术因其可以利用沿系统轨迹的测量数据实时学习控制问题的最优解，被广泛用于解决复杂系统最优控制和决策问题。综述了利用强化学习技术，采用数据驱动方式实时在线求解多智能体系统最优一致性控制问题的现有理论和方法，分别从连续和离散、同构和异构、抗干扰的鲁棒性等多个方面介绍了数据驱动的强化学习技术在多智能体系统最优一致性控制问题中的应用。最后讨论了基于数据驱动的多智能体系统最优一致性问题的未来研究方向。

面向数据中心绿色可靠运行的强化学习方法

贾庆山, 唐静娴, 吴俊杰, 胡潇, 林依挺, 夏恒

2020, 2(4): 341-347. doi:10.11959/j.issn.2096-6652.202036

摘要 ( 411 )

在线阅读 ( 53 )

PDF下载 (5516KB) ( 479 )

可视化

数据和表 | 参考文献 | 相关文章

数据中心的绿色可靠运行具有重大的社会经济价值。综述了面向数据中心绿色可靠运行的优化与控制方法，提出一种事件驱动的强化学习方法，用于提升运行能效；提出一种电池寿命预测方法，提升了预测精度。

基于深度强化学习的智能暖气温度控制系统

李涛, 魏庆来

2020, 2(4): 348-353. doi:10.11959/j.issn.2096-6652.202037

摘要 ( 521 )

在线阅读 ( 60 )

PDF下载 (3700KB) ( 641 )

可视化

数据和表 | 参考文献 | 相关文章

研究如何通过暖气设备自适应地调节室温，提升室内环境的舒适度，具有非常重要的意义。因此，提出了基于双深度Q网络方法的智能暖气温度控制系统，根据人的表情信息控制暖气设备的阀门开度，实时调整室温。首先，介绍针对原始输入状态的预处理算法。然后，设计通过双深度Q网络方法学习控制暖气设备阀门开度的最佳策略。最后，通过仿真结果验证提出的方法的有效性。

基于深度强化学习算法的自主式水下航行器深度控制

王日中, 李慧平, 崔迪, 徐德民

2020, 2(4): 354-360. doi:10.11959/j.issn.2096-6652.202038

摘要 ( 410 )

在线阅读 ( 32 )

PDF下载 (1662KB) ( 660 )

可视化

数据和表 | 参考文献 | 相关文章

研究了基于深度强化学习算法的自主式水下航行器（AUV）深度控制问题。区别于传统的控制算法，深度强化学习方法让航行器自主学习控制律，避免人工建立精确模型和设计控制律。采用深度确定性策略梯度方法设计了actor与critic两种神经网络。actor神经网络给出控制策略，critic神经网络用于评估该策略，AUV的深度控制可以通过训练这两个神经网络实现。在OpenAI Gym平台上仿真验证了算法的有效性。

基于深度强化学习的六足机器人运动规划

傅汇乔, 唐开强, 邓归洲, 王鑫鹏, 陈春林

2020, 2(4): 361-371. doi:10.11959/j.issn.2096-6652.202039

摘要 ( 593 )

在线阅读 ( 49 )

PDF下载 (8346KB) ( 430 )

可视化

数据和表 | 参考文献 | 相关文章

六足机器人拥有多个冗余自由度，适用于复杂的非结构环境。离散环境作为非结构环境的一个苛刻特例，需要六足机器人具备更加高效可靠的运动策略。以平面随机梅花桩为例，设定随机起始点与目标区域，利用深度强化学习算法进行训练，并得到六足机器人在平面梅花桩环境中的运动策略。为了加快训练进程，采用具有优先经验重放机制的深度确定性策略梯度算法。最后在真实环境中进行验证，实验结果表明，所规划的运动策略能让六足机器人在平面梅花桩环境中高效平稳地从起始点运动到目标区域。为六足机器人在真实离散环境中的精确运动规划奠定了基础。

基于DQN的列车节能驾驶控制方法

宿帅, 朱擎阳, 魏庆来, 唐涛, 阴佳腾

2020, 2(4): 372-384. doi:10.11959/j.issn.2096-6652.202040

摘要 ( 248 )

在线阅读 ( 23 )

PDF下载 (2256KB) ( 435 )

可视化

数据和表 | 参考文献 | 相关文章

随着轨道交通网络规模的扩大和列车运营间隔的缩短，列车牵引能耗在快速增加。因此，通过优化列车的驾驶策略降低牵引能耗，对于轨道交通系统的节能减排具有重大意义。针对列车的驾驶策略优化问题，提出一种基于深度 Q 网络（DQN）的列车节能驾驶控制方法。首先介绍了传统的列车节能驾驶问题并构造其反问题，即通过分配最少的能耗达到规定运行时分。进一步将该问题转化为有限马尔可夫决策过程（MDP），通过设计状态动作值函数、定义动作策略选取方法等，构建基于 DQN 方法的列车节能驾驶控制方法。通过实际驾驶数据对DQN 进行训练，得到最优的状态动作值函数，并通过该值函数确定最优的能耗分配方案，从而得到最优驾驶策略。最后，以北京地铁亦庄线的实际运营数据设计了仿真算例，对方法的有效性进行验证，并对方法参数进行了敏感度分析。提出的方法可充分利用列车的驾驶数据提升驾驶策略，降低列车牵引能耗，对未来我国智慧城轨的发展具有一定的借鉴意义。

基于深度可分离卷积网络的皮肤镜图像病灶分割方法

崔文成, 张鹏霞, 邵虹

2020, 2(4): 385-393. doi:10.11959/j.issn.2096-6652.202041

摘要 ( 301 )

在线阅读 ( 22 )

PDF下载 (2690KB) ( 547 )

可视化

数据和表 | 参考文献 | 相关文章

针对皮肤镜图像病灶难定位、病灶精准分割难以实现的问题，提出一种基于深度可分离卷积网络的皮肤镜图像病灶分割方法。首先对皮肤镜图像进行黑框移除和毛发移除处理，将图像中有碍确定病灶位置的人工噪声、天然噪声移除；然后在降噪处理的基础上，对图像进行形变、旋转，以扩充数据集；最后构建基于深度可分离卷积、空洞卷积的编解码分割模型，编码部分对图像进行特征提取，解码部分融合特征图，并对图像细节特征进行恢复。实验结果表明，该方法针对皮肤镜图像病灶分割问题可取得较好的分割效果，分割病灶的准确率达到95.24%，与分割模型U-Net相比，准确度提高了6.17%。

异构多智能体系统的输出同步：一个基于数据的强化学习方法

刘莹莹, 王占山

2020, 2(4): 394-400. doi:10.11959/j.issn.2096-6652.202042

摘要 ( 382 )

在线阅读 ( 29 )

PDF下载 (1066KB) ( 624 )

可视化

数据和表 | 参考文献 | 相关文章

通过强化学习研究了异构多智能体系统的输出同步问题。根据多智能体系统的拓扑结构，定义一个具有邻居控制输入的性能指标和价值函数。为克服已有控制方法需要系统模型的弊端，提出一个基于系统数据的强化学习算法，使输出同步控制器也可以被应用于模型未知的情况。此外，通过调节价值函数中的权重矩阵，可以减少每个智能体的控制成本。最后，通过一个仿真示例验证了该方法的有效性和定义的价值函数的优越性。

无线网络信号传输建模：一种区间二型模糊集成深度学习方法

赵亮, 谢志峰, 张坤鹏, 郑玉卿, 付园坤

2020, 2(4): 401-411. doi:10.11959/j.issn.2096-6652.202043

摘要 ( 291 )

在线阅读 ( 16 )

PDF下载 (5450KB) ( 355 )

可视化

数据和表 | 参考文献 | 相关文章

针对常用的信号传输模型存在使用场景单一、预测精度不佳的问题，提出一种适用于多场景的数据驱动无线信号传输模型。首先根据先验知识从预处理后的数据构造初始特征，接着进行特征选择，以得到输入特征集合。然后分析建模需求，选择深度置信网络（DBN）、残差网络（ResNet）和堆叠自编码器（SAE）作为区间二型模糊规则的后件（个体深度学习器），经过区间二型模糊推理进行集成。最后采用5G网络信号传输实测数据，并进行实验验证。结果表明，3种个体深度学习器在测试集上的表现均优于Cost231-Hata模型和反向传播神经网络（BPNN）模型，其中ResNet的准确度高于DBN和SAE模型。区间二型模糊集成深度学习模型的性能与其个体深度学习器的性能以及模糊规则数目呈正相关，同时异质集成在测试集上的表现优于同质集成。

当期目录