智能科学与技术学报

新闻动态

2020年第4期专刊：深度强化学习

深度强化学习方法对环境和策略有强大的特征表示能力，可以与环境进行交互，根据环境反馈在试错中不断学习。深度强化学习作为人工智能研究的重要分支，已经受到学术界和工业界的广泛关注。近年来，深度强化学习已经在游戏、围棋、多智能体系统以及控制等领域取得了重要的研究成果。对深度强化学习的深入研究有助于推动人工智能技术的发展及其在各个领域中的应用。

本刊于2020年7月15日举办了主题为“深度强化学习”的线上论坛，论坛聚焦深度强化学习技术及其应用，吸引了各高校师生、学会会员的积极参与。在此基础上，本刊发起了“深度强化学习”专刊征文，经同行评议录用10篇文章，内容涉及深度强化学习的若干算法和应用的研究进展、基于数据驱动的多智能体强化学习的研究，以及深度强化学习在数据中心、温度控制系统、水下航行器、机器人、轨道交通、图像识别、无线通信系统等方面的应用。

穆朝絮等人撰写的《深度强化学习算法与应用研究现状综述》概述了基于值函数和策略梯度的两类深度强化学习算法，详细阐述了深度Q网络、深度策略梯度及相关改进算法的原理，并对深度强化学习在视频游戏、导航、多智能体协作等领域的应用研究进行了介绍，展望了深度强化学习在算法和应用方面面临的挑战。

多智能体系统在工业、国防等领域具有广泛的应用前景，李金娜等人撰写的《基于强化学习的数据驱动多智能体系统最优一致性综述》详述了基于强化学习技术、采用数据驱动方式求解多智能体系统最优一致性控制问题的现有理论和方法。王占山等人撰写的《异构多智能体系统的输出同步：一个基于数据的强化学习方法》采用基于数据的强化学习方法，研究了异构多智能体系统的输出同步问题。

数据中心已经成为现代社会的基础设施之一，近年来其运行能耗迅猛增长。贾庆山等人撰写的《面向数据中心绿色可靠运行的强化学习方法》面向数据中心绿色可靠运行的优化与控制，提出了一种事件驱动的强化学习方法，提升了运行能效。

室内温度对人的工作效率有非常明显的影响，暖气设备是常见的室温调节装置。魏庆来等人撰写的《基于深度强化学习的智能暖气温度控制系统》使用双深度Q网络方法，根据人的表情信息控制暖气设备的阀门开度，实时调整室温。

在水下航行器控制方面，李慧平等人撰写的《基于深度强化学习算法的自主式水下航行器深度控制》探讨了如何基于AC结构的深度确定性策略梯度方法，进行自主式水下航行器深度控制，并在OpenAI Gym平台上仿真验证了算法的有效性。

在机器人运动规划方面，六足机器人拥有多个冗余自由度，适用于复杂的非结构环境。陈春林等人撰写的《基于深度强化学习的六足机器人运动规划》以平面随机梅花桩为例，设定随机起始点与目标区域，利用深度强化学习算法训练得到六足机器人在平面梅花桩环境中的运动策略。为了加快训练进程，采用具有优先经验重放机制的深度确定性策略梯度算法，并在真实环境中进行了验证。

在轨道交通方面，魏庆来等人撰写的《基于DQN的列车节能驾驶控制方法》针对列车的驾驶策略优化问题，提出了一种基于深度Q网络的节能驾驶策略控制方法。通过优化列车的驾驶策略降低运营能耗，对于轨道交通系统的节能减排具有重大意义。

在图像识别方面，崔文成等人撰写的《基于深度可分离卷积网络的皮肤镜图像病灶分割方法》通过对经过降噪处理的图像进行形变、旋转的方式扩充数据集，提出了一种基于深度可分离卷积神经网络的图像病灶分割方法。

在无线通信系统中，信号传输模型被用于预测信号接收端的平均功率，对无线网络的高效部署起决定性作用。赵亮等人撰写的《无线网络信号传输建模：一种区间二型模糊集成深度学习方法》基于深度学习方法提出了一种适用于多场景的数据驱动无线信号传输模型，并采用5G网络信号传输实测数据进行了实验验证。

本专刊的顺利完成，离不开作者、审稿专家和编辑部的大力支持与协助。在此，我们表示诚挚的感谢，并希望本专刊能给该领域的研究人员提供参考，对深度强化学习领域的研究起到积极的促进作用。

孙长银（1975-），男，博士，东南大学自动化学院教授，中国自动化学会会士，中国自动化学会人工智能与机器人教育专业委员会主任。主要研究方向为智能控制与优化、强化学习、神经网络、数据驱动控制。担任IEEE Transactions on Neural Networks and Learning Systems、IEEE/CAA Journal of Automatica Sinica、《自动化学报》《控制理论与应用》《智能科学与技术学报》等高质量学术期刊编委。2011年获得国家杰出青年科学基金。“智能机器人感知与控制”江苏高等学校优秀科技创新团队带头人，2016年全国优秀科技工作者，第三批国家“万人计划”科技创新领军人才，中国科学技术协会第九次全国代表大会代表，“自主无人系统协同控制理论及应用”国家自然科学基金委员会创新研究群体学术带头人，科学技术部科技创新2030—“新一代人工智能”重大项目“人在回路的混合增强智能”首席科学家，江苏省前沿引领技术基础研究专项领衔科学家。

宋士吉（1965-），男，博士，清华大学自动化系教授，博士生导师。在中国海洋大学、东南大学完成两次博士后工作。主要研究方向为复杂生产线智能优化与调度方法、鲁棒随机分层优化建模与分析求解方法、机器学习理论方法及其应用、水下机器人关键技术等。担任IEEE Transactions on Systems, Man, and Cybernetics: Systems、The Scientific World Journal编委；曾任《中国科学：信息科学》与《自动化学报》等期刊编委。在国内外重要学术期刊、会议发表论文240余篇，其中SCI检索论文120余篇，高被引论文5篇。近五年，主持国家自然科学基金重大科研仪器研制项目、科学技术部科技创新2030—“新一代人工智能”重大项目、国家自然科学基金重点项目、中国大洋矿产资源研究开发协会海底资源调查重点项目20余项。曾获得2018年吴文俊人工智能科学技术奖自然科学奖一等奖、2017年中国自动化学会教学成果一等奖、2006年江苏省自然科学奖一等奖等省部级奖励多项。

发布日期： 2021-10-08 浏览： 650