基于深度强化学习的智能暖气温度控制系统

doi:10.11959/j.issn.2096-6652.202037

基于深度强化学习的智能暖气温度控制系统

李涛¹^,², 魏庆来¹^,²

1 中国科学院自动化研究所复杂系统管理与控制国家重点实验室，北京 100190

2 中国科学院大学，北京 100049

Intelligent heating temperature control system based on deep reinforcement learning

LI Tao¹^,², WEI Qinglai¹^,²

1 The State Key Laboratory for Management and Control of Complex Systems, Institute of Automation, Chinese Academy of Science, Beijing 100190, China

2 University of Chinese Academy of Sciences, Beijing 100049, China

通讯作者: 李涛，litao2019@ia.ac.cn

修回日期: 2020-11-30 网络出版日期: 2020-12-15

基金资助:

国家自然科学基金资助项目. 61722312
国家自然科学基金资助项目. 62073321

Revised: 2020-11-30 Online: 2020-12-15

Fund supported:

The National Natural Science Foundation of China. 61722312
The National Natural Science Foundation of China. 62073321

作者简介 About authors

李涛（1996-），男，中国科学院自动化研究所复杂系统管理与控制国家重点实验室博士生，主要研究方向为深度强化学习、自适应动态规划、最优控制。。

魏庆来（1979-），男，博士，中国科学院自动化研究所研究员，复杂系统管理与控制国家重点实验室副主任，中国科学院大学岗位教授，青岛智能产业技术研究院智能技术创新中心主任，主要研究方向为自学习控制、平行控制、自适应动态规划、智能控制、最优控制及其工业应用。。

摘要

研究如何通过暖气设备自适应地调节室温，提升室内环境的舒适度，具有非常重要的意义。因此，提出了基于双深度Q网络方法的智能暖气温度控制系统，根据人的表情信息控制暖气设备的阀门开度，实时调整室温。首先，介绍针对原始输入状态的预处理算法。然后，设计通过双深度Q网络方法学习控制暖气设备阀门开度的最佳策略。最后，通过仿真结果验证提出的方法的有效性。

关键词： 深度强化学习 ; 暖气设备 ; 温度控制 ; 疲劳检测 ; 图像处理

Abstract

It is of great significance to study how to adjust the room temperature adaptively through heating equipment to improve the comfort of the indoor environment.Therefore, a double deep Q network method was developed to control the valve opening of heating equipment to adjust the indoor temperature in real time via human expressions.Firstly, the preprocessing algorithm for the original input state was introduced.Secondly, a double deep Q network method was designed to learn the optimal control policy of the valve opening of heating equipment.Finally, simulation results were given to illustrate the effectiveness of the method proposed.

Keywords： deep reinforcement learning ; heating equipment ; temperature control ; fatigue detection ; image processing

PDF (3700KB) 元数据多维度评价相关文章导出 EndNote| Ris| Bibtex 收藏本文

本文引用格式

李涛, 魏庆来. 基于深度强化学习的智能暖气温度控制系统. 智能科学与技术学报[J], 2020, 2(4): 348-353 doi:10.11959/j.issn.2096-6652.202037

LI Tao. Intelligent heating temperature control system based on deep reinforcement learning. Chinese Journal of Intelligent Science and Technology[J], 2020, 2(4): 348-353 doi:10.11959/j.issn.2096-6652.202037

1 引言

随着我国经济、科技水平的不断提高，越来越多的人开始追求更加舒适的居住、工作环境。在影响环境舒适度的众多因素中，温度是非常重要的因素之一。相关研究^[1]表明，过高或过低的温度都会使人感到不舒适，降低人的工作效率。暖气设备是常见的室温调节装置。研究如何根据室内人员的需求通过暖气设备自动地调节室温，对于提升室内环境的舒适度具有非常重要的意义。

传统的通过暖气设备控制室温的方法包括比例-积分-微分控制^[2]、动态矩阵预测控制^[3]以及模糊控制^[4]等。在传统的控制方法中，室温的设定值通常是预先设定的固定值，控制器需要调节暖气设备，使得室温尽可能稳定在设定值附近。然而，相关研究^[5]表明，稳定的室温无法有效提升人的工作效率，甚至会降低人的工作效率。因此，本文抛弃了常规的固定室温设定值的控制思路，直接以消除人的困倦为控制目标，根据人的状态实时调整室温。本文设计了一种将人的表情作为输入的自学习控制器。这种自学习控制器能够根据人的表情自主学习到合适的控制策略，通过调整暖气设备的阀门开度控制室温，从而尽可能地消除室内人员的疲劳，提升室内人员的工作效率。

户外天气情况的变化和室内人员的自由活动使得房屋的热模型具有很强的不确定性。这导致在实际应用时基于模型的控制方法往往无法取得良好的效果。因此，许多研究者使用无模型的学习算法，尤其是强化学习方法^[6]来研究室温控制问题。在参考文献[7]中，Barrett E使用贝叶斯学习方法预测室内人员的活动情况，使用Q学习方法学习控制策略。Barrett E使用Bang-Bang控制方法控制加热设备，控制器的输入状态包括室温、时间和天气等。显然，由于传统强化学习算法的限制，控制器的输入状态只能是人们已经提取好的环境信息，无法直接从高维信息中自动学习到控制需要的特征。

近年来，深度学习取得了巨大进展^[8]，深度强化学习也得到了越来越多的关注^[9]。在参考文献[10]中，Wei T S采用深度Q网络方法学习控制策略，控制器的输入状态包括时间、室温以及室外环境的干扰。尽管参考文献[10]使用了深度神经网络，但是仍然使用人们已经提取好的环境特征作为控制器的输入，没有发挥深度神经网络自动提取特征的能力。在参考文献[11]中，Wei Q L等人使用深度Q网络方法，将人的表情和空调温度设定值作为控制器输入，通过控制空调设备调节室温。然而，参考文献[11]中的空调设备并不同于本文所要研究的暖气设备。第一，空调制热会造成室内空气干燥，降低人的舒适度；而暖气设备由下向上加热室内空气，使热空气分布更均匀，人感觉较舒适，因此暖气设备比空调更有利于提升人的舒适度。第二，空调通常具有自动调温功能，只需给定温度设定值，空调即可自动地将房间温度调整到设定值附近，完成闭环控制；而大多暖气设备并不具有自动调温功能，只能通过控制暖气设备的阀门开度控制暖气设备向房间中输入的热量，间接调节室温，进行开环控制。基于这两方面的不同，有必要研究基于深度强化学习的智能暖气控制方案。

本文以消除人的疲劳、提升人的工作效率为直接目标，将人的表情作为控制器的输入状态，使用双深度Q网络方法，通过暖气设备控制室温。接下来，本文将依次介绍总体方案设计、仿真环境与实验结果。

2 总体方案设计

本节将系统阐述以人的表情为输入状态，通过暖气设备自适应调整室温的总体方案。

本文的控制目标是根据人的状态实时调整室温，因此本文采用能够直接反映人的困意的人脸表情图像作为控制器的输入状态 $x$ 。同时，将当前暖气设备的阀门的开度也作为输入状态的一部分。

控制器通过控制暖气设备的阀门开度调节室温。在本文中，设定暖气设备的阀门开度有9个档位，分别是全闭、1/8开度、1/4开度、3/8开度、半开、5/8开度、3/4开度、7/8开度和全开。控制器的可执行动作共有3种，分别是将阀门开大一个档位、将阀门关小一个档位和保持阀门开度不变。

为了减少控制器的计算负担，需要对控制器的输入状态 $x$ 进行预处理。状态预处理过程共分为两步：第一步是执行人脸检测步骤，从图像中获得人的表情；第二步是从人脸表情图像中截取人眼图像。暖气设备的阀门开度将直接作为深度神经网络最末层的一个输入特征，这一点将在叙述双深度Q网络算法的神经网络结构时进一步说明。

控制器的原始输入状态是一幅图像，它在计算机中的存储形式是Q×P×3维的矩阵，参数Q和P取决于图像的分辨率。在人脸检测步骤中，首先将Q×P×3 维的原始输入图像 $x$ 灰度化，得到 Q×P×1维的灰度图像 $x_{g}$ 。然后，使用参考文献[12]中的人脸检测器检测灰度图像 $x_{g}$ 中的人脸位置，得到人脸所在矩形区域的左上角坐标(x_l,y_l)和右下角坐标(x_r,y_r)。在截取人眼图像的步骤中，以人脸检测步骤中得到的(x_l,y_l)和(x_r,y_r)为参考文献[13]中的人脸关键点检测器的输入状态，从灰度图像 $x_{g}$ 中估计68个人脸关键点的坐标。在这68个人脸关键点坐标中，第37个坐标(x_re,y_re)和第46个坐标(x_le,y_le)分别代表右眼的最右端和左眼的最左端。在(x_re,y_re)上减去一个常数 M 得到 $({x^{'}}_{re}, {y^{'}}_{re})$ ，在(x_le,y_le)上加上一个常数M得到 $({x^{'}}_{le}, {y^{'}}_{le})$ 。 $({x^{'}}_{re}, {y^{'}}_{re})$ 和 $({x^{'}}_{le}, {y^{'}}_{le})$ 分别代表了眼部图像的左上角和右下角坐标。人眼周围坐标点的相对位置如图1所示。接下来，根据 $({x^{'}}_{re}, {y^{'}}_{re})$ 和 $({x^{'}}_{le}, {y^{'}}_{le})$ 从灰度图像 $x_{g}$ 中截取人眼灰度图像，并将其大小调整为q× p×1，q和p是预设的参数。人眼灰度图像就是预处理后的状态，设为 $\tilde{x}$ ，其维度为q× p×1。

图1

新窗口打开| 下载原图ZIP| 生成PPT

图1 人眼周围坐标点的相对位置

本文最主要的控制目的是消除人的困意，因此对于困意的检测是至关重要的。研究表明，人的困意与人眼的平稳张开程度有着密切的关系，因此本文使用非眨眼状态下的眼睛张开程度来衡量人的困意。困意检测分为两步：第一步是检测人是否处于眨眼状态，第二步是检测非眨眼状态下眼睛的张开程度。这两个步骤都需要实时检测眼睛的张开程度。

在状态预处理过程的截取人眼图像步骤中，已经检测出了人脸的68个关键点。在这68个关键点中，左右眼各占 6 个。参考文献[14]使用眼睛纵横比（eye aspect ratio，EAR）的平均值衡量人眼的张开程度。受参考文献[14]启发，本文也使用眼睛纵横比来衡量眼睛的张开程度。但是考虑到眨眼检测的实时性要求以及双眼动作的同步性，本文仅使用右眼的纵横比来衡量眼睛的张开程度。右眼纵横比EAR^r如式（1）所示：

{EAR}^{r} = \frac{‖ d_{2} - d_{6} ‖ + ‖ d_{3} - d_{5} ‖}{2 ‖ d_{1} - d_{4} ‖} (1)

其中，d₂、d₃、d₅、d₆是分布在右眼上下边缘的关键点坐标，d₁、d₄是分布在右眼左右边缘的点坐标。从式（1）可以看出，EAR^r等于右眼的纵向距离除以横向距离。当眼睛处于张开状态时，EAR^r基本保持不变；当眼睛闭合时，EAR^r接近0；当眨眼时， EAR^r迅速变化。因此，本文实时检测人眼的EAR^r值，通过判断EAR^r是否快速变化判断人是否处于眨眼状态，将EAR^r平稳时的值作为衡量人困意的依据。

奖励函数的作用是使控制器在与外部环境的交互中逐渐学习到正确的控制策略，告诉控制器哪些动作应当被鼓励。考虑到本文设计的控制器的主要目标是消除人的困意，设计奖励函数如式（2）所示：

r_{t} = {\begin{matrix} - 1, & {EAR}_{t}^{r} \leq {EAR}_{t - 1}^{r} \\ 10, & {EAR}_{t}^{r} = {EAR}_{\max}^{r} \\ 0, & 其 他 \end{matrix} (2)

其中， ${EAR}_{t}^{r}$ 和 ${EAR}_{t - 1}^{r}$ 分别表示状态 $x_{t}$ 和状态 $x_{t - 1}$ 的EAR^r值。在t-1时刻，控制器的输入状态为 $x_{t - 1}$ ，控制器执行动作u_t-1后，得到下一个时刻的状态 $x_{t}$ ，此时即可由 $x_{t}$ 和 $x_{t - 1}$ 计算奖励r_t。奖励函数表达了这样的理念：当控制器的动作使人困意增大时，即 ${EAR}_{t}^{r} \leq {EAR}_{t - 1}^{r}$ ，这个动作是不被鼓励的；当控制器的动作使人兴奋时，即 ${EAR}_{t}^{r} = {EAR}_{\max}^{r}$ ，这个动作是被极度鼓励的。

前文主要介绍了状态预处理算法和奖励函数的设计。有了上面的铺垫后，接下来介绍用于控制暖气设备阀门开度的双深度Q网络算法。

首先，介绍使用近似 Q 函数的深度 Q 网络。为了衡量在状态 $x$ 下执行控制动作u所能获得的平均报酬，引入动作值函数，也称Q函数。由于本文的状态是图像，因此使用深度神经网络参数化动作值函数 $Q (\tilde{x}, u; θ)$ ， $Q (\tilde{x}, u; θ)$ 被称为Q网络，其中θ是Q网络的参数。Q网络的输入是预处理后的状态 $\tilde{x}$ 和控制动作u，输出是状态 $\tilde{x}$ 下执行动作u获得的平均报酬。在本文中，将Q网络的结构设计为卷积神经网络。Q网络的输入是预处理后的状态 $\tilde{x}$ 。经过多层卷积层， $\tilde{x}$ 的空间维度减小，通道维度增加。最后一层卷积层的输出将被展开成一个一维向量 $v$ ，这个向量就是由卷积神经网络从图像中自动提取出的特征。暖气设备当前的阀门开度也是控制器输入状态的一部分，在这里，将阀门开度与 $v$ 合并，输入卷积层之后的全连接层。

其次，介绍双深度Q网络方法的经验回放机制和目标网络机制。在双深度Q网络方法中，笔者使用了经验回放机制打破样本之间的关联性，从而减小神经网络更新时的方差。经验回放机制为：在每一个时间步，控制器接收状态 $x_{t}$ ，做出动作u_t，得到奖励r_t，获得下一个状态 $x_{t + 1}$ ，控制器将得到的经验 $(x_{t}, u_{t}, r_{t}, x_{t + 1})$ 存储到缓冲区D中。当需要训练Q网络时，就从D中抽取小批量的经验来训练Q网络。双深度Q网络方法引入目标网络机制来降低训练Q网络时输入值和目标值之间的相关性，增强算法的收敛性。目标网络机制为：建立一个与Q网络 $Q (\tilde{x}, u; θ)$ 结构相同的目标网络 $\hat{Q} (\tilde{x}, u; θ^{-})$ 。 $\hat{Q} (\tilde{x}, u; θ^{-})$ 的参数θ^-周期性地更新，在两次更新的间隔，θ^-保持不变。

接下来，介绍双深度 Q 网络方法中 Q 网络目标值的计算方法。在深度 Q 网络方法中，计算 Q网络的目标值如式（3）所示：

Y_{t}^{DQN} \equiv r_{t} + γ \max_{u_{t + 1}} Q ({\tilde{x}}_{t + 1}, u_{t + 1}; θ^{-}) (3)

其中，γ是折扣因子。但是，式（3）中的max操作会造成Q函数的过估计，为了避免这种情况，双深度Q网络方法使用式（4）计算Q网络的目标值：

Y_{t}^{DoubleDQN} \equiv r_{t} + γ Q ({\tilde{x}}_{t + 1}, \underset{u}{\arg \max} Q ({\tilde{x}}_{t + 1}, u; θ); θ^{-}) (4)

最后，介绍双深度Q网络方法的损失函数。在第i个训练回合，Q 网络中的参数为θ_i，目标网络中的参数为 $θ_{i}^{-}$ 。第i个训练回合的训练目标是使Q网络尽可能接近目标网络，在第i个训练回合的损失函数如式（5）所示：

L_{i} (θ_{i}) = \frac{1}{2} [r_{t} + γ Q ({\tilde{x}}_{t + 1}, \underset{u}{\arg \max Q ({\tilde{x}}_{t + 1}, u; θ_{i})}; θ_{i}^{-}) -

Q ({\tilde{x}}_{t}, u_{t}; θ_{i})]^{2} (5)

本文提出的以人的表情为输入状态，通过暖气设备自适应调整室温的方案与参考文献[11]中的方案主要有以下几点不同。

第一，被控对象不同。本文使用暖气设备调节室温，而参考文献[11]使用空调调节室温。使用空调制热会造成室内空气干燥，使人不舒服，从提升人的舒适度的角度来看，使用暖气制热比使用空调更合适。

第二，控制器施加给被控对象的动作不同。在参考文献[11]中，空调大多带有自动调温功能，因此，控制器可直接控制空调的温度设定值，空调与房间之间存在单独的控制回路，空调可以自动调节室温到设定值附近。而在本文中，大多暖气设备只有调节阀，控制器需要通过改变调节阀的开度调节室温，暖气设备与房间之间并不存在控制回路。

第三，状态预处理算法和Q网络的结构不同。在参考文献[11]中，空调温度设定值作为图像的一个通道与预处理后的图像合并，由深度神经网络自动提取特征。而在本文中，将阀门开度作为一个已经提取好的特征直接输入最末层的全连接网络，大大减小了计算量。

第四，计算眼睛纵横比的方式不同。在参考文献[11]中，分别计算左右眼纵横比，再取平均值得到衡量双眼纵横比的值。而在本文中，考虑到双眼运动的一致性以及眨眼检测的实时性，使用右眼的纵横比代替双眼纵横比，减小了计算量，更便于算法实时运行。

第五，在参考文献[11]中，使用深度Q网络方法学习最优策略，而在本文中，为了避免深度Q网络方法造成的动作价值过估计现象，使用双深度Q网络学习控制策略。实验表明，本文中的双深度Q网络方法比参考文献[11]中的方法收敛更快，更平稳。

3 仿真环境与实验结果

本节将介绍仿真环境的搭建以及仿真实验的结果。智能体在仿真环境中的工作流程如下：控制器实时检测人眼的运动情况，在t时刻，控制器采集到人非眨眼状态下的表情，并将其作为t时刻的状态 $x_{t}$ ，预处理 $x_{t}$ 得到 ${\tilde{x}}_{t}$ 。接下来，控制器将 ${\tilde{x}}_{t}$ 输入Q网络，根据ε-贪婪策略改变暖气设备的阀门开度，进而房间温度会随着时间改变。一段时间之后（假设此时房间温度已经达到稳定），控制器再次执行上述过程，直到能使人保持在最亢奋的状态。

为了模拟房间中的温度变化，本文建立了一个简化的房屋热模型。由热力学定律可解得室温变化的微分方程：

τ_{i} (t) = ρ_{r} σ_{i} + τ_{o} + (τ_{r} (0) - ρ_{r} σ_{i} - τ_{o}) e^{- \frac{1}{ρ_{r} μ_{r}} t} (6)

其中，τ_r和τ_o分别代表室内温度和室外温度，μ_r和ρ_r分别代表房间的热容和热阻，σ_i代表房间的输入热量。由式（6）可以看出，稳态室温为 $τ_{\infty} = ρ_{r} σ_{i} + τ_{e}$ 。可以看到，房间稳态温度τ_∞与暖气设备向房间输入的热量σ_i呈线性关系，因此，可以认为房间稳态温度τ_∞与暖气设备的阀门开度近似为线性关系。

为了模拟人的表情随温度的变化，需要建立一个温度-表情数据库，在这个数据库中，人脸的图片与温度一一对应，输入房间温度，就能得到一张人脸表情的图片。设定房间温度的取值范围是18 ℃到34 ℃之间的6个值。各个温度下的眼睛闭合程度见表1。从表1可以看出，当室内温度为26 ℃时， EAR^r最大。

表1 温度-EAR^r对照

序号	房间温度/℃	EAR^r
1	18	0.095
2	20	0.212
3	22	0.243
4	24	0.329
5	26	0.381
6	28	0.324
7	30	0.271
8	32	0.118
9	34	0.105

新窗口打开| 下载CSV

在实验中，每个回合开始时的初始温度将从18 ℃、20 ℃、32 ℃和34 ℃中随机选择。控制器将根据人的表情调整暖气设备的阀门开度。当房间温度被调整到最合适的温度时，人的困意最少，此时认为控制器已经达到目的，本回合结束，重新开始新的回合，房间温度将被重新初始化。

控制器训练过程中的回合总长度、回合总奖励、回合损失的变化分别如图2、图3、图4所示。回合总长度代表调节暖气设备阀门开度的次数。从图2 可以看出，训练初期的回合总长度要明显长于训练末期。在训练末期，回合总长度会稳定在3或4。在训练末期，控制器仍对环境保持着一定的探索性，因此训练末期的回合总长度会在3和4附近有微小的波动。为了展示所提方法的有效性，将双深度Q网络方法与采取随机动作的方法进行对比，通过对比可以看出，双深度Q网络方法的回合总长度明显更小。回合总奖励表示智能体在这一回合中获得的奖励总数。随着训练的进行，智能体能够在每个状态下都做出正确的决定。因此在训练末期，回合总奖励稳定在10 附近。同样地，由于在训练末期，控制器仍保持一定的探索性，曲线在10 附近有轻微的波动。回合损失指损失函数在这一回合结束时的值。从图4可以看出，随着训练的进行，回合损失逐渐接近于0。