基于角度敏感的空间注意力机制的轻量型旋转目标检测器

图1 基于角度敏感的空间注意力机制的遥感图像旋转目标检测算法的网络结构

2.2 特征提取网络

遥感图像尺寸大、场景复杂，缩小尺寸后特征不太明显，因此需要深层的特征提取网络才能有效地提取物体特征。为了避免深度网络可能存在的梯度消失问题，本文将Resnet^[14]作为检测网络的特征提取网络。

Resnet 由于结构简单、有效而被广泛应用在目标检测任务上。Resnet 引入的深层残差块将底层特征跳跃连接到高层特征，有效解决了由于网络深度的加深而产生的梯度消失、准确率无法有效提升的问题。

Resnet由头部的卷积层、中间的多个卷积块和尾部的输出层构成，根据中间堆叠的卷积块数量又能细分成Resnet18、Resnet50、Resnet101。显然，卷积块堆叠得越多，网络越深，能提取到的特征模式越复杂，但是网络参数量也会相应地增加。本文通过详细的实验对比得出，Resnet101 的检测效果更好，带来的时间损耗也在可接受范围内，因此将Resnet101作为主干网络。

2.3 多尺度特征融合

由于遥感图像的检测目标的尺寸跨度很大，小至几十像素，大至几百甚至上千像素，仅仅使用高层特征检测目标很容易造成小目标物体漏检，因此需要利用底层特征辅助。本文提出的目标检测网络借鉴特征金字塔网络（feature pyramid network， FPN）^[15]的思想，引入了横向连接方法进行多尺度融合。通常底层特征的语义信息比较少，但是空间位置信息相对准确；高层特征的语义信息比较丰富，但是空间位置信息比较粗略。FPN 能将底层特征和高层特征融合起来，从而更好地利用全局特征。

Resnet 能够自下而上地提取出 5 层不同深度的特征图，如何充分利用这些特征图尤为重要。FPN的思路是对提取出的每一层特征图分别进行预测，然后汇总每一层的预测结果。大多数应用多尺度结构的基于 anchor 的目标检测算法也沿用这样的方法，在 RPN 阶段分别预测每一层特征图的每个锚框的回归系数和置信度，将回归系数应用在初始锚框的坐标上以获得所有边界框的预测坐标。然后使用非极大值抑制（non-maximum suppression，NMS）算法从所有预测结果中筛选出最优质的边界框，并将其作为最终的输出。这样能从多层预测的大量边界框中筛选出足够少的合适的边界框，减少时间开销。

在基于 anchor 的方法中应用多尺度特征网络通常采用的手段是对每一层特征图进行候选框预测，然后对所有层的候选框进行统一的筛选操作。与基于anchor的方法不同，基于anchor free的方法并不是直接预测目标矩形框的坐标，而是预测中心点特征图、偏移量和长宽，这就导致每一层的边界框坐标的计算更复杂。因此，本文采用的多尺度特征融合模块如图2所示，其中实线箭头指卷积操作，虚线箭头指上采样操作，⊕是两个卷积在通道维度上的连接操作，最终得到的卷积特征图 ${C^{'}}_{2}$ 会传到解码网络进行后续的操作。该方法将每一层不同尺寸的特征图上采样至同一尺寸并拼接在一起。这样不仅能够使得高层特征和底层特征都得到充分的利用，而且检测速度也没有太大的损失。

图2

图2 多尺度特征融合模块

2.4 通道注意力机制

虽然卷积神经网络有较强的非线性表达能力，但是当信息量过于复杂时，需要构建更深的网络模型才能获得更强的表达能力。为了降低模型的复杂程度，可以借助人脑处理过载信息的方式，使用注意力机制提高神经网络处理信息的能力。注意力机制能够让模型关注更加重要的信息，忽视不重要的信息。实际上，注意力机制的实现分为3个步骤：信息输入、计算注意力分布、根据注意力分布计算输入信息的加权平均。

第2.3节介绍了本文提出的目标检测网络使用的多尺度特征融合机制，这个机制需要统一特征提取网络产生的多层特征图的尺寸并在通道维度上进行连接，整个多尺度融合过程使用了多通道的特征。因此，本文希望注意力机制能够为多尺度融合过程涉及的通道分配合适的权重，使得模型可以根据输入图像的特征，动态调整高层特征和底层特征的权重关系。

本文提出的目标检测网络引入了SENet^[16]中的通道注意力模块SE block。 SE block主要由两部分构成，分别是压缩和激活，这两部分对原始特征图的非线性计算可看作原始特征图与SE block相乘，然后通过 Softmax 激活函数将权重矩阵归一化到[0,1]，再与原始特征图相乘，得到权重改变后的新特征图。此时，原始特征图的通道权重已经得到了合理的分配，越重要的通道权重越高，模型越“重视”这个通道的特征。

为了增大感受野，SE Block将全局空间信息压缩成一个聚合特征，压缩操作由全局平均池化完成。接下来的激活操作用于激活聚合特征中的信息。这种机制能够学习到通道与通道之间的非线性关系，而且能够学习到非互斥的关系，这样才能保证多个通道能够同时作用。

SE block能够灵活嵌入各种模型中，因此本文有多种使用SE block的方式。经过充分的实验，最终将SE block嵌入特征提取器的每一层特征图，这使得每一层的特征通道都会得到合理的分配，最大限度地提高模型的精确度。

融合SENet^[16]中SE block的多尺度特征提取网络结构如图3所示。其中左图是SENet^[16]中的通道注意力模块SE block，右图是SE block嵌入主干网络形成的多尺度下的通道注意力机制。

图3

图3 融合SENet$lt@span sup=1$gt@[16]$lt@/span$gt@中SE block的多尺度特征提取网络结构

2.5 角度敏感的空间注意力机制

本文利用特征图的空间关系生成了一个空间注意力图。与通道注意力机制不同，空间注意力机制聚焦图像中与目标检测任务相关的重要的局部信息，并抑制不相关的信息，这对通道注意力机制起到了补充作用。

本文设计的角度敏感的空间注意力机制结构如图4所示。首先输入图像经过编码网络生成特征图，经过一个卷积网络后生成了尺寸为(batch,1,w,h)的角度特征图，它表示长度为w、宽度为h的输入图像中对应空间位置上潜在目标的旋转角度，batch为批次大小。接着计算角度特征图的空间注意力，沿通道轴分别应用最大池化和平均池化，分别生成尺寸为(batch,1,w,h)的特征图 $M a x$ 和 $A v g$ 。沿通道轴进行连接操作，再经过一个卷积网络增加非线性表达能力，然后使用Sigmoid激活函数将特征值分布到[0,1]，得到角度敏感的空间注意力权重图，并与原始的特征图相乘，给特征图在空间角度分配不同权重的注意力，生成目标中心热力图。

图4

图4 角度敏感的空间注意力机制结构

角度敏感的空间注意力机制的原理是在具有一定旋转角度的空间位置上存在目标的可能性更大。因此，既然旋转标注比水平框标注增加了旋转角度的信息，就应该充分利用这一信息。但是实验证明，直接利用预测出来的旋转角度预测旋转框的效果并不理想，旋转角度的轻微误差都会导致检测效果剧烈下降。因此，本文并不直接使用预测出来的旋转角度，而是间接利用这一个特征对其生成一个角度敏感的空间注意力机制，即这个注意力机制更加关注具备旋转角度的空间位置。理论上，用角度敏感的空间注意力生成的特征图预测目标中心热力图会更加精确，漏检会更少，后续的实验也证明了角度敏感的空间注意力机制的有效性。

3 训练与推理

3.1 数据标签格式

旋转框研究的难点在于合理地表示旋转框，因此本文提出了多种旋转框的表示方式。经过实验，选择出最适用于本文提出的目标检测网络的表示方式。

本文提出的数据标签格式是(c_x,c_y,w,h,r_x,r_y, w ₁,h₁,w₂,h₂)，利用旋转框的外接矩形来表示旋转框的坐标。本文提出旋转框参数表示方法（方法 1）如图5所示，虚线的水平边界框（以下简称边界框）是旋转框的外接矩形。假设模型的输出为c_x、c_y、w、h、r_x、r_y、w ₁、h₁ 、h₂，其中w、h分别表示、w₂边界框的长与宽，c_x、c_y、r_x、r_y由以下计算式获得：

\begin{matrix} c_{x} = int (p_{x}) \end{matrix} (1)

\begin{matrix} c_{y} = int (p_{y}) \end{matrix} (2)

\begin{matrix} r_{x} = p_{x} - c_{x} \end{matrix} (3)

\begin{matrix} r_{y} = p_{y} - c_{y} \end{matrix} (4)

其中，(p_x,p_y)是中心点的浮点数坐标，(c_x,c_y)是中心点取整后的坐标，r_x、r_y为偏移量。

图5

图5 本文提出的旋转框参数表示方法（方法1）

旋转框的 4 个点坐标(x₁,y₁)、(x₂,y₂)、(x₃,y₃)、(x ₄,y₄)可用以下计算式获得：

\begin{matrix} b_{0} = c_{x} + r_{x} - w / 2 \end{matrix} (5)

\begin{matrix} b_{1} = c_{y} + r_{y} - h / 2 \end{matrix} (6)

\begin{matrix} b_{2} = c_{x} + r_{x} + w / 2 \end{matrix} (7)

\begin{matrix} b_{3} = c_{y} + r_{y} + h / 2 \end{matrix} (8)

\begin{matrix} x_{1} = b_{0} + w_{1}, y_{1} = b_{1} \end{matrix} (9)

\begin{matrix} x_{2} = b_{0}, y_{2} = b_{1} + h_{1} \end{matrix} (10)

\begin{matrix} x_{3} = b_{2} + w_{2}, y_{3} = b_{3} \end{matrix} (11)

\begin{matrix} x_{4} = b_{2}, y_{4} = b_{1} + h_{2} \end{matrix} (12)

3.2 损失函数

本文提出的预测分支共4个，总损失函数的计算式如下：

\begin{matrix} L_{total} = L_{hm} + λ_{1} L_{wh} + λ_{2} L_{off} + λ_{3} L_{theta} \end{matrix} (13)

其中，L_hm是目标中心热力图分支的损失函数，L_wh是边界框宽高预测分支的损失函数，L_off是中心点偏移量预测分支的损失函数，L_theta是角度预测分支的损失函数。λ₁、λ₂和λ₃是用于调整这几个分支权重的参数。

下面分别介绍这4个分支的损失函数。

（1）目标中心热力图分支的损失函数

该分支的输出的实际含义是每个坐标位置是边界框中心点的概率。由于一张遥感图像中的边界框中心点数量占整张图像素的比例很小，即负样本的比例远远高于正样本，因此正负样本数量极度不均匀。为了解决这个问题，本文提出的目标检测网络将改进后的焦点损失（focal loss）作为损失函数。

改进后的损失函数如下所示：

\begin{matrix} L_{hm} = - \frac{1}{N} (l_{pos} + l_{neg}) \end{matrix} (14)

\begin{matrix} l_{pos} = \sum^{​} {(1 - p_{pos})}^{α} \log p_{pos} \end{matrix} (15)

\begin{matrix} l_{neg} = \sum^{​} p_{neg}^{α} {(1 - gt)}^{β} \log (1 - p_{neg}) \end{matrix} (16)

其中，N是热力图像素点的总数。p_pos和p_neg分别是目标中心热力图上所有正样本的像素值和所有负样本的预测值，当某个点的真实值gt大于一定阈值时，这个点被视为正样本，其余视为负样本。l_pos、l_neg分别表示目标中心热力图上所有正样本的像素值的焦点损失函数和所有负样本的像素值的焦点损失函数。α和β在focal loss中被称为调制系数，修改这些系数能够调整易分类样本的权重，使得模型在训练时更专注于难分类的样本。

对于距离目标中心点较远，即真实值较小且模型输出的预测值较大的像素点，通过式（14）～式（16）加大此类负样本的损失，让模型更加关注这些难分类的像素点，更利于模型学习。

划分正负样本的阈值设置得越小，正样本数量越多，但预测精度越不准确。本文提出的旋转目标检测方法考虑到目标中心热力图是原图下采样 1/4得到的，本身就有一定的偏差，若阈值设置得较小，模型难以提取出比较精确的中心点，因此这里取阈值为1，即将热力图中真实值为1的点看作正样本，其余均看作负样本。

（2）边界框宽高预测分支的损失函数

该分支的损失函数是L₁损失，其计算式如下：

\begin{matrix} L_{wh} = \frac{1}{N} \sum^{​} | \hat{w h} - p_{pos} | \end{matrix} (17)

其中， $\hat{w h} \in R^{w \times h \times 2}$ 是预测的边界框的宽和高。

（3）中心点偏移量预测分支的损失函数

为了恢复由原图下采样引起的离散误差，本文提出的目标检测网络还预测了每个中心点的局部偏移量 $\hat{o} \in R^{w \times h \times 2}$ 。每一个通道共享相同的预测偏移量。其损失函数为L₁损失，计算式如下：

\begin{matrix} L_{off} = \frac{1}{N} \sum^{​} | \hat{o} - p_{pos} | \end{matrix} (18)

注意，这里只计算所有正样本的偏移量，负样本忽略不计。

（4）角度预测分支的损失函数

L_theta是角度预测分支的损失函数，其损失函数仍然采用L₁损失。这里的角度定义如下：

\begin{matrix} θ = {\begin{cases} atan \frac{w_{1}}{h_{1}}, h_{1}! = 0 \\ 0, h_{1} = 0 \end{cases} \end{matrix} (19)

4 实验验证

4.1 DOTA数据集

DOTA数据集是用于航空图像中目标检测的大规模数据集。它的图像是从Google Earth中手动收集的，其中一些是由吉林一号卫星拍摄的，其他则是由中国资源卫星数据与应用中心的高分二号卫星拍摄的。它包含2 806张航拍图像，每张图像的大小在800×800像素到4 000×4 000像素之间，并且包含具有不同的比例、方向和形状的样本。DOTA数据集包含 15 个类别：飞机、轮船、储罐、棒球场、网球场、篮球场、地面跑道、港口、桥梁、大型车辆、小型车辆、直升机、环形交叉路口、足球场和游泳池。

DOTA 数据集提供了 1 411 张训练集图像与458张测试集图像。本文对 DOTA数据集中各类别数量进行了统计，不同类别数量占比如图6（a）所示，可以看出在所有样本中，80%以上是大型车辆、小型车辆、轮船和储罐，其余11个类别样本数量很少。样本类别不均匀造成了训练和检测的困难。

由于DOTA数据集中直升机的样本数量偏少，本文只对其余 14 个目标的尺寸进行了统计，不同类别的样本最大像素和最小像素总和如图6（b）所示。不同类别之间的样本尺寸相差很大，甚至同一个类别的不同样本之间的尺寸相差也很大，因此很难选择一个合适的尺寸分割原始图像。经过实验，本文将原始图像切割成600×600像素的图像，并将其作为输入图像，得到输出结果后重新合成原始图像的尺寸。采用 RandAugment 算法^[17]对输入图像进行图像增强。

图6

图6 DOTA数据集数据统计

4.2 不同旋转框参数表示方法的效果验证

本节针对多种不同的旋转框参数表示方法进行效果测试，证明本文提出的旋转框参数表示方法更加简单有效。

（1）旋转框参数表示方法2（方法2）：(c_x,c_y, w ,h,r_x,r_y, w₁,h₁)

该方法同样利用旋转框的外接矩形来表示旋转框的坐标，但没有充分利用旋转框本身也是一个矩形的特征，因此存在信息冗余。实际上，只需要两个额外参数 w₁和 h₁，根据两个三角形的全等关系就可以得出对边长度相等，如图7所示。

图7

图7 旋转框参数表示方法2

旋转框的 4 个点坐标(x₁,y₁)、(x₂,y₂)、(x₃,y₃)、(x ₄,y₄)可以用以下计算式得到：

\begin{matrix} x_{1} = b_{0} + w_{1}, y_{1} = b_{1} \end{matrix} (20)

\begin{matrix} x_{2} = b_{0}, y_{2} = b_{1} + h_{1} \end{matrix} (21)

\begin{matrix} x_{3} = b_{2} - w_{1}, y_{3} = b_{3} \end{matrix} (22)

\begin{matrix} x_{4} = b_{2}, y_{4} = b_{3} - h_{1} \end{matrix} (23)

（2）旋转框参数表示方法 3（方法 3）：(c_x,c_y,w,h,r_x,r_y,θ)

旋转框一般用旋转框中心点坐标、长宽与旋转角度来表示，实际上(c_x,c_y,w,h,r_x,r_y,w₁,h₁)中的w₁、h₁蕴含了角度关系。可以直接预测角度θ，再算出w₁、h₁即可表示旋转框，如图8所示。

旋转框的w₁、h₁可以用下式计算得到：

\begin{matrix} t = tan θ \end{matrix} (24)

图8

图8 旋转框参数表示方法3

\begin{matrix} h_{1} = \frac{t (t w - h)}{t^{2} - 1} \end{matrix} (25)

\begin{matrix} w_{1} = t h_{1} \end{matrix} (26)

（3）旋转框参数表示方法 4（方法 4）：(c_x,c_y,w_o,h_o,r_x,r_y,θ_o)

除了借助外接矩形的方法表示旋转框，还可以直接表述旋转框，如图9所示，w_o、h_o分别表示旋转框的宽和高，θ_o表示该旋转框与水平轴的旋转角度，限定θ_o的范围为 0°～90°。根据已知变量可以求出w₁=w_ocosθ，h₁=w_osinθ。

图9

图9 旋转框参数表示方法4

本节根据提出的4种旋转框参数表示方法分别进行测试，实验将 CenterNet 作为基础网络，主干网络选择 Resnet101。不同表示方法的旋转框实验结果见表1。从实验结果看，虽然这些方法基于同一个网络框架，但是检测效果却比较悬殊。其中，方法1的mAP最高，达到了63.7%，比方法2高4.4%。方法1和方法2的原理都是先预测出一个边界框，再基于此预测旋转框的4条边的偏差值，而方法3和方法4则是预测物体的旋转角度。从实验结果看，方法1和方法2的整体效果远远好于方法3和方法 4。预测旋转角度是极为困难的，角度细微的偏差都会使最终预测的边界框的差距极大。而预测边的偏差则对误差的承受能力更强，一条边的误差并不会导致最终预测的边界框整体变形。方法 2比方法1的mAP稍低，这表明虽然方法2的结构相对简单，但是不可避免地会带来精度损失。

4.3 角度敏感的空间注意力机制的有效性验证

本节对提出的角度敏感的空间注意力机制（用atten表示）的有效性进行验证。将不添加角度敏感的空间注意力机制的本文提出的目标检测网络作为参考网络，与添加该注意力机制的网络进行对比。实验中分别将Resnet50和Resnet101作为特征主干网络，实验结果见表2。

表1 不同表示方法的旋转框实验结果

类别	方法1	方法2	方法3	方法4
飞机	93.0%	92.2%	71.8%	57.1%
轮船	80.6%	80.1%	14.5%	51.9%
储罐	89.3%	89.7%	83.9%	60.4%
棒球场	67.7%	54.3%	57.4%	37.7%
网球场	94.6%	94.8%	55.7%	51.8%
篮球场	62.3%	50.7%	46.6%	40.6%
地面跑道	53.7%	44.4%	42.3%	41.5%
港口	55.5%	46.5%	19.3%	34.5%
桥梁	29.7%	24.2%	9.0%	23.5%
大型车辆	78.7%	76.5%	9.3%	43.4%
小型车辆	53.4%	57.1%	17.0%	38.8%
直升机	13.8%	25.7%	41.5%	29.6%
环形交叉路口	69.6%	65.3%	64.3%	47.2%
足球场	62.6%	39.4%	47.9%	38.8%
游泳池	52.2%	49.2%	28.1%	35.1%
mAP	63.7%	59.3%	40.5%	42.1%

表2 本文提出的目标检测网络的角度敏感注意力机制效果测试

类别	Resnet50	Restnet50+atten	Resnet101	Resnet101+atten
飞机	88.6%	88.7%	89.0%	88.8%
轮船	79.0%	82.7%	79.2%	84.0%
储罐	86.2%	86.6%	87.1%	85.0%
棒球场	68.6%	72.6%	73.8%	72.8%
网球场	90.7%	90.4%	90.8%	90.7%
篮球场	65.2%	52.2%	63.0%	63.5%
地面跑道	57.7%	55.0%	57.6%	57.1%
港口	63.1%	61.8%	63.0%	61.6%
桥梁	45.5%	40.2%	42.9%	41.9%
大型车辆	80.7%	77.9%	79.4%	80.7%
小型车辆	60.3%	60.5%	61.8%	62.8%
直升机	25.2%	57.7%	54.9%	53.1%
环形交叉路口	66.0%	60.8%	63.7%	66.8%
足球场	66.6%	63.3%	54.3%	56.2%
游泳池	59.8%	59.8%	62.2%	62.8%
mAP	66.8%	67.3%	68.1%	68.5%

从两个对比试验结果来看，增加了角度敏感的空间注意力机制以后，mAP 提升了 0.4%～0.5%，提升的效果接近。使用Resnet101比使用Resnet50的mAP更高。

4.4 通道注意力机制的有效性验证

本文为每一层特征都加上提出的通道注意力机制，使得特征通道的分配更合理。通道注意力机制实验结果见表3，实验发现mAP提高了2.3%，检测速度达到了每秒18.6帧图像，效果十分显著。

4.5 多尺度特征融合算法实验效果对比

多尺度特征融合实验结果见表4，可以看出，多尺度特征融合对 Resnet101 的提升较大，达到了1.2%，然而对Resnet50没有提升，甚至有轻微的降低。分析原因发现，一方面可能是训练不稳定导致效果轻微降低，另一方面可能是Resnet101 提取出的高层特征的语义信息比Resnet50更多更全面，和底层特征的融合效果更好。总之，多尺度特征融合在选择合适的主干网络深度的情况下能够起到较好的效果。

表3 通道注意力机制实验结果

算法	特征提取网络	mAP
无通道注意力机制	Resnet101	62.8%
有通道注意力机制	Resnet101	65.1%

表4 多尺度特征融合实验结果

算法	特征提取网络	mAP
+多尺度融合	Resnet50	62.4%
无多尺度融合	Resnet50	62.7%
+多尺度融合	Resnet101	64.0%
无多尺度融合	Resnet101	62.8%

4.6 不同算法在DOTA数据集上的实验效果

将本文提出的基于角度敏感的空间注意力机制的遥感图像旋转目标检测算法与不同的预测旋转框的遥感算法RRPN^[18]、R3det^[19]、R2CNN^[20]，以及经典的Faster R-CNN^[3]的旋转框版本进行对比分析。其中mAP结果采用了参考文献[19]论文中的实验结果，速度测试均在相同环境下进行，实验结果见表5。

表5 不同算法在DOTA数据集上的实验结果

算法	mAP	每秒处理帧数/帧	模型大小/MB
Faster R-CNN^[3]	52.9%	12.5	237
R2CNN^[18]	60.6%	0.05	359
RRPN^[20]	61.0%	0.09	369
R3det^[19]	73.7%	1.5	787
本文提出的算法	68.5%	17.4	218

从检测的精确度来看，R3det的mAP最高，本文提出的算法次之，Faster R-CNN的效果最差，只有52.9%。但是从检测速度上看，R2CNN、RRPN、R3det虽然同样是基于anchor的二阶段网络，但是比原版Faster R-CNN慢很多，这是因为它们针对旋转框加入了过多的针对性的改进，导致检测速度下降。本文提出的算法速度远超其他算法，这是基于anchor free网络的优势。在模型的大小上，本文网络的模型也是最小的。R3det 虽然精确度最高，但是模型太大，不够轻量化。因此虽然旋转框比水平框的检测精确度稍低，但是同样达到了精确度与检测速度的平衡。

4.7 水平框与旋转框对比分析

本文提出的基于角度敏感的空间注意力机制的遥感图像旋转目标检测算法可以同时检测水平框与旋转框，这是因为水平框是一种特殊角度的旋转框。因此，本节对比分析了基于4种旋转框参数表示方法的遥感图像目标检测效果，见表6。

表6 4种旋转框参数表示方法的水平框与旋转框的mAP

旋转框参数表示方法	水平框	旋转框
方法1	64.9%	63.7%
方法2	64.3%	59.3%
方法3	64.4%	40.5%
方法4	64.7%	42.1%

从表6可以看出，其实4种方法的水平框的检测效果几乎一致，都在64%左右。而旋转框的标注更细致，对检测的精确度要求更高。方法3和方法4虽然检测出了旋转目标的大致范围（即水平框），却无法对旋转框的检测起到很大的帮助，这说明旋转框检测比水平框检测更难，旋转框检测不仅需要检测出目标物体的位置，还需要精准地检测出旋转角度。此外，不同的旋转框的表示方法也对模型效果造成了非常重要的影响。

本文对旋转框与水平框的部分检测图像进行了可视化，以便于分析与对比。图10 的每张图像代表了每个类别的部分检测结果（矩形框内部的黄色框为旋转框）。从旋转框与水平框的整体标注效果来看，旋转框的效果明显优于水平框。例如图10（e）、图10（j），水平框的标注存在大量重叠，导致肉眼无法很好地分辨不同的目标物体；旋转框的标注则分界线十分清晰，完美贴合了目标物体。

图10

图10 DOTA数据集上水平框与旋转框的检测结果

从旋转框的检测效果来看，本文提出的算法对旋转角度的预测效果很好，不管是哪一类别，只要找准了正确的目标中心与正确的水平框的长宽，基本上能够正确地找出旋转的角度。因此，本文提出的算法中旋转框的准确度实际上是非常依赖水平框的准确度的，只有水平框检测准确，旋转框才有可能检测准确。

总体上，本文提出的目标检测网络能够较好地克服遥感场景的困难之处。遥感目标物体的分布密集、部分重叠，如图10（k）、图10（l）的目标十分密集，但是本文提出的目标检测网络能够较好地检测出所有目标，并且旋转框不会重叠。甚至本文提出的目标检测网络可以解决两个目标物体重叠的问题，如图10（h），轮船和港口紧靠在一起，会出现不同类别的标注重叠在一起的情况，本文提出的目标检测网络能够通过多通道各司其职、独立检测来克服这个困难，这对于基于anchor的方法来说是一个难题。遥感目标物体的尺寸跨度很大，如图10（i）中的桥梁，在整张图中显得极为渺小，但是本文提出的目标检测网络仍然能够检测出来。又如图10（f）中小型车辆和篮球场的尺寸差距很大，但检测效果也很好。

5 结束语

遥感图像的目标检测技术在农业土壤管理与灌溉、自然灾害预警、地球表面资源预估、军事管理等方面占据着非常重要的地位。

一方面，随着卫星技术的提高，每天从空中收集到数以万计的遥感数据，并传输到地球表面，这对遥感检测的速度有了更高的要求；另一方面，利用基于anchor free 的目标检测网络检测遥感图像的研究甚少。虽然基于anchor free的目标检测网络的检测速度较快，但是在检测遥感目标上仍有很多的困难与挑战：基于anchor free的目标检测网络自身的精度不高，难以满足精度的要求；遥感目标可以任意角度旋转且分布密集，水平框的标注效果很差。针对这两个难点，本文分别对水平框的目标检测算法与旋转框的目标检测算法进行了研究，并提出了两种用于遥感图像的目标检测算法，具体成果如下。

相比水平框的目标物体检测，旋转框的目标物体检测在遥感场景中更具优势，但也更有挑战性。本文根据旋转框与其外接矩形框的空间位置关系，提出了一种简单高效的旋转框位置的表示方法。针对旋转框增加的旋转角度的信息，设计了一个角度敏感的空间注意力机制用于辅助检测旋转框。在DOTA 数据集上，本文提出的算法的 mAP 达到了68.5%，检测速度达到了每秒17.4帧图像。与其他网络相比，本文设计的目标检测网络具有突出的速度优势，在检测精度上也取得了不错的效果。

参考文献

原文顺序

文献年度倒序

文中引用次数倒序

被引期刊影响因子

[1]

GIRSHICK

, DONAHUE

, DARRELL

,et al.

Rich feature hierarchies for accurate object detection and semantic segmentation

[C]// Proceedings of the 2014 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway:IEEE Press, 2014: 580-587.

[2]

GIRSHICK

, .

Fast R-CNN

[C]// Proceedings of the 2015 IEEE International Conference on Computer Vision. Piscataway:IEEE Press, 2015: 1440-1448.

[3]

REN

S Q

, HE

K M

, GIRSHICK

,et al.

Faster R-CNN:towards real-time object detection with region proposal networks

[C]// Proceedings of the IEEE Transactions on Pattern Analysis and Machine Intelligence. Piscataway:IEEE Press, 2015: 1137-1149.

[本文引用: 3]

[4]

K M

, GKIOXARI

, DOLLÁR

,, et

Mask R-CNN

[C]// Proceedings of the 2017 IEEE International Conference on Computer Vision. Piscataway:IEEE Press, 2017: 2980-2988.

[5]

HUANG

L C

, YANG

, DENG

Y F

,et al.

DenseBox:unifying landmark localization with end to end object detection

[C]// Proceedings of the IEEE International Conference on Computer Vision. Piscataway:IEEE Press, 2015.

[6]

REDMON

, DIVVALA

, GIRSHICK

,et al.

You only look once:unified,real-time object detection

[C]// Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway:IEEE Press, 2016: 779-788.

[7]

LAW

, DENG

CornerNet:detecting objects as paired keypoints

[J]. International Journal of Computer Vision, 2020,128(3): 642-656.

[本文引用: 2]

[8]

LIN

T Y

, MAIRE

, BELONGIE

,et al.

Microsoft COCO:common objects in context

[M]// Computer Vision-ECCV 2014. Cham: Springer International Publishing, 2014: 740-755.

[9]

ZHOU

X Y

, WANG

D Q

, KRÄHENBÜHL

, .

Objects as points

[J]. arXiv preprint,2019,arXiv:1904.07850.

[10]

ZHOU

X Y

, ZHUO

J C

, KRAHENBUHL

Bottom-up object detection by grouping extreme and center points

[C]// Proceedings of the 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway:IEEE Press, 2019.

[11]

T S

, TIAN

W H

, KUANG

,et al.

An anchor-free object detector with novel corner matching method

[J]. Knowledge-Based Systems, 2021,224: 107083.

[12]

Q M

, QIANG

, LI

Conditional random fields as message passing mechanism in anchor-free network for multi-scale pedestrian detection

[J]. Information Sciences, 2021,550: 1-12.

[13]

CHENG

, ZHOU

P C

, HAN

J W

Learning rotation-invariant convolutional neural networks for object detection in VHR optical remote sensing images

[J]. IEEE Transactions on Geoscience and Remote Sensing, 2016,54(12): 7405-7415.

[14]

K M

, ZHANG

X Y

, REN

S Q

,et al.

Deep residual learning for image recognition

[C]// Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway:IEEE Press, 2016: 770-778.

[15]

LIN

T Y

, DOLLÁR

,, GIRSHICK

, et

Feature pyramid networks for object detection

[C]// Proceedings of the 2017 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway:IEEE Press, 2017: 936-944.

[16]

, SHEN

, SUN

Squeeze-and-excitation networks

[C]// Proceedings of the 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway:IEEE Press, 2018: 7132-7141.

[本文引用: 3]

[17]

CUBUK

E D

, ZOPH

, SHLENS

,et al.

RandAugment:practical automated data augmentation with a reduced search space

[C]// Proceedings of the 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops. Piscataway:IEEE Press, 2020: 3008-3017.