ToF相机的有效深度数据提取与校正算法研究

doi:10.11959/j.issn.2096-6652.202008

ToF相机的有效深度数据提取与校正算法研究

乔欣, 葛晨阳^,, 邓鹏超, 周艳辉, 姚慧敏

西安交通大学人工智能与机器人研究所，陕西西安 710049

Research on valid depth data extraction and correction for ToF camera

QIAO Xin, GE Chenyang^,, DENG Pengchao, Zhou Yanhui, Yao Huimin

Institute of Artificial Intelligence and Robotics,Xi’an Jiaotong University,Xi’an 710049,China

通讯作者: 葛晨阳，cyge@mail.xjtu.edu.cn

修回日期: 2020-02-28 网络出版日期: 2020-03-20

基金资助:

国家重大科研仪器研制基金资助项目. 61627811
国家自然科学基金资助项目. 61571358

Revised: 2020-02-28 Online: 2020-03-20

Fund supported:

The National Important Development Program on Scientific Research Instruments. 61627811
The National Natural Science Foundation of China. 61571358

作者简介 About authors

乔欣（1990–），男，西安交通大学博士生，主要研究方向为计算机视觉、3D感知和多传感融合。

葛晨阳（1977–），男，博士，西安交通大学副教授，主要研究方向为计算视觉、三维感知、SoC设计 E-mail：cyge@mail.xjtu.edu.cn。

邓鹏超（1990–），男，西安交通大学硕士生，主要研究方向为计算视觉和深度学习。

周艳辉（1981–），女，博士，西安交通大学副教授，主要研究方向为智能信号处理、反问题方法研究及应用。

姚慧敏（1986–），女，博士，西安交通大学讲师，主要研究方向为计算机视觉、结构光成像和图像处理。

摘要

提出一种针对 ToF 相机的有效深度数据提取与校正算法，利用深度图和置信度图对深度信息进行校正。首先，基于核密度估计和连通域标记对测得的深度图进行自适应分割；然后使用一种改进的结构张量进行边缘检测，从而探测深度图中的无效像素和飞行像素；最后用双三次方插值或投票操作纠正或剔除这些像素，同时使用增强置信度剔除错误像素。实验结果证明了该算法的有效性，对比传统方法，本文所提算法可以剔除更多的无效像素，且保留更多的有效深度数据，对于噪声的鲁棒性也更好。

关键词： ToF相机 ; 有效深度数据 ; 飞行像素 ; 自适应分割 ; 边缘检测 ; 增强置信度

Abstract

An algorithm was proposed to extract the valid depth information and correct the values of flying pixels with depth map and confidence map for time-of-flight camera.Firstly,the depth map was segmented adaptively based on kernel density estimation and connected component labeling.Then edge detection was performed by using a modified structure tensor to recognize the invalid pixels and the flying pixels.At last,the values of flying pixels were corrected with the bi-cubic interpolation and that of the invalid pixels were deleted by voting.Meanwhile,using augmented confidence,the pixels with wrong depth values were removed.Experimental results show the effectiveness of the proposed algorithm.Comparing with the conventional methods,the proposed algorithm can remove more invalid pixels and remain more valid depth data.Also,the proposed method is more robust to noise.

Keywords： ToF camera ; valid depth data ; flying pixels ; adaptive segmentation ; edge detection ; augmented confidence

PDF (11931KB) 元数据多维度评价相关文章导出 EndNote| Ris| Bibtex 收藏本文

本文引用格式

乔欣, 葛晨阳, 邓鹏超, 周艳辉, 姚慧敏. ToF相机的有效深度数据提取与校正算法研究. 智能科学与技术学报[J], 2020, 2(1): 72-79 doi:10.11959/j.issn.2096-6652.202008

QIAO Xin. Research on valid depth data extraction and correction for ToF camera. Chinese Journal of Intelligent Science and Technology[J], 2020, 2(1): 72-79 doi:10.11959/j.issn.2096-6652.202008

1 引言

近年来，飞行时间（time-of-flight，ToF）相机由于具有低成本、高精度、高可靠性和高帧率等优点^[1]，越来越受到人们的关注。ToF 相机通过计算发射红外信号与反射信号间的相位差，得到三维深度信息^[2]。基于以上特点，ToF 相机可以应用在很多场景，如机器人视觉^[3]、三维重建^[4]、娱乐交互^[5]、及时定位与地图构建（SLAM）^[6]等。

然而，对于目前的ToF相机来说，飞行像素效应带来的深度估计误差是无法避免的，这给ToF相机的应用带来了巨大挑战^[7]。因为ToF传感器的像素有一定的物理尺寸，所以每一个像素都可以接收到某一小块场景对应的距离信息。如果其中一块场景包含了物体边缘，那么深度量测值则是由不同距离的物体共同作用的。因此，飞行像素出现在不同深度物体的边缘处，如图1所示。

图1

新窗口打开| 下载原图ZIP| 生成PPT

图1 无效像素与飞行像素示意

在过去几年中，人们在飞行像素校正方面做了很多研究。Sabov 等人^[8]采用固定深度阈值（fixed depth threshold，FDT）和线性分割的方法对飞行像素进行识别和校正。Zhang 等人^[9]通过设置浮动深度阈值（adaptive depth threshold，ADT）去除飞行像素，但对无效像素的滤除能力有限。在参考文献[10]中，一种自适应幅度阈值（adaptive amplitude threshold，AAT）方法被用于剔除错误像素，同时能够校正距离解析错误的低置信度像素。Mutto等人^[11]利用双目RGB测得的深度数据，对ToF传感器所测置信度图中较低部分的深度值进行了校正，可以有效解决无效像素的问题，但这种方法需要借助于其他测距设备。

当ToF投射器发出的红外光经反射后变得较弱时，ToF传感器接收到的信号幅度也随之变弱，从而造成信噪比下降。这种情况下，深度值可能会出现虚假边缘。在具体场景中表现为：ToF传感器中对应于低反射率物体的相邻2个像素产生的深度值会像边缘处一样剧烈变化，这一特性与飞行像素和低置信度的错误像素的表现类似。由于上述像素和低置信度的错误像素并没有提供有价值的场景信息，有时甚至会对场景理解造成障碍，因此称之为无效像素。在图1中，椭圆和矩形框中标出的像素分别为飞行像素和无效像素。由于它们特征相似，因此有效地将其进行区分变得比较困难。

通过利用深度图和置信度图，提出一种基于ToF相机的有效深度数据提取的方法。在解决上述问题时，默认ToF相机已完成标定^[12]。一方面，为了区分有效像素和无效像素，首先使用基于核密度估计和连通域标记（connected component labeling， CCL）的自适应深度图像分割方法，将深度图分割为多个像素块，然后将一种改进的结构张量作为边缘检测器，最后利用投票操作决定每个像素块是被校正还是被剔除，从而得到深度图。另一方面，通过计算增强置信度，剔除那些不能提供足够置信度的像素，得到另外一幅深度图。最后计算2幅深度图的有效像素的交集，从而得到最终的深度数据。

2 深度数据的提取与校正算法

通过计算ToF正弦回波信号与参考正弦信号的相位差，可以分别得到深度图和置信度图^[7]，具体的算法流程如图2 所示。该算法以测试场景（a）和测试场景（b）为例进行阐述。

图2

新窗口打开| 下载原图ZIP| 生成PPT

图2 本文所提算法流程

2.1 深度图分割

图3 为测试场景（a）的深度图处理过程。测试场景（a）如图3（a）所示，4个方纸盒分别放置于距ToF相机不同距离处，最远处白墙与ToF相机的距离为2.2 m。图3（b）为中值滤波后的深度图（深度值在右侧标出，单位为m）。在给定内参的条件下，可将二维深度图转换成三维点云，结果如图3（c）所示，由椭圆和矩形框标识出的像素分别为飞行像素和无效像素。首先，应用基于核密度估计的图像分割方法^[13]将深度图按距离分割为多个像素块。核密度估计是一种用于估计随机变量概率密度函数的无参数估计方法。若给定核K(·)和带宽h，核密度估计可以表示为：

\hat{p} (q) = \frac{1}{N h} \sum_{i = 1}^{N} K (\frac{| | q - q_{i} | |}{h}) (1)

其中，q_i为第 i 个数据点，N 为数据点的总数。对于每一个点q， $\hat{p} (q) = \frac{1}{N h} \sum_{i = 1}^{N} K (\frac{| | q - q_{i} | |}{h}) (1)$ 为以q_i为中心的核的均值，h为平滑参数并且为正数。

在本文所提算法中，使用基于二维高斯核的核密度估计来计算深度图像的概率密度函数，令参数h=15。图3（d）描述了测试场景（a）的深度图的概率密度函数（probability density function，PDF）。可以求出概率密度函数的局部极小值D_i，将其作为深度分割的边界值，定义 $D_{1} < D_{2} < \cdot \cdot \cdot < D_{w}$ ，其中，w为概率密度函数中局部极小值的数量。令D_min和D_max分别表示深度图中距离的最小值和最大值，那么深度分割的边界可以表示为 $D = {D_{m i n}, D_{1}, \dots, D_{w}, D_{m a x}}$ 。因此每个像素块都可以产生一个对应的二值图像。

B_{k} (x, y) = {\begin{matrix} 1, \\ 0, \end{matrix} \begin{matrix} D_{k} \leq Z (x, y) \leq D_{k + 1} \\ 其 他 \end{matrix} (2)

其中， $k = 0, 1, 2, \dots, w ， Z (x, y)$ 表示深度图中(x,y)处像素的深度值。目标像素B_k(x,y)的深度值标记为1，其他像素标记为0。

2.2 连通域标记

深度图像被分割后，应用一次扫描连通域标记算法处理每个距离段的像素块^[14]。扫描顺序为从左到右、从上到下，初始化新的标签值 l=2。一次扫描连通域标记算法的步骤如下：

• 扫描二值图像，若发现未标记的目标像素，则将其赋予新的标签l；

• 递归地将标签l 赋予其八邻域中未标记的目标像素，直到没有未标记的目标像素；

• 寻找新的目标像素，并更新标签l=l+1。

假设在深度区间[D_k,D_k+1]内有L个连通域，将每个连通域 $B_{k}^{l}$ 包含的像素数记为 $n_{k}^{l}$ ，其中l∈[1,L]。设置最小面积阈值，用于滤除孤立噪声 $H$ 。图3（e）为连通域标记的结果。

2.3 边缘检测

边缘检测用于尽可能多地识别无效像素和飞行像素，它决定了有效深度数据提取的性能。由于结构张量对噪声的鲁棒性较好，因此将其作为边缘检测器^[15]。初始矩阵由深度图像 $I$ 梯度的笛卡尔积矩阵 $J_{0}$ 构成。

J_{0} = \nabla I {(\nabla I)}^{T} = [\begin{matrix} I_{x}^{2} & I_{x} I_{y} \\ I_{x} I_{y} & I_{y}^{2} \end{matrix}] (3)

其中， $\nabla I = [I_{x}, I_{y}]$ ， $I_{x}$ 、 $I_{y}$ 分别为图像的水平与垂直梯度。考虑到局部邻域结构信息，线性结构张量通常由权重函数R在每个通道的r个像素叠加平均得出。

J_{σ} = R_{σ} * (\nabla I \nabla I^{T}) = [\begin{matrix} \sum_{r} R_{σ} I_{x}^{2} & \sum_{r} R_{σ} I_{x} I_{y} \\ \sum_{r} R_{σ} I_{x} I_{y} & \sum_{r} R_{σ} I_{y}^{2} \end{matrix}] (4)

其中，“*”表示卷积。R_σ一般为高斯函数，用来对结构张量进行平滑处理。虽然高斯函数对噪声的鲁棒性较好，但是它可能使边缘模糊。不同于常用的高斯函数，采用双边核对结构张量进行平滑处理，可以保持边缘信息，尽量避免边缘模糊。另外，也可以考虑将局部邻域幅度信息作为权重函数的一个因子。这里将拉普拉斯核加入权重函数中，那么混合加权核函数可以表示为：

图3

新窗口打开| 下载原图ZIP| 生成PPT

图3 测试场景（a）的深度图像处理

K_{b, σ_{d}, σ_{r}} = A F_{b} * B F_{σ_{d}, σ_{r}} (5)

其中， $B F_{σ_{d}, σ_{r}}$ 为双边核， AF_b为幅度滤波器，其计算式如下：

A F_{b} = \frac{1}{W^{A F}} e^{- \frac{| A_{p} - A_{q} |}{b}} (6)

其中，A为幅度图，p为当前待处理像素，q位于像素 p 的邻域 N(p)，即 q∈N(p)，b 表示权重带宽， $W^{A F} = Σ_{q}_{\in N (p)} e x p (- | A_{p} - A_{q} | / b)$ 表示归一化系数。

从改进的结构张量矩阵 $J_{σ}$ 可轻易得到矩阵的迹 $t r (J_{σ})$ 和秩 $r a n k (J_{σ})$ ，其具有如下特征：一是 $t r (J_{σ}) = 0$ 时，像素处于平坦区域；二是 $t r (J_{σ}) ＞ 0$ 且 $t r (J_{σ}) = 0$ 时，像素处于边缘处；三是 $t r (J_{σ}) > 0$ 且 $r a n k (J_{σ}) > 0$ 时，像素处于角点处。因此，通过改进结构张量矩阵的这一特性，就可以识别出深度图像中的边缘。最终得到的边缘图像 $E$ 如图4（e）所示。

图4

新窗口打开| 下载原图ZIP| 生成PPT

图4 常用的边缘检测算法结果

图4对比了常用的边缘检测方法。由图4可以看出，本文提出的边缘检测方法能够准确地检测到图像中大部分的边缘信息和无效像素。图4（a）为Roberts算子提取的边缘结果，该算子对噪声非常敏感；图4（b）展示了LOG算子的结果，该算子引入了大量的虚假边缘；如图4（c）所示，虽然Canny算子可以将所有边缘检测出来，但是对于图像左下角和右下角的无效像素的检测，性能显然还不够理想；图4（d）中的常用结构张量在探测虚假边缘时会出现边缘不连续及虚假边缘的情况，图中方框放大了边缘细节。

2.4 投票操作

经过边缘检测，有用的边缘信息和无效像素都存于边缘图像中，可根据投票决定对这些像素进行校正或剔除。将同时出现在边缘图像 $E$ 和连通域 $B_{k}^{l}$ 中的像素的数量记为 $m_{k}^{l}$ ，可表示为：

m_{k}^{l} = \sum_{(x, y) \in Z} B_{k}^{l} (x, y) \circ E (x, y) (7)

其中，“○”表示哈达玛积，即两矩阵相同位置像素相乘。

记录无效像素的图像 $Ê$ 可通过计算边缘像素数量 $m_{k}^{l}$ 在对应连通域 $B_{k}^{l}$ 中所占比例得到。

\hat{E} = {Z (x, y) | \frac{m_{k}^{l}}{n_{k}^{l}} > T, (x, y) \in B {}_{k}^{l}} (8)

设置比例阈值为T，若边缘像素数量 $m_{k}^{l}$ 在对应连通域 $B_{k}^{l}$ 中所占比例大于阈值，则这些像素被判为无效像素；而将边缘图像 $E$ 中剩余的像素判为飞行像素。这样，记录有效像素的深度图像 $V_{1}$ 为：

V_{1} = Z - (\hat{E} \cup H) (9)

通过投票操作，可将飞行像素和无效像素区分开。如图5 所示，白色像素为待校正的飞行像素，橙色像素为需删除的无效像素。飞行像素的深度值可以用双三次方插值算法进行校正^[16]。

图5

新窗口打开| 下载原图ZIP| 生成PPT

图5 有效像素提取结果

2.5 增强置信度

虽然大部分的无效像素都可被上述算法识别，但是当物体间距离较近时，错误像素可能会出现在间隙处，从而妨碍图像的后续处理。

测试场景（b）如图6（a）所示，包括一只手、一个被外套盖住的椅子和一个坐着人的椅子。然而，如图6（b）所示（深度值在右侧标出，单位为mm），在滤波前的原始深度图中，手指间存在很多错误像素，手掌完全无法被识别。如图6（c）所示，即使利用基于图像分割的有效深度数据提取方法，手掌的形状依然无法被识别。因此，进一步利用置信度图 $V_{1} = Z - (\hat{E} \cup H) (9)$ 识别错误像素，其中， $C = | A_{0} - A_{2} | + | A_{1} - A_{3} |$ ， $A_{i} （ i = 0, 1, 2, 3 ）$ 为To F相机在调制信号一个周期内采集到的4幅连续相位图。从图6（d）可以看出，手指间和背景的置信度明显低于手掌和手臂部分的置信度，即错误像素的置信度明显低于同距离处手掌和手臂的有效像素。利用这个特点，增强置信度可以构建为：

A C (x, y) = C (x, y) \cdot [Z (x, y) \cdot

\sqrt{{((x - c_{x}) / f_{x})}^{2} + {((y - c_{y}) / f_{y})}^{2} + 1}]^{2} (10)

其中，(c_x,c_y)为To F传感器的光学中心，f_x、f_y分别为相机沿x轴和y轴的焦距。

2.6 错误像素剔除

得到增强置信度图像后，通过设置一个阈值来区分错误像素和有效像素。这样可以得到另一幅记录有效像素的深度图像 $V_{2}$ 。如图6（e）所示，手从背景中很好地分离了出来，由于人的头发与裤子均为黑色，其较低的反射率造成对应像素的置信度低，从而被剔除。最终的深度图像可由 $V_{1}$ 和 $V_{2}$ 相交得到，如图6（f）所示（深度值在右侧标出，单位为mm）。从图6（f）可以看出，背景中大部分的无效像素都被滤除了，手、身体和被外套覆盖的椅子的深度信息均得到保留。

3 实验结果

为了评估本文所提算法性能，使用已标定好的索尼IMX316 ToF相机进行拍照测试。投射器发出的红外光线波长为940 nm，相机每个周期采样4幅强度图像，分辨率为240×180。从这4幅图像可以进一步得到置信度图像、幅度图像和深度图像。出于人眼的安全保护需要，投射器功率被限制，相机的最远工作距离被控制为5 m。

图7为场景I、场景II、场景III对应的RGB图像。场景I中的毛玻璃、场景II中办公桌的下方和场景III中的电视屏幕的反射率均较低，使用ToF相机测量得到的深度值剧烈波动，RMSE值均在100 mm以上，因此这些像素被判为无效数据并被剔除。

首先针对阈值T的选择进行分析，用核密度估计对探测的边缘占所在分割块比例进行拟合，统计结果如图8所示。一般情况下，飞行像素占所在分割块比例较低，而无效像素占所在分割块比例较高。根据图8中的拟合曲线可以得出，将阈值T设置为0.7时，其分割能力最好，基本可以将无效像素和飞行像素区分开。

图6

新窗口打开| 下载原图ZIP| 生成PPT

图6 测试场景（b）的深度图像处理

图7

新窗口打开| 下载原图ZIP| 生成PPT

图7 3个场景对应的RGB图像

图8

新窗口打开| 下载原图ZIP| 生成PPT

图8 探测的边缘占所在分割块比例统计

然后将FDT、AAT和ADT与本文所提算法进行性能对比，如图9 所示（深度值在右侧标出，单位为m m）。A AT中的参数bw_p为置信度，由幅度计算得到^[10]，置信度与幅度之间只是常系数的差别，因此可以认为两者等价。文中bw_p为对距离To F相机1 m处白墙测距得到的置信度。AAT在处理周期缠绕错误时，表现通常很好，但是当其被应用于低反射率物体时，无法很好地识别有效深度数据，并且会引入许多噪声，如图9（b）所示。尽管FDT在识别边缘方面性能更好，但是它无法区分有效像素和飞行像素，并且漏掉了大量无效像素，同时还引入了少量噪声。如图9（c）所示，FDT对图像4个角落的噪声的鲁棒性较差。从图9（d）可以看出ADT能够很好地识别飞行像素，并且在有效像素区域几乎不引入噪声，因此ADT对飞行像素的处理效果在几个对比算法中表现最好，但是对于无效像素的识别，ADT几乎没有起任何作用。与之相比，本文所提算法可以识别和校正大部分无效像素和飞行像素，同时引入非常少量的噪声，如图9（e）所示。为了更直观地观察深度图效果，利用标定好的内参，可以将图9（e）中的深度图转换为点云图，如图9（f）所示。

接下来对几种算法进行量化分析。由于 Sony SDK同样可生成最终深度图，且根据数据手册，测距精度小于1%，可通过其对同一场景测量的15帧深度图做平均，并将结果作为基准图像。然后基于互信息，分别用上述几种算法生成的深度图与其进行图像相似度度量^[17]，并进行比较。本次共对30个不同的室内场景进行测量，计算其与由 Sony 生成的深度图的相似度，并取平均值，结果见表1。

表1 各算法生成的深度图相似度

算法	最小相似度	平均相似度	最大相似度
AAT	0.000 6	0.05	0.13
FDT	0.04	0.12	0.27
ADT	0.06	0.2	0.3
本文所提算法	0.11	0.35	0.54

新窗口打开| 下载CSV

从表1中可以看到，量化结果与之前主观观察判断的结果一致，本文提出的算法生成的深度图与Sony的相似度最高，其次为ADT和FDT，AAT效果较差，几乎无法应对无效像素。

4 结束语

本文提出了一种基于 ToF 相机的有效深度数据提取的算法，利用深度图像和置信度图像，在剔除无效像素的同时，可以校正飞行像素的深度值。首先应用基于核密度估计的图像分割方法和连通域标记进行深度图像的自适应分割；然后通过改进权重核函数，使用改进的结构张量进行边缘检测；最后利用投票操作剔除无效像素，或者对飞行像素进行双三次方插值校正。与此同时，通过计算增强置信度来移除低置信度的错误像素。最终的深度数据由之前2幅深度图像相交得到。

实验结果证明了本文所提算法的有效性。相比于传统方法，本文所提算法可以剔除更多的无效像素，且保留更多的有效深度数据，同时，对于噪声的鲁棒性也更好。但是，目前深度图像还缺少地面真实值。在接下来的工作中，需要在构建具有地面真实值的场景数据库方面投入更多精力，从而进一步检测本文所提算法的性能。

图9

新窗口打开| 下载原图ZIP| 生成PPT

图9 3个测试场景的实验结果

The authors have declared that no competing interests exist.

作者已声明无竞争性利益关系。

参考文献

原文顺序

文献年度倒序

文中引用次数倒序

被引期刊影响因子

[1]

, CHE

N S

Recent advancees in 3D data acquiisition and processin ng by time-of-fliight camera

[J]. IEEE Access, 2019,7: 112495-12510.