鲁棒的非负监督低秩鉴别嵌入算法
1
2
Robust non-negative supervised low-rank discriminant embedding algorithm
1
2
通讯作者: 万鸣华,wmh36@nau.edu.cn
修回日期: 2021-08-05 网络出版日期: 2021-09-15
基金资助: |
|
Revised: 2021-08-05 Online: 2021-09-15
Fund supported: |
|
作者简介 About authors
姚裕(1997−),男,南京审计大学信息工程学院硕士生,主要研究方向为模式识别与特征提取 。
万鸣华(1978−),男,博士,南京审计大学信息工程学院教授,主要研究方向为模式识别与机器学习 。
非负矩阵分解(NMF)已经得到了广泛应用。但NMF更注重数据的局部信息,忽略了数据的全局信息,而在有噪声图像的分类问题上,数据的全局信息往往比局部信息更具鲁棒性。为了提高算法的鲁棒性,结合数据的局部与全局信息,并且考虑低秩表示的特性,提出了一种新的非负监督低秩鉴别嵌入算法,此算法假设数据存在噪声,将数据分解为干净数据与噪声数据,并通过L1范数对噪声矩阵进行稀疏约束,增强对噪声的鲁棒性。此外,该算法使用低秩表示学习到一个低秩矩阵,然后通过非负分解再一次增强算法的鲁棒性。最后结合图嵌入理论,同时保留了数据的局部性和全局性。将该算法应用于各种加噪数据库中发现,相对于对比方法,该算法识别率提升了5%~15%。
关键词:
Non-negative matrix factorization (NMF) has been widely used.However, NMF pays more attention to the local information of the data, it ignores the global representation of the data.In terms of image classification, the global information of the data is often more robust to noise than the local information.In order to improve the robustness of the algorithm, combined with the data of local and global representation, and considered the characteristics of low-rank representation, a non-negative supervised low-rank discriminant embedded algorithm was proposed.This algorithm assumed the existence of noise in the data, decomposed the data into clean data and noise data, and made sparse constraints on the noise matrix through the L1norm, so as to enhance the robustness to noise.In addition, the algorithm used low-rank representation to learn a low-rank matrix, then through non-negative decomposition, the robustness of the algorithm was enhanced again.Finally, combined with a study of graph embedding method, the local and global data were retained at the same time.The algorithm is applied to various noisy databases, and the recognition rate of this algorithm is improved by about 5%~15% compared with the comparison algorithm.
Keywords:
本文引用格式
姚裕, 万鸣华.
YAO Yu.
1 引言
作为一种基于局部的提取方法,NMF在特征提取领域已得到广泛使用,同时也产生了许多 NMF的扩展方法,包括稀疏NMF、鉴别NMF、正交NMF以及流形 NMF 等。有学者通过对非负矩阵施加稀疏编码,提出了一种新的非负稀疏编码(non-negative sparse coding,NNSC)方法[6],很大程度上增强了NMF的稀疏表示能力。Cai D等人[7]将 NMF 与流形结构结合,提出了图正则化 NMF (graph regularized NMF,GNMF)算法,从而保持了数据的内在几何结构。类似的算法还有流形正则化判别 NMF(manifold regularized discriminative NMF,MD-NMF)[8]、图嵌入正则化投影NMF(graph embedding regularized projection NMF,GEPNMF)[9]等。这些扩展算法都使 NMF 方法的能力得到了很大的提高。
低秩表示(low-rank representation,LRR)可以捕获数据的全局结构,揭示样本的隶属度。在图像分类中,局部信息和全局信息在特征提取和分类中都起着重要作用。NMF 方法在局部特征学习上具有较强的能力,但忽略了数据的全局信息,为了保持局部特征学习和全局学习能力,在 LRR 的激励下,本文提出了一种利用低秩、非负监督约束和稀疏性[12,13,14]的算法——非负监督低秩鉴别嵌入(non-negative supervised low-rank discriminant embedding,NSLRE)来分类被破坏的数据。笔者假设数据被严重损坏,并将L1范数作为假定的噪声矩阵的稀疏约束。NSLRE先学习低秩矩阵、恢复干净矩阵并去除数据中的噪声;然后,对学习到的低秩矩阵进行非负因子分解,保持数据的局部表示能力,在此基础上结合流形正则化保持数据的局部几何结构,进一步增强 NMF的局部属性。NSLRE能够同时进行低秩学习和非负性学习,能够很好地获得基于局部和全局的数据表示。这保证了 NMF 中两个非负矩阵的构造不受噪声的影响。该算法既能保留数据的局部几何信息,又能进行去噪处理,对有噪声的图像分类任务有较好的处理效果。该算法的主要优点如下。
(1)NSLRE结合了NMF和LRR的一些优点。该算法学习到的低秩矩阵具有类似于 LRR 的全局表示,基础矩阵具有类似于 NMF 的局部表示。将局部表示和全局表示结合进行非负学习,实现鲁棒图像分类。
(2)在没有数据噪声干扰的情况下,在学习到的投影子空间中,同一类的数据点可以尽可能接近,这可以提高基于NMF的鲁棒方法的判别能力。
2 相关工作
2.1 非负矩阵分解
给定一个训练集
它的迭代规则可以表示为:
其中,
2.2 低秩表示
给定一个训练集
其中,
对于被损坏的数据,将噪声矩阵
3 目标函数及迭代方法
3.1 目标函数
给定一个训练集
令
其中,
其中,
但是由于式(8)是一个NP问题,笔者将该问题用凸优化问题代替:
假设噪声是稀疏的,笔者使用L1范数对噪声矩阵
该模型考虑了样本的全局信息与局部信息,同时对样本添加低秩特性,确保误差是稀疏的。
3.2 优化方法
笔者用交替方向乘子法(alternating direction method of multiplier,ADMM)或增广拉格朗日乘子法(augmented Lagrangian multiplier,ALM)来解决式(4)~式(10)。具体利用核范数[18]的下列性质来解决。
定理 1 对于任意矩阵
根据定理1,可以将式(10)转化为式(11):
它的增广拉格朗日函数为:
可以通过固定其他变量的方法来求解每个变量。
(1)求解
固定其他变量求解
通过求解式(13)的偏导数并令其等于0可以得到:
其中,
(2)求解
固定其他变量求解
这是一个软阈值问题,可以通过收缩因子来求解该问题:
其中,
(3)求解
固定其他变量求解
经过简单的计算,式(18)可转化为:
假设拉格朗日乘子为
令
通过KKT条件可知,需要
从而可以进一步得到如下迭代规则:
(4)求解
求解
令
令
根据KKT条件
最后得出迭代规则为:
(5)求解
固定
求解式(29)的偏导数,且令其等于0得:
(6)求解
固定
求偏导数得:
(7)求解投影矩阵
固定投影矩阵
经过简单化简得到:
算法1展示了NSLRE的整个过程。
算法1 NSLRE
输入 训练集
步骤1:初始化
步骤2:从i= 1 : T做:
通过式(14)更新
通过式(16)更新
通过式(23)更新
通过式(28)更新
通过式(30)更新
通过式(32)更新
通过式(33)更新
更新拉格朗日乘子:
通过μ=min(ρμ,max μ)更新μ
输出 最优解
4 实验
4.1 数据集
ORL人脸数据库包含400张图像,共40个人,每个人10张图像。每张图像的大小为56×46像素,包含了每个人不同的姿势和面部表情。
Yale人脸数据库的图像数量较少,共165张图像,包含15个人,每个人有11张图像。每张图像的大小为80×100像素,表情、手势和灯光都不一样。
AR人脸数据库包含120个人的2 400张图像,每一张都被裁剪成50×40像素。
FERET人脸数据库包含200个人,每个人都有7张受不同照明影响的图像,共1 400张图像。每张图像都被调整为40×40像素。
PolyU掌纹数据库有100个人的600张图像。每个人的6个样本被采集了两次,采集间隔两个月。
4.2 实验参数
笔者从不同的数据集中选取不同的样本来测试本文提出的方法的性能。选择不同数据集中的t张图像作为训练样本,图像分别来自 ORL、Yale 和AR(t= 3,4,5,6)以及 FERET 人脸数据库(t= 2,3,4,5)。为了证明该方法的准确性,笔者将其与经典的线性方法LDA和低秩方法LRR、流形学习的方法LPP及其监督扩展SLPP、基于非负矩阵分解的方法NMF和鲁棒扩展方法RNMF以及基于相同低秩思想的LRNF方法进行比较。参数α和β的选择范围为{10-4,10-2,…,102,103}。最后使用最近邻分类器对提取的样本进行分类。
4.3 连续像素遮挡的鲁棒性检验
为了进一步测试 NSLRE 在面对不同层次的连续遮挡数据时的鲁棒性,笔者在图像的不同位置随机添加一些遮挡块,将块大小分别设置为 5×5 和10×10。ORL、Yale、AR 和 FERET 人脸数据库的原始图像及其不同级别连续遮挡的损坏图像见表1。
表1 ORL、Yale、AR和FERET人脸数据库的原始图像及其不同级别连续遮挡的损坏图像
人脸数据库 | 干净数据 | 遮挡块为5×5像素 | 遮挡块为10×10像素 |
ORL | |||
Yale | |||
AR | |||
FERET |
4.4 PolyU掌纹数据库的实验
图1
表2 块遮挡下ORL人脸数据库上各算法的最高识别率
算法 | 块大小为5×5 | 块大小为10×10 | ||||||
t=3 | t=4 | t=5 | t=6 | t=3 | t=4 | t=5 | t=6 | |
LDA | 57.87% | 64.37% | 70.83% | 76.51% | 56.42% | 60.21% | 66.83% | 70.21% |
LRR | 68.21% | 73.33% | 75.67% | 81.25% | 67.21% | 72.36% | 76.53% | 80.67% |
LPP | 66.71% | 72.34% | 74.5% | 80.21% | 64.27% | 69.55% | 72.61% | 78.25% |
SLPP | 73.66% | 77.11% | 78.11% | 83.06% | 67.34% | 72.6% | 78.07% | 81.95% |
NMF | 70.08% | 75.99% | 78.91% | 85.05% | 65.5% | 70.17% | 73.62% | 83.25% |
RNMF | 78.81% | 81.66% | 83.71% | 85.55% | 73.46% | 78.21% | 83.21% | 86.53% |
LRNF | 82.01% | 84.1% | 86.25% | 89.66% | 75.67% | 82% | 85.37% | 88.41% |
NSLRE | 86.07% | 88.33% | 90.61% | 93.58% | 83.05% | 86.58% | 88.51% | 92.12% |
表3 块遮挡下Yale人脸数据库上各算法的最高识别率
算法 | 遮挡块大小为5×5 | 遮挡块大小为10×10 | ||||||
t=3 | t=4 | t=5 | t=6 | t=3 | t=4 | t=5 | t=6 | |
LDA | 62.11% | 66.1% | 72.33% | 76.11% | 60.7% | 64.1% | 70.11% | 73.99% |
LRR | 72.16% | 75.23% | 78.66% | 82.22% | 71.42% | 73.33% | 76.16% | 81.11% |
LPP | 65.65% | 70.45% | 75.11% | 79.31% | 64.1% | 69% | 74.3% | 77.8% |
SLPP | 71.21% | 73.66% | 77.55% | 84.21% | 72.06% | 75.75% | 78.31% | 85.65% |
NMF | 69.06% | 72.08% | 76.08% | 82.25% | 68.26% | 71.88% | 77.33% | 80.25% |
RNMF | 83.33% | 85.71% | 88.2% | 90.5% | 81.66% | 82.71% | 84.88% | 89% |
LRNF | 86.12% | 88% | 91% | 92.12% | 80% | 84.71% | 86.2% | 90.21% |
NSLRE | 90.16% | 92.28% | 94.3% | 95.6% | 84.71% | 87.3% | 90% | 92.12% |
表4 块遮挡下AR人脸数据库上各算法的最高识别率
算法 | 遮挡块大小为5×5 | 遮挡块大小为10×10 | ||||||
t=3 | t=4 | t=5 | t=6 | t=3 | t=4 | t=5 | t=6 | |
LDA | 42.14% | 50.72% | 53% | 58.5% | 39.97% | 46.45% | 50.61% | 54% |
LRR | 61.68% | 65.11% | 69.85% | 74.93% | 58.75% | 62.11% | 66.25% | 71.99% |
LPP | 58.17% | 63.90% | 67.9% | 72% | 55.21% | 60.06% | 63.45% | 69% |
SLPP | 64.05% | 67.91% | 71.2% | 75.98% | 61.26% | 65.77% | 69.21% | 73.11% |
NMF | 62.33% | 68.11% | 72.25% | 77.25% | 61.07% | 66.21% | 71.33% | 75.81% |
RNMF | 68.21% | 72.11% | 76.25% | 79% | 65.33% | 69.25% | 73.67% | 76% |
LRNF | 70.15% | 74% | 77.15% | 82.97% | 70% | 75.11% | 76.87% | 80.46% |
NSLRE | 75.23% | 78.16% | 82.33% | 85.5% | 72.17% | 77.04% | 80.95% | 83.25% |
图2
图3
4.5 实验结果与分析
对于人脸数据库,图1显示了不同方法在ORL、Yale、AR和FERET人脸数据库上的最高识别率随训练样本数量的变化,表2至表5显示了不同算法随不同训练样本在不同人脸数据库上的最高识别率。上述结果表明,LPP和SLPP方法作为流形学习方法,识别率较LDA有所提升,因为LPP和SLPP都采用了图嵌入的思想,通过权重图来约束样本相邻点的相似度,流形学习方法更注重于保留数据内在的局部邻域结构。作为一种低秩表示方法,LRR将样本矩阵作为字典并进行自表示,在对噪声的鲁棒性上具有明显的优势。与NMF和RNMF相比, NSLRE因为引入了非负学习的思想,将非负因子分解融入算法中,所以效果更加显著。同时,相比LPP、NMF和LRR,NSLRE的识别率提升了5%~15%,这是因为NSLRE在考虑样本流形结构的情况下引入了低秩表示,通过对矩阵的分解来引入低秩特性提取主要特征,从而获得了更好的鲁棒性。最后,为了测试NSLRE的稳定性,图3和表6分别展示了NSLRE在 PolyU 掌纹数据库上原始样本的最高识别率和样本加噪后的最高识别率。从图3和表6中可以看出, NSLRE 在经过块遮挡干扰后仍能保持良好的识别率,模型具有良好的鲁棒性。
表5 块遮挡下FERET人脸数据库上各算法的最高识别率
算法 | 遮挡块大小为5×5 | 遮挡块大小为10×10 | ||||||
t=2 | t=3 | t=4 | t=5 | t=2 | t=3 | t=4 | t=5 | |
LDA | 41% | 42% | 46.75% | 48.3% | 38.55% | 41.14% | 44.5% | 47.33% |
LRR | 59.21% | 61.36% | 66.21% | 71.17% | 56.09% | 58.11% | 65.34% | 69.09% |
LPP | 57.8% | 59.5% | 64.25% | 69% | 54.1% | 56.5% | 63% | 67% |
SLPP | 57.4% | 64.2% | 67.6% | 73.9% | 55.8% | 62.03% | 68.77% | 72.95% |
NMF | 59.05% | 65.01% | 71.98% | 74.09% | 57.11% | 62.61% | 65.30% | 72.34% |
RNMF | 65.39% | 70.25% | 77.65% | 80.5% | 63.21% | 66.96% | 74.11% | 78.10% |
LRNF | 70.2% | 73.1% | 80.62% | 86.21% | 68.36% | 71% | 76.33% | 82.25% |
NSLRE | 75.23% | 78.16% | 82.33% | 87.60% | 73.32% | 76.61% | 81.45% | 86.12% |
表6 PolyU掌纹数据库上各算法的最高识别率
算法 | 原始图像 | 遮挡块大小为5×5 | 遮挡块大小为10×10 |
LDA | 73.51% | 68.21% | 62.52% |
LRR | 77.11% | 73.32% | 69.15% |
LPP | 81.24% | 76.56% | 73.34% |
SLPP | 80.27% | 77.15% | 71.69% |
NMF | 85.63% | 83.12% | 76.87% |
RNMF | 89.92% | 85.61% | 79.13% |
LRNF | 90.45% | 85.1% | 82.92% |
NSLRE | 93.31% | 88.70% | 84.30% |
5 结束语
本文提出了一种新的低秩非负矩阵分解算法——非负监督低秩鉴别嵌入算法,它在一定程度上解决了非负矩阵分解存在的一些问题。此算法有效地结合了低秩表示、非负矩阵分解以及图嵌入的特性。它假设数据被噪声损坏,通过L1范数约束噪声,通过核范数约束低秩矩阵,并在此基础上进行非负矩阵分解,最后结合图嵌入的方法保留了样本的局部性和全局性,这使得模型的鲁棒性较强。在对不同数据集进行加噪处理后,通过实验对所提算法进行分析,进一步证明了该算法的有效性。
参考文献
基于局部Fisher准则判别投影的人脸识别算法
[J]. ,
Face recognition algorithm based on local Fisher criterion discriminant projections
[J].
Constructing PCA baseline algorithms to reevaluate ICA-based face-recognition performance
[J]. ,
基于高维特征表示的交通场景识别
[J]. ,
Transportation scene recognition based on high level feature representation
[J].
BDPCA plus LDA:a novel fast feature extraction technique for face recognition
[J]. ,
Adaptive local linear discriminant analysis
[J]. ,
Non-negative sparse coding
[C]//
Graph regularized nonnegative matrix factorization for data representation
[J]. ,
Manifold regularized discriminative nonnegative matrix factorization with fast gradient descent
[J]. ,
图嵌入正则化投影非负矩阵分解人脸图像特征提取
[J]. ,
Graph embedding regularized projective non-negative matrix factorization for face image feature extraction
[J].
Robust non-negative matrix factorization
[J]. ,
Robust nonnegative matrix factorization using L2.1-norm
[C]//
Sparse representation for computer vision and pattern recognition
[J]. ,
Robust face recognition via sparse representation
[J]. ,
Gabor feature based sparse representation for face recognition with Gabor occlusion dictionary
[C]//
Robust recovery of subspace structures by low-rank representation
[J]. ,
Robust subspace segmentation by low-rank representation
[C]//
Robust subspace segmentation by low-rank representation
[C]//
Spectral regularization algorithms for learning large incomplete matrices
[J]. ,
/
〈 | 〉 |