智能科学与技术学报 ›› 2023, Vol. 5 ›› Issue (3): 380-388.doi: 10.11959/j.issn.2096-6652.202334

• 专题:扩散模型和人工智能内容生成 • 上一篇    下一篇

基于扩散模型数据增广的域泛化方法

童煜钧1, 王荷清1, 罗悦恒1, 宁文欣1, 关曼丹1, 喻雯晴1, 黄柯彦2, 张加迅2, 马占宇1   

  1. 1 北京邮电大学人工智能学院,北京 100876
    2 北京空间飞行器总体设计部,北京 100094
  • 修回日期:2023-08-10 出版日期:2023-09-01 发布日期:2023-09-26
  • 作者简介:童煜钧(1999- ),男,北京邮电大学人工智能学院博士生,主要研究方向为迁移学习、域泛化
    王荷清(2000- ),女,北京邮电大学人工智能学院硕士生,主要研究方向为计算机视觉与机器学习
    罗悦恒(2001- ),北京邮电大学模式识别实验室硕士生,主要研究方向为计算机视觉
    宁文欣(2001- ),女,北京邮电大学人工智能学院硕士生,主要研究方向为人工智能、计算机视觉
    关曼丹(2000- ),女,北京邮电大学人工智能学院硕士生,主要研究方向为人工智能、计算机视觉、少样本学习
    喻雯晴(1999- ),女,北京邮电大学人工智能学院硕士生,主要研究方向为计算机视觉、细粒度图像识别
    黄柯彦(1977- ),男,就职于北京空间飞行器总体设计部
    黄柯彦(1977- ),男,就职于北京空间飞行器总体设计部
    马占宇(1982- ),男,博士,北京邮电大学人工智能学院教授、博士生导师,主要研究方向为模式识别、机器学习、计算机视觉、非高斯概率模型、贝叶斯网络
  • 基金资助:
    北京市自然科学基金项目(Z200002);国家自然科学基金项目(U19B2036);国家自然科学基金项目(62225601);北京邮电大学优秀青年团队项目(2023QNTD02);北京邮电大学博士生创新基金项目(CX2023112)

Data augmentation method based on diffusion model for domain generalization

Yujun TONG1, Heqing WANG1, Yueheng LUO1, Wenxin NING1, Mandan GUAN1, Wenqing YU1, Keyan HUANG2, Jiaxun ZHANG2, Zhanyu MA1   

  1. 1 School of Artificial Intelligence, Beijing University of Posts and Telecommunications, Beijing 100876, China
    2 Beijing Institute of Spacecraft System Engineering, Beijing, 100094, China
  • Revised:2023-08-10 Online:2023-09-01 Published:2023-09-26
  • Supported by:
    Beijing Natural Science Foundation Project(Z200002);The National Natural Science Foundation of China(U19B2036);The National Natural Science Foundation of China(62225601);Youth Innovative Research Team of BUPT(2023QNTD02);BUPT Excellent Ph.D.Students Foundation(CX2023112)

摘要:

域泛化是计算机视觉领域中一个重要且具有挑战性的问题,该问题源于现实场景中的数据分布偏移。在实际应用中,通常会遇到训练数据和测试数据来自不同的数据域的情况,这种数据分布的差异会导致测试时准确率下降。因此,提出了一种基于隐空间数据增广的域泛化方法,与传统图像级数据增广方法不同,该方法在隐空间中引入扩散模型,以实现对特征的精细控制和多样性生成,从而提升模型在目标域上的泛化能力。具体来说,基于分类器的隐式扩散模型在隐空间训练后可以条件生成准确且丰富的源域特征,并利用高效的采样方法加速生成增广特征。实验结果表明,新提出的方法在各种域泛化任务上取得了显著的性能提升,在真实场景中有较好的有效性和鲁棒性。该方法的创新点在于将数据增广焦点转移到隐空间级别,并引入扩散模型进行增广,为解决域泛化问题提供了一种新的思路。

关键词: 域泛化, 扩散模型, 数据增广

Abstract:

Domain generalization is an important and challenging problem in computer vision, arising from the distribution shift of real-world data.In practical applications, it is common to encounter training and testing data from different domains, and the difference in data distribution can lead to performance degradation during testing.In this paper, we propose a domain generalization method based on latent space data augmentation.Unlike traditional image-level data augmentation approaches, the method introduces a diffusion model in the latent space to achieve fine control and diversity generation of features, thereby achieving feature level data augmentation and enhancing the model's generalization ability in the target domain.Specifically, the classifier-based implicit diffusion model, trained within the latent space, can conditionally generate accurate and rich source domain features.It leverages efficient sampling techniques to expedite the generation of augmented features.Experimental results show that the method has achieved significant performance improvement in various domain generalization tasks, and has good effectiveness and robustness in real scenarios.The key innovation of this paper lies in shifting data augmentation to the latent space level and introducing the diffusion model for augmentation, providing a novel approach to address the domain generalization problem.

Key words: domain generalization, diffusion model, data augmentation

中图分类号: 

No Suggested Reading articles found!