视觉恰可察觉失真(just noticeable distortion,JND)直接反映人眼视觉系统对视觉信号噪声的敏感程度,广泛应用于图像和视频处理领域。针对视频 JND 阈值的多层级预测问题,将其转化为用户满意率(satisfied user ratio,SUR)曲线的预测问题,并提出一种基于特征融合的SUR曲线预测模型。该模型主要分为关键帧选择模块、特征提取和融合模块以及SUR分数回归模块。在关键帧选择模块,根据视觉感知机制,提出空时域感知复杂度并以此作为视频关键帧判决指标。在特征提取和融合模块,基于密集残差块(dense residual block,RDB)提出多尺度密集残差网络实现图像特征提取和多尺度融合。实验结果表明,所提出的SUR曲线预测模型在JND阈值预测精度方面整体优于现有模型,且在运行效率上平均降低8.1%的时间成本。同时,该模型还可以用于预测其他层级JND阈值,可直接应用于视频多层级感知编码优化。