上海交通大学学报, 2023, 57(5): 613-623 doi: 10.16183/j.cnki.jsjtu.2022.032

电子信息与电气工程

基于窗口自注意力网络的单图像去雨算法

高涛1, 文渊博,1, 陈婷1, 张静2

1.长安大学 信息工程学院,西安 710064

2.澳大利亚国立大学 工程与计算机学院,澳大利亚 堪培拉 2600

A Single Image Deraining Algorithm Based on Swin Transformer

GAO Tao1, WEN Yuanbo,1, CHEN Ting1, ZHANG Jing2

1. School of Information Engineering, Chang’an University, Xi’an 710064, China

2. College of Engineering and Computer Science, Australian National University, Canberra 2600, ACT, Australia

通讯作者: 文渊博,硕士生;E-mail:wyb@chd.edu.cn.

责任编辑: 王一凡

收稿日期: 2022-02-14   修回日期: 2022-03-20   接受日期: 2022-04-28  

基金资助: 国家重点研发计划项目(2019YFE0108300)
国家自然科学基金项目(52172379)
国家自然科学基金项目(62001058)
陕西省重点研发计划(2019GY-039)
中央高校基本科研业务费专项资金项目(300102242901)
中央高校基本科研业务费专项资金项目(300102112601)

Received: 2022-02-14   Revised: 2022-03-20   Accepted: 2022-04-28  

作者简介 About authors

高涛(1981-),教授,博士生导师,现主要从事数字图像处理和模式识别研究.

摘要

单图像去雨研究旨在利用退化的雨图恢复出无雨图像,而现有的基于深度学习的去雨算法未能有效地利用雨图的全局性信息,导致去雨后的图像损失部分细节和结构信息.针对此问题,提出一种基于窗口自注意力网络 (Swin Transformer) 的单图像去雨算法.该算法网络主要包括浅层特征提取模块和深度特征提取网络两部分.前者利用上下文信息聚合输入来适应雨痕分布的多样性,进而提取雨图的浅层特征.后者利用Swin Transformer捕获全局性信息和像素点间的长距离依赖关系,并结合残差卷积和密集连接强化特征学习,最后通过全局残差卷积输出去雨图像.此外,提出一种同时约束图像边缘和区域相似性的综合损失函数来进一步提高去雨图像的质量.实验表明,与目前单图像去雨表现优秀的算法MSPFN、 MPRNet相比,该算法使去雨图像的峰值信噪比提高0.19 dB和2.17 dB,结构相似性提高3.433%和1.412%,同时网络模型参数量下降84.59%和34.53%,前向传播平均耗时减少21.25%和26.67%.

关键词: 计算机视觉; 单图像去雨; 窗口自注意力网络; 残差网络; 自注意力机制; 空洞卷积

Abstract

Single image deraining aims to recover the rain-free image from rainy image. Most existing deraining methods based on deep learning do not utilize the global information of rainy image effectively, which makes them lose much detailed and structural information after processing. Focusing on this issue, this paper proposes a single image deraining algorithm based on Swin Transformer. The network mainly includes a shallow features extraction module and a deep features extraction network. The former exploits the context information aggregation module to adapt to the distribution diversity of rain streaks and extracts the shallow features of rainy image. The latter uses Swin Transformer to capture the global information and long-distance dependencies between different pixels, in combination with residual convolution and dense connection to strengthen features learning. Finally, the derained image is obtained through a global residual convolution. In addition, this paper proposes a novel comprehensive loss function that constrains the similarity of image edges and regions synchronously to further improve the quality of derained image. Extensive experimental results show that, compared with the two state-of-the-art methods, MSPFN and MPRNet, the average peak signal-to-noise ratio of derained images of our method increases by 0.19 dB and 2.17 dB, and the average structural similarity increases by 3.433% and 1.412%. At the same time, the model parameters of the proposed network decreases by 84.59% and 34.53%, and the forward propagation time reduces by 21.25% and 26.67%.

Keywords: computer vision; single image deraining; Swin Transformer; residual network; self-attention mechanism; dilated convolution

PDF (26863KB) 元数据 多维度评价 相关文章 导出 EndNote| Ris| Bibtex  收藏本文

本文引用格式

高涛, 文渊博, 陈婷, 张静. 基于窗口自注意力网络的单图像去雨算法[J]. 上海交通大学学报, 2023, 57(5): 613-623 doi:10.16183/j.cnki.jsjtu.2022.032

GAO Tao, WEN Yuanbo, CHEN Ting, ZHANG Jing. A Single Image Deraining Algorithm Based on Swin Transformer[J]. Journal of Shanghai Jiaotong University, 2023, 57(5): 613-623 doi:10.16183/j.cnki.jsjtu.2022.032

雨天场景下获取到的图像会由于雨痕的存在造成目标遮挡、细节模糊和对比度下降等退化问题[1],严重影响后续的计算机视觉任务,如目标检测[2]和语义分割[3]等.同时,雨图中雨痕的分布往往不尽相同,加之单图像是时空静止的[4],这进一步增加单图像去雨的难度.因此,单图像去雨研究具有极大的现实意义.

目前已有的单图像去雨算法主要分为模型驱动和数据驱动两类[5].在基于模型驱动的算法中,传统的滤波器[6]、字典学习[7]、稀疏编码[8]和高斯混合模型[9]等算法无法适应雨痕的多样性,从而导致去雨后的图像中残留大量雨痕.随着深度学习技术的发展,基于数据驱动的单图像去雨方法相比传统方法表现出更大优势.Fu等[10]将雨图分解为基础层和细节层,利用卷积神经网络 (Convolutional Neural Network, CNN) 去除细节层的雨痕,最后与增强后的基础层相加得到去雨图像.Wei等[11]利用有监督的合成雨图训练网络的同时加入无监督的自然雨图,从而提升网络在自然雨图上的泛化性能.Zhang等[12]基于雨痕的密度信息提出一种多流密集连接网络对雨痕进行去除.Yasarla等[13]利用不确定性引导的多尺度残差网络检测雨痕,再通过循环旋转机制得到去雨图像.Li等[14]将压缩激励机制和空洞卷积引入图像去雨网络,利用雨图的上下文信息去除雨痕.Ren等[15]提出一种循环渐进的单图像去雨基线网络,该网络在减小模型参数的同时能够提高去雨图像的质量.Jiang等[16]将不同分辨率尺度的雨图送入网络进行训练,并提出一种多尺度特征融合策略来得到去雨图像.Zamir等[17]将图像去雨分为多个阶段的子任务,利用编解码器网络学习特征,最后通过专门的恢复网络输出去雨图像.但是,现有的深度学习单图像去雨算法多是基于具有平移不变性和局部敏感性的CNN实现,并未有效利用雨图的全局性信息和像素间的长距离依赖关系,从而导致去雨后的图像损失部分细节和结构信息.

为有效解决上述问题以及充分利用雨图的全局性信息,受自注意力网络Transformer[18]的启发,本文提出一种基于窗口自注意力网络 (Swin Transformer) 的单图像去雨算法.该算法的网络输入层是一个上下文信息聚合块 (Context aGgregating Block, CGB),其采用并行多尺度空洞卷积来融合多个感受野的信息,从而在初始阶段使算法适应雨痕分布的多样性.深度特征提取网络利用CNN学习雨图的局部特征,同时利用Transformer学习全局性特征和像素点间的长距离依赖关系,从而获得更加准确的语义表达.此外,为保证去雨图像更加接近无雨图像和人眼的视觉特点,提出一种同时约束图像边缘和区域相似度的综合损失函数.

1 自注意力网络

Transformer是一种由编码器和解码器组成的深度神经网络,主要由多头自注意力机制 (Multi-head Self-Attention, MSA) 和多层感知机 (Multi-Layer Perceptron, MLP) 组成,其输入与输出都是向量.对于输入向量X0∈RN×D,其中N代表向量的个数,D代表向量的维度.在自然语言处理中,X0是句中单词的词符或字符序列.在计算机视觉中,X0则是图像的像素点序列.Transformer的关键在于自注意力机制强化特征学习,可以表示为

SA(Q, K, V)=SoftMax(QKT/dK+B)V

式中:Q,K,V分别为查询向量、键向量和值向量;dKK的维度;B为可学习位置编码;SoftMax为激活函数;SA为单头自注意力计算结果.同时Q,K,V满足:

Q=X0PQ, K=X0PK, V=X0PV

式中:PQ,PK,PV分别为Q,K,V的权重矩阵.Transformer利用MSA将多个自注意力的结果进行拼接,

MSA(Q, K, V)=Concat(SA1, SA2, …, SAn)W0

式中:W0为权重矩阵;n为MSA自注意力头的个数;Concat代表按通道维度拼接特征图.之后,引入残差连接并进行标准化,

=LayerNorm(X0+MSA(Q, K, V))

式中:X^1为Transformer层的中间输出;LayerNorm为层标准化操作.最后经过一个MLP层,从而Transformer的主要结构可以表示为

X1=LayerNorm(+MLP())

式中:X1为Transformer层的输出.

近年来Transformer在目标检测和图像分类等领域表现出巨大优势[19].相比CNN,Transformer能够有效提取图像全局性信息和建立像素点间长距离依赖关系,从而可利用较小的网络参数媲美甚至超越CNN的表现.但由于单图像去雨问题输入的分辨率往往很高,而经典Transformer中MSA的计算复杂度与分辨率呈平方关系,严重限制其在单图像去雨这类像素级计算机视觉任务中的应用.

2 本文算法

本文提出的基于窗口自注意力网络的单图像去雨算法的主要结构如图1所示.图中:RSTB为残差窗口自注意力网络块 (Residual Swin Transformer Block, RSTB);Conv为卷积层;D1、D2、D5分别表示该卷积层的扩张因子设置为1、2、5;©表示Concat操作;STL为窗口自注意力网络层 (Swin Transformer Layer, STL).该算法的主要流程为:雨图首先通过适应雨痕分布多样性的CGB进入网络,再通过由CNN和Transformer构成的密集残差窗口自注意力网络 (Dense Residual Swin Transformer, DRST) 来提取深度特征, 最后通过一个引入全局残差的卷积层输出去雨图像.

图1

图1   基于窗口自注意力网络的单图像去雨网络结构

Fig.1   Single image deraining network based on Swin Transformer


2.1 上下文信息聚合块

文献[20]中表明,卷积适合Transformer的早期视觉处理,同时有助于稳化训练过程和提高性能,因此本文算法利用卷积将雨图映射到高维特征空间从而提取雨图的浅层特征.但是,由于不同雨图中雨痕的分布存在差异,而普通卷积核要扩大感受野来提取更大范围的雨痕分布信息必须通过增大卷积核、增加步长或池化操作来实现.但增大卷积核会增加网络计算量,增加步长和池化操作会损失雨图的分辨率信息.空洞卷积[21]可以在扩大感受野的同时不损失分辨率信息,其感受野大小r可以表示为

r1=(k-1)d+1ri=(k-1)d+ri-1, i=2, 3, 

式中:k为卷积核的大小;d为扩张因子.

本文算法在网络输入层设计一种上下文信息聚合模块CGB,该模块利用空洞卷积扩大感受野来提取不同范围的雨痕分布信息.CGB根据文献[22]中采用扩张因子分别为1,2,5的并行空洞卷积,并将得到的雨图特征进行拼接,最后经过一个1×1卷积来融合特征,从而令算法具有适应不同雨痕分布的能力.因此,CGB一方面将输入雨图映射到高维空间,稳化网络训练过程的同时提高去雨效果;另一方面利用不同扩张因子的空洞卷积来自适应雨痕分布信息,提高网络对雨痕的泛化能力.CGB可以表示为

CGB(x)=W1×1(Concat(W3×3, 1(x)+W3×3, 2(x)+W3×3, 5(x)))

式中:x为输入雨图;Wk×k, d表示该层卷积核大小为k,扩张因子为d.

2.2 深度特征提取网络

2.2.1 窗口自注意力网络

随着对视觉Transformer的研究,Liu[19]提出Swin Transformer,并在图像超分等领域[23]表现出良好的性能,如图2所示是其主要结构.图中:x^为中间特征;l为特征阶段.该网络的窗口自注意力机制 (Window based on Multi-head Self-Attention, W-MSA) 将Transformer的自注意力计算限制在设定的窗口范围内,从而令W-MSA的计算复杂度与输入分辨率呈线性关系.具体而言,W-MSA将结构为H×W×C的输入特征图重构为HW/M2×M2×C的结构,即将特征图分割成不重叠的大小为M×M的窗口,HW/M2是分割得到的窗口数量,之后在窗口范围内分别计算自注意力.

图2

图2   窗口自注意力网络的主要层结构

Fig.2   Main layer of Swin Transformer


W-MSA存在的问题是其只在每个分割开的窗口内计算自注意力,不同窗口间未进行信息融合和传递.因此,在W-MSA之后使用移位窗口自注意力 (Shifted Window based on Multi-head Self-Attention, SW-MSA),即将原W-MSA中分割的窗口分别沿直角坐标的两个方向移动半个窗口大小的距离,从而实现相邻窗口间的信息交互.在实际操作中,SW-MSA是将前述窗口移位后得到的大小不一致的分割窗口进行重组,从而保证每个窗口的大小与原W-MSA窗口的大小一致,最后再使用掩膜隔绝不相邻区域来避免特征混淆.SW-MSA对移位窗口的重组示意图如图3所示.

图3

图3   移位窗口重组示意图

Fig.3   Diagram of relocating shifted windows


W-MSA的特征图经SW-MSA移位由原来的4个窗口变为9个窗口,且9个窗口的大小不完全一致,不利于后续计算.因此,SW-MSA继续将编号分别为 (6, 4),(8, 2) 和 (7, 9, 3, 1) 的小窗口合并,从而得到新的4个与W-MSA大小一致的窗口,再分别在每个窗口中计算自注意力即可实现不同窗口间信息的交互.因此,STL必须成对存在,可以表示为

Xl=W-MSA(LayerNorm(Xl-1))+Xl-1Xl=MLP(LayerNorm(Xl))+XlXl+1=SW-MSA(LayerNorm(Xl))+XlXl+1=MLP(LayerNorm(Xl+1))+Xl+1

式中:Xl-1为输入;Xl,Xl+1分别为第1个STL和第2个STL的输出;Xl,Xl+1为两个STL的中间输出.

2.2.2 密集残差窗口自注意力网络

本文算法在STL末端引入残差卷积来构建DRST的核心模块RSTB.其中,残差连接可以进行雨图高低级特征的融合,确保网络习得特征的准确性和避免梯度弥散问题[24],这符合单图像去雨网络保护分辨率信息的要求.此外,由于Swin Transformer每次移位半个窗口,这严重限制网络中不同窗口间信息的充分交互,在STL末端引入卷积操作可以强化特征学习.同时根据文献[23]可知,将卷积的归纳偏置引入Swin Transformer便于后续不同级别特征的融合.RSTB可以表示为

Xi+1=Conv(STLm(…STL2(STL1(Xi))))+Xi

式中:Xi为RSTB的输入;Xi+1为RSTB的输出;m为RSTB中STL的个数.但是由于多个串联的RSTB无法促进特征信息在不同网络层间的流动,因此本文算法在多个串联的RSTB之间间隔地引入密集连接[25]构建密集残差窗口自注意力网络块 (Dense Residual Swin Transformer Block, DRSTB) 来充分融合不同深度的高低级特征,DRSTB中某一阶段的输出可以表示为

Xi=RSTBi-1(RSTBi-2(Xi-2))+Xi-2+Xi-4+…

DRSTB的末端引入残差卷积来强化特征学习构成密集残差窗口自注意力网络DRST,从而DRST的末端可以表示为

Xout=Conv(DRSTB(Xin))+Xin

式中:Xin为DRST中最后一个DRSTB的输入;Xout为DRST的输出.最后通过全局残差卷积输出去雨图像,则本文算法的整体可以表示如下:

y=Conv(DRST(CGB(x)))+x

式中:y为输出去雨图像.

2.3 损失函数

图像可以分为高频和低频分量,低频分量主要是图像中平滑无突变的区域,高频分量主要是图像中边缘突变的部分,因此图像同时具有边缘性和区域性特点.然而,常用的损失函数如均方误差 (Mean Square Error, MSE) 会模糊去雨图像的边缘细节.本文提出一种同时约束去雨图像y与无雨图像ygt间边缘和区域相似性的综合损失函数,该函数由边缘Edge损失[16]和结构相似性 (Structural SIMilarity, SSIM) 损失[26]两部分组成,其中Edge损失赋予图像边缘的像素点较大权值后再计算MSE,其数学形式为

LEdge= Δ(y)i-Δ(ygt)i2+ε2

式中:Δ(·)为拉普拉斯滤波操作[27];ε=0.001,为维稳常数.

SSIM损失利用图像的区域性特点,分别从亮度、对比度和结构3个角度来综合评价两幅图像的相似程度,其数学形式为

SSIM(y, ygt)= 2μyμygt+C1μy2μygt2+C12σyygt+C2σy2σygt2+C2

式中:μy,μygt分别为去雨图像和无雨图像的灰度均值;σy,σygt分别为去雨图像和无雨图像的灰度方差;σyygt为去雨图像和无雨图像的灰度协方差;C1和C2为常数,满足:

C1=(K1L)2, C2=(K2L)2

根据文献[26]中K1=0.01,K2=0.03;L为图像像素点的灰度范围,一般取值1或255.由于SSIM的值越大表明两图像的相似度越高,所以在训练网络时将最大化SSIM转换为最小化SSIM损失:

LSSIM=1-SSIM(y, ygt)

进而本文提出的综合损失函数Loss可以表示为

Loss=LEdge+βLSSIM

式中:根据文献[16]中β的值取0.05.

3 实验结果分析

为验证本文算法的有效性,实验在6个合成雨图数据集和1个自然雨图数据集上进行.合成雨图数据集分别为:文献[10]中提供的Rain14000,其中存在14种不同大小和方向的雨痕,分为 12 600 对训练图像和 1 400 对测试图像;文献[28]中提供的数据集Rain800,其中包括700对训练图像和100对测试图像;文献[29]中提供的两个数据集Rain100H和Rain100L,前者包括5种不同的雨痕,训练图像对和测试图像对分别为 1 800 和100,而后者仅存在一种雨痕,训练图像和测试图像对分别为200和100;文献[12]中提供的Rain1200,其中包括3种雨密度不同的雨痕,分为 12 000 对训练图像和 1 200 对测试图像;文献[9]中提供的Rain12,其中包含12对雨图和无雨图像.自然雨图数据集由文献[30]提供,其中包括300张自然雨图.

3.1 数据集设置

现有的单图像去雨算法大多是在单一数据集上分别进行训练与测试,不利于去雨效果和算法泛化性能的对比.本文依据文献[16]中对6个合成雨图数据集的训练样本和测试样本进行重新划分,进而将训练样本组合成一个统一的融合训练数据集,具体的数据集设置如表1所示.因此,实验使用的训练集包括13 712对雨图像和无雨图像,测试集分为5部分,分别是Test2800[10],Test100[28],Rain100H[29],Rain100L[29]和Test1200[12].

表1   单图像去雨数据集的划分与重命名

Tab.1  Partition and rename of single image deraining datasets

数据集训练样本对测试样本对重命名
Rain14000[10]11 2002 800Test2800
Rain800[28]700100Test100
Rain100H[29]1 800100Rain100H
Rain100L[29]0100Rain100L
Rain1200[12]01 200Test1200
Rain12[9]120

新窗口打开| 下载CSV


3.2 实验环境与训练设置

本文所有的实验均在Windows操作系统下进行,CPU为Intel(R) Xeon(R) Gold 5218,GPU为双NVDIA Quadro RTX 4000,深度学习框架为Pytorch 1.7.上下文信息聚合输入块CGB输入卷积核大小为3×3,空洞率分别为1, 2, 5,特征图的通道数为32.深度特征提取网络DRST包含3个DRSTB和一个残差卷积,每一个DRSTB包括2个RSTB,每个RSTB包括4个STL和一个残差卷积.其中卷积核的大小为3×3,W-MSA和SW-MSA的自注意力窗口大小为8×8,自注意力头的个数为6,中间特征图的通道数为96,激活函数LeakyReLU的泄漏值设为0.2.本文算法的训练次数为200,每次参与训练的图像为16对,大小为64像素×64像素.梯度优化算法AdamW的初始学习率为0.001,在训练过程中当训练次数为90, 130和160时学习率分别降为之前的20%.

3.3 消融实验

3.3.1 网络组成

为验证本文算法相比其他网络组成进行单图像去雨的优势,消融实验针对不同网络组成的去雨结果进行分析.主要包括:浅层特征提取模块选用CGB与单卷积;深度特征提取网络部分首先选用骨干网络残差网络 (Residual Network, ResNet)[24] 与Swin Transformer;其次选用在成对的STL末端引入残差卷积的RSTB与未引入的STB;之后选用在间隔的RSTB引入密集连接的的DRSTB与未引入的RSTB;最后对比在DRSTB末端是否引入全局残差卷积对最终去雨图像质量的影响.网络组成消融实验的对比结果如表2所示,图像质量评价指标选择峰值信噪比 (Peak Signal of Noise Ratio, PSNR)[31] 和SSIM,其值越大表明去雨图像质量越高.

表2   测试数据集Test1200[12]上的网络组成消融实验对比结果

Tab.2  Comparative results of network components ablation study on Test1200[12] dataset

网络组成组合方式
输入层单卷积×
CGB×××××
特征提取网络ResNet×××××
STB×
RSTB××
DRSTB×××
DRST××××
输出层单卷积
PSNR/dB25.4127.3528.9430.2732.1534.83
SSIM0.8460.8820.8860.9040.9120.924

新窗口打开| 下载CSV


表2可知,在同一训练条件下,骨干网络Swin Transformer相比ResNet在PSNR和SSIM上分别提升1.94 dB和4.26%,这表明Swin Transformer相比ResNet能更好地去除雨痕.当在STB和DRSTB末端引入残差卷积后,网络的去雨图质量在PSNR上分别提升1.59 dB和1.88 dB,这证明本文利用Swin Transformer和CNN结合学习雨图全局性特征和局部特征相比Swin Transformer单独使用更加具有优势.本文算法在深度特征提取网络中引入密集连接,实验表明密集连接使网络去雨图像质量在PSNR和SSIM上分别提升1.33 dB和2.03%.在网络输入层,实验表明CGB相比单卷积能使网络产生更好的表现,具体在PSNR上提升2.68 dB,在SSIM上提升1.32%.因此,实验证明本文算法网络结构的设计是合理的.

3.3.2 损失函数

为验证所提综合损失函数的有效性,实验将本文的单图像去雨网络分别由MSE损失、Edge损失[16]、SSIM损失[26]、MSE损失与SSIM的组合 (MSE, SSIM)以及Edge损失与SSIM的组合 (Edge, SSIM) 训练得到的去雨图像质量进行对比.损失函数消融实验的对比结果如表3所示.

表3   测试数据集Test1200[12]上的损失函数消融实验对比结果

Tab.3  Comparative results of loss functions ablation study on Test1200[12] dataset

损失函数PSNR/dBSSIM
MSE29.570.884
Edge29.240.891
SSIM30.680.903
(MSE, SSIM)32.790.916
(Edge, SSIM)34.830.924

新窗口打开| 下载CSV


实验表明,由Edge和SSIM综合损失训练的网络性能与单独使用MSE, Edge和SSIM相比,在PSNR指标上分别上升5.26,5.59,4.15 dB,在SSIM指标上分别上升4.52%,3.70%,2.33%.同时比现有算法常用的MSE与SSIM综合损失在PSNR和SSIM指标上分别提升2.04 dB和0.87%.因此,本文提出的综合损失函数能够很好地保持图像细节和结构信息,相比其他常用损失函数具有更好的表现.

3.4 算法性能对比

3.4.1 合成雨图

为验证本文算法在合成雨图去雨上的优势, 实验将DerainNet[10], SEMI[11], DIDMDN[12], UMRL[13], RESCAN[14], PReNet[15], MSPFN[16], MPRNet[17]与本文算法的去雨性能进行比较. 不同算法在合成雨图上的定量对比结果如表4所示. 表中:在各测试数据集上指标最高的数据加粗表示; 排名第2的数据加下划线表示; G为本文算法与其他算法相比所得去雨图像在当前指标上提升的比例.

表4   不同算法在合成雨图测试数据集[28-29,10,12]上的定量对比结果

Tab.4  Comparative results of different methods on synthetic datasets[28-29,10,12]

算法Test100[28]Rain100H[29]Rain100L[29]Test2800[10]Test1200[12]平均
PSNR/dBSSIMPSNR/dBSSIMPSNR/dBSSIMPSNR/dBSSIMPSNR/dBSSIMPSNR/dB
(G/%)
SSIM
(G/%)
DerainNet[10]22.770.81014.920.59227.030.88424.310.86123.380.83522.48
(45.6)↑
0.796
(17.3)↑
SEMI[11]22.350.78816.560.48625.030.84224.430.78226.050.82222.88
(43.9)↑
0.744
(25.5)↑
DIDMDN[12]22.560.81817.350.52425.230.74128.130.86729.650.90124.58
(34.0)↑
0.770
(21.3)↑
UMRL[13]24.410.82926.010.83229.180.92329.970.90530.550.91028.02
(17.5)↑
0.880
(6.14)↑
RESCAN[14]25.000.83526.360.78629.800.88131.290.90430.510.88228.59
(15.1)↑
0.857
(8.98)↑
PReNet[15]24.810.85126.770.85832.440.95031.750.91631.360.91129.42
(11.9)↑
0.897
(4.12)↑
MSPFN[16]27.500.87628.660.86032.400.93332.820.93032.390.91630.75
(7.06)↑
0.903
(3.43)↑
MPRNet[17]30.270.89730.410.89036.400.96533.640.93832.910.91632.73
(0.58)↑
0.921
(1.41)↑
本文算法28.280.91330.220.90437.530.97933.760.95234.830.92432.920.934

新窗口打开| 下载CSV


实验表明,本文算法相比其他8个算法在测试数据集Test100[28],Rain100H[29],Rain100L[29],Test2800[10]和Test1200[12]上的平均PSNR和SSIM分别提高0.19~10.44 dB,1.41%~25.5%.具体而言,本文算法在5个测试数据集上的PSNR均获得提升或接近最好,尤其是SSIM均获得明显提升,分别为1.71%~12.7%,1.57%~52.7%,1.45%~10.7%,1.49%~10.6%和0.87%~12.4%.同时,本文算法的合成雨图去雨效果与RESCAN[14],PReNet[15],MSPFN[16]和MPRNet[17]算法的视觉对比结果如图4所示.从图中可以发现,本文算法在雨痕分布密集的第2幅和分布稀疏的第3幅雨图上都有良好的表现,而其他算法如PReNet[15]无法有效适应分布不同的雨痕.进一步发现,本文算法在第7幅雨图上准确区分雨痕和背景信息,相比其他算法更加彻底地去除雨痕.另外,其他算法在第2幅雨图上使马腿产生不同程度的虚化,而本文算法可以很好地保持图像细节信息,从而令去雨图像更加接近无雨图像.因此,本文算法相比其他算法能彻底去除分布不同的雨痕,得到的去雨图像细节更加丰富.

图4

图4   其他算法[14-17]与本文算法在合成雨图[10,12,27-28]上的视觉对比结果

Fig.4   Visual comparative results of other methods[14-17] and proposed method on synthetic rainy images[10,12,27-28]


3.4.2 自然雨图

为进一步验证算法在自然雨图去雨效果中的泛化性能,实验将RESCAN[14],PReNet[15],MSPFN[16],MPRNet[17]和本文算法的去雨表现进行对比.去雨图质量评价指标采用自然度图像质量评估器(Naturalness Image Quality Evaluator, NIQE)[32] 和空间-光谱熵质量 (Spatial-Spectral Entropy-based Quality, SSEQ)[33],其值越小表明去雨图像的质量越高.不同算法在自然雨图上的定量分析对比结果如表5所示.

表5   不同算法在自然雨图数据集[30]上的定量对比结果

Tab.5  Quantitative comparative results of different methods on natural dataset[30]

算法NIQESSEQ
RESCAN[14]5.06624.18
PReNet[15]5.02520.76
MSPFN[16]4.96122.29
MPRNet[17]5.16622.05
本文算法4.94618.93

新窗口打开| 下载CSV


实验表明,相比RESCAN[14],PReNet[15],MSPFN[16]和MPRNet[17]算法,本文算法去除自然雨图雨痕的效果在NIQE和SSEQ指标上均达到最小,分别为4.946和18.93.不同算法的自然去雨图像的视觉对比如图5所示.从图中可以发现,相比其他算法,本文算法在雨痕分布稀疏的第1, 5, 6, 7幅自然雨图上和雨痕分布密集的第2, 3, 4, 8幅自然雨图上得到的去雨图像分别在雨痕去除效果和细节保持两方面都表现最佳.因此,本文算法在自然雨图上具有更好的泛化性能.

图5

图5   其他算法[14-17]与本文算法在自然雨图[30]上的去雨结果视觉对比

Fig.5   Visual comparison of other methods[14-17] and proposed method on natural rainy images[30]


3.4.3 算法效率

为进一步验证本文算法的效率,实验将目前单图像去雨表现优秀的MSPFN[16],MPRNet[17]和本文算法的参数量、浮点运算次数与前向传播平均耗时进行对比,输入选用100张大小均为64像素×64像素的雨图.不同算法处理雨图的效率对比结果如表6所示.

表6   不同算法处理图像的效率对比结果

Tab.6  Efficiency comparative results of processing images by different methods

算法参数量×10-6浮点运算
次数×10-9
平均耗时/s
MSPFN[16]15.8237.860.045
MPRNet[17]3.6378.8410.048
本文算法2.3819.6880.033

新窗口打开| 下载CSV


表6可知,本文算法的参数量为2.381×106,相比MSPFN[16]下降84.95%,相比MPRNet[17]下降34.53%.浮点运算次数略高于MPRNet[17],但前向传播平均耗时减少31.25%. 因此本文算法的效率优于其他两种算法.

4 结语

针对现有的单图像去雨算法未有效利用雨图的全局性信息,进而导致去雨图像损失部分细节和结构信息的问题,提出一种基于Swin Transformer的单图像去雨算法.首先,该算法利用并行多尺度空洞卷积作为输入层来适应不同雨痕的分布多样性.其次,将Swin Transformer引入单图像去雨研究,并结合卷积神经网络来提取局部信息和全局性信息,进而强化特征学习.此外,在深度特征提取网络中引入密集连接和全局残差卷积,从而实现不同抽象级特征的充分融合与信息交流.最后,提出一种新的综合损失函数,其可以同时约束去雨图像与无雨图像间的边缘和区域相似性,从而进一步提高去雨图像的质量.在未来研究中,本文作者将继续深入研究雨图局部信息与全局性信息的特点,从而进一步设计出更高效的单图像去雨网络.

参考文献

陈舒曼, 陈玮, 尹钟.

单幅图像去雨算法研究现状及展望

[J]. 计算机应用研究, 2022, 39(1): 9-17.

[本文引用: 1]

CHEN Shuman, CHEN Wei, YIN Zhong.

Research status and prospect of single image rain removal algorithm

[J]. Application Research of Computers, 2022, 39(1): 9-17.

[本文引用: 1]

DENG S, WEI M, WANG J, et al.

Detail-recovery image deraining via context aggregation networks [C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition.

Seattle, WA, USA: IEEE, 2020: 14560-14569.

[本文引用: 1]

HE K, GKIOXARI G, DOLLÁR P, et al.

Mask RCNN[C]//Proceedings of the IEEE International Conference on Computer Vision

Venice, Italy: IEEE, 2017: 2961-2969.

[本文引用: 1]

王春波, 张卫东, 张文渊, .

复杂交通环境中车辆的视觉检测

[J]. 上海交通大学学报, 2000, 34(12): 1680-1682.

[本文引用: 1]

WANG Chunbo, ZHANG Weidong, ZHANG Wen-yuan, et al.

Vision-based vehicles detection in complex traffic scenes

[J]. Journal of Shanghai Jiao Tong University, 2000, 34(12): 1680-1682.

[本文引用: 1]

YANG W, TAN R T, WANG S, et al.

Single image deraining: From model-based to data-driven and beyond

[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2020, 43(11): 4059-4077.

DOI:10.1109/TPAMI.2020.2995190      URL     [本文引用: 1]

ZHENG X, LIAO Y, GUO W, et al.

Single-image-based rain and snow removal using multi-guided filter[C]//International Conference on Neural Information Processing

Daegu, South Korea: APNNS, 2013: 258-265.

[本文引用: 1]

KANG L, LIN C, FU Y.

Automatic single-image-based rain streaks removal via image decomposition

[J]. IEEE Transactions on Image Processing, 2011, 21(4): 1742-1755.

DOI:10.1109/TIP.2011.2179057      URL     [本文引用: 1]

LUO Y, XU Y, JI H.

Removing rain from a single image via discriminative sparse coding[C]//Proceedings of the IEEE International Conference on Computer Vision

Santiago, Chile: IEEE, 2015: 3397-3405.

[本文引用: 1]

LI Y, TAN R T, GUO X, et al.

Rain streak removal using layer priors

[C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, NV, USA: IEEE, 2016: 2736-2744.

[本文引用: 3]

FU X, HUANG J, DING X, et al.

Clearing the skies: A deep network architecture for single-image rain removal

[J]. IEEE Transactions on Image Processing, 2017, 26(6): 2944-2956.

DOI:10.1109/TIP.2017.2691802      PMID:28410108      [本文引用: 12]

We introduce a deep network architecture called DerainNet for removing rain streaks from an image. Based on the deep convolutional neural network (CNN), we directly learn the mapping relationship between rainy and clean image detail layers from data. Because we do not possess the ground truth corresponding to real-world rainy images, we synthesize images with rain for training. In contrast to other common strategies that increase depth or breadth of the network, we use image processing domain knowledge to modify the objective function and improve deraining with a modestly sized CNN. Specifically, we train our DerainNet on the detail (high-pass) layer rather than in the image domain. Though DerainNet is trained on synthetic data, we find that the learned network translates very effectively to real-world images for testing. Moreover, we augment the CNN framework with image enhancement to improve the visual results. Compared with the state-of-the-art single image de-raining methods, our method has improved rain removal and much faster computation time after network training.

WEI W, MENG D, ZHAO Q, et al.

Semi-supervised transfer learning for image rain removal[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition

Long Beach, CA, USA: IEEE, 2019: 3877-3886.

[本文引用: 3]

ZHANG H, PATEL V M.

Density-aware single image deraining using a multi-stream dense network[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition

Salt Lake City, UT, USA: IEEE, 2018: 695-704.

[本文引用: 16]

YASARLA R, PATEL V M.

Uncertainty guided multi-scale residual learning-using a cycle spinning CNN for single image de-raining[C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition

Long Beach, CA, USA: IEEE, 2019: 8405-8414.

[本文引用: 3]

LI X, WU J, LIN Z, et al.

Recurrent squeeze-and-excitation context aggregation net for single image deraining[C]//Proceedings of the European Conference on Computer Vision

Salt Lake City, UT, USA: IEEE, 2018: 254-269.

[本文引用: 11]

REN D, ZUO W, HU Q, et al.

Progressive image deraining networks: A better and simpler baseline[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition

Long Beach, CA, USA: IEEE, 2019: 3937-3946.

[本文引用: 12]

JIANG K, WANG Z, YI P, et al.

Multi-scale progressive fusion network for single image deraining[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition

Seattle, WA, USA: IEEE. 2020: 8346-8355.

[本文引用: 18]

ZAMIR S W, ARORA A, KHAN S, et al.

Multi-stage progressive image restoration[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition

Kuala Lumpur, Malaysia: IEEE, 2021: 14821-14831.

[本文引用: 15]

VASWANI A, SHAZEER N, PARMAR N, et al.

Attention is all you need[C]//Advances in Neural Information Processing Systems

Long Beach, CA, USA: NIPS, 2017: 5998-6008.

[本文引用: 1]

LIU Z, LIN Y, CAO Y, et al.

Swin Transformer: Hierarchical vision Transformer using shifted windows[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision

Montreal, Canada: IEEE, 2021: 10012-10022.

[本文引用: 2]

XIAO T, DOLLAR P, SINGH M, et al.

Early convolutions help transformers see better[C]//Thirty-Fifth Conference on Neural Information Processing Systems

Montreal, Canada: NIPS, 2021: 34.

[本文引用: 1]

YU F, KOLTUN V.

Multi-scale context aggregation by dilated convolutions[C]//International Conference on Leaning Representations

Caribe Hilton, San Juan, Puerto Rico: OpenReview. net, 2016: 1-13.

[本文引用: 1]

WANG P, CHEN P, YUAN Y, et al.

Understanding convolution for semantic segmentation[C]//2018 IEEE Winter Conference on Applications of Computer Vision

Lake Tahoe, NV, USA: IEEE, 2018: 1451-1460.

[本文引用: 1]

LIANG J, CAO J, SUN G, et al.

SwinIR: Image restoration using swin transformer[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision

Montreal, Canada: IEEE, 2021: 1833-1844.

[本文引用: 2]

HE K, ZHANG X, REN S, et al.

Deep residual learning for image recognition[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition

Las Vegas, NV, USA: IEEE, 2016: 770-778.

[本文引用: 2]

HUANG G, LIU Z, VAN DER MAATEN L, et al.

Densely connected convolutional networks[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition

Venice, Italy: IEEE, 2017: 4700-4708.

[本文引用: 1]

WANG Z, BOVIK A C, SHEIKH H R, et al.

Image quality assessment: From error visibility to structural similarity

[J]. IEEE Transactions on Image Processing, 2004, 13(4): 600-612.

DOI:10.1109/tip.2003.819861      PMID:15376593      [本文引用: 3]

Objective methods for assessing perceptual image quality traditionally attempted to quantify the visibility of errors (differences) between a distorted image and a reference image using a variety of known properties of the human visual system. Under the assumption that human visual perception is highly adapted for extracting structural information from a scene, we introduce an alternative complementary framework for quality assessment based on the degradation of structural information. As a specific example of this concept, we develop a Structural Similarity Index and demonstrate its promise through a set of intuitive examples, as well as comparison to both subjective ratings and state-of-the-art objective methods on a database of images compressed with JPEG and JPEG2000.

KAMGAR-PARSI B, ROSENFELD A.

Optimally isotropic Laplacian operator

[J]. IEEE Transactions on Image Processing, 1999, 8(10): 1467-1472.

DOI:10.1109/83.791975      URL     [本文引用: 3]

ZHANG H, SINDAGI V, PATEL V M.

Image de-raining using a conditional generative adversarial network

[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2019, 30(11): 3943-3956.

DOI:10.1109/TCSVT.76      URL     [本文引用: 9]

YANG W, TAN R T, FENG J, et al.

Deep joint rain detection and removal from a single image[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition

Venice, Italy: IEEE, 2017: 1357-1366.

[本文引用: 11]

FU X, LIANG B, HUANG Y, et al.

Lightweight pyramid networks for image deraining

[J]. IEEE Transactions on Neural Networks and Learning Systems, 2019, 31(6): 1794-1807.

DOI:10.1109/TNNLS.5962385      URL     [本文引用: 5]

HUYNH-THU Q, GHANBARI M.

Scope of validity of PSNR in image/video quality assessment

[J]. Electronics Letters, 2008, 44(13): 800-801.

DOI:10.1049/el:20080522      URL     [本文引用: 1]

MITTAL A, SOUNDARARAJAN R, BOVIK A C.

Making a “completely blind” image quality analyzer

[J]. IEEE Signal Processing Letters, 2012, 20(3): 209-212.

DOI:10.1109/LSP.2012.2227726      URL     [本文引用: 1]

LIU L, LIU B, HUANG H, et al.

No-reference image quality assessment based on spatial and spectral entropies

[J]. Signal Processing: Image Communication, 2014, 29(8): 856-863.

DOI:10.1016/j.image.2014.06.006      URL     [本文引用: 1]

/