基于窗口自注意力网络的单图像去雨算法

图1 基于窗口自注意力网络的单图像去雨网络结构

Fig.1 Single image deraining network based on Swin Transformer

2.1 上下文信息聚合块

文献[20]中表明,卷积适合Transformer的早期视觉处理,同时有助于稳化训练过程和提高性能,因此本文算法利用卷积将雨图映射到高维特征空间从而提取雨图的浅层特征.但是,由于不同雨图中雨痕的分布存在差异,而普通卷积核要扩大感受野来提取更大范围的雨痕分布信息必须通过增大卷积核、增加步长或池化操作来实现.但增大卷积核会增加网络计算量,增加步长和池化操作会损失雨图的分辨率信息.空洞卷积^[21]可以在扩大感受野的同时不损失分辨率信息,其感受野大小r可以表示为

$\begin{array}{l} r_{1} = (k - 1) d + 1 \\ r_{i} = (k - 1) d + r_{i - 1}, i = 2, 3, \dots \end{array}\}$

(6)

式中:k为卷积核的大小;d为扩张因子.

本文算法在网络输入层设计一种上下文信息聚合模块CGB,该模块利用空洞卷积扩大感受野来提取不同范围的雨痕分布信息.CGB根据文献[22]中采用扩张因子分别为1,2,5的并行空洞卷积,并将得到的雨图特征进行拼接,最后经过一个1×1卷积来融合特征,从而令算法具有适应不同雨痕分布的能力.因此,CGB一方面将输入雨图映射到高维空间,稳化网络训练过程的同时提高去雨效果;另一方面利用不同扩张因子的空洞卷积来自适应雨痕分布信息,提高网络对雨痕的泛化能力.CGB可以表示为

CGB(x)=W_1×1(Concat(W_3×3_,₁(x)+W_3×3_,₂(x)+W_3×3_,₅(x)))

(7)

式中:x为输入雨图;W_k_×_k_,_d表示该层卷积核大小为k,扩张因子为d.

2.2 深度特征提取网络

2.2.1 窗口自注意力网络

随着对视觉Transformer的研究,Liu等^[19]提出Swin Transformer,并在图像超分等领域^[23]表现出良好的性能,如图2所示是其主要结构.图中: $\hat{x}$ 为中间特征;l为特征阶段.该网络的窗口自注意力机制 (Window based on Multi-head Self-Attention, W-MSA) 将Transformer的自注意力计算限制在设定的窗口范围内,从而令W-MSA的计算复杂度与输入分辨率呈线性关系.具体而言,W-MSA将结构为H×W×C的输入特征图重构为HW/M²×M²×C的结构,即将特征图分割成不重叠的大小为M×M的窗口,HW/M²是分割得到的窗口数量,之后在窗口范围内分别计算自注意力.

图2

图2 窗口自注意力网络的主要层结构

Fig.2 Main layer of Swin Transformer

W-MSA存在的问题是其只在每个分割开的窗口内计算自注意力,不同窗口间未进行信息融合和传递.因此,在W-MSA之后使用移位窗口自注意力 (Shifted Window based on Multi-head Self-Attention, SW-MSA),即将原W-MSA中分割的窗口分别沿直角坐标的两个方向移动半个窗口大小的距离,从而实现相邻窗口间的信息交互.在实际操作中,SW-MSA是将前述窗口移位后得到的大小不一致的分割窗口进行重组,从而保证每个窗口的大小与原W-MSA窗口的大小一致,最后再使用掩膜隔绝不相邻区域来避免特征混淆.SW-MSA对移位窗口的重组示意图如图3所示.

图3

图3 移位窗口重组示意图

Fig.3 Diagram of relocating shifted windows

W-MSA的特征图经SW-MSA移位由原来的4个窗口变为9个窗口,且9个窗口的大小不完全一致,不利于后续计算.因此,SW-MSA继续将编号分别为 (6, 4),(8, 2) 和 (7, 9, 3, 1) 的小窗口合并,从而得到新的4个与W-MSA大小一致的窗口,再分别在每个窗口中计算自注意力即可实现不同窗口间信息的交互.因此,STL必须成对存在,可以表示为

$\begin{array}{l} {\overset{⌒}{X}}^{l} = W - M S A (L a y e r N o r m (X^{l - 1})) + X^{l - 1} \\ X^{l} = M L P (L a y e r N o r m ({\overset{⌒}{X}}^{l})) + {\overset{⌒}{X}}^{l} \\ {\overset{⌒}{X}}^{l + 1} = S W - M S A (L a y e r N o r m (X^{l})) + X^{l} \\ X^{l + 1} = M L P (L a y e r N o r m ({\overset{⌒}{X}}^{l + 1})) + {\overset{⌒}{X}}^{l + 1} \end{array}\}$

(8)

式中:X^l^-1为输入;X^l,X^l⁺¹分别为第1个STL和第2个STL的输出; ${\overset{⌒}{X}}^{l}$ , ${\overset{⌒}{X}}^{l + 1}$ 为两个STL的中间输出.

2.2.2 密集残差窗口自注意力网络

本文算法在STL末端引入残差卷积来构建DRST的核心模块RSTB.其中,残差连接可以进行雨图高低级特征的融合,确保网络习得特征的准确性和避免梯度弥散问题^[24],这符合单图像去雨网络保护分辨率信息的要求.此外,由于Swin Transformer每次移位半个窗口,这严重限制网络中不同窗口间信息的充分交互,在STL末端引入卷积操作可以强化特征学习.同时根据文献[23]可知,将卷积的归纳偏置引入Swin Transformer便于后续不同级别特征的融合.RSTB可以表示为

X_i₊₁=Conv(STL_m(…STL₂(STL₁(X_i))))+X_i

(9)

式中:X_i为RSTB的输入;X_i₊₁为RSTB的输出;m为RSTB中STL的个数.但是由于多个串联的RSTB无法促进特征信息在不同网络层间的流动,因此本文算法在多个串联的RSTB之间间隔地引入密集连接^[25]构建密集残差窗口自注意力网络块 (Dense Residual Swin Transformer Block, DRSTB) 来充分融合不同深度的高低级特征,DRSTB中某一阶段的输出可以表示为

X_i=RSTB_i_-1(RSTB_i_-2(X_i_-2))+X_i_-2+X_i_-4+…

(10)

DRSTB的末端引入残差卷积来强化特征学习构成密集残差窗口自注意力网络DRST,从而DRST的末端可以表示为

X_out=Conv(DRSTB(X_in))+X_in

(11)

式中:X_in为DRST中最后一个DRSTB的输入;X_out为DRST的输出.最后通过全局残差卷积输出去雨图像,则本文算法的整体可以表示如下:

y=Conv(DRST(CGB(x)))+x

(12)

式中:y为输出去雨图像.

2.3 损失函数

图像可以分为高频和低频分量,低频分量主要是图像中平滑无突变的区域,高频分量主要是图像中边缘突变的部分,因此图像同时具有边缘性和区域性特点.然而,常用的损失函数如均方误差 (Mean Square Error, MSE) 会模糊去雨图像的边缘细节.本文提出一种同时约束去雨图像y与无雨图像y^gt间边缘和区域相似性的综合损失函数,该函数由边缘Edge损失^[16]和结构相似性 (Structural SIMilarity, SSIM) 损失^[26]两部分组成,其中Edge损失赋予图像边缘的像素点较大权值后再计算MSE,其数学形式为

L_Edge=

$\sqrt{‖Δ {(y)}_{i} - Δ (y^{g t})_{i} ‖^{2} + ε^{2}}$

(13)

式中:Δ(·)为拉普拉斯滤波操作^[27];ε=0.001,为维稳常数.

SSIM损失利用图像的区域性特点,分别从亮度、对比度和结构3个角度来综合评价两幅图像的相似程度,其数学形式为

SSIM(y, y^gt)=

$\frac{2 μ_{y} μ_{y^{g t}} + C_{1}}{μ_{y}^{2} μ_{y^{g t}}^{2} + C_{1}} \frac{2 σ_{y y^{g t}} + C_{2}}{σ_{y}^{2} σ_{y^{g t}}^{2} + C_{2}}$

(14)

式中:μ_y, $μ_{y^{g t}}$ 分别为去雨图像和无雨图像的灰度均值;σ_y, $σ_{y^{g t}}$ 分别为去雨图像和无雨图像的灰度方差; $σ_{y y^{g t}}$ 为去雨图像和无雨图像的灰度协方差;C₁和C₂为常数,满足:

C₁=(K₁L)², C₂=(K₂L)²

(15)

根据文献[26]中K₁=0.01,K₂=0.03;L为图像像素点的灰度范围,一般取值1或255.由于SSIM的值越大表明两图像的相似度越高,所以在训练网络时将最大化SSIM转换为最小化SSIM损失:

L_SSIM=1-SSIM(y, y^gt)

(16)

进而本文提出的综合损失函数Loss可以表示为

Loss=L_Edge+βL_SSIM

(17)

式中:根据文献[16]中β的值取0.05.

3 实验结果分析

为验证本文算法的有效性,实验在6个合成雨图数据集和1个自然雨图数据集上进行.合成雨图数据集分别为:文献[10]中提供的Rain14000,其中存在14种不同大小和方向的雨痕,分为 12 600 对训练图像和 1 400 对测试图像;文献[28]中提供的数据集Rain800,其中包括700对训练图像和100对测试图像;文献[29]中提供的两个数据集Rain100H和Rain100L,前者包括5种不同的雨痕,训练图像对和测试图像对分别为 1 800 和100,而后者仅存在一种雨痕,训练图像和测试图像对分别为200和100;文献[12]中提供的Rain1200,其中包括3种雨密度不同的雨痕,分为 12 000 对训练图像和 1 200 对测试图像;文献[9]中提供的Rain12,其中包含12对雨图和无雨图像.自然雨图数据集由文献[30]提供,其中包括300张自然雨图.

3.1 数据集设置

现有的单图像去雨算法大多是在单一数据集上分别进行训练与测试,不利于去雨效果和算法泛化性能的对比.本文依据文献[16]中对6个合成雨图数据集的训练样本和测试样本进行重新划分,进而将训练样本组合成一个统一的融合训练数据集,具体的数据集设置如表1所示.因此,实验使用的训练集包括13 712对雨图像和无雨图像,测试集分为5部分,分别是Test2800^[10],Test100^[28],Rain100H^[29],Rain100L^[29]和Test1200^[12].

表1 单图像去雨数据集的划分与重命名

Tab.1 Partition and rename of single image deraining datasets

数据集	训练样本对	测试样本对	重命名
Rain14000^[10]	11 200	2 800	Test2800
Rain800^[28]	700	100	Test100
Rain100H^[29]	1 800	100	Rain100H
Rain100L^[29]	0	100	Rain100L
Rain1200^[12]	0	1 200	Test1200
Rain12^[9]	12	0	—

3.2 实验环境与训练设置

本文所有的实验均在Windows操作系统下进行,CPU为Intel(R) Xeon(R) Gold 5218,GPU为双NVDIA Quadro RTX 4000,深度学习框架为Pytorch 1.7.上下文信息聚合输入块CGB输入卷积核大小为3×3,空洞率分别为1, 2, 5,特征图的通道数为32.深度特征提取网络DRST包含3个DRSTB和一个残差卷积,每一个DRSTB包括2个RSTB,每个RSTB包括4个STL和一个残差卷积.其中卷积核的大小为3×3,W-MSA和SW-MSA的自注意力窗口大小为8×8,自注意力头的个数为6,中间特征图的通道数为96,激活函数LeakyReLU的泄漏值设为0.2.本文算法的训练次数为200,每次参与训练的图像为16对,大小为64像素×64像素.梯度优化算法AdamW的初始学习率为0.001,在训练过程中当训练次数为90, 130和160时学习率分别降为之前的20%.

3.3 消融实验

3.3.1 网络组成

为验证本文算法相比其他网络组成进行单图像去雨的优势,消融实验针对不同网络组成的去雨结果进行分析.主要包括:浅层特征提取模块选用CGB与单卷积;深度特征提取网络部分首先选用骨干网络残差网络 (Residual Network, ResNet)^[24] 与Swin Transformer;其次选用在成对的STL末端引入残差卷积的RSTB与未引入的STB;之后选用在间隔的RSTB引入密集连接的的DRSTB与未引入的RSTB;最后对比在DRSTB末端是否引入全局残差卷积对最终去雨图像质量的影响.网络组成消融实验的对比结果如表2所示,图像质量评价指标选择峰值信噪比 (Peak Signal of Noise Ratio, PSNR)^[31] 和SSIM,其值越大表明去雨图像质量越高.

表2 测试数据集Test1200^[12]上的网络组成消融实验对比结果

Tab.2 Comparative results of network components ablation study on Test1200^[12] dataset

网络组成		组合方式
输入层	单卷积	√	√	√	√	√	×
	CGB	×	×	×	×	×	√
特征提取网络	ResNet	√	×	×	×	×	×
	STB	×	√	√	√	√	√
	RSTB	×	×	√	√	√	√
	DRSTB	×	×	×	√	√	√
	DRST	×	×	×	×	√	√
输出层	单卷积	√	√	√	√	√	√
PSNR/dB		25.41	27.35	28.94	30.27	32.15	34.83
SSIM		0.846	0.882	0.886	0.904	0.912	0.924

由表2可知,在同一训练条件下,骨干网络Swin Transformer相比ResNet在PSNR和SSIM上分别提升1.94 dB和4.26%,这表明Swin Transformer相比ResNet能更好地去除雨痕.当在STB和DRSTB末端引入残差卷积后,网络的去雨图质量在PSNR上分别提升1.59 dB和1.88 dB,这证明本文利用Swin Transformer和CNN结合学习雨图全局性特征和局部特征相比Swin Transformer单独使用更加具有优势.本文算法在深度特征提取网络中引入密集连接,实验表明密集连接使网络去雨图像质量在PSNR和SSIM上分别提升1.33 dB和2.03%.在网络输入层,实验表明CGB相比单卷积能使网络产生更好的表现,具体在PSNR上提升2.68 dB,在SSIM上提升1.32%.因此,实验证明本文算法网络结构的设计是合理的.

3.3.2 损失函数

为验证所提综合损失函数的有效性,实验将本文的单图像去雨网络分别由MSE损失、Edge损失^[16]、SSIM损失^[26]、MSE损失与SSIM的组合 (MSE, SSIM)以及Edge损失与SSIM的组合 (Edge, SSIM) 训练得到的去雨图像质量进行对比.损失函数消融实验的对比结果如表3所示.

表3 测试数据集Test1200^[12]上的损失函数消融实验对比结果

Tab.3 Comparative results of loss functions ablation study on Test1200^[12] dataset

损失函数	PSNR/dB	SSIM
MSE	29.57	0.884
Edge	29.24	0.891
SSIM	30.68	0.903
(MSE, SSIM)	32.79	0.916
(Edge, SSIM)	34.83	0.924

实验表明,由Edge和SSIM综合损失训练的网络性能与单独使用MSE, Edge和SSIM相比,在PSNR指标上分别上升5.26,5.59,4.15 dB,在SSIM指标上分别上升4.52%,3.70%,2.33%.同时比现有算法常用的MSE与SSIM综合损失在PSNR和SSIM指标上分别提升2.04 dB和0.87%.因此,本文提出的综合损失函数能够很好地保持图像细节和结构信息,相比其他常用损失函数具有更好的表现.

3.4 算法性能对比

3.4.1 合成雨图

为验证本文算法在合成雨图去雨上的优势, 实验将DerainNet^[10], SEMI^[11], DIDMDN^[12], UMRL^[13], RESCAN^[14], PReNet^[15], MSPFN^[16], MPRNet^[17]与本文算法的去雨性能进行比较. 不同算法在合成雨图上的定量对比结果如表4所示. 表中:在各测试数据集上指标最高的数据加粗表示; 排名第2的数据加下划线表示; G为本文算法与其他算法相比所得去雨图像在当前指标上提升的比例.

表4 不同算法在合成雨图测试数据集^{[28-29,10,12]}上的定量对比结果

Tab.4 Comparative results of different methods on synthetic datasets^{[28-29,10,12]}

算法	Test100^[28]		Rain100H^[29]		Rain100L^[29]		Test2800^[10]		Test1200^[12]		平均
算法	PSNR/dB	SSIM	PSNR/dB	SSIM	PSNR/dB	SSIM	PSNR/dB	SSIM	PSNR/dB	SSIM	PSNR/dB (G/%)	SSIM (G/%)
DerainNet^[10]	22.77	0.810	14.92	0.592	27.03	0.884	24.31	0.861	23.38	0.835	22.48 (45.6)↑	0.796 (17.3)↑
SEMI^[11]	22.35	0.788	16.56	0.486	25.03	0.842	24.43	0.782	26.05	0.822	22.88 (43.9)↑	0.744 (25.5)↑
DIDMDN^[12]	22.56	0.818	17.35	0.524	25.23	0.741	28.13	0.867	29.65	0.901	24.58 (34.0)↑	0.770 (21.3)↑
UMRL^[13]	24.41	0.829	26.01	0.832	29.18	0.923	29.97	0.905	30.55	0.910	28.02 (17.5)↑	0.880 (6.14)↑
RESCAN^[14]	25.00	0.835	26.36	0.786	29.80	0.881	31.29	0.904	30.51	0.882	28.59 (15.1)↑	0.857 (8.98)↑
PReNet^[15]	24.81	0.851	26.77	0.858	32.44	0.950	31.75	0.916	31.36	0.911	29.42 (11.9)↑	0.897 (4.12)↑
MSPFN^[16]	27.50	0.876	28.66	0.860	32.40	0.933	32.82	0.930	32.39	0.916	30.75 (7.06)↑	0.903 (3.43)↑
MPRNet^[17]	30.27	0.897	30.41	0.890	36.40	0.965	33.64	0.938	32.91	0.916	32.73 (0.58)↑	0.921 (1.41)↑
本文算法	28.28	0.913	30.22	0.904	37.53	0.979	33.76	0.952	34.83	0.924	32.92	0.934

实验表明,本文算法相比其他8个算法在测试数据集Test100^[28],Rain100H^[29],Rain100L^[29],Test2800^[10]和Test1200^[12]上的平均PSNR和SSIM分别提高0.19~10.44 dB,1.41%~25.5%.具体而言,本文算法在5个测试数据集上的PSNR均获得提升或接近最好,尤其是SSIM均获得明显提升,分别为1.71%~12.7%,1.57%~52.7%,1.45%~10.7%,1.49%~10.6%和0.87%~12.4%.同时,本文算法的合成雨图去雨效果与RESCAN^[14],PReNet^[15],MSPFN^[16]和MPRNet^[17]算法的视觉对比结果如图4所示.从图中可以发现,本文算法在雨痕分布密集的第2幅和分布稀疏的第3幅雨图上都有良好的表现,而其他算法如PReNet^[15]无法有效适应分布不同的雨痕.进一步发现,本文算法在第7幅雨图上准确区分雨痕和背景信息,相比其他算法更加彻底地去除雨痕.另外,其他算法在第2幅雨图上使马腿产生不同程度的虚化,而本文算法可以很好地保持图像细节信息,从而令去雨图像更加接近无雨图像.因此,本文算法相比其他算法能彻底去除分布不同的雨痕,得到的去雨图像细节更加丰富.

图4

图4 其他算法^{[14⇓⇓-17]}与本文算法在合成雨图^{[10,12,27-28]}上的视觉对比结果

Fig.4 Visual comparative results of other methods^{[14⇓⇓-17]} and proposed method on synthetic rainy images^{[10,12,27-28]}

3.4.2 自然雨图

为进一步验证算法在自然雨图去雨效果中的泛化性能,实验将RESCAN^[14],PReNet^[15],MSPFN^[16],MPRNet^[17]和本文算法的去雨表现进行对比.去雨图质量评价指标采用自然度图像质量评估器(Naturalness Image Quality Evaluator, NIQE)^[32] 和空间-光谱熵质量 (Spatial-Spectral Entropy-based Quality, SSEQ)^[33],其值越小表明去雨图像的质量越高.不同算法在自然雨图上的定量分析对比结果如表5所示.

表5 不同算法在自然雨图数据集^[30]上的定量对比结果

Tab.5 Quantitative comparative results of different methods on natural dataset^[30]

算法	NIQE	SSEQ
RESCAN^[14]	5.066	24.18
PReNet^[15]	5.025	20.76
MSPFN^[16]	4.961	22.29
MPRNet^[17]	5.166	22.05
本文算法	4.946	18.93

实验表明,相比RESCAN^[14],PReNet^[15],MSPFN^[16]和MPRNet^[17]算法,本文算法去除自然雨图雨痕的效果在NIQE和SSEQ指标上均达到最小,分别为4.946和18.93.不同算法的自然去雨图像的视觉对比如图5所示.从图中可以发现,相比其他算法,本文算法在雨痕分布稀疏的第1, 5, 6, 7幅自然雨图上和雨痕分布密集的第2, 3, 4, 8幅自然雨图上得到的去雨图像分别在雨痕去除效果和细节保持两方面都表现最佳.因此,本文算法在自然雨图上具有更好的泛化性能.

图5

图5 其他算法^{[14⇓⇓-17]}与本文算法在自然雨图^[30]上的去雨结果视觉对比

Fig.5 Visual comparison of other methods^{[14⇓⇓-17]} and proposed method on natural rainy images^[30]

3.4.3 算法效率

为进一步验证本文算法的效率,实验将目前单图像去雨表现优秀的MSPFN^[16],MPRNet^[17]和本文算法的参数量、浮点运算次数与前向传播平均耗时进行对比,输入选用100张大小均为64像素×64像素的雨图.不同算法处理雨图的效率对比结果如表6所示.

表6 不同算法处理图像的效率对比结果

Tab.6 Efficiency comparative results of processing images by different methods

算法	参数量×10^-6	浮点运算次数×10^-9	平均耗时/s
MSPFN^[16]	15.82	37.86	0.045
MPRNet^[17]	3.637	8.841	0.048
本文算法	2.381	9.688	0.033

由表6可知,本文算法的参数量为2.381×10⁶,相比MSPFN^[16]下降84.95%,相比MPRNet^[17]下降34.53%.浮点运算次数略高于MPRNet^[17],但前向传播平均耗时减少31.25%. 因此本文算法的效率优于其他两种算法.

4 结语

针对现有的单图像去雨算法未有效利用雨图的全局性信息,进而导致去雨图像损失部分细节和结构信息的问题,提出一种基于Swin Transformer的单图像去雨算法.首先,该算法利用并行多尺度空洞卷积作为输入层来适应不同雨痕的分布多样性.其次,将Swin Transformer引入单图像去雨研究,并结合卷积神经网络来提取局部信息和全局性信息,进而强化特征学习.此外,在深度特征提取网络中引入密集连接和全局残差卷积,从而实现不同抽象级特征的充分融合与信息交流.最后,提出一种新的综合损失函数,其可以同时约束去雨图像与无雨图像间的边缘和区域相似性,从而进一步提高去雨图像的质量.在未来研究中,本文作者将继续深入研究雨图局部信息与全局性信息的特点,从而进一步设计出更高效的单图像去雨网络.

参考文献

原文顺序

文献年度倒序

文中引用次数倒序

被引期刊影响因子

[1]

陈舒曼, 陈玮, 尹钟.

单幅图像去雨算法研究现状及展望

[J]. 计算机应用研究, 2022, 39(1): 9-17.

CHEN

Shuman

, CHEN

Wei

, YIN

Zhong

Research status and prospect of single image rain removal algorithm

[J]. Application Research of Computers, 2022, 39(1): 9-17.

[2]

DENG

, WEI

, WANG

, et al.

Detail-recovery image deraining via context aggregation networks [C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition.

Seattle, WA, USA: IEEE, 2020: 14560-14569.

[3]

, GKIOXARI

, DOLLÁR

, et al.

Mask RCNN[C]//Proceedings of the IEEE International Conference on Computer Vision

Venice, Italy: IEEE, 2017: 2961-2969.

[4]

王春波, 张卫东, 张文渊, 等.

复杂交通环境中车辆的视觉检测

[J]. 上海交通大学学报, 2000, 34(12): 1680-1682.

WANG

Chunbo

, ZHANG

Weidong

, ZHANG

Wen-yuan

, et al.

Vision-based vehicles detection in complex traffic scenes

[J]. Journal of Shanghai Jiao Tong University, 2000, 34(12): 1680-1682.

DOI:10.1109/TPAMI.2020.2995190 URL [本文引用: 1]

[5]

YANG

, TAN

R T

, WANG

, et al.

Single image deraining: From model-based to data-driven and beyond

[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2020, 43(11): 4059-4077.

[6]

ZHENG

, LIAO

, GUO

, et al.

Single-image-based rain and snow removal using multi-guided filter[C]//International Conference on Neural Information Processing

Daegu, South Korea: APNNS, 2013: 258-265.

DOI:10.1109/TIP.2011.2179057 URL [本文引用: 1]

[7]

KANG

, LIN

, FU

Automatic single-image-based rain streaks removal via image decomposition

[J]. IEEE Transactions on Image Processing, 2011, 21(4): 1742-1755.

[8]

LUO

, XU

, JI

Removing rain from a single image via discriminative sparse coding[C]//Proceedings of the IEEE International Conference on Computer Vision

Santiago, Chile: IEEE, 2015: 3397-3405.

[9]

, TAN

R T

, GUO

, et al.

Rain streak removal using layer priors

[C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, NV, USA: IEEE, 2016: 2736-2744.

[本文引用: 3]

[10]

, HUANG

, DING

, et al.

Clearing the skies: A deep network architecture for single-image rain removal

[J]. IEEE Transactions on Image Processing, 2017, 26(6): 2944-2956.

DOI:10.1109/TIP.2017.2691802 PMID:28410108 [本文引用: 12]

We introduce a deep network architecture called DerainNet for removing rain streaks from an image. Based on the deep convolutional neural network (CNN), we directly learn the mapping relationship between rainy and clean image detail layers from data. Because we do not possess the ground truth corresponding to real-world rainy images, we synthesize images with rain for training. In contrast to other common strategies that increase depth or breadth of the network, we use image processing domain knowledge to modify the objective function and improve deraining with a modestly sized CNN. Specifically, we train our DerainNet on the detail (high-pass) layer rather than in the image domain. Though DerainNet is trained on synthetic data, we find that the learned network translates very effectively to real-world images for testing. Moreover, we augment the CNN framework with image enhancement to improve the visual results. Compared with the state-of-the-art single image de-raining methods, our method has improved rain removal and much faster computation time after network training.

[11]

WEI

, MENG

, ZHAO

, et al.

Semi-supervised transfer learning for image rain removal[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition

Long Beach, CA, USA: IEEE, 2019: 3877-3886.

[本文引用: 3]

[12]

ZHANG

, PATEL

V M

Density-aware single image deraining using a multi-stream dense network[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition

Salt Lake City, UT, USA: IEEE, 2018: 695-704.

[本文引用: 16]

[13]

YASARLA

, PATEL

V M

Uncertainty guided multi-scale residual learning-using a cycle spinning CNN for single image de-raining[C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition

Long Beach, CA, USA: IEEE, 2019: 8405-8414.

[本文引用: 3]

[14]

, WU

, LIN

, et al.

Recurrent squeeze-and-excitation context aggregation net for single image deraining[C]//Proceedings of the European Conference on Computer Vision

Salt Lake City, UT, USA: IEEE, 2018: 254-269.

[本文引用: 11]

[15]

REN

, ZUO

, HU

, et al.

Progressive image deraining networks: A better and simpler baseline[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition

Long Beach, CA, USA: IEEE, 2019: 3937-3946.

[本文引用: 12]

[16]

JIANG

, WANG

, YI

, et al.

Multi-scale progressive fusion network for single image deraining[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition

Seattle, WA, USA: IEEE. 2020: 8346-8355.

[本文引用: 18]

[17]

ZAMIR

S W

, ARORA

, KHAN

, et al.

Multi-stage progressive image restoration[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition

Kuala Lumpur, Malaysia: IEEE, 2021: 14821-14831.

[本文引用: 15]

[18]

VASWANI

, SHAZEER

, PARMAR

, et al.

Attention is all you need[C]//Advances in Neural Information Processing Systems

Long Beach, CA, USA: NIPS, 2017: 5998-6008.

[19]

LIU

, LIN

, CAO

, et al.

Swin Transformer: Hierarchical vision Transformer using shifted windows[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision

Montreal, Canada: IEEE, 2021: 10012-10022.

[本文引用: 2]

[20]

XIAO

, DOLLAR

, SINGH

, et al.

Early convolutions help transformers see better[C]//Thirty-Fifth Conference on Neural Information Processing Systems

Montreal, Canada: NIPS, 2021: 34.

[21]

, KOLTUN

Multi-scale context aggregation by dilated convolutions[C]//International Conference on Leaning Representations

Caribe Hilton, San Juan, Puerto Rico: OpenReview. net, 2016: 1-13.

[22]

WANG

, CHEN

, YUAN

, et al.

Understanding convolution for semantic segmentation[C]//2018 IEEE Winter Conference on Applications of Computer Vision

Lake Tahoe, NV, USA: IEEE, 2018: 1451-1460.

[23]

LIANG

, CAO

, SUN

, et al.

SwinIR: Image restoration using swin transformer[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision

Montreal, Canada: IEEE, 2021: 1833-1844.

[本文引用: 2]

[24]

, ZHANG

, REN

, et al.

Deep residual learning for image recognition[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition

Las Vegas, NV, USA: IEEE, 2016: 770-778.

[本文引用: 2]

[25]

HUANG

, LIU

, VAN

DER MAATEN L

, et al.

Densely connected convolutional networks[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition

Venice, Italy: IEEE, 2017: 4700-4708.