利用生成对抗网络实现水下图像增强

图1 水下图像增强模型结构

Fig.1 Model structure of underwater image enhancement

图2

图2 生成网络结构设计

Fig.2 Structure design of generator

1.1 生成网络设计

网络输入为256像素×256像素×3像素的图像数据经过32通道1×1卷积操作和ReLU激活函数得到256像素×256像素×32像素的特征分布.首先,为了避免梯度稀疏问题,本模型采用基础卷积操作代替原Se-Res模块中的池化层,防止信息丢失,有助于提升网络稳定性.同时,为了实现多尺度特征信息的融合,本文在原始Se-Res模块的基础上,根据卷积位置选用不同尺寸的卷积内核.此外,卷积操作的内核尺寸会影响网络的参数量和计算量,因此,本文在深绿色模块中采用3×3空洞卷积^[15]代替7×7的传统卷积,在保证感受野的同时减小了网络的复杂度,d设置为2.经过4个Se-Res模块操作后,在对称位置使用了相同尺寸的卷积处理.同时为了提升信息利用率,防止特征丢失,本文加入了多个直连通道,并利用拼接操作保证低层特征的完整传输.经过拼接后的特征分布为64通道,分别作为最后3个Se-Res模块的输入.除此之外,在拼接操作前,加入3层网络,其中黄、灰、蓝色分别是卷积操作、非线性激活和归一化处理.输出层卷积选择为4×4,激活函数设为Tanh,Tanh激活输出能既起到激活作用,又起到归一化作用.其将计算结果归一化到[-1, 1]之间,能够避免过大或过小的值.训练时将所有图像数据全部归一化到[-1, 1], 生成结果显示时再反向调整为[0, 255],所以Tanh激活函数的值经过调整即作为了输出图像三通道的像素值,由此可以得到最终的增强结果.

1.2 判别网络设计

传统判别网络采用的是单一标量判别图像真伪的判别方式.这种方式虽然能够很好地进行全局范围观测,但是容易丢失细节信息.马尔科夫判别网络(PatchGAN)^[16]提出了局部判别的思想.基于补丁级别的信息,可以更好地感知边缘细节部分,从而得到细节丰富、分辨率高的图像.因此为了既能把握整体信息,保持全局一致性,又能输出高分辨率图像,本文设计了一种全局-区域式的双判别网络结构.全局-区域判别方式示意图如图3所示.

图3

图3 判别方式示意图

Fig.3 Schematic diagram of discrimination method

全局判别采用了对整体图像范围的判伪方式,网络中的基本模块采用CLB (ConV-LeaklyReLU-BN) 形式,首先通过步幅大于1的卷积实现图像降维,其次利用带来泄露的非线性函数使小于0的信息顺利传输,最后加入批归一化(BN)层实现分布的修正^[17].而区域判别则选取以填充区域为中心的尺寸为256像素×256像素的图像块,再经过4次步长为2的卷积处理后其输出尺寸为16像素×16像素.区域判别采用多分类结果输出形式,每一个数值对应输入图像中的每一个部分.全局、区域判别网络设计相似,其最大区别在于全局判别输出为单一标量,而区域判别输出为16×16矩阵.

1.3 损失函数设计

为了缓解对数据的依赖,弥补样本不足的问题,本文在监督学习的基础上设计了仅考虑生成器输出图像本身质量的无监督学习形式^[18].整个网络的损失函数包括三部分:质量驱动目标损失、对抗性目标损失、内容感知损失.

1.3.1 质量驱动目标损失针对水下图像出现的色彩扭曲等降质问题,质量驱动目标损失可以无需参考图像的约束,仅根据水下失真图像实现优化^[19].本文选取了基于人体视觉系统的Lab颜色模式^[20].其中,Lab分布是通过RGB(Red-Green-Blue)分布经过空间变换与数值处理所得到的.代表红绿色的a和代表蓝黄色的b像素值取值范围为 (-128,127). a,b的正负和均值大小、方差大小分别关系到图像中的颜色占比大小、占比均衡性和分布多样性.由此可以建立如下损失形式的数学表达式:

$\begin{matrix} L_{U} = \frac{\sqrt[]{(μ_{a'} {- 0.5)}^{2} + (μ_{b'} {- 0.5)}^{2}}}{5 \sqrt[]{σ_{a'}^{2} + σ_{b'}^{2}}} \end{matrix}$

(1)

式中: $a' 、 b' 为归一化后的数值分布, 同时中心点由 0 变为 0.5; μ_{i} 和 σ_{i}^{2} 分别为均值与方差, i \in {a', b'} .$

不同质量的水下图像及其Lab分布如图4所示.其中:p为归一化像素值;h为直方图分布值.在3种不同情况下进行实验,图4(a)中,绿色占比大,黄绿分布不均衡,其Lab分布图中的a、b曲线分别远离中心位置分布.图4(b)中,仍存在偏色现象,但是情况略好,其Lab分布图中,a曲线基本位于中心位置分布,b曲线则轻微左移.图4(c)中,其Lab分布曲线皆位于中心位置分布.3幅图像质量损失值分别为0.857,0.349和0.037.

图4

图4 不同质量的水下图像及其Lab分布

Fig.4 Underwater images with different qualities and their Lab distributions

1.3.2 对抗性目标损失对抗性目标损失能够减少标注数据不足的影响,并更准确地提取融合水下失真图像的特征,其数学表达式如下所示:

$\begin{array}{l} L_{GA N_{t}} = E_{x~ p_{r} (x)} [\lg D_{t} (x, y)] + \\ E_{x~ p_{g} (x)} [\lg (1 - D_{t} (x, G (x)))] \end{array}$

(2)

式中: p_r(x)和p_g(x)分别为数据来源真伪的概率分布;t∈{1, 2}分别为全局判别和区域判别;x为输入数据;y为标签图像;G(x)为生成器输出;Dt/(x, y)为判别输出.这种函数形式限制了网络权重的更新方向,保证了整体输出的稳定性.

1.3.3 内容感知目标损失内容感知目标损失^[21]拥有快速分析、差异寻找、信息匹配、特征提取、细节捕获的能力.其使用视觉几何组(VGG)模型^[22],利用卷积网络进行二次特征提取,再根据特定层距离间的输出分布来达到对样本相似性的监测.内容感知目标损失数学表达式如下:

$\begin{matrix} L_{C} = \frac{1}{H_{k} W_{k}} [ϕ_{k} (I^{y}) - ϕ_{k} (I^{G (x)} {)]}^{2} \end{matrix}$

(3)

式中: H_k和W_k分别为经过网络k层处理后的特征图高宽; Ø k(·)为VGG模型前k层的网络参数;I^y,I^G(x)为参考图像y和生成器输出图像G(x).

综上所述,本文损失函数整体表达式如下:

$\begin{matrix} L = ω_{GAN} L_{GAN} + ω_{C} L_{C} + ω_{U} L_{U} \end{matrix}$

(4)

式中: ω_U、ω_GAN和ω_C为3个损失函数的权重,分别取为0.3、0.3和0.4.

2 实验设计

2.1 参数设计

本文的实验环境配置是Intel Xeon E5-2640V4处理器,2.4 GHz主频,32 GB缓存空间和GTX 1080Ti GPU.编程语言和模型搭建平台为Python和PyCharm,训练框架基于Tensorflow和Kears.实验采用Adam优化器,初始学习率为 0.0003,一阶矩估计的指数衰减率为0.5.样本的预处理过程分为4个部分:选取小批量数据,修改大小为256像素×256像素,数据增强操作以及标准化处理到(-1,1).数据增强处理主要包括线性插入参考图像、左右翻转和上下翻转,实验采用random函数产生(0,1)之间的任意浮点数.本实验设置翻转概率为0.25.此外,每一迭代批量设置为4,整体循环次数设为200.

2.2 损失函数性能测试

本文从训练过程和训练结果出发,对损失函数进行组合训练与分析.图5和6为各损失函数训练过程对比.其中: L_all为3种损失函数组合;L_GAN+C为对抗性目标损失函数与内容感知目标损失函数组合;L_GAN+U为对抗性目标损失函数与质量驱动目标损失函数组合; n为迭代次数; l为损失函数值.

图5

图5 2种损失函数训练过程对比

Fig.5 Training process comparison of two loss functions

图6

图6 3种损失函数训练过程对比

Fig.6 Training process comparison of three loss functions

从图5中可以看出,3种损失函数组合形式训练过程平稳,震荡幅度小,所需循环次数少.与之相比,当只使用生成对抗损失函数进行训练时,会出现收敛过程不稳定,震荡幅度大,所需循环次数多等问题.由图6可知,红色实线、蓝色点线表现相近且明显优于橙色虚线.但是在收敛后蓝色线收敛值出现小幅波动,因此红线稳定性优于蓝线.综上,3种损失函数组合的函数形式具有更好的性能优势.另外,本文选择了峰值信噪比(PSNR)和结构相似性(SSIM)两个指标来进行客观评估,表1展示了训练完成后在水下视觉感知增强(EUVP)数据集^[13]上的测试评价结果.由表1可知,3种损失函数的组合形式明显优于其余组合.

表1 各损失函数评价指标对比

Tab.1 Metrics results comparison of each loss function

损失函数形式	L_GAN	L_GAN+U	L_GAN+C	L_all
PSNR	23.601	23.938	24.462	24.749
SSIM	0.711	0.732	0.745	0.764

3 实验结果分析

为了验证算法的有效性,本文设计了水下合成数据增强效果分析和多场景真实数据增强效果分析两个实验,并从主观视觉评价和客观指标评价两方面进行结果分析.进行对比的算法有: 基于先验知识的文献算法^[23,24]、基于融合的文献算法^[25,26]、基于深度学习的算法^[13,27].

3.1 水下合成数据增强效果对比分析

合成数据集来自于EUVP数据集^[13],其通过CycleGAN网络^[28]进行对水下场景风格的学习和模拟.各种算法在合成数据集上的增强效果如图7所示.从视觉层面可以看出,图7(b)中的RayleighD算法图像色彩扭曲,出现了严重失真的问题.相对全局直方图拉伸(RGHS)算法增强不足, 使得图7(c)中残存大量水体噪声.图7(e)中Fus_2算法图像整体呈现灰白色,这是由于其过度增强的问题导致图像对比度和饱和度过低.图7(d)中的Fus_1、7(f)中的FGAN、7(g)中的UWCNN算法都引入了新的色偏,使得整体图像效果不佳.综合来看,本文算法的图像处理效果最佳,与参考图像的视觉效果几乎相同,在第1行的图像处理效果上甚至优于参考图像.其对于水体影响去除彻底,图像色彩鲜艳、亮度通透、纹理清晰,有着很好的色彩饱和度和视觉效果.因此从主观视觉来看,本文算法最佳.

图7

图7 各算法在合成数据集上的增强结果对比

Fig.7 Enhancement results comparison of various algorithms on synthetic datasets

另外,本文选择了峰值信噪比(PSNR)、结构相似性指数(SSIM)、水下图像质量检测(UIQM)、色彩对比度密度(CCF)和信息熵5种指标进行客观评价.PSNR能够衡量图像质量的优劣程度和噪声情况;SSIM可以从整体层面判别两张图片的相似性;UIQM则是专门针对无对照参考情况下的水下图像质量评价;CCF是一个综合质量评价指标,其不仅考虑了色调失衡、对比度差的问题,还加入了雾感评判标准;信息熵能够描述当前图像信息量的丰富度,其值大小与特征信息的多少紧密相关.各算法在合成数据集上的增强结果对比,如表2所示.由表2可知,本文算法在所有指标上都明显优于其余算法,有着出色的表现.

表2 各增强算法在合成数据集上的评价指标对比

Tab.2 Metrics comparison of various enhancement algorithms on synthetic datasets

算法	PSNR	SSIM	UIQM	CCF	信息熵
原图	17.180	0.628	2.589	24.285	7.135
文献[23]	14.782	0.567	2.892	23.308	7.526
文献[24]	18.063	0.686	2.409	26.919	7.547
文献[25]	16.507	0.657	2.699	25.787	7.744
文献[26]	18.612	0.714	3.216	26.866	7.519
文献[13]	18.776	0.698	3.219	27.710	7.262
文献[27]	16.153	0.588	2.995	16.997	6.749
本文算法	26.094	0.835	3.378	31.139	7.786

3.2 在真实数据上的结果对比

水下环境复杂多变,本文设置了偏绿、偏蓝、蓝绿、雾感、亮度不均不足5种不同场景进行验证,并从公开数据集和竞赛中收集真实数据.各算法增强结果如图8所示.由图8可知,在场景1的偏绿场景中,图8(b)中的RayleighD算法图像过度增强,色偏严重;图8(d)中的Fus_1算法图像残存大量水体噪声;图8(e)中的Fus_2算法图像饱和度鲜艳度不足;图8(c)中RGHS、8(f)中FGAN、8(g)中UWCNN算法图像整体分别呈现绿色、黄色、黄绿色,3种算法无法准确修正颜色分布.本文算法在处理绿色残留上效果明显优于其余算法,整体色彩鲜艳,各方面出色.在场景2的偏蓝场景中,其余算法无一能够很好地纠正蓝色主导的颜色分布,只有本文算法能够去除水体影响,还原出清晰图像.在场景3的蓝绿场景与偏绿场景类似,本文算法增强性能最优.在场景4的雾感场景中,除了图8(f)中的FGAN算法外,其余算法都去除了雾感影响,但都出现了色偏问题,只有本文算法输出了无水体色调残留,色彩饱和度高的清晰图像.在场景5的亮度不均不足场景中,由于输入图像质量过低,导致其余算法皆无法很好地还原图像色彩,但是本文算法依然输出了较其他算法更清晰的图像,而且没有出现色调偏离的失真情况.综上,本文算法的水下图像增强效果最好.

图8

图8 不同场景下数据增强结果对比

Fig.8 Comparison of enhancement results on different datasets

为了对增强结果的质量进行客观分析比较,从UIQM、CCF、信息熵3个方面的指标进行定量分析,如表3所示.对于UIQM指标,本文算法能够在所有场景下都得到最高的分值,且得分均匀,没有出现明显得分低的场景,而其余算法得分低且存在明显分值低的场景,浮动较大.从CCF指标来看,本文算法依旧得分最高,远超其余算法.最后从信息熵来看,虽然其余算法色彩变化明显,得分较高,但是本文算法依旧有最高的分值,在处理水下噪声去除方面有明显的优势.综上所述,本文算法有能够实现多场景的增强任务,有着出色的泛化性能.

表3 各增强算法在多场景数据上的评价指标对比

Tab.3 Metrics comparison of various enhancement algorithms on multi-scene images

算法	场景	UIQM	CCF	信息熵
文献[23]	场景1	3.079	20.426	7.507
	场景2	2.420	19.494	7.051
	场景3	3.032	21.242	7.343
	场景4	3.382	21.134	7.454
	场景5	2.898	15.489	7.233
文献[24]	场景1	2.904	21.673	7.494
	场景2	2.011	21.904	7.168
	场景3	3.059	21.286	7.519
	场景4	3.293	20.427	7.329
	场景5	2.690	16.985	7.305
文献[25]	场景1	3.022	22.459	7.549
	场景2	2.623	21.427	7.247
	场景3	3.050	22.523	7.625
	场景4	3.340	21.842	7.472
	场景5	2.875	17.364	7.357
文献[26]	场景1	3.225	23.419	7.484
	场景2	2.505	20.444	7.232
	场景3	3.121	20.302	7.532

续表3

算法	场景	UIQM	CCF	信息熵
	场景4	3.429	23.140	7.467
	场景5	3.042	16.458	7.262
文献[13]	场景1	2.541	17.698	6.623
	场景2	2.851	19.053	6.997
	场景3	2.669	12.017	6.459
	场景4	3.198	14.953	6.581
	场景5	2.270	10.881	6.244
文献[27]	场景1	2.418	12.589	6.403
	场景2	3.108	16.396	6.846
	场景3	2.668	14.434	6.926
	场景4	2.912	11.469	6.162
	场景5	2.560	13.142	6.917
本文算法	场景1	3.421	25.313	7.701
	场景2	3.307	23.828	7.698
	场景3	3.272	24.259	7.698
	场景4	3.477	26.109	7.731
	场景5	3.194	19.491	7.444

4 结语

针对水下观测图像存在颜色失真和低对比度等问题,本文提出了一种基于生成对抗模型的水下图像修正与增强算法.该算法在生成部分将多尺度内核应用于Se-Res模块中,实现多感受野特征信息的提取与融合.判别部分设计考虑了全局信息与局部细节的关系,建立了全局-区域双判别结构,能够保证整体风格与边缘纹理的一致性;同时设计了仅考虑图像本身质量的无监督形式,其与有监督损失一起共同对模型的训练方向进行约束能够得到更优的色彩和结构表现.为了验证算法的性能,本文设计了多个对比分析实验,分别从主观视觉和客观指标上进行结果分析.实验结果表明,本文算法能有效提高图像清晰度,增强对比度,修正色偏,保护细节特征不丢失.

(本文编辑:石易文)

参考文献

原文顺序

文献年度倒序

文中引用次数倒序

被引期刊影响因子

[1]

WHITCOMB

, YOERGER D

, SINGH

, et al. Advances in underwater robot vehicles for deep ocean exploration: Navigation, control, and survey operations[M]//Robotics Research. New York, USA: Springer International Publishing, 2000: 439-448.

[2]

LU H

, LI Y

, SERIKAWA

Computer vision for ocean observing[M]//Artificial Intelligence and Computer Vision. New York, USA: Springer International Publishing, 2016: 1-16.

DOI:10.1016/j.sna.2013.07.017 URL [本文引用: 1]

[3]

GAUDRON J

, SURRE

, SUN

, et al.

Long period grating-based optical fibre sensor for the underwater detection of acoustic waves

[J]. Sensors and Actuators A: Physical, 2013, 201:289-293.

[4]

YAN

, MA

, TIAN J

, et al.

A gravity gradient differential ratio method for underwater object detection

[J]. IEEE Geoscience and Remote Sensing Letters, 2014, 11(4):833-837.

DOI:10.1109/LGRS.2013.2279485 URL [本文引用: 1]

[5]

WANG

, SONG

, FORTINO

, et al.

An experimental-based review of image enhancement and image restoration methods for underwater imaging

[J]. IEEE Access, 2019, 7:140233-140251.

DOI:10.1109/Access.6287639 URL [本文引用: 1]

[6]

YANG

, HU J

, LI C

, et al.

An in-depth survey of underwater image enhancement and restoration

[J]. IEEE Access, 2019, 7:123638-123657.

DOI:10.1109/Access.6287639 URL [本文引用: 1]

[7]

LI C

, GUO C

, REN W

, et al.

An underwater image enhancement benchmark dataset and beyond

[J]. IEEE Transactions on Image Processing, 2020, 29:4376-4389.

DOI:10.1109/TIP.83 URL [本文引用: 1]

[8]

HE K

, SUN

, TANG X

Single image haze removal using dark channel prior

[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2011, 33(12):2341-2353.

DOI:10.1109/TPAMI.2010.168 URL [本文引用: 1]

[9]

DREWS JR

, DO NASCIMENTO

, MORAES

et al.

Transmission estimation in underwater single images

[C]// 2013 IEEE International Conference on Computer Vision Workshops. Sydney, NSW, Australia: IEEE, 2013: 825-830.

[10]

WANG

, ZHANG

, CAO

et al.

A deep CNN method for underwater image enhancement

[C]// 2017 IEEE International Conference on Image Processing (ICIP). Beijing, China: IEEE, 2017: 1382-1386.

DOI:10.1145/3422622 URL [本文引用: 1]

[11]

GOODFELLOW

, POUGET-ABADIE

, MIRZA

, et al.

Generative adversarial networks

[J]. Communications of the ACM, 2020, 63(11):139-144.

[12]

ZHU J

, PARK

, ISOLA

et al.

Unpaired image-to-image translation using cycle-consistent adversarial networks

[C]// 2017 IEEE International Conference on Computer Vision (ICCV). Venice, Italy: IEEE, 2017: 2242-2251.

DOI:10.1109/LSP.2016. URL [本文引用: 6]

[13]

ISLAM M

, XIA Y

, SATTAR

Fast underwater image enhancement for improved visual perception

[J]. IEEE Robotics and Automation Letters, 2020, 5(2):3227-3234.

[14]

, YU W

, LIU L

et al.

SRM-net: An effective end-to-end neural network for single image dehazing

[C]// Proceedings of the 3rd International Conference on Video and Image Processing. New York, NY, USA: ACM, 2019: 74-78.

[15]

, KOLTUN

Multi-scale context aggregation by dilated convolutions

[EB/OL].(2016 -04-30)[2020-10-13].https://arxiv.org/abs/1511.07122.

URL [本文引用: 1]

[16]

IIZUKA

, SIMO-SERRA

, ISHIKAWA

Globally and locally consistent image completion

[J]. ACM Transactions on Graphics, 2017, 36(4):1-14.

[17]

RADFORD

, METZ

, CHINTALA

Unsupervised representation learning with deep convolutional generative adversarial networks

[EB/OL].(2015 -11-15)[2020-10-13]. https://www.researchgate.net/publication/284476553_Unsupervised_Representation_Learning_with_Deep_Convolutional_Generative_Adversarial_Networks.

URL [本文引用: 1]

[18]

BARBOSA W

, AMARAL H G

, ROCHA T

et al.

Visual-quality-driven learning for underwater vision enhancement

[C]// 2018 25th IEEE International Conference on Image Processing (ICIP). Athens, Greece: IEEE, 2018: 3933-3937.

[19]

YAN Y

Color image quality measures and retrieval

[D]. New Jersey, USA: New Jersey Insititute of Techonlogy, 2006.

DOI:10.1364/JOSAA.15.002036 URL [本文引用: 1]

[20]

RUDERMAN D

, CRONIN T

, CHIAO C

Statistics of cone responses to natural images: Implications for visual coding

[J]. Journal of the Optical Society of America A, 1998, 15(8):2036.

[21]

JOHNSON

, ALAHI

, LI F

Perceptual losses for real-time style transfer and super-resolution

[C]// Computer Vision-ECCV 2016. Amsterdam, The Netherlands: ECCV, 2016: 694-711.

DOI:10.1109/TIP.83 URL [本文引用: 3]

[22]

SIMONYAN

, ZISSERMAN

Very deep convolutional networks for large-scale image recognition

[EB/OL].(2014 -09-02) [2020-10-13]. https://www.researchgate.net/publication/319770291_Very_Deep_Convolutional_Networks_for_Large-Scale_Image_Recognition.

URL [本文引用: 1]

[23]

GHANI A S

, ISA N A

Underwater image quality enhancement through composition of dual-intensity images and Rayleigh-stretching

[C]// 2014 IEEE Fourth International Conference on Consumer Electronics Berlin (ICCE-Berlin). Berlin, Germany: IEEE, 2014: 219-220.

[本文引用: 3]

[24]

HUANG D

, WANG

, SONG

et al.

Shallow-water image enhancement using relative global histogram stretching based on adaptive parameter acquisition[C]//International Conference on Multimedia Modeling

Bangkok, Thailand: MMM, 2018: 453-465.

[本文引用: 3]

[25]

ANCUTI

, ANCUTI C

, HABER

et al.

Enhancing underwater images and videos by fusion [C]//2012 IEEE Conference on Computer Vision and Pattern Recognition.

Providence, RI, USA: IEEE, 2012: 81-88.

[本文引用: 3]

[26]

ANCUTI C

, ANCUTI

, DE VLEESCHOUWER

, et al.

Color balance and fusion for underwater image enhancement

[J]. IEEE Transactions on Image Processing, 2018, 27(1):379-393.

[27]

LI C

, ANWAR

, PORIKLI

Underwater scene prior inspired deep underwater image and video enhancement

[J]. Pattern Recognition, 2020, 98:107038.

DOI:10.1016/j.patcog.2019.107038 URL [本文引用: 3]

[28]

ZHU J

, PARK

, ISOLA

et al.

Unpaired image-to-image translation using cycle-consistent adversarial networks [C]//2017 IEEE International Conference on Computer Vision (ICCV)

Venice, Italy: IEEE, 2017: 2242-2251.