一种改进变换网络的域自适应语义分割网络

图1 域自适应语义分割的框架

Fig.1 Framework of domain adaptive semantic segmentation

式中:ζ为域分布损失,用于计算源图S与目标图T之间的特征差异;λ_S、λ_p分别为对应权重.由于只有源图的标签,模型中只计算源图S的语义分割损失.为了保证目标图的语义分割精度,变换后源图像的域与目标图像域需保持一致.只有当源图与目标图的语义对齐性较好,目标图的分割精度才更高.

为此,文献[10]通过图像重构损失ζ_r和生成式对抗网络的损失提升图像的翻译质量,其语义分割网络的训练损失Γ_E如下:

Γ_E=λ_G[ζ_G(S',T)+ζ_G(S,T')]+λ_r[ζ_r(S',F^-1(S'))+ζ_G(T,F(T')]

(2)

式中:λ_r、λ_G为对应的损失权重;ζ_G为生成式对抗网络损失,用于评价变换源图S'与目标图像T的域分布距离;F^-1是F的逆变换,以约束图像变换网络的图像合成.

虽然上述模型可以实现非监督的语义分割任务,但是由于实际场景的复杂性,导致变换后的图像与目标图像的域分布存在差异.例如,源图与目标图在视觉上的差异(灯光、比例、对象纹理等).

2 域自适应语义分割模型的改进

为了克服域间隙大的源图和像素对语义分割网络训练的影响,本文提出一种改进变换网络的域自适应语义分割网络(DA-SSN).具体而言,为了弱化源数据集中大间隙源图对变换网络训练的影响,本文提出分阶段训练变换源图的训练策略.其次,通过一种可解释蒙板标记图像中视差差异较大的像素区域,并在训练损失计算中忽略对应像素的损失,以消除间隙大的像素对模型训练的影响.

2.1 变换网络的分阶段训练

如果源图与目标图风格相似,或者二者的域分布规律性强,则通过CycleGAN模型就可以实现源图与目标图的语义对齐.然而,GTA5数据集中存在一些与目标图(城市场景)风格差异大的源图.变换网络为了得到整个训练的最小化训练损失,忽略部分正确的语义对齐源图,以满足全部源图变换的最小训练损失梯度训练网络参数.因此,该部分大间隙的源图降低了整个场景的语义分割精度.本文通过分阶段训练变换网络,以获取目标图域间隙小的源图.具体变换网络训练策略如下.

输入:S, T

输出:S'={S'₁,S'₂},其中,S'₁为第1轮次的变换源图;S'₂为第2轮次的变换源图.

训练轮次K=1时,初始化变换网络训练步骤.

(1) 基于式(3)和CycleGAN初始化网络,设定判断阈值ϑ:

当ζ_G(S(i)',T)<ϑ, S(i)'∈{S'₁} (i为第i张源图).

当ζ_G(S(i)',T)>ϑ,S(i)'∈{S'₂}.

训练轮次K=2时,第2阶段源图变换网络优化步骤:

(2) 输入剩余源图S',基于式(7)和CycleGAN优化网络.

(3) 更新剩余源图,组成最终的变换源图S'.

综上所述,该网络训练由两阶段构成.第1阶段基于CycleGAN网络^[9]训练全部源图到目标图的语义对齐;第2阶段对第1阶段中变换效果差的源图迭代训练.具体来说,通过第1阶段的变换网络,可以筛选出域间间隙大的源图集,然后将该数据集作为第2阶段网络的输入.因为数据集减少了,变换网络将全部注意力集中到剩余数据集上,再基于这些源图的训练损失最小化变换源图.如此迭代,相比于初始阶段的训练,则间隙大的源图变换更接近于目标域.为此,将变换网络的训练损失修改为

Γ_F=λ_r[ζ_r(S,F^-1(S'))+ζ_r(T,F(T'))] λ_G[ζ_G(S'₁,T)+λ_aζ_G(S'₂,T)+ζ_G(S,T')]

(3)

式中:λ_a为对应的分阶段训练的损失权重.

本文将源图的对抗网络损失ζ_G(S',T)作为评价源图与目标图的间隙差距,并在第一阶段训练中设置阈值ϑ,筛选出ζ_G(S',T)>ϑ的源图.当分辨器ζ_G(S',T)>ϑ时,可以认为该变换后的源图域目标图域间隙差距大,需要重新收集该数据集,并作为第二阶段的变换网络的输入;反之,则认为所得源图与目标图是语义对齐的.

2.2 基于可解释性蒙板的像素级图像变换

虽然通过分阶段训练变换网络提高了域间隙大的源图的语义对齐性,但是不可忽视的是,一张图片(一个场景)中也会存在域间隙大的物体.例如GTA5和Cityscapes数据集之间的空间布局差异.对于GTA5,远处天空中存在大量的高大型树木,而城市景观则不同.对于这部分风格差异较大的源图像素,原始的CycleGAN网络处理效果不佳.为此,在模型训练中迫切需要将域间隙大的源图部分像素区域忽略,以避免此类区域对其余像素区域的干扰.

2.2.1 蒙版结构的构建文献[23]在估计场景深度时,针对空间几何推理无法解释的像素区域,提出了一种可解释蒙板忽略该区域.在本文中,为了避免大间隙图像像素对模型性能的影响,训练了一个可解释性预测网络蒙板(MaskNet),与变换和分割网络同时进行,该网络输出源图像素对应的解释掩码,其中掩码表示对应像素从源图到目标图间隙缩小的可信度.MaskNet的具体网络结构如图2所示.

图2

图2 蒙版网络结构

Fig.2 Network structure of MaskNet

经分析,该网络是编码器-解码器架构,其中编码器由6个卷积层组成,输出层及卷积核的参数分别是:(16×16,7×7)(16×16代表输出层参数,7×7代表卷积层参数,下同)、(16×32,5×5)、(32×64,3×3)、(64×128,3×3)、(128×256,3×3)、(256×256,3×3),解码器是6个上卷积层,输出层及卷积核尺寸参数是:(256×256,3×3)、(256×256,3×3)、(256×128,3×3)、(64×128,3×3)、(64×32,3×3)、(32×16,3×3),且在每个层中都有ReLU激活函数,同时预测层使用sigmoid函数,其对应的输出层、卷积核尺寸参数如下:(256×5,3×3)、(256×5,3×3)、(128×5,3×3)、(64×5,3×3)、(32×5,3×3)、(16×5,3×3).

2.2.2 基于MaskNet的损失函数基于构建的MaskNet重新定义图像变换损失,具体为

Γ_F=λ_G[M_S'ζ_G(S',T)+M_T'ζ_G(S,T')]+ λ_r[M_S'ζ_r(S,F^-1(S'))+M_T'ζ_r(T,F(T'))]

(4)

ζ_G(S',T)= $E_{I_{T} ~ T}$ [D_F(I_T)]+ $E_{I_{S} ~ S}$ [1-D_F(I'_S)]

(5)

ζ_recon(S',F^-1(S'))= $E_{I_{S} ~ S}$ [‖F^-1((I'_S))-I_S‖₁]

(6)

式中:M_S',M_T'分别为图像S',T'的可解释性蒙板;ζ_recon定义图像重构损失;I_T、I_S为输入的目标图和源图; I'_S为翻译图像;D_F为鉴别器.

由于蒙板网络MaskNet并没有直接的监督机制,所以模型在训练中会直接将MaskNet全部预测为0,以实现训练损失的最小化.为了防止此类情形的出现,在损失函数中设置一个正则化项,通过最小化与常量标签“1”的交叉熵,来实现Mask的非零预测,具体公式为

ζ_mask(S')=γf(M_S',1)

(7)

式中:ζ_mask为蒙板损失;γ为该项损失权重; f(M_S',1)为交叉熵函数,“1”是与M_s尺寸相同,全部元素为1的常量蒙板.

综上所述,本文利用GAN和图像重构损失函数鼓励网络最小化变换源图域目标图的差距,但通过蒙板Mask允许一定数量的松弛来避免域间隙大的像素区域的影响.

3 本文算法框架

文献[10]所提的域适应分割模型是全新的非监督语义分割网络,对目标场景的语义分割性能显著,但是其中变换网络存在大间隙源图变换质量较差的问题.针对此问题,本文在变换网络中通过可解释蒙板MaskNet和分阶段训练等改进,提升了源图到目标图的语义对齐性能.然后将所得源图L_T训练语义分割网络,最终提出一种改进变换网络的域适应语义分割模型,具体步骤框架图如图3所示.

图3

图3 本文算法框架图

Fig.3 Framework of algorithm proposed

4 实验与分析

4.1 网络结构

本文算法分别由变换网络模块和分割网络模块组成,其中CycleGAN作为变换网络模块,本文在此基础上提出了改进变换网络,而Resnet101^[24]和DeepLab v2^[14]作为分割模型,其被ImageNet网络初始化,对应的分辨器结构是5个卷积层,网络参数分别是:卷积核4×4;各层通道数64、128、256、512、1;步长2,且每层之后连接1个ReLU层.

4.2 数据集

实验数据分别来自于GTA5^[25]和Cityscapes^[26]数据集,其中GTA5作为源图数据集,该数据集包含 24 966 张图片,其分辨率为 1 914 像素×1 052 像素,与Cityscapes数据具有相同的19个类别.而Cityscapes数据集作为目标数据集,分为训练集、验证集以及测试集.在测试集下验证本文算法的性能,但是由于官方并未提供测试集的真值,所以将验证集作为测试集(500张图片).为了保证测试的公平性,要求训练集和验证集中不包含相同场景的图片.

4.3 实验细节

在实验中,变换网络训练图片分辨率随机设为452像素×452像素,训练轮次为20.模型学习率为 0.0002,且前10轮学习率逐渐降低为 0.0001,之后保持不变.损失权重设为λ_G=1,λ_r=10,λ_a=1,分割网络的实验参数与文献[10]相同,所有实验均是在Ubuntu18.04系统Pytorch 平台下完成.电脑配置如下:CPU(2.0 GHz Intel i7),运行内存为 32 GB,GPU(2080Ti).实验主要做了两方面验证:① 验证本文改进算法的有效性.② 比较不同算法的语义分割性能,分析本文算法的优势.

4.4 本文改进的有效性验证

4.4.1 模型训练损失变化图4所示为模型改进前后随着训练轮次的训练损失变化曲线.分析可知,全部模型随着训练轮次的增加,训练损失逐渐降低,并且在轮次 10⁵ 左右收敛.相比于原始模型,本文所提的改进模型训练损失缩减幅度更大,最终训练损失从0.17降低至0.013.表明了本文所提出的改进降低了源图到目标图的间隙差距,提高了源图到目标图的语义对齐性.

图4

图4 模型改进前后的训练损失

Fig.4 Training loss before and after model improvement

为了全面验证本文改进的效果,本文训练和评估了多种模型,其中每个模型都是原始模型的基础上加入了不同的改进,包括D₁(在原始F上加入源图语义标签),D₂(分阶段训练原始F),D₃(在训练损失计算中利用可解释蒙版.

4.4.2 分阶段训练策略的有效性研究针对域间间隙大的源图,本文采用了分阶段的训练策略,以得到与目标图语义对齐性更高的变换源图.为了定量说明分阶段训练的意义,表1对比了分阶段训练前后的域间间隙和目标图的语义分割精度.可以发现,分阶段训练源图对于改善大间隙源图的语义对齐性和提高语义分割精度具有重要作用.

表1 分阶段训练前后的性能对比

Tab.1 Performance comparison before and after staged training

方法	训练损失	平均交并比
原始方法	0.383	41.3
D₂	0.339	42.1

分阶段训练的关键是基于间隙阈值筛选大间隙的源图数据集.为了进一步研究不同阈值对模型性能的影响,表2给出了不同阈值对变换源图间隙损失和语义分割精度的影响.

表2 不同阈值的模型性能变化

Tab.2 Performance changes of model at different thresholds

方法	损失阈值ϑ	平均交并比
D₂	0.38	41.4
	0.36	41.6
	0.34	42.0
	0.32	42.1
	0.30	41.9

经分析,当0.38>ϑ>0.32时,随着阈值的降低,模型的语义分割精度更高.这是因为随着阈值的增加,大间隙的源图集被逐步筛选出来,再对这些源图进行重复训练也再次提高了该源图集的变换质量,因而进一步提高了整体的语义分割的精度.但是,当ϑ<0.32时,模型的精度逐渐降低,这可能是因为阈值门槛的降低将不需要分阶段训练的源图集也被重复训练, 造成再次训练的源图集的域间间隙距离增大,因而模型的精度进一步下降.因此,本文将筛选源图集的阈值设定为ϑ=0.32.但是需要指出的是,不同阈值的分阶段训练都要比原始的变换网络训练效果要好,语义分割精度更高,由此证明了所提的分阶段训练策略的有效性.

4.4.3 可解释蒙版的有效性研究针对源图中域间间隙大的像素区域,本文提出了可解释性蒙版MaskNet,以忽略源图中语义对齐性差的像素区域.图5可视化了网络预测的可解释蒙版.分析可知,大部分像素在可解释蒙版上呈白色(自信度较高),对应的源图区域确实与目标图风格相似,因而情况相符.相反,蒙版MaskNet对于天空、大树等物体可信度较低(图中呈灰色).事实上,源图的这些区域确实与目标图的风格差异大.在变换网络中考虑这些区域只会降低其他像素区域的语义对齐性,最终导致语义分割的精度降低.本文通过可解释蒙版避免了上述区域对模型的影响.

图5

图5 蒙版可视化及目标图和源图生成图

Fig.5 Mask visualization and composition between target images and source images

为了定量评价可解释蒙版的作用,表3给出了可解释蒙版应用前后的模型性能变化.可以发现,可解释蒙版的应用直接忽略了间隙大的像素区域,与改进前相比,降低了变换图与目标图的域间损失,语义分割的精度提高至42.2.由此说明了可解释蒙版对提高模型性能的有效性.

表3 MaskNet应用前后的模型性能对比

Tab.3 Model performance comparison before and after application of MaskNet

方法	域间间隙	平均交并比
原始方法	0.383	41.3
D₃	0.015	42.2
本文方法	0.006	42.4

4.5 算法性能比较

4.5.1 图像变换性能表5比较了本文算法与原始算法的变换图的域间间隙.经分析,与原始模型的性能相比,本文算法缩小域间间隙性能更显著.图6所示为本文算法与CycleGAN算法的图像变换效果,其中Cityscapes是随机选择的目标图片集,包括不同的城市场景(街道、汽车、建筑物、天空以及大树等).经分析,相比于CycleGAN的变换效果,本文变换的源图在边缘更加完整、轮廓清晰度更高,与Cityscapes数据集的场景风格更为接近.以远方的天空和参天大树为例,CycleGAN算法因为虚拟数据集中的高大树木与远方天空的混合,导致变换风格时产生混淆(见图中红色方框标注),而本文算法在上述对象上保持了对象的各自属性,不会相互受到影响,这是因为本文通过可解释型蒙版对风格差异大的物体(例如易混淆的天空、大树等)进行一定程度的忽略,进而降低了它们对模型的影响,由此说明本文算法的有效性和优势.

图6

图6 源图的变换效果比较

Fig.6 Comparison of transformations of source images

4.5.2 语义分割检测性能图7显示了分别利用Cycada^[9]、DCAN^[22]、CLAN^[27]、BLD^[10]、CBST^[28]等算法对场景中的街道、汽车以及行人等类别进行语义分割的可视化结果.相比于其他算法,本文的语义分割图毛刺少、边界轮廓更清晰,分割的结果更加与实际真值相符.以图7的汽车和行人分割为例,本文分割的行人和汽车很好地与街道、房屋等物体区分,并且估计的汽车边缘毛刺少、轮廓清晰,其长宽也更接近于实际尺寸.

图7

图7 不同算法的语义分割结果可视化

Fig.7 Visualization of semantic segmentation results of different algorithms

为了定量评价本文算法的优势,分别在Resnet101^[24]和DeepLab v2^[14]上比较了所有算法的性能,评价标准是平均交并比指标,结果见表4,其中每一项指标的最高值加粗表示.本文算法在Resnet101^[24]和DeepLab v2^[14]两种结构上的结果都好于其他流行算法.其中,DCAN^[22]采用了自适应训练方法,提高和泛化了不同类别的分割精度,相比于DCAN^[27],本文模型性能提高了约17.4%.CLAN^[27]通过调整特征域间间隙提高模型性能,但与本文模型相比结果仍相差约14.8%.本文的语义分割框架与DBL^[10]相同,相比于DBL^[10],本文通过蒙版等一系列改进进一步提高了模型的语义分割精度.由此可见,本文算法相比于其他算法的优势.

表4 不同算法在GTA5→Cityscapes数据集上的语义分割结果比较

Tab.4 Comparison of semantic segmentation results of different algorithms in GTA5→Cityscapes datasets

网络	算法	road	sidewalk	Building	wall	fence	pole	t-light	t-sign	wegetation	terrain
DeepLab v2^[14]	Cycada	85.2	37.2	76.5	21.8	15.0	23.8	22.9	21.5	80.5	31.3
	DCAN	82.3	26.7	77.4	23.7	20.5	20.4	30.3	15.9	80.9	25.4
	CLAN	88.0	30.6	79.2	23.4	20.5	26.1	23.0	14.8	81.6	34.5
	BLD	89.2	40.9	81.2	29.1	19.2	14.2	29.0	19.6	83.7	35.9
	本文	90.9	42.3	82.1	30.8	18.5	16.7	31.5	20.8	85.9	33.7
Resnet^[24]	Cycada	86.7	35.6	80.1	19.8	17.5	38.0	39.9	41.5	82.7	27.9
	DCAN	85.0	30.8	81.3	25.8	21.2	22.2	25.4	26.6	83.4	36.7
	CLAN	87.0	27.1	79.6	27.3	23.3	28.3	35.5	24.2	83.6	27.4
	BLD	91.0	44.7	84.2	34.6	27.6	30.2	36.0	36.0	85.0	43.6
	本文	92.2	42.3	83.5	36.2	28.0	31.8	36.7	36.2	85.7	44.6
网络	算法	sky	person	rider	car	truck	bus	train	motorbike	bicycle	mIoU
DeepLab v2^[14]	Cycada	60.7	50.5	9.0	76.9	17.1	28.2	4.5	9.8	0	35.4
	DCAN	69.5	52.6	11.1	79.6	24.9	21.2	1.30	17.0	6.70	36.2
	CLAN	72.0	45.8	7.9	80.5	26.6	29.9	0.0	10.7	0.0	36.6
	BLD	80.7	54.7	23.3	82.7	25.8	28.0	2.3	25.7	19.9	41.3
	本文	83.3	55.9	23.6	82.1	27.7	29.4	2.2	26.8	21.2	42.4
Resnet^[24]	Cycada	73.6	64.9	19	65.0	12.0	28.6	4.5	31.1	42.0	42.7
	DCAN	76.2	58.9	24.9	80.7	29.5	42.9	2.50	26.9	11.6	41.7
	CLAN	74.2	58.6	28.0	76.2	33.1	36.7	6.7	31.9	31.4	43.2
	BLD	83.0	58.6	31.6	83.3	35.3	49.7	3.3	28.8	35.6	48.5
	本文	81.2	59.8	32.7	84.1	36.3	49.9	3.0	30.7	37.4	49.1

5 结语

基于域自适应的语义分割网络是轻量级和易于训练的.针对目前模型缺陷,本文提出一种改进的域自适应的语义分割模型.首先,提出变换网络的分阶段训练策略,以分别训练不同域间隙的源图.在保证小间隙源图的语义对齐的基础上,提高了大间隙源图的语义对齐性能.其次,针对源图中域间隙差异大的像素区域,提出一种可解释蒙版MaskNet,以避免这些像素降低模型的性能.相关数据集的实验表明,相比于目前流行的域自适应语义分割算法,本文算法具有更好的变换质量和更高的语义分割精度.在未来的工作中,进一步利用场景深度信息去提高语义分割精度,这将对本系统的完善十分有意义.

参考文献

原文顺序

文献年度倒序

文中引用次数倒序

被引期刊影响因子

[1]

AKHAWAJI

, SEDKY

, SOLIMAN A

Illegal parking detection using Gaussian mixture model and Kalman filter

[C]// 2017 IEEE/ACS 14th International Conference on Computer Systems and Applications (AICCSA). Piscataway, NJ, USA: IEEE, 2017: 840-847.

[2]

GATYS L

, ECKER A

, BETHGE

Image style transfer using convolutional neural networks

[C]// 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Piscataway, NJ, USA: IEEE, 2016: 2414-2423.

[3]

, WAND

Combining Markov random fields and convolutional neural networks for image synconfproc

[C]// 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Piscataway, NJ, USA: IEEE, 2016: 2479-2486.

[4]

DALAL

, TRIGGS

Histograms of oriented gradients for human detection

[C]// 2005 IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR). Piscataway, NJ, USA: IEEE, 2005: 886-893.

[5]

GHOSH

, BHATTACHARYA

, CHOWDHURY S B

SAD-GAN: Synthetic autonomous driving using generative adversarial networks

[C]// 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Piscataway, NJ, USA: IEEE, 2016: 1-5.

[6]

MATHIEU

, COUPRIE

, LECUN

Deep multi-scale video prediction beyond mean square error

[J]. Statistics, 2015, 3(1):834-848.

DOI:10.1007/s12021-018-9377-x URL [本文引用: 1]

[7]

XUE

, XU

, ZHANG

, et al.

SegAN: adversarial network with multi-scale L_1 loss for medical image segmentation

[J]. Neuroinformatics, 2018, 16(3/4):383-392.

[8]

JONATHAN

, SHELHAMER

, DARRELL

, et al.

Fully convolutional networks for semantic segmentation

[J]. 2015 IEEE Conference on Computer Vision and Pattern Recognition, 2015: 3431-3440.

DOI:10.1109/TPAMI.2017.2699184 URL [本文引用: 1]

[9]

LI Y

, LU

, NUNO

Bidirectional learning for domain adaptation of semantic segmentation

[C]// Proceedings of the Conference on Computer Vision and Pattern Recognition. Long Beach, CA, USA: IEEE, 2019: 6929-6938.

[本文引用: 4]

[10]

AZADI

, FISHER

, KIM

, et al.

Multi-content GAN for fewshot font style transfer

[C]//Proceedings of 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City, UT, USA: IEEE, 2018.

[本文引用: 8]

[11]

CHEN L

, PAPANDREOU

, KOKKINOS

, et al.

DeepLab: Semantic image segmentation with deep convolutional nets, atrous convolution, and fully connected CRFs

[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2018, 40(4):834-848.

[12]

NIU Z

, LIU

, ZHAO J

, et al.

DeepLab-based spatial feature extraction for hyperspectral image classification

[J]. IEEE Geoscience and Remote Sensing Letters, 2019, 16(2):251-255.

DOI:10.1109/LGRS.2018.2871507 URL [本文引用: 1]

[13]

CHEN L

, ZHU Y

, PAPANDREOU

, et al.

Encoder-decoder with atrous separable convolution for semantic image segmentation

[C]// Computer Vision-ECCV 2018. Amsterdam: Springer International Publishing, 2018: 1-12.

[14]

ZHU J

, PARK

, ISOLA

, et al.

Unpaired image-to-image translation using cycle-consistent adversarial networks

[C]// 2017 IEEE International Conference on Computer Vision (ICCV). Piscataway, NJ, USA: IEEE, 2017: 2242-2251.

[本文引用: 6]

[15]

JUDY

, TAESUNG

Cycada: Cycle-consistent adversarial domain adaptation

[C]// Proceedings of the 35th International Conference on Machine Learning (ICML). Vienna, Austria: IEEE, 2017: 1-9.

[16]

HOFFMAN

, WANG D

, YU

, et al.

FCNs in the wild: Pixel-level adversarial and constraint-based adaptation

[C]// 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Piscataway, NJ, USA: IEEE, 2016: 1-10.

[17]

ZHANG

, DAVID

, GONG B

Curriculum domain adaptation for semantic segmentation of urban scenes

[C]// 2017 IEEE International Conference on Computer Vision (ICCV). Piscataway, NJ, USA: IEEE, 2017: 2039-2049.

[18]

TSAI Y

, HUNG W

, SCHULTER

, et al.

Learning to adapt structured output space for semantic segmentation

[C]// 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, NJ, USA: IEEE, 2018: 7472-7481.

[19]

SALEH F

, ALIAKBARIAN M

, SALZMANN

, et al.

Effective use of synthetic data for urban scene semantic segmentation

[C]// Computer Vision-ECCV 2018. Amsterdam: Springer International Publishing, 2018: 86-103.

[20]

LIU M

, BREUEL

, KAUTZ

Unsupervised image-to-image translation networks

[C]// In Advances in Neural Information Processing Systems 2017. Long Beach, CA, USA: IEEE, 2017: 700-708.

[21]

HUANG

, LIU M

, BELONGIE

, et al.

Multimodal unsupervised image-to-image translation

[C]// Computer Vision-ECCV 2018. Amsterdam: Springer International Publishing, 2018: 179-196.

[22]

WU Z

, HAN X

, LIN Y

, et al.

DCAN: Dual channel-wise alignment networks for unsupervised scene adaptation

[C]// Computer Vision-ECCV 2018. Amsterdam: Springer International Publishing, 2018: 1-12.

[本文引用: 3]

[23]

ZHOU T

, BROWN

, SNAVELY

, et al.

Unsupervised learning of depth and ego-motion from video

[C]// Computer Vision and Pattern Recognition (CVPR). Honolulu, Hawaii, USA: IEEE, 2017: 6612-6619.

[24]

HE K

, ZHANG X

, REN S

, et al.

Deep residual learning for image recognition

[C]// 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Piscataway, NJ, USA: IEEE, 2016: 770-778.

[本文引用: 5]

[25]

RICHTER S

, VINEET

, ROTH

, et al.

Playing for data: Ground truth from computer games

[C]// Computer Vision-ECCV 2016. Amsterdam: Springer International Publishing, 2016: 102-118.

[26]

CORDTS

, OMRAN

, RAMOS

, et al.

The cityscapes dataset for semantic urban scene understanding

[C]// 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Piscataway, NJ, USA: IEEE, 2016: 3213-3223.

[27]

LUO Y

, ZHENG

, GUAN

, et al.

Taking a closer look at domain shift: Category-level adversaries for semantics consistent domain adaptation

[C]// 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Piscataway, NJ, USA: IEEE, 2019: 2502-2511.

[本文引用: 3]

[28]

ZOU

, YU Z

, VIJAYA KUMAR B V

, et al.

Unsupervised domain adaptation for semantic segmentation via class-balanced self-training

[C]// Computer Vision-ECCV 2018. Amsterdam: Springer International Publishing, 2018: 297-313.