UConvTrans:A Dual-Flow Cardiac Image Segmentation Network by Global and Local Information Integration
心脏核磁共振成像(MRI)具有噪声多、背景和目标区域相似度高、右心室形状不固定、呈月牙形或扁圆形等特点,虽然基于卷积神经网络的U型结构在医学图像分割中表现出色,但由于卷积本身的局部运算特性,提取全局信息特征能力有限,所以很难提升在心脏MRI上的分割精度.针对上述问题,提出一种全局和局部信息交互的双分支网络模型(UConvTrans).首先,利用卷积分支和Transformer分支提取局部特征和建模全局上下文信息,能够保留细节信息并抑制心脏MRI中噪声和背景区域的干扰.其次,设计了融合卷积网络和Transformer结构的模块,该模块将二者提取的特征交互融合,增强了模型表达能力,改善了右心室的分割精度,而且避免了Transformer结构在大规模数据集上预训练,可以灵活调节网络结构.此外,UConvTrans能有效地平衡精度和效率,在MICCAI 2017 ACDC 数据集上进行验证,该模型在模型参数量、计算量仅为U-Net的10%、8%的情况下,平均 Dice系数比U-Net提高了1.13%.最终,在其官方测试集上实现了右心室92.42%、心肌91.64%、左心室95.06%的Dice系数,在心肌及左心室区域取得了到目前为止最好的结果.
Cardiac magnetic resonance image (MRI) segmentation has the features such as there is a lot of noise, the target areas are indistinguishable from the background, and the shape of the right ventricle is irregular. Although convolution operations are good at extracting local features, the U-shaped convolutional neural networks (CNN) structure hardly models long-distance dependency between pixels and can not achieve ideal segmentation results on cardiac MRI. To solve these problems, UConvTrans is proposed with a dual-flow U-shaped network by global and local information integration. First, the network applies the CNN branch to extract local features and capture global representations by Transformer branch, which retains local detailed features and suppresses the interference of noise and background features in cardiac MRI. Next, the bidirectional fusion module is proposed to fuse the features extracted by CNN and the Transformer with each other, enhancing the feature expression capability and improving the segmentation accuracy of the right ventricle. Besides, the parameters of network can be set flexibly because the transformer structure in the proposed method does not require pre-trained weights. The proposed method also strikes a better balance between precision and efficiency, which is evaluated on the MICCAI 2017 ACDC dataset. The results show that the network outperforms U-Net by 1.13% average dice coefficient while the parameter amount and the floating point operations are only 10% and 8% of the U-Net. Finally, the proposed method achieves a dice coefficient of 92.42% for the right ventricle, 91.64% for the myocardium, and 95.06% for the left ventricle respectively and wins the first place in the myocardium and left ventricle on test set.
李擎, 皇甫玉彬, 李江昀, 杨志方, 陈鹏, 王子涵.
LI Qing, HUANGFU Yubin, LI Jiangyun, YANG Zhifang, CHEN Peng, WANG Zihan.
如今,深度学习技术发展迅速[3-4],卷积神经网络(Convolutional Neural Network,CNN)以其强大的特征提取能力在图像分析领域取得了重大突破[5-6],基于CNN的U型网络结构(U-Net)[7]在医学图像分割中已被广泛应用.U-Net是一种对称的编码器-解码器结构,该结构在编码器到解码器之间加入了跳跃连接,使得网络更好地融合不同尺度的特征.但由于卷积操作本身仅进行局部运算,很难构建像素间长距离依赖关系,所以U-Net结构仍有很大的改进空间.Li等[8]利用不同空洞率的空洞卷积提取多尺度目标特征,改善了右心室的分割结果,该方法通过引入空洞卷积来增大感受野,但需要结合多个不同空洞率的卷积,增大了计算复杂度.Cheng等[9]将方向场应用到U-Net中,通过方向场的监督来减少相似区域的误分割,但需调整相应的权重系数.罗恺锴等[10]在U-Net结构中引入了通道注意力机制,采用多视角融合的方法提升了脑肿瘤MRI的分割精度,王瑞豪等[11]则结合切片上下文信息,分成多个阶段完成胰腺的分割,上述两种方法虽然取得了较高的精度,但整体流程比较复杂.Yu等[12]将自注意力机制[13]嵌入到U-Net结构中,提高了心脏MRI的分割准确率,但该方法仅将自注意力机制模块嵌入到网络中分辨率较低的特征图后,导致其提升效果有限.
Transformer[14]结构不受限于局部运算,能够建模全局上下文信息,在自然语言处理任务上有着出色的表现.Dosovitskiy 等[15] 提出了ViT(Vision Transformer),首次将Transformer 结构应用于图像分类任务,超越了基于CNN方法的分类精度.Zheng 等[16]结合ViT结构,将语义分割转化为序列形式的预测任务,开辟了语义分割任务的新范式,但ViT结构输出特征图的分辨率低且单一,导致局部信息的丢失.Chen等[17]和李耀仟等[18]均在U-Net的最小特征图后引入Transformer结构,将卷积层提取的特征转换为序列输入到Transformer中,从而捕获全局依赖关系,但其参数量大、计算复杂度较高.Cao等[19]参考Swin Transformer[20],分成多个阶段产生不同尺度的特征,提出了基于编码器-解码器的纯Transformer结构,改善了腹部和心脏图像分割结果,但该结构需要预训练权重才能发挥效果,导致其网络结构不能灵活调节.
针对心脏MRI分割当前面临的技术问题,本文提出了一种全局和局部信息交互的双分支U型网络(UConvTrans),该模型在CNN基础上引入Transformer结构,不仅能提取局部信息特征,还增强了网络提取全局信息特征的能力.此外,本文提出的融合CNN及Transformer结构的模块(Fuse CNN and Transformer Block, FCTB)分别将CNN分支的输出和Transformer分支的输出相互拼接实现特征交互融合,增强了模型表达能力.最终,在MICCAI 2017 ACDC数据集[21]上的大量实验结果表明,和其他基于CNN或者基于Transformer的方法相比,UConvTrans仅在较少的参数下,实现了目标区域的准确分割.
1 方法
1.1 研究基础
CNN通过与周围像素点运算来提取局部特征,具有平移不变性,但受到卷积核大小与计算资源的限制,导致其建模全局信息能力不足.而Transformer结构得益于其多头自注意力机制强大的全局信息提取能力,可以构建像素间长距离的依赖关系.心脏MRI的心室和心肌区域聚集较近,各类别边界之间比较相似,有效地处理全局信息能够对分割精度提升带来很大帮助.最近,基于Transformer结构的方法在多个视觉任务榜单中已超过基于CNN的方法,Swin Transformer[20]表现尤为出色,其核心模块(Block)如图1所示.图中:zi表示第i个模块经多层感知机(Multi-Layer Perceptron,MLP)和残差连接后输出的特征;
每个Swin Transformer 模块均包含了两个连续的多头自注意力模块,每个模块均由层归一化(Layer Normalization,LN)、多头自注意力机制、残差连接以及MLP组成,多层感知机由两层线性层及高斯误差线性单元(Gaussian Error Linear Unit,GELU)组成.其中第1个模块应用了W-MSA,第2个模块为SW-MSA.整体计算过程如下:
式中:Q, K, V∈
Swin Transformer中基于窗口的自注意力机制降低了原本自注意力机制的计算复杂度,整体框架借鉴CNN基网络[22]中的层级结构分成多个阶段来获取不同尺度的特征.而医学图像数据集规模较小,没有通用的预训练权重,且目标类别相对自然图像而言也较少,分割精度要求更高,较大的模型会导致过拟合.因此与原本的Swin Transformer不同,本文提出的UConvTrans的核心模块FCTB以CNN和Transformer相互融合的方式进行特征交互,FCTB中的Transformer结构无需预训练权重,可以灵活调整网络结构,并且FCTB中的Transformer结构结合CNN来补充局部位置信息,无需位置编码.
1.2 UConvTrans 总体结构
为了增强网络上下文信息感知能力以及保留丰富的细节信息,针对心脏MRI数据特点,提出了一种CNN和Transformer相互融合的双分支分割网络框架,其整体结构基于编码器-解码器的形式,如图2所示.图中:C表示模型的基础特征图通道数;D表示模型的基础序列特征维度数;H和W代表输入图像的高度和宽度;LIFM为最终的信息整合模块(Last Information Fusion Module,LIFM).
在编码器中,主要分为5个阶段,即图2中的Enc0到Enc4.首先,大小为H×W×1(输入图像通道数为1)的图像经过Stem模块来提取初始特征,Stem由大小为7×7,步长为2的卷积、批标准化(Batch Normalization, BN)和线性修正单元(Rectified Linear Unit,ReLU)组成,其输出特征图的大小为H/2×W/2×C.接着在Enc1阶段,Stem模块的输出在CNN分支经过1×1卷积后输入到FCTB中,在Transformer分支经过Patch Embed后进入FCTB中,Patch Embed具体过程为先经过1×1卷积将特征图映射为H/2×W/2×D大小,然后经Flatten操作后展开为序列的形式,序列特征大小为HW/4×D.然后在Enc2阶段,卷积分支通过最大池化层将分辨率大小为H/2×W/2的特征图降低为H/4×W/4,并通过1×1卷积将通道数C增大为2C,得到大小为H/4×W/4×2C的特征图.Transformer分支通过Patch Merging[20]将大小为HW/4×D 的序列特征转换为HW/16×2D,之后一同输入到FCTB中,后续Enc3到Enc4这两个阶段处理过程与Enc2阶段类似.编码器分为多个阶段来提取浅层的空间信息和深层的语义信息,其CNN分支为Transformer分支提供局部特征和位置信息,Transformer分支为CNN分支提供全局上下文信息.
在编码器提取深层次特征后,UConvTrans通过解码器来降低特征图和序列特征的维度并恢复原始输入尺寸,解码器分为4个阶段,即图中的Dec1到Dec4.在Dec1阶段中,CNN分支通过双线性插值将分辨率大小为H/16×W/16的特征图增大为H/8×W/8,并通过1×1卷积将通道数由8C减少为4C,得到大小为H/8×W/8×4C的特征图.然后该特征图与编码器Enc3阶段的卷积分支输出的特征图进行跳跃连接,在通道维度上拼接(Concat)后得到大小为H/8×W/8×8C的特征图,经1×1卷积将通道数降低到4C后得到大小为H/8×W/8×4C的特征图.Transformer分支通过Patch Expanding[19]将大小为HW/256×8D的序列特征转化为HW/64×4D,然后与编码器Enc3阶段的Transformer分支输出的序列特征进行跳跃连接,经Concat后得到HW/64×8D的序列特征,之后通过线性层将维度数降低为4D,得到大小为HW/64×4D的序列特征,然后两分支将各自处理的结果输入到FCTB中.Dec2,Dec3的处理过程与Dec1类似,Dec3阶段两分支的输出通过LIFM后,再上采样到原图大小,经1×1卷积得到最终的分割预测图,其大小为H×W×4(4为类别数,包含背景).为了减少编码器下采样时丢失的信息,解码器每次上采样后的特征和编码器提取的特征通过跳跃连接进行融合,进而能够改善心脏MRI多尺度目标和心室及心肌轮廓细节的分割.
1.3 融合CNN及Transformer结构的模块
1.3.1 FCTB中的Transformer分支
1.3.2 FCTB中的CNN分支
1.4 最终的信息融合模块
1.5 模型参数配置
该模型无需预训练权重,模型结构参数可以灵活调整,本文的模型参数有以下两种配置:① 轻量化模型为C=32,D=32,该配置下的模型参数量仅为3.65×106;② 高精度模型为C=32,D=64,该配置下的模型参数量为1.059×107.需要指出的是,以上两种模型参数配置相较于经典的CNN[22]和最近提出的视觉Transformer[20]网络结构,基础特征图维度数和序列特征维度数都要更低,因此整体模型的参数量较少,模型的运行效率更高.此外,Transformer结构其他的参数配置为:W-MSA[20]中Window尺寸为8,MLP中线性层的维度变化率为2,编码器中Enc1到Enc4四个阶段中W-MSA的head数分别为2,4,8,16,解码器Dec1到Dec3三个阶段中W-MSA中的head数分别为8,4,2.
1.6 损失函数
本文使用的损失函数为Soft Dice Loss,具体计算公式如下:
式中:M为类别个数;N为像素点总个数;模型最终输出经过Softmax函数后得到Pi, j,Pi, j为第i个像素点被分类为第j个类别的概率;Ti,j为经 onehot编码后的标签,表示第i个像素点属于第j个类别.
2 实验与分析
2.1 数据介绍及处理
本文实验使用MICCAI 2017 ACDC数据集,该数据集包含150个患者的短轴心脏MRI,提供了在舒张末期和收缩末期时刻的分割标签,由医学专家手动标注完成.该数据集由两个不同磁性强度的MRI扫描仪进行采集,其切片层间距离为5 mm或者10 mm,空间分辨率为1.37 ~1.68 mm2/像素.其中训练集包含100个公布分割标签的患者数据,包含4个区域:背景、右心室(Right Ventricle,RV)、心肌(Myocardium,Myo)、和左心室(Left Ventricle,LV).另外测试集包含50个未公布分割标签的患者数据,需要在官网上提交分割结果返回得分.此外,根据其疾病类型,150个MRI数据被均匀划分为5组,疾病种类分别为正常、心力衰竭伴梗死、扩张型心肌病、肥厚型心肌病和右心室异常.每个患者的MRI空间尺寸及切片数变化不一,整体MRI的高度范围为154~428 像素,平均高度为219.72 像素,宽度范围为154~512 像素,平均宽度为243.15 像素,切片数范围为6~21,平均切片数为10.单个病例的心脏MRI示意图如图5所示.由于该数据集MRI层与层的间隔较大、切片数量较少,按照以往的工作经验[23-24],本文将每个患者在舒张末期以及收缩末期的心脏MRI在切片维度进行切片,将其处理成二维形式,最终将训练集切片成 1 902 张图像.
由于在官网测试集上的提交次数有限,本文将原训练集划分为训练集和验证集,消融实验在验证集上进行验证,最终在官方测试集上评估模型性能.为了保证每种疾病的患者图像均参与训练,分别在5种疾病类型中随机选取16个患者数据为训练集,其余4个为验证集,将有标签的100个患者数据划分为含80例患者的训练集和20例患者的验证集.为了防止过拟合以及扩充训练数据,对每张切片采取以下在线数据增强方式:随机水平翻转、随机角度旋转、随机多尺度变化以及随机裁剪.对于尺寸小于256 像素的切片进行零填充,最终输入图像尺寸为256 像素×256 像素,之后对每张图像进行标准化处理.
2.2 评价指标
为了评估模型性能,使用了Dice系数(Dice Similarity Coefficient,DSC)作为评价标准.Dice系数衡量分割标签和预测结果的相似程度,数值范围为0~1,0表示相似程度最小,1表示相似程度最大.DSC计算公式如下:
2.3 实验环境和参数
实验在i9-9820X CPU、两块NVIDIA RTX 2080 Ti GPU的设备上进行,操作系统为Ubuntu 20.04,并在PyTorch框架下实现网络模型.实验的总轮数设置为 1000 轮,批数大小设为16,初始的学习率设为0.01,使用warming up预热1轮后采取poly学习率衰减策略,衰减率为0.9.采用随机梯度下降(Stochastic Gradient Descent, SGD)作为模型的优化器,动量为0.9,权重衰减项设置为 1×10-4.
2.4 消融实验
2.4.1 核心模块的有效性
表1 FCTB消融实验结果
方法 | Fuse Trans to Conv | Fuse Conv to Trans | DSC /% | |||
平均 | RV | Myo | LV | |||
Only Trans | — | — | 83.75 | 80.75 | 82.48 | 88.02 |
Only Conv | — | — | 87.60 | 86.64 | 86.17 | 89.98 |
Trans+Conv | × | × | 88.61 | 86.70 | 87.72 | 91.40 |
Trans+Conv | × | √ | 88.76 | 87.52 | 87.06 | 91.69 |
Trans+Conv | √ | × | 89.25 | 87.08 | 88.31 | 92.38 |
Trans+Conv | √ | √ | 89.38 | 87.12 | 88.44 | 92.57 |
首先对比前3组实验,实验的模型分别为仅有Transformer分支(Only Trans)、仅有CNN分支(Only Conv)以及有两分支但FCTB中不进行融合(Trans+Conv)的结构.实验表明,仅有Transformer分支的网络平均Dice系数低于仅有CNN分支的网络,而结合两分支后平均Dice系数达到了88.61%,相比于单分支网络有了较大的提升.这说明本文模型当仅有Transformer分支时,在该实验数据中表现较差,而结合CNN和Transformer两种结构可以提高分割精度.
然后,后3组实验分别是在有了两分支的基础上,在FCTB中仅融合CNN分支提取的特征到Transformer分支中的结构(Fuse Conv to Trans)、仅融合Transformer分支提取的特征到CNN分支中的结构(Fuse Trans to Conv)以及二者相互融合完整的FCTB结构.相比于未融合的双分支结构,融合CNN分支提取的特征到Transformer分支中平均提升了0.15%,融合Transformer分支提取的特征到CNN分支中平均提升了0.64%,Transformer分支和卷积分支相互融合平均提升了0.77%,上述3种结构的分割结果如图6所示,二分支相互融合的方式得到的分割结果更加细腻.结果表明CNN分支得到Transformer分支提取的全局信息特征能够有效提升分割精度,当Transformer分支得到CNN分支补充的位置及局部特征后也会有轻微的提升, 而本文提出的FCTB模块也能进一步提升两个分支的融合效果.
2.4.2 模型参数的有效性
为了验证模型参数配置的有效性,此部分实验对比了在不同参数情况下对分割性能的影响.对于CNN分支主要通过基础特征图通道数C控制其参数量,对于Transformer分支通过基础序列特征维度数D控制其参数量,结果如表2所示.相对于C=32,D=32,当增加Transformer分支的参数时(C=32, D=64),RV区域的得分提升了近1%,其余部分变化不大,而当CNN分支的参数增加时(C=64, D=32),RV区域的得分提升了0.37%,但其余区域均有所下降,同时增加CNN和Transformer的参数量(C=64, D=64),并没有提升整体的分割性能.结果表明:相比于CNN分支的参数量、计算量,整体的参数量和计算量受Transformer分支的影响更大,增大Transformer分支的参数能够带来一定的提升,但其参数量、计算量也会成倍增加,而采用第一组实验(C=32, D=32)的配置能更好地平衡效率和精度.
表2 模型参数的消融实验结果
通道数 | 维度数 | DSC/% | 参数量×10-6 | 计算量×10-9 | |||
平均 | RV | Myo | LV | ||||
32 | 32 | 89.38 | 87.12 | 88.44 | 92.57 | 3.65 | 5.03 |
32 | 64 | 89.60 | 88.08 | 88.30 | 92.41 | 10.59 | 12.74 |
64 | 32 | 88.97 | 87.49 | 87.81 | 91.60 | 7.39 | 10.81 |
64 | 64 | 89.30 | 87.80 | 88.17 | 91.92 | 14.54 | 18.79 |
2.5 对比实验
为说明本网络模型在心脏MRI分割方面的优势,首先在本地划分的验证集上与经典医学图像分割算法以及最近提出的基于Transformer的医学图像分割算法进行比较,实验结果如表3所示.在C=32,D=32的配置下,和U-Net、Attention U-Net以CNN为基础的网络相比,本文网络结构的参数量和计算量约为U-Net、Attention U-Net的10%和8%,但平均Dice系数分别提升了1.13%、0.86%.和基于Transformer的两个网络相比,本文的Transformer结构在原结构参数的基础上进行了修改,而得益于信息交互融合的设计,本文的Transformer结构在不需要预训练权重的情况下,同样能够有效提升模型分割精度.本模型在C=32,D=32的参数配置下,其参数量、计算量却仅为TransUnet的3.47%、13.04%,但比TransUnet的平均得分仅低了0.09%,比SwinUnet平均提升了0.12%.而且本模型在C=32,D=64的参数配置下,能够取得最高的平均Dice系数.相比于表3中的其他模型,本模型设定的特征图通道数或者序列特征维度数较小,因此整体模型的参数量也较小,并且能够保持模型的精度.本模型以CNN和Transformer相互融合的方式来搭建整体网络,能够结合CNN和Transformer的优点,从而增强模型的特征提取能力,并且无需预训练权重,模型结构参数可以灵活调整.
表3 本文的方法和其他方法在验证集上的比较结果
方法 | DSC/% | 参数量×10-6 | 计算量×10-9 | |||
平均 | RV | Myo | LV | |||
U-Net[7] | 88.25 | 86.91 | 87.17 | 90.65 | 34.53 | 65.55 |
Attention U-Net[25] | 88.52 | 86.78 | 86.93 | 91.84 | 37.88 | 66.62 |
SwinUNet[19] | 89.26 | 86.62 | 88.72 | 92.44 | 27.17 | 6.14 |
TransUNet[17] | 89.47 | 87.04 | 88.51 | 92.85 | 105.32 | 38.57 |
UConvTrans (C=32,D=32) | 89.38 | 87.12 | 88.44 | 92.57 | 3.65 | 5.03 |
UConvTrans (C=32,D=64) | 89.60 | 88.08 | 88.30 | 92.41 | 10.59 | 12.74 |
表4 在MICCAI 2017 ACDC 测试集上的比较结果
Visual comparison of cardiac segmentation results of different methods
3 结论
(1) 提出了一种全局和局部信息交互的双分支分割网络,该结构通过CNN分支提取局部特征,Transformer分支建模全局上下文信息,能更好地识别轮廓细节并且抑制背景干扰,从而有效地应对了心脏MRI分割的难点.
(2) 设计了一个融合模块,有效融合了CNN提取的局部特征和Transformer提取的全局特征,提高了网络的判别能力,并且本文模型中的Transformer结构不需要在大规模数据上进行预训练.
(3) 在公开数据集MICCAI 2017 ACDC上验证了该方法的有效性,模型的参数量、计算量较少,更好地平衡了精度和效率,而且在官方测试集中的心肌和左心室区域取得了到目前为止最高的Dice得分.虽然本文提出的模型能准确分割心脏MRI的目标区域,但该模型是二维网络,更适用于需要对原三维图像切片成二维图像的心脏MRI.在后续研究中,将对该模型进一步改进及优化,使其更有效地应用到切片信息更加丰富的三维医学影像分割中.
