上海交通大学学报, 2022, 56(8): 1078-1088 doi: 10.16183/j.cnki.jsjtu.2021.113

生物医学工程

基于LSTM与注意力结构的肺结节多特征抽取方法

倪扬帆1,2, 杨媛媛2, 谢哲1,2, 郑德重1,2, 王卫东,3

1.中国科学院上海技术物理研究所 医学影像信息学实验室,上海 200080

2.中国科学院大学,北京 100049

3.中国人民解放军总医院, 北京 100089

Multi-Feature Extraction of Pulmonary Nodules Based on LSTM and Attention Structure

NI Yangfan1,2, YANG Yuanyuan2, XIE Zhe1,2, ZHENG Dezhong1,2, WANG Weidong,3

1. Laboratory for Medical Imaging Informatics, Shanghai Institution of Technical Physics, Chinese Academy of Sciences, Shanghai 200080, China

2. University of Chinese Academy of Sciences, Beijing 100049, China

3. Chinese PLA General Hospital, Beijing 100089, China

通讯作者: 王卫东,男,研究员,博士生导师;E-mail:wangwd301@126.com.

责任编辑: 石易文

收稿日期: 2021-04-14  

基金资助: 科技部重点研发计划(2019YFC0118803)

Received: 2021-04-14  

作者简介 About authors

倪扬帆(1993-),男,江苏省无锡市人,博士生,主要研究方向为深度学习在医学影像方面的应用.

摘要

对肺结节的形状特征、边缘特征和内部特征进行准确分类,能够辅助影像科医生的日常诊断工作,提高影像报告的书写效率.针对这一问题,提出一种基于长短时记忆(LSTM)结构与注意力结构的多任务分类模型.该模型通过注意力机制融合各个任务间的共享特征,提高当前任务的特征抽取效果.LSTM结构分类器能够有效地筛选任务间的共享特征,提高模型的信息传递效率.实验表明,相较于传统多任务结构,所提模型在公开数据集LIDC-IDRI上能够取得更好的多特征分类效果,辅助医生快捷地获取肺结节特征信息.

关键词: 肺结节; 注意力结构; 长短时记忆网络; 多任务分类

Abstract

The accurate classification of shape, edge, and internal features of pulmonary nodules can not only assist the radiologists in their daily diagnosis, but also improve the writing efficiency of imaging reports. This paper proposes a multi-task classification model based on long-short term memory (LSTM) and attention structure, which merges the shared features among different classification tasks through attention mechanism to improve the feature extraction performance of the current task. The classifier based on temporal sequence LSTM structure can effectively screen the shared features and improve the efficiency of information transmission in the multi-task model. Experimental results show that compared with the traditional multi-task structure, the proposed model can achieve better classification results on the public dataset LIDC-IDRI, and assist doctors to quickly obtain nodule characteristics.

Keywords: pulmonary nodule; attention structure; long-short term memory(LSTM)network; multi-task classification

PDF (3831KB) 元数据 多维度评价 相关文章 导出 EndNote| Ris| Bibtex  收藏本文

本文引用格式

倪扬帆, 杨媛媛, 谢哲, 郑德重, 王卫东. 基于LSTM与注意力结构的肺结节多特征抽取方法[J]. 上海交通大学学报, 2022, 56(8): 1078-1088 doi:10.16183/j.cnki.jsjtu.2021.113

NI Yangfan, YANG Yuanyuan, XIE Zhe, ZHENG Dezhong, WANG Weidong. Multi-Feature Extraction of Pulmonary Nodules Based on LSTM and Attention Structure[J]. Journal of Shanghai Jiaotong University, 2022, 56(8): 1078-1088 doi:10.16183/j.cnki.jsjtu.2021.113

深度学习方法在计算机视觉领域显示出了巨大的潜力.相比于传统的图像处理或机器学习算法,深度模型在图像分类、语义分割和实例分割上都具有更加优秀的表现[1].传统的深度模型只针对单一任务进行构建,易于训练拟合.然而,实际场景中的大部分问题都由多个任务组成,如实例分割问题融合了语义分割以及图像分类任务[2-3],而目标检测问题融合了图像分类与位置坐标回归任务[4-5].若使用独立模型进行训练,多个模型之间训练过程复杂,各个任务之间的相关性也并未纳入考量使得模型的性能与效率较差,而多任务形式的模型构建能够很好地解决这些问题.多任务模型是一种单输入多输出的网络结构,旨在对多个任务进行联合参数学习,进而充分挖掘任务之间的相关性信息.同样的,模型也需要对各个任务的差异性特征具有较好的适应能力.

针对结节的计算机断层扫描 (CT) 影像特征抽取,需要采用多任务结构进行模型构建.作为肺癌的早期表现形式,肺结节的良恶性判定是应对肺癌威胁的关键.在CT影像特征上,结节病灶的形状、边缘和内部特征对结节良恶性具有很高的相关性,一些细微的差别便会导致结节病理上截然不同的诊断,这对影像科医生来说是一个巨大的挑战.本文根据北美放射协会 (RSNA)[6] 所提出的结构化报告标准将结节形态特征分为3大类别,分别为形状特征、边缘特征和内部特征,准确地对这些结节特征进行分类需要构建高泛化性与鲁棒性的多任务模型结构.为了解决这些问题,本文在多任务模型中引入了基于注意力机制的特征抽取结构与基于长短期记忆(LSTM)网络的时序分类器结构.

传统的多任务结构将卷积神经网络 (CNN) 作为其图像特征编码器,通过软/硬参数共享[7-8] 的形式进行分类器的训练.本文在传统多任务模型中引入了基于注意力机制的中间结构.该结构能够融合各时刻的特征信息,并通过非线性激活函数提取当前时刻的图像注意力特征.在分类器的设计上,本文使用基于长短时记忆网络的时序结构进行构建,LSTM结构能够有效地传递各时刻的特征参数,并解决长、短时间依赖问题.为了进一步提升模型的分类效果,使用双通道输入结构,即结节CT影像输入与结节掩模影像输入,轮廓信息的引入显著提升了模型对相关特征的分类效果.由CNN编码器、注意力机制以及LSTM时序分类器所组成的多任务模型能够有效地解决结节多特征分类问题.

综上所述,本文的贡献主要为以下几点:

(1) 提出一种新的多任务特征抽取结构,不同于传统的参数共享或多模型结构,该结构通过基于注意力机制的中间结构进行特征融合,融合产生的注意力向量能够有效地提高当前任务特征的提取效果.

(2) 将基于LSTM结构的时序模型引入多任务分类中,时序分类器在各个时刻都能够较好地进行特征筛选,并提升任务间共享特征的传递效率.

(3) 将结节CT图像与掩模图像作为多模型任务的输入,双通道输入结构能有效提升部分结节特征的分类效果.

1 相关工作

多任务分类模型试图取得优秀的多特征抽取效果,这对模型结构的设计要求较高.在以往的多任务分类研究中,采用的模型结构大致分为3种:共享底层的模型结构、正则化约束结构和多专家混合结构.

1.1 共享底层结构

共享底层的结构适用于分类任务较少的情况.由于共享底层结构具有高效、易于训练的特点,成为了大多数多任务模型的基本结构.文献[9]使用参数共享的层次语义卷积神经网络 (HSCNN) 进行CT影像特征提取与多任务特征分类.在进行多任务分类时,HSCNN使用结节的形态学特性作为基础属性,结节的良恶性风险作为高阶属性,从而提高模型对结节良恶性风险的预测效果.层次化结构能够一定程度上提高模型对重要属性的分类效果,但是如果模型中的基础任务属性过多会造成模型拟合困难、预测效果下降等问题.文献[10]使用端到端的多任务模型对COVID-19患者的胸部CT影像进行病灶分割、病情风险预估与肺部影像重建,3个任务共享模型的编码器.该多任务模型的分割、分类与重建效果相较于单任务的U-Net结构更加优秀,这反映了多任务模型在进行不同模式的相关任务学习时能够相互促进、提高性能.但由于底层参数的共享,在模型优化时,各个类型任务输出有可能会相互影响,甚至相互冲突.为了解决这一问题,一些研究者在不同类型任务损失中加入权值以防止模型的退化[11-13].

1.2 正则化约束结构

基于正则化约束的模型希望通过先验的目标函数来约束模型间的参数,构建任务间的相关性.文献[14]提出“脏模型”的概念来约束任务间的模型参数.他们将每一个任务模型参数分解为两部分,共享特征参数与独立特征参数.在训练阶段对共享特征参数P与独立特征参数Q分别设定不同的超参数权重进行优化,但是该方法仅能优化浅层特征,并不能很好地挖掘深层的共享特征.文献[15]通过特征投影将不同任务间的共享特征进行优化表示,这种提取共享特征的方法被称为交替结构优化(ASO) 法.而文献[16] 则通过特征稀疏表示 (差异特征表示) 与共享特征低秩表示来进行特征建模,并使用不同的约束方法对这两种不同类型的特征进行筛选与训练.然而,正则化约束结构需要通过人为的约束条件进行参数优化,且并未明确提出分类器的构建方式.

1.3 多专家混合结构

通常的多专家混合(MoE)结构由门控结构与多个专家子模型构成[17].文献[18]将单专家多门控混和(OMoE)模型结构嵌入到深层神经网络 (DNN) 中.该方法能够用来构建巨大的DNN模型,在语言建模与机器翻译等多任务工作中取得了优异效果.文献[19]将单一门控结构进一步升级,提出多门控的混合专家(MMoE)模型,该模型在OMoE模型的基础上增加了门控单元的数量,增加的门控单元能够对各个任务之间的关系进行建模.在计算机视觉领域,文献[20]使用3类不同的模型结构进行多任务特征学习,分别为堆叠式的去噪自动编码器 (SDAE),CNN结构以及手动设置的图像特征,如Haar角点特征、HoG特征等.融合后的图像特征通过随机森林分类实现多任务输出.该算法表明,不同结构的特征提取模型能够提高算法鲁棒性,但是由于模型较为复杂,所以存在训练难度较大的问题.不同于自然语言处理问题,视觉领域中的图像编码模型往往更为重要,加之模型的任务数量相对较少,因此如何构建高效、泛化能力强的特征提取方法是多专家混合结构研究的重点.

2 方法

本文提出的基于注意力机制与LSTM结构的多任务模型能够对结节的各项特征进行有效分类.卷积神经网络作为高效的图像特征提取手段被用作图像编码器.不同深度、不同结构的CNN模型可以通过其强大的特征理解能力对图像进行初步编码.在传统的图像多任务分类中,由于任务数量一般不超过5个,所以使用共享图像编码器的方式能够获取较好的效果.但是,结构化报告所需的图像特征信息往往超过5个,由简单的多层感知器 (MLP) 构成的分类器易造成模型退化问题[9],模型的编码输出需要通过特征变化来获取分类所需的解码特征.对于单输入多输出的多任务模型,在每一个分类任务中自适应地进行特征抽取能够在提高分类性能的同时降低模型的过拟合风险.在分类输出阶段,使用更加有效的输出方式能够更好地保护各阶段共享特征.因此,本文在多任务模型中引入了基于注意力机制的中间结构与基于LSTM结构的分类器,其算法结构如图1所示.其中:AVG为平均操作;hi,ci分别为不同时刻下LSTM结构的隐层信息与细胞信息;ATT为基于注意力机制的中间结构.由于结节的边缘特征与形状特征易受其周边结构的影响,本文将分割后的结节掩模图像作为模型输入之一.掩模为像素值为0或1的二值化图像,本文中将结节区域标记为1而背景区域标记为0.

图1

图1   基于CNN与LSTM结构的多任务分类模型

Fig.1   Multi-task classification model based on CNN and LSTM structures


2.1 基于注意力机制的模型中间结构

相较于传统的共享底层结构,本文所提出的方法在分类器与图像编码器之间添加了一种中间结构.这个结构在整个模型中起到“承上启下”的作用.该中间结构基于注意力机制,输入由当前时刻编码器输出与上一时刻LSTM结构分类器隐层特征组成.这两类特征通过多层感知器进行融合,进而生成当前时刻的注意力特征向量集合 at (t为时刻).at 控制着t时刻的图像特征输出,对关键的特征层进行激活或抑制可以提高当前分类任务的特征提取性能.其操作过程如图2所示,其中:ftenct时刻的编码器输出;ht-1t-1时刻的解码器隐层信息;ai为注意力向量,其组成了at.t时刻的注意力结构输出ftatt的计算方法为

h0=avg(f0enc)
(1)
at=softmax[Wta,h+f(Wth,a ht-1+ Wtf,aftenc)]
(2)
ftatt=atftenc+b
(3)

式中:f0enc为初始阶段的编码器输出;b为偏置向量;h0为初始阶段的隐层特征;Wth,aWtf,a分别为t时刻对隐层输出 ht-1 与编码器输出ftenc进行非线性特征提取的权值矩阵,两者通过权值矩阵为Wta,h+f的全连接层进行特征提取后,由 softmax(·) 函数进行关键特征映射得到注意力特征 at.式 (1) 展示了模型隐层特征的初始化方式.在本文中,由于涉及到8个分类特征的输出,中间结构将分步提取8个状态的图像特征输入模型的分类器中.

图2

图2   基于注意力的模型中间结构

Fig.2   Intermediate structure based on attention mechanism


图3展示了3种不同的多任务结构,其中:模型tmm时刻编码器与中间注意力结构的模型状态.图3(a)为传统的共享权值多任务结构;图3(b) 为OMoE结构[19],由此发展而来的MMoE模型加入了多门控结构,即键-值融合结构;图3(c) 结构为本文所提出的单模型时序结构,此结构将键-值融合结构从控制各模型连接强度转变为控制每一个中间结构的特征输出,仅使用单一结构便能够达到类似MMoE模型的效果,降低了模型复杂程度,也使模型更容易拟合.

图3

图3   3种不同的多任务结构

Fig.3   Three different multi-task structures


2.2 基于LSTM结构的分类器

为了传递不同时刻之间的共享特征,构建了LSTM形式的分类器.LSTM结构能够很好地进行各分类特征之间的耦合,最大程度地保留特征之间的相关性联系.其计算方式如下:

ht,ct=LSTM([ftatt; ht-1; ct-1])
(4)
Ot=softmax(Wto,h·ht+b)
(5)

式中:Ott时刻下的模型输出,其由LSTM结构的隐藏信息 ht经过一个全连接层与softmax 激活获得;ctct-1分别为LSTM结构当前时刻t与上一时刻t-1的细胞状态;Wto,h为全连接层的权值矩阵.LSTM分类器的计算方法为

h0=c0=avg(f0enc)
(6)
˜ct=tanh(Wtc[ftatt:ht-1]+bc)
(7)
pt=σ(Wtp[ftatt:ht-1]+bp)
(8)
ft=σ(Wtf[ftatt:ht-1]+bf)
(9)
ot=σ(Wto[ftatt:ht-1]+bo)
(10)
ct=ft☉ct-1+pt˜ct
(11)
ht=tanh(ct)☉ot
(12)

式中:σ 为Sigmoid 激活函数;˜ct,pt,ft,ot分别为t时刻LSTM结构的候选细胞信息、输入门、遗忘门以及输出门;Wtc,Wtp,Wtf,Wto分别为各个门控结构进行全连接计算的权值矩阵.

由于各个任务的分类空间不同,各类别之间样本平衡性不同,所以本文将结节形状特征作为模型初始阶段的分类输出、边缘特征、内部特征和恶性风险依次作为中段、后段和末段分类输出,按照从底层特征到高维特征的准则进行输出顺序的排列.由于任务中存在从次要任务到主要任务的渐进关系,确保模型的良恶性分类效果最优,所以本文将分类器的模型设置为单向LSTM.不同于自由文本生成模型,在使用LSTM结构进行多任务模型构建时并不会遇到长时期依赖问题.

2.3 损失函数

由于输出特征中存在着一些类别间不平衡问题,所以使用了焦点损失函数[21]作为模型的代价函数,各个任务之间样本分布的不均衡十分容易造成模型过拟合的问题.本文在焦点损失函数的基础上进行了权值修正,可以表示为

Lt= {-wtα(1-p)γlbp,p'=1-(1-wtα)pγlb(1-p),p'=0
(13)
wt= (stpstn)β+ε, β>1,ε>0
(14)
L= t=1NLt(ˆyt;yt)
(15)

式 中: αγ 分别为焦点损失中进行权值修正的超参数;wtt时刻针对样本数量不平衡的修正因子;pp'分别为模型的预测输出与真实标签;stpstn分别为t时刻任务正、负样本的数量;βε为控制修正因子大小的超参数;ˆytyt分别为t时刻模型预测输出与分类标签值.该函数通过对t时刻正/负样本,即stp/stn的数量比较,修正焦点损失函数的权值,加强了不平衡类别的损失强度,降低出现过拟合的风险.

3 实验与结果

本文使用3类不同的多任务模型,在公开数据集LIDC-IDRI[22]上进行结节属性分类.3种类型分别为共享底层结构的多任务分类模型、OMoE、本文所提出的基于注意力机制与LSTM结构的时序结构模型.实验基于Python 3.6 与Pytorch实验框架,训练与测试使用了深度学习服务器,其主要配置为英特尔10核处理器i9-7900X,3张NVIDIA GTX 1080显卡与64 GB GDDR4内存.在设计实验时,将公开数据集 1561 个结节样本按照5∶1∶4划分为训练集、验证集与测试集.本实验中,设置LSTM解码器的隐藏层大小为512,图像编码输出的通道数为 2048,对每一个全连接层设置了Dropout,置空比例设置为0.5,以防止模型出现过拟合现象.所有的模型使用Adam算法作为其优化器,各分类模型统一设置了学习率和训练策略,初始学习率为0.001.为了确保模型不发生过拟合问题,本实验使用了早停学习策略,当验证集损失连续15轮不出现明显下降时,停止模型的训练.将输入图像尺寸设定为48像素×48像素×48像素,为了使模型更容易收敛,各输入图像 Vnor 通过其像素均值 avg(V) 与标准差 std(V) 进行归一化操作,归一化计算方法如下:

Vnor= V-avg(V)std(V)+ε
(16)

式中:V为未经过预处理的原始图像.

在实验中,选取ResNet[23]结构作为图像编码器,本文提出的基于注意力机制与LSTM时序结构的多任务分类模型被标记为“Res50+ATT+LSTM”,ResNet50被用于构建共享底层的多任务模型,ResNet50与ResNet101组成的双模型结构被用于构建OMoE.为了验证基于注意力结构的中间层对多任务分类性能的影响,本文将ResNet50直接连接一个LSTM结构分类器作为另一个基准模型 (Res50+LSTM);为了对比单向LSTM结构分类器与双向LSTM结构分类器的差异,在第2个实验中添加了双向LSTM结构分类器模型(Res50+ATT+Bi-LSTM) 作为对照组.

3.1 实验数据

本文使用公开数据集LIDC-IDRI作为实验数据.该数据集中CT影像采集时的峰值电压为 120~140 kV,峰值电流为40~624 mA.该数据集由4位经验丰富的影像科医生进行标注,每个结节都拥有其主要特征的小组评估意见[24].其主要特征分别为钙化、内部结构、分叶、边缘、形状、毛刺、纹理和恶性概率,如表1所示, 其中:括号中的数字为量化后的标签.表1反映了各个特征的描述与分级情况.由于一些特征中的各分级数量很不平均,如钙化特征中的爆米花型和半层型;内部结构特征中的空气类型等都较为罕见,所以使用原分级标签进行多任务分类会造成较大的训练偏差,本文通过阈值化处理来平衡各标签样本数量,并将各特征划归至其后括号内的数字标签 (0/1/2) 下.同时,该数据集还给出了每个结节的真实体素轮廓情况,由于每位医生所标注的结果之间存在差异,本文使用了50%的一致性标准来生成模型训练所需的掩模数据.在实际应用中,为了实现有效的结节掩模提取,可以通过两阶段通用分割算法nnU-Net[25] 、3D U2-Net[26]等快捷准确地获取结节掩模图像.

表1   选取的特征及其等级、描述与分布情况

Tab.1  Selected features and their rankings, descriptions, and distributions

语义特征描述分级数量
恶性风险结节的恶性概率1.可能性极低(0)
2.可能性较低(0)
3.不确定(0)
4.可能性较高(1)
5.可能性极高(1)
(0) 1002
(1) 559
形状结节的三维圆度1.索条型(2)
2. -(2)
3.椭球形(1)
4. -(1)
5.球形(0)
(0) 357
(1) 541
(2) 663
边缘结节边缘是否清晰1.边缘模糊(0)
2. -(0)
3. -(0)
4.边缘可分(1)
5.边缘十分清晰(1)
(0) 599
(1) 962
毛刺毛刺出现的密集程度1~4分级代表毛刺
密度(0)
5.未出现毛刺(1)
(0) 1057
(1) 504
分叶分叶出现的密集程度1~4分级代表分叶
密度(0)
5.未出现分叶(1)
(0) 1287
(1) 274
纹理结节的内部纹理1.纯磨玻璃(2)
2. -
3.半实性(1)
4. -
5.实性(0)
(0) 1184
(1) 161
(2) 216
钙化结节是否出现钙化1.爆米花型(0)
2.板层状(0)
3.实性(0)
4.非中心型(0)
5.中心型(0)
6.无钙化(1)
176
1385
内部结构结节的内部组成1.软组织(0)
2.流体(1)
3. -
4. -
5.空气(2)
(0) 1054
(1) 29
(2) 478

新窗口打开| 下载CSV


3.2 评价指标

在所构建的多任务分类任务中,使用各分类项的准确率、F1值以及绝对距离误差 (ADE) 作为评价指标,其中F1值是分类召回率与精确率的调和平均.由于在分类任务中,模型的召回率与精确率存在此消彼长的矛盾,综合这两种指标的评价方法能够总体上反映出模型的分类性能.而绝对距离误差是指模型输出向量与标签向量之间的距离误差,能够直观反映出模型之间的分类效果差异.在这些评价标准中,分类准确率与F1值越大表示模型的分类效果越好,而绝对距离误差越小,表示分类效果越好.其计算方式如下:

θ= TP+TNTP+TN+FN+FP
(17)
F1= 2TP2TP+FP+FN
(18)
e= 1N'sqrt [k=1N'(Y-ˆY)2]
(19)

式中:TP,TN,FN与FP分别为分类结果中真阳、真阴、假阴和假阳的数目;Y,ˆY分别为标签向量与分类模型输出;θ,e分别为准确率与绝对距离误差;N'为分类任务的数量.

3.3 实验结果

本文仅使用结节CT图像作为模型输入进行实验比较,如表2所示,表中各加粗项为各分类特征下的最优结果.从表2中可以看出,ResNet50结构与OMoE结构模型在性能上总体相近.尽管OMoE结构模型在ResNet50的基础上增加了另一个ResNet101组成了双模型结构,但是在某些特征上,如钙化、恶性概率等,OMoE结构性能相比ResNet50结构出现了下降.在使用LSTM结构作为模型分类器之后,特征的总体分类性能出现了提升,在分类的准确率和F1值上相较前两种模型分别提升了1.89%与1.23%,而ADE相差不大.在使用注意力结构作为模型中间层后,分类效果有了进一步提升,相较于不带注意力中间模块的网络,在分类准确率、F1值与ADE上性能分别提升了0.76%、0.62%与0.04.值得注意的是,在“实性程度”“恶性概率”上,Res50+ATT+LSTM模型相较于前几种结构提升较大.相较于模型简单的共享底层机构,使用分步特征提取的注意力结构能够更好地分阶段提取图像特征、提高分类效果.

表2   各模型仅使用结节CT图像进行多任务分类的结果比较

Tab.2  Results of different multi-task classification models taking nodule CT images as input

分类特征Res50OMoERes50+LSTMRes50+ATT+LSTM
θ%F1%eθ%F1%eθ%F1%eθ%F1%e
形状66.8945.250.7967.2246.520.8268.2448.610.7570.0150.970.69
边界78.9387.120.7878.2687.220.8578.9588.640.7679.2188.010.80
毛刺94.9897.260.5893.9796.890.5794.3197.860.5394.3297.380.53
分叶94.9897.420.6794.9897.420.6895.0097.460.6295.5597.890.52
内部成分99.3334.530.0399.3334.440.0299.3334.810.0799.3233.590.05
实性程度68.5673.300.5968.2274.090.6475.5775.670.5778.6271.940.48
钙化88.6394.550.3284.6191.840.4189.9794.710.3590.0094.930.33
恶性程度83.2766.890.7779.6066.920.9084.6067.950.7085.1075.980.63

新窗口打开| 下载CSV


图4反映了各模型在形状 (球形/椭球形/索条形) 特征、边缘 (边界模糊/清晰) 、纹理 (实性/半实性/磨玻璃) 与恶性概率这4个指标上的结果箱线图.从图4中可以看出,在使用共享底层或OMoE模型对图像进行多任务分类时,ADE结果会出现较大的波动.而本文所提出的Res50+ATT+LSTM方法结果波动性较小,中位数也是各模型中最小的.

图4

图4   仅使用结节CT图像进行多任务分类的ADE结果箱线图

Fig.4   Boxplot of ADE results of different multi-task classification modules taking nodule CT images as input


表3展示了各模型加入结节掩模图像作为输入的结果.由表3可知,由于图像的掩模反映结节的毛刺、分叶和形状等特征,在这些分类项上,双分支输入结构性能有所提升.使用结节CT影像与掩模的Res50+ATT+LSTM取得了最好的分类效果,相较于前3种模型在分类准确率、F1值以及ADE上分别提升了1.65%、1.68% 以及0.08.图5对比了各模型在加入结节掩模图像后的多任务分类结果,其中:i为仅使用结节影像进行多任务分类;i+m为使用结节影像与掩模图像进行多任务分类.从图5可以看出,加入结节轮廓信息后,各模型在形状、边缘等分类任务的ADE中位数以及波动范围均有一定程度降低,这说明了在加入结节掩模后,模型在相关特征上泛化能力更强,不易出现较大偏差.相较于单向结构,双向LSTM分类器将模型的整体参数量提高了1倍,但是各分类任务的结果相差并不明显.

表3   各模型使用结节CT图像以及掩模图像进行多任务分类的结果比较

Tab.3  Results of different multi-task classification models taking nodule CT images and masks as input

分类特征Res50OMoERes50+LSTMRes50+ATT+Bi-LSTMRes50+ATT+LSTM
θ%F1%eθ%F1%eθ%F1%eθ%F1%eθ%F1%e
形状67.2247.560.8068.2347.660.8169.2049.660.7370.9851.150.6871.2151.990.70
边界78.6687.590.8277.9387.960.8379.2087.590.7581.2588.560.7581.1189.100.74
毛刺94.3197.070.5494.3197.100.5494.3297.380.5694.3197.420.5394.3197.650.50
分叶94.9897.420.6494.9897.430.6495.1097.110.5995.1297.890.5295.6697.880.50
内部成分99.3334.360.0399.3334.670.0499.3335.010.0699.3234.890.0699.3234.410.06
实性程度78.2675.360.5778.0167.050.6278.7275.900.5178.7771.560.5878.8871.280.48
钙化89.9794.880.4289.9694.710.4389.9997.480.4092.2995.150.3792.2195.120.31
恶性程度81.2767.650.8080.6066.290.8384.8871.290.6686.5978.050.5486.6178.110.59

新窗口打开| 下载CSV


图5

图5   使用结节CT图像与掩模图像进行多任务分类的ADE结果箱线图

Fig.5   Boxplot of ADE results of different multi-task classification modules taking nodule CT images and masks as input


表4展示了所提方法与其他已有方法的结果比较,其中文献[9]所提出的深度层次模型是共享底层结构的多任务分类模型,从结节的低级属性 (形状、边缘等) 到高级属性,层次化构建整个模型.文献[20]使用了3不同的模型结构进行多任务特征学习.多任务模型预测结果如图6所示.由图6可知,所提方法在实现更多特征分类的同时,在边界、钙化、良恶性分类上均取得了更好的结果.

表4   已有方法与所提方法的结果比较

Tab.4  Comparison of results of related methods and proposed method

特征文献[9]文献[20]Res50+ATT+LSTM
θ%F1%eθ%F1%eθ%F1%e
形状-----0.8671.2151.990.70
边界72.568.97---0.9281.1189.100.74
毛刺-----0.6494.3197.650.50
分叶-----0.8095.6697.880.50
内部成分-----0.0299.3234.410.06
实性程度-----0.1878.8871.280.48
钙化90.884.74---0.8792.2195.120.31
恶性程度84.278.64---0.8786.6168.110.59

新窗口打开| 下载CSV


图6

图6   多任务模型预测结果

Fig.6   Prediction results of multi-task models


3.4 结果讨论

由上述实验结果可以看出,基于注意力机制与LSTM时序结构的多任务分类模型在性能上优于共享底层模型与多专家混合模型.多专家混合模型中的门控单元被替换为基于注意力机制的中间结构,将“加权求和”操作转变为对整个特征图进行增强或抑制,特征被更为充分地利用.通过表3图5可知,由于双向LSTM结构需要重复计算编码器与注意力中间结构,易造成一些分类任务的过拟合现象,而单向LSTM结构并不存在这个问题,模型也更加容易训练.另外,时序模型能够提高各时刻间参数的传递效率,使得模型自适应地选择是否保留先前时刻的特征参数,以提升各分类任务之间的联结效果.该结构使得互相关联的分类任务之间相互促进,互不相关的任务之间相互独立.由于LSTM结构对信号依赖的自主选择,本文所提出的结构能够胜任更多数量的分类任务,且模型易于训练,具有较强的泛化性能.图6(c)展示了多任务分类模型对不同类型结节的预测结果,结果以概率的形式给出,能够辅助影像科医生更好地完成诊断工作.

虽然,基于注意力机制与LSTM时序结构的多任务分类模型取得了较好的分类效果,但是对于模型的细节需要进一步优化.如在分类任务先后顺序的选择上,由于LSTM结构不同于多层感知器结构,在不同特征顺序下,各时刻模型间的参数传递效果不同,导致某些任务结果出现差异.在本实验中,通过不断变换各任务的顺序进行多次训练测试,各个任务的结果随着位置的不同而出现差异,但总体上的平均性能相差不大.另外,对于模型损失函数的选择上,本文使用了改进后的焦点损失函数,在一些特定的场景中,各任务的数据量有可能极不平衡,重要性也都各不相同,因此需要对任务属性的重要性以及不确定性[27],即各任务之间相关置信度进行建模.在今后的工作中,将继续在这些方向上对本文工作进行优化.

4 结语

本文提出一种基于LSTM时序结构的多任务模型,并在模型中加入基于注意力机制的特征抽取结构.注意力结构能够充分融合不同时刻间图像特征,提高模型的特征提取能力.基于LSTM结构的时序输出模型能够很好地传递任务间共享参数,并保留当前任务独立参数,使分类模型更加稳定.该模型在肺结节的多任务特征抽取上取得较好的效果,能够辅助医生更好地完成影像报告撰写工作.所提出的模型能够推广到其他多标签问题中,通过不断优化其结构与损失函数,解决更多场景下的图像理解任务.

参考文献

VANDENHENDE S, GEORGOULIS S, VAN GANSBEKE W, et al.

Multi-task learning for dense prediction tasks: A survey

[DB/OL]. (2021-01-26) [2021-03-01]. https://ieeexplore.ieee.org/abstract/document/9336293.

URL     [本文引用: 1]

HE K M, GKIOXARI G, DOLLÁR P, et al.

Mask R-CNN

[C]// 2017 IEEE International Conference on Computer Vision. Venice, Italy: IEEE, 2017: 2980-2988.

[本文引用: 1]

LIU S, QI L, QIN H F, et al.

Path aggregation network for instance segmentation

[C]// 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City, UT, USA: IEEE, 2018: 8759-8768.

[本文引用: 1]

REN S Q, HE K M, GIRSHICK R, et al.

Faster R-CNN: Towards real-time object detection with region proposal networks

[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39(6): 1137-1149.

DOI:10.1109/TPAMI.2016.2577031      URL     [本文引用: 1]

LIU W, ANGUELOV D, ERHAN D, et al.

SSD: Single shot MultiBox detector

[M]// Computer vision-ECCV 2016. Cham, Switzerland: Springer International Publishing, 2016: 21-37.

[本文引用: 1]

DUNNICK N R, LANGLOTZ C P.

The radiology report of the future: A summary of the 2007 intersociety conference

[J]. Journal of the American College of Radiology, 2008, 5(5): 626-629.

DOI:10.1016/j.jacr.2007.12.015      URL     [本文引用: 1]

KOKKINOS I.

UberNet:Training a universal convolutional neural network for low-, mid-, and high-level vision using diverse datasets and limited memory

[C]// 2017 IEEE Conference on Computer Vision and Pattern Recognition. Honolulu, HI, USA: IEEE, 2017: 5454-5463.

[本文引用: 1]

MISRA I, SHRIVASTAVA A, GUPTA A, et al.

Cross-stitch networks for multi-task learning

[C]// 2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, NV, USA: IEEE, 2016: 3994-4003.

[本文引用: 1]

SHEN S W, HAN S X, ABERLE D R, et al.

An interpretable deep hierarchical semantic convolutional neural network for lung nodule malignancy classification

[J]. Expert Systems With Applications, 2019, 128: 84-95.

DOI:10.1016/j.eswa.2019.01.048      URL     [本文引用: 3]

AMYAR A, MODZELEWSKI R, LI H, et al.

Multi-task deep learning based CT imaging analysis for COVID-19 pneumonia: Classification and segmentation

[J]. Computers in Biology and Medicine, 2020, 126: 104037.

DOI:10.1016/j.compbiomed.2020.104037      URL     [本文引用: 1]

CHEN Z V. BADRINARAYANAN V, LEE C Y, et al.

Gradnorm: Gradient normalization for adaptive loss balancing in deep multitask networks

[C]// International Conference on Machine Learning. Stockholm, Sweden: PMLR, 2018: 794-803.

[本文引用: 1]

LIU S K, JOHNS E, DAVISON A J.

End-to-end multi-task learning with attention

[C]// 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Long Beach, CA, USA: IEEE, 2019: 1871-1880.

[本文引用: 1]

GUO M, HAQUE A, HUANG D A, et al.

Dynamic task prioritization for multitask learning

[M]// Computer vision-ECCV 2018. Cham, Switzerland: Springer International Publishing, 2018: 282-299.

[本文引用: 1]

JALALI A, SANGHAVI S, RUAN C, et al.

A dirty model for multi-task learning

[J]. Advances in Neural Information Processing Systems, 2010, 23: 964-972.

[本文引用: 1]

ANDO R K, ZHANG T, BARTLETT P.

A framework for learning predictive structures from multiple tasks and unlabeled data

[J]. Journal of Machine Learning Research, 2005, 6: 1817-1853.

[本文引用: 1]

CHEN J H, LIU J, YE J P.

Learning incoherent sparse and low-rank patterns from multiple tasks

[J]. ACM Transactions on Knowledge Discovery from Data, 2012, 5(4): 1-31.

[本文引用: 1]

JACOBS R A, JORDAN M I, NOWLAN S J, et al.

Adaptive mixtures of local experts

[J]. Neural Computation, 1991, 3(1): 79-87.

DOI:10.1162/neco.1991.3.1.79      URL     [本文引用: 1]

SHAZEER N, MIRHOSEINI A, MAZIARZ K, et al.

Outrageously large neural networks: The sparsely-gated mixture-of-experts layer

[DB/OL]. (2017-01-23) [2021-03-01]. https://arxiv.org/abs/1701.06538.

URL     [本文引用: 1]

MA J Q, ZHAO Z, YI X Y, et al.

Modeling task relationships in multi-task learning with multi-gate mixture-of-experts

[C]// Proceedings of the 24th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining. New York, NY, USA: ACM, 2018: 1930-1939.

[本文引用: 2]

CHEN S H, QIN J, JI X, et al.

Automatic scoring of multiple semantic attributes with multi-task feature leverage: A study on pulmonary nodules in CT images

[J]. IEEE Transactions on Medical Imaging, 2017, 36(3): 802-814.

DOI:10.1109/TMI.2016.2629462      URL     [本文引用: 2]

LIN T Y, GOYAL P, GIRSHICK R, et al.

Focal loss for dense object detection

[C]// 2017 IEEE International Conference on Computer Vision. Venice, Italy: IEEE, 2017: 2999-3007.

[本文引用: 1]

ARMATO S G I, MCLENNAN G, BIDAUT L, et al.

The lung image database consortium (LIDC) and image database resource initiative (IDRI): A completed reference database of lung nodules on CT scans

[J]. Medical Physics, 2011, 38(2): 915-931.

DOI:10.1118/1.3528204      URL     [本文引用: 1]

HE K M, ZHANG X Y, REN S Q, et al.

Deep residual learning for image recognition

[C]// 2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, Nevada, USA: IEEE, 2016: 770-778.

[本文引用: 1]

MCNITT-GRAY M F, ARMATO S G III, MEYER C R, et al.

The lung image database consortium (LIDC) data collection process for nodule detection and annotation

[J]. Academic Radiology, 2007, 14(12): 1464-1474.

DOI:10.1016/j.acra.2007.07.021      URL     [本文引用: 1]

ISENSEE F, JAEGER P F, KOHL S A A, et al.

nnU-Net: A self-configuring method for deep learning-based biomedical image segmentation

[J]. Nature Methods, 2021, 18(2): 203-211.

DOI:10.1038/s41592-020-01008-z      URL     [本文引用: 1]

CIPOLLA R, GAL Y, KENDALL A.

Multi-task learning using uncertainty to weigh losses for scene geometry and semantics

[C]// 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Shenzhen, China: IEEE, 2018: 7482-7491.

[本文引用: 1]

KENDALL A, GAL Y, CIPOLLA R, et al.

Multi-task learning using uncertainty to weigh losses for scene geometry and semantics

[C]// Proceedings of the IEEE conference on computer vision and pattern recognition. Salt Lake City, UT, USA: IEEE, 2018: 7482-7491.

[本文引用: 1]

/