基于距离置信度分数的多模态融合分类网络

图1 基于距离置信度分数的计算示意图

Fig.1 Schematic diagram of distance confidence score calculation

2.2.1 嵌入空间基于距离置信度分数的计算模型训练时会划分训练集和测试集,训练集用来学习样本的特征和鉴别方法,测试集用来评估模型性能.训练时,在模型特征提取后添加嵌入层,通过训练迭代优化后可以学到样本在嵌入空间的向量表示,再将测试样本输入到已训练好的模型当中,则可以获取测试样本在嵌入空间中的向量表达.通过计算每一个测试样本与该嵌入空间中最近k个训练集样本点之间的距离,估计测试样本的局部密度进而计算样本置信度,如图2所示.其中:点为训练集在嵌入空间中的表示;星号为测试集中要对其进行密度估计的样本点;圈内为最近k个训练集中的样本点.最后,通过所有测试样本置信度的平均来估计模型的置信度.具体来说,对有m个训练样本$(x^t_1,x^t_2,…,x^t_m) $和n个测试样本$ (x_1,x_2,…,x_n) $的多分类问题,真实标签类别为c的测试样本$x_i (i=1,2,…,n) $经过模型预测后的置信度分数$D_s^c (x_i) $可以定义为如下形式:

(1)

\begin{matrix} D_{s}^{c} (x_{i}) = \frac{\overset{k}{\sum_{j = 1, \hat{y} = c}} e^{- (f (x_{i}) - f ({x^{t}}_{j})) 2}}{\overset{k}{\sum_{j = 1}} e^{- (f (x_{i}) - f ({x^{t}}_{j})) 2}} \end{matrix}

图2

图2 最近k个点的密度估计

Fig.2 Estimation of density of the nearest k points

式中:$\hat{y}$ 为测试集样本$x_i$ 的预测标签;c∈d,d为所有样本标签类别; $x^t_j (j=1,2,…,k;k≤m) $为k个最近邻训练集样本;f(•)为样本经过训练后的模型在嵌入空间中的向量表示; $D_s^c (x_i) $为一个0~1的得分,其与$x_i$ 附近的具有相似标记的训练集样本点的局部密度相关.模型的置信度分数$D_{mo}$则可以通过计算所有测试集样本点的平均获得,其定义如下:

(2)

\begin{matrix} D_{mo} = \frac{1}{n} \overset{n}{\sum_{i = 1}} \max (D_{s}^{c} (x_{i})) \end{matrix}

式中:max (·)为测试样本x_i预测类别最大的分数,即最有可能的分类.

2.2.2 利用中心损失提高嵌入效果在度量学习应用中,鉴别的样本对象之间差异度相对较小,其分类模型要在能够对其进行细粒度鉴别的同时保持稳健性.早期主要是通过交叉熵损失来训练优化模型的,之后有学者提出了三重态损失训练模型,但在训练过程中三重态样本配对组合的差异度会影响模型的学习速度^[22].文献[23]提出将中心损失用于面部识别,根据中心损失的梯度更新每个mini-batch中心,作为三重态损失的一种替代取得了良好的效果.文献[24]在少样本学习中使用了类似的方法,不断更新mini-batch的中心来进行优化,在场景识别任务中取得了不错的效果.中心损失优化时,最小化具有相同标签的样本到其样本中心之间的距离,将属于同一类的数据点聚集在一起,以获得在嵌入空间更好的向量表示^[24].为了提高嵌入表达效果,使用中心损失来优化模型.中心损失可表示为

(3)

L = L_{so} + λ L_{cen} = L_{so} + \frac{λ}{2} \overset{M}{\sum_{i = 1}} {(f (x_{i}) - h_{c_{i}})}_{2}^{2}

式中: $L_{so}$ 为交叉熵损失; $L_{cen}$ 为中心损失; $f(x_i) $为第i个训练样本通过网络后得到的高维特征向量; $h_(c_i )∈R^D$ 为$c_i$ 的样本中心, $c_i$ 为$x_i$ 的样本类别标签, $x_i∈R^D$,D为特征向量的维度;M为mini-batch的样本数量;λ为超参数.

2.3 距离置信度分数在多模态分类网络中的构建

由上述可知,嵌入层添加在模型的特征提取模块之后,对于多模态分类模型可以使用相同的方法在各自模态特征提取后添加嵌入层用于计算置信度,如图3所示,其中: N为输入信息序号.在单一模态分类中由于信息源只有一个,不用考虑模式中特征重要程度的差异.但在多模态分类中,由不同信息来源间的模式提取到的特征重要程度存在差异,因此引入注意力机制.注意力机制最早在计算机视觉任务中提出,随后在自然语言处理领域也开始逐渐应用,随着BERT(Bidirectional Encoder Representation from Transformers)模型和GPT(Generative Pre-Training)模型在该领域中取得显著的效果,人们也越来越注意到注意力机制.注意力机制可以帮助模型将提取到的特征赋予不同权重,对关键、重要信息进行强化,帮助模型做出更加准确的判断^{[25,26,27,28]}.在多模态分类网络的特征提取阶段,为了强化不同模态提取自己的关键信息,在各自模态中做了注意力机制的处理.在提取图像特征时,使用了通道注意力和空间注意力机制^[29];在对文本类结构化信息提取时,使用了自注意力机制^[27];最后,在各自模态信息特征提取完成后再添加一个嵌入层,获取各自模态的高维向量表示,用来计算多模态分类任务中单一模态信息的置信度.在多模态分类网络的特征融合阶段,将各模态信息进行连接,并将连接后的所有信息再次嵌入,对多模态信息融合信息进行再次学习,其嵌入向量表示可以用来计算特征融合后的置信度.

图3

图3 基于距离置信度分数的多模态分类网络构建示意图

Fig.3 Schematic diagram of multimodal classification network construction based on distance confidence score

3 实验和结果

在本节中,将通过3个实验任务来评估所提置信度分数.3个任务分别为:单模态分类任务MNIST数据分类、单模态分类任务CIFAR-10数据分类、多模态分类任务肺部腺癌数据分类.上述提到的需进行比较的3种置信度分数分别为:① 外部输出得到的基于最大距离的置信度分数;② 外部输出得到的基于熵的置信度分数;③ 所提出的通过内部嵌入得到的基于距离的置信度分数.

3.1 实验数据

(1) MNIST数据分类.手写数字数据集,该数据包含6×10⁴个训练集示例,1×10⁴个测试集示例,是美国国家标准与技术研究所(NIST)数据集合的子集.

(2) CIFAR-10数据分类.由10个类的6×10⁴张32像素×32像素的彩色图像组成,每个类包含 6×10³张图像,有5×10⁴张训练图像和1×10⁴张测试图像.

(3) 肺部腺癌数据分类.来自一家三甲医院采集的肺腺癌数据,包含 1675 个样本,其中532例浸润性肺腺癌和 1143 例非浸润性腺癌.每个样本数据有3种模态数据:高分辨计算机断层扫描(HRCT)图像数据、患者的结构化临床基本信息和血液检查信息.

3.2 实验设置

3.2.1 MNIST单模态分类该任务中,使用了一个由6层卷积层和2层全连接层构成的网络进行训练,如图4所示.其中:每个卷积层的卷积核参数用符号表示,如32@5×5表示32个5×5的卷积核.第1层全连接提取样本向量表示用于估计概率密度,进而计算所提出的DCS.第2层全连接输出用于计算MMCS和ECS.该实验分别使用了交叉熵损失与中心损失来进行优化比较.

图4

图4 MNIST分类网络

Fig.4 MNIST classification network

3.2.2 CIFAR-10单模态分类对于CIFAR-10分类任务,使用了常规的ResNet50模型的特征提取器和2层全连接层构成的网络进行训练,如图5所示.其中:z为每个残差模块的输入;$s_g (g=1,2,3,4) $为残差模块;RelU为激活函数.模型首先提取图像特征,然后经过2层全连接,第1层将ResNet50模型提取特征进行嵌入,用来获取样本的向量表示,进而计算所提出的DCS.第2层全连接输出用于计算MMCS和ECS.该实验中,同样使用了交叉熵损失和中心损失来进行优化比较.

图5

图5 CIFAR-10分类网络

Fig.5 CIFAR-10 classification network

3.2.3 肺部腺癌多模态分类肺部腺癌多模态数据包含1组图像数据和2组结构化文本数据.对多模态数据进行分类的网络由两部分组成:不同模态信息特征提取和多模态特征融合决策.

在特征提取部分,针对图像数据使用了添加注意力机制的ResNet50网络结构.在ResNet50网络结构的基本残差模块中,添加通道注意力和空间注意力两种注意力模块,用以提高图像重要部位的特征提取能力,如图6所示.其中: C为卷积核的通道数量;G为卷积核深度;H、W分别为卷积核的高和宽; ω_ch为通道注意力输出权重;ω_sp为空间注意力输出权重;Sigmod为转换函数.对于另外两组结构化文本数据,使用了多层感知机提取特征,同时使用了自注意力模块来提高重要信息的提取能力,如图7所示.其中:ω_se为自注意力输出权重;tanh为激活函数.

图6

图6 基于注意力机制的图像特征提取

Fig.6 Image feature extraction based on attention mechanism

图7

图7 基于注意力机制的结构化文本特征提取

Fig.7 Structured text feature extraction based on attention mechanism

多模态特征融合决策部分如图8所示.首先, 将不同模态提取来的特征进行第1次嵌入,该嵌入空间的特征可以用来计算所提出的DCS,该分数可以反应不同模态信息的置信度.然后,将这些高维向量进行拼接并进行第2次嵌入,第2次嵌入空间的高维特征向量可以用来计算融合特征的DCS.最后,通过一层全连接进行输出,输出的向量用来计算MMCS和ECS.在该实验中,使用中心损失来对模型进行优化.

图8

图8 多模态特征融合

Fig.8 Multimodal feature fusion

3.3 评价指标

Brier分数(BS)是一种用来评估模型预测概率准确性的指标,是一种成本函数^[30].Brier分数越低,其预测概率越准确,模型不确定性越低,置信度更高;反之,则置信度更低.Brier分数的取值范围为0~1.二分类Brier 分数的计算公式如下:

(4)

\begin{matrix} BS = \frac{1}{n} \overset{n}{\sum_{i = 1}} (P_{i} - o_{i})^{2} \end{matrix}

式中: $P_{i} 为预测概率; o_{i} 为二分类预测输出值, o_{i} \in {0,1} .$ 对于多分类Brier 分数BS_mut,其计算公式如下:

(5)

\begin{matrix} B S_{mut} = \frac{1}{n} \overset{n}{\sum_{i = 1}} \overset{k}{\sum_{j = 1}} (P_{ij} - o_{ij})^{2} \end{matrix}

(6)

o_{ij} = \{\begin{array}{l} 1, & j = q \\ 0, & 其他 \end{array}

$q = 0,1, \dots, Q - 1$

式中: $P_{ij}$ 为多分类预测概率; $o_{ij}$ 为多分类预测输出值;Q为预测输出值可能的数量,如10分类,则Q=10.

3.4 实验步骤

实验对每个模型进行30次训练迭代,计算每个训练迭代次数中的3种置信度分数:由外部输出计算的MMCS、ECS和由内部嵌入计算的DCS,观察其变化规律.在3个任务中选择训练出来的最佳模型,比较所获得模型的性能指标:准确率、接受者操作特征曲线下面积(AUC)、Brier分数.

由熵的定义可以知道,熵是预测结果不确定性的度量,不是预测每种可能性的度量分数,无法计算其Brier分数.基于熵的分数只用来观察其变化规律,不计算Brier分数,所以在实验中约定将外部输出得到的MMCS作为外部Brier分数(BS_o),将内部嵌入得到的DCS作为内部Brier分数(BS_I).

3.5 实验结果

3.5.1 MNIST 模型训练中,准确率A、AUC随训练迭代次数(E)的变化规律,如图9所示.由图9可知,随着训练次数的增加,模型准确率和AUC逐步提高,最后趋于稳定,使用中心损失优化可以得到更高的准确率和AUC.3种置信度分数MMCS、ECS和DCS随E的变化曲线,如图10所示,其中:δ为置信度分数.由图10可知,随着E的增加,从输出端得到的MMCS和从内部得到的DCS都是逐渐增大后趋于稳定的,两者最后趋于相同,而ECS则是逐渐减小后趋于稳定的(见图10(a)).通过变化曲线的一阶差分可以知道,DCS和ECS正相关(见图10(b)),DCS与ECS负相关(见图10(c)).3种置信度分数间的相关系数如表1所示,其中:R为线性相关系数.

图9

图9 MNIST数据集上的模型准确率和AUC随E的变化曲线

Fig.9 Model accuracy and AUC versus E on MNIST dataset

图10

图10 MNIST数据集上3种置信度分数随E的变化曲线

Fig.10 Three kinds of confidence scores versus E on MNIST dataset

表1 MNIST数据集上3种置信度分数间的相关系数

Tab.1 Correlation coefficients of three kinds of confidence scores on MNIST dataset

相关性	R
(MMCS, ECS)	-0.998
(MMCS, DCS)	0.979
(ECS, DCS)	-0.988

当训练稳定后,使用不同损失函数得到的最佳模型结果如表2所示.使用中心损失优化可以得到准确率和AUC,并且通过内部计算嵌入得到的Brier分数更低,反映出通过内部参数计算出来的置信度分数更加接近真实情况.

表2 MNIST数据集上由不同损失函数训练获得的模型性能

Tab.2 Model performances trained with different loss functions on MNIST dataset

损失函数	A/%	AUC×10²	BS_o×10³	BS_I×10³
交叉熵损失	98.34	99.964	30.184	27.182
中心损失	98.48	99.964	25.082	24.419

3.5.2 CIFAR-10 模型训练中每个E的准确率、AUC随E的变化规律,如图11所示.由图11可知,随着E的增加, 模型准确率和AUC逐步提高,最后趋于稳定,使用中心损失优化可以得到更高的准确率和AUC.3种置信度分数随E的变化曲线如图12所示.由图12可知,随着E的增加,从输出端得到的MMCS和从内部得到的DCS都是逐渐增大最后趋于稳定, 最后两者趋于相同, 而ECS则是逐渐减小后趋于稳定的(见图12(a)).通过变化曲线的一阶差分可以知道,DCS和ECS正相关(见图12(b)),DCS与ECS负相关(见图12(c)).3种置信度分数间的相关系数如表3所示.

图11

图11 CIFAR-10数据集上的模型准确率和AUC随E的变化曲线

Fig.11 Model accuracy and AUC versus E on CIFAR-10 dataset

图12

图12 CIFAR-10数据集上3种置信度分数随E的变化曲线

Fig.12 Three kinds of confidence scores versus E on CIFAR-10 dataset

表3 CIFAR-10数据集上3种置信度分数间的相关系数

Tab.3 Correlation coefficients of three kinds of confidence scores on CIFAR-10 dataset

相关性	R
(MMCS, ECS)	-0.999
(MMCS, DCS)	0.998
(ECS, DCS)	-0.998

当训练过程稳定后,使用不同损失函数得到的最佳模型结果如表4所示.与MNIST类似,使用中心损失优化可以得到准确率和AUC,并且通过内部计算嵌入得到的Brier分数更低,反映出通过内部参数计算出来的置信度分数更加接近真实情况.

表4 CIFAR-10数据集上由不同损失函数训练得到的模型性能

Tab.4 Model performances trained with different loss functions on CIFAR-10 dataset

损失函数	A/%	AUC×10²	BS_o×10³	BS_I×10³
交叉熵损失	71.53	93.468	49.570	46.878
中心损失	71.65	94.769	45.492	43.161

3.5.3 肺部腺癌对于肺部腺癌多模态数据分类任务,不再对优化器方面进行比较,该任务全部都使用中心损失优化以获得更好的嵌入表示.训练中模型的准确率和AUC,如图13所示.由图13可知,随着E的增加,模型的准确率、AUC逐步提高,最后趋于稳定.当多模态数据加入后,相比于原来的单一模态图像数据,模型性能得到了提高.通过由输出端得到的MMCS、ECS和由内部嵌入得到的DCS随E的变化如图14所示.通过变化曲线的一阶差分可以知道,DCS和ECS正相关(见图14(b)),DCS与ECS负相关(见图14(c)).3种置信度分数间的相关系数如表5所示.

图13

图13 肺部腺癌数据集上的模型准确率和AUC随E的变化曲线

Fig.13 Model accuracy and AUC versus E on adenocarcinoma dataset

图14

图14 肺部腺癌数据集上3种置信度分数随E的变化曲线

Fig.14 Three kinds of confidence scores versus E on adenocarcinoma dataset

表5 肺部腺癌数据集上3种置信度分数间的相关系数

Tab.5 Correlation coefficients of three kinds of confidence scores on adenocarcinoma dataset

相关性	R
(MMCS, ECS)	-0.984
(MMCS, DCS)	0.993
(ECS, DCS)	-0.967

当训练稳定后,使用不同损失函数得到的最佳模型表现如表6所示.由表6可以看到,多模态数据可以增加模型分类的准确率、AUC,并且通过内部计算嵌入得到的Brier分数更低,反映出通过内部参数计算出来的置信度分数更加接近真实情况.

表6 肺部腺癌数据集上的多模态分类模型性能

Tab.6 Multimodal classification model performances on adenocarcinoma dataset

数据组合	A/%	AUC× 10²	BS_o× 10³	BS_I× 10³
图像	85.80	93.603	27.264	23.933
图像+临床信息	86.40	93.535	19.210	18.680
图像+血液检查	86.71	93.647	19.295	18.553
图像+临床信息+血液检查	88.86	94.456	17.493	16.657

从多模态分类任务嵌入层提取信息,融合后的嵌入表示可以计算不同模态信息综合后判断的置信度,融合前的嵌入表示可以计算不同模态自己独立判断的置信度,这一点是从外部输出无法知道的.多模态数据基于距离的置信度分数如表7所示.其中: $δ_{DCS}^{mode}$ 为多模态融合模型整体的DCS; $δ_{DCS}^{ima}$ 为多模态融合模型图像信息的DCS; $δ_{DCS}^{clin}$ 为多模态融合模型临床信息的DCS; $δ_{DCS}^{chec}$ 为多模态融合模型血液检查信息的DCS.由表7可以看到,多模信息在融合时不同类别信息对于最后综合判断的影响,并予以量化.

表7 基于距离置信度分数的多模态数据

Tab.7 Multimodal data based on distance confidence score

数据组合	$δ_{DCS}^{mode}$ ×10²	$δ_{DCS}^{ima}$ × 10²	$δ_{DCS}^{clin}$ × 10²	$δ_{DCS}^{chec}$ × 10²
图像+临床信息	87.572	88.145	70.000	-
图像+血液检查	87.970	88.423	-	69.733
图像+临床信息+血液检查	88.070	88.570	68.630	68.942

相比于患者临床基本信息和血液检查信息,计算机断层扫描(CT)图像信息能够提供更多的信息用于判断最后结果.

3.5.4 结果分析通过上述3组不同的实验数据可以知道,使用中心损失可以在获得更好的嵌入表示的同时提高模型的性能(准确率、AUC和置信度).另外,所提通过嵌入得到的基于距离的置信度分数与输出得到的基于最大距离的置信度分数和基于熵的置信度分数一样可以作为一种度量模型的置信度方法,且所提方法更能真实地反应概率预测情况.此外,相比两种由外部参数计算得到的置信度分数而言,在处理多模态数据分类时,所提出的基于距离的置信度分数不仅可以获得模型整体的置信度,还可以获得多模态数据基于自身信息在判断时的置信度,并可以量化不同模态信息的重要程度.

4 结语

本文提出一种在嵌入空间基于距离的置信度分数计算方法来度量模型的置信度.该方法在处理单一模态分类任务时,与其他通过模型输出端计算置信度分数方法相似,可以作为一种度量模型置信度的手段.在处理多模态融合分类任务时,不仅可以用来度量模型整体的置信度,还可以用来评估和量化多模态数据对于模型最后判断时的置信度影响,知道各种模态数据对于决策的重要程度.这一点在实际应用中对模型可靠性和可解释性都有要求的场合中具有重要意义.

参考文献

原文顺序

文献年度倒序

文中引用次数倒序

被引期刊影响因子

[1]

MANDELBAUM

, WEINSHALL

Distance-based confidence score for neural network classifiers

[EB/OL]. (2017-09-02) [2020-04-16]. https://www.researchgate.net/publication/320097900_Distance-based_Confidence_Score_for_Neural_Network_Classifiers.

URL [本文引用: 5]

[2]

SHAKED

, WOLF

Improved stereo matching with constant highway networks and reflective confidence learning

[C]// 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Honolulu, HI, USA, 2017: 6901-6910.

DOI:10.1016/j.ins.2018.10.030 URL [本文引用: 2]

[3]

ZHANG Y

, ZHANG Z

, MIAO D

, et al.

Three-way enhanced convolutional neural networks for sentence-level sentiment classification

[J]. Information Sciences, 2019, 477:55-64.

[4]

DEL-AGUA M

, GIMÉNEZ

, SANCHIS

, et al.

Speaker-adapted confidence measures for ASR using deep bidirectional recurrent neural networks

[J]. IEEE/ACM Transactions on Audio, Speech, and Language Processing, 2018, 26(7):1198-1206.

DOI:10.1109/TASLP.2018.2819900 URL [本文引用: 1]

[5]

NADEEM

, BENNAMOUN

, SOHEL

, et al.

Learning-based confidence estimation for multi-modal classifier fusion

[C]// International Conference on Neural Information Processing. Sydney, NSW, Australia: ICONIP, 2019: 299-312.

[6]

BERTHON

, HAN

, NIU

, et al.

Confidence scores make instance-dependent label-noise learning possible

[EB/OL]. (2020-01-12)[2020-04-16]. https://www.researchgate.net/publication/338570353_Confidence_Scores_Make_Instance-dependent_Label-noise_Learning_Possible.

[7]

SZEGEDY

, ZAREMBA

, SUTSKEVER

, et al.

Intriguing properties of neural networks

[EB/OL].(2013-12-12)[2020-04-16]. https://www.researchgate.net/publication/259440613_Intriguing_properties_of_neural_networks.

URL [本文引用: 2]

[8]

GAL

, GHAHRAMANI

Dropout as a Bayesian approximation: Representing model uncertainty in deep learning

[J]. Proceedings of Machine Learning Research, 2016, 48:1050-1059.

[9]

GUO

, PLEISS

, SUN

, et al.

On calibration of modern neural networks

[J]. Proceedings of Machine Learning Research, 2017, 70:1321-1330.

DOI:10.1109/TGRS.36 URL [本文引用: 2]

[10]

DENG

, JIA

, SHI D

Deep metric learning-based feature embedding for hyperspectral image classification

[J]. IEEE Transactions on Geoscience and Remote Sensing, 2020, 58(2):1422-1435.

[11]

CAO S

, WANG X

, KITANI K

Learnable embedding space for efficient neural architecture compression

[EB/OL].(2019-02-12) [2020-04-16]. https://www.researchgate.net/publication/330845079_Learnable_Embedding_Space_for_Efficient_Neural_Architecture_Compression.

URL [本文引用: 2]

[12]

HU H

, ZHOU G

, DENG Z

, et al.

Learning structured inference neural networks with label relations

[C]// 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Las Vegas, NV, USA: IEEE, 2016: 2960-2968.

[13]

OZDEMIR

, WOODWARD

, BERLIN A

Propagating uncertainty in multi-stage Bayesian convolutional neural networks with application to pulmonary nodule detection

[EB/OL].(2019-02-12)[2020-04-16]. https://www.researchgate.net/publication/321511200_Propagating_Uncertainty_in_Multi-Stage_Bayesian_Convolutional_Neural_Networks_with_Application_to_Pulmonary_Nodule_Detection.

[14]

NEAL R

Bayesian learning for neural networks

[M]. New York, NY, USA: Springer, 1996.

[15]

徐磊, 李向阳, 黄湘岳.

基于贝叶斯网络的非常规突发事件灾情评估

[J]. 上海交通大学学报, 2013, 47(5):846-850.

Lei

, LI

Xiangyang

, HUANG

Xiangyue

Unconventional emergency assessment based on Bayesian network

[J]. Journal of Shanghai Jiao Tong University, 2013, 47(5):846-850.

[16]

GAL

, GHAHRAMANI

Dropout as a Bayesian approximation: Representing model uncertainty in deep learning

[C]// Proceedings of the 33rd International Conference on International Conference on Machine Learning. New York, NY, USA:SIGCHI, 2016,: 1050-1059.

[17]

LAKSHMINARAYANAN

, PRITZEL

, BLUNDELL

Simple andscalable predictive uncertainty estimation using deep ensembles

[EB/OL].(2016-12-12)[2020-04-16]. https://www.researchgate.net/publication/311430201_Simple_and_Scalable_Predictive_Uncertainty_Estimation_using_Deep_Ensembles.

[18]

DENG

, DONG

, SOCHER

, et al.

ImageNet: A large-scale hierarchical image database

[C]// 2009 IEEE Conference on Computer Vision and Pattern Recognition. Miami, FL, USA: IEEE, 2009: 10836047.

[19]

NOJAVANASGHARI

, GOPINATH

, KOUSHIK

, et al.

Deep multimodal fusion for persuasiveness prediction

[C]// Proceedings of the 18th ACM International Conference on Multimodal Interaction. Tokyo, Japan: SIGCHI, 2016: 284-288.

DOI:10.1109/TPAMI.2018.2798607 URL [本文引用: 1]

[20]

BALTRUŠAITIS

, AHUJA

, MORENCY L

Multimodal machine learning: A survey and taxonomy

[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2019, 41(2):423-443.

[21]

ZARAGOZA

, BUC

. Confidence measures for neural network classifiers[EB/OL]. [2020-04-16]. https://www.semanticscholar.org/paper/Confidence-Measures-for-Neural-Network-Classifiers-Zaragoza-Buc/f19e6e8a06cba5fc8cf234881419de9193bba9d0.

[22]

GHOSH

, DAVIS L

Understanding center loss based network for image retrieval with few training data

[C]// Computer Vision-European Conference on Computer Vision 2018 Workshops. Munich, Germany: Springer, 2018: 717-722.

[23]

WEN Y

, ZHANG K

, LI Z

, et al.

A discriminative feature learning approach for deep face recognition

[C]// Computer Vision-European Conference on Computer Vision 2016 Workshops. Amsterdam, The Netherlands: Springer, 2016: 499-515.

[24]

SNELL

, SWERSKY

, ZEMEL

Prototypical networks for few-shot learning

[C]// Proceedings of the 31 st International Conference on Neural Information Processing Systems. Red Hook, NY, USA: SIGCHI, 2017: 4080-4090.

[本文引用: 2]

[25]

VASWANI

, SHAZEER

, PARMAR

, et al.

Attention is all you need

[EB/OL].(2017-06-12)[2020-04-16]. https://arxiv.org/abs/1706.03762.

[26]

WANG

, JIANG M

, QIAN

, et al.

Residual attention network for image classification

[C]// 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Honolulu, HI, USA: IEEE, 2017: 6450-6458.

[27]

ZHANG

, GOODFELLOW

, METAXAS

, et al.

Self-attention generative adversarial networks

[J]. Proceedings of Machine Learning Research, 2019, 97:7354-7363.

[本文引用: 2]

[28]

RAMACHANDRAN

, PARMAR

, VASWANI

, et al.

Stand-alone self-attention in vision models

[EB/OL].(2019-06-28)[2020-04-16]. https://www.researchgate.net/publication/333815334_Stand-Alone_Self-Attention_in_Vision_Models.

[29]

WOO

, PARK

, LEE J

, et al.

CBAM: Convolutional block attention module

[C]// Computer Vision-European Conference on Computer Vision 2018 Workshops. Munich, Germany: Springer, 2018: 3-19.