卷积神经网络的正交性特征提取方法及其应用
上海交通大学 电子信息与电气工程学院,上海 200240
Orthogonal Features Extraction Method and Its Application in Convolution Neural Network
School of Electronic Information and Electrical Engineering, Shanghai Jiao Tong University, Shanghai 200240, China
通讯作者: 李建勋,男,教授,博士生导师,电话(Tel.):021-34204305; E-mail:lijx@sjtu.edu.cn.
责任编辑: 石易文
收稿日期: 2020-09-8
基金资助: |
|
Received: 2020-09-8
作者简介 About authors
李辰(1990-),男,陕西省汉中市人,硕士生,工程师,主要从事神经网络及效能评估研究.
针对卷积神经网络中存在的特征冗余问题,将正交性向量的概念引入特征中,从强化特征之间差异性的角度,提出一种适用于卷积神经网络的正交性特征提取方法.通过搭建并列的卷积神经网络支路结构,设计正交损失函数,从而促使卷积核提取出相互正交的样本特征,丰富特征多样性,消除特征冗余,提升特征用于分类识别的效果.在一维样本数据集上的实验结果表明,相比于普通的卷积神经网络,所提方法能够监督不同卷积核,挖掘出更为全面的正交性特征信息,进而提升卷积神经网络的性能效率,为后续模式识别和紧凑型神经网络的研究奠定基础.
关键词:
In view of feature redundancy in the convolutional neural network, the concept of orthogonal vectors is introduced into features. Then, a method for orthogonal features extraction of convolutional neural network is proposed from the perspective of enhancing the differences between features. By building the structure of parallel branches and designing the orthogonal loss function, the convolution kernels can extract the orthogonal features, enrich the feature diversity, eliminate the feature redundancy, and improve the results of classification. The experiment results on one-dimensional sample dataset show that compared with the traditional convolution neural network, the proposed method can supervise the convolution kernels with different sizes to mine more comprehensive information of orthogonal features, which improves the efficiency of convolutional neural network and lays the foundation for subsequent researches on pattern recognition and compact neural network.
Keywords:
本文引用格式
李辰, 李建勋.
LI Chen, LI Jianxun.
本文从强化特征之间差异性的角度,提出一种适用于卷积神经网络的正交性特征提取方法.通过搭建并列的卷积神经网络支路结构,设计相应的正交损失函数,从而促使不同卷积核提取出相互正交的样本特征,丰富了特征多样性,消除了特征冗余,提升了特征用于分类识别的效果,为后续研究奠定了基础.
1 消除特征冗余的方法研究
1.1 卷积神经网络的特征冗余
CNN提取数据特征时会保留输入元素的空间信息,并将这些信息融入全部特征向量,这也正是特征冗余的来源,下文将通过具体的实验来说明特征冗余问题.
使用具有1个卷积层的CNN,对MNIST数据集进行训练,卷积层使用4个随机初始值的3×3卷积核,损失函数选用交叉熵损失函数.以一张手写“0”图片为例,输出4个卷积核提取的特征图像如图1所示.
图1
由图1可知, 特征图像2与特征图像4之间具有类似的特征相貌,初步判断存在特征冗余问题.但是,由于人眼无法进一步准确判断二维图像中的特征冗余,在此使用一维卷积神经网络(1D-CNN)处理公开数据集“Wine”,利用一维数据的直观性清楚地展示特征冗余问题.
使用具有1个卷积层的1D-CNN,卷积层内包含4个随机初始值的1×3卷积核,损失函数选用交叉熵损失函数.以第1个样本值为例,输出4个卷积核提取的特征向量如图2所示.其中:A为原始指标类别;B为原始指标类别的具体赋值;A'为特征提取后的原始指标类别;B'为特征提取后的原始指标类别的具体赋值.
图2
1.2 避免特征冗余的正交性特征
本文将正交性概念引入特征向量中,通过设计一种适用于CNN的正交性特征提取方法,达到消除特征冗余的目的.
对于一维数组
在数组维数和模固定的前提下,Z越接近0,说明两个数组的正交性越强.CNN使用二维卷积核时,卷积层输出的特征矩阵经过压平层和拼接层处理后仍为一维特征向量[16],因此同样适用于式(1).
2 基于卷积神经网络提取正交性特征
2.1 模型结构
图3
图3
提取正交性特征的卷积神经网络
Fig.3
Extracting orthogonal features of convolution neural network
该模型是一种单输入多输出的CNN,主要由3个模块构成,分别为卷积模块、分类模块和正交模块.
2.1.1 卷积模块 卷积模块由若干条卷积支路构成,输入样本数据,输出卷积核提取的特征向量.单条卷积支路中一般包含卷积层、池化层和压平层.其中,卷积层和池化层的数量可以根据需要进行增减,压平层只设置在每条卷积支路的最后一层.单条卷积支路中,每个卷积层使用若干相同尺寸的卷积核.各卷积核提取的特征在压平层被压缩为一维特征向量.
需要说明的是,正交模块可以检测不同卷积支路的特征向量之间的正交性,但无法检测同一卷积支路内不同卷积核提取特征的正交性.因此,当需要保证所有特征向量两两正交时,可以设置两条以上的卷积支路,每条卷积支路的卷积层中只设置单个卷积核.根据Inception结构原理,一个卷积层中设置多个卷积核,与同一水平维度分布多个卷积层、每个卷积层设置单个卷积核,在提取特征的数量方面没有本质区别.
2.1.2 分类模块 分类模块主要由拼接层和分类输出层组成,其功能是在保持分类准确率的前提下,监督卷积支路提取出有利于分类识别的特征向量.
拼接层将不同卷积支路输出的特征向量拼接为一维长数组后,输出到分类输出层.分类输出层一般使用Softmax函数和交叉熵损失函数的组合来完成分类判断.
2.1.3 正交模块 正交模块由正交层和正交输出层组成,正交层将不同卷积支路的特征向量做内积运算,正交输出层将内积运算的误差做反向传递.关于内积运算与正交损失函数的详细内容,将在2.2节进一步叙述.
由式(1)可知,两个数组进行内积运算的前提是两个数组维数一致,因此一个正交层只能监督同一种尺寸特征向量的正交性.Inception结构在同一水平维度使用了不同尺寸的卷积核,若步长统一且无边缘填充,则大尺寸卷积核的滑动总步数显然小于小尺寸卷积核,最终导致两者提取的特征维数不一致.文献[18]的研究表明不同尺寸和深度的卷积层,因其感受野不同所以提取特征的范围和精细度方面存在明显差异.由此可知,不同尺寸卷积核提取的特征,在特征维数、捕获范围、精细度等方面不在同一量级,没有正交性的必要.
图4
2.2 损失函数
2.2.1 分类损失函数 多分类任务中,分类损失函数一般采用Softmax函数和交叉熵损失函数的组合.Softmax函数将输出层各神经元的比值映射成各类别的预测概率,其表达式为
式中:
交叉熵损失函数(依据其功能也可称为分类损失函数)可以衡量真实概率分布与预测概率分布之间的相似程度,其公式为
式中:
2.2.2 正交损失函数 所设计的正交损失函数,由正交层的特征向量内积和正交输出层的误差计算两个部分组成,用于监督不同卷积支路提取相互正交的特征向量.
式中:I为输入样本;m和n分别为I的高和宽;g和h分别为卷积核在输入样本上横向和纵向移动的步数;u和v分别为卷积核的高和宽;
式中:S为任意大于1的常数.显然,Z单调递增,且最小值位于
根据式(5)将正交输出层的正交损失函数设为
当
2.2.3 综合损失函数 根据式(3)和(6),可得本文模型的综合损失函数为
式中:η和ψ分别为两种损失函数的系数,可以根据网络训练情况自主设置.
2.3 提取正交性特征的过程
网络模型(见图3)的综合损失函数J3如式(7)所示,其提取正交性特征的过程为:
(1) 输入样本数据,模型通过综合损失函数
(2) 当
(3) 当
(4)
通过以上过程,本文模型由多条卷积支路提取出正交性特征向量,避免了特征冗余问题.
3 实验验证
3.1 实验数据和步骤
无论样本数据是一维数组或是二维图像,经过CNN的压平层和拼接层后,其特征向量均为一维长数组格式,因此本文模型对一、二维样本具有同样的适用性.由于人眼无法直观察觉二维特征图像间的正交性,选用一维样本数据集进行实验验证.
选用UCI Machine Learning Repository网站上的多分类数据集“Wine”,该数据集包含3种酒的13项指标,178条样本数据.使用有正交模块的CNN模型(见图3和4)提取样本数据特征,以不含正交模块的CNN作为实验对照组.
具体实验步骤如下.
步骤1 建立包含2条卷积支路、有正交模块的CNN,如图5所示.
图5
“Wine”数据集属性较少,为了避免属性过度压缩,每条卷积支路中只包含1个卷积层和1个池化层,每个卷积层中使用1个1×3卷积核,则该模型的卷积模块最终输出为2个1×3卷积核提取的特征向量.
步骤2 将“Wine”数据集输入含2条支路的CNN模型(见图5),训练结束后记录分类准确率和每条卷积支路提取的特征向量.
步骤3 在含2条支路的CNN基础上,增加不同尺寸卷积核的卷积支路数量如图6所示.
图6
该模型包含4条卷积支路.其中,左侧两条支路中卷积层使用1×3卷积核,右侧两条使用1×6卷积核,其他层的参数与含2条支路的CNN相同,则该模型的卷积模块最终输出为2个1×3卷积核和2个1×6卷积核提取的特征向量.之后,2个1×3卷积核和2个1×6卷积核提取的特征向量,分别在左右两个正交模块内进行内积运算.
步骤4 将“Wine”数据集输入含4条支路的CNN模型(见图6),训练结束后记录分类准确率和每条卷积支路提取的特征向量.
步骤5 进行对照组实验,将“Wine”数据集输入到不含正交模块的CNN中.该CNN包含1个卷积层和1个池化层,卷积层中使用2个1×3卷积核.训练结束后记录分类准确率和每条卷积支路提取的特征向量.
3.2 实验结果及分析
3.2.1 损失函数值与分类准确率 不含正交模块的正常CNN、包含2条卷积支路的CNN、包含4条卷积支路的CNN,3种模型针对相同训练集的损失函数值,在训练过程中均不断下降.以含2条卷积支路的CNN为例,其损失函数值如图7所示.其中:Q为训练次数;J为损失函数值.
图7
由图7可知,训练一段时间后正交损失函数值趋近于0并保持稳定,分类损失函数值随着训练次数的增加不断下降,综合损失函数受以上两个损失函数的影响而下降.
3种模型针对相同测试集的损失函数值和分类准确率,如表1所示.
表1 3种模型的损失函数值和准确率
Tab.1
模型名称 | J3 | ζ/% |
---|---|---|
不含正交层的神经网络(正常CNN) | 0.499 | 83.33 |
含2条支路的CNN模型( | 0.434 | 89.89 |
含4条支路的CNN模型( | 0.375 | 91.65 |
由表1可知:① 使用2个1×3卷积核、含正交模块的CNN,与使用2个1×3卷积核、不含正交模块的正常CNN相比,在损失函数值和分类准确率方面表现更好,证明正交模块提取的多样性特征提升了CNN的分类识别性能.② 使用2个1×3卷积核和2个1×6卷积核、含正交模块的CNN,比使用2个1×3卷积核、含正交模块的CNN,其损失函数值和分类准确率更优,证明增加特征多样性可以增强CNN的分类识别性能.③ 由CNN特性可知,增加卷积层的数量和深度,其性能还有进一步提升的空间.
综上所述,加入了正交模块的CNN相比于正常CNN,丰富了特征多样性,提升了分类识别性能.
3.2.2 特征向量正交性 为了便于观察特征向量的正交性,将3种酒的特征向量按类别区分,同类样本的各指标取平均值进行绘图.
(1) 不含正交模块的正常CNN,提取的特征向量如图8所示.其中:E为特征向量中元素的序号;F为特征数值;特征向量1和特征向量2分别为2个1×3卷积核提取的特征向量.
图8
图8
不含正交层CNN提取的3类酒特征向量
Fig.8
Three kinds of wine feature vectors extracted by CNN without orthogonal layer
由图8可知,针对同一类别样本,不含正交模块的正常CNN中,2个1×3卷积核提取特征的形态和数值近似,即存在特征冗余问题.
(2) 含2条卷积支路、有正交模块的CNN,提取的特征向量如图9所示.
图9
图9
含2条支路CNN提取的3类酒特征向量
Fig.9
Three kinds of wine feature vectors extracted by CNN with two branches
由图9可知,针对同一类别样本,含2条卷积支路、有正交模块的CNN中,2个1×3卷积核提取的特征向量具有明显的正交性形态.
(3) 含4条卷积支路、有正交模块的CNN,提取的特征向量如图10所示.其中:特征向量3和特征向量4分别为2个1×6卷积核提取的正交性特征.
图10
图10
含4条支路CNN提取的3类酒特征向量
Fig.10
Three kinds of wine feature vectors extracted by CNN with four branches
由图10可知,增加多种尺寸的卷积核,既可以丰富特征多样性,也能够满足正交性特征需求,有利于提升CNN性能.
综上所述,以上实验结果可以证明,本文设计的模型结构和正交损失函数正确有效,能够监督CNN提取正交性特征,丰富了特征多样性,消除了特征冗余问题.
4 实际应用
采集工业生产中的机器运行数据来检验本文方法的实际应用性.以电子驱动器运行数据集“Sensorless Drive Diagnosis”为例,该数据集收集了驱动器的48项电信号指标,包括 58509 个样本数据,分为11种工况类别(T1~T11).不同种类工况下的样本数据取其指标平均值,如图11所示.其中:U为原数据集中电信号指标类别;V为原数据集中电信号指标类别的具体赋值.其中:T1~T11分别为11种工况下各指标的平均值.由于工况类别较多,图11(b)挑选了第7和11种工况进行单独展示.由图11可以看出,不同类别工况在少部分电信号指标上具有相对明显的差异,在大部分电信号指标上的差异并不明显.
图11
图11
不同种类工况的指标均值图
Fig.11
Average values of each indicator in different category modes
建立含2条支路的CNN模型,每条支路的卷积层中有1个1×3卷积核,仍以第7和11种工况的特征向量为例,如图12所示.
图12
首先,检查相同工况下两条特征向量的正交性.由图12(a)和12(b)可知,相同工况下两条特征向量具备正交形态,基本满足特征正交性、丰富性的要求.
其次,检查同一卷积核提取不同工况下特征向量的区分性.由图12(c)和12(d)可知,第1个卷积核主要捕捉到第5~12项、第19~22项指标间差异;第2个卷积核主要捕捉到第5~12项、第25~30项、第43~46项指标间差异.两个卷积核均能捕捉到不同工况下电信号指标的数值差异,且由于正交损失函数的监督,关注指标各有侧重,获取的信息也更为全面.
记录模型损失函数值和分类准确率,与不含正交模块的CNN进行对比,结果如表2所示.
表2 两种模型的损失函数值和分类准确率
Tab.2
模型名称 | J3 | ζ/% |
---|---|---|
不含正交模块的神经网络(正常CNN) | 0.453 | 82.41 |
含2条支路的神经网络( | 0.347 | 87.57 |
由表2可知,含正交模块的CNN其损失函数值和分类准确率表现更优,证明本文提出的方法在实际生产中具有良好的适用性.
综上所述,如果CNN一个卷积层中仅用一个卷积核,则特征信息比较单调;如果同一卷积层中使用多个卷积核,又可能导致特征冗余.通过本文提出的方法,监督各卷积核提取出正交性特征向量,就能从原始指标中获取更为全面的特征信息,为后续分类识别和指标研究奠定了基础.
5 结语
本文针对CNN特征冗余问题,引入了正交性概念,从强化特征之间差异性的角度,提出了一种提取正交性特征的模型方法.在保证分类准确率的基础上,促使卷积核提取出相互正交的特征向量,从而丰富了特征多样性,消除了特征冗余问题.将模型应用于一维数据集,利用一维数据折线图的直观结果,证明了本文方法的有效性.
下一步可以将一维数组间正交性推广至二维矩阵间正交性,进而研究正交性特征矩阵对图像处理等领域的作用.
参考文献
PCA-based edge-preserving features for hyperspectral image classification
[J]. ,DOI:10.1109/TGRS.2017.2743102 URL [本文引用: 1]
F-SVM: Combination of feature transformation and SVM learning via convex relaxation
[J]. ,DOI:10.1109/TNNLS.2018.2791507 URL [本文引用: 1]
端到端的深度卷积神经网络语音识别
[J]. ,
End-to-end speech recognition based on deep convolution neural network
[J].
Fully convolutional networks for semantic segmentation
[C]// ,
Auditing black-box models for indirect influence
[J]. ,DOI:10.1007/s10115-017-1116-3 URL [本文引用: 1]
Split to be slim: An overlooked redundancy in vanilla convolution
[C]// ,
Channel pruning for accelerating very deep neural networks
[C]// ,
Deep convolutional neural network on iOS mobile devices
[C]// ,
GhostNet: More features from cheap operations
[C]// ,
卷积神经网络特征重要性分析及增强特征选择模型
[J]. ,
Convolution neural network feature importance analysis and feature selection enhanced model
[J].
Principal component analysis
[J]. ,DOI:10.1039/C3AY41907J URL [本文引用: 1]
Analyses of orthogonal and non-orthogonal steering vectors at millimeter wave systems
[C]// ,
基于卷积-反卷积网络的正交人脸特征学习算法
[J]. ,
An orthogonal facial feature learning method based on convolutional-deconvolutional network
[J].
Recent advances in convolutional neural networks
[J]. ,DOI:10.1016/j.patcog.2017.10.013 URL [本文引用: 1]
/
〈 | 〉 |