上海交通大学学报(自然版), 2021, 55(5): 557-565 doi: 10.16183/j.cnki.jsjtu.2019.264

基于隐变量后验生成对抗网络的不平衡学习

何新林1, 戚宗锋2, 李建勋,1

1.上海交通大学 电子信息与电气工程学院, 上海 200240

2.电子信息系统复杂电磁环境效应国家重点实验室, 河南 洛阳 471003

Unbalanced Learning of Generative Adversarial Network Based on Latent Posterior

HE Xinlin1, QI Zongfeng2, LI Jianxun,1

1. School of Electronic Information and Electrical Engineering, Shanghai Jiao Tong University, Shanghai 200240, China

2. State Key Laboratory of Complex Electromagnetic Environment Effects on Electronics and Information System, Luoyang 471003, Henan, China

通讯作者: 李建勋,男,教授,博士生导师;E-mail:lijx@sjtu.edu.cn.

责任编辑: 陈晓燕

收稿日期: 2019-09-16  

基金资助: 国家重点研发计划(2020YFC1512203)
电子信息系统复杂电磁环境效应(CEMEE)国家重点实验室基金(2019K0302A)
民用飞机专项(MJ-2017-S-38)
国家自然科学基金(61673265)

Received: 2019-09-16  

作者简介 About authors

何新林(1992-),男,湖南省常德市人,硕士生,主要研究方向为数据挖掘. 。

摘要

针对现有不平衡分类问题中过采样方法不能充分利用数据概率密度分布的问题,提出了一种基于隐变量后验生成对抗网络的过采样(LGOS)算法.该方法利用变分自编码求取隐变量的近似后验分布,生成器能有效估计数据真实概率分布,在隐空间中采样克服了生成对抗网络采样过程的随机性,并引入边缘分布自适应损失和条件分布自适应损失提升生成数据质量.此外,将生成样本当作源领域样本放入迁移学习框架中,提出了改进的基于实例的迁移学习(TrWSBoost)分类算法,引入了权重缩放因子,有效解决了源领域样本权重收敛过快、学习不充分的问题.实验结果表明,提出的方法在分类问题各指标上的表现明显优于现有方法.

关键词: 不平衡分类; 生成对抗网络; 隐变量; 迁移学习

Abstract

Based on the problem that the oversampling method in the existing unbalanced classification problem cannot fully utilize the data probability density distribution, a method named latent posterior based generative adversarial network for oversampling (LGOS) was proposed. This method used variational auto-encoder to obtain the approximate posterior distribution of latent variable and generation network could effectively estimate the true probability distribution function of the data. The sampling in the latent space could overcome the randomness of generative adversarial network. The marginal distribution adaptive loss and the conditional distribution adaptive loss were introduced to improve the quality of generated data. Besides, the generated samples as source domain samples were put into the transfer learning framework, the classification algorithm of transfer learning for boosting with weight scaling (TrWSBoost) was proposed, and the weight scaling factor was introduced, which effectively solved the problem that the weight of source domain samples converge too fast and lead to insufficient learning. The experimental results show that the proposed method is superior to the existing oversampling method in the performance of common metrics.

Keywords: unbalanced classification; generative adversarial network; latent variable; transfer learning

PDF (1888KB) 元数据 多维度评价 相关文章 导出 EndNote| Ris| Bibtex  收藏本文

本文引用格式

何新林, 戚宗锋, 李建勋. 基于隐变量后验生成对抗网络的不平衡学习[J]. 上海交通大学学报(自然版), 2021, 55(5): 557-565 doi:10.16183/j.cnki.jsjtu.2019.264

HE Xinlin, QI Zongfeng, LI Jianxun. Unbalanced Learning of Generative Adversarial Network Based on Latent Posterior[J]. Journal of shanghai Jiaotong University, 2021, 55(5): 557-565 doi:10.16183/j.cnki.jsjtu.2019.264

数据分布不平衡是影响数据挖掘或者机器学习分类算法性能的一个关键因素.传统的分类算法假设数据分布是均衡的,以提升全局准确率为优化目标.但现实世界中的许多应用如医疗诊断[1]、金融欺诈检测[2]、人脸识别[3]及机械故障检测[4]等均存在数据分布不均衡的情况,某些类别的数目远远超过其他类别,二分类问题中通常分别称为多数类和少数类.在这些问题中,少数类是人们关注的重点,传统分类算法致力于提升全局准确率,导致分类结果偏向多数类而忽视了人们关注的重点.

目前主要从数据层面[5,6,7,8,9]和算法层面[10,11]或者两者结合[12,13]来解决不平衡分类问题.数据层面的解决办法通过对少数类过采样或者多数类欠采样使数据达到均衡,算法层面的解决办法通过设定算法参数如数据加权、代价敏感来强调少数类,两个方法的结合通过采样来平衡数据集,同时改进算法来强调少数类.

尽管现有的解决办法达到了良好的表现[10],鉴于最近几年深度网络生成模型在表示学习上显现出的巨大优势[14,15],本文关注利用深度神经网络对少数类进行过采样,因为过采样不会丢失数据中重要的信息,而且可以作为预处理步骤来进行可视化或者与算法层面方法相结合.传统的采样方法都是基于线性插值的方式,不能根据数据的概率分布函数进行采样.用过采样方法来解决不平衡分类问题是通过生成少数类样本来使数据达到均衡.最简单的方法是复制现有的少数类样本,这种方法容易导致过拟合.Chawla等[5]提出在选定的少数类样本和它们的K近邻之间进行线性插值来生成少数类样本,这种方法把所有少数类样本等同看待,没有考虑数据内分布的差异性,容易导致生成样本落入多数类区域.Han等[6]提出识别出位于类间边界的难以学习的少数类样本,对每个边界集合样本生成同等数量的样本.He等[7]用自适应方法根据每个少数类样本K近邻中多数类样本的数量来决定对每个少数类样本生成样本的数目,这种方法容易受噪声影响,对落入多数类区域的噪声给予过多关注.Barua等[8]提出识别出那些难以学习的少数类样本,并基于其与多数类样本的欧式距离给每个少数类样本分配权重,再用层次聚类法把少数类样本分为若干簇,在簇内根据权重采样插值生成少数类样本.Douzas等[9]提出利用条件生成对抗网络学习数据的多类分布,再进行少数类过采样.

针对现有的基于插值的过采样算法仅仅利用邻域样本的缺点,本文引入了隐变量模型,提出了一种基于隐变量后验生成对抗网络的过采样(LGOS)算法.生成对抗网络利用了所有少数类样本来学习数据真实概率分布,在隐变量后验上采样克服了基于高斯噪声生成对抗网络生成数据的随机性.同时本文引入了权重缩放因子,提出了与过采样算法相结合的不平衡分类算法TrWSBoost,人工合成的过采样样本和原始样本有很大相关性就相当于迁移源领域样本,原始样本被当作目标领域样本来迭代训练集成分类器.

1 生成对抗网络

生成对抗网络(Generative Adversarial Networks, GANs)是Goodfellow等[16]于2014年提出的一种无监督生成模型.生成对抗网络由两部分组成:生成器G和判别器D,结构如图1所示.这两个网络以对抗方式进行训练,生成器用来学习真实数据的分布,输入是隐变量先验,通常假设为高斯噪声或者均匀噪声,输出为接近真实数据分布的生成数据.判别器是一个二分类器,用来判别输入是真实数据还是生成数据的概率.

图1

图1   生成对抗网络结构图

Fig.1   Framework of generative adversarial network


生成器G和判别器D的训练目标是相互对抗的.判别器对输入样本进行真假判定,通过训练不断提升自己的分类效果,识别出生成器所生成的样本.生成器希望生成更加真实的样本以混淆判别器,让判别器无法分辨真假.设输入的随机噪声为z,生成器G将随机噪声转换为生成样本G(z).判别器D对输入样本输出D(x)为[0,1]范围内的一个实数,表示输入样本为真实样本的概率值.其损失函数为

minGmaxDV(G,D)= Ex~PrlogD(x)+ Ez~Pzlog1-D(G(z))

式中:x为真实输入样本;Pr为真实数据分布;Pz为输入噪声分布;E为数据期望.

两个网络进行迭代训练,理论上最终达到纳什均衡时,生成器G生成的数据分布和真实数据分布相同,判别器D输出概率值为0.5,无法区分真实样本和生成样本.

2 基于隐变量后验的生成对抗网络模型

2.1 隐变量模型

在生成对抗网络中,把高斯噪声或者均匀噪声当作隐变量先验分布,而隐变量真实先验分布和真实后验分布未知,所以生成数据质量具有随机性.变分自编码隐变量模型用近似后验分布代替真实先验分布,运用变分贝叶斯方法,在概率图模型上执行高效的近似推理和学习.均值场方法在很多情况下难以求得后验分布的解析解,变分自编码隐变量模型在概率图框架下形式化这个问题,通过优化对数似然的下界来间接优化最大对数似然.

近似后验分布和真实后验分布的距离用KL散度度量:

DKLqϕ(z|x)pθ(z|x)= Ez~qϕlogqϕ(z|x)-logpθ(z|x)

式中:ϕ为变分模型参数;qϕ(z|x)为近似后验分布,假设其服从高斯分布;θ为数据生成模型参数;pθ(z|x)为真实后验分布.

通过贝叶斯变换可得变分下界为

L(θ,ϕ;x)=log p(x)-DKLqϕ(z|x)pθ(z|x)= Ez~qϕlogpθ(x|z)-DKLqϕ(z|x)pθ(z)

隐变量模型通过编码器得到近似后验分布qϕ(z|x)的均值和协方差,在隐空间采样输入解码器重构原始输入数据,误差沿网络反向传播更新网络参数来逼近变分下界.

2.2 基于隐变量后验分布的生成对抗网络模型建立

本文所建立模型中,编码器E从真实样本提取隐变量作为监督信号,在隐空间采样作为信号输入生成器G用来生成和真实数据同分布的样本.隐变量模型的解码器从隐空间采样重构原始输入样本,故可把生成器和解码器结合,提出了一种数据生成模型LGOS.

编码器E输入x,输出为隐变量分布均值和方差,可表示为

z~E(x)=qϕ(z|x)

式中:qϕ(z|x)~Nμ,σ,μσ分别为隐变量对应高斯分布的均值和方差.

在隐空间采样输入生成器G得到生成数据:

x~~G(z)=pθxz

式中: x~为生成器输出生成样本.

假设隐变量先验分布为正态分布N(0,I),则变分下界为

Lθ,ϕ;x=-Lele-LKL

式中:Lele为重构误差;LKL为隐变量近似后验分布和先验分布之间的KL散度,具体表示如下.

Lele=- Eqϕ(z|x)logpθ(x|z)= ‖x- x~22
LKL=DKLqϕ(z|x)pθ(z)= 12j=1Jμj2+σj2-log(σj2)-1

式中:J为隐变量维度;μjσj分别为样本近似后验分布对应的均值和方差.

判别器D损失为

LD=- Ex~prlogD(x)- Ez~qϕ(z|x)log1-D(G(z))(9)

判别器D对真实输入样本输出较大的似然概率值,而对生成器G生成的样本输出小的似然概率值.

生成器G对抗损失为

LDG=-Ez~pzlogD(G(z))

生成器G和判别器D进行反向迭代,两个模型一直处于对抗训练过程.

2.3 分布自适应

用真实数据和生成数据之间的欧式距离来度量似然函数在很多情况下不适用.因为真实数据和生成数据要服从同分布,在模型中添加边缘分布自适应和条件分布自适应两个限制条件.

边缘分布的差距用最大化均值差异(MMD)度量[17],最大化均值差异把原变量映射到再生希尔伯特空间,在另一空间中求取两个分布的距离.在生成对抗网络中,判别器的目的就是学习数据样本的特征来进行区分,所以在LGOS模型中,用生成对抗网络判别器的最后一个隐层作为特征空间,特征向量的欧式距离即为MMD距离.

LMMD=‖ fDl(x)- fDlx~22

式中:l为判别器最后1个隐层;f为输入数据在第l层对应的特征提取函数.

条件分布自适应的目标是减小两个分布的条件概率的距离[18,19].从形式上来说,条件分布自适应方法是用py^xpy^x~(y^为数据真实类别)的距离来近似条件概率分布差距.

在LGOS模型中,用一个分类器C获得条件概率,分类器输出激活函数为softmax,输出向量各维度表示样本属于各个类别的概率.条件分布距离损失为

LGC=‖fCy^|x-fCy^|x~22

分类器用原始数据训练,用交叉熵函数作为其损失函数,分类器损失为

LC=- Ex~prylog[p(y^|x)]

各模块最终损失为

LE=LKL+γ1Lelement+γ2LMMD+γ3LGC
LG=LDG+γ1Lelement+γ2LMMD+γ3LGC
LD=- Ex~prlogD(x)- Ez~qϕ(z|x)log1-D(G(z))
LC=- Ex~prylogp(y^|x)

式中:γ1γ2γ3为超参数,用于调节各部分损失比重大小.

网络结构图如图2所示.

图2

图2   本文LGOS算法网络结构图

Fig.2   Framework of proposed LGOS algorithm


2.4 权重缩放的迁移学习模型

以TrAdaboost[20]为基础,提出了改进的带权重缩放因子的TrWSBoost迁移学习分类算法.把生成的少数类样本当作源领域样本,原始训练数据当作目标领域样本,目标是要训练迁移学习集成分类器.

在TrWSBoost模型中,在每一轮迭代时,对于源领域样本,被基学习器错分时,认为这些错分样本是与原始样本不同分布的样本,错分样本权重在下一轮迭代时应该降低.正确分类样本权重保持不变.目标领域样本错分时下一轮迭代权重增加,正确分类时权重保持不变.在TrAdaboost算法中,源领域样本错分时权重衰减过快[21,22],且模型融合时仅融合了后一半模型,没有充分利用源领域信息.考虑到本文中源领域样本和目标领域样本较大的相关性,为了解决权重衰减过快的问题,本文以目标领域样本加权错误率和源领域样本加权错误率为基础,设定了权重缩放因子.当目标领域加权错误率低时,认为模型表现良好,减慢源领域样本权重更新速度,反之亦然.

最终算法结构图如图3、4所示,算法流程如下:

图3

图3   本文LGOS算法流程图

Fig.3   Flowchart of proposed LGOS algorithm


图4

图4   训练TrWSBoost集成分类器流程图

Fig.4   Flowchart of training of TrWSBoost ensemble classifier


(1) LGOS过采样算法.

(a) 初始化.设置训练批次大小为m,初始化编码器E、生成器G、判别器D和分类器C 4个网络参数.设置超参数γ1=0.01,γ2=1,γ3=0.02.

(b) 从真实数据中随机抽取批次大小为m的训练数据x,并输入编码器E后得到隐变量近似后验分布z.

(c) 从隐空间采样输入生成器G得到生成样本 x~.求得样本重构误差与隐变量近似后验分布和高斯先验分布的KL散度.

(d) 输入真实样本x和生成样本 x~到判别器D中,得到判别器损失,边缘分布距离和生成器对抗损失.

(e) 输入真实样本x和生成样本 x~到分类器C,得到分类器交叉熵损失和条件分布距离.

(f) 汇总各网络损失,误差反向传播更新网络参数.

(g) 重复执行步骤(2)~(6),更新网络参数直至收敛.从隐空间采样输入生成器G得到最终生成样本.

(2) TrWSBoost集成分类算法.

(a) 初始化.设目标领域数据为D= (xi,yi)i=1n,yi0,1,少数类样本标签为1, 多数类样本标签为0.基学习器为Learner,生成数据大小为s,迭代总次数为N,当前迭代步数t=1,用过采样算法为LGOS生成源领域数据.设源领域数据为S= (xn+1,1),,(xn+s,1).初始化权重向量W1=[w11w21wn+s1], wi1=1(i=1,2,…,n+s), β= 11+2lnsN.

(b) 权重归一化,设归一化权重向量为Pt= p1tp2tpn+st,其中 pit= wit/i=1n+swit. 用归一化权重PtDS训练基学习器ht,得到DS预测标签值.

(c) 由DS预测标签值和真实标签,根据归一化权重Pt得到源领域样本和目标领域样本加权错误率.目标领域加权错误率为εt= i=1npitht(xi)-yi,源领域加权错误率为εs= i=1spn+itht(xn+i)-yn+i.如果εt很小,提前终止迭代防止过拟合,转到第(13)步. 否则设定βt=(1-εt)t,缩放因子λ=εts,基学习器ht集成加权系数αt=ln βt.

(d) 更新权重向量. wit+1= witβtht(xi)-yi,i=1,2,…,n, wt+1n+j= wn+jtβλ·ht(xn+j)-yn+j,j=1,2,…,s.

(e) 当前步数t自增1,未到N步时重复步骤(9)~(11).

(f) 最终集成分类器为H(x)= 1,i=1Nαtht(x)12i=1Nαt0,其他

3 实验与分析

通过对比实验分析本文所提出的LGOS算法和TrWSBoost算法的性能,以随机过采样(ROS)和传统的基于插值的过采样算法如SMOTE[5],Borderline-SMOTE[6],ADASYN[7],MWMOTE[8]作为比较对象.首先,比较LGOS算法和其他过采样算法生成数据的分布差异;其次,在加州大学欧文分校6个数据集(UCI)上详尽比较了各过采样算法生成数据训练的分类器的性能;最后,把过采样生成的数据作为迁移学习源领域样本,原始数据作为目标领域样本,对TrWSBoost算法和TrAdaboost算法进行比较.

3.1 实验参数设置和评估指标

实验选取了6个UCI公开数据集,把某类或几类指定为少数类,其他类作为多数类人为制造不平衡数据集,各数据集描述见表1.He等[10]的实验结果显示当数据分布接近均衡时,分类器表现最好,故在本文中,对每一数据集均通过过采样方法使少数类和多数类均衡.在实验中,随机选取80%的数据为训练集,其余数据作为测试集,取10次实验结果平均值作为报告结果.第一阶段实验采用决策树分类器,采用基尼系数作为节点切分标准,叶子节点最少样本数设置为1.SMOTE、Borderline-SMOTE、ADASYN算法K近邻设置为5,对MWMOTE算法K1设为5,K2设为3,K3设为3,聚类簇合并阈值Cp设为3.第二阶段实验把过采样生成的少数类样本当作源领域样本,原训练集数据当作目标领域样本,利用TrWSBoost算法训练迁移学习分类器.为了与第一阶段结果对比,弱分类器同样选取决策树分类器,迭代步数设置为50,当分类精确度很高时提前终止以防止过拟合.

表1   各数据集特性描述

Tab.1  Description of characteristics of datasets

数据集大小特征数多数类少数类不平衡比
phoneme54045381815862.41
satimage44353639564798.26
pen1099216993710559.42
wine64971156178806.38
letter200001618445155511.86
avila1043010933510958.53

新窗口打开| 下载CSV


数据分布不均衡时,全局准确率不能作为分类器评价指标[10],实验分别选取Recall、F-measure、G-mean及AUC[10]来评估过采样算法的有效性.Recall衡量分类器在召回单一类别上的能力,在少数类应重点关注的应用中,这个指标是关注的重点,F-measure表示分类器在预测单一类别上的完备性和准确性的均衡,G-mean表示分类器召回两个类别上的综合表现,AUC与数据分布无关,适合比较不同分类器的差异.

3.2 实验结果与分析

选取satimage数据集,用各过采样算法生成同样数量的少数类样本,利用t分布随机领域嵌入(TSNE)投影算法将数据降到两维进行图形可视化表示.

图5所示为LGOS 算法和其他过采样算法生成数据图形比较.从图中可见,ROS算法生成样本和原始数据中少数类重合,容易导致过拟合.SMOTE算法生成样本相比于原始样本差异小,而且有少部分生成样本落入多数类区域成为噪声,对分类器训练不利.Borderline-SMOTE、MWMOTE及ADASYN算法侧重边界区域少数类样本,这些样本容易受落入多数类区域的噪声影响,对应忽略的噪声较大的权重,导致生成更多噪声,而且容易导致边界混合.从图3(f)中可以看出,生成样本的分布区域基本都在原始少数类样本分布区域内,而且和原始样本的关联更小,说明本文所提出的LGOS算法能够准确估计出真实样本概率密度函数,生成样本时是在真实的概率密度函数上采样,不同于基于插值的方式,生成样本时利用了全局的概率分布,生成样本相比于原始样本差异更大,提供的信息更多.

图5

图5   LGOS 算法和其他过采样算法生成数据图形比较

Fig.5   Visual comparison of synthetic data of LGOS and other oversampling methods


在6个UCI公开数据集上进行对比实验,用过采样算法生成的样本和原始样本混合训练决策树分类器,在测试集上的Recall、F-measure、G-mean和AUC指标见表2,粗体表示最优值.

表2   基于数据过采样的决策树分类器指标

Tab.2  Metrics of decision tree classifier based on data oversampling

指标数据集原始数据ROSSMOTEBorderMWMOTEADASYNLGOS
Recallphoneme0.75660.73960.79530.79760.80230.80460.8433
satimage0.91460.93650.94140.92680.95120.95240.9634
pen0.95830.98190.98140.98140.98560.96250.9861
wine0.60000.56270.65110.61880.65330.65830.6944
letter0.90160.87590.89830.87690.90370.85860.9118
avila0.93570.93940.95640.97840.94220.96970.9816
F-measurephoneme0.74790.73940.75280.76020.76270.75640.7586
satimage0.91460.94110.93740.93190.94140.93980.9461
pen0.94300.97180.95860.96760.97550.95630.9681
wine0.60840.58850.57590.56050.59450.57220.5966
letter0.87210.88980.86460.85710.87720.85190.8936
avila0.94000.94830.94110.95760.92800.95380.9511
G-meanphoneme0.82410.81570.83560.83980.84220.83940.8486
satimage0.95210.96500.96690.95960.97180.97210.9778
pen0.97490.98880.98710.98810.99080.97830.9902
wine0.75100.72860.76610.74830.77200.76810.7897
letter0.94320.93240.94090.93010.94460.92070.9500
avila0.96420.96680.97350.98530.96560.98100.9859
AUCphoneme0.82710.81970.83660.84100.84320.84020.8486
satimage0.95290.96550.96730.96020.97200.97240.9779
pen0.97510.98880.98710.98810.99090.97850.9902
wine0.77000.75330.77650.76210.78290.77750.7963
letter0.94420.93420.94190.93170.94560.92300.9508
avila0.96460.96720.97370.98540.96590.98110.9860

新窗口打开| 下载CSV


表2可知,过采样扩充数据集后的分类指标相比于原始数据集基本都有所上升,因为过采样降低了数据集的不平衡比.相比于ROS、SMOTE、Borderline-SMOTE、MWMOTE及ADASYN算法,LGOS算法在Recall指标上明显优于其他方法,说明LGOS算法生成的样本较原始原本差异更大,提供的新信息更多,提高了召回率,这点从图3也可看出.但LGOS算法生成样本差异大也会引入少量噪声,降低Precision,所以在F-measure指标上没有显现出优势.在综合评价指标G-mean和AUC上,LGOS有明显优势,说明过采样同时兼顾了多数类和少数类.

把过采样少数类样本当作源领域样本,原始样本当作目标领域样本,利用本文的TrWSBoost算法训练集成分类器,本文实验中选取决策树作为基分类器,分类器测试指标见表3,粗体表示最优值.其中ROS表示先用ROS过采样算法生成少数类样本,再用所有数据训练TrWSBoost分类器, 其余类同.TrAdaboost列表示用LGOS生成少数类样本,再用TrAdaboost算法训练集成分类器.

表3   基于数据过采样的迁移学习分类器指标

Tab.3  Metrics of transfer learning classifier based on data oversampling

指标数据集ROSSMOTEBorderMWMOTEADASYNTrAdaboostLGOS
Recallphoneme0.82660.83330.84660.84000.85000.84330.8633
satimage0.95120.93900.93900.95120.96340.95120.9756
pen1.00001.00000.99070.99531.00000.99531.0000
wine0.51660.61660.62770.63880.59440.69440.7722
letter0.91520.91860.91520.92200.93220.92200.9491
avila0.98620.98620.98620.99540.98620.99541.0000
F-measurephoneme0.83780.83610.83960.840.83880.82810.8477
satimage0.95120.95650.95060.95120.96340.95120.9696
pen0.99530.99760.99300.99760.99530.99761.0000
wine0.59420.66460.64200.63010.61140.58680.6698
letter0.95400.95590.95230.95600.96490.95600.9705
avila0.99300.99070.99300.99540.99070.99541.0000
G-meanphoneme0.88320.88430.88950.88790.89010.88350.8976
satimage0.97280.96780.96720.97280.97970.97280.9858
pen0.99940.99970.99510.99760.99940.99761.0000
wine0.70580.77000.77110.77390.74900.78700.8402
letter0.95650.95830.95640.95990.96550.95990.9739
avila0.99300.99280.99300.99740.99280.99741.0000
AUCphoneme0.88510.88590.89060.88920.89100.88450.8983
satimage0.97310.96820.96760.97310.97980.97310.9859
pen0.99940.99970.99510.99760.99940.99761.0000
wine0.74040.78910.78750.78810.76900.79320.8432
letter0.95740.95910.95730.96070.96610.96070.9743
avila0.99310.99280.99310.99740.99280.99741.0000

新窗口打开| 下载CSV


表2、3中可知,集成后各指标相比于单分类器均有明显提升,表示集成方法是解决不平衡学习的一个好办法.LGOS算法生成样本在集成后在各指标上均超出了其他方法.TrWSBoost算法相比于TrAdaboost算法解决了权重衰减过快的问题.在本文研究中,由于源领域样本和目标领域样本极大的相关性,防止权重衰减过快具有合理性.

4 结语

现有的不平衡分类问题过采样方法均是基于样本间插值的方法,区别在于如何区分需要关注的少数类样本以及每个样本对应的生成样本数量.然而,这些方法均没有有效利用数据的概率密度分布函数,导致生成样本相比于原始样本差异小.基于这一观察以及最近几年深度网络生成模型显现出的优越性,本文提出了一种基于隐变量后验分布生成对抗网络的过采样方法,这一方法在隐空间中采样通过生成器得到生成样本,生成模型能够学习真实样本概率分布函数,故模型能够生成和原始少数类同分布的样本.在6个公开数据集上的对比实验结果及生成数据图形可视化分布均证明了LGOS算法的优越性.另外,提出了改进的基于实例的迁移学习方法,进一步提升了分类器的性能.接下来的工作可以从几方面展开:① 本文仅关注于二类分类问题,可以扩展到多类分类问题;② 改进深度网络处理离散变量的能力以适用于带名义变量的分类问题;③ 该方法在回归问题中的应用.

参考文献

FOTOUHI S, ASADI S, KATTAN M W.

A comprehensive data level analysis for cancer diagnosis on imbalanced data

[J]. Journal of Biomedical Informa-tics, 2019, 90:103089.

[本文引用: 1]

NAMVAR A, SIAMI M, RABHI F, et al.

Credit risk prediction in an imbalanced social lending environment

[J]. International Journal of Computational Intelligence Systems, 2018, 11(1):925-935.

DOI:10.2991/ijcis.11.1.70      URL     [本文引用: 1]

SOLEYMANI R, GRANGER E, FUMERA G.

Progressive boosting for class imbalance and its application to face re-identification

[J]. Expert Systems With Applications, 2018, 101:271-291.

DOI:10.1016/j.eswa.2018.01.023      URL     [本文引用: 1]

LEE T, LEE K B, KIM C O.

Performance of machine learning algorithms for class-imbalanced process fault detection problems

[J]. IEEE Transactions on Semiconductor Manufacturing, 2016, 29(4):436-445.

DOI:10.1109/TSM.2016.2602226      URL     [本文引用: 1]

CHAWLA N V, BOWYER K W, HALL L O, et al.

SMOTE: Synthetic minority over-sampling technique

[J]. Journal of Artificial Intelligence Research, 2002, 16:321-357.

DOI:10.1613/jair.953      URL     [本文引用: 3]

HAN H, WANG W Y, MAO B H.

Borderline-SMOTE: A new over-sampling method in imbalanced data sets learning

[C]//International Conference on Intelligent Computing. Berlin, Heidelberg: Springer Berlin Heidelberg, 2005: 878-887.

[本文引用: 3]

HE H B, BAI Y, GARCIA E A, et al.

ADASYN: Adaptive synthetic sampling approach for imbalanced learning

[C]//2008 IEEE International Joint Conference on Neural Networks. Piscataway, NJ, USA: IEEE, 2008: 1322-1328.

[本文引用: 3]

BARUA S, ISLAM M M, YAO X, et al.

MWMOTE: Majority weighted minority oversampling technique for imbalanced data set learning

[J]. IEEE Transactions on Knowledge and Data Engineering, 2014, 26(2):405-425.

DOI:10.1109/TKDE.2012.232      URL     [本文引用: 3]

DOUZAS G, BACAO F.

Effective data generation for imbalanced learning using conditional generative adversarial networks

[J]. Expert Systems With Applications, 2018, 91:464-471.

DOI:10.1016/j.eswa.2017.09.030      URL     [本文引用: 2]

HE H B, GARCIA E A.

Learning from imbalanced data

[J]. IEEE Transactions on Knowledge and Data Engineering, 2009, 21(9):1263-1284.

DOI:10.1109/TKDE.2008.239      URL     [本文引用: 5]

SUN Y M, KAMEL M S, WONG A K C, et al.

Cost-sensitive boosting for classification of imba-lanced data

[J]. Pattern Recognition, 2007, 40(12):3358-3378.

DOI:10.1016/j.patcog.2007.04.009      URL     [本文引用: 1]

CHAWLA N V, LAZAREVIC A, HALL L O, et al.

SMOTEBoost: Improving prediction of the minority class in boosting

[C]//European Conference on Principles of Data Mining and Knowledge Discovery. Berlin, Heidelberg: Springer Berlin Heidelberg, 2003: 107-119.

[本文引用: 1]

CHEN S, HE H B, GARCIA E A.

RAMOBoost: Ranked minority oversampling in boosting

[J]. IEEE Transactions on Neural Networks, 2010, 21(10):1624-1642.

DOI:10.1109/TNN.2010.2066988      URL     [本文引用: 1]

ZHU J Y, PARK T, ISOLA P, et al.

Unpaired image-to-image translation using cycle-consistent adversarial networks

[C]//2017 IEEE International Conference on Computer Vision. Piscataway, NJ, USA: IEEE, 2017: 2242-2251.

[本文引用: 1]

ZHANG H, XU T, LI H S, et al.

StackGAN: Realistic image synjournal with stacked generative adversarial networks

[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2019, 41(8):1947-1962.

DOI:10.1109/TPAMI.34      URL     [本文引用: 1]

GOODFELLOW I J, POUGET-ABADIE J, MIRZA M, et al. Generative adversarial nets[C]//NIPS'14: Proceedings of the 27th International Conference on Neural Information Processing Systems-Volume 2. Cambridge, MA, USA: MIT Press, 2014: 2672-2680.

[本文引用: 1]

PAN S J, TSANG I W, KWOK J T, et al.

Domain adaptation via transfer component analysis

[J]. IEEE Transactions on Neural Networks, 2011, 22(2):199-210.

DOI:10.1109/TNN.2010.2091281      URL     [本文引用: 1]

LONG M S, WANG J M, DING G G, et al.

Transfer feature learning with joint distribution adaptation

[C]//2013 IEEE International Conference on Computer Vision. Piscataway, NJ, USA: IEEE, 2013: 2200-2207.

[本文引用: 1]

LONG M S, ZHU H, WANG J M, et al.

Deep transfer learning with joint adaptation networks

[C]//ICML'17: Proceedings of the 34th International Conference on Machine Learning-Volume 70. New York, NY, USA: ACM, 2017: 2208-2217.

[本文引用: 1]

DAI W Y, YANG Q, XUE G R, et al. Boosting for transfer learning[C]//Proceedings of the 24th International Conference on Machine Learning-ICML '07. New York: ACM Press, 2007: 193-200.

[本文引用: 1]

王胜涛.

基于迁移过采样的类别不平衡学习算法研究

[D]. 南京: 东南大学, 2017.

[本文引用: 1]

WANG Shengtao.

Research on transfer-sampling based method for class-imbalance learning

[D]. Nanjing: Southeast University, 2017.

[本文引用: 1]

么素素, 王宝亮, 侯永宏.

绝对不平衡样本分类的集成迁移学习算法

[J]. 计算机科学与探索, 2018, 12(7):1145-1153.

[本文引用: 1]

YAO Susu, WANG Baoliang, HOU Yonghong.

Ensemble transfer learning algorithm for absolute imbalanced data classification

[J]. Journal of Frontiers of Computer Science and Technology, 2018, 12(7):1145-1153.

[本文引用: 1]

/