上海交通大学学报, 2022, 56(12): 1638-1648 doi: 10.16183/j.cnki.jsjtu.2021.292

电子信息与电气工程

基于记忆传递旗鱼优化的K均值混合迭代聚类

黄鹤a,b, 熊武a,b, 吴琨a,b, 王会峰b, 茹锋a,b, 王珺,a

a.长安大学 西安市智慧高速公路信息融合与控制重点实验室, 西安 710064

b.长安大学 电子与控制工程学院, 西安 710064

K-means Hybrid Iterative Clustering Based on Memory Transfer Sailfish Optimization

HUANG Hea,b, XIONG Wua,b, WU Kuna,b, WANG Huifengb, RU Fenga,b, WANG Jun,a

b. Xi’an Key Laboratory of Intelligent Expressway Information Fusion and Control, Chang’an University, Xi’an 710064, China

b. School of Electronics and Control Engineering, Chang’an University, Xi’an 710064, China

通讯作者: 王 珺,女,副教授,电话(Tel.): 029-88308121;E-mail:jwang@nwu.edu.cn.

责任编辑: 孙伟

收稿日期: 2021-08-5  

基金资助: 国家重点研发计划(2018YFB1600600)
陕西省重点研发计划(2021SF-483)
陕西省自然科学基础研究计划(2021JM-184)
长安大学中央高校基本科研业务费专项资金项目(300102329401)
长安大学中央高校基本科研业务费专项资金项目(300102329501)
西安市智慧高速公路信息融合与控制重点实验室(长安大学)开放基金项目(300102321502)

Received: 2021-08-5  

作者简介 About authors

黄鹤(1979-),男,河南省南阳市人,教授,博士生导师,主要从事信息融合、图像处理等研究.

摘要

针对现有K均值聚类(KMC)算法受初始化影响较大,随机产生的聚类中心极易使聚类结果陷入局部最优而停止迭代,导致聚类精度低、鲁棒性差的问题,提出一种基于记忆传递旗鱼优化的K均值混合迭代聚类(MTSFO-HIKMC)算法.首先,借鉴已有改进思路,引入最大最小距离积来初始化KMC聚类中心,避免随机初始化带来的不确定性;同时,在迭代过程中,令当前最优解在局部进行自适应记忆传递修正,解决由于旗鱼算法搜索路径单一带来的全局寻优能力差和搜索精度不足的问题.利用Iris、Seeds、CMC和Wine国际标准数据集对MTSFO-HIKMC、旗鱼优化的K均值混合迭代聚类 (SFO-KMC)算法、 引入改进飞蛾扑火的K均值交叉迭代聚类(IMFO-KMC)算法、KMC算法和模糊C均值(FCM)算法进行比较测试,从得到的收敛曲线和性能指标可知,所提出的MTSFO-HIKMC算法相较于IMFO-KMC算法具有更快的收敛速度;在高维度空间较IMFO-KMC算法具有更高的搜索精度;相较于KMC和FCM算法具有更高的搜索精度;相比SFO-KMC算法在收敛速度和搜索精度方面都有明显提升,在高维数据集方面尤其明显.

关键词: 旗鱼算法; 自适应记忆传递修正策略; K均值聚类; 最大最小距离积法; UCI标准数据集

Abstract

Aimed at the problem that the existing K-means clustering (KMC) algorithm is greatly affected by initialization, and the randomly generated clustering center can easily make the clustering result fall into local optimum and stop iterating, resulting in low clustering accuracy and poor robustness, a K-means hybrid iterative clustering algorithm based on memory transfer sailfish optimization (MTSFO-HIKMC) is proposed. First, learning from the existing improvement ideas, the maximum and minimum distance product is introduced to initialize the KMC cluster center, to avoid the uncertainty caused by random initialization. At the same time, in the iterative process, the current optimal solution is made to locally perform adaptive memory transfer correction to solve the problem of poor global optimization ability and insufficient search accuracy caused by the single search path of the sailfish algorithm. Using the Iris, Seeds, CMC and Wine international standard data sets, the MTSFO-HIKMC, the sailfish optimized K-means hybrid iterative clustering (SFO-KMC) algorithm, the introduction of the improved Moth-to-fire K-means cross iterative clustering (IMFO-KMC) algorithm, the KMC algorithm, and the fuzzy C-means (FCM) algorithm are compared and tested. From the obtained convergence curves and performance indicators, it can be seen that the MTSFO-HIKMC algorithm proposed in this paper has a faster convergence speed than IMFO-KMC. Compared with the IMFO-KMC algorithm, the dimensional space has a higher search accuracy. Compared with the KMC algorithm and FCM, it has a higher search accuracy. Compared with the SFO-KMC algorithm, its convergence speed and search accuracy are significantly improved, especially in high-dimensional data sets.

Keywords: sailfish algorithm; adaptive memory transfer correction strategy; K-means clustering (KMC); maximum and minimum distance product; UCI standard data set

PDF (3095KB) 元数据 多维度评价 相关文章 导出 EndNote| Ris| Bibtex  收藏本文

本文引用格式

黄鹤, 熊武, 吴琨, 王会峰, 茹锋, 王珺. 基于记忆传递旗鱼优化的K均值混合迭代聚类[J]. 上海交通大学学报, 2022, 56(12): 1638-1648 doi:10.16183/j.cnki.jsjtu.2021.292

HUANG He, XIONG Wu, WU Kun, WANG Huifeng, RU Feng, WANG Jun. K-means Hybrid Iterative Clustering Based on Memory Transfer Sailfish Optimization[J]. Journal of Shanghai Jiaotong University, 2022, 56(12): 1638-1648 doi:10.16183/j.cnki.jsjtu.2021.292

聚类分析是统计学习领域的重要组成部分[1-2],可以针对不同的对象分析异同,根据数据之间的内在特征,将特征相似度较大的数据样本划分到同一簇.簇内数据相似度和簇间数据的差异性可以反映聚类算法的优劣.K-means聚类(KMC)是使用最广泛的聚类分析算法之一[3],但在实际应用中KMC初始点比较敏感,选取不当会导致聚类结果误差较大[4].针对此问题,K-means++在一定程度上解决了KMC初始化方面的算法缺陷.另一方面,KMC的优化路径过于简单,存在算法早熟的问题.目前常用解决方案是将模拟退火、遗传算法(GA)和群体智能等启发式算法与K-means相结合,解决局部最优的问题[5-6].群体智能方法是一类仿生物行为计算技术,通过模拟蚁群、飞蛾等生物群体行为搜索最优解.基于群体智能的聚类优化是目前的研究热点,广受研究学者的关注[7-8].文献[7]将改进飞蛾扑火算法与KMC算法交叉迭代实现聚类,由于引入样条插值对飞蛾扑火的改进存在一定的局限,插值结果在很多情况下无法对算法结果进行有效优化,导致算法收敛速度变慢.旗鱼优化器(SFO)是于2019年提出的一种新型优化算法[9],具有寻优能力强、收敛快的优点,其灵感来自旗鱼捕食沙丁鱼的过程.SFO根据生物行为构建数学模型,模型由两部分组成:一是对目前为止群体最佳个体的搜索,二是生成多样的沙丁鱼种群.SFO通过多次迭代更新旗鱼和沙丁鱼位置求解最优解.两种鱼的更新方式模拟了仿生学路径,实现捕猎中的快速和高精度搜索,优化效果较好.

本文在改进SFO的基础上,与KMC算法混合迭代,提出了一种基于记忆传递旗鱼优化的K均值混合迭代聚类(MTSFO-HIKMC)算法.首先采用最大最小距离积对KMC进行初始化,解决了传统聚类方法的随机性,减少了聚类初始化耗时.同时,设计了自适应记忆传递优化策略,提出一种记忆传递旗鱼优化方法,有效提升了收敛速度和搜索精度,同时避免陷入局部最优.

1 KMC算法的不足

KMC可以将数据集按照不同的类别划分成多个子集,具体步骤如下:① 从n个数据中选取k个对象作为初始聚类中心{Ci}; ② 计算每个数据到k个初始聚类中心的欧氏距离,根据距离最小原则重新分类数据;③ 计算聚类簇的各个维度平均值,得到新的中心.重复步骤②和③,直到聚类中心不再发生改变或聚类中心发生偏移的距离均小于设定阈值,输出该数据集的聚类中心.

从聚类过程可知,初始聚类中心选择不当会陷入局部最优.聚类中心Cj的计算公式为

Cj=1Cji=1nxi, j=1, 2, , k

聚类中心Cj与样本数据xi的欧氏距离计算为

d(xi,Cj)=k=1d(xik-Cjk)2

式中:d为聚类中心个数.

因此,KMC的初始化具有随机性,可能会将噪声或异值作为初始中心,导致每次聚类结果相差较大,算法鲁棒性较差[10].同时,简单的更新过程会导致KMC陷入局部最优.

2 MTSFO算法

2.1 SFO算法

2.1.1 初始化

SFO的初始化是在给定的搜索空间内随机初始化,包括旗鱼和沙丁鱼的初始化.旗鱼种群和沙丁鱼种群分别用XSFXF表示.XBSFXBS是初始化后适应度值最好的旗鱼和沙丁鱼个体.在一个搜索空间内,随机初始化沙丁鱼和旗鱼的比例可以根据数据集的选择进行一定程度的调整,并按照优化函数进行适应度排序,得到最优种群.

设鱼群矩阵M大小为(a, w),则有

M=f11f12f1wf21f22f2w fa1fa2faw

式中:f11为第1只旗鱼在第1维变量空间的位置;w为搜索空间的特征数,即搜索空间的维数;a为旗鱼和沙丁鱼的总数.假设旗鱼和沙丁鱼的种群比例为3∶7,则旗鱼数量为0.3a,沙丁鱼数量为0.7a.

旗鱼的适应度矩阵FSF大小为(0.3a, 1),表示为

FSF=fsf1fsf2fsf0.3aT

式中:fsfp为第p只旗鱼的适应度值.

沙丁鱼的适应度矩阵FS大小为(0.7n, 1),表示为

FS=s1s2s0.7aT

式中: sq 为第q只沙丁鱼的适应度值.FSF 和FS 矩阵为两种鱼群适应度排序之后的结果,这说明沙丁鱼s1 是鱼群M在当前迭代搜索中的最优解.

2.1.2 旗鱼位置更新机制

更新机制主要可分为旗鱼的追捕过程和沙丁鱼的逃脱引起的位置更新.

(1) 围猎追捕过程.设适应度最好的个体为头鱼,旗鱼依据旗鱼头鱼和沙丁鱼头鱼位置进行空间位置更新,向两种头鱼渐进靠拢,听从头鱼指挥不断更新位置.定义旗鱼位置更新机制为

XNSFi=XBSFi-λi×rand(0, 1)XBSFi+XBSi2-XOSFi

式中:XNSFi为更新后的旗鱼位置;λi为每次更新的步长大小;XBSFi为当前迭代i次时旗鱼头鱼的位置;XBSi为当前迭代i次时沙丁鱼头鱼的位置;XOSFi为上次迭代时的旗鱼位置.步长定义为

λi=2rand(0, 1)PD-PD

式中:PD为猎物群的密度,表示为

PD=1-NSFNS+NSF

式中:NSFNS分别为旗鱼和沙丁鱼的数量.

(2) 沙丁鱼的位置更新.沙丁鱼的位置更新表达式为

XNSi=r(XBSFi-XOSi+AP)

式中:XNSi为更新后的沙丁鱼位置;r为步长系数;XOSi为在当前迭代次数时沙丁鱼的最佳位置;AP为旗鱼的攻击力度,计算方式为

AP=A(1-2ie)

式中: A为力度系数,控制旗鱼攻击力度,A从最大值线性递减到0;e为方向系数,调整旗鱼前进方向.当AP0.5时,利用式(9)更新沙丁鱼全部位置;当AP<0.5,更新沙丁部分位置,定义为

α=NSAP
β=dAP

式中:α为本次迭代需要更新的沙丁鱼数量;β为本次迭代需要更新的维度数量.

SFO算法流程如下.

(1) 初始化种群和参数.

(2) 计算旗鱼和沙丁鱼的适应度值,并记录最优适应度值和位置.

(3) 分别更新旗鱼、沙丁鱼位置.如果攻击力度A<0.5,计算α,β的值,并且更新部分沙丁鱼位置;否则,更新全部沙丁鱼位置.

(4) 沙丁鱼、旗鱼位置替换.

(5) 计算所有适应度值,并更新记录最优适应度值和位置.

(6) 判断是否满足迭代停止条件,如果满足则输出结果,否则重复流程(2)~(6).

2.2 改进算法

SFO受限于线性的搜索路径,因此搜索精度有限[6].借鉴生物繁衍进化的基本逻辑,提出一种基于记忆传递旗鱼优化算法,设计自适应记忆传递修正策略优化SFO的搜索路径,以加快其收敛速度,提高聚类精度.

2.2.1 自适应记忆传递修正策略

群体智能优化中引入样条插值是目前的研究热点[1],利用历史最优结果进行插值预测,得到优化路径上的未来最优点,并与更新群体智能得到的最优点进行比较,加快迭代速度.然而,考虑到历史最优点受到复杂搜索路径带来的随机性影响,插值结果与真实优化路径通常相差较大,在高维度时尤其明显,预测结果往往不能对最优点进行有效更新.因此,提出一种自适应记忆传递修正策略,修正策略基本过程分为种群繁衍和自然选择.种群繁衍过程为种群遵循父代优秀基因,产生大量携带有优秀基因的个体;自然选择过程为通过人为设计的自然规律淘汰基因不够优秀的个体,筛选出具有最优基因的子代.结合SFO的特点,设计记忆因子使旗鱼群产生子代,以子代个体适应度函数作为衡量旗鱼子代基因优劣的唯一标准, 从中选拔出最优子代,比较最优子代和父代头鱼之间的基因优劣,通过二次择优得到新的旗鱼种群,修正策略步骤如下.

(1) 确定记忆传递算子产生的子代鱼苗的数量和鱼苗群的半径,表达式为

S=mfmaxfkfmink=1Nfk
A1=σfk-fmink=1N(fk-fmin)

式中:N为种群数量;fk为鱼群个体;fmaxfmin分别为当前鱼群适应度最好和适应度最差的个体;m为种群繁衍能力,决定了一个种群产生有效个体的数量,在本文中特指最优父代个体产生子代的数量;σ为记忆因子遗传过程中产生基因变异的剧烈幅度.σ越大,子代与父代个体相似性越小,算法的全局搜索能力越强;σ越小,子代个体与父代个体相似性越大,算法搜索精度越高.父代最优基因个体产生鱼苗的过程是通过在各个维度产生服从均匀分布的随机偏移量获得新的鱼苗,增加算法的多样性.图1为记忆传递算子产生鱼苗示意图.SFO在产生的不同鱼苗之间跳跃,寻找最优子代,对当前旗鱼鱼群进行修正,达到二次优化的效果.其中,Fmax为当前迭代过程中旗鱼个体;Fr为以父代旗鱼个体作为中心点通过记忆传递算子产生的鱼苗位置.

图1

图1   记忆传递算子

Fig.1   Memory transfer operator


鱼苗个数取决于父代旗鱼个体基因对环境的适应性,对环境适应更好的个体产生更多的子代个体.鱼苗位置在空间上服从均匀分布,记忆传递规则定义为

P(Fr)=1A1,-A1Fr-μA10,

式中:μFmax的向量表示.为了平衡算法的搜索能力和搜索精度,采用自适应的σ定义不同迭代时期的变异剧烈程度,计算方式定义为

σi=h(imax-i)imax

式中:imax为最大迭代次数;h为记忆算子初始阶段的变异幅度.记忆因子可以有效增强SFO的全局搜索能力和局部搜索精度,具体流程如图2所示.

图2

图2   改进旗鱼算法流程图

Fig.2   Flow chart of improved sailfish algorithm


MTSFO算法伪代码:

输入: 数据集、聚类数目

输出:聚类中心、分类结果、适应度值

初始化参数

While 不满足终止条件

更新沙丁鱼群和旗鱼鱼群

判断鱼群超出边界:

将样本边界外的值设置为边界值.

结束判断

旗鱼遍历

计算适应度值

结束遍历

沙丁鱼遍历

计算适应度值

结束遍历

按照适应度值对旗鱼和沙丁鱼进行排序

XBSF = 最优适应度旗鱼

XBS = 最优适应度沙丁鱼

更新旗鱼位置

更新沙丁鱼位置

Bp = XBSF

用过适应度值计算SA1的值

While 迭代次数小于S

根据 Bp 的位置产生旗鱼后代.

判断后代个体的适应度值优于 Bp

由相应后代个体取代Bp的位置.

结束判断

End while

End while

输出:聚类中心、分类结果、适应度值

2.2.2 适应度函数选择

适应度函数决定了优化群体进化的方向,直接影响种群算法的优化效果和解的质量[11-12].为使MTSFO更好地优化聚类中心,提升聚类效果,本文采用的适应度函数为文献[7]采用的适应度函数的变体形式,不再以某一类适应度作为评价指标,采用不同簇内适应度总和作为全局适应度去指导算法收敛,适应度函数为

AD=j=1kLj
Lj=i=1Nd(xi,Cj)Nj

式中:AD;Lj为一个种群的适应度;dxi,Cj为第j簇内的全体样本到该簇聚类中心的距离之和;Njj簇中的样本数量.从适应度函数可知,当前聚类结果的适应度不仅与每个类别所有样本点到该簇聚类中心有关,也与该类样本数有关,反映的是该簇所有样本点到该聚类中心欧氏距离的均值大小.

3 MTSFO算法与KMC算法的混合迭代

3.1 最大最小距离积优化

采用最大最小距离积方法对KMC进行优化,选取密度较大且分布较稀疏的初始点代替原始算法随机选取初始点,避免初始点选取不当造成的聚类误差[13-14],改进初始化的步骤如下.

(1) 从数据集M中随机选取1个样本点作为第1个初始点Z1,加入集合Z并从M中删除.

(2) 计算更新后M中所有元素到Z1 的距离,选取距离Z1 最大的元素为Z2.

(3) 将Z2 加入集合Z并从M中删除.

(4)分别计算更新后M中元素到Z中各个元素的距离,并存入距离矩阵DTemp中.(5)找出M中每个元素对应DTemp中的最大距离和最小距离值,求其乘积,并将最大乘积值对应的元素从M中删除,存入集合Z中.若Z中元素个数小于k,转到步骤(3);若Z中元素个数等于k,则初始点选取结束,输出包含k个初始点集合Z,即为得到的初始点.Z表达式为Z=C1C2CkT,Z初始时是空集,用来存储由最大最小积得到的k个初始点.DTemp存储Z中各元素到M中各个元素距离的数组.

通过以上步骤可以完成最大最小距离积的初始化,得到的初始聚类中心避免了随机初始化引起的初始误差过大问题,有效减少聚类耗时.

3.2 混合迭代

KMC算法通过迭代求各个维度均值的方法获得聚类中心,其不足在于更新方法过于简单,容易陷入局部最优,导致优化精度过低.利用MTSFO的优化路径替代KMC的优化路径,实现MTSFO与KMC的混合迭代,扩大寻优范围,避免陷入局部最优的同时提高搜索精度.实验证明,此方法能较大提高算法优化效率,主程序流程图如图3所示,算法的基本步骤描述如下.

图3

图3   主程序流程图

Fig.3   Flow chart of main program


(1) 输入数据集M,根据数据集类别的个数确定该数据集中类的个数k.

(2) 用最大最小距离积法初始化每个类的中心点.

(3) 计算数据集M中的每个样本点到各个聚类中心的欧氏距离,按数值大小进行排序,将样本点所属类别归于最小欧氏距离的聚类中心.

(4) 使用KMC算法确定每个样本的类别.

(5) 在每个类别的鱼群中通过MTSFO进行寻优操作,得到新的聚类中心.若新得到的聚类中心适应度优于上次迭代的聚类中心,用新的聚类中心代替历史聚类中心.判断当前迭代是否达到结束条件,若未达到结束条件则执行步骤 (4),否则循环结束,输出寻优结果,结束程序.

4 实验结果分析与应用

硬件实验平台为i5-6300HQ处理器、GTX-960显卡、12 GB内存的计算机,软件平台为VS Code.

4.1 算法性能评价

为评价MTSFO-HIKMC的改进效果,将MTSFO-HIKMC与IMFO-KMC[7]K-means++[15]和模糊C均值算法[16]应用到国际标准数据集Iris、Seeds、CMC和Wine中比较性能优劣.算法参数设置如下:每种聚类算法的最大迭代次数都取30次,旗鱼鱼群大小设置为30,旗鱼与沙丁鱼的数量比例设置为7∶3,模糊C均值聚类中的权重指数取2.0.Iris、Seeds、CMC和Wine这4种UCI国际通用测试数据库中的数据集主要特征如表1所示.

表1   标准数据集特征

Tab.1  Characteristics of standard data set

数据集ndk3类样本数
Iris15043(50, 50, 50)
Seeds21073(70, 70, 70)
CMC147393(629, 333, 511)
Wine178133(59, 71, 48)

注:3类样本分别如下,Iris包括山鸢尾、杂色鸢尾和维吉尼亚鸢尾;Seeds包括Kama、Rosa和Canadian 3种小麦品种的籽粒;CMC包括不使用、长期和短期使用避孕方法;Wine包括葡萄酒品种 1~3.

新窗口打开| 下载CSV


MTSFO-HIKMC改进方法分为初始化算法改进和搜索路径优化.为体现不同改进思路对算法起到的作用,利用消融实验分别对算法不同层面的改进进行测试,并与其他算法进行比较,以体现不同改进方法对算法产生的影响.

4.1.1 实验一:初始化改进效果评价

为评估最大最小距离积对算法起到的优化效果,采取消融实验分别对初始化优化和搜索路径优化进行实验以验证效果.图4为本文使用的适应度函数来评价IMFO-KMC、K-means++、FCM和结合最大最小距离积的旗鱼K均值混合迭代(SFO-HIKMC)算法的实验结果.从损失衰减数据可知,最大最小距离积法在初始化聚类算法方面有较好的优势,初始点的损失远低于未经过初始化优化的FCM算法,使得优化算法节约起始阶段的迭代次数,对聚类效率有较为明显的提升.从图4可知,适应度衰减曲线明显没有达到最优,尤其在对高维数据集CMC和Wine进行聚类时,最终适应度远高于经典的FCM算法,聚类结果距离数据集最优解还有较远的距离,分析原因是搜索路径单一,聚类结果陷入局部最优导致.

图4

图4   实验一中不同算法在4种数据集上的运行结果

Fig.4   Running results of different algorithms on 4 data sets (Experiment 1)


4.1.2 实验二:搜索路径改进效果评价

分析上述实验结果可知,通过最大最小距离积改进的算法能够在一个适应度较低的位置开始收敛,使算法能够通过更少的迭代次数收敛到全局最优.但是容易陷入局部最优解,优化精度不足,这与算法本身的搜索路径单一、没有足够能量冲出局部低洼地带有关[17].在实验一的基础上通过自适应记忆传递优化算法对原始搜索路径进行优化得到MTSFO-HIKMC 算法,并与其他几种算法进行对比实验,以验证自适应记忆传递优化策略对聚类算法的优化效果.图5所示为IMFO-KMC、K-means++、FCM和MTSFO-HIKMC算法对不同数据集进行聚类的适应度衰减曲线.由图5可知,在实验一已经陷入局部的SFO-HIKMC算法可以多次跳出局部最优,达到更高的聚类精度.

图5

图5   实验二中不同算法在4种数据集上的运行结果

Fig.5   Running results of different algorithms on 4 data sets (Experiment 2)


表2为搜索路径改进前后的算法最终适应度.可知,改进后的算法相较于改进前的算法适应度均有大幅度下降,证明本文改进思路具有实用性.

表2   各类算法在不同数据集上的适应度

Tab.2  Adaptability of different algorithms on different data sets

数据集算法适应度
IrisIMFO-KMC96.4719
K-means++97.3617
FCM97.3580
MTSFO-HIKMC96.4351
SeedsIMFO-KMC312.0161
K-means++313.3064
FCM313.7096
MTSFO-HIKMC311.9355
CMCIMFO-KMC5532.8767
K-means++5545.7534
FCM5542.1917
MTSFO-HIKMC5532.6027
WineIMFO-KMC16448.5294
K-means++16941.1765
FCM16566.1765
MTSFO-HIKMC16419.1177

新窗口打开| 下载CSV


为更客观评价MTSFO-HIKMC改进效果,采用Acc、ARI和NMI共3种评价指标对不同聚类算法进行评估[18-19].其中,Acc表示聚类的准确率,即比较聚类结果是否和真实结果的一致性;ARI为调整兰德系数,用于衡量两个数据分布的吻合程度,值越大表示计算结果与真实值更相似;NMI为归一化互信息,用来表示两组数据之间的关联程度.

表3列出了3种算法实验得到的评价指标,该数据由10次独立实验数据求均值得到.从表中可知,MTSFO-HIKMC在Iris数据集上测得的Acc指标和IMFO-KMC相等且高于K-means++和FCM算法.在Wine数据集测得Acc指标高于其他3种算法.在Seeds和Wine数据集中,MTSFO-HIKMC的ARI指标相较于其他算法均有不同程度提升.可见,MTSFO-HIKMC相较于另外3种算法,在聚类精确度和聚类结果与真实情况的吻合程度方面具有一定优势.

表3   不同算法在4个数据集上的实验结果

Tab.3  Experimental results of different algorithms on 4 data sets

数据集算法AccARINMI
IrisIMFO-KMC0.894 30.743 70.763 6
K-means++0.885 20.721 80.716 3
FCM0.893 10.729 60.759 8
MTSFO-HIKMC0.894 30.732 50.755 9
SeedsIMFO-KMC0.895 40.716 50.703 3
K-means++0.892 40.712 90.693 1
FCM0.894 30.714 60.694 2
MTSFO-HIKMC0.895 20.716 60.694 9
CMCIMFO-KMC0.712 30.371 20.425 5
K-means++0.566 30.365 10.418 1
FCM0.700 20.368 70.420 0
MTSFO-HIKMC0.707 90.371 50.420 6
WineIMFO-KMC0.707 90.371 50.419 3
K-means++0.651 80.349 20.403 1
FCM0.696 60.360 20.405 2
MTSFO-HIKMC0.709 10.361 20.410 5

新窗口打开| 下载CSV


表4为4种算法在不同数据集单次迭代所需时间.其中,K-means++和FCM算法单次迭代时间优于MTSFO-HIKMC,而MTSFO-HIKMC消耗的时间成本相较于IMFO-KMC算法在4种测试数据集都有不同程度提升.在数据集CMC和Iris中,MTSFO-HIKMC的单次迭代时间相较于IMFO-KMC算法分别节省了7.82%和6.27%.可见,自适应记忆传递优化策略在提高搜索精度、增强全局搜索能力的同时,造成一定程度上时间成本的增加,但相较于收敛精度相似的IMFO-KMC算法,仍具有一定优势.

表4   各类算法在不同数据集单次迭代时间

Tab.4  Single iteration time of different algorithms in different data sets

数据集算法单次迭代时间/s
IrisIMFO-KMC0.035 1
K-means++0.004 2
FCM0.005 5
MTSFO-HIKMC0.032 9
SeedsIMFO-KMC0.170 9
K-means++0.006 4
FCM0.007 8
MTSFO-HIKMC0.164 7
CMCIMFO-KMC0.281 3
K-means++0.035 1
FCM0.062 7
MTSFO-HIKMC0.259 3
WineIMFO-KMC0.033 5
K-means++0.004 5
FCM0.009 7
MTSFO-HIKMC0.031 9

新窗口打开| 下载CSV


分析上述实验结果可知,KMC算法思路简单、聚类精度低、初始聚类中心的随机选取导致算法稳定性差;FCM算法中引入模糊控制的概念,使用模糊聚类算法,使得迭代曲线趋于平滑.但是仍旧存在初始点选取随机性的问题,不仅增加了算法达到全局最优解的迭代次数,而且得到的聚类中心精度不高.IMFO-KMC受限于改进方法,收敛速度提高有限,相较于MTSFO-HIKMC需要更多次迭代去收敛才能达到足够精度;而MTSFO-HIKMC通过最大最小距离积的初始化,减少了到达最优位置的迭代次数,实验一和实验二也证明了自适应记忆传递优化策略使得聚类算法具有较强的全局搜索能力,使聚类算法不易陷入局部最优解,稳定性较强.由表4可知,MTSFO-HIKMC单次迭代算法相较于类似算法具有一定的先进性.由此,可以得出以下结论:MTSFO-HIKMC聚类精度高于传统K-means++算法和FCM算法,在高维数据聚类精度高于IMFO-KMC算法,而在低维数据聚类效果与IMFO-KMC算法接近.在迭代次数和单次迭代所花费的时间成本小于IMFO-KMC算法.本文改进算法具有一定的优越性,在预处理高维数据和实时性要求较高的场合具有较高的实用性.

4.2 测试函数上的性能指标

为了对MTSFO-HIKMC的收敛性有一个更加清晰、直观的了解,分别采用Sphere、Ackley、Three-hump camel、Levy和Bukin函数对MTSFO-HIKMC算法进行测试,并绘制其收敛曲线以直观反映其收敛性能.其中,Sphere和Ackley函数选择在30个维度下进行收敛测试,以反映其高维适应能力,而Three-hump camel、Levy和Bukin这3个函数具有多个局部最优[20],用以测试MTSFO-HIKMC算法跳出局部最优的能力.图6为各收敛函数在三维可视化图像.

图6

图6   测试函数

Fig.6   Test function


图7为MTSFO-HIKMC在5个测试函数迭代60次的收敛情况.可知,在多峰函数上优化算法较早脱离局部最优,在6次迭代完成均已收敛到全局最优;在高维情况下的表现也较好,在30维的Ackley函数上出现3次跳出局部最优的情况,最终收敛于全局最优.由此可知,MTSFO-HIKMC算法在全局寻优能力有较好的表现.

图7

图7   5类测试函数的运行结果

Fig.7   Running results of 5 types of test functions


表5为MTSFO-HIKMC算法在5个测试函数上的收敛精度,数据为30次实验取得的均值.其中,MTSFO-HIKMC在高维数据和多峰函数搜索精度较高,尤其是在具有多个局部最优解的Bukin函数上,搜索精度依然非常高.可知,自适应记忆传递优化策略针对跳出局部最优的性能较强.

表5   MTSFO-HIKMC在5类测试函数上的精度

Tab.5  Accuracy of MTSFO-HIKMC on 5 types of test functions

序号测试函数精度
1Sphere5.358×10-7
2Ackley1.493×10-6
3Three-hump Camel2.812×10-7
4Levy6.815×10-6
5Bukin8.763×10-8

新窗口打开| 下载CSV


5 结语

提出一种基于记忆传递旗鱼优化的K均值混合迭代聚类方法.首先通过最大最小距离积进行初始化KMC,然后利用自适应记忆传递修正策略改进SFO算法,提升了全局寻优能力和搜索精度,减少了由于SFO初始化误差较大造成的初始阶段多余的迭代次数,最后设计了MTSFO算法与KMC算法的混合迭代,提高了聚类精度,加快了收敛速度,应用价值明显.

参考文献

杨恺, 黄树成.

融合K-means和RBF神经网络的汉字识别算法

[J]. 计算机与数字工程, 2021, 49(7): 1286-1289.

[本文引用: 2]

YANG Kai, HUANG Shucheng.

Chinese character recognition algorithm based on K-means and RBF neural network

[J]. Computer & Digital Engineering, 2021, 49(7): 1286-1289.

[本文引用: 2]

GUO Z Z, SHI Y, HUANG F M, et al.

Landslide susceptibility zonation method based on C5.0 decision tree and K-means cluster algorithms to improve the efficiency of risk management

[J]. Geoscience Frontiers, 2021, 12(6): 101249.

DOI:10.1016/j.gsf.2021.101249      URL     [本文引用: 1]

陈湘中, 万烂军, 李泓洋, .

基于蚁群优化K均值聚类算法的滚轴故障预测

[J]. 计算机工程与设计, 2020, 41(11): 3218-3223.

[本文引用: 1]

CHEN Xiangzhong, WAN Lanjun, LI Hongyang, et al.

Rolling bearing fault prediction based on ant colony optimization K-Means clustering algorithm

[J]. Computer Engineering and Design, 2020, 41(11): 3218-3223.

[本文引用: 1]

马健.

基于改进的K-means算法初始化方法研究

[J]. 云南民族大学学报(自然科学版), 2020, 29(3): 274-278.

[本文引用: 1]

MA Jian.

An initialization method based on an improved K-means algorithm

[J]. Journal of Yunnan Minzu University (Natural Sciences Edition), 2020, 29(3): 274-278.

[本文引用: 1]

王述红, 朱宝强, 王鹏宇.

模拟退火聚类算法在结构面产状分组中的应用

[J]. 东北大学学报(自然科学版), 2020, 41(9): 1328-1333.

[本文引用: 1]

WANG Shuhong, ZHU Baoqiang, WANG Pengyu.

Application of simulated annealing clustering algorithm in grouping of discontinuity orientation

[J]. Journal of Northeastern University (Natural Science), 2020, 41(9): 1328-1333.

[本文引用: 1]

李勇, 赵杰.

一种用于彩色图像分割的GA-K-Means方法

[J]. 科学技术与工程, 2020, 20(32): 13309-13316.

[本文引用: 2]

LI Yong, ZHAO Jie.

A method based on GA-K-means for segmentation to color image

[J]. Science Technology and Engineering, 2020, 20(32): 13309-13316.

[本文引用: 2]

黄鹤, 李昕芮, 吴琨, .

引入改进飞蛾扑火的K均值交叉迭代聚类算法

[J]. 西安交通大学学报, 2020, 54(9): 32-39.

[本文引用: 4]

HUANG He, LI Xinrui, WU Kun, et al.

Hybrid ite-rative K-means clustering with improved moth-flame optimization

[J]. Journal of Xi’an Jiaotong University, 2020, 54(9): 32-39.

[本文引用: 4]

HADI M S, ALI S K, FADZILAN M F, et al.

Modelling of flexible beam based on ant colony optimization and cuckoo search algorithms

[J]. Journal of Vibroengineering, 2021, 23(4): 810-822.

DOI:10.21595/jve.2020.21730      URL     [本文引用: 1]

SHADRAVAN S, NAJI H R, BARDSIRI V K.

The Sailfish Optimizer: A novel nature-inspired metaheuristic algorithm for solving constrained engineering optimization problems

[J]. Engineering Applications of Artificial Intelligence, 2019, 80: 20-34.

DOI:10.1016/j.engappai.2019.01.001      URL     [本文引用: 1]

SINGH P, PRAKASH S.

Optical network unit placement in Fiber-Wireless (FiWi) access network by Moth-Flame optimization algorithm

[J]. Optical Fiber Technology, 2017, 36: 403-411.

DOI:10.1016/j.yofte.2017.05.018      URL     [本文引用: 1]

刘振宇, 宋晓莹.

一种可用于分类型属性数据的多变量决策树算法

[J]. 东北大学学报(自然科学版), 2020, 41(11): 1521-1527.

[本文引用: 1]

LIU Zhenyu, SONG Xiaoying.

An applicable multivariate decision tree algorithm for categorical attribute data

[J]. Journal of Northeastern University (Natural Science), 2020, 41(11): 1521-1527.

[本文引用: 1]

李伟琨, 阙波, 王万良, .

基于多目标飞蛾算法的电力系统无功优化研究

[J]. 计算机科学, 2017, 44 (Sup.2): 503-509.

[本文引用: 1]

LI Weikun, QUE Bo, WANG Wanliang, et al.

Multi-objective moth-flame optimization algorithm based optimal reactive power dispatch for power system

[J]. Computer Science, 2017, 44 (Sup.2): 503-509.

[本文引用: 1]

李建美, 高兴宝.

基于自适应变异的混沌粒子群优化算法

[J]. 计算机工程与应用, 2016, 52(10): 44-49.

[本文引用: 1]

粒子群优化算法参数少,寻优速度快,但其寻优效率低且在寻优后期易早熟收敛。为改善其寻优性能,在标准粒子群优化算法中,通过引入混沌映射和自适应变异策略,提出具有自适应变异的混沌粒子群优化(ACPSO)算法,以增强种群的全局寻优性能和局部寻优效率。六个基准测试函数的仿真结果表明,ACPSO算法比已有的五个算法具有更好的寻优能力。

LI Jianmei, GAO Xingbao.

Chaotic particle swarm optimization algorithm with adaptive mutation

[J]. Computer Engineering and Applications, 2016, 52(10): 44-49.

[本文引用: 1]

Basic particle swarm optimization algorithm has fewer parameters and fast optimization speed, but it suffers some drawbacks such as low optimization efficiency and falling easily into local optimal point in the optimization process. To improve the global optimization performance and local optimization efficiency of particle swarm optimization algorithm, this paper proposes a chaotic particle swarm optimization algorithm with adaptive mutation (ACPSO) by introducing a chaotic mapping and an adaptive strategy. Compared to five existing algorithms, numerical results on six benchmark test functions indicate that ACPSO algorithm has better performance.

张滨丽, 卞兴超.

改进蚁群优化算法的最优物流配送路径设计

[J]. 现代电子技术, 2020, 43(9): 105-108.

[本文引用: 1]

ZHANG Binli, BIAN Xingchao.

An optimal logistics distribution path design based on improved ant colony optimization

[J]. Modern Electronics Technique, 2020, 43(9): 105-108.

[本文引用: 1]

NIU L D, XIONG L R.

Optimisation and application research of ant colony algorithm in vehicle routing problem

[J]. International Journal of Computing Science and Mathematics, 2021, 13(2): 177.

DOI:10.1504/IJCSM.2021.114177      URL     [本文引用: 1]

TIAN H.

Research on robot optimal path planning method based on improved ant colony algorithm

[J]. International Journal of Computing Science and Mathematics, 2021, 13(1): 80-92.

DOI:10.1504/IJCSM.2021.114182      URL     [本文引用: 1]

张保东, 张亚楠, 郭黎明, .

基于交叉算子和非均匀变异算子的飞蛾扑火优化算法

[J]. 计算机与数字工程, 2020, 48(11): 2622-2627.

[本文引用: 1]

ZHANG Baodong, ZHANG Yanan, GUO Liming, et al.

Moth-flame optimization algorithm based on crossover operator and non-uniform mutation operator

[J]. Computer & Digital Engineering, 2020, 48(11): 2622-2627.

[本文引用: 1]

YU J, YOU X M, LIU S.

Dynamic reproductive ant colony algorithm based on piecewise clustering

[J]. Applied Intelligence, 2021, 51(12): 8680-8700.

DOI:10.1007/s10489-021-02312-7      URL     [本文引用: 1]

ZOU P, RAJORA M, LIANG S Y.

Multimodal optimization of permutation flow-shop scheduling problems using a clustering-genetic-algorithm-based approach

[J]. Applied Sciences, 2021, 11(8): 3388.

DOI:10.3390/app11083388      URL     [本文引用: 1]

LIU S L, ZHANG Z Q, GUAN C, et al.

An improved fireworks algorithm for the constrained single-row facility layout problem

[J]. International Journal of Production Research, 2021, 59(8): 2309-2327.

DOI:10.1080/00207543.2020.1730465      URL     [本文引用: 1]

/