基于Gaussian混合的距离度量学习数据划分方法

郑德重, 杨媛媛, 谢哲, 倪扬帆, 李文涛

Data Splitting Method of Distance Metric Learning Based on Gaussian Mixed Model

ZHENG Dezhong, YANG Yuanyuan, XIE Zhe, NI Yangfan, LI Wentao

上海交通大学学报 . 2021, (2): 131 -140 . DOI: 10.16183/j.cnki.jsjtu.2020.082

概率密度函数

文章位置

机器学习算法常常将数据转换到合适的度量空间，然后使用聚类算法来衡量两者之间的相似性．Alonso^[16]和Silva等^[17]使用 Gaussian混合聚类模型通过对数据进行距离估计来补充缺失数据．还有研究人员将Gaussian混合模型与深度编码器组合在一起，通过深度编码器将样本投射到另一个空间，保留其中异常检测所需的关键信息，将Gaussian混合模型用于估计和检测异常数据^[18-20]．由于Gaussian混合模型在高维空间中对于样本的分布和相似表示方面具有良好的性能，所以使用Gaussian混合模型来估计样本在高维嵌入空间中的分布．样本的分布特点可以通过其似然概率来描述，然后通过这种分布估计来进行分层采样以获得更好的数据划分．Gaussian混合模型由M个加权Gaussian概率密度函数和所形成的模型，可表示为

式中： X 为d维连续矢量(即测度或特征向量)；λ=(μ ₁，…，μ _M， Σ ₁，…， Σ _M，ω ₁，…，ω _M)为超参数；ω _i为第i个分布的混合权重系数，且满足，(i=1，2，…，M)；g( X |μ _i， Σ _i)(i=1，2，…，M)为Gaussian概率密度分量；μ _i为向量均值； Σ _i为协方差矩阵．每个Gaussian概率密度函数都是d维Gaussian函数，可表示为

模态框（Modal）标题

概率密度函数