上海交通大学学报(自然版), 2021, 55(5): 586-597 doi: 10.16183/j.cnki.jsjtu.2020.187

基于变分推断和元路径分解的异质网络表示方法

袁铭, 刘群,, 孙海超, 谭洪胜

重庆邮电大学 计算机科学与技术学院, 重庆 400065

A Heterogeneous Network Representation Method Based on Variational Inference and Meta-Path Decomposition

YUAN Ming, LIU Qun,, SUN Haichao, TAN Hongsheng

College of Computer Science and Technology, Chongqing University of Posts and Telecommunications, Chongqing 400065, China

通讯作者: 刘 群,女,教授,博士生导师,电话(Tel.):13908322889;E-mail:liuqun@cqupt.edu.cn.

责任编辑: 石易文

收稿日期: 2020-06-18  

基金资助: 国家自然科学基金重点项目(61936001)
国家自然科学基金(61772096)
国家重点研发计划(2016QY01W0200)

Received: 2020-06-18  

作者简介 About authors

袁铭(1996-),男,重庆市人,硕士生,主要研究方向为网络表示学习. 。

摘要

针对异质网络表示中传统元路径随机游走无法准确描述异质网络结构,不能较好地捕捉网络节点内在的真实分布问题,提出基于变分推断和元路径分解的异质网络表示方法HetVAE.该方法先结合路径相似度的思想,设计了一种节点选择策略对元路径随机游走进行改进,再通过引入变分理论对原始分布中的潜在变量进行有效采样.最后,通过设计个性化的注意力机制,对由分解获得的不同子网络的节点向量表示进行加权,再将其进行融合,使最终的节点向量表示具有更丰富的语义信息.通过在DBLP、AMiner、Yelp 这3个真实数据集上进行多组不同网络任务的实验,验证了模型的有效性.在节点分类和节点聚类任务上,与对比算法相比,微观F1值和标准化互信息分别提升了1.12%~4.36%和1.35%~18%,表明HetVAE能够有效地表征异质网络结构,学习出更符合真实分布的节点向量表示.

关键词: 异质网络; 网络表示; 变分自编码器; 随机游走; 注意力机制

Abstract

Aimed at the problem that the traditional meta-path random walk in heterogeneous network representation cannot accurately describe the heterogeneous network structure and cannot capture the true distribution of network nodes well, a heterogeneous network representation method based on variational inference and meta-path decomposition is proposed, which is named HetVAE. First, combining with the idea of path similarity, a node selection strategy is designed to improve the random walk of the meta-path. Next, the variational theory is introduced to effectively sample the latent variables in the original distribution. After that, a personalized attention machanism is implemented, which weights the node vector representation of different sub-networks obtained by decomposition. Then, these node vectors are fused by the proposed model, so that the final node vector representation can have richer semantic information. Finally, several experiments on different network tasks are performed on the three real data sets of DBLP, AMiner, and Yelp. The effectiveness of the model is verified by these results. In node classification and node clustering tasks, compared with some state-of-the-art algorithms, the Micro-F1 and normalized mutual information (NMI) increase by 1.12% to 4.36% and 1.35% to 18% respectively. It is proved that HetVAE can effectively capture the heterogeneous network structure and learn the node vetcor representation that conforms more with the true distribution.

Keywords: heterogeneous network; network representation; variational autoencoder; random walk; attention mechanism

PDF (3660KB) 元数据 多维度评价 相关文章 导出 EndNote| Ris| Bibtex  收藏本文

本文引用格式

袁铭, 刘群, 孙海超, 谭洪胜. 基于变分推断和元路径分解的异质网络表示方法[J]. 上海交通大学学报(自然版), 2021, 55(5): 586-597 doi:10.16183/j.cnki.jsjtu.2020.187

YUAN Ming, LIU Qun, SUN Haichao, TAN Hongsheng. A Heterogeneous Network Representation Method Based on Variational Inference and Meta-Path Decomposition[J]. Journal of shanghai Jiaotong University, 2021, 55(5): 586-597 doi:10.16183/j.cnki.jsjtu.2020.187

网络表示学习[1,2]是网络数据挖掘中的一项重要技术,能够将网络中的每个节点用一个向量表示出来,从而把网络结构映射到一个由节点向量组成的低维空间,为基于网络拓扑的链路预测、节点分类、聚类等任务提供数据结构的支撑.在实际应用中,不同的复杂信息网络通常都具有异质性,其表现为在同一个网络中包含多种不同类型的节点和多种不同类型的链接关系,这种网络也被称为异质网络.与同质网络相比,这类网络通常具有丰富的交互关系.其中,不同类型的节点和链接都隐含了极其丰富的语义和结构信息,如智能电网、生物蛋白质网络、社交网络等.

近年来,同质网络表示学习已经取得了丰富的成果.Deepwalk算法[3]利用随机游走首次将网络结构建模为语料序列,结合Skip-Gram模型得到节点的低维表示,为网络分析任务提供了新的思路.随后,更多的同质网络表示算法被提出[4,5,6],如Node2vec算法和LINE算法,采用不同的随机游走设计,结合Skip-Gram模型学习更为准确的节点向量表示.但以上方法将不同类型的节点和链接都视为相同类型来建模,不具备针对异质网络的有效设计.显然,如果忽略网络的异质性问题,容易导致各种网络分析任务的准确性有所降低.只有表征出网络中不同类型节点及链接的独有特征,才能捕获网络中丰富的语义,因此对异质网络表示学习的研究具有重要意义.

由于异质网络中节点和链接的复杂性,传统的同质网络表示方法难以直接应用于异质网络表示学习中.近年来,国内外许多研究者进行的一些相关研究,可以概括为以下3类.① 基于浅层网络的方法,这类方法通过随机游走捕获网络结构,结合浅层模型学习节点向量的表示.文献[7]中提出了HIN2vec算法,通过联合执行多个预测训练任务来预测两个节点之间的关系,并将预测任务转化为二分类问题,利用两层神经网络学习异质网络中节点和元路径的表示.文献[8]中提出了Metapath2vec算法,利用基于元路径的随机游走构建节点的异质邻居,扩展了Skip-Gram模型,从而为结构和语义上相近的节点建模.文献[9,10]中针对异质文本网络和跨网络场景学习节点的表示,采用网络分解来简化异质网络的表示建模.② 基于深度网络的方法,这类方法采用不同深度学习的方法获得网络中高度非线性的特征.文献[11,12,13]中尝试将卷积神经网络、自动编码器、强化学习等方法用于异质网络中节点的表示学习.随着图神经网络在网络分析任务中表现出优异的性能,一些研究者将其扩展到了异质网络的分析中[14,15],针对异质网络中不同类型节点和链接的特点,改进图神经网络消息传递方式,聚合不同类型邻居生成节点的向量表示.③ 基于属性异质网络的方法,这类方法尝试利用年龄、性别、地理位置等额外的节点信息,研究更为复杂的异质网络场景.文献[16,17]中针对金融现金检测和用户购物场景,利用线性变换将额外的属性信息映射到低维空间,并通过设计分层的异质网络表示架构,较好地进行了融合,学习到更加丰富的节点表示.

尽管将上述各种表示方法应用于不同网络任务中都获得了较好的效果,但是仍然存在以下两个问题.首先,节点间关系的表示都是基于邻居节点的相似性计算获得的,无法反映无直接边的节点间的相似关系;其次,整个网络拓扑结构的表示过程采用的均为基于元路径的随机游走策略,忽略了相邻节点间的真实关系.显然在实际网络中,不存在直接连边的节点仍然有可能具有较高的相似性,而简单的基于固定概率随机选择生成的节点序列,并不能保证生成高度紧密相似的节点序列.为此,本文提出了基于变分推断和元路径分解的异质网络表示方法HetVAE,主要贡献如下:

(1) 引入路径相似度度量,通过不同语义下的异质路径实例计算出同类型节点的相似度,并在相似度的引导下设计不同类型节点的选取概率,改进了基于元路径随机游走的节点选择策略,使得生成的节点序列更准确.

(2) 引入变分推断理论,通过变分Bayesian推断优化真实先验分布与后验分布之间的误差,同时近似推导出潜在变量,从而学习到更符合真实网络分布的节点向量,使得异质网络中的节点向量表示更具稳健性.

(3) 引入元路径思想将异质网络拆分为多个同质子网络,以便获取原始网络不同视角下的丰富语义信息,进而结合注意力机制,通过网络重建和将拆分后各个加权子网络的节点向量进行融合.

本文通过相似度改进的节点选择策略,较好地解决了异质网络中传统元路径随机游走不精确的问题;利用变分推断捕获网络的真实分布,改进了传统异质网络表示模型不能观测潜在变量的缺陷;结合注意力机制,自动融合不同视角下的语义信息.在多个数据集上的不同网络任务的实验结果表明,所提方法能够获得更好的结果.

1 预备知识

首先,给出后续使用的基本定义和概念.其中,关于异质网络以及元路径的概念可以参考文献[18,19].

一个典型的异质网络DBLP学术网络如图1所示.该网络中4种不同类型的节点,作者(A)、论文(Pa)、会议(C)、关键词(T) 如图1(a)所示;网络中3种不同类型的边关系,包含论文和作者、论文和会议、论文和关键词如图1(c)所示.这3种类型的边关系分别涵盖了3条元路径,每一条元路径代表一种语义,元路径APaA代表两位作者的合著关系,元路径APaCPaA代表两位作者的文章发表在同一期刊/会议上,元路径APaTPaA代表两位作者的文章具有相同关键词.

图1

图1   DBLP异质网络示例

Fig.1   An example of a DBLP heterogeneous network


元路径引导下的邻居节点:在异质网络中给定一条元路径P,对于任意节点vi,元路径P引导下的邻居节点定义为节点vi通过元路径P到达的所有节点,记为NP(vi),定义中的邻居节点也包含vi本身.由图1(c)可知,对于节点A1,在元路径APaA下的邻居节点是A2.

2 基于变分推断的异质网络表示模型

为了能够更好地利用异质网络结构信息,提出基于变分推断和元路径分解的异质网络表示方法(HetVAE),该方法的模型框架如图2所示.其中:x(i)为第i个输入数据; x^(i)为第i个还原出的数据;μ(i)σ(i)分别为第i个数据近似后验分布的均值和方差;ε(i)~N(0,1)为Gaussian分布中采样的噪声变量;z(i)为第i个数据的隐空间变量; αPj(vi)为节点vi对元路径Pj的注意力权重向量.HetVAE主要由以下3个部分组成:① 拆分异质网络.对输入的异质网络采用基于路径相似度的元路径随机游走方法,改进节点选择策略,提取出多个包含不同语义的节点序列,再由这些序列分别重构出同质网络.② 生成节点向量序列.采用变分自编码器,分别生成同质网络中每个节点的向量表示.③ 节点向量融合.将不同网络下的节点向量表示通过向量拼接的方式输入到注意力层进行加权融合,最终获得融合后的异质网络节点向量表示.

图2

图2   HetVAE的整体框架

Fig.2   Overall frame work of HetVAE


2.1 拆分异质网络

2.1.1 改进的随机游走策略 在异质网络中元路径用于定义不同类型节点之间的关系.由于元路径约束下的随机游走能够探索异质网络的复杂完整结构,捕获网络的全局语义信息,所以基于元路径的随机游走成为异质网络挖掘中的一种通用方法.然而,传统的元路径随机游走由于游走过程随机性较强,无法体现节点间的相似关系,导致不能精确地表示网络结构.目前,在异质网络表示的节点相似性计算中,大多数计算公式都是基于同质网络而设计的,如路径总数相似度、游走相似度、成对游走相似度等计算方法,更倾向于使高度可见(即与大量路径有关联的对象)或者高度集中的对象(即占一组关联路径中很大比例的对象)获得更高的相似度[19].这一类相似度度量方法没有考虑路径背后的不同语义,忽略了对象和链接之间的异质性,使得相似性计算方法缺乏合理性.

为了解决这一问题,本模型引入PathSim算法[19]来度量异质网络下元路径上节点的相似性.这种节点相似性度量方法能够通过考虑异质网络中的链接关系类型,识别出元路径下语义更为一致的相似节点.改进后的元路径随机游走节点选择策略,使得生成的节点序列能够在有限步骤的随机游走过程中捕获网络中的语义信息,提高生成的节点序列的质量.

给定一条元路径P=(τ1,τ2,…,τl),其对应的逆元路径表示为:P-1=(τl,τl-1,…,τ1).显然从τ1τl和从τlτ1的两条元路径具有对称性,因此其往返元路径形式可表示为:P'=(PlPl-1).对于两个相同类型的节点对象vy,PathSim相似度定义为

sim(v,y)= 2{P'vy:P'vyP}{P'vv:P'vvP}+{P'yy:P'yyP}

式中:P'vyvy之间的往返元路径实例;P'vvvv之间的往返元路径实例;P'yyyy之间的往返元路径实例.

在获得对应于不同元路径的同质网络过程中,为了更准确地选择元路径引导中的不同类型节点,本模型分成两种情况进行处理.

(1) 当后继邻居节点类型与元路径起始节点类型一致时,则计算出该后继节点与其前驱节点的sim(v,y)值,相似度值越大的节点具有更大的选择概率.对邻居节点的选择概率公式为

p(vsi+1| vsi,P)= sim(vsi,vsi+1)sim(vsi,NP(vsi))

式中:s为元路径的起始节点; vsiV为元路径上第i个与起始节点同类型的节点;NP(vsi)为元路径P引导下的节点 vsi的邻居节点集合.

(2) 对于不同于元路径起始节点类型的邻居节点,由于其主要作用是构成语义约束,所以对这类邻居节点的选择概率可以相同,其计算公式如下:

p(vmi+1|vmi,P)=1N(vmi)

式中:m为元路径的中间节点; vmiV为元路径上第i个中间节点,与本条元路径的起始节点类型不同;N(vmi)为节点 vmi的邻居节点集合.

节点选择策略如图3所示,其中虚线表示根据式(3)的选择概率选择下一跳节点.以A1节点为例,下一跳节点包含Pa1、Pa2两个节点,其类型与A1节点不同,因此选择的概率相同.实线表示从Pa类型根据式(2)的选择概率选择下一跳节点,以Pa2节点为例,下一跳节点包含A2、A3两个节点,其类型与初始节点A1相同,则应计算元路径APaA下的PathSim相似度,并根据式(2)的选择概率选择节点,根据选择概率计算可知A2被选择的可能性比A3更大,这是由于在APaA元路径下,从A1节点出发到A2节点具有更多的可达路径.

图3

图3   节点选择策略示例

Fig.3   Example of a node selection strategy


2.1.2 重建同质网络 通过在元路径随机游走过程中保留元路径P1,P2,…,Pi引导下的同类型邻居节点,异质网络能转化为多组同质节点序列H1,H2,…,Hi.为了能够捕获网络中反映每个节点的特征向量,本模型将上述节点序列重构为同质网络.

重构算法主要分为两个步骤:① 对于一个具有k个节点的同质序列Hi,生成一个kk列的邻接矩阵G(i),用于表示单条元路径下重构的同质网络.② 对于给定的一条元路径Pi生成的同质网络,如果同类型节点对象vy通过元路径Pi连接,则邻接矩阵中对应的元素 Gv,y(i)=1.由此通过对多组节点序列的处理,重构出多个同质网络set(G(1),G(2),…,G(i)).重构出的不同同质网络具有不同的结构.以DBLP网络为例,重构的同质网络如图4所示.其中:由元路径APaA下重构出的同质网络如图4(a)所示;由路径APaTPaA下重构出的同质网络如图4(b)所示;零元素表示两个节点之间没有直接边;非零元素表示两个节点之间有直接边.

图4

图4   DBLP中重构同质网络矩阵说明

Fig.4   Reconstruction of homogeneous network matrix in DBLP


2.2 变分自编码器生成节点向量

变分自编码器[20]作为图像生成领域的重要模型,对隐空间潜在变量的分布采样取得了显著效果.其算法思想主要分为以下两个步骤:① 为每个输入的数据x(i)编码成一组Gaussian分布变量,将数据映射到隐空间中,并用连续随机变量z(i)来代表数据x(i)编码后的重要特征;② 将编码后的连续随机变量z(i)通过解码器重建出输入数据,得到 x^(i).

其中,单个z(i)的值均是从先验分布pθ(z(i))中采样得到的,而还原的数据 x^(i)则是从条件分布 pθ(x(i)|z(i)) 中生成的.在变分推断中引入了一个识别模型qϕ(z(i)|x(i))去近似真实的后验分布pθ(z(i)|x(i)).一般使用KL(Kullback-Leibler)散度度量两个分布之间的距离,计算公式如下:

$D_{\mathrm{KL}}\left(q_{\phi}\left(\mathbf{z}^{(i)} \mid \mathbf{x}^{(i)}\right) \| p_{\theta}\left(\mathbf{z}^{(i)} \mid \mathbf{x}^{(i)}\right)\right)=\quad \ln p_{\theta}\left(\mathbf{x}^{(i)}\right)-E_{q_{\phi}\left(z^{(i)} \mid x^{(i)}\right)}\left[\ln p_{\theta}\left(\mathbf{x}^{(i)} \mid \mathbf{z}^{(i)}\right)-\right.\left.\quad \ln q_{\phi}\left(\mathbf{z}^{(i)} \mid \mathbf{x}^{(i)}\right)\right]$

式中: Eqϕ(z(i)|x(i))为识别模型的期望.其从后验分布中采样的潜在变量z(i)可以表示为

z(i)=μ(i)+σ(i)ε(i)

式中:☉表示逐元素乘法.最终获得原始网络分布中每一个数据x(i)的损失函数近似估计结果为

Γ(θ,ϕ;x)≃ 12j=1J[1+ln((σ(j))2)-(μ(j))2-(σ(j))2]+ 1Ll=1Lln pθ(x(l)|z(l))

式中:第1项为近似后验分布和先验分布的KL散度;第2项为重建误差对后验分布的期望.

为了获得原始异质网络中节点的向量表示,HetVAE将生成的多个同质网络矩阵作为变分自编码器的输入.在本文中,输入数据和生成数据均为节点对象.通过训练,利用变分推断理论对隐空间中的节点数据分布进行采样,生成各个同质网络中所有节点的向量表示.模型的编码器和解码器均为多层感知机(MLP).

若同质网络G(i)具有k个节点,其潜在变量zk记为网络G(i)中第k个节点的D维向量表示.模型中变分自编码器的重建误差表示为最小化输入节点对象x和生成节点对象 x^之间的距离,每一个 x^均由隐空间采样重建得到,重建误差损失函数公式如下所示:

Γrec=k=1kx^k-xk22

式中:xkx^k分别为第k个输入节点对象和生成节点对象.

对于输入的xk其对应的隐空间表示zk由下式计算可得:

hk(1)=f(W(1)xk(1)+b(1))
hk(c)=f(W(c)hk(c-1)+b(c))
μk(c)=W(c)hk(c)+b(c)
σk(c)=W(c)hk(c)+b(c)
zk(c)= μk(c)+ σk(c)εk(c)

c=2,3,…,C

式中:C为编码器或解码器的层数; hk(c)为第k个节点在第c层的输出;W(c)b(c)分别为第c层感知机的权重和偏置参数; μk(c)σk(c)分别为第k个节点在第c层的均值和方差; εk(c)zk(c)分别为第k个节点在第c层的噪声变量和潜在变量;f(·)为sigmoid函数.在同质网络G(i)中,输入节点对象xk具有D维特征,其与生成节点对象 x^k对应的KL散度损失函数可用下式计算:

$\begin{aligned} \Gamma_{\mathrm{KL}}=& \frac{1}{2} \sum_{d=1}^{D}\left[1+\ln \left(\left(\sigma_{d}^{(c)}\right)^{2}\right)-\right.\\ &\left.\left(\mu_{d}^{(c)}\right)^{2}-\left(\sigma_{d}^{(c)}\right)^{2}\right] \end{aligned}$

式中:μdσd分别为μkσk的第d维的均值和方差分量,即μk=[μ1μ2μD]和σk=[σ1σ2σD]两个向量.为了加速收敛速度,将编码器原本的均值输出σ转化为上式中的ln(σ2),记为δ=ln(σ2).通过计算σ=eδ/2可以得到原本的均值σ,这使得编码器可以更容易获得不同比例的均值σ.经过简化之后的KL散度损失函数可以表示为

ΓKL= 12d=1D1+eδd(c)-(μd(c))2-δd(c)

对应的隐变量z的式(12)则重写为

zk(c)=μk(c)+e12δk(c)εk(c)
δk(c)=W(c)yk(c)+b(c)

在获得隐变量z之后,生成的节点对象 x^可由如下过程得到:

hk(1)=f(W(1)zk(1)+b(1))
hk(c)=f(W(c)hk(c-1)+b(c))
x^=W(c)hk(c)+b(c)

c=2,3,…,C-1

由于所获得的同质网络邻接矩阵是典型的稀疏矩阵,即在邻接矩阵G(i)中零元素远远多于非零元素.如果直接对G(i)最小化重建误差,网络将更容易重建零元素,而不是更有意义的非零元素.因此,HetVAE对非零元素加入了更多的惩罚,使模型能够优先重建非零元素,修正后的重建误差损失函数如下:

Γrec= k=1k‖(x^k-xk)☉Bk22

式中:Bi= Bi,jj=1k为惩罚因子.如果邻接矩阵 Gv,y(i)的第v行第y列元素 Gv,y(i)=0,则Bi,j=1;否则Bi,j>1.

模型训练的损失函数由式(7)变换如下:

Γvae=Γrec+ΓKL+Γreg= k=1k‖(x^k-xk)☉Bk22+ 12d=1D1+eδd(c)-(μd(c))2-δd(c)+Γreg

式中:ΓregΓ2正则项,以防止模型过拟合,记为Γreg= c=12CW(c)22.

2.3 多视角信息的融合

显然,只有将多视角下的同质网络表示向量进行融合才能获得原始异质网络中节点的最终向量表示.由于拆分后的子网络描述了不同语义,进行向量融合的一种合理的方式就是利用注意力机制[21].常见的注意力机制包括自注意力和多头注意力等.自注意力机制减少了对外部信息的依赖,擅长捕捉数据或特征的内部相关性.多头注意力机制通过利用多个注意力头来学习注意力权重,擅长捕捉不同空间的关联关系.考虑到不同视角下节点对不同语义的关注程度,自注意力机制并不适合于求解不同视角的关注,同时多头注意力机制由于需要计算多次权重,会严重影响模型的训练速度.因此,本文模型结合多层感知器实现注意力机制,将不同子网络的节点向量进行融合.

由前文元路径的定义可以知道,同一个节点在不同的元路径中关注的语义信息有所不同,因此元路径注意力权重应该能够自适应节点的关注偏好;同时注意力权重应该分配到多条元路径下的向量整体中,而不是单个向量的每一个维度上.在生成不同子网络的节点向量表示 zP1(vi), zP2(vi),…, zPj(vi)之后,HetVAE采用个性化元路径注意力机制融合节点的所有向量表示(见图2).其融合过程可形式化描述如下:

Z(vi)=f(zP1(vi),zP2(vi),,zPj(vi))

每个节点在不同元路径中的个性化注意力权重 αPj(vi)定义为

λ=tanh(W(zP1(vi)|| zP2(vi)||…|| zPj(vi))+b)
ωPj(vi)=λ·QT
αPj(vi)= exp(ωPj(vi))j=1|P|exp(ωPj(vi))

式中:λ为单层MLP转化后的向量;Q为根据不同任务训练得到的元路径注意力向量.注意力值 αPj(vi)越大,则表明节点vi对元路径Pj的关注越大.节点的最终加权向量表示为

Z(vi)=j=1PαPj(vi)·zPj(vi)

2.4 模型算法描述

综上所述,HetVAE的核心思想如下所示:

算法1 HetVAE算法模型.

输入 异质网络 G(V,E)

元路径集合{P1,P2,…,Pi}

惩罚因子B

输出 节点的最终表示Z

(1) for Pi∈{P1,P2,…,Pi} do

/*拆分异质网络*/

(2) for each viV do

(3) v←start vi

(4) if type(v) is equal to type (y) then

(5) calculate sim(v,y), select a node by Eq.2

/*选取同类型节点*/

(6) else

(7) select a node by Eq.3

/*选取不同类型节点*/

(8) obtain homogeneous node sequences Hi

/*获得同质节点序列*/

(9) end if

(10) reconstructing a homogeneous network

/*重构同质网络*/

(11) end for

(12) end for

(13) for G(i)∈{G(1),G(2),…,G(i)} do

(14) initialized parameters W(i),b(i),B

(15) repeat

(16) minimize Γvae=Γrec+ΓKL+Γreg

(17) until converge

(18) extract the hidden layer to get the

node representation z(i) /*获取隐层表示*/

(19) end for

(20) for each viV do

(21) Z(vi)j=1PαPj(vi)· zPj(vi)/*向量融合*/

(22) end for

(23) return Z(vi)

3 实验与结果

为了验证HetVAE模型的有效性,在3个真实数据集DBLP、AMiner、Yelp上使用微观F1值(Micro-F1)、宏观F1值(Macro-F1)、标准化互信息(NMI)和调整兰德系数(ARI)评价指标,针对3种典型的异质网络挖掘任务:节点分类、节点聚类、可视化进行了实验评估.

3.1 数据集

实验使用的3个被广泛研究的公开数据集:DBLP[14]、AMiner[8]、Yelp (https://www.yelp.com/dataset/),其详细描述如表1所示.其中:Bu为企业;S为服务;St为星级;U为用户.

表1   数据集描述

Tab.1  Dataset description

数据集链边关系
(A-B)
A类型节
点的数量
B类型节
点的数量
A和B链边
关系的数量
标签
数量
标签
类别
元路径A类型节
点平均度
B类型节
点平均度
网络
平均度
DBLPPa-A14376144754179440574APaA11.882.894.73
Pa-C143762014376APaCPaA718.8
Pa-T143768920114624APaTPaA12.85
AMinerPa-A13978165435295797268APaA4.793.202.05
Pa-C13978215213978APaCPaA6.49
YelpBu-S26142261426143BuSBu13.791370.09.22
Bu-St261482614BuStBu326.75
Bu-U2614128630838BuUBu23.98

新窗口打开| 下载CSV


(1) DBLP数据集:包含论文、作者、会议/期刊、关键词4类节点,并按照作者的研究领域划分为4个类别,包含数据库、数据挖掘、人工智能、信息检索,以此作为标签.模型使用元路径集合{APaA,APaCPaA,APaTPaA}进行实验.(2) AMiner数据集:实验抽取了AMiner的一个子集,包含论文、作者、会议/期刊3类节点,同样按照作者的研究领域进行划分,得到8个类别,包含计算机语言学、计算机图形学、计算机网络和无线通信、计算机视觉和模式识别、计算机系统、数据库和信息系统、人机交互、理论计算机科学,以此作为标签.模型使用元路径集合{APaA,APaCPaA}进行实验.(3) Yelp数据集:包含企业、用户、星级、服务4类节点,按照企业的类型进行划分,得到3个类别,包含酒店、购物、食品,以此作为标签.模型使用元路径集合{BuSBu,BuStBu,BuUBu}进行实验.

3.2 对比算法

实验选取了一些较新的先进方法进行了比较,包含2个同质网络方法和4个异质网络方法,用以验证本文算法的有效性.对于同质网络算法,在实验中忽略节点的异质性,将算法应用在整个异质图中.对于异质网络算法,在实验中测试了所有元路径.对比算法给出的均为最优结果.(1) Deepwalk[3]:采用随机游走捕获网络结构,利用Skip-Gram模型学习节点的表示.(2) Node2vec[4]:通过调整随机游走的深度和广度获得网络结构,利用带负采样的Skip-Gram模型学习节点表示.(3) HIN2vec[7]:以元路径形式指定的一组关系联合执行多个预测训练任务,学习异质网络中节点和元路径的表示.(4) Metapath2vec[8]:利用元路径随机游走构建节点的异质邻居,并采用异质的Skip-Gram模型最大化异质上下文概率.(5) HERec[22]:设计了一种类型约束策略来过滤节点序列,并采用Skip-Gram模型来对网络进行嵌入.(6) HAN[14]:设计了异质图下的节点级注意力和语义级注意力,并采用图神经网络对基于元路径的邻居特征进行分层聚合生成节点向量.(7) HetVAErw:未使用改进的随机游走选择策略,采用普通元路径随机游走算法的模型.(8) HetVAEsk:未使用VAE生成节点向量,采用Skip-Gram算法对网络进行训练的模型.(9) HetVAEcon:未使用个性化元路径注意力机制,采用拼接的方式融合最终向量的模型.(10) HetVAE:本文所提出的完整模型.

3.3 参数设置

本模型的所有实验均在Intel(R) Core(TM) i5-7300HQ(2.5 GHz) CPU,NVIDIA GTX1060(6G) GPU,16 GB内存的硬件环境下完成训练,所涉及的代码使用Python和Tensorflow框架实现.为了进行公平对比,实验中将所有算法最终生成的节点向量维数设置D=128,对于需要随机游走的算法,设置每个节点的步数为10,随机游走长度为80.对于Deepwalk、Metapath2vec、HERec,选取了各自文献中给出的窗口大小参数为5.对于Node2vec其窗口大小参数为5,广度优先参数为4,深度优先参数为1,负采样比率为5.对于HIN2vec,设置窗口大小参数为4.对于HAN,其正则化参数为0.001,注意力头个数为8,注意力向量维度为128,实验采用了其论文中相同的处理方法,对节点特征进行提取.在DBLP、AMiner数据集中,节点特征为作者论文关键词的词袋表示;在Yelp数据集中,节点特征为企业星级类别的词袋表示.对比实验参数设置均与其文献推荐的最优参数一致.在实验中,对于DBLP数据集而言,网络结构为14475-1000-128-1000-14475,每一个数字代表网络每一层的神经元个数,学习率设置为 0.0001,惩罚项B设置为2,批处理大小为32.对于AMiner数据集而言,网络结构为16543-2000-128-2000-16543,学习率设置为 0.00035,惩罚项B设置为150,批处理大小为128.对于Yelp数据集而言,网络结构为2614-1000-128-1000-2614,学习率设置为 0.0001,惩罚项B设置为64,批处理大小为128.

3.4 节点分类

对于节点分类任务,将模型学习到的节点向量作为特征向量,和文献[13]相同,采用K=5的K近邻(KNN)分类器进行分类,使用Micro-F1和Macro-F1作为分类结果评估指标.为了使结果具有可靠性,采用重复10次的结果平均值,并将数据集的训练集按照30%、50%、70%、90%的比例选取,同时打乱数据顺序,以比较不同训练尺度下的分类效果.节点分类任务实验结果如图5所示,其中:Fmi为Micro-F1;Fma为Macro-F1;R为标签节点的比例.从图5中可以看出,HetVAE具有最优性能.值得注意的是,AMiner网络中各类方法表现得非常接近(见图5(c)和(d)),其他的异质网络方法均没有超过同质网络方法.由表1可知,这是因为AMiner网络的平均度更小,网络中节点更为稀疏,从而导致各种方法难以训练,结果不具有显著差异.得益于对稀疏矩阵的特殊处理,所提方法仍然有不错的表现.尽管DBLP和AMiner这两个网络都是文献网络,但是相较于AMiner,DBLP增加了关键词这类节点,各种类型节点的平均度更大.依靠论文之间相同的关键词,论文类型节点能够与更具相关性的文章进行相连.在与网络中其他类型节点组合的过程中,能够产生出语义准确丰富的元路径.通过对比这两个真实异质网络的实验结果,能够发现对于语义信息越丰富的网络DBLP,HetVAE效果更好.在不同于文献网络的Yelp网络中,边关系主要集中在企业和用户之间,其网络平均度相较于DBLP和AMiner网络更大,节点邻居数目更多,更难精确地获得有意义的网络结构,但所提方法仍然取得了最优结果,说明了HetVAE具有较好的可拓展性.

图5

图5   节点分类任务实验结果

Fig.5   Experimental results of node classification tasks


为了验证不同模块的有效性,设计了一组消融实验(见图5).从图5中可以看出,相对于HetVAE,HetVAErw的性能在DBLP、AMiner网络中出现小幅度下降,在Yelp网络中性能下降幅度较大,这说明改进的随机游走策略在节点平均度越大的网络中影响越大.同时网络中节点平均度越大,找到有意义的节点越困难.当网络的平均度较小时,随机游走可以选择的下一跳节点数量有限,在游走一定次数之后,普通随机游走算法同样能够选择到可能相似的节点.实验结果证明了本文对随机游走的节点选择策略改进的有效性.由图5(e)和(f)可见,在Yelp网络中,Metapath2vec和HERec算法由于仅能使用单条元路径,其效果相比于同质网络表示算法表现较差,说明普通的元路径随机游走算法在边关系具有高度偏向性的网络中具有缺陷.而利用多条元路径的算法HIN2vec、HAN、HetVAE,由于对多视角信息的有效利用,能够学习到更为丰富的节点表示.对于仅采用简单拼接方式融合节点向量的方法HetVAEcon,其性能表现比HetVAE差.这说明个性化元路径注意力机制能够更好地为每个节点融合多视角信息,同时避免非重要信息带来的噪声影响,对学习不同语义的关注程度具有重要作用.

3.5 节点聚类

对于节点聚类任务,同样将模型学习到的节点向量作为特征向量,和文献[13]相同,采用K均值(K-Means)进行节点聚类,其中K值的设置随数据集不同而不同.在DBLP实验中K=4,在AMiner实验中K=8,在Yelp实验中K=3.同时使用NMI和ARI作为聚类质量的评价指标.实验中均对聚类过程重复10次,取平均结果作为最终结果.节点聚类任务的定量结果如表2所示,其中加粗的数值代表每列对比算法的最高值.由表2可以知道,HetVAE均优于所有对比方法,且大部分异质网络方法都比同质网络方法表现得更好.其中,HIN2vec和HAN在部分数据集中的聚类效果较差,这是因为链路预测任务的准确性与网络整个拓扑结构描述的全面性密切相关,而节点分类任务的准确性与能否有效捕获局部的节点相似性有较大的关系.未使用变分推断的HetVAEsk 方法在节点的聚类任务中表现不如HetVAE,这说明考虑隐空间下的数据分布采样,能够有效地捕获节点的相似性特征.

表2   节点聚类任务的定量结果

Tab.2  Quantitative results of node clustering tasks

算法DBLPAMinerYelp
NMIARINMIARINMIARI
Deepwalk0.58410.49600.31600.22270.29400.3179
Node2vec0.54010.47760.30810.22190.01050.0111
HIN2vec0.01240.01060.16700.07580.13530.1708
Metapath2vec0.63950.63690.26450.20830.35400.4047
HERec0.68440.71040.32300.23220.35110.4018
HAN0.59870.59290.03750.01650.36350.4255
HetVAErw0.77420.83290.33240.22340.36030.4016
HetVAEsk0.81730.86640.34460.23210.35930.4097
HetVAEcon0.78260.83510.32390.26600.34160.3917
HetVAE0.85400.90160.40250.37980.37610.4399

新窗口打开| 下载CSV


3.6 可视化

为了直观地观察模型学习到的节点序列向量的质量,采用向量的降维可视化方式,使用t-SNE方法将在DBLP网络中学习到的所有作者的128维节点向量表示映射到2维空间中,不同的颜色代表其所属的研究领域,在DBLP中作者的研究领域被划分为4个不同类别,以不同颜色区分.在DBLP网络中的向量可视化结果如图6所示.其中:X为2维空间横坐标; Y为2维空间纵坐标.

图6

图6   在DBLP网络中的向量可视化结果

Fig.6   Vector visualization results in DBLP network


图6可见,相比于其他方法,HetVAE能够使得相同颜色的节点很好地聚集在一起,具有更高的区分度.

3.7 参数灵敏度

为了测试参数对模型的影响,对Yelp网络数据集进行了节点聚类任务的参数灵敏度实验,测试参数包括惩罚因子B和向量表示维度D,实验结果如图7所示,其中I为NMI分数.由图7可知,对于B因子,当B为16和32时,NMI分数比较平均;当B为64时,NMI分数达到峰值,此时聚类的效果最好;当B取值超过64时,NMI分数随着惩罚因子B的增大而下降.由此可以看出,对非零元素过大的惩罚会为模型优化带来困难,适中的惩罚让模型更容易学习更高质量的表示.对于向量维数D,当D的取值在32~128之间的时候,NMI分数持续上升;当D为128维时,NMI分数达到峰值;而当维数翻倍增加到256和512时,NMI分数逐步出现下滑.这表明更大的维度能够编码更多的信息,但同时可能造成冗余信息导致性能下降,节点向量需要一个合适的维度来编码语义信息.对DBLP、Aminer网络数据集的参数测试情况类似,这里不再赘述.

图7

图7   在Yelp网络中的参数灵敏度实验结果

Fig.7   Results of parametric sensitivity experiments on Yelp network


4 结语

本文针对异质网络提出了基于变分推断和元路径分解的异质网络表示方法HetVAE.通过对异质网络进行多条元路径的拆分,改进传统元路径随机游走的节点选择策略,较好地捕捉了不同视角下的子网络结构.进一步利用变分推断,对潜在空间中的变量采样,优化真实先验分布与后验分布之间的误差,为多视角下的子网络拓扑结构进行概率建模,获得高质量的节点向量表示.最后采用个性化元路径注意力机制,对节点向量表示进行融合,保留了原网络的丰富语义和更真实的拓扑结构.实验结果表明,HetVAE能够有效地提高节点表示的质量,在不同的网络任务中具有更好的准确性和有效性.在未来的工作中,将针对社交网络应用,研究适合于推荐算法的异质网络表示方法,使得网络表示更符合真实应用场景,并探索网络表示的可解释模型.

参考文献

CUI P, WANG X, PEI J, et al. A survey on network embedding[EB/OL]. (2017-11-23)[2019-12-22]. https://arxiv.org/abs/1711.08752

URL     [本文引用: 1]

涂存超, 杨成, 刘知远, .

网络表示学习综述

[J]. 中国科学: 信息科学, 2017, 47(8):980-996.

[本文引用: 1]

TU Cunchao, YANG Cheng, LIU Zhiyuan, et al.

Network representation learning: An overview

[J]. Scientia Sinica (Informationis), 2017, 47(8):980-996.

[本文引用: 1]

PEROZZI B, AL-RFOU R, SKIENA S. DeepWalk: Online learning of social representations[C]//Proceedings of the 20th ACM SIGKDD international conference on Knowledge discovery and data mining-KDD' 14 New York, NY, USA: ACM Press, 2014: 701-710.

[本文引用: 2]

GROVER A, LESKOVEC J. Node2vec: Scalable feature learning for networks[C]//Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. New York, NY, USA: ACM Press, 2016: 855-864.

[本文引用: 2]

ZHU D Y, CUI P, WANG D X, et al. Deep variational network embedding in Wasserstein space[C]//Proceedings of the 24th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining. New York, NY,USA: ACM Press, 2018: 2827-2836.

[本文引用: 1]

TANG J, QU M, WANG M Z, et al. LINE: Large-scale information network embedding[C]//Proceedings of the 24th International Conference on World Wide Web-WWW '15 New York, NY, USA: ACM Press, 2015: 1067-1077.

[本文引用: 1]

FU T Y, LEE W C, LEI Z. HIN2Vec: Explore meta-paths in heterogeneous information networks for representation learning[C]//Proceedings of the 2017 ACM on Conference on Information and Knowledge Management New York, NY, USA: ACM Press, 2017: 1797-1806.

[本文引用: 2]

DONG Y X, CHAWLA N V, SWAMI A. Metapath2vec: Scalable representation learning for heterogeneous networks[C]//Proceedings of the 23rd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. New York, NY, USA: SACM Press, 2017: 135-144.

[本文引用: 3]

TANG J, QU M, MEI Q Z. PTE: Predictive text embedding through large-scale heterogeneous text networks[C]//Proceedings of the 21th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining-KDD '15. New York, NY, USA: ACM Press, 2015: 1165-1174.

[本文引用: 1]

XU L C, WEI X K, CAO J N, et al. Embedding of embedding (EOE): Joint embedding for coupled heterogeneous networks[C]//Proceedings of the Tenth ACM International Conference on Web Search and Data Mining-WSDM '17. New York, NY, USA: ACM Press, 2017: 741-749.

[本文引用: 1]

CHANG S Y, HAN W, TANG J L, et al. Heterogeneous network embedding via deep architectures[C]//Proceedings of the 21th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining-KDD '15. New York, NY, USA: ACM Press, 2015: 119-128.

[本文引用: 1]

WANG H W, ZHANG F Z, HOU M, et al. SHINE: Signed heterogeneous information network embedding for sentiment link prediction[C]//Proceedings of the Eleventh ACM International Conference on Web Search and Data Mining-WSDM '18 New York, NY, USA: ACM Press, 2018: 592-600.

[本文引用: 1]

QU M, TANG J, HAN J W. Curriculum learning for heterogeneous star network embedding via deep reinforcement learning[C]//Proceedings of the Eleventh ACM International Conference on Web Search and Data Mining-WSDM '18. New York, NY, USA: ACM Press, 2018: 468-476.

[本文引用: 3]

WANG X, JI H Y, SHI C, et al. Heterogeneous graph attention network[C]//The World Wide Web Conference. New York, NY, USA: ACM Press, 2019: 2022-2032.

[本文引用: 3]

ZHANG C X, SONG D J, HUANG C, et al. Heterogeneous graph neural network[C]//Proceedings of the 25th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining. New York, NY, USA: ACM Press, 2019: 793-803.

[本文引用: 1]

CEN Y K, ZOU X, ZHANG J W, et al. Representation learning for attributed multiplex heterogeneous network[C]//Proceedings of the 25th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining. New York, NY, USA: ACM Press, 2019: 1358-1368.

[本文引用: 1]

HU B B, ZHANG Z Q, SHI C, et al.

Cash-out user detection based on attributed heterogeneous information network with a hierarchical attention mechanism

[J]. Proceedings of the AAAI Conference on Artificial Intelligence, 2019, 33:946-953.

DOI:10.1609/aaai.v33i01.3301946      URL     [本文引用: 1]

SHI C, LI Y T, ZHANG J W, et al.

A survey of heterogeneous information network analysis

[J]. IEEE Transactions on Knowledge and Data Engineering, 2017, 29(1):17-37.

DOI:10.1109/TKDE.2016.2598561      URL     [本文引用: 1]

SUN Y, HAN J, YAN X, et al.

Pathsim: Meta path-based top-k similarity search in heterogeneous information networks

[J]. Proceedings of the VLDB Endowment, 2011, 4(11):992-1003.

DOI:10.14778/3402707.3402736      URL     [本文引用: 3]

KINGMA D P, WELLING M. Auto-encoding variational bayes[EB/OL].(2014-05-01) [2019-12-22]. https://arxiv.org/abs/1312.6114 .

URL     [本文引用: 1]

VASWANI A, SHAZEER N, PARMAR N, et al. Attention is all you need[EB/OL]. (2014-05-01) [2019-12-22]. https://arxiv.org/abs/1706.03762 .

URL     [本文引用: 1]

SHI C, HU B B, ZHAO W X, et al.

Heterogeneous information network embedding for recommendation

[J]. IEEE Transactions on Knowledge and Data Engineering, 2019, 31(2):357-370.

DOI:10.1109/TKDE.2018.2833443      URL     [本文引用: 1]

/