摘要无向加权网络(UWN)在涉及众多节点之间复杂相互作用的大数据相关应用中经常遇到,例如生物信息学应用中的蛋白质相互作用网络。对称高维不完全(SHDI)矩阵可以很好地说明这种UWN,它包含了丰富的知识,如节点交互行为和局部复合体。为了从SHDI矩阵中提取所需的知识,分析模型应该仔细考虑其对称拓扑,以描述UWN的内在对称性。UWN的表示学习借鉴了对称感知模型金字塔的成功,如对称非负矩阵分解(SNMF)模型,其目标函数利用唯一的潜在因子(LF)矩阵来严格表示SHDI的对称性。然而,它们存在以下缺点:1)它们的计算复杂度高;2)他们的建模策略缩小了他们的表示特征,使他们的学习能力低下。针对上述关键问题,本文提出了一种多约束对称非负潜在因子分析(MSNL)模型,其思想有两个:1)引入由多个LF矩阵组成的多约束,即。,不等式和等式转化为面向数据密度的目标函数,用于精确地表示具有加宽特征空间的SHDI矩阵的内在对称性;以及2)实现用于精确求解这种多约束模型的包含交替方向乘子方法(ADMM)的学习方案。对来自真实生物信息学或工业应用的三个SHDI矩阵的实证研究表明,所提出的MSNL模型比最先进的模型对SHDI矩阵实现了更强的表示学习能力,对称高维不完全矩阵的缺失数据估计
非直接加权网络(UWN)在大数据应用中很普遍,特别是在蛋白质-蛋白质相互作用网络中的蛋白质相关预测[10-14]。这种网络由节点和观测到的边组成,这些边可以表示为对称、高维和不完整(SHDI)矩阵。SHDI矩阵它是对称的,是对称的;2.其实体集较大;3.其大部分数据条目缺失;和4。它的数据通常是非负的,就像推荐系统的评级一样[32]。尽管SHDI矩阵是不完整的,但它可以提供有价值的信息,例如识别社交网络中的潜在社区[7-9]。因此,设计一个能够考虑SHDI矩阵特征并提取隐藏知识的分析模型是至关重要的。
为了有效地表示由UWN生成的SHDI矩阵,最近的研究提出的模型主要可以分为两大类:1)神经网络(NN)模型[1,2]。例如,Sehain等人的AutoRec[1]和He等人的LightGCN[2]能够从目标矩阵中提取非线性潜在因素(LF)。尽管得到了非线性LFs,但它们不考虑SHDI矩阵的对称性和不完全性;2)
非神经网络模型[4,5,12,22,26,27]。非负矩阵因子分解(NMF)模型,如Xu等人的NMFC[26]和Leng等人的GNMF[12],能够很好地表示SHDI矩阵的非负性,以有效地执行分析任务。然而,他们的建模没有考虑SHDI矩阵的对称性和不完全性。因此,非常希望提出对称非负矩阵因子分解(SNMF)模型的金字塔,如He等人的β-SNMF[4]、Yang等人的GSNMF[5]和Hou等人的PSNMF[27],以及非负潜在因子(NLF)模型,如Luo等人的NIR[22]。然而,SNMF模型仍然没有考虑SHDI的不完全性,而NLF模型仍然不能精确地表示SHDI的对称性
针对上述关键问题,本文提出了一种多约束对称非负潜在因素分析(MSNL)模型。本文的主要贡献包括:1。MSNL模型。它在NLF的目标函数中引入了多个约束条件,以精确地表示内部对称性
使用具有加宽特征空间的SHDI矩阵,然后实现了包含ADMM(Alternative Direction
Method of Multipliers)[26]的学习方案,用于精确求解这种多约束模型;2.它对三个真实世界的UWN进行了实证研究,以证明MSNL模型在表示精度方面优于最先进的模型。第二节介绍了初步情况。第三节介绍了PSNL模型。第四节给出了实验结果。最后,第五节对本文进行了总结。
II、 序言A.问题公式由UWN生成的SHDI矩阵Y如下所定义。定义1。给定U,每个条目量化矩阵A|N|×|N|之间的某种相互作用,这是非负的。给定A的已知集Ʌ和未知集Γ,A是SHDI矩阵,如果|Ʌ|≪|Γ|。为了从SHDI矩阵中提取潜在但有用的信息,NLF模型被定义为:定义2。在给定Y和Ʌ的情况下,NLF模型[6]通常依赖于581来寻求Y的秩D近似,即,âm,n=pm,D*xn,D,其中pm,D≥0和xn,D≥0。对于常用的欧几里得距离[23,25,28]和基于L2范数的正则化方案[24,31,33],以下目标函数定义为:
其中基于L2范数的正则化系数λ是正的。III、 MSNL模型根据先前的研究[26],应用于输出LFs的非负约束会影响结果模型的表示精度。因此,我们将Q|N|×D和Y|N| x D引入(1)中,以将非负约束与广义损失分离:
然后,为了使(2)很好地描述SHDI矩阵的对称性,在(2)中引入方程约束P=X,从而实现以下对称性感知目标函数:
For solving MSNL’s objective function (3) efficiently, its learning
scheme is designed by following the principle of ADMM.
Firstly, (3) should be reformulated as the following
augmented Lagrangian function:
Note that θ1 and θ2 are set as θ1=β1|Λ(j)| and θ2=β2|Λ(j)|, respectively,
where β1 and β2 are positive constants.
然后,根据增广拉格朗日函数(4)[3,26],∀m,n∈{1,2,…,|n|},d∈{1,2,…,d}的求解算法,给出了Q、Y、P、X、U、V和W中优化参数的学习规则:
where (5a)-(5d) are achieved by element-wise alternating least square
algorithm, (5e)-(5g) are achieved by the dual gradient ascent
algorithm, and nonnegative truncation method is used to
guarantee the nonnegativity of pm,d and xm,d.
Afterward, MSNL’s whole optimization task described by
(5) is split into D disjoint subtasks where each subtask contains three
jobs corresponding to a specific Latent Factor (LF)
dimension d,
i.e., ∀d∈{1~D}, the d-th task consists
of the following jobs:
2. Job Two:
3. Job Three:
where (6) is designed with the following considerations: 1) each
subtask deal with the update of optimization parameter related to
specific LF dimension, i.e., the d-th column of Q, Y, P, X, U, V and W. Hence, information hidden
in Ʌ can be used totally; 2) each
subtask related to Q or Y is solved based on the solution to those solved before.
Moreover, Job Two and Three address parameters
in the d-th column of P, X, U, V and W following a standard ADMM process [3, 26].
IV. EXPERIMENTAL RESULTS AND ANALYSIS
通用设置评估协议。在实际应用中,将SHDI矩阵分解为LF对于预测缺失值至关重要
以及识别实体之间的潜在连接[10,11]。因此,该技术经常被用作评估相关模型性能的评估协议。评估指标。缺失数据预测的测试模型的准确性可以通过均方根误差(RMSE)来衡量[15-18,30]:
其中Γ表示验证集并且与训练集∧不相交。注意,低RMSE表示Γ中缺失数据的高预测精度。数据集。我们的实验采用了三个UWN,其细节如表I所示。在每个数据集上的所有实验中,我们将其已知的条目集∧随机拆分为十个不相交的子集,进行十倍交叉验证。我们采用七个子集作为训练集,一个子集作为验证集,其余两个子集作为测试集。此过程按顺序重复十次。
比较模型。我们的实验涉及六个模型,其细节如表II所示。为了实现其目标结果,我们使用了以下设置:(1)LF维度d设置为20;(2) 对于每个数据集上的每个模型,记录10个不同随机初始值产生的结果,以计算平均均方根误差和收敛时间,从而消除初始假设的影响[21,29]。(3) 当:1)迭代次数达到预设阈值,即1000时,测试模型的训练过程终止;2) 生成的RMSE的两个连
续迭代之间的差小于10-5。B.与最先进模型的比较
表III和表IV分别总结了M1-6在D1-3上的RMSE和总时间成本。从这些结果中,我们发现:(1)MSNL比现有模型获得了更高的精度增益。例如,如表III所示,M6在D3上的均方根误差为0.0720,分别比M1的0.0820、M2的0.0752、M3的0.0739、M4的0.0764和M5的0.1037低约12.2%、4.26%、2.57%、5.76%和30.57%。在D1和D2上可以发现类似的结果。(2) MSNL的计算效率具有竞争力。如表IV所示,MSNL在D3上的总时间成本最小。因此,MSNL的计算效率具有竞争力。
V.结论MSNL模型在预测UWN生成的SHDI矩阵的缺失数据方面显示出巨大的潜力。其高度精确的表示增强了其实用性。未来,我们将继续探索模型学习算法的并行化机制,从而进一步提高模型的计算效率。
服务器租用托管,机房租用托管,主机租用托管,https://www.e1idc.com