-
人类第三代测序技术的迅速发展,让生命系统组成元件间的相互作用关系信息得到更加快速的积累。基因数据的不断丰富,表型数据的不断增加,为理解疾病与致病基因之间的关系提供了大量有效的数据。在生物数据大量涌现的前提下,利用相关计算技术和模型对数据进行分析与挖掘,加快了生物学研究前进的步伐,可以深层次挖掘疾病表型与致病基因之间的关系,为了解疾病发病机理、疾病临床诊断和疾病预防与治疗提供了便利。
通过几十年的努力,人类已经发现了一些疾病的致病基因,如BRCA1和BRCA2基因在乳腺癌的发生中发挥重要的作用[1],EGFR在肺癌的发生中发挥重要作用[2]。如果能够知道更多疾病的致病基因,则可以在发病前期进行基因检测预防,在发病过程中进行相应的治疗,后续也可以将发病机理应用到药物设计中,从而有效提高疾病的控制与治愈能力。通过疾病表型和致病基因关系的挖掘,使得疾病发病机理一目了然,在疾病发现过程中能直击疾病发病原因,后续治疗能做到药到病除。
-
在2.1节定义的基础上,如果对象类型
$|{\cal{A}}| > 1$ 或者关系类型$|{\cal{R}}| > 1$ 时,该信息网络为异构信息网络。从图4中可以看出在表型−基因双层耦合网${N_{P - G}} = \left( {V = P \cup G,E = {E_{PP}} \cup {E_{PG}} \cup {E_{GG}},W = } \right.{W_{PP}} \cup $ $ {W_{PG}}\cup {W_{GG}})$ 中,表型关联网络${N_P}$ 和基因关联网络${N_G}$ 的节点分属两个类型,通过表型−基因关联网络${N_{PG}}$ 进行耦合,整体上看表型−基因双层耦合网为一个异构网络。 -
元路径(meta-path)[20]主要用来描述异构网络中任意两个节点间的不同路径类型,可以定义为:在带有对象类型映射
$\tau :{\cal{V}} \to {\cal{A}}$ 和链接类型映射$\phi :{\cal{E}} \to {\cal{R}}$ 的异构网络$G = ({\cal{V}},{\cal{E}})$ 的元模板上的一条路径,其形式为${A_1}\mathop \to \limits^{{R_1}} {A_2}\mathop \to \limits^{{R_2}} \cdots \to {A_{l + 1}}$ 。元路径${A_1}\mathop \to \limits^{{R_1}} {A_2}\mathop \to \limits^{{R_2}} \cdots \to {A_{l + 1}}$ 描述了类型${A_1}$ 到类型${A_{l + 1}}$ 间的复合关系$R = {R_1} \circ {R_2} \circ \cdots \circ {R_l}$ ,其中“$ \circ $ ”表示关系上的复合运算。在表型−基因双层耦合网络
${N_{P - G}}$ 中两个节点之间就存在不同类型不同长度的元路径,以图4为例,可以有$P \to P \to G$ 、$P \to P \to G \to G$ 、$P \to P \to $ $P \to P \to G $ 等。对于一个给定的网络,可能存在的元路径数目与路径长度成指数增长[21]。选择不同的元路径,表型与基因之间的关联性也不同,同时,文献[20]指出很长的元路径并不是很有意义,反而路径长度越大,关系越弱,预测也越模糊。因此,在表型与基因的关联预测中,本文主要考虑如下4条元路径,如表1所示。序号 元路径 $M{P_1}$ $P \to P \to G$ $M{P_2}$ $P \to G \to G$ $M{P_3}$ $P \to P \to G \to G$ $M{P_4}$ $P \to G \to P \to G$ -
随机游走(random walk)又称随机游动或随机漫步,是一种数学统计模型,在金融、物理和社交媒体等复杂网络分析中都有广泛应用。随机游走模型是从图上一个或一组节点开始,通过迭代随机的访问图中的每一个节点。每一次移动时,当前节点都以一定的概率移动到他们的邻居节点。因此,图中每个节点都会获得一个经计算得到的当前节点游走到该节点的概率分布值[22]。文献[23]提出了基于双层耦合网络的随机游走RWRH算法。RWRH算法在不同的网络中游走,从网络
${G_1}$ 或者网络${G_2}$ 的某一节点开始进行随机游走,在游走过程中,以一定的概率停留在网络${G_1}$ 的下一个节点或者网络${G_2}$ 的一个节点。在表型−基因双层耦合网络
${N_{P - G}}$ 中选定了元路径,随机游走将基于元路径进行游走,但是,游走到元路径中指定类型节点中的哪一个节点是未知的,即规定了下一步游走的节点类型但不固定某个节点。那么,表型−基因双层耦合网络${N_{P - G}}$ 中节点在既定的元路径$P \to P \to G$ 、$P \to G \to G$ 、$P \to P \to G \to G$ 和$P \to G \to P \to G$ 下由上一个节点游走到下一个节点的跳转概率有如下4种表示:式中,
$i$ 表示第$i$ 步跳转。将上式用矩阵形式表示如下:
1)当
${v^i} \in P\text{,}{v^{i + 1}} \in P$ ,则一步跳转概率矩阵为${ D}_{PP}^{ - 1}{{ W}_{PP}}$ ;2)当
${v^i} \in P\text{,}{v^{i + 1}} \in G$ ,则一步跳转概率矩阵为${ D}_{PG}^{ - 1}{{ W}_{PG}}$ ;3)当
${v^i} \in G\text{,}{v^{i + 1}} \in P$ ,则一步跳转概率矩阵为${ D}_{GP}^{ - 1}{{ W}_{GP}}$ ,${{ W}_{GP}} = { W}_{PG}^{\rm T}$ ;4)当
${v^i} \in G\text{,}{v^{i + 1}} \in G$ ,则一步跳转概率矩阵为${ D}_{GG}^{ - 1}{{ W}_{GG}}$ 。其中,
${{ D}_{PP}}$ 、${{ D}_{PG}}$ 、${{ D}_{GP}}$ 、${{ D}_{GG}}$ 为对角矩阵,对角线上的值分别为${{ W}_{PP}}$ 、${{ W}_{PG}}$ 、${{ W}_{GP}}$ 、${{ W}_{GG}}$ 中对应行元素之和,即:因此,在表型-基因双层耦合网络
${N_{P - G}} = ( V = P \cup G,$ $E = {E_{PP}} \cup {E_{PG}} \cup {E_{GG}},W = {W_{PP}} \cup {W_{PG}} \cup {W_{GG}})$ 中,基于元路径$M{P_1}:P \to P \to G$ 的表型${p_i}$ 到基因${g_i}$ 的跳转概率矩阵${{ X}_{PPG}}$ 可表示为:基于元路径
$M{P_2}:P \to G \to G$ 的表型${p_i}$ 到基因${g_i}$ 的跳转概率矩阵${{ {X}}_{PGG}}$ 可表示为:基于元路径
$M{P_3}:P \to P \to G \to G$ 的表型${p_i}$ 到基因${g_i}$ 的跳转概率矩阵${{ X}_{PPGG}}$ ,可以表示为:基于元路径
$M{P_4}:P \to G \to P \to G$ 的表型${p_i}$ 到基因${g_i}$ 的跳转概率矩阵${{ X}_{PPGG}}$ 可表示为:
Phenotype-Gene Association Analysis and Prediction Based on Double-Layer Coupled Network
doi: 10.12178/1001-0548.2019133
- Received Date: 2019-06-03
- Rev Recd Date: 2019-11-07
- Available Online: 2020-05-28
- Publish Date: 2020-05-01
-
Key words:
- correlation /
- disease phenotype /
- double-layer coupled network /
- pathogenic gene
Abstract: With the completion of genome sequencing and the continuous development of gene technology, the pathogenic genes of some diseases are gradually identified. At present, people have grasped the pathogenic causes of some diseases through scientific experiments, but the pathogenic causes of most diseases, especially those related to genes, are still unknown. In this paper, the mouse data with 85% homology similarity to human is used as the research object. The disease phenotype data set, pathogenic gene data set and confirmed phenotype-gene association data set are constructed into a double-layer coupled network. The data are analyzed and mined by meta-path random walk method, and the uncertainties are predicted on the basis of confirmed phenotype-gene association data. The proposed algorithm achieves better prediction results compared with other algorithms.
Citation: | YU Yong, GU Jie, ZHAO Na, LUO Yong-jun, KAN Shi-lin. Phenotype-Gene Association Analysis and Prediction Based on Double-Layer Coupled Network[J]. Journal of University of Electronic Science and Technology of China, 2020, 49(3): 438-444. doi: 10.12178/1001-0548.2019133 |