基于信息熵的加权基因关联网络融合方法

伍度志; 杨帆; 赵静

doi:10.3969/j.issn.1001-0548.2018.02.020

基于信息熵的加权基因关联网络融合方法

doi: 10.3969/j.issn.1001-0548.2018.02.020

1.
重庆工商大学融智学院重庆巴南区 401320
2.
陆军勤务学院数学教研室重庆沙坪坝区 401331
3.
上海中医药大学交叉科学研究院上海浦东新区 201203

基金项目:

国家自然科学基金 61372194

国家自然科学基金 81260672

重庆市研究生教改项目 YJG152017

详细信息

作者简介:
伍度志(1975-), 男, 副教授, 主要从事数理统计及数据挖掘方面的研究

中图分类号: O29

Integration of Weighted Gene Association Networks Based on Information Entropy

1.
Rongzhi College of Chongqing Technology and Business University Banan Chongqing 401320
2.
Department of Mathematics, Army Logistics University of PLA Shapingba Chongqing 401331
3.
Institute of Interdisciplinary Complex Research, Shanghai University of Traditional Chinese Medicine Pudong Shanghai 201203

摘要: 针对加权基因关联网络（WGAN）的融合问题，提出了基于信息熵的加权网络数据融合方法。该方法利用信息熵来刻画基因间连边的不确定程度，并由此实现对4个现有的人类加权基因关联网络的融合，从而获得一个规模更大、生物学信息更丰富的WGAN网络。融合效果的验证结果表明，新的WGAN网络包含了更多的基因连边，其边权比原始网络中的边权有更强的生物学相关性，同时在疾病基因预测中表现出更为满意的效果。
- 数据融合 /
- 疾病基因预测 /
- 信息熵 /
- 加权基因关联网络
Abstract: To integrate information of several weighted genes associated networks (WGAN), this paper proposes a network data integration method based on information entropy. This method uses information entropy to depict uncertain degree of gene-gene links, and thus realizes the integration of four existing human weighted genes associated network to construct a larger WGAN network which includes richer biology information. This new WGAN network contains more edges than each of the original network, and the edge weights have higher biological relevance than in the original networks. It also exhibits more satisfactory performance in disease genes prediction.
- data integration /
- disease genes prediction /
- information entropy /
- weighted gene association networks

图 1 网络融合过程简略图

下载: 全尺寸图片幻灯片

图 2 θ和H对融合系数的影响

下载: 全尺寸图片幻灯片

图 3 参数θ的训练

下载: 全尺寸图片幻灯片

图 4 融合前后网络与GO网络的比较

下载: 全尺寸图片幻灯片

图 5 用留一交叉验证比较融合前后网络的疾病基因预测效果

下载: 全尺寸图片幻灯片

图 6 融合前后的网络预测效果比较

下载: 全尺寸图片幻灯片

表 1 4个原始网络的基本信息

网络	节点数	连边数	共同节点所占比例/%	共同连边所占比例/%
HIPPIE	16 514	235 184	73.43	11.24
FunCoup	16 626	4 044 929	72.94	0.65
HumanNet	16 243	476 399	74.66	4.05
STRING	16 213	3 180 982	74.80	0.83

下载: 导出CSV

表 2 并集网络N的部分数据

Gene ID	Gene ID	W_HIPPIE	W_HumanNet	W_FunCoup	W_STRING
790	1 629	0.106	ε	ε	0.479
790	1 633	ε	ε	ε	0.413
790	1 642	1-ε	ε	ε	ε
790	1 644	0.134	ε	0.115	0.856
3 312	3 717	0.389	0.730	0.371	0.652

下载: 导出CSV

[1]	周涛, 张子柯, 陈关荣, 等.复杂网络研究的机遇与挑战[J].电子科技大学学报, 2014, 43(1):1-5. http://manu50.magtech.com.cn/dzkjdx/CN/abstract/abstract354.shtml ZHOU Tao, ZHANG Zi-ke, CHEN Guan-rong, et al. The opportunities and challenges of complex network research[J]. Journal of University of Electronic Science and Technology of China, 2014, 43(1):1-5. http://manu50.magtech.com.cn/dzkjdx/CN/abstract/abstract354.shtml
[2]	WILLIAMSON M P, SUTCLIFFE M J. Protein-protein interactions[J]. Biochemical Society Transactions, 2010, 38(4):875-878. doi: 10.1042/BST0380875
[3]	ZHANG B, HORVATH S. A general framework for weighted gene co-expression network analysis[J]. Statistical Applications in Genetics and Molecular Biology, 2005, 4(1):1128. http://www.bepress.com/sagmb/vol4/iss1/art17/
[4]	CILIBERTO G, COLANTUONI V, DE FRANCESCO R, et al. Transcriptional control of gene expression in hepatic cells[M]//KARIN M. Gene Eexpression: General and Cell-Type-Specific. [S. l. ]: Birkhäuser, 1993.
[5]	MARTINI P, SALES G, MASSA M S, et al. Along signal paths:an empirical gene set approach exploiting pathway topology[J]. Nucleic Acids Research, 2013, 41(1):e19. doi: 10.1093/nar/gks866
[6]	SCHAEFER M H, FONTAINE J F, VINAYAGAM A, et al. HIPPIE:Integrating protein interaction networks with experiment based quality scores[J]. PloS One, 2012, 7(2):e31826. doi: 10.1371/journal.pone.0031826
[7]	LEE I, BLOM U M, WANG P I, et al. Prioritizing candidate disease genes by network-based boosting of genome-wide association data[J]. Genome Research, 2011, 21(7):1109-1121. doi: 10.1101/gr.118992.110
[8]	FRANCESCHINI A, SZKLARCZYK D, FRANKILD S, et al. STRING v9. 1:Protein-protein interaction networks, with increased coverage and integration[J]. Nucleic Acids Research, 2013, 41(D1):D808-D815. http://nar.oxfordjournals.org/content/early/2012/11/29/nar.gks1094.abstract?cited-by=yeslgks1094v1rgks1094v1
[9]	ALEXEYENKO A, SONNHAMMER E L. Global networks of functional coupling in eukaryotes from comprehensive data integration[J]. Genome Research, 2009, 19(6):1107-1116. doi: 10.1101/gr.087528.108
[10]	CHATR-ARYAMONTRI A, BREITKREUTZ B J, OUGHTRED R, et al. The BioGRID interaction database:2015 update[J]. Nucleic Acids Research, 2015, 43(D1):D470-D478. doi: 10.1093/nar/gku1204
[11]	HERMJAKOB H, MONTECCHI-PALAZZI L, LEWINGTON C, et al. IntAct:an open source molecular interaction database[J]. Nucleic Acids Research, 2004, 32(suppl 1):D452-D455. https://www.ncbi.nlm.nih.gov/pubmed/14681455
[12]	CHATR-ARYAMONTRI A, CEOL A, PALAZZI L M, et al. MINT:the molecular INTeraction database[J]. Nucleic Acids Research, 2007, 35(suppl 1):D572-D574. doi: 10.1093/nar/gkl950
[13]	XENARIOS I, SALWINSKI L, DUAN X J, et al. DIP, the database of interacting proteins:a research tool for studying cellular networks of protein interactions[J]. Nucleic Acids Research, 2002, 30(1):303-305. doi: 10.1093/nar/30.1.303
[14]	BADER G D, BETEL D, HOGUE C W V. BIND:the biomolecular interaction network database[J]. Nucleic Acids Research, 2003, 31(1):248-250. doi: 10.1093/nar/gkg056
[15]	Gene Ontology Consortium. The gene ontology (GO) database and informatics resource[J]. Nucleic Acids Research, 2004, 32(suppl 1):D258-D261. https://www.scienceopen.com/document/vid/ff8e67ed-27b9-43c2-9fe5-0060e046222f
[16]	RE M, VALENTINI G. Random walking on functional interaction networks to rank genes involved in cancer[C]//IFIP International Conference on Artificial Intelligence Applications and Innovations. Berlin, Heidelberg: Springer, 2012: 66-75.
[17]	TABOADA B, VERDE C, MERINO E. High accuracy operon prediction method based on STRING database scores[J]. Nucleic Acids Research, 2010, 38(12):e130. doi: 10.1093/nar/gkq254
[18]	ZHAO J, WANG C L, YANG T H, et al. A comparison of three weighted human gene functional association networks[C]//2012 IEEE 6th International Conference on Systems Biology (ISB). [S. l. ]: IEEE, 2012: 26-31.
[19]	COVER T M, THOMAS J A. Elements of information theory[M].[S.l.]:John Wiley & Sons, 2012.
[20]	吕琳媛.复杂网络链路预测[J].电子科技大学学报, 2010, 39(5):651-661. http://manu50.magtech.com.cn/dzkjdx/CN/abstract/abstract1170.shtml LÜ Lin-yuan. Link prediction on complex network[J]. Journal of University of Electronic Science and Technology of China, 2010, 39(5):651-661. http://manu50.magtech.com.cn/dzkjdx/CN/abstract/abstract1170.shtml
[21]	LINGHU B, SNITKIN E S, HU Z, et al. Genome-wide prioritization of disease genes and identification of disease-disease associations from an integrated human functional linkage network[J]. Genome Biology, 2009, 10(9):1-17. http://www.genomebiology.com/2009/10/9/R91/citation
[22]	HAMOSH A, SCOTT A F, AMBERGER J S, et al. Online mendelian inheritance in man (OMIM), a knowledgebase of human genes and genetic disorders[J]. Nucleic Acids Research, 2005, 33(suppl 1):D514-D517. doi: 10.1093/nar/gki033
[23]	HANCOCK A M, WITONSKY DB, GORDON A S, et al. Adaptations to climate in candidate genes for common metabolic disorders[J]. PLoS Genetics, 2008, 4(2):e32. doi: 10.1371/journal.pgen.0040032
[24]	REFAEILZADEH P, TANG L, LIU H. Cross-validation[M]//Encyclopedia of Database Systems. [S. l. ]: Springer US, 2009: 532-538.

[1]	王璞, 肖健和, 李明伦, 郭宝. 地铁乘客站点的选择行为分析及预测 . 电子科技大学学报, 2022, 51(4): 623-629. doi: 10.12178/1001-0548.2022031
[2]	林水生, 卫伯言, 杨海芬, 熊勇, 朱磊基, 于良. 引入新数据源的D-S融合检测方法 . 电子科技大学学报, 2021, 50(6): 861-867. doi: 10.12178/1001-0548.2020400
[3]	宋勇, 蔡志平. 一种基于信息论模型的入侵检测特征提取方法 . 电子科技大学学报, 2018, 47(2): 267-271. doi: 10.3969/j.issn.1001-0548.2018.02.017
[4]	何兴高, 李蝉娟, 王瑞锦, 邓伏虎, 刘行. 基于信息熵的高维稀疏大数据降维算法研究 . 电子科技大学学报, 2018, 47(2): 235-241. doi: 10.3969/j.issn.1001-0548.2018.02.012
[5]	孙晶涛, 张秋余. 不均衡大数据集下的文本特征基因提取方法 . 电子科技大学学报, 2018, 47(1): 125-131. doi: 10.3969/j.issn.1001-0548.2018.01.019
[6]	赵静, 林丽梅. 基于分子网络的疾病基因预测方法综述 . 电子科技大学学报, 2017, 46(5): 755-765. doi: 10.3969/j.issn.1001-0548.2017.05.019
[7]	杨珺, 马秦生, 王敏, 曹阳. 网络取证隐马尔可夫模型证据融合方法 . 电子科技大学学报, 2013, 42(3): 350-354. doi: 10.3969/j.issn.1001-0548.2013.03.006
[8]	唐雪飞, 杨陈皓, 牛新征. 复杂网络链路危险度预测模型研究 . 电子科技大学学报, 2013, 42(3): 442-447. doi: 10.3969/j.issn.1001-0548.2013.03.024
[9]	刘全, 高俊, 郭云玮, 刘思洋. 基于线性加权数据融合的协作频谱感知优化 . 电子科技大学学报, 2012, 41(5): 697-701,786. doi: 10.3969/j.issn.1001-0548.2012.05.011
[10]	荣健, 乔文钊. 基于模糊神经系统的多传感器数据融合算法 . 电子科技大学学报, 2010, 39(3): 376-378,424.
[11]	胡威, 李建华, 陈秀真, 蒋兴浩. 可扩展的网络安全态势评价模型优化设计 . 电子科技大学学报, 2009, 38(1): 113-116.
[12]	胡学海, 王厚军, 任代蓉. 稳定高效节能且邻近相关的网络拓扑协议 . 电子科技大学学报, 2009, 38(3): 397-400. doi: 10.3969/j.issn.1001-0548.2009.03.019
[13]	关欣, 孙晓明, 何友. 一种冲突证据的融合方法 . 电子科技大学学报, 2007, 36(1): 30-32,56.
[14]	舒红平, 徐振明, 邹书蓉, 何嘉. 网格聚类在多雷达数据融合算法中的应用 . 电子科技大学学报, 2007, 36(6): 1253-1256.
[15]	范自柱, 刘二根, 徐保根. 互信息在图像检索中的应用 . 电子科技大学学报, 2007, 36(6): 1311-1314.
[16]	郭磊, 唐斌, 刘刚. 基于辐射源信号特征信息的JPDA无源跟踪算法 . 电子科技大学学报, 2007, 36(1): 27-29.
[17]	罗光春, 卢显良, 张骏, 李炯. 基于多传感器数据融合的入侵检测机制 . 电子科技大学学报, 2004, 33(1): 71-74.
[18]	张冰, 邱志强. 模糊神经网络在雷达网数据融合中的研究 . 电子科技大学学报, 2001, 30(1): 29-32.
[19]	李艾华, 张西宁, 屈梁生. 印刷电路板诊断信息流模型及其应用 . 电子科技大学学报, 2000, 29(1): 49-53.
[20]	周先敏, 陈隽永, 王光泰. 多分辨数据融合中信号的分解与重构 . 电子科技大学学报, 1998, 27(3): 231-235.

点击查看大图

图(6) / 表(2)

计量

文章访问数: 4057
HTML全文浏览量: 1275
PDF下载量: 123
被引次数: 0

全文HTML

加权基因关联网络(weighted gene association network, WGAN)是表示基因间功能相关关系的复杂网络^[1]，其中节点代表基因，边代表基因间的相互作用，权重代表相互作用的可信度。WGAN网络的构建是为了克服目前已有的生物学实验数据与实际存在的基因功能相关关系相比严重不足、以及高通量实验的结果存在严重噪声的问题。通常采用计算方法整合与基因的功能联系相关的各种生物学特征的数据源，推断基因之间的关联关系，并对每一对关联关系赋予置信分，作为网络中边的权重，从而构建加权的基因关联网络。因此这类网络既包含了一些特定类型的基因或蛋白间的相互作用信息，如蛋白-蛋白相互作用^[2](PPI)、基因共表达^[3]、转录调控^[4]、信号通路^[5]等，又比特定类型的分子网络包含更广泛的信息。

目前，基因相关关系的数据融合方法主要分为主观打分融合方法、相似性融合方法和统计推断打分方法3种类型。通过这些方法已经构建了一些WGAN网络，就人类基因组而言，有HIPPIE^[6]、HumanNet^[7]、STRING^[8]以及FunCoup^[9]网络等。文献[6]收集了现有的蛋白-蛋白相互作用数据库BioGrid^[10]、IntAct^[11]、MINT^[12]、DIP^[13]、BIND^[14]等中的数据，基于试验方法的先进性、支持基因间关联关系的文献数目以及在非人类物种中存在该连接的基因对数目3种不同的信息，自定义了一种基因对的打分方法，对每一对基因间的关联关系的可靠性进行打分，从而构建了HIPPIE网络。文献[7]基于概率似然比提出一种统一的网络边权打分方法，该方法以基因本体注释数据库GO(gene ontology)^[15]为背景网络，对21个基因功能数据集中的每一条边进行重新打分，得到了HumanNet网络。文献[8]通过建立朴素贝叶斯分类器模型方法，融合多种与基因关联关系相关的生物学数据源，得到了一个加权基因关联网络STRING网络。文献[9]选取了八大真核生物体的大规模数据，通过朴素贝叶斯模型方法融合得到了FunCoup网络。

基于网络的复杂疾病病理学和药理学的研究，广泛应用人类全基因组加权基因关联网络作为背景网络，以识别疾病相关基因、探测药物对应的网络药靶，从而加深复杂疾病的医学认识、改进复杂疾病的治疗。可以想见，背景网络的质量，与相关研究结果的精确度是相关的。现有的人类全基因组基因关联网络如HumanNet、STRING和FunCoup等，各自在生物学基础研究及疾病研究中都有成功应用的案例^[16-18]。然而，这些网络间却存在着巨大差异。它们虽然包含了80%以上相同的基因，但拥有的相同的关联边却很少，低于各自总边数的10%。如果在这些已有的WGAN的基础上，进一步识别其中包含的正确信息，将它们融合成一个信息更全、更准确的加权基因关联网络，对于更好地从系统水平理解细胞内部生物学过程、以及研究复杂疾病的病理, 都是很有意义的。

本文利用信息熵^[19]刻画基因连边权重的不确定度，提出了基于信息熵理论的融合策略，在现有4个人类全基因组WGAN基础上，充分利用多个网络中所有连边的信息来构造包含更多节点和边的WGAN。本文将原有网络及新构建的网络分别用于肥胖症的疾病基因预测^[20]，以检验新网络的应用价值。

4. 结束语

本文研究是加权基因关联网络数据融合方面的一个新的尝试，提出了一种基于信息熵的WGAN网络数据融合方法，将现有的人类加权基因关联网络的信息进行整合。通过此方法，本文构建了一个包含现有网络所有节点和边信息的融合网络FN。通过与GO网络对比显示，FN的边权比原始网络中的边权有更强的生物学相关性。将FN与原始网络同时用于肥胖症的疾病基因预测，发现FN的预测效果高于或相当于效果最好的原始网络STRING，说明此网络可以用于疾病基因预测。此工作在生物网络数据整合以及疾病基因预测的研究方面都有重要的价值。

参考文献 (24)

姓名
邮箱
手机号码
标题
留言内容
验证码

留言板

基于信息熵的加权基因关联网络融合方法

doi: 10.3969/j.issn.1001-0548.2018.02.020

作者简介:
伍度志(1975-), 男, 副教授, 主要从事数理统计及数据挖掘方面的研究

Integration of Weighted Gene Association Networks Based on Information Entropy

计量

基于信息熵的加权基因关联网络融合方法

doi: 10.3969/j.issn.1001-0548.2018.02.020

1. 重庆工商大学融智学院重庆巴南区 401320

2. 陆军勤务学院数学教研室重庆沙坪坝区 401331

3. 上海中医药大学交叉科学研究院上海浦东新区 201203

作者简介:
伍度志(1975-), 男, 副教授, 主要从事数理统计及数据挖掘方面的研究

English Abstract

Integration of Weighted Gene Association Networks Based on Information Entropy

全文HTML

1.1. 网络边权的不确定度刻画

1.2. WGAN网络连边权重预处理

1.3. 基于信息熵的WGAN网络数据融合模型

1.4. 模型参数确定

2.1. 原始网络预处理

2.2. 4个WGAN网络的融合

3.1. 预测方法概述

3.2. 预测效果分析

目录

期刊在线

编辑办公

友情链接

留言板

基于信息熵的加权基因关联网络融合方法

doi: 10.3969/j.issn.1001-0548.2018.02.020

作者简介: 伍度志(1975-), 男, 副教授, 主要从事数理统计及数据挖掘方面的研究

Integration of Weighted Gene Association Networks Based on Information Entropy

计量

出版历程

基于信息熵的加权基因关联网络融合方法

doi: 10.3969/j.issn.1001-0548.2018.02.020

1. 重庆工商大学融智学院 重庆 巴南区 401320 2. 陆军勤务学院数学教研室 重庆 沙坪坝区 401331 3. 上海中医药大学交叉科学研究院 上海 浦东新区 201203

作者简介: 伍度志(1975-), 男, 副教授, 主要从事数理统计及数据挖掘方面的研究

English Abstract

Integration of Weighted Gene Association Networks Based on Information Entropy

全文HTML

1.1. 网络边权的不确定度刻画

1.2. WGAN网络连边权重预处理

1.3. 基于信息熵的WGAN网络数据融合模型

1.4. 模型参数确定

2.1. 原始网络预处理

2.2. 4个WGAN网络的融合

3.1. 预测方法概述

3.2. 预测效果分析

目录

期刊在线

编辑办公

友情链接

作者简介:
伍度志(1975-), 男, 副教授, 主要从事数理统计及数据挖掘方面的研究

1. 重庆工商大学融智学院重庆巴南区 401320

2. 陆军勤务学院数学教研室重庆沙坪坝区 401331

3. 上海中医药大学交叉科学研究院上海浦东新区 201203

作者简介:
伍度志(1975-), 男, 副教授, 主要从事数理统计及数据挖掘方面的研究