致病氨基酸变异预测的新型融合模型

邵爱斌; 杨洋

doi:10.12178/1001-0548.2021334

致病氨基酸变异预测的新型融合模型

doi: 10.12178/1001-0548.2021334

邵爱斌^{1, 2},
杨洋^{1, 2, ,}

1.
苏州大学计算机科学与技术学院　江苏苏州　215006
2.
软件新技术与产业化协同创新中心　南京　210000

基金项目: 江苏省高等学校自然科学研究重大项目(20KJA520010)

详细信息

作者简介:
邵爱斌(1997 − )，男，主要从事生物信息计算方面的研究

通讯作者: 杨洋，E-mail：yyang@suda.edu.cn

中图分类号: TP391

A Novel Fusion Model for Predicting Pathogenic Amino Acid Substitution

SHAO Aibin^{1, 2},
YANG Yang^{1, 2
, ,}

1.
School of Computer Science and Technology, Soochow University　Suzhou Jiangsu　215006
2.
Collaborative Innovation Center of Novel Software Technology and Industrialization　Nanjing　210000

摘要: 氨基酸变异常常会影响蛋白质的结构和功能，进而导致疾病。当前，研究者们已经提出了一些基于计算的方法来预测氨基酸变异致病性。该文构建了一个新型融合模型，旨在提高预测性能和泛化性。首先，提取影响致病性的各类生物特征并用递归特征消除RFE方法筛选最优特征子集。然后，建立包含卷积神经网络和双向长短期记忆神经网络的深度学习模型提取特征，并以拼接的方式融合这两类特征作为模型输入。最后，构建一个基于XGBoost、CatBoost、LightGBM和随机森林的融合模型，用以预测氨基酸变异致病性。该融合模型的10重交叉验证准确性为92.8%，盲测准确性为93.1%，取得了当前最高的预测准确性和泛化性。该工具可用于辅助临床诊断和药物设计，降低研发成本。
- 氨基酸变异 /
- 双向长短期记忆神经网络 /
- 卷积神经网络 /
- 融合模型 /
- 致病性预测
Abstract: Amino acid substitution often affects the structure and function of proteins, leading to diseases. At present, researchers have proposed some computational methods to predict the pathogenicity of amino acid substitution. This paper constructs a new fusion model to improve the prediction performance and generalization. Firstly, various biological features affecting pathogenicity are extracted and the optimal feature subset is screened by recursive feature elimination (RFE) method. Then, a deep learning model including convolutional neural networks and bi-directional long-short term memory is established to extract features, and the two types of features are fused in a splicing way as model input. Finally, a fusion model based on XGBoost, CatBoost, LightGBM and Random Forest is constructed to predict the pathogenicity of amino acid substitution. The 10-fold cross validation accuracy of the fusion model is 92.8%, and the blind test accuracy is 93.1%, achieving the highest prediction accuracy and generalization to date. The tool can be used to assist clinical diagnosis and drug design and reduce research and development costs.
- amino acid substitution /
- bi-directional long-short term memory /
- convolutional neural networks /
- fusion model /
- pathogenicity prediction

图 1 致病氨基酸变异预测的新型融合模型的工作流程

下载: 全尺寸图片幻灯片

图 2 融合预测算法工作流程

下载: 全尺寸图片幻灯片

图 3 盲测集ROC曲线

下载: 全尺寸图片幻灯片

表 1 实验数据来源和分布个

数据来源	致病变异	中性变异	总数
人类	17631	18494	36125
动物	317	312	629
植物	3236	1899	5135
总数	21184	20705	41889

下载: 导出CSV

表 2 筛选不同数量特征的CV结果

评价指标	10个特征	20个特征	50个特征	100个特征	全部特征
阳性预测值(PPV)	0.910	0.909	0.909	0.908	0.908
阴性预测值(NPV)	0.882	0.885	0.885	0.884	0.885
敏感性(TPR)	0.892	0.896	0.896	0.895	0.895
特异性(TNR)	0.901	0.899	0.899	0.899	0.898
准确性(ACC)	0.896	0.897	0.898	0.897	0.897
马修斯相关系数(MCC)	0.792	0.794	0.795	0.793	0.793
总体绩效指标(OPM)	0.719	0.722	0.723	0.720	0.721

下载: 导出CSV

表 3 深度学习网络中的参数

网络层	参数
输入	sentence_length=1500; n_batches=512
丢弃层	rate=0.5
嵌入层	input_dim=21; output_dim=128
卷积网络层	5层filters=32,32,64,64,128; 3种filter_length=(75或3); activation=relu
最大池化层	default
批标准化层	default
双向长短期记忆神经网络层	lstm_output_size=70; dropout=0.2
全连接层	units=8; activation=relu
丢弃层	rate=0.2
全连接层	units=1; activation=sigmoid

下载: 导出CSV

表 4 神经网络训练的模型性能结果

评价指标	神经网络模型
阳性预测值(PPV)	0.844
阴性预测值(NPV)	0.855
敏感性(TPR)	0.875
特异性(TNR)	0.821
准确性(ACC)	0.849
马修斯相关系数(MCC)	0.697
总体绩效指标(OPM)	0.612

下载: 导出CSV

表 5 融合模型10重交叉验证结果

评价指标	本文融合模型
阳性预测值(PPV)	0.932
阴性预测值(NPV)	0.922
敏感性(TPR)	0.930
特异性(TNR)	0.925
准确性(ACC)	0.928
马修斯相关系数(MCC)	0.855
总体绩效指标(OPM)	0.798

下载: 导出CSV

表 6 与常用的预测模型在盲测集上的性能结果比较

评价指标	本文融合模型	Polyphen2	CADD	PON-P2	DEOGEN2	MetaSVM	ClinPred	PrimateAI
阳性预测值(PPV)	0.932	0.702	0.716	0.962	0.945	0.950	0.968	0.827
阴性预测值(NPV)	0.930	0.832	0.877	0.914	0.843	0.845	0.866	0.556
敏感性(TPR)	0.934	0.877	0.909	0.908	0.822	0.825	0.850	0.264
特异性(TNR)	0.927	0.621	0.643	0.964	0.952	0.957	0.972	0.943
准确性(ACC)	0.931	0.750	0.775	0.937	0.887	0.891	0.911	0.600
马修斯相关系数(MCC)	0.861	0.516	0.572	0.874	0.780	0.788	0.828	0.282
总体绩效指标(OPM)	0.806	0.433	0.483	0.822	0.704	0.713	0.762	0.259
覆盖率(Coverage)	1.000	0.755	0.769	0.542	0.766	0.765	0.765	0.744

下载: 导出CSV

[1]	ADZHUBEI I A, SCHMIDT S, PESHKIN L, et al. A method and server for predicting damaging missense mutations[J]. Nature Methods, 2010, 7(4): 248-249. doi: 10.1038/nmeth0410-248
[2]	RENTZSCH P, WITTEN D, COOPER G M, et al. CADD: Predicting the deleteriousness of variants throughout the human genome[J]. Nuclc Acids Research, 2019, 47(D1): 886-894. doi: 10.1093/nar/gky1016
[3]	NIROULA A, UROLAGIN S, VIHINEN M. PON-P2: Prediction method for fast and reliable identification of harmful variants[J]. Plos One, 2015, 10(2): e0117380. doi: 10.1371/journal.pone.0117380
[4]	RAIMONDI D, TANYALCIN I, FERTÉ J, et al. DEOGEN2: Prediction and interactive visualization of single amino acid variant deleteriousness in human proteins[J]. Nucleic Acids Research, 2017, 45(W1): 201-206. doi: 10.1093/nar/gkx390
[5]	KIM S, JHONG J H, LEE J J, et al. Meta-analytic support vector machine for integrating multiple omics data[J]. BioData Mining, 2017, 10(1): 1-14. doi: 10.1186/s13040-016-0121-5
[6]	ALIREZAIE N, KERNOHAN K D, HARTLEY T, et al. ClinPred: Prediction tool to identify disease-relevant nonsynonymous single-nucleotide variants[J]. The American Journal of Human Genetics, 2018, 103(4): 474-483. doi: 10.1016/j.ajhg.2018.08.005
[7]	LANDRUM M J, LEE J M, RILEY G R, et al. ClinVar: Public archive of relationships among sequence variation and human phenotype[J]. Nucleic Acids Research, 2014, 42(D1): 980-985. doi: 10.1093/nar/gkt1113
[8]	SUNDARAM L, GAO H, PADIGEPATI S R, et al. Predicting the clinical impact of human mutation with deep neural networks[J]. Nature Genetics, 2018, 50(8): 1161-1170. doi: 10.1038/s41588-018-0167-z
[9]	SARKAR A, YANG Y, VIHINEN M. Variation benchmark datasets: Update, criteria, Quality and applications[J]. Database, 2020, DOI: 10.1093/database/baz117.
[10]	NAIR P S, VIHINEN M. VariBench: A benchmark database for variations[J]. Human Mutation, 2013, 34(1): 42-49. doi: 10.1002/humu.22204
[11]	KARCZEWSKI K J, WEISBURD B, THOMAS B, et al. The ExAC browser: Displaying reference data information from over 60 000 exomes[J]. Nucleic Acids Research, 2017, 45(D1): 840-845. doi: 10.1093/nar/gkw971
[12]	NICHOLAS F W. Online mendelian inheritance in animals (OMIA): A comparative knowledgebase of genetic disorders and other familial traits in non-laboratory animals[J]. Nucleic Acids Research, 2003, 31(1): 275-277. doi: 10.1093/nar/gkg074
[13]	PLEKHANOVA E, NUZHDIN S V, UTKIN L V, et al. Prediction of deleterious mutations in coding regions of mammals with transfer learning[J]. Evolutionary Applications, 2019, 12(1): 18-28. doi: 10.1111/eva.12607
[14]	KOVALEV M S, IGOLKINA A A, SAMSONOVA M G, et al. A pipeline for classifying deleterious coding mutations in agricultural plants[J]. Frontiers in Plant Science, 2018, 9: 1734. doi: 10.3389/fpls.2018.01734
[15]	YANG Y, NIROULA A, SHEN B R, et al. PON-Sol: Prediction of effects of amino acid substitutions on protein solubility[J]. Bioinformatics, 2016, 32(13): 2032-2034. doi: 10.1093/bioinformatics/btw066
[16]	KAWASHIMA S, KANEHISA M. AAindex: Amino acid index database[J]. Nucleic Acids Research, 2000, 28(1): 374. doi: 10.1093/nar/28.1.374
[17]	SHEN B R, VIHINEN M. Conservation and covariance in PH domain sequences: Physicochemical profile and information theoretical analysis of XLA-causing mutations in the Btk PH domain[J]. Protein Engineering Design and Selection, 2004, 17(3): 267-276. doi: 10.1093/protein/gzh030
[18]	LOCKWOOD S, KRISHNAMOORTHY B, YE P. Neighborhood properties are important determinants of temperature sensitive mutations[J]. Plos One, 2011, 6(12): e28507. doi: 10.1371/journal.pone.0028507
[19]	BUCHFINK B, XIE C, HUSON D H. Fast and sensitive protein alignment using DIAMOND[J]. Nature Methods, 2015, 12(1): 59-60. doi: 10.1038/nmeth.3176
[20]	SHOMER B. Seqalert-a daily sequence alertness server for the Embl and Swissprot databases[J]. Bioinformatics, 1997, 13(5): 545-547. doi: 10.1093/bioinformatics/13.5.545
[21]	VASER R, ADUSUMALLI S, LENG S N, et al. SIFT missense predictions for genomes[J]. Nature Protoc, 2016, 11(1): 1-9. doi: 10.1038/nprot.2015.123
[22]	CARBON S, IRELAND A, MUNGALL C J, et al. AmiGO: Online access to ontology and annotation data[J]. Bioinformatics, 2009, 25(2): 288-289. doi: 10.1093/bioinformatics/btn615
[23]	MUNOZ-TORRES M, CARBON S. Get GO! Retrie ving GO data using AmiGO, QuickGO, API, files, and tools[M]. New York: Springer, 2017.
[24]	GUYON I, WESTON J, BARNHILL S, et al. Gene selection for cancer classification using support vector machines[J]. Machine Learning, 2002, 46(1): 389-422.
[25]	KE G, MENG Q, FINLEY T, et al. Lightgbm: A highly efficient gradient boosting decision tree[J]. Advances in Neural Information Processing Systems, 2017, 30: 3146-3154.
[26]	CHEN T, GUESTRIN C. Xgboost: A scalable tree boosting system[C]//Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. San Francisco: Association for Computing Machinery, 2016: 785-794.
[27]	李洪顺, 于华, 宫秀军. 一种只利用序列信息预测RNA结合蛋白的深度学习模型[J]. 计算机研究与发展, 2018, 55(1): 93-101. doi: 10.7544/issn1000-1239.2018.20160508 LI H S, YU H, GONG X J. A deep learning model for predicting RNA-binding proteins only from primary sequences[J]. Journal of Computer Research and Development, 2018, 55(1): 93-101. doi: 10.7544/issn1000-1239.2018.20160508

[1]	刘勇国, 高攀, 兰荻, 朱嘉静. ECA-SKNet：玉米单倍体种子的卷积神经网络识别模型 . 电子科技大学学报, 2023, 52(6): 866-871. doi: 10.12178/1001-0548.2022361
[2]	范兴奎, 刘广哲, 王浩文, 马鸿洋, 李伟, 王淑梅. 基于量子卷积神经网络的图像识别新模型 . 电子科技大学学报, 2022, 51(5): 642-650. doi: 10.12178/1001-0548.2022279
[3]	周丰丰, 牛甲昱. 细胞穿膜肽识别问题的多特征融合卷积网络预测算法 . 电子科技大学学报, 2022, 51(4): 494-499. doi: 10.12178/1001-0548.2021391
[4]	周书田, 颜信, 谢镇汕. 一种增强人脸识别模型训练稳定性的损失函数 . 电子科技大学学报, 2021, 50(1): 59-62. doi: 10.12178/1001-0548.2020226
[5]	周书田, 颜信, 谢镇汕. 视频人脸识别中高效分解卷积与时间金字塔网络研究 . 电子科技大学学报, 2021, 50(2): 231-235. doi: 10.12178/1001-0548.2020319
[6]	赵学功, 邓佳坤, 魏浩然, 彭真明. 基于卷积神经网络的眼底图像微血管瘤检测方法 . 电子科技大学学报, 2021, 50(6): 915-920. doi: 10.12178/1001-0548.2021186
[7]	吴涢晖, 赵子天, 陈晓雷, 邹士亚. 大气低频声信号识别深度学习方法研究 . 电子科技大学学报, 2020, 49(5): 758-765. doi: 10.12178/1001-0548.2019297
[8]	胡青松, 张亮, 丁娟, 李世银. 人体动作数据编码与CNN精确识别 . 电子科技大学学报, 2020, 49(3): 473-480. doi: 10.12178/1001-0548.2019108
[9]	杜娟, 刘志刚, 宋考平, 杨二龙. 基于卷积神经网络的抽油机故障诊断 . 电子科技大学学报, 2020, 49(5): 751-757. doi: 10.12178/1001-0548.2019205
[10]	邓钰, 雷航, 李晓瑜, 林奕欧. 用于目标情感分类的多跳注意力深度模型 . 电子科技大学学报, 2019, 48(5): 759-766. doi: 10.3969/j.issn.1001-0548.2019.05.016
[11]	佟国香, 田飞翔. 基于CNNs的两次训练融合的分类方法 . 电子科技大学学报, 2019, 48(5): 774-778. doi: 10.3969/j.issn.1001-0548.2019.05.018
[12]	陈俊周, 王娟, 龚勋. 基于级联生成对抗网络的人脸图像修复 . 电子科技大学学报, 2019, 48(6): 910-917. doi: 10.3969/j.issn.1001-0548.2019.06.016
[13]	李润东, 李立忠, 李少谦, 宋熙煜, 何鹏. 基于稀疏滤波神经网络的智能调制识别 . 电子科技大学学报, 2019, 48(2): 161-167. doi: 10.3969/j.issn.1001-0548.2019.02.001
[14]	田文洪, 曾柯铭, 莫中勤, 吝博强. 基于卷积神经网络的驾驶员不安全行为识别 . 电子科技大学学报, 2019, 48(3): 381-387. doi: 10.3969/j.issn.1001-0548.2019.03.012
[15]	胡旺, 张建, 陈维锋, 胡斌, 郭红梅. 基于神经网络的烈度衰减融合模型研究 . 电子科技大学学报, 2018, 47(2): 224-229. doi: 10.3969/j.issn.1001-0548.2018.02.010
[16]	郭继昌, 李翔鹏. 基于卷积神经网络和密度分布特征的人数统计方法 . 电子科技大学学报, 2018, 47(6): 806-813. doi: 10.3969/j.issn.1001-0548.2018.06.002
[17]	唐贤伦, 刘庆, 张娜, 周家林. 混合PSO优化卷积神经网络结构和参数 . 电子科技大学学报, 2018, 47(2): 230-234. doi: 10.3969/j.issn.1001-0548.2018.02.011
[18]	陈俊周, 汪子杰, 陈洪瀚, 左林翼. 基于级联卷积神经网络的视频动态烟雾检测 . 电子科技大学学报, 2016, 45(6): 992-996. doi: 10.3969/j.issn.1001-0548.2016.06.020
[19]	秦志光, 陈浩, 丁熠, 蓝天, 陈圆, 沈广宇. 基于多模态卷积神经网络的脑血管提取方法研究 . 电子科技大学学报, 2016, 45(4): 573-581. doi: 10.3969/j.issn.1001-0548.2016.04.010
[20]	曹安照, 田丽. 基于RBF神经网络的短期电力负荷预测 . 电子科技大学学报, 2006, 35(4): 507-509.

点击查看大图

图(3) / 表(6)

计量

文章访问数: 4054
HTML全文浏览量: 1217
PDF下载量: 41
被引次数: 0

全文HTML

随着测序成本的大幅降低，测序方法在科研和临床医疗中被广泛使用，由此产生了大量测序信息，也包括了越来越多的变异信息。基因变异导致的氨基酸变异可通过多种方式影响蛋白质的结构和功能。当变异发生在蛋白质的某些关键部位，如催化部位或配体相互作用表面，可能导致蛋白质折叠、结构不稳定或蛋白质聚集，进而导致疾病。为实现个性化医疗，追溯疾病发生的机理，预测氨基酸变异的致病性具有很高的研究价值。

与实验方法相比，计算方法具有预测成本低、效率高的突出优势。近年来，研究者们提出并不断改进了多种相关预测模型。其中，PolyPhen-2^[1]面对不同预测任务灵敏性的需求，构建了HumDiv和HumVar两个数据库，运用朴素贝叶斯预测变异致病性。CADD^[2]使用支持向量机算法，整合了63种基因注释，从而得到C分数来预测致病性。PON-P2^[3]利用基因本体(gene ontology, GO)等特征训练，采用自抽样的方式计算置信度。DEOGEN2^[4]用可视化的方式提供了每个预测的结果、相关蛋白质背景和起源。MetaSVM^[5]开发了基于支持向量机的元分析框架，框架中SVM的目标函数由铰链损失和稀疏组套索组成。ClinPred^[6]首次使用了ClinVar^[7]数据库，并训练了两个模型，分别基于随机森林和XGBoost来获取最高预测结果。PrimateAI^[8]结合6个非人类灵长类动物物种和人类的变异，共收集到38万条变异数据，训练了一个包含36层卷积神经网络的深度学习模型。

随着当前可采集的变异数据量的增加，构建一个新的融合模型以提高预测性能变得可行。因此，本文尝试使用深度学习方法从蛋白序列中提取出一些特征，将这些特征与提取并筛选的有效生物特征融合，作为模型的输入，并构建融合模型训练，旨在达到较高的预测性能。

1. 数据来源

本文所使用的数据包括人类、动物和植物蛋白序列中的氨基酸变异样本，如表1所示。其中，人类致病变异取自VariBench^[9-10]数据库和ClinVar^[7]数据库，共有17631个。按致病变异与无害变异大约1∶1的比例，从ExAC^[11]数据库获取共18494个人类无害变异。对于动物变异数据：1)收集OMIA^[12]数据库中有“likely causal variants”标记的变异；2)从文献[13]获得其他哺乳动物(狗、鼠和牛)的变异。动物致病氨基酸变异共317个，中性变异共312个。进一步从文献[14]取得植物变异数据集，其物种包含拟南芥、水稻和豌豆，数据集由3236个有害变异和1899个中性变异构成。

表 1 实验数据来源和分布个

数据来源致病变异中性变异总数

人类 17631 18494 36125
动物 317 312 629
植物 3236 1899 5135
总数 21184 20705 41889

由于某些蛋白序列过长，影响预测性能，本文筛选出长度不超过1500个的蛋白质序列，共9980条，包含了35179个氨基酸变异，其中致病变异18521个，无害变异16658个。

4. 结束语

氨基酸变异常常会对蛋白质的结构和功能造成影响，进而导致疾病。基于计算的方法作为一种预测氨基酸变异致病性的有效途径，被研究者广泛使用。为了提高预测准确性和泛化性，本文构建了一个新型融合模型。首先，收集到包含人类、动物和植物种群的氨基酸变异作为数据集。接着，提取有效生物特征，并用RFE筛选出最优特征子集。然后，使用深度学习网络提取特征，深度学习网络由CNN和Bi-LSTM组成。将筛选完的生物特征和深度学习网络提取的特征以拼接的方式融合，作为预测输入。最后，构建一个基于XGBoost、CatBoost、LightGBM和随机森林的融合模型，得到最终的预测结果。融合模型的交叉验证准确性ACC达到92.8%，MCC达到85.5%，OPM值为79.8%。与其他工具相比，本文模型具有更高的准确性和泛化性。该模型工具可用于辅助临床诊断和药物设计，降低研发成本。

参考文献 (27)

姓名
邮箱
手机号码
标题
留言内容
验证码

留言板

致病氨基酸变异预测的新型融合模型

doi: 10.12178/1001-0548.2021334

作者简介:
邵爱斌(1997 − )，男，主要从事生物信息计算方面的研究

通讯作者: 杨洋，E-mail：yyang@suda.edu.cn

A Novel Fusion Model for Predicting Pathogenic Amino Acid Substitution

计量

致病氨基酸变异预测的新型融合模型

doi: 10.12178/1001-0548.2021334

1. 苏州大学计算机科学与技术学院　江苏苏州　215006

2. 软件新技术与产业化协同创新中心　南京　210000

作者简介:
邵爱斌(1997 − )，男，主要从事生物信息计算方面的研究

通讯作者: 杨洋，E-mail：yyang@suda.edu.cn

English Abstract

A Novel Fusion Model for Predicting Pathogenic Amino Acid Substitution

1. School of Computer Science and Technology, Soochow University　Suzhou Jiangsu　215006

2. Collaborative Innovation Center of Novel Software Technology and Industrialization　Nanjing　210000

全文HTML

2.1. 生物特征提取

2.2. 生物特征选择

2.3. 通过神经网络提取特征

2.4. 融合预测算法

2.5. 模型评价

3.1. 生物特征筛选结果

3.2. 通过神经网络提取特征的结果

3.3. 融合模型交叉验证性能结果

3.4. 盲测结果及与其他工具比较

目录

期刊在线

编辑办公

友情链接

留言板

致病氨基酸变异预测的新型融合模型

doi: 10.12178/1001-0548.2021334

作者简介: 邵爱斌(1997 − )，男，主要从事生物信息计算方面的研究

通讯作者: 杨洋，E-mail：yyang@suda.edu.cn

A Novel Fusion Model for Predicting Pathogenic Amino Acid Substitution

计量

出版历程

致病氨基酸变异预测的新型融合模型

doi: 10.12178/1001-0548.2021334

1. 苏州大学计算机科学与技术学院 江苏 苏州 215006 2. 软件新技术与产业化协同创新中心 南京 210000

作者简介: 邵爱斌(1997 − )，男，主要从事生物信息计算方面的研究

通讯作者: 杨洋，E-mail：yyang@suda.edu.cn

English Abstract

A Novel Fusion Model for Predicting Pathogenic Amino Acid Substitution

1. School of Computer Science and Technology, Soochow University Suzhou Jiangsu 215006 2. Collaborative Innovation Center of Novel Software Technology and Industrialization Nanjing 210000

全文HTML

2.1. 生物特征提取

2.2. 生物特征选择

2.3. 通过神经网络提取特征

2.4. 融合预测算法

2.5. 模型评价

3.1. 生物特征筛选结果

3.2. 通过神经网络提取特征的结果

3.3. 融合模型交叉验证性能结果

3.4. 盲测结果及与其他工具比较

目录

期刊在线

编辑办公

友情链接

作者简介:
邵爱斌(1997 − )，男，主要从事生物信息计算方面的研究

1. 苏州大学计算机科学与技术学院　江苏苏州　215006

2. 软件新技术与产业化协同创新中心　南京　210000

作者简介:
邵爱斌(1997 − )，男，主要从事生物信息计算方面的研究

1. School of Computer Science and Technology, Soochow University　Suzhou Jiangsu　215006

2. Collaborative Innovation Center of Novel Software Technology and Industrialization　Nanjing　210000