留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

姓名
邮箱
手机号码
标题
留言内容
验证码

细胞穿膜肽识别问题的多特征融合卷积网络预测算法

周丰丰 牛甲昱

周丰丰, 牛甲昱. 细胞穿膜肽识别问题的多特征融合卷积网络预测算法[J]. 电子科技大学学报, 2022, 51(4): 494-499. doi: 10.12178/1001-0548.2021391
引用本文: 周丰丰, 牛甲昱. 细胞穿膜肽识别问题的多特征融合卷积网络预测算法[J]. 电子科技大学学报, 2022, 51(4): 494-499. doi: 10.12178/1001-0548.2021391
ZHOU Fengfeng, NIU Jiayu. Integrating Multiple Feature Representations in the Convolution Neural Network Prediction Algorithm for the Cell-Penetrating Peptides[J]. Journal of University of Electronic Science and Technology of China, 2022, 51(4): 494-499. doi: 10.12178/1001-0548.2021391
Citation: ZHOU Fengfeng, NIU Jiayu. Integrating Multiple Feature Representations in the Convolution Neural Network Prediction Algorithm for the Cell-Penetrating Peptides[J]. Journal of University of Electronic Science and Technology of China, 2022, 51(4): 494-499. doi: 10.12178/1001-0548.2021391

细胞穿膜肽识别问题的多特征融合卷积网络预测算法

doi: 10.12178/1001-0548.2021391
基金项目: 国家自然科学基金(62072212,U19A2061);吉林省中青年科技创新创业卓越人才(团队)项目(创新类)(20210509055RQ);吉林省大数据智能计算实验室(20180622002JC)
详细信息
    作者简介:

    周丰丰(1977 − ),男,博士,教授,主要从事健康大数据方面的研究

    通讯作者: 周丰丰,E-mail:FengfengZhou@gmail.com
  • 中图分类号: TP399

Integrating Multiple Feature Representations in the Convolution Neural Network Prediction Algorithm for the Cell-Penetrating Peptides

  • 摘要: 细胞穿膜肽是一类特殊的多肽,具有独特的医学价值,因此如何通过计算方法高效地识别细胞穿膜肽是一个值得研究的重要问题。目前的主流方法是使用各种特征表示算法获取序列特征,然后使用机器学习分类器进行分类。提出了一种新的识别算法 ConvCPP,利用改进的卷积神经网络提取蛋白质序列特征。改进之处包括在卷积层之前添加注意力层,并且优化了池化层的池化方式。设计消融实验来验证改进的有效性,之后结合多种其他基于蛋白质序列特征的特征提取算法,并测试了两种特征选择算法,最终得到最优的向量表示。再根据得到的向量表示,结合多种机器学习分类器对蛋白质序列进行分类识别。在基准数据集上的实验表明,该算法比当前的细胞穿膜肽识别方法具有更好的预测性能。
  • 图  1  ConvCPP模型框架

    图  2  卷积神经网络模型结构

    图  3  模型消融实验结果

    图  4  不同特征集合的实验结果

    图  5  两种不同特征选择算法的实验结果

    表  1  模型超参数设置

    超参数值区间
    批次大小/个32
    训练轮数/轮150
    随机失活率0.5
    激活函数类型ReLu
    卷积核大小(3,4,5,6)
    特征向量维度64
    下载: 导出CSV

    表  2  不同分类器的结果对比

    分类器SNSPACCMCC
    NBayes0.8850.8810.8830.766
    RF0.8980.9090.9040.807
    SVM0.9160.950.9330.866
    KNN0.9130.9030.9080.816
    XGBoost0.9520.9240.9380.877
    本文方法0.9480.9350.9420.883
    下载: 导出CSV

    表  3  与其他模型的结果对比 /%

    模型ACCSNSPMCC
    CellPPD-190.790.990.581.6
    CellPPD-287.083.390.774.5
    CellPPD-383.778.189.268.0
    SkipCPP-Pred90.688.592.681.2
    文献[26]91.290.392.282.5
    CPPred-RF91.690.592.683.1
    CPPred-FL92.192.491.884.2
    ConvCPP(本文)94.194.893.588.3
    下载: 导出CSV
  • [1] HEITZ F, MORRIS M C, DIVITA G. Twenty years of cell-penetrating peptides: From molecular mechanisms to therapeutics[J]. Brit J Pharmacol, 2009, 157(2): 195-206. doi:  10.1111/j.1476-5381.2009.00057.x
    [2] MADANI F, LINDBERG S, LANGEL U, et al. Mechanisms of cellular uptake of cell-penetrating peptides[J]. J Biophys, 2011, 2011(6): 414729.
    [3] GUIDOTTI G, BRAMBILLA L, ROSSI D. Cell-penetrating peptides: From basic research to clinics[J]. Trends Pharmacol Sci, 2017, 38(4): 406-424. doi:  10.1016/j.tips.2017.01.003
    [4] LIU K W, CHEN W, LIN H. XG-PseU: An eXtreme Gradient Boosting based method for identifying pseudouridine sites[J]. Mol Genet Genomics, 2020, 295(1): 13-21. doi:  10.1007/s00438-019-01600-9
    [5] ZHANG Z Y, YANG Y H, DING H, et al. Design powerful predictor for mRNA subcellular location prediction in Homo sapiens[J]. Brief Bioinform, 2021, 22(1): 526-535. doi:  10.1093/bib/bbz177
    [6] SANDERS W S, JOHNSTON C I, BRIDGES S M, et al. Prediction of cell penetrating peptides by support vector machines[J]. Plos Comput Biol, 2011, 7(7): e1002101. doi:  10.1371/journal.pcbi.1002101
    [7] GAUTAM A, CHAUDHARY K, KUMAR R, et al. In silico approaches for designing highly effective cell penetrating peptides[J]. J Trans Med, 2013, 11: 74. doi:  10.1186/1479-5876-11-74
    [8] TANG H, SU Z D, WEI H H, et al. Prediction of cell-penetrating peptides with feature selection techniques[J]. Biochem Bioph Res Co, 2016, 477(1): 150-154. doi:  10.1016/j.bbrc.2016.06.035
    [9] WEI L Y, XING P W, SU R, et al. CPPred-RF: A sequence-based predictor for identifying cell penetrating peptides and their uptake efficiency[J]. J Proteome Res, 2017, 16(5): 2044-2053. doi:  10.1021/acs.jproteome.7b00019
    [10] QIANG X L, ZHOU C, YE X C, et al. CPPred-FL: A sequence-based predictor for large-scale identification of cell-penetrating peptides by feature representation learning[J]. Brief Bioinform, 2020, 21(1): 11-23.
    [11] XUE Y Y, YE X C, WEI L S, et al. Better performance with transformer: CPPFormer in precise prediction of cell-penetrating peptides[J]. Current Medicinal Chemistry, 2022, 29(5): 881-893.
    [12] ARIF M, KABIR M, AHMAD S, et al. DeepCPPred: A deep learning framework for the discrimination of cell-penetrating peptides and their uptake efficiencies[J]. IEEE/ACM Transactions on Computational Biology and Bioinformatics, 2021,
    [13] KARPATHY A, TODERICI G, SHETTY S, et al. Large-scale video classification with convolutional neural networks[C]//Proceedings of the 2014 IEEE Conference on Computer Vision and Pattern Recognition. [S.l.]: IEEE, 2014: 1725-1732.
    [14] CHEN J Y, ZHANG H W, HE X N, et al. Attentive collaborative filtering: Multimedia recommendation with item- and component-level attention[C]//International ACM Sigir Conference. [S.l.]: ACM, 2017: 335-344.
    [15] CHEN Q, HU Q M, HUANG X J, et al. Enhancing recurrent neural networks with positional attention for question answering[C]//Sigir'17: Proceedings of the 40th International ACM Sigir Conference on Research and Development in Information Retrieval. [S.l.]: ACM, 2017: 993-996.
    [16] REN P J, CHEN Z M, REN Z C, et al. Leveraging contextual sentence relations for extractive summarization using a neural attention model[C]//Proceedings of the 40th International ACM SIGIR Conference on Research and Development in Information Retrieval. [S.l.]: ACM, 2017: 95-104.
    [17] DOU Y C, YAO B, ZHANG C. PhosphoSVM: Prediction of phosphorylation sites by integrating various protein sequence attributes with a support vector machine[J]. Amino Acids, 2014, 46(6): 1459-1469. doi:  10.1007/s00726-014-1711-5
    [18] WEI L Y, TANG J J, ZOU Q. SkipCPP-Pred: Promising prediction method for cell-penetrating peptides using adaptive k-Skip-n-Gram features on a high-quality dataset[J]. Lect N Bioinformat, 2016, 9683: 299-300.
    [19] MAKOND B, WANG K J, WANG K M. Benchmarking prognosis methods for survivability-A case study for patients with contingent primary cancers[J]. Comput Biol Med, 2021, 138: 104888. doi:  10.1016/j.compbiomed.2021.104888
    [20] GAO W P, WANG J S, ZHOU L, et al. Prediction of acute kidney injury in ICU with gradient boosting decision tree algorithms[J]. Comput Biol Med, 2021, 140: 105097.
    [21] ERIKSSON P, MARZOUKA N A, SJODAHL G, et al. A comparison of rule-based and centroid single-sample multiclass predictors for transcriptomic classification[J]. Bioinformatics, 2021, 38(4): 1022-1029.
    [22] WANG W, HAN R J, ZHANG M H, et al. A network-based method for brain disease gene prediction by integrating brain connectome and molecular network[J]. Brief Bioinform, 2022, 23(1): bbab459. doi:  10.1093/bib/bbab459
    [23] ALI M M, AHMED K, BUI F M, et al. Machine learning-based statistical analysis for early stage detection of cervical cancer[J]. Comput Biol Med, 2021, 139(1): 104985.
    [24] TAYLOR S, PONZINI M, WILSON M, et al. Comparison of imputation and imputation-free methods for statistical analysis of mass spectrometry data with missing data[J]. Brief Bioinform, 2022, 23(1): bbab353. doi:  10.1093/bib/bbab353
    [25] LYU H, ZHANG Y, WANG J S, et al. iRice-MS: An integrated XGBoost model for detecting multitype post-translational modification sites in rice[J]. Brief Bioinform, 2022, 23(1): bbab486. doi:  10.1093/bib/bbab486
    [26] DIENER C, MARTINEZ G G R, BLAS D M, et al. Effective design of multifunctional peptides by combining compatible functions[J]. Plos Comput Biol, 2016, 12(4): e1004786. doi:  10.1371/journal.pcbi.1004786
  • [1] 李西, 姜孟.  机器学习在帕金森病诊断中的应用研究 . 电子科技大学学报, 2024, 53(2): 315-320. doi: 10.12178/1001-0548.2023180
    [2] 崔少国, 独潇, 张宜浩.  基于兴趣注意力网络的会话推荐算法 . 电子科技大学学报, 2024, 53(1): 67-75. doi: 10.12178/1001-0548.2022307
    [3] 刘勇国, 高攀, 兰荻, 朱嘉静.  ECA-SKNet:玉米单倍体种子的卷积神经网络识别模型 . 电子科技大学学报, 2023, 52(6): 866-871. doi: 10.12178/1001-0548.2022361
    [4] 赵云龙, 田生祥, 李岩, 罗龙, 齐鹏文.  基于注意力模型和Soft-NMS的输电线路小目标检测方法 . 电子科技大学学报, 2023, 52(6): 906-914. doi: 10.12178/1001-0548.2022290
    [5] 葛唯益, 程思伟, 王羽, 徐建.  基于双向门控循环神经网络的事件论元抽取方法 . 电子科技大学学报, 2022, 51(1): 100-107. doi: 10.12178/1001-0548.2021153
    [6] 郭磊, 王邱龙, 薛伟, 郭济.  基于注意力机制的光线昏暗条件下口罩佩戴检测 . 电子科技大学学报, 2022, 51(1): 123-129. doi: 10.12178/1001-0548.2021222
    [7] 毛文清, 徐雅斌.  基于深度图卷积网络的社交机器人识别方法 . 电子科技大学学报, 2022, 51(4): 615-622, 629. doi: 10.12178/1001-0548.2021280
    [8] 刘明友, 刘红美, 张招方, 朱映雪, 黄健.  抗微生物肽机器学习预测算法综述 . 电子科技大学学报, 2022, 51(6): 830-840. doi: 10.12178/1001-0548.2022188
    [9] 赵磊, 高联丽, 宋井宽.  面向视觉对话的自适应视觉记忆网络 . 电子科技大学学报, 2021, 50(5): 749-753. doi: 10.12178/1001-0548.2021057
    [10] 头旦才让, 仁青东主, 尼玛扎西, 于永斌, 邓权芯.  基于改进字节对编码的汉藏机器翻译研究 . 电子科技大学学报, 2021, 50(2): 249-255, 293. doi: 10.12178/1001-0548.2020218
    [11] 赵学功, 邓佳坤, 魏浩然, 彭真明.  基于卷积神经网络的眼底图像微血管瘤检测方法 . 电子科技大学学报, 2021, 50(6): 915-920. doi: 10.12178/1001-0548.2021186
    [12] 杜娟, 刘志刚, 宋考平, 杨二龙.  基于卷积神经网络的抽油机故障诊断 . 电子科技大学学报, 2020, 49(5): 751-757. doi: 10.12178/1001-0548.2019205
    [13] 杨旺功, 淮永建, 张福泉.  基于Gabor及深度神经网络的葡萄种子分类 . 电子科技大学学报, 2020, 49(1): 131-138. doi: 10.12178/1001-0548.2019164
    [14] 李学明, 岳贡, 陈光伟.  基于多模态注意力机制的图像理解描述新方法 . 电子科技大学学报, 2020, 49(6): 867-874. doi: 10.12178/1001-0548.2019228
    [15] 田文洪, 曾柯铭, 莫中勤, 吝博强.  基于卷积神经网络的驾驶员不安全行为识别 . 电子科技大学学报, 2019, 48(3): 381-387. doi: 10.3969/j.issn.1001-0548.2019.03.012
    [16] 邓钰, 雷航, 李晓瑜, 林奕欧.  用于目标情感分类的多跳注意力深度模型 . 电子科技大学学报, 2019, 48(5): 759-766. doi: 10.3969/j.issn.1001-0548.2019.05.016
    [17] 郭继昌, 李翔鹏.  基于卷积神经网络和密度分布特征的人数统计方法 . 电子科技大学学报, 2018, 47(6): 806-813. doi: 10.3969/j.issn.1001-0548.2018.06.002
    [18] 唐贤伦, 刘庆, 张娜, 周家林.  混合PSO优化卷积神经网络结构和参数 . 电子科技大学学报, 2018, 47(2): 230-234. doi: 10.3969/j.issn.1001-0548.2018.02.011
    [19] 陈俊周, 汪子杰, 陈洪瀚, 左林翼.  基于级联卷积神经网络的视频动态烟雾检测 . 电子科技大学学报, 2016, 45(6): 992-996. doi: 10.3969/j.issn.1001-0548.2016.06.020
    [20] 秦志光, 陈浩, 丁熠, 蓝天, 陈圆, 沈广宇.  基于多模态卷积神经网络的脑血管提取方法研究 . 电子科技大学学报, 2016, 45(4): 573-581. doi: 10.3969/j.issn.1001-0548.2016.04.010
  • 加载中
图(5) / 表(3)
计量
  • 文章访问数:  3766
  • HTML全文浏览量:  1136
  • PDF下载量:  67
  • 被引次数: 0
出版历程
  • 收稿日期:  2021-12-20
  • 修回日期:  2022-02-20
  • 网络出版日期:  2022-07-11
  • 刊出日期:  2022-07-09

细胞穿膜肽识别问题的多特征融合卷积网络预测算法

doi: 10.12178/1001-0548.2021391
    基金项目:  国家自然科学基金(62072212,U19A2061);吉林省中青年科技创新创业卓越人才(团队)项目(创新类)(20210509055RQ);吉林省大数据智能计算实验室(20180622002JC)
    作者简介:

    周丰丰(1977 − ),男,博士,教授,主要从事健康大数据方面的研究

    通讯作者: 周丰丰,E-mail:FengfengZhou@gmail.com
  • 中图分类号: TP399

摘要: 细胞穿膜肽是一类特殊的多肽,具有独特的医学价值,因此如何通过计算方法高效地识别细胞穿膜肽是一个值得研究的重要问题。目前的主流方法是使用各种特征表示算法获取序列特征,然后使用机器学习分类器进行分类。提出了一种新的识别算法 ConvCPP,利用改进的卷积神经网络提取蛋白质序列特征。改进之处包括在卷积层之前添加注意力层,并且优化了池化层的池化方式。设计消融实验来验证改进的有效性,之后结合多种其他基于蛋白质序列特征的特征提取算法,并测试了两种特征选择算法,最终得到最优的向量表示。再根据得到的向量表示,结合多种机器学习分类器对蛋白质序列进行分类识别。在基准数据集上的实验表明,该算法比当前的细胞穿膜肽识别方法具有更好的预测性能。

English Abstract

周丰丰, 牛甲昱. 细胞穿膜肽识别问题的多特征融合卷积网络预测算法[J]. 电子科技大学学报, 2022, 51(4): 494-499. doi: 10.12178/1001-0548.2021391
引用本文: 周丰丰, 牛甲昱. 细胞穿膜肽识别问题的多特征融合卷积网络预测算法[J]. 电子科技大学学报, 2022, 51(4): 494-499. doi: 10.12178/1001-0548.2021391
ZHOU Fengfeng, NIU Jiayu. Integrating Multiple Feature Representations in the Convolution Neural Network Prediction Algorithm for the Cell-Penetrating Peptides[J]. Journal of University of Electronic Science and Technology of China, 2022, 51(4): 494-499. doi: 10.12178/1001-0548.2021391
Citation: ZHOU Fengfeng, NIU Jiayu. Integrating Multiple Feature Representations in the Convolution Neural Network Prediction Algorithm for the Cell-Penetrating Peptides[J]. Journal of University of Electronic Science and Technology of China, 2022, 51(4): 494-499. doi: 10.12178/1001-0548.2021391
  • 自从30多年前第一个细胞穿膜肽(cell penetrating peptides, CPPs)被发现以来,CPPs已经在医学领域得到了广泛应用[1]。CPPs具有能够携带各种物质(包括小分子物质和蛋白质等)直接进入细胞而不会显著损伤细胞膜的特性[2]。这种特性使它们可以成为将物质转运到细胞中的药物递送剂,目前已被制药公司应用于多种治疗分子的局部和全身给药的临床实验中[3]。因为CPPs的实用性,识别CPPs也成为了一个有价值的研究领域。

    传统的实验方法费时费力,当前生物序列预测领域采用更加省时高效的计算方法对序列进行预测[4-5]。目前,已有不少识别CPPs的算法模型,其中大多基于机器学习算法。如文献[6]鉴定了111种已知的CPPs和34种已知的non-CPPs,并使用基于不同生化特性的特征表示算法和支持向量机(support vector machine, SVM)对CPP进行分类。文献[7]提出了一种同样基于SVM的预测方法CellPPD,它的改进之处在于使用了更多的特征表示算法和更大的数据集。文献[8]提出的C2Pred使用基于二肽的特征提取方法,降维后用SVM分类器对CPP进行了分类,也取得了很好的结果。文献[9]构建了一个基于随机森林分类器的两层预测模型,该模型不仅可以对CPPs和non-CPPs进行分类,还可以预测CPPs的吸收效率高低。文献[10]开发了CPPred FL,该模型使用了19种不同的特征表示算法和多种不同的机器学习分类器。

    最近也有一些研究者使用深度学习方法来进行CPPs的识别,如文献[11]基于Transformer模型提出了CPPFormer,该算法根据CPPs序列较短的特征重构了Transformer网络模型,并结合了多种基于生化特性的特征表示算法进行分类。文献[12]提出了DeepCPPred,是一种基于多级深度神经网络的两层预测模型。

    目前基于不同的蛋白质序列特征编码算法已经有了多种识别方法,识别精度也在逐步提高。本文提出了一种基于卷积神经网络的特征表示算法ConvCPP,获得了更好的特征表示能力。ConvCPP的创新之处在于首次使用了基于卷积神经网络的算法进行细胞穿膜肽的特征表示工作,且在卷积神经网络加入了注意力模块以更好地提取序列特征。算法的主要流程为将蛋白质序列中的氨基酸编码为不同的向量,然后将编码后的序列输入到卷积神经网络中,提取网络的最后一层作为特征表示。最后,将卷积网络提取到的特征和一些传统特征表示方法得到的特征相结合,并集成了多种分类器得到最终的结果。实验结果表明,ConvCPP在SN、SP、ACC、MCC这4项指标上分别达到了0.950、0.935、0.943和0.885,在预测精确度ACC上相对当前主流分类算法有2.2%的提升,具有更好的分类性能。本文将模型做成了CPPs预测软件包,可在网址链接:https://pan.baidu.com/s/1Lx60bAQe_MfFa0QDKJ_rcw?pwd=hilb下载使用。

    • ConvCPP的流程如图1所示。其中,特征表示分为两部分,一部分是经过改进的卷积神经网络,另一部分是基于蛋白质理化性质的传统特征表示算法,每部分得到的特征向量都使用了T检验进行特征选择。在分类算法部分,本文使用了朴素贝叶斯(naive Bayes, NBayes)、随机森林(random forest, RF)、SVM、K-最近邻算法(K-nearest neighbor, KNN)和极限梯度推进算法(extreme gradient boosting, XGBoost)进行分类,并用投票方式集成其结果作为最终分类结果。

      图  1  ConvCPP模型框架

    • 卷积神经网络最初被发明应用于计算机视觉领域,后来逐渐在自然语言处理领域得到了广泛应用[13],鉴于蛋白质序列和文本序列在形式上的相似性,考虑用卷积神经网络来进行特征提取。本文模型结构参考了TextCNN的标准结构,并在其基础上进行了改进。

      首先,需要对蛋白质序列中每个氨基酸进行编码,使用了随机编码的方式将20种氨基酸编码为一维向量,设其长度为$ d $,则长度为$ s $的蛋白质序列可被表示为$ s \times d $维的向量矩阵。

      在将向量矩阵输入卷积层之前,加入了注意力机制来更好地获取序列的位置信息。当前注意力机制在序列数据处理领域已经得到了广泛应用[14-16],本文使用的是多头注意力机制,表示如下:

      $$ \operatorname{multihead}(x)=\text{concat}\left(\boldsymbol { h }_{1}, \boldsymbol {h }_{2}, \cdots, \boldsymbol { h }_{h}\right) {\boldsymbol{W}}_{0} $$ (1)

      式中,$ {{\boldsymbol{W}}_0} $是权重矩阵;$ {\boldsymbol{h}}_{i} $表示第$ i $个注意力头的计算结果,每个注意力头都是一个拥有不同权重矩阵的自注意力计算流程。其计算流程如下:首先,每行输入向量$ {\boldsymbol{x}}_{i}$,分别和3个权重矩阵$ {\boldsymbol{W}}_{q}, {\boldsymbol{W}}_{k},{\boldsymbol{W}}_{v} $相乘,得到向量$ {\boldsymbol{q}}_{i},{\boldsymbol{k}}_{i},{\boldsymbol{v}}_{i} $。之后计算注意力权重$ {{\boldsymbol{a}}_{i}} $,公式如下:

      $${\boldsymbol{a}}_{i}\left({\boldsymbol{q}}_{i}, {\boldsymbol{k}}_{i}\right)=\dfrac{{\boldsymbol{q}}_{i} {\boldsymbol{k}}_{i}}{\sqrt{\left|{\boldsymbol{k}}_{i}\right|}} $$ (2)

      之后对$ {\boldsymbol{a}}_{1} $进行Softmax归一化,最后计算得到最终的输入向量$ {\boldsymbol{z}}_{i} $

      $${\boldsymbol{z}}_{i}=\sum_{i=1}^{k} {\boldsymbol{a}}_{i} {\boldsymbol{v}}$$ (3)

      注意力层运算完毕之后,将结果输入卷积层。在卷积层,模型使用了多个卷积核,卷积核的个数可以作为超参数进行调整,卷积核的宽度固定为输入向量矩阵$ {\boldsymbol{A}} $的宽度$ d $,不同的卷积核可以设置为不同的高度。设卷积核$ w $的大小为$ h \times d $,则卷积操作的输出$ {\boldsymbol{o}}_{i} $可以表示为:

      $$ {{\boldsymbol{o}}_i} = {\boldsymbol{w}} {\boldsymbol{A}}\left[ {i:i + h - 1} \right]\;\;\;\;i = 1,2,\cdots,s - h + 1 $$ (4)

      式中,${\boldsymbol{A}}\left[ {i:i + h - 1} \right]$表示输入向量矩阵$ {\boldsymbol{A}} $的第$i $行到第$ i+h-1 $行。之后叠加偏置$ {\boldsymbol{b}} $,经过激活函数$ f $得到特征图$ {\boldsymbol{c}} $,其中:

      $${\boldsymbol{c}}_{i}=f\left({\boldsymbol{o}}_{i}+{\boldsymbol{b}}\right)\;\;\;\; i=1,2, \cdots, s-h+1 $$ (5)

      在池化层,经典结构使用的是1-max pooling方法,即每个卷积核只取特征图中的最大值,最后将每个卷积核所得的值拼接,得到最终的特征向量。但是这种方法只取最大值,容易丢失信息,因此,本文将池化层改为动态k-max pooling方法。这种方法根据序列的长度不同,动态保留前k个最大值,尽可能的保留了序列的特征信息。

      整个卷积神经网络模型结构如图2所示,模型共包含一个注意力层、一个卷积层和一个池化层,池化层的结果作为序列的特征输出。

      图  2  卷积神经网络模型结构

    • 除了利用卷积神经网络得到的特征,本文还结合了3种利用蛋白质理化性质的特征表示算法。

      1)氨基酸组成(amino acid composition, AAC)是最简单且常用的蛋白质序列特征表示算法之一[10]。此算法主要利用了每种类型的氨基酸在蛋白质序列中出现的频率,如下所示:

      $$ f({\text{AAC}}) = [{n_1},{n_2}, \cdots ,{n_{20}}] $$ (6)

      式中,$ n_{1} $表示第$i $种氨基酸在蛋白质序列中出现的频率,即出现次数除以序列的长度。对于给定的蛋白质序列,通过分别计算其中20种不同氨基酸的频率,可以得到一个20维的特征向量。

      2)重叠属性表示算法,文献[17]发现每种氨基酸通常具有不只一种物理化学性质,因此,该文根据10种理化性质将标准氨基酸分为10组,每组可能有重叠。用10维的0/1向量对每个氨基酸进行编码,其中向量的每个位置代表一个氨基酸组。如果氨基酸属于相应的氨基酸组,则向量的位置设置为1,否则设置为0。最后,对长度为$ L $的蛋白质序列进行编码,得到$ 10 \times L $大小的特征向量。

      3) 20位表示算法,文献[7]将20种氨基酸分别用one-hot编码方式编码,则每个氨基酸可以用20维的一维向量来表示,则一条长度为$ L $的蛋白质序列可以表示为一个$ 20 \times L $的二维向量。

    • 在实验中,本文使用的Python版本为3.6.13,Pytorch框架的版本为1.3.1,numpy库的版本为1.19.2,scipy库的版本为1.5.4,pandas库版本为1.1.5。实验使用的显卡型号为NVIDIA Tesla P100,16 GB,驱动版本为450.80.02,CUDA版本为11.0。

      本文进行特征提取的卷积网络超参数的取值设置参见表1

      表 1  模型超参数设置

      超参数值区间
      批次大小/个32
      训练轮数/轮150
      随机失活率0.5
      激活函数类型ReLu
      卷积核大小(3,4,5,6)
      特征向量维度64
    • 为了便于与现有方法进行比较,本文使用了最常用的CPPs数据集CPP924[18],包含924个蛋白质序列,其中包括462个CPPs和462个non-CPPs。CPP924数据集中的数据都来自目前最大的CPPs数据集CPPsite v2.0,且其中任意两个序列的序列相似性均小于80%。这一点非常重要,因为过高的序列相似性可能会使模型的预测性能表现受到影响。

      本文用到的评价指标包括敏感性值(sensitivity, SN)、特异性值(specificity, SP)、准确率(accuracy, ACC)和马修斯相关系数(Mathew’s correlation coefficient, MCC)。其计算公式分别如下:

      $$ {\text{SN = }}\frac{{{\text{TP}}}}{{{\text{TP + FN}}}} $$ (7)
      $$ {\text{SP = }}\frac{{{\text{TN}}}}{{{\text{FP + TN}}}} $$ (8)
      $$ {\text{ACC = }}\frac{{{\text{TN + TP}}}}{{{\text{TN + TP + FN + FP}}}} $$ (9)
      $$ {\text{MCC}} = \frac{{{\text{TP}} \times {\text{TN}} - {\text{FP}} \times {\text{FN}}}}{{\sqrt {\left( {{\text{TP + FN}}} \right)\left( {{\text{TP + FP}}} \right)\left( {{\text{TN + FP}}} \right)\left( {{\text{TN + FN}}} \right)} }} $$ (10)
    • 为了验证本文对卷积神经网络模型改进的有效性,本文做了消融实验来验证各模块的必要性。图3展示了消融实验的结果,将改进分为注意力机制模块和池化层改进模块,其中模型1表示引入注意力机制模块和池化层改进模块的模型,模型2表示只引入注意力机制模块的模型,模型3表示只引入池化层改进模块的模型,模型4表示未经修改的原始模型。实验数据采用10倍交叉验证获得。4组实验考察了注意力模块和池化模块的不同组合方式。

      图  3  模型消融实验结果

      图3的数据表明,注意力模块和池化模块对卷积神经网络原始模型具有较好的性能提升,且二者联合使用会对原始模型的改进程度更大。注意力模块将原始模型准确率(ACC)提升了0.011,而池化模块将原始模型准确率(ACC)提升了0.009。本文提出的ConvCPP算法整合了注意力模块和池化模块的优势功能,将原始模型的准确率提升了0.023。原始模型的马修斯相关系数(MCC)也提升了0.047。

    • 为了验证两种特征表示方法都是有效的,本文分别将只用卷积网络得到的特征和只用利用理化性质算法得到的特征进行分类,实验结果如图4所示。其中特征集1包括两种方法得到的特征,特征集2表示用卷积网络得到的卷积特征,特征集3表示利用理化性质算法得到的理化特征。图4显示特征集1的结果在4个指标上都是最好的,表明两种方法得到的特征都是有效的,而特征集2取得的准确率(ACC)优于特征集3至少0.016。这表明本文提出的卷积特征提取算法相对于利用理化性质的特征表示算法,能更好地利用序列中各氨基酸之间的内在关联信息来发现CPP特异的序列特性。实验数据采用10倍交叉验证获得。本实验考察了从序列数据中提取出来的理化特征和卷积特征对CPP预测问题的性能贡献。

      图  4  不同特征集合的实验结果

    • 本文使用5种分类器,通过投票方式集成为最终分类结果。这5种分类器包括NBayes[19]、RF[20-21]、SVM[22]、KNN[23-24]、和XGBoost[25]。每种分类器各自的性能结果以及集成后模型的分类结果如表2所示。可以看出,SVM和XGBoost是效果相对较好的分类器,均取得了0.930以上的准确率(ACC),后续如需优化分类器数量可保留这两个分类器。其中XGBoost取得了最好的准确率0.938,而集成后的分类精确度指标是最优的(ACC=0.942),比性能最好的独立分类器XGBoost的准确率还要高0.006。实验结果说明,本文采用的投票集成法可以有效利用优势互补的各个分类器预测结果。

      表 2  不同分类器的结果对比

      分类器SNSPACCMCC
      NBayes0.8850.8810.8830.766
      RF0.8980.9090.9040.807
      SVM0.9160.950.9330.866
      KNN0.9130.9030.9080.816
      XGBoost0.9520.9240.9380.877
      本文方法0.9480.9350.9420.883
    • 为了消除两种不同特征提取方式的信息冗余,本文采用了最大相关−最小冗余(mRMR)和T检验两种不同的特征选择算法,分别对拼接后的特征向量进行特征选择,实验结果如图5所示,使用mRMR算法进行特征选择,特征数为125时得到了最优分类效果(ACC=0.943),达到了消除冗余和优化分类结果的目的。实验数据采用10倍交叉验证获得。本实验测试了两种不同特征选择算法对分类准确率的影响。

      图  5  两种不同特征选择算法的实验结果

    • 为了证明本文提出的ConvCPP算法的有效性,本文和已发表的其他CPPs预测模型的结果进行了对比。这些模型都是基于CPP924数据集进行的预测,包括CPPred-RF [9]、文献[26]提出的算法模型、SkipCPP-Pred[18]、CellPPD和CPPred-FL。其中,CellPPD根据不同的特征提取算法被分为3个不同的模型,分别称为CellPPD-1、CellPPD-2和CellPPD-3。实验的验证方法均为十折交叉验证,验证指标包括敏感性值(SN)、特异性值(SP)、准确率(ACC)和马修斯相关系数(MCC)。表3给出了4个分类性能指标。可以看出,本文提出的ConvCPP模型在4个指标上,都优于其他模型。准确率ACC至少被改进了0.022,综合性能指标MCC也至少被改进了0.043。足以证明本文算法模型的有效性与精确性。

      表 3  与其他模型的结果对比 /%

      模型ACCSNSPMCC
      CellPPD-190.790.990.581.6
      CellPPD-287.083.390.774.5
      CellPPD-383.778.189.268.0
      SkipCPP-Pred90.688.592.681.2
      文献[26]91.290.392.282.5
      CPPred-RF91.690.592.683.1
      CPPred-FL92.192.491.884.2
      ConvCPP(本文)94.194.893.588.3
    • 本文提出了一种基于卷积神经网络的细胞穿膜肽识别算法ConvCPP,结合了引入注意力机制的卷积神经网络和利用蛋白质理化性质的两种特征表示方法获取的蛋白质序列特征,并结合了多种分类器进行了最终分类。经实验验证,ConvCPP在各项指标上都达到了最佳结果,预测准确率ACC相对当前其他分类算法提升了2.2%。相关实验结果表明,深度卷积网络可以有效提取蛋白质序列的隐含模式信息,具有优秀的对细胞穿膜肽的检测能力。

参考文献 (26)

目录

    /

    返回文章
    返回