基于Profile比对的改进星比对算法

陈俊涛; 邹权

doi:10.12178/1001-0548.2021406

留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

姓名

邮箱

手机号码

标题

留言内容

验证码

基于Profile比对的改进星比对算法

电子科技大学基础与前沿研究院　成都　610054

基金项目: 国家自然科学基金 (62131004，61922020)

详细信息

作者简介:
陈俊涛(1997 − )，男，主要从事多序列比对和序列分类等方面的研究

通讯作者: 邹权，E-mail：zouquan@nclab.net

中图分类号: TP301

Improved Center Star Alignment Algorithm Based on Profile Alignment

Institute of Fundamental and Frontier Sciences, University of Electronic Science and Technology of China　Chengdu　610054

摘要: 多序列比对在序列分析研究中起着重要的作用，包括功能重要位点的识别和系统发育分析等问题。目前大多数比对软件都使用渐进比对或迭代比对的策略，但两种策略都具有较高的时间复杂度，因此难以处理长序列和大规模序列的比对问题。而星比对虽然具有很低的时间复杂度，但精度并不理想，目前只适用于相似度非常高的序列。针对此问题，引进了渐进比对中的profile比对来改进星比对算法的精度，同时避免大幅度地增加星比对的时间复杂度。最后，通过实验证明了改进的星比对算法可以有效地提高比对的精度。

关键词:

Abstract: Multiple sequence alignment plays an important role in sequence analysis, including identification of functionally important sites and phylogenetic analysis. At present, most alignment software uses the strategy of progressive alignment or iterative alignment, but both strategies have high time complexity, so it is difficult to deal with the alignment problem of long sequence and large datasets. Although star alignment has a very low time complexity, the accuracy of star alignment is not ideal, so it only applies to sequences with very high similarity. To solve this problem, we introduce profile alignment in progressive alignment to improve the accuracy of star alignment algorithm and avoid significantly increasing the time complexity of star alignment. Experiments show that the improved star alignment algorithm can effectively improve the accuracy of the alignment.

Key words:

基于Profile比对的改进星比对算法

电子科技大学基础与前沿研究院　成都　610054

基金项目: 国家自然科学基金 (62131004，61922020)

作者简介:
陈俊涛(1997 − )，男，主要从事多序列比对和序列分类等方面的研究

通讯作者: 邹权，E-mail：zouquan@nclab.net

收稿日期: 2022-01-04

修回日期: 2022-02-19

刊出日期: 2022-05-25

中图分类号: TP301

关键词:

全文HTML

多序列比对是生物信息学研究中重要的课题之一，对于识别未知基因功能、分析物种间的进化关系、识别基因之间的保守区域等问题有着重要作用。随着测序技术的发展，基因序列数据快速增长，现有软件难以处理大规模的多序列比对问题。

目前大多数软件采用的是渐进式比对策略或者迭代式比对策略^[1]，如MAFFT^[2]、Kalign3^[3]、Clustal^[4-5]、MUSCLE^[6]、T-Coffee^[7]、HAlign^[8]等。渐进式比对需要先计算两两序列之间的距离，再根据距离矩阵使用层次聚类算法，如UPGMA、Neighbor Joining等构建一颗比对的指导树，沿着指导树的枝干进行两两比对与合并，最后得到最终结果。而迭代式比对策略在此基础上，还要对合并的最终结果选取适当的策略，如剪枝、局部重新比对和随机选取序列重新比对进行迭代，直到比对精确收敛或者迭代次数达到上限。迭代式比对策略可以解决渐进式比对初期可能遗留下的问题。因为渐进式比对策略是贪心策略，在初期局部的比对结果上可能陷入局部最优，而错误会一直保留至最终结果中。而通过迭代式比对可以选取适当的策略，去更正局部比对的一些错误，但迭代式比对增加了时间复杂度。这两者都有着较高的时间复杂度，所以难以在有限时间内处理大规模数据的比对。

渐进式比对策略的时间复杂度与序列数量呈多项式级增长，因此在面对大规模数据的情况下，该策略时间复杂度太高、比对时间过长。而星比对是一种启发性的策略，其时间复杂度与序列数量呈线性增长，这有效降低了大规模序列比对的时间。然而，星比对算法在相似度不高的数据集上的比对精度较低，目前只能应用到相似度非常高的同源序列上，这大大限制了星比对的应用。

针对星比对精度低的问题，本文将渐进比对的模式应用于星比对中，提出了基于profile比对的改进星比对算法。实验证明改进后的算法提高了比对的精度，同时也节省了比对时间。

3. 结束语

本文将传统的星比对与渐进比对相结合，提出了基于profile比对的改进星比对算法，改进后的星比对算法显著提高了比对的精度。为了减少比对时间，本研究还简化了中心序列的选取，直接将最长序列作为中心序列。改进前后的算法时间复杂度是一致的，但实际时间不一定一致，改进的星比对算法运行时间要略大于传统的星比对算法。同时，两者运行时间随着数据量级增大的增长速度是一致的。由此可见，本文提出的基于profile比对的改进星比对算法不仅提高了比对的精度，又通过简化中心序列的选取减少了星比对中选取中心序列的时间，同时也并未增加比对算法的时间复杂度。

参考文献 (11)

[1]	BISWANATH C, GAUTAM G. A review on multiple sequence alignment from the perspective of genetic algorithm[J]. Genomics, 2017, 109(5): 419-431.
[2]	KATOH K, MISAWA K, KUMA K, et al. MAFFT: A novel method for rapid multiple sequence alignment based on fast Fourier transform[J]. Nucleic Acids Research, 2002, 30(14): 3059-3066. doi: 10.1093/nar/gkf436
[3]	LASSMANN T. Kalign 3: Multiple sequence alignment of large datasets[J]. Bioinformatics, 2020, 36(6): 1928-1929.
[4]	SIEVERS F, WILM A, DINEEN D, et al. Fast, scalable generation of high-quality protein multiple sequence alignments using Clustal Omega[J]. Molecular Systems Biology, 2011, 7(1): 539. doi: 10.1038/msb.2011.75
[5]	THOMPSON J D, HIGGINS D G, GIBSON T J. CLUSTAL W: Improving the sensitivity of progressive multiple sequence alignment through sequence weighting, position-specific gap penalties and weight matrix choice[J]. Nucleic Acids Research, 1994, 22(22): 4673-4680. doi: 10.1093/nar/22.22.4673
[6]	EDGAR R C. MUSCLE: A multiple sequence alignment method with reduced time and space complexity[J]. BMC Bioinformatics, 2004, 5(1): 1-19. doi: 10.1186/1471-2105-5-1
[7]	NOTREDAME C, HIGGINS D G, HERINGA J. T-Coffee: A novel method for fast and accurate multiple sequence alignment[J]. Journal of Molecular Biology, 2000, 302(1): 205-217. doi: 10.1006/jmbi.2000.4042
[8]	ZOU Q, HU Q H, GUO M Z, et al. HAlign: Fast multiple similar DNA/RNA sequence alignment based on the centre star strategy[J]. Bioinformatics, 2015, 31(15): 2475-2481. doi: 10.1093/bioinformatics/btv177
[9]	NEEDLEMAN S B, WUNSCH C D. A general method applicable to the search for similarities in the amino acid sequence of two proteins[J]. Journal of Molecular Biology, 1970, 48(3): 443-453. doi: 10.1016/0022-2836(70)90057-4
[10]	SMITH T F, WATERMAN M S. Identification of common molecular subsequences[J]. Journal of Molecular Biology, 1981, 147(1): 195-197. doi: 10.1016/0022-2836(81)90087-5
[11]	FU L M, NIU B F, ZHU Z W, et al. CD-HIT: Accelerated for clustering the next-generation sequencing data[J]. Bioinformatics, 2012, 28(23): 3150-3152. doi: 10.1093/bioinformatics/bts565

[1]	史治平, 黄文才, 王臣玺, 罗萱. 基于滑窗BATS码的低时延图像渐进传输方案设计 . 电子科技大学学报, 2021, 50(4): 496-501. doi: 10.12178/1001-0548.2020280
[2]	冯涛, 梁俊. 基于反演策略的星基ADS-B信号译码方法 . 电子科技大学学报, 2020, 49(1): 64-70. doi: 10.12178/1001-0548.2019107
[3]	王瑞, 李乐中, 彭龙, 涂小强, 钟小溪. 星型结多工器综合 . 电子科技大学学报, 2017, 46(4): 525-529. doi: 10.3969/j.issn.1001-0548.2017.04.008
[4]	黄智蒙, 唐选, 李晓峰, 张大勇, 王小军, 李剑峰, 刘仓理. 光纤激光阵列占空比对相干合成效果影响分析 . 电子科技大学学报, 2015, 44(6): 946-950. doi: 10.3969/j.issn.1001-0548.2015.06.026
[5]	杜辉, 李洋, 梁伟正, 高敏, 张胤, 林媛. 化学计量比对BaTiO₃/Ni集成结构性能的影响 . 电子科技大学学报, 2015, 44(5): 784-788. doi: 10.3969/j.issn.1001-0548.2015.05.024
[6]	刘强, 陈西宏, 薛伦生, 范玉平, 张群. 基于映射函数的对流层双向时间比对斜延迟分析 . 电子科技大学学报, 2015, 44(5): 689-694. doi: 10.3969/j.issn.1001-0548.2015.05.009
[7]	张政波, 王步青, 柴晓珂, 郑捷文, 王卫东, 吴昊, 李开元, 刘洪运. 渐进性引导呼吸下的心血管变异性分析 . 电子科技大学学报, 2014, 43(6): 934-938. doi: 10.3969/j.issn.1001-0548.2014.06.024
[8]	徐伟, 邓云凯. 基于多维编码信号星载MIMO-SAR的回波分离方法 . 电子科技大学学报, 2012, 41(1): 25-30. doi: 10.3969/j.issn.1001-0548.2012.01.005
[9]	牟青, 魏平. CCSK信号的扩频序列估计 . 电子科技大学学报, 2011, 40(4): 501-504. doi: 10.3969/j.issn.1001-0548.2011.04.004
[10]	王洪涛, 罗长洲, 王渝, 赵述芳. 星敏感器模型参数分析及校准方法研究 . 电子科技大学学报, 2010, 39(6): 880-885. doi: 10.3969/j.issn.1001-0548.2010.06.016
[11]	李吉忠, 武穆清. 三颗星的AGPS定位算法与实现 . 电子科技大学学报, 2010, 39(3): 372-376,424. doi: 10.3969/j.issn.1001-0548.2010.03.010
[12]	罗军辉, 姬红兵, 江莉. 直接序列扩频信号PN序列盲估计方法 . 电子科技大学学报, 2008, 37(4): 489-492.
[13]	林雪原, 何友. 数字地图辅助的三星时差定位方法及误差分析 . 电子科技大学学报, 2007, 36(4): 688-691.
[14]	王红星, 张勇, 孙海珍. 一种基于RCPT码的渐进图像传输方法 . 电子科技大学学报, 2006, 35(1): 25-28.
[15]	李晓峰, 张百雷, 林密. 影响星载光学镜面热变形的部分因素分析 . 电子科技大学学报, 2005, 34(6): 786-789.
[16]	甘荣兵, 王建国. 改进的对星载SAR的应答式欺骗干扰 . 电子科技大学学报, 2005, 34(5): 614-617.
[17]	陈蛇, 吴亦斌, 史本山. 国有股渐进减持的策略研究 . 电子科技大学学报, 2002, 31(3): 305-308.
[18]	高坚, 佟明安, 贺昌政. 刚体转动渐进跟踪控制的逆系统方法 . 电子科技大学学报, 2002, 31(2): 141-144.
[19]	许冰, 姜文汉. 用于瑞利激光导引星的激光器能量要求与分析 . 电子科技大学学报, 1999, 28(4): 337-339.
[20]	李仲令, 王晓蕾. 序列相关特性与CDMA系统的多址干扰 . 电子科技大学学报, 1997, 26(2): 132-136.

留言板