留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

姓名
邮箱
手机号码
标题
留言内容
验证码

DBEncRNA:细菌必需非编码RNA数据库

叶远浓 梁定发 曾柱

叶远浓, 梁定发, 曾柱. DBEncRNA:细菌必需非编码RNA数据库[J]. 电子科技大学学报, 2022, 51(3): 348-352. doi: 10.12178/1001-0548.2021389
引用本文: 叶远浓, 梁定发, 曾柱. DBEncRNA:细菌必需非编码RNA数据库[J]. 电子科技大学学报, 2022, 51(3): 348-352. doi: 10.12178/1001-0548.2021389
YE Yuannong, LIANG Dingfa, ZENG Zhu. DBEncRNA:Database of Bacterial Essential ncRNA[J]. Journal of University of Electronic Science and Technology of China, 2022, 51(3): 348-352. doi: 10.12178/1001-0548.2021389
Citation: YE Yuannong, LIANG Dingfa, ZENG Zhu. DBEncRNA:Database of Bacterial Essential ncRNA[J]. Journal of University of Electronic Science and Technology of China, 2022, 51(3): 348-352. doi: 10.12178/1001-0548.2021389

DBEncRNA:细菌必需非编码RNA数据库

doi: 10.12178/1001-0548.2021389
基金项目: 国家自然科学基金(61803112, 32160151);贵州省科技支撑计划(黔科合支撑[2019]2811 号)
详细信息
    作者简介:

    叶远浓(1985 − ),男,博士,副教授,主要从事生物信息学方面的研究

    通讯作者: 曾柱,Email:zengzhu@gmc.edu.cn
  • 中图分类号: TP391; Q615

DBEncRNA:Database of Bacterial Essential ncRNA

  • 摘要: 细菌非编码RNA(non-coding RNA, ncRNA)是近年来在细菌基因组内新发现的一类基因表达调控因子,与必需基因概念类似,有一部分ncRNA是生物体生存所必不可少的,称之为“必需非编码RNA”。因此,细菌的必需ncRNA可以作为药物开发的潜在靶标,以降低致病菌的耐药性。同时,必需ncRNA也成为最小基因组研究的重要对象之一。目前已经通过湿实验系统地确定了10余种细菌的必需ncRNA,然而还没有一个专门的必需ncRNA数据库,导致对必需ncRNA的研究远远跟不上科学研究和药物设计的需要。因此,该研究构建了一个专门的细菌必需ncRNA数据库DBEncRNA,以帮助研究人员开发高效的必需ncRNA计算机识别方法,用于进一步研究抗菌药物靶标发现和最小基因组。DBEncRNA数据库可以通过http://yeyn.group:86/免费访问使用。
  • 图  1  DBEncRNA数据库必需ncRNA类别分布图

    表  1  来源于DEG数据库的细菌必需ncRNA数据

    物种必需序列数
    Acinetobacter baumannii ATCC 17978[20] 59
    Acinetobacter baumannii ATCC 17978[20] 1
    Agrobacterium fabrum str. C58[21] 11
    Bacillus subtilis[22] 2
    Brevundimonas subvibrioides ATCC 15264[21] 35
    Caulobacter crescentus[6] 532
    Mycobacterium tuberculosis H37Rv III[11] 35
    Salmonella enterica serovar Typhi Ty2[12] 24
    Salmonella enterica serovar Typhi SL1344[12] 23
    Sphingomonas wittichii RW1[23] 32
    Synechococcus elongatus PCC 7942[24] 34
    Streptococcus pneumoniae[13] 72
    下载: 导出CSV

    表  2  DBEncRNA数据库细菌必需ncRNA信息

    字段名具体信息
    Accession NumberDBEncRNA数据库编号
    RefSeq基因组在genbank的登录号
    CategoryncRNA所属类
    Condition培养条件
    Cross-Ref该序列在其他数据库中登录号
    Description功能描述
    Organism来源物种
    Reference参考文献
    Date发表日期
    Nucleotide Sequence核酸序列
    下载: 导出CSV

    表  3  DBEncRNA数据库数据统计信息

    物种名基因组编号培养条件必需ncRNA数目/个
    Caulobacter crescentusNC_011916完全培养基532
    Acinetobacter baumannii ATCC 17978NC_009085完全培养基60
    Escherichia coli O157:H7 str. EDL933NZ_CP008957LB糖培养基37
    Synechococcus elongatus PCC 7942NC_007604完全培养基34
    Mycoplasma pneumoniae M129NC_000912LB糖培养基34
    Sphingomonas wittichii RW1NC_009511完全培养基32
    Brevundimonas subvibrioides ATCC 15264NC_014375完全培养基31
    Mycobacterium tuberculosis H37Rv IIINC_000962完全培养基29
    Providencia stuartii strain BE2467NZ_CP017054LB糖培养基25
    Salmonella enterica serovar Typhi Ty2NC_016810完全培养基24
    Salmonella enterica serovar Typhimurium SL1344NC_016810完全培养基23
    Streptococcus mutans UA159AE014133血培养基6
    Agrobacterium fabrum str. C58 chromosome linearNC_003063完全培养基6
    Agrobacterium fabrum str. C58 chromosome circularNC_003062完全培养基5
    Mycobacterium tuberculosis H42Rv IIINC_000962完全培养基1
    Mycobacterium tuberculosis H38Rv IIINC_000962完全培养基1
    Mycobacterium tuberculosis H39Rv IIINC_000962完全培养基1
    Mycobacterium tuberculosis H41Rv IIINC_000962完全培养基1
    Mycobacterium tuberculosis H40Rv IIINC_000962完全培养基1
    下载: 导出CSV
  • [1] DAR D, SOREK R. Bacterial noncoding RNAs excised from within protein-coding transcripts[J]. Mbio, 2018, 9(5): e0173018.
    [2] CUI Z Q, ZHANG Y, KAKAR K U, et al. Involvement of non-coding RNAs during infection of rice by Acidovorax oryzae[J]. Env Microbiol Rep, 2021, 13(4): 540-554. doi:  10.1111/1758-2229.12982
    [3] ZENG P, CHEN J, MENG Y, et al. Defining essentiality score of protein-coding genes and long noncoding RNAs[J]. Front Genet, 2018, 9: 380. doi:  10.3389/fgene.2018.00380
    [4] ROMBY P, VANDENESCH F, WAGNER E G. The role of RNAs in the regulation of virulence-gene expression[J]. Curr Opin Microbiol, 2006, 9(2): 229-236. doi:  10.1016/j.mib.2006.02.005
    [5] GIL R, SILVA F J, PERETO J, et al. Determination of the core of a minimal bacterial gene set[J]. Microbiol Mol Biol Rev, 2004, 68(3): 518-537. doi:  10.1128/MMBR.68.3.518-537.2004
    [6] CHRISTEN B, ABELIUK E, COLLIER J M, et al. The essential genome of a bacterium[J]. Mol Syst Biol, 2011, 7: 528. doi:  10.1038/msb.2011.58
    [7] LLUCH-SENAR M, DELGADO J, CHEN W H, et al. Defining a minimal cell: Essentiality of small ORFs and ncRNAs in a genome-reduced bacterium[J]. Mol Syst Biol, 2015, 11(1): 780. doi:  10.15252/msb.20145558
    [8] YE Y N, MA B G, DONG C, et al. A novel proposal of a simplified bacterial gene set and the neo-construction of a general minimized metabolic network[J]. Sci Rep, 2016, 6: 35082. doi:  10.1038/srep35082
    [9] HANNON G J, RIVAS F V, MURCHISON E P, et al. The expanding universe of noncoding RNAs[J]. Cold Spring Harb Symp Quant Biol, 2006, 71: 551-564. doi:  10.1101/sqb.2006.71.064
    [10] DUBESSAY P, RAVEL C, BASTIEN P, et al. The switch region on Leishmania major chromosome 1 is not required for mitotic stability or gene expression, but appears to be essential[J]. Nucleic Acids Res, 2002, 30(17): 3692-3697. doi:  10.1093/nar/gkf510
    [11] ZHANG Y J, IOERGER T R, HUTTENHOWER C, et al. Global assessment of genomic regions required for growth in Mycobacterium tuberculosis[J]. PLoS Pathog, 2012, 8(9): e1002946. doi:  10.1371/journal.ppat.1002946
    [12] BARQUIST L, LANGRIDGE G C, TURNER D J, et al. A comparison of dense transposon insertion libraries in the Salmonella serovars Typhi and Typhimurium[J]. Nucleic Acids Res, 2013, 41(8): 4549-4564. doi:  10.1093/nar/gkt148
    [13] MANN B, OPIJNEN T V, WANG J, et al. Control of virulence by small RNAs in Streptococcus pneumoniae[J]. PLoS Pathog, 2012, 8(7): e1002788. doi:  10.1371/journal.ppat.1002788
    [14] PARKER S, FRACZEK M G, WU J, et al. A resource for functional profiling of noncoding RNA in the yeast Saccharomyces cerevisiae[J]. RNA, 2017, 23(8): 1166-1171. doi:  10.1261/rna.061564.117
    [15] AUSLANDER S, AUSLANDER D, FUSSENEGGER M. Synthetic biology-the synthesis of biology[J]. Angew Chem Int Ed Engl, 2017, 56(23): 6396-6419.
    [16] LUO H, LIN Y, LIU T, et al. DEG 15, an update of the database of essential genes that includes built-in analysis tools[J]. Nucleic Acids Res, 2020, 49(D1): D677-D686.
    [17] ZHANG R, OU H Y, ZHANG C T. DEG: A database of essential genes[J]. Nucleic Acids Res, 2004, 32(Database issue): D271-272.
    [18] LUO H, LIN Y, GAO F, et al. DEG 10, an update of the database of essential genes that includes both protein-coding genes and noncoding genomic elements[J]. Nucleic Acids Res, 2014, 42(Database issue): D574-580.
    [19] GAO F, LUO H, ZHANG C T, et al. Gene essentiality analysis based on DEG 10, an updated database of essential genes[J]. Methods Mol Biol, 2015, 1279: 219-233.
    [20] WANG N, OZER E A, MANDEL M J, et al. Genome-wide identification of Acinetobacter baumannii genes necessary for persistence in the lung[J]. Mbio, 2014, 50(3): e01163.
    [21] CURTIS P D, BRUN Y V. Identification of essential alphaproteobacterial genes reveals operational variability in conserved developmental and cell cycle syst[J]. Mol Microbiol, 2014, 93(4): 713-735. doi:  10.1111/mmi.12686
    [22] KOBAYASHI K, EHRLICH S D, DEUERLING E. Essential Bacillus subtilis genes[J]. Proceedings of the National Academy of Sciences, 2003, 100(8): 4678-4683. doi:  10.1073/pnas.0730515100
    [23] ROGGO C, CORONADO E, MORENO S, et al. Genome-wide transposon insertion scanning of environmental survival functions in the polycyclic aromatic hydrocarbon degrading bacterium Sphingomonas wittichiiRW1[J]. Environ Microbiol, 2013, 15(10): 2681-2695.
    [24] RUBIN B E, WETMORE K M, PRICEM N, et al. The essential gene set of a photosynthetic organism[J]. Proceedings of the National Academy of Sciences of the United States of America, 2015, 2015: 6634-6643.
    [25] CHAO Y, VOGEL J. The role of Hfq in bacterial pathogens[J]. Curr Opin Microbiol, 2010, 13(1): 24-33.
    [26] DENMAN R B. Using RNAflod to predict the activity of small catalytic RNAs[J]. Biotechniques, 1993, 15(6): 1090-1095.
    [27] KERPEDJIEV P, HAMMER S, HOFACKER I L. Forna (force-directed RNA): Simple and effective online RNA secondary structure diagrams[J]. Bioinformatics, 2015, 31(20): 3377-3379.
    [28] TATUSOVA T A, MADDEN T L. BLAST2Sequences, a new tool for comparing protein and nucleotide sequences[J]. FEMS Microbiol Lett, 1999, 174(2): 247-250.
  • [1] 任丽萍, 潘贤润, 刘天元, 杨煜, 宁琳, 张杨.  细胞间通信预测方法研究进展 . 电子科技大学学报, 2023, 52(5): 667-674. doi: 10.12178/1001-0548.2023035
    [2] 曹慧, 刘馨莲, 张录顺.  生物信息数据库分析 INHBA在结直肠癌中的表达及临床意义 . 电子科技大学学报, 2022, 51(2): 295-304. doi: 10.12178/1001-0548.2021348
    [3] 施雯靖, 潘贤润, 吕哲宇, 詹超英, 沈百荣.  口腔鳞状细胞癌遗传变异数据库 . 电子科技大学学报, 2022, 51(5): 661-667. doi: 10.12178/1001-0548.2022044
    [4] 向勇, 闫宗楷, 朱焱麟, 张晓琨.  材料基因组技术前沿进展 . 电子科技大学学报, 2016, 45(4): 634-649. doi: 10.3969/j.issn.1001-0548.2016.04.016
    [5] 陈旦, 杨非, 叶晓俊.  多角度数据库活动监控技术研究 . 电子科技大学学报, 2015, 44(2): 266-271. doi: 10.3969/j.issn.1001-0548.2015.02.018
    [6] 王缓缓, 胡爱娜.  RSSI和距离区间映射的测距方法 . 电子科技大学学报, 2012, 41(4): 522-526. doi: 10.3969/j.issn.1001-0548.2012.04.008
    [7] 张增军, 李向阳, 肖军模.  基于粗糙集理论的数据库推理控制 . 电子科技大学学报, 2007, 36(3): 528-530,537.
    [8] 冯朝胜, 秦志光, 袁丁.  数据库加密系统密钥管理模块的设计 . 电子科技大学学报, 2007, 36(5): 830-833.
    [9] 周雪莲, 罗代升, 张朋, 张天宇, 王博.  自动生成特定伪码的设计与实现 . 电子科技大学学报, 2007, 36(2): 260-262,324.
    [10] 左朝树, 刘心松, 邱元杰, 刘克剑, 杨峰.  用于分布式并行数据库系统的重定向算法 . 电子科技大学学报, 2005, 34(5): 646-649.
    [11] 王爱军.  基于数据库查询过程优化设计 . 电子科技大学学报, 2003, 32(2): 192-194.
    [12] 方英武, 张广鹏, 吴德伟, 黄玉美, 赵修斌, 王轶.  分布式数据挖掘计算过程——DDCP算法研究 . 电子科技大学学报, 2003, 32(1): 80-84.
    [13] 陈文宇, 许鸿川.  利用数据库处理多个对象间的关系 . 电子科技大学学报, 2002, 31(3): 270-274.
    [14] 陈文宇.  面向对象的关系数据库设计 . 电子科技大学学报, 2002, 31(1): 53-56,75.
    [15] 吴跃, 邱会中, 余水, 余元辉.  Web数据库性能调优 . 电子科技大学学报, 2002, 31(3): 255-261.
    [16] 赵玲.  合金平衡相图的数字化处理 . 电子科技大学学报, 2002, 31(4): 366-368.
    [17] 王有德, 孙世新.  数据库应用程序中数据完整性的分层实现 . 电子科技大学学报, 2001, 30(4): 414-418.
    [18] 吴跃, 余水, 傅彦, 邱会中.  Internet数据库访问技术 . 电子科技大学学报, 2001, 30(1): 58-61.
    [19] 陆鑫.  利用ASP技术实现WEB数据库的访问 . 电子科技大学学报, 2000, 29(1): 87-90.
    [20] 周西京.  基于Java的Internet上数据库存取及实现 . 电子科技大学学报, 1999, 28(2): 202-206.
  • 加载中
图(1) / 表(3)
计量
  • 文章访问数:  4504
  • HTML全文浏览量:  1493
  • PDF下载量:  38
  • 被引次数: 0
出版历程
  • 收稿日期:  2021-12-26
  • 修回日期:  2022-02-17
  • 刊出日期:  2022-05-25

DBEncRNA:细菌必需非编码RNA数据库

doi: 10.12178/1001-0548.2021389
    基金项目:  国家自然科学基金(61803112, 32160151);贵州省科技支撑计划(黔科合支撑[2019]2811 号)
    作者简介:

    叶远浓(1985 − ),男,博士,副教授,主要从事生物信息学方面的研究

    通讯作者: 曾柱,Email:zengzhu@gmc.edu.cn
  • 中图分类号: TP391; Q615

摘要: 细菌非编码RNA(non-coding RNA, ncRNA)是近年来在细菌基因组内新发现的一类基因表达调控因子,与必需基因概念类似,有一部分ncRNA是生物体生存所必不可少的,称之为“必需非编码RNA”。因此,细菌的必需ncRNA可以作为药物开发的潜在靶标,以降低致病菌的耐药性。同时,必需ncRNA也成为最小基因组研究的重要对象之一。目前已经通过湿实验系统地确定了10余种细菌的必需ncRNA,然而还没有一个专门的必需ncRNA数据库,导致对必需ncRNA的研究远远跟不上科学研究和药物设计的需要。因此,该研究构建了一个专门的细菌必需ncRNA数据库DBEncRNA,以帮助研究人员开发高效的必需ncRNA计算机识别方法,用于进一步研究抗菌药物靶标发现和最小基因组。DBEncRNA数据库可以通过http://yeyn.group:86/免费访问使用。

English Abstract

叶远浓, 梁定发, 曾柱. DBEncRNA:细菌必需非编码RNA数据库[J]. 电子科技大学学报, 2022, 51(3): 348-352. doi: 10.12178/1001-0548.2021389
引用本文: 叶远浓, 梁定发, 曾柱. DBEncRNA:细菌必需非编码RNA数据库[J]. 电子科技大学学报, 2022, 51(3): 348-352. doi: 10.12178/1001-0548.2021389
YE Yuannong, LIANG Dingfa, ZENG Zhu. DBEncRNA:Database of Bacterial Essential ncRNA[J]. Journal of University of Electronic Science and Technology of China, 2022, 51(3): 348-352. doi: 10.12178/1001-0548.2021389
Citation: YE Yuannong, LIANG Dingfa, ZENG Zhu. DBEncRNA:Database of Bacterial Essential ncRNA[J]. Journal of University of Electronic Science and Technology of China, 2022, 51(3): 348-352. doi: 10.12178/1001-0548.2021389
  • 细菌非编码RNA(non-coding RNA, ncRNA)是近年来在细菌基因组内新发现的一类基因表达调控因子,分子大小为40~500个核苷酸,在RNA的转录调节、染色体复制、RNA加工与修饰、mRNA翻译与稳定性、蛋白质降解与转运和细菌感染等生物过程中扮演着重要角色[1]。随着被发现的细菌ncRNA数目迅速增加,及其在生物体内的重要作用,细菌ncRNA已成为微生物的研究热点之一[2]。由于ncRNA在生物体内扮演重要角色,新ncRNA的识别具有重要的科学意义和极大的商业价值。

    在生物体所包含的ncRNA中,与必需基因概念类似,有一部分ncRNA是生物体生存所必不可少的,称之为“必需非编码RNA”(必需ncRNA,essential ncRNA)[3]。虽然必需ncRNA不能像必需基因一样编码蛋白,但其在生物学上的研究地位与必需基因同等重要,具有重要的理论研究和实际应用价值。如大部分抗生素以基本的细胞过程为靶标,而细菌的ncRNA在细菌生命活动中发挥着极为广泛的作用,包括结构调节到催化作用,影响各种加工过程,如细菌毒性、发育控制、mRNA稳定性与蛋白质降解等 [4],因此细菌的必需ncRNA可以作为药物开发的潜在靶标,以降低致病菌的耐药性。同时,对必需ncRNA的理论研究有助于理解和确定最小基因组的构成和功能作用,如文献[5-6]认为一个完整的最小基因组除了编码蛋白,还需包括调控和结构原件,如5’-UTRs和ncRNA。文献[7]报道了一个包含必需ncRNA的最小细胞。文献[8]在构建细菌最小基因集算法中也提出一个最小基因组,除了最小基因集,还应包含最小非编码RNA集。

    文献[9-10]确定了一个新的miRNA为ncRNA,最早提出“必需ncRNA (essential non-coding RNA)”的概念。文献[6]使用428735个Tn5转座子插入测定新月柄杆菌(Caulobacter crescetus) 的基因组时,除了确定480个必需基因外,还确定了29个必需tRNA和8个必需小ncRNA。在肺结核分支杆菌(Mycobacterum tuberculosis)中,文献[11]使用36788个转座子插入方法在确定必需基因的同时发现了25个必需基因组片段,包括10个tRNA和参与tRNA过程的RNaseP的RNA催化单元。文献[12]用类似的方法在鼠伤寒沙门氏菌(Salmonella enterica serovars)中发现了15个必需ncRNA。值得注意的是,RNaseP再次被确定为必需ncRNA,因此它可能是一个在细菌中普遍存在的必需ncRNA。

    文献[13]测试了一些ncRNA对毒性效应具有niche-specific的作用的假说,因为越来越多的证据表明ncRNA参与致病菌致病过程,该文献首次用RNA-seq技术确定了一种肺炎病原体——肺炎链球菌(Streptococcus pneumoniae)的全套ncRNA,包含89个ncRNA。文献[14]重新确认了酵母的180个必需ncRNA。

    正是由于细菌ncRNA在细菌生长、侵染宿主和致病机理过程中发挥着极为广泛的调控作用,对细菌ncRNA,特别是必需ncRNA的干扰会使其失去调控作用,从而影响到细菌的生长、侵染宿主的能力。在细菌耐药性问题日益突出的今天,亟待积极研发新型抗菌靶点和药物。基于细菌必需ncRNA为靶点的新型药物开发,有助于降低细菌耐药性问题,所以亟需发展细菌必需ncRNA的高效识别、鉴定方法。

    ncRNA在合成生物学研究领域也具有不可或缺的地位。在现阶段,定义一个能够维持生物体存活的最小基因组是生物学的主要挑战之一。目前大部分关于最小基因组的研究主要基于传统的蛋白编码基因,而忽略了ncRNA,这种基于不完整的注释,导致最小基因组的准确性受到了限制[15]。针对这一问题,文献[7]以注释较为完整、本身具有较小基因组的细菌——肺炎支原体(含有694个ORF、311个ncRNA、43个编码RNA)作为研究对象,首次获得了一个既包含编码基因,又包含ncRNA的最小细胞。

    总的来说,研究基因组中的必需基因组元件,如必需ncRNA等,在生物学研究中具有重要的科学意义和应用价值,包括从合成生物学到抗病原菌的药物靶标确定。因此,必需ncRNA应该如必需基因概念一样,成为最小基因组研究的重要对象之一。为达到这一目标,亟需确定细菌的必需ncRNA,这就需要发展快速确定必需ncRNA的计算机识别算法,因此收集细菌的必需ncRNA作为算法开发数据集显得及其重要和必要。

    目前,还没有专门的必需ncRNA数据库。天津大学生物信息中心构建的必需基因数据中虽然收集了目前测序的必需ncRNA,但是该数据库仅收集了必需ncRNA的序列信息[16-19],这对于开发高效的必需ncRNA计算机识别方法是不足的。基于此,本研究构建了专门的细菌必需ncRNA数据库DBEncRNA(database of bacterial essential ncRNA),更便于进一步研究抗菌靶标发现和最小基因组。

    • 目前在12种细菌中,必需ncRNA已经被系统地实验确定。虽然必需ncRNA的数据量相较必需基因要少很多,但没有一个真正的必需ncRNA数据库跟得上科学研究和药物设计的需要。本研究收集测序的细菌基因组中包含了和人类疾病密切相关的细菌必需ncRNA。目前,DEG数据库收录了部分细菌的必需ncRNA数据[16],如表1所示。

      此外,为了使得构建DBEncRNA数据库包含的物种和序列更全面,除了上表所列数据,本文还通过“essential”、“ncRNA”、“non-coding RNA”、“essentiality”、“microorganism”、“bacteria”等关键字的组合在Google、Pubmed等数据库上进行检索,将检索到的符合要求的序列作为DBEncRNA数据库的来源。

      表 1  来源于DEG数据库的细菌必需ncRNA数据

      物种必需序列数
      Acinetobacter baumannii ATCC 17978[20] 59
      Acinetobacter baumannii ATCC 17978[20] 1
      Agrobacterium fabrum str. C58[21] 11
      Bacillus subtilis[22] 2
      Brevundimonas subvibrioides ATCC 15264[21] 35
      Caulobacter crescentus[6] 532
      Mycobacterium tuberculosis H37Rv III[11] 35
      Salmonella enterica serovar Typhi Ty2[12] 24
      Salmonella enterica serovar Typhi SL1344[12] 23
      Sphingomonas wittichii RW1[23] 32
      Synechococcus elongatus PCC 7942[24] 34
      Streptococcus pneumoniae[13] 72
    • 必需ncRNA是从功能上来定义的,而功能与结构是密切相关的[2, 25],因此对RNA分子结构的研究就成为分子生物学的一个重要领域,其中RNA二级结构预测被作为研究RNA分子结构的主要手段。因此为了方便用户使用DBEncRNA数据库,本文用RNAfold工具对每一个收集的必需ncRNA进行了二级结构预测[26]。同时为了方便用户直观地观察ncRNA的二级结构,本文调用了RNA二级结构可视化工具Forna[27]

    • 在生物信息学中,通常认为序列相似则功能相似,为了帮助用户挖掘其余未经实验确定的必需ncRNA,DBEncRNA数据库引入BLAST序列比对功能,帮助使用者基于DBEncRNA数据库通过同源序列比对发现其感兴趣的ncRNA序列[28]

    • DBEncRNA数据库的原始必需ncRNA数据来源于DEG 6.5和关键字爬取,在获得原始数据后进行以下处理:首先,因为DBEncRNA数据库提供了必需ncRNA的二级结构信息,因此剔除没有核酸序列的ncRNA信息;其次,根据DBEncRNA数据库的使用功能,筛选保留描述ncRNA的相关信息,如表2所示。最终获得了一个含有20株细菌,共包含884条必需ncRNA序列及相关信息的数据库,如表3所示。

      表 2  DBEncRNA数据库细菌必需ncRNA信息

      字段名具体信息
      Accession NumberDBEncRNA数据库编号
      RefSeq基因组在genbank的登录号
      CategoryncRNA所属类
      Condition培养条件
      Cross-Ref该序列在其他数据库中登录号
      Description功能描述
      Organism来源物种
      Reference参考文献
      Date发表日期
      Nucleotide Sequence核酸序列

      表 3  DBEncRNA数据库数据统计信息

      物种名基因组编号培养条件必需ncRNA数目/个
      Caulobacter crescentusNC_011916完全培养基532
      Acinetobacter baumannii ATCC 17978NC_009085完全培养基60
      Escherichia coli O157:H7 str. EDL933NZ_CP008957LB糖培养基37
      Synechococcus elongatus PCC 7942NC_007604完全培养基34
      Mycoplasma pneumoniae M129NC_000912LB糖培养基34
      Sphingomonas wittichii RW1NC_009511完全培养基32
      Brevundimonas subvibrioides ATCC 15264NC_014375完全培养基31
      Mycobacterium tuberculosis H37Rv IIINC_000962完全培养基29
      Providencia stuartii strain BE2467NZ_CP017054LB糖培养基25
      Salmonella enterica serovar Typhi Ty2NC_016810完全培养基24
      Salmonella enterica serovar Typhimurium SL1344NC_016810完全培养基23
      Streptococcus mutans UA159AE014133血培养基6
      Agrobacterium fabrum str. C58 chromosome linearNC_003063完全培养基6
      Agrobacterium fabrum str. C58 chromosome circularNC_003062完全培养基5
      Mycobacterium tuberculosis H42Rv IIINC_000962完全培养基1
      Mycobacterium tuberculosis H38Rv IIINC_000962完全培养基1
      Mycobacterium tuberculosis H39Rv IIINC_000962完全培养基1
      Mycobacterium tuberculosis H41Rv IIINC_000962完全培养基1
      Mycobacterium tuberculosis H40Rv IIINC_000962完全培养基1

      其中新月柄杆菌(Caulobacter crescentus)的必需ncRNA数目占数据库总数的近61%,其次是鲍氏不动杆菌(Acinetobacter baumannii ATCC 17978)的必需ncRNA数目,占近7%。实验确定必需ncRNA的培养条件总共有5种,其中主要以完全培养基(rich medium)条件为主,占75%,这是在充足生长条件下确定必需基因和必需ncRNA的常用培养条件。根据ncRNA所属类别可将ncRNA分为10大类,如图1所示, 属于启动子类型的ncRNA将近一半,其次是属于tRNA类型的ncRNA。

      图  1  DBEncRNA数据库必需ncRNA类别分布图

    • 为了方便用户使用DBEncRNA数据库,本文用RNAfold软件数据库收集的每个必需ncRNA进行二级结构预测,对于每一条必需ncRNA,RNAfold采用两种方法对其进行预测,分别是基于最小自由能的预测方法(minimum free energy)和基于热力学的预测方法(thermodynamic ensemble),对于每一种预测的二级结构,均给出该结构下的最小自由能等信息。

      将预测出的每种二级结构以及对应的分子结构注释信息导入到DBEncRNA数据库,同时,引入可视化插件,使用人员可以按需查看其二级结构。

    • DBEncRNA的数据主要包括884个ncRNA及其预测的分子结构和注释信息,所有数据被整理并存储在关系型数据库MYSQL上,可通过http://yeyn.group:86免费访问,DBEncRNA经测试可在不同的操作系统(如Windows、Linux和 Mac)以及各种浏览器(如Internet Explorer、Mozilla Firefox、Google Chrome)上使用。

    • 通常认为序列相似则功能相似,为了帮助用户确定其感兴趣的ncRNA是否属于必需ncRNA,将BLAST序列比对工具引入DBEncRNA数据库。用户可以通过提交序列预测其必需性,该功能可以通过点击DBEncRNA数据库页面上的“BLAST”链接实现。

      为了方便用户使用,本文还提供DBEncRNA数据库的数据下载,用户可以根据研究需要,下载必需ncRNA的核酸序列和二级结构数据。

    • 当前,必需ncRNA的数据量持续增加,但还没有一个真正的必需ncRNA数据库。这远远跟不上科学研究和药物设计的需要,急需开发出专门的数据库并在此基础上开发必需ncRNA识别的计算机软件去识别更多的必需ncRNA。因此,本研究通过收集已经测序的细菌基因组中包含的必需ncRNA,构建了必需ncRNA数据库。基于该数据库的数据,生物信息人员后续可以开发基因序列组成和序列衍生信息的必需ncRNA识别算法,同时可以利用其二级结构数据以提高相关算法的准确性。

      DBEncRNA数据库能对抗菌药物靶标发现和对合成生物学研究提供数据支撑。除此之外,对病原菌必需ncRNA的深入研究也将推动开发新的致病菌快速检测系统。DBEncRNA数据库有助于设计针对特定致病菌高度特异和高度敏感的RNA 探针,而后者可应用于临床快速检测系统。总之,利用DBEncRNA数据有助于开发出预测每种致病菌特有必需ncRNA的方法,也有助于发展新的致病菌特异性预防和治疗方法。

参考文献 (28)

目录

    /

    返回文章
    返回