10 |
利用核酸序列的预测方法 |
James W. Fickett SmithKline Beecham Pharmaceuticals King of Prussia. Pennsylvania |
这一章讨论的是解释DNA序列的方法,这些方法主要依赖于功能模式的检测,而不是与其它单个序列的比较。这些方法中的绝大部分意在先寻找并遮蔽重复的和低复杂性的序列,再寻找基因以及与其相关的调控区域。在针对单个序列的集中调查分析,以及为可能的基因、整个基因组或相应较大区域建立初步清单的快速扫描过程中,这些方法都发挥了主要作用。由于算法开发迅速,没有一种工具能完成全部有关的序列分析功能。因此,有必要将序列提呈给多个不同的软件包加以分析,以利用最佳的计算机技术。为使这一过程效率更高,本章为当前常用的工具提供了简明的使用指导。一些有用的资料还能从Wentian Li编辑的在线书目(见本章末“书目…”中所列资源中的URL地址)和参考文献中的相关综述中找到:Gelfand(1995),Claverie(1996),Fickett和Guigó(1996),Snyder和Stormo(1996),以及Guigó(1997)。
这一章是这样安排的:首先,是对基本概念框架的描述,以将各不同工具安排在合适的位置上;然后,是对主要的计算工具的评述,对每种工具,既讨论了其内在逻辑思想,也给出程序应用的范例。当前的诸多工具虽很实用,但绝非完全可靠。例如,当前的发展中存在的一个缺陷是许多序列分析软件开发者对功能域原型的描述来自DDBJ/EMBL/GenBank等国际序列数据库中对相应功能域的描述,然而这些数据库中的描述本身的部分却可以来源于序列的分析,这样就导致了循环。在应用中,每种分析方法各自的优势和不足都该特别留意。一些最常用的和可以从互联网上获得的计算工具列于章末。
框架
一个全面的基因搜寻方案,无论是由单个复合程序实现还是通过使用多个专门程序来实现,以下的基本信息都是适用的。首先,搜寻基因的证据由多处收集而来:
然后,全部收集到的信息汇总整理成总体上尽可能连贯的谱图。用于汇总整理阶段的准则属于基本常识:例如,由“密码子偏好”分析出的外显子边界可能为了有一个更好的剪接位点而进行轻微调整;在存在与已知蛋白序列的相似性时,序列的“密码子偏好”性也会更受重视。
对于特定的质询,诸多基因辨识程序中仅有少数可能与之相关。在构建一个方案时,一些主要问题是值得注意的:(1)对真核生物序列,遮蔽重复序列应先于其它分析过程;(2)大多程序都有特定生物物种适用性;(3)许多程序只能特定适用于基因组DNA数据或者只适用于cDNA的数据;(4)序列的长度也是一个重要因素。例如,用鸟枪法测序得到的单个序列片段很少能用设计为在序列中搜寻整个基因的老式程序加以分析。
遮蔽重复序列
在进行任何真核生物序列的基因辨识分析之前,最好把散布和简单的重复序列找出来并从序列中除去。虽然这些重复序列可能正好覆盖了由RNA聚合酶Ⅱ转录的部分区域,它们几乎不会覆盖启动子和外显子编码区。这样,这些重复序列的定位能为其它基因特征的定位提供重要的反面信息。重复序列还常常会搅乱其它分析,特别是在数据库搜索中。
对于偶尔分析一个序列而言,基于电子邮件或Web网页的服务器就足够了。CENSOR(Jurka等,1996)与RepertMasker(Smith,1996)就是这种能提供标识和遮蔽散布和简单重复序列的服务器。可以通过电子邮件,或用WWW界面实现(地址见章末列表)。图10.1显示的是一个有CENSOR进行重复序列分析和遮蔽的例子。
对于大量分析工作而言,在本地安装分析软件就更有效和必要。显然,本地分析也大大增强了保密性。从因特网上可以得到XBLAST(Claverie,1996)(不要与BLASTX混淆)的源程序。许多重复序列能从由J.Juka收集的Repbase中得到。J.M.Claverie也在XBLAST软件中包含了一组收集整理的Alu序列。对本地安装软件,把克隆载体序列加入收集的重复序列中也很有用,以便使在进行分析时,把克隆载体也一并遮蔽。
(a)
; HUMCKMM1
HUMCKMM1
ggatccttcctccttggcctcccaaagtgctgggattacaggtgtgagccactgcacctg
gcctattacccttctcaggctctggagtccatccttctgctctgtctccctcagttcaat
tgttttttgttttttgttttttttttagacacagtctcgctctgtcaccaaggctggagt
gcagcagtgcgatcacagctcaccgcagcctcacctcccaggctcaagtgatcctcccat
ctcggcctctgagtagctgagactataggtgtgtccacatgtccggctaatttttgtatt
tttagtagagacagggtttcaccgcgttggccagggtggtcttgaactcctgagctcaag
caatcctcctgcctcagcctccttgttttgatttttagatcccacaaataacttgtgatg
tttgtctttctatacctggttcatttaacattttctttttcttttcttttcttttttttt
ttttttgtgagactgagtcttgctctgtcactcaggctggagggcaatggtgcatctcag
ctcactgcaacctccacctcctaggttcaagcaattcttatgcctcagcctcctggctag
ctgggattacaggcgtgtgtcaccatgccaggctaatttttgtacttttagtagagatgg
ggtttcaccatgttggccaggctggtcttgaactcctggcctcaagtgatccacccgcct
ccgcctctgcctcccaaagtgctgggattacgggcctgagccactgtgcccggcccatct
aacattttcactgtcaatcacaatgggattaaaactcctcccacagcccctagggacca1
(b)
humckmm1 2 63 Alu-Jb 1 62 c
humckmm1 67 119 L1MA2 697 751 c
humckmm1 138 382 Alu-Jb 42 290 c
humckmm1 383 449 L1MA2 623 696 c
humckmm1 451 480 (TTTTC) 5 33 d
humckmm1 481 775 Alu-Sz 1 290 c
(c)
; humckmm1
;humckmm1
humckmm1
GXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXTATXXXX
XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXTTGTTTTTTGTTTTTTGTXXX
XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX
XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX
XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX
XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX
XXXXXXXXXXXXXXXXXXXXXXXXXXXXXAXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX
XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX
XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX
XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX
XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX
XXXXXCATCTAACATTTTCACTGTCAATCACAATGGGATTAAAACTCCTCCCACAGCCCCTAGGGACCA1
图10.1由CENSOR实现的重复序列分析:(a)输入序列,(b)由CENSOR产生的特征列表,以及(c)遮蔽了重复序列后的输出序列。
数据库搜索
搜寻已知同源体可能是最古老和最为广泛认识的编码蛋白的新基因的辨识方法(例如,Doolittle,1986;Gish和States,1993;Robison等,1994;Claverie,1996;Gelfand等,1996),对于编码snRNA和rRNA的新基因也是这样。这类搜索仅依靠进化上的关系,因而广泛适用。数据库搜索技术已在第七章中有所详述。这一部分仅评述它们在基因搜寻中的应用。
完整的基因搜寻服务正开始把数据库搜索包含进来成为分析的一部分。然而,在某些情况下,数据库搜索这一步还需要用户分开完成。对编码蛋白的基因而言,将序列以六种可能的阅读框架翻译出来,并把结果分别作为氨基酸序列和功能性Motif数据库的搜索对象,这通常是获取重要匹配序列最佳的第一步。一旦一个同源序列被找到,Procrustes(Gelfand等,1996)可被用来找出已知基因产物与新基因之间最优的比对方式。
找到同源产物的一大好处显然在于该基因的一些生物学性质可以马上被弄明白,但这里有两点警告。首先,由相似性作出的注解可能会导致错误的传播(Bork,1996)。其次,新发现的蛋白中大约只有一半能在已有数据库中找到同源者,并且这一比例看起来增长极为缓慢。Green等(1993)发现:(1)全体蛋白质中的大多数古保留片段(或称ACR,简单定义为蛋白序列中表现高度良好同源性的部分)都已经被发现并能在当前的数据库中找到;(2)大约新发现基因中的20%-50%包含至少一个数据库中已有描述的ACR;并且(3)很少表达的基因比中等或高度表达的基因更缺乏包含ACR序列的可能。
一种直接的核酸序列数据库搜索也很有用。在EST(部分cDNA序列)数据库中可能包含着全部基因中大多数的碎片(Aaronson等,1996;Hillier等,1996)。因此它们是为多数基因部分定位的重要资源。但这在为基因结构定界时能起多大作用尚不清楚。众所周知,核酸库搜索是定位rRNA和snRNA的好方法(虽然假基因仍是个问题)。这种搜索在定位调控序列时也会有用(Duret和Bucher,1997)。
密码子偏好的检测
大多数计算识别编码蛋白质的基因的方法都着重于识别由于密码子使用时的偏好而产生的有些弥散的编码区规则性。将密码子出现频率简单列表是所谓“编码测度”(coding measure)的一种,即指一种以计算出一个数或一个数列表用于总结这种规律性的规则。许多“编码测度”规则都已被提出。其中,大约最有信息提取价值的包括:双密码子计数(即指连续两个密码子对出现频率计数);一些直接量度周期性(这里的“周期性”指同一核苷酸在相距3,6,9,…,bp位置上多次出现的趋势)的方法;均一性对复杂性的量测(如长同聚区段计数);以及开放可读框架的出现(Fickett和Tung,1992)。
很多编码区检测程序主要是把一个或几个“编码测度”组合起来,(使用例如概率论原理,多变量统计中的判别分析技术,或者人工智能领域的神经网方法)构成一个数,称作一个判别式。例如,这种组合构成了有名的GRAIL程序(Xu等,1994)的基础。一般判别式在一个“滑动窗口”(即定长连续的子序列)中计算出来,并且将结果作成曲线(图10.2)。
为从编码测度判别式中获得更显著信息,需要获得有关大量碱基构成顺序的规律。更具体而言,以下标准由Fickett和Tung(1992)建立:(1)将GenBank库分解成连续108bp的窗口片段;(2)只有那些完全是编码区或完全不是编码区的片段被保留下来;(3)一半的窗口片段用来设定如上所述四种测度线性组合成判别式所用的参数;(4)另一半用于检验判别式预测的准确性。研究得到了88%的预测准确性。因而编码测度给出了一个较低分辨率的编码区边界的图谱。然而,编码测度还可以合理应用于不完整的序列(例如,由鸟枪测序工程获得的几百bp长的一个序列),并且这是一个重要的优点。
许多编码测度程序是适用专门物种的,所以使用者要仔细确定该服务开发和测试用的是各类物种中的哪一些。
………………
图10.2由GenMark(一个通过电子邮件服务的编码区识别工具)得到的部分输出样例。GenMark包含七个DNA的概率模型,分别由编码区的六种阅读框和非编码区计数而来。该程序计算出DNA上每个窗口是非编码区、或某种阅读框架的编码区的概率。
探查DNA中的功能性位点
编码测度与细胞识别和表达基因的方法大概基本上不同(虽然见Knudsen和Brunak,1997)。如果我们能识别表达系统与核酸相互作用的位点,例如转录因子结合位点与内含子/外显子的接头位点,这将对基因识别大有启发(并可能提高精度)。
一种归纳出这些位点位置(一般,基因识别算法开发者称之为“信号”)的方法是给出所谓“共有序列”,它是由特定的结合位点比对后得到各位置最常出现的碱基构成。共有序列是很好的助记工具,但一般在用于从假位点中判别真正位点时还不太可靠,这部分是因为它没包含各位点上其它三种碱基出现的可能性。许多算法采用能给出更佳判别的复杂技术。其中一种根据物理化学原理的技术是位置权重矩阵(PWH)技术。信号的各位置上每种可能出现的核苷酸都分配一个分数。对一个特定序列,把它看作可能出现的信号,将各位置的相应分数加和后给出该序列作为潜在位点的得分。一些情况下,这些分数大约与控制蛋白(核糖核蛋白)的结合能成正比(见Stormo,1990与Von Hippel,1994的综述)。
有一些研究(例如,Barrick等,1994)表明PWM在估测单个特定结合位点时表现较好。然而不幸的是,单独用PWM来识别普通真核基因表达系统的复杂成分(例如,剪接位点和启动子序列)时进获得艰难而有限的成果。主要问题可能在于上下文特异的表达机制和复合结合分子之间的协作。
启动子
直到最近才能确定真核基因组序列大到足以包含许多基因。数据成为基因搜寻程序的新问题:要从多基因中准确分割一组外显子。启动子是提供这一生物学功能的富含信息的信号序列。计算机识别启动子(近有Fickett和Hatzigeorgiou,1997的综述)部分以其能推进基因识别而十分重要。很多复杂程序依赖于实验室提供的转录因子结合特性,和一些对启动子结构的描述。但这些描述看上去并未抓住转录起始中的一些重要特性,并且也许令人吃惊的是,主要依赖于简单寡核苷酸频率计数的程序表现也差不多。启动子识别仍是一个重大挑战,在前面引用的综述中,用包含24个新确认的转录起始点的18个序列测试了当前的程序。这些程序最多找出了一半的启动子,假阳性率约为每千个碱基中一个。
内含子剪接位点
许多不同物种的研究小组汇集了剪接位点的PWM(Senapathy等,1990),这些可能是多物种分析能得到的最重要资源。可惜PWM分析剪接位点时特异性很低,主要由于存在多剪接机制(一些对近期发现的回顾见Nilson,1996),以及调控下的交替剪接(NcKeown,1992)。(事实上,由于大多交替剪接在数据库中未被提及,完整评估算法精度很困难。)作为复合基因搜寻程序一部分的GENSCAN,Burgen和Karlin(1997)将剪接位点归为不同的类,并使用判决树(例如,Breiman等,1984)将PWM应用于树的每一叶上。这种方法显著提高了精度。许多复合的基因识别服务程序(见下)提供分离的剪接点预测(例如,FGENEH/D/N/A程序中的H/D/N/ASPL成分,Solovyev和Salamov,1997)。此外,Brunak等(1991)提供独立的剪接点预测程序NetGene(见章末列表),将剪接点本身信息与对两侧编码的评估结合起来。
翻译起始位点
对于真核生物,如果转录起始点已知,并且没有内含子打断5'非翻译区的话,Kozak规则(Kozak,1996)可以在大多数情况下定位起始密码子。原核生物一般没有剪接过程,但在开放阅读框中找正确的起始密码子仍很困难。这种情况里,由于多顺反操纵子的存在,启动子定位虽有用,但不象在真核生物中起关键作用。对原核生物,关键是核糖体结合点的可靠定位。这一目的可以由多个程序提供解决,见GelFand(1995)综述。
终止信号
多腺苷化和翻译终止信号看上去没有基因起始信号那么重要,但这些信号也能帮助划分基因的范围。例子可见Kondrakhin等(1994),Wahle和Keller(1996),Dalphin等(1997),以及Solovyev和Salamov(1997)等对此的陈述。
复合的基因语法分析
第一代计算机辅助基因识别程序主要处理识别基因的分离特征――例如,单独识别剪接位点,或者只识别不涉及信号的编码区的规则性。但比方说如果一个剪接位点将一段编码区隔断,那它就能帮助检测时在一边寻找编码区,而在另一边找非编码区。这说明综合考虑待定特征的整体一致性能显著提高预测的精度。例如,60%的50bp以下长度的外显子在以前的GRAIL电子邮件服务程序中会被遗漏,但在加上一个简单的剪接和框架逻辑分析后就能够被检测出来(Einstein等,1992)。
复合的基因搜寻程序先搜索信号序列并作编码区分析(有时也作同源序列搜索)。然后,对相应打分函数进行优化,以确定外显子并给出与手头上所有数据看上去最一致的一些可能的基因结构。不断提高精度和使用的便利是推动这些程序不断发展的重要动力。
现在能得到许多这样的复合算法(表10.1),至少在一些情况下它们能给出关于基因结构的一些好意见。图10.3显示了用GENSCAN(遮蔽重复序列之后)分析人类磷酸丙酮酸水合酶基因(HSENO3;添加号X56832)的结果。
在Fickett和Guigó(1996)文献中能找到用其它一些程序分析这个基因的结果。为了对比,这里是GenBank对这个基因的注解:
CDS join (1579..1663, 2540..2635, 2796..2854, 3016..3085, 3455..3588, 4820..5042, 5153..5350, 5688..5889, 6318..6426, 6576..6634, 6723..6792)
表10.2将结果列为更易于阅读的方式。
这些程序(在这一新技术领域的第一代中)的主要局限性在于:(1)复合的算法目前只适用少数物种;(2)所有的程序(除了GENSCAN)在输入序列中包含多基因或者部分基因时,所预测的外显子仍可靠,但所预测的基因结构就不一定了;(3)由于尚不完全清楚的原因,预测精度可能比原先想象的低得多,尤其是对新发现的基因。(Burset和Guigó,1996,用百来个简单实例来标定了能得到的程序,结果无一能正确预测出多于一半的外显子);(4)大多复合算法都明显对测序错误十分敏感(Burset和Guigó,1996);以及(5)象交替剪接、重叠基因和启动子结构这样的基因语法结构仍超出当前程序的处理能力。
既然这些程序中没有一个十全十美,它们都覆盖了一些不同算法,都在迅速进步,因此强烈建议分析每个序列时采用3到4个不同程序,并仔细对比其结果。如果某个工具会经常用到,就值得用大量已知结果的序列对其进行测试,以便对算法适用性有所了解。
表10.1因特网上的编码蛋白基因识别工具
Service |
Ref. |
Organism(s) |
E-Mail Address and/or Web Site |
EcoParse |
Krogh et al.(1994) |
Escherichia coli |
e-mail:ecoparse@cse.ucsc.edu |
FGENEH/D/N/Y/A |
Solovyev and Salamov(1997) |
Mammalian,Drosophila. |
e-mail:analysis@theory.bchs.uh.edu |
CDSB |
(1997) |
nematode,yeast,plant,and bacteria |
http://defrag.bcm.tmc.edu:9503/ltp.html |
GeneID |
Guigo et al.(1992) |
Vertebrate |
e-mail:geneid@darwin.bu.edu |
GeneMark |
Borodovsky and Mclninch(1993) |
Many individual species |
e-mail:genemark@ford.gatech.edu http://intron.biology.gatech.edu/~genmark |
GeneParser |
Snyder and Stormo(1995) |
Human |
http://beagle.colorado.edu/~eesnyder/GeneParser.html |
Genie |
Kulp et al.(1996) |
Human |
http://www-hgc.lbl.gov/inf/genie.html |
GenLang |
Dong and Searls(1994) |
Dicotyledons,Drosophila,vertebrates |
e-mail:genlang@cbil.humgen.upenn.edu http://cbil.humgen.upenn.edu/~sdong/genlang_home.html |
GENSCAN |
Burge and Karlin(1997) |
Vertebrate,Caenorhabditis,maize,Arabidopsis |
e-mail:genscan@gnomic.stanford.edu http://gnomic.stanford.edu/~chris/GENSCANW.html |
GenView |
Milanesi et al.(1993) |
Human,mouse,Diptera |
http://www.itba.mi.cnr.it/webgene |
GRAIL/GAP/ |
Xu et al.(1994) |
Human |
e-mail:grail@ornl.gov |
XGRAIL |
http://avalon.epm.ornl.gov/gallery.html |
||
MZEF |
Zhang(1997) |
Human,mouse,Arabidopsis,fission yeast |
http://www.cshl.org/geneginder |
Procrustes |
Gelfand et al.(1996) |
Any |
http://www-hto.usc.edu/software/procrustes |
Predicted genes/exons:
Gn.Ex Type S .Begin ...End .Len Fr Ph I/Ac Do/T CodRg P.... Tscr..
----- ---- - ------ ------ ---- -- -- ---- ---- ----- ----- ------
1.01 Init + 1579 1663 85 0 1 114 54 131 0.741 13.24
1.02 Intr + 2540 2635 96 0 0 1 100 134 0.698 6.38
1.03 Intr + 3455 3588 134 0 2 101 81 136 0.999 15.07
1.04 Intr + 4820 5042 223 1 1 85 56 432 0.998 37.93
1.05 Intr + 5153 5350 198 0 0 73 81 371 0.999 34.74
1.06 Intr + 5688 5889 202 1 1 53 69 378 0.979 31.27
1.07 Intr + 6318 6426 109 0 1 62 80 20 0.843 -0.61
1.08 Intr + 6576 6634 59 2 2 105 77 51 0.888 3.87
1.09 Term + 6723 6792 70 0 1 63 54 98 0.785 1.61
1.10 PlyA + 6853 6858 6 1.05
Predicted peptide sequence(s):
>gi|GENSCAN_predicted_peptide_1|391_aa
MAMQKIFAREILDSRGNPTVEVDLHTAKGRFRAAVPSGASTGIYEALELRDGDKGRYLGK
AKFGANAILGVSLAVCKAGAAEKGVPLYRHIADLAGNPDLILPVPAFNVINGGSHAGNKL
AMQEFMILPVGASSFKEAMRIGAEVYHHLKGVIKAKYGKDATNVGDEGGFAPNILENNEA
LELLKTAIQAAGYPDKVVIGMDVAASEFYRNGKYDLDFKSPDDPARHITGEKLGELYKSF
IKNYPVVSIEDPFDQDDWATWTSFLSGVNIQIVGDDLTVTNPKRIAQAVEKKACNCLLLK
VNQIGSVTESIQACKLAQSNGWGVMVSHRSGETEDTFIADLVVGLCTGQIKTGAPCRSER
LAKYNQLMRIEEALGDKAIFAGRKFRNPKAK
Column Description
------ -------------------------------------------------------------
Gn.Ex gene number, exon number (for reference)
Type Init = Initial exonIntr = Internal exon
Term = Terminal exonSngl = Single-exon gene
Prom = PromoterPlyA - poly-A signal
S DNA strand (* = input strand; - = opposite strand)
Begin beginning of exon or signal (numbered on input strand)
End end point of exon or signal (numbered on input strand)
Len length of exon or signal (bp)
Fr reading frame (a codon ending at x is in frame f x modulo 3)
Ph net phase of exon (exon length modulo 3)
I/Ac initiation signal or acceptor splice site score (x 10)
Do/T donor splice site or termination signal score (x 10)
CodRq coding region score (x 10)
P probability of exon (sum over all parses containing exon)
Tscr exon score (depends on length, B/Ac, Do/T and CodRg scores)
图10.3 GENSCAN分析样例的输出结果,详见正文。
表10.2对比预测结果和基因注解
Predicted Exons |
Annotated Exons |
1579 1663 |
1579 1663 |
2540 2635 |
2540 2635 2796 2854 3016 3085 |
3455 3588 |
3455 3588 |
4820 5042 |
4820 5042 |
5153 5350 |
5153 5350 |
5688 5889 |
5688 5889 |
6318 6426 |
6318 6426 |
6576 6634 |
6576 6634 |
6723 6792 |
6723 6792 |
搜寻tRNA基因
对tRNA基因的识别要易于识别编码蛋白的基因,部分是由于polⅢ启动子结构简单以及tRNA二级结构的保守性。在tRNAscan-SE(Lowe和Eddy,1997)中,结合了多个早期程序,基本上解决了tRNA基因识别的问题。Lowe和Eddy发现,将依赖于二级结构检查和保守启动子元件的PWM检测的tRNAscan(Fichant和Burks,1991)的预测结果,与依赖于转录控制元件分析的Pavesi等(1994)的算法加以合并后,超过99%的真tRNA基因都能被识别出来。这种混和的预测结果列表中还包含了超过50%的假阳性。一种很好的选择性算法,COVELS(Eddy和Durbin,1994)发现能除去列表中几乎全部的错误。整个结果就是一种据报道称能识别99%的真tRNA基因,并在每个基因组中少于一个假阳性的方法。tRNAscan-SE的服务和软件均可得到(见章末列表)。图10.4给出了一个例子的输出结果。
Sequence tRNA Bounds tRNA Anti Intron Bounds Cove
Name tRNA # Begin End Type Codon Begin End Score
-------- ------ ----- --- ---- ----- ----- ----- -----
Your-seq 1 2348 2420 Val TAC 0 0 76.52
Your-seq 2 2440 2512 Thr TGT 0 0 77.70
Your-seq 3 2522 2594 Lys TTT 0 0 84.24
Your-seq 4 2627 2698 Gly GCC 0 0 75.46
Your-seq 5 2709 2794 Leu TAA 0 0 62.99
Your-seq 6 2803 2876 Arg ACG 0 0 71.02
Your-seq 7 2900 2973 Pro TGG 0 0 79.67
Your-seq 8 2997 3069 Ala TGC 0 0 71.25
Your-seq 9 4841 4914 Ile GAT 0 0 84.04
图10.4 tRNAscan-SE对样例的输出结果。样例序列是SA5SRR,添加号L36472,源于Staphylococcus aureus。其tRNA基因预测结果与DDBJ/EMBL/GenBank中的注解完全一致。
未来的展望
在不久前,普通用户很难得到最好的技术工具。随着大量因特网服务能方便得到,以及通过一个单纯界面就能不断提供服务的WWW网页,这种情况得以好转。虽然如此,一个用户想使用一整套合适的算法,就得要愿意将数据提交给一大堆程序;此外,还要把数据通过因特网送出去(若涉及隐私则是个难题),或者只有请一个程序员来获取和安装相应程序。在大规模测序中,就必须发明出一种方法,自动将序列提交给各个程序,并将所有结果整理清楚后交给最终用户。如果有一种工具组合的体系框架,允许群体中任一个成员独立进行开发,又能让只受过相对简单编程训练的工作者能将这些程序组合成一组适用于专门实验室需要的解决方案,这将成为一个很有意义的进步。这种体系框架应基于电子邮件或World Wide Web。
一个新的动人的发展是试图把当前对转录调节机制的知识融于软件,以通过计算分析为基因在特定上下文的表达提出意见。识别待定蛋白结合位点的方法在Frech等(1997)中有综述。转录上下文特异性看起来通常依靠比单个因子结合更为复杂的模式。为定义DNA上这种模式的功能联系的早期尝试有:Claverie和Sauvaget(1985),Fondrat和Kalogeropoulos(1994),Fickett(1996),Pedersen等(1996),以及Tronche等(1997)。虽然从DNA序列中预测基因表达模式的实用工具目前还没有,但推测这种工具会在未来几年中出现却是不无道理的。
第10章中重复序列分析和其它内容的因特网资源一览
SERVICE |
ORGANISM(S) |
ADDRESS |
||
Repeat Analysis |
||||
CENSOR: annotates repeats in sequence and masks them out |
Human or rodent |
e-mail:sensor@sharon.lpi.org see also http://www.girmst.org |
||
Repbase: repeat collections |
Human and several other collections |
ftp ncbi.nlm.nih.gov; reposttory/repbase/REF; also http://www.girinst.org |
||
Repeat Masker: annotates repeats in sequence and masks them out |
Several sub-groups of vertebrates |
http://ftp.genome.washington.edu./index.html |
||
XBLAST: tools to mask repeat occurrencts |
Any |
ftp ncbi.nlm.nih.gov; pub/jmc |
||
Other Topics |
||||
BCM Search Launcher (interface to multiple analysis tools) |
Any |
http://gc.bcm.tmc.edu:8088/search-launcher/launcher.html |
||
Bibiography for computational gene indentification |
All |
http://linkage.rockefeller.edu/wli/gene/list.html |
||
Netgene (splice site identification) |
Human |
e-mail:netgene@cbs.dtu.dk |
||
Procrustes (gene delineation by alignment) |
Any |
http://www-hto.usc.edu/software/procrustes |
||
TRNAscan-SE (tRNA gene identification) |
Any |
http://genome.wustl.edu/eddy/ |
致谢
这项工作是由SmithKline Beecham Pharmaceuticals支持,并由National Human Genome Research Institute的Public Health Service 资助HG00981-01A1。
参考文献
Aaronson, J., Eckman, B., Blevins, R. A., Borkowski, J., Imran, S. And Elliston, K. O. (1996). Toward the development of a gene index to the human genome: An assessment of the nature of high-throughput EST sequence data. Genome Res. 6, 829-845.
Barrick, D., Vilaneuba, K., Childs, J., Kalil, R., Schneider, T. D.,Lawrence, C. E., Gold, L., and Stormo, D. (1994). Quantitative analysis of ribosome bingding sites in E. coli. Nucl. Acids Res. 22, 1287-1295.
Bork, P. (196). Go hunting in sequence databases but watch out for the traps. Trends Genet. 12, 425-427.
Borodovsky, M., and Mclninch, J. (1993). Genmark: Parallel gene recognition for both DNA strands. Compu. Chem. 17,123-134.
Breiman, L., Friedman, J. H., Olshen, R. A., and Stone, C. J. (1984). Classification and Regression Tress (Pacific Grove, CA: Wadsworth and Brooks/Cole).
Brunak, S., Engelbrecht, J., and Knudsen, S. (1991). Prediction of humjan mRNA donor and acceptor sites from the DNA sequence. J. Mol. Biol. 220. 49-65.
Burge, C., and Karlin, S. (1997). Prediction of complete gene structures in human genomic DNA. J. Mol. Biol. 268, 78-94.
Burset, M., and Guigó, R. (1996). Evaluation of gene structure prediction programs. Genomics 34, 353-367.
Claverie, J.-M., (1996). Effective large-scale sequence similarity searches. Methods Enzymol. 266,212-227.
Claverie, J.-M., and Sauvaget, I. (1985). Assessing the biological significance of primary structure consensus patterns using sequence databanks. I. Heat-shock and glucocorticoild control elements in eukaryotic promoters. Comput. Appl. Biosci. 1, 95-104.
Dalphin, M. E., Brown, C. M., Stockwell, P. A., and Tate, W. P. (1997). The translational signal database, TransTerm: More organisms, complete genomes. Nucl. Acids Res. 25, 246-247.
Dong, S., and Searls, D. B. (1994). Gene structure prediction by linguistic methods. Genomics 23, 540-551.
Doolittle, R. F. (1986). Of URFs and ORFs (Mill Valley. CA: University Science Books).
Duret, L., and Bucher, P. (1997). Searching for regulatory elements in human noncoding squences. Curr. Opin. Struct. Biol. 7, 399-406.
Eddy, S. R., and Durbin, R. (1994). RNA sequence analysis using covariance models. Nucl. Acids Res. 22, 2079-2088.
Einstein, J. R., Mural, R. J., Guan, X., and Uberbacher, E. C. (1992). Computer-Based Construction of Gene Models Using the GRAIL Gene Assembly Program. Oak Ridge National Laboratory Report TM-12174 (Oak Ridge, TN-ORNL).
Fichant, G., and Burks, C. (1991). Identifying potential tRNA genes in genomic DNA sequences. J. Mol. Biol. 220, 659-671.
Fickett, J. W. (1996). Coordinate positioning of MEF2 and myogenin binding sites. Gene 172, GC19-GC32.
Fickett, J. W., and Guigó, R. (1996). Computational gene identification. In Internet for the Molecular Biologist, S. R. Swindell, R. R. Miller, and G. Myers, Eds. (Washington, DC: Horizon Scientific Press), pp. 73-100.
Fickett, J. W., and Hatzigeorgious, A. G. (1997). Eukaryotic promoter recognition. Genome Res. 7, 861-878.
Fickett, J. W., and Tung, C.-S. (1992). Assessment of protein coding measures. Nucl. Acids Res. 20, 6441-6450.
Fondrat, C., and Kalogeropoulos, A. (1994). Approaching th function of new genes by the detection of their potential upstream activation sequences in Saccharomyces cerevisiae: Application to chromosome Ⅲ. Curr. Genet. 25, 396-406.
Frech, K., Quandt, K., and Wemer, T. (1997). Finding protein-binding sites in DNA sequences: The next generation. Trends Biochem. Sci. 22, 103-104.
Gelfand, M. S. (1995). Prediction of function in DNA sequence analyis. J. Comput. Biol. 2, 87-115.
Gelfand, M. S., Mironov, A. A., and Pevzner, P. A. (1996). Gene recognition via spliced alignment. Proc. Natl. Acad. Sci. U.S.A. 93,9061-9066.
Gish, W., and States, D. J. (1993). Identification of protein coding regions by database similarity search. Nature Genet. 3, 266-272.
Green, P., Lipman, D., Hillier, L., Waterston, R., States, D., and Claverie, J.-M. (193). Ancient conserved regions in new gene sequences and the protein databases. Science 259,1711-1716.
Guigó, R. (1997). Computational gene identification. J. Mol. Med. 75, 389-393.
Guigó, R., Knudsen, S., Drake, N., and Smith, T. (1992). Prediction of gene structure. J. Mol. Biol. 226, 141-157.
Hillier, L., Lennon, G., Becker, M., Bonaldo, M. F., Chiapelli, B., Chissoe, S., Dietrich, N., DuBuque, T., Favello, A., Gish, W., Hawkins, M., Hultman, M., Kucaha, T., Lacy, M., Le, M., Le, N., Mardis, F., Moore, B., Morris, M., Parsons, J., Prange, C., Rifkin, L., Rohlfing, T., Schellenberge, K., Soares, M. B., Tan F., Thierry-Meg, J., Trevaskis, E., Underwood, K., Wohldman, P., Waterston, R., Wilson, R., and Marra, M. (1996). Generation and analysis of 280,000 human expressed sequence tags. Genome Res. 6,807-828.
Jurka, J., Klonowski, P., Dagman, V., and Pelton, P. (1996). CENSORA program for identification and elimination of repetitive elements from DNA sequences. Comput. Chem. 20, 119-122.
Knudsen, S., and Brunak, S. (1997). Kissing loops hide premature termination codons in pre-mRNA of selenoprotein genes and in genes containing programmed ribosomal frameshifts. RNA 3, 697-701.
Kondrakhin, Y., Shamir, V., and Kolchanov, N. (1994). Construction of a generalized consensus matrix for recognition of vertebrate pre-mRNA 3' terminal processiong sites. Comput. Appl. Biosci. 10, 597-603.
Kozak, M. (1996). Interpreting Cdna SEQUENCES: Some insights from studies on translation. Mamm. Genome 7, 563-574.
Krogh, A., Mian, I. S., and Haussler, D. (1994). A hidden Markov model that finds genes in E. coli DNA. Nucl. Acids Res. 11, 4768-4778.
Kulp, D., Hausslet, D., Reese, M. G., and Eckman, F, H, (1996). A generalized hidden Markov model for the recognition of human genes in DNA, In Proceedings of the Fourth International Conference on Intelligent Systems in Molecular Biology. D. J. States, P. Agarwal, T. Gaasterland, L. Hunter, and R. Smith, Eds. (Menlo Park, CA: AAA1 Press), pp. 134-142.
Lowe, T. M. and Eddy, S. R. (1997). TRNAscan-SE: A program for improved detection of transfer RNA genes in genomic sequence. Nucl. Acids Res. 25, 955-964.
McKeown, M. (1992). Alternative mRNA splicing. Annu. Rev. Cell Biol. 8. 133-155.
Milanesi, L., Kolchanov, N. A., Rogozin, I. B., Ischenko, I. V., Kel, A. E., Orlov, Yu. L., Ponomarenko, M. P., and Vezzoni, P. (1993). GenView: A computing tool for protein-coding regions prediction in nucleotide sequences. In Proceedings of the Second International Conference on Bioinformatics. Supercomputing and Complex Genome Analysis. H. A. Lim, J. W. Fickett, C. R. Cantor, and R. J. Robbins, Eds. (Singapore: World Scientific Publishing), pp. 573-588.
Nilsen, T. W. (1996). A parallel spliceosome. Science 273, 1813.
Pavesi, A., Conterio, F., Boichi A., Dieci, G., and Ottonello, S. (1994). Identification of new eukaryotic tRNA genes in genomic DNA databases by a multistep weight matrix analysis of transcriptional control regions. Nucl. Acids Res. 2, 1247-1256.
Pedersen, A. G., Baldi, P., Brunak, S. And Chauvin, Y. (1996). Characterization of prokaryotic and eukaryotic promoters using hidden Markov models. In Fourth International Conference on Intelligent Systems in Molecular Biology. D. J. States, P. Agarwal, T. Gaasterland, L. Hunter, and R. Smith, eds. (Menlo Park, CA: AAA1 Press), pp. 182-191.
Robison, K., Gilbert, W. And Church, G. M. (1994). Large Scale Bacterial Gene Discovery by similarity search. Nature Genet. 7, 205-214.
Rosenblueth, D. A., Thieffry, D., Huerta, A. M., Salgado, H., and Collado-Vides, J. (1996). Syntactic recognition of regulatory regions in Escherichia coli. Comput. Appl. Biosci. 12, 415-422.
Senapathy, P., Shapiro, M. B., and Harris, N. L. (1990). Splice Junctions, branch point sites, and exons: Sequence statistics, Identification, and applications to genome project. Methods Enzymol. 183, 252-278.
Smit, A. F. A. (1996). Origin of interspersed repeats in the human genome. Curr. Opin. Genet. Devl. 6, 743-749.
Smith, R. F., Wiese, B. A., Wojzynski, M. K., Davison, D. B., and Worley, K. C. (1996). BCM search launcher--An integrated interface to molecular biology data base search and analysis services available on the World Wide Web. Genome Res. 6, 454-462.
Snyder, E. E., and Stormo, G. D. (1995). Identification of coding regions in genomic DNA. J. Mol. Biol. 248, 1-18.
Snyder, E. E., and Stormo, G. D. (1996). Identifying genes in genomic DNA sequences. In DNA and Protein Sequence Analysis: A Practical Approach. M. J. Bishop and C. J. Rawlings, Eds. (Oxford: 1RL Press), pp. 209-224.
Solovyev, V., and Salamov, A. (1997). The Gene-Finder computer tools for analysis of human and model organism genome sequences. In Proceedings of the Fifth International Conference on Intelligent Systems for Molecualr Biology. T. Gaasterland, P. Karp, K. Karplus, C. Ousounis, C. Sander, and A. Valencia, Eds. (Menlo Park, CA: AAA1 Press), pp. 294-302.
Stormo, G. D. (1990). Finding protein coding regions in genomic sequences. Methods Enzymol. 183, 211-220.
Tronche, F., Ringeisen, F., Blumenfeld, M., Yaniv, M., and Pontoglio, M. (1997). Analysis of the distribution of binding sites for a tissue-specific transcription factor in the vertebrate genome. J. Mol. Biol. 266, 231-245.
von Hippel, P. H. (1994). Protein-DNA recognition: New perspectives and underlying themes. Science 263, 769-770.
Wale, E., and Keller, W. (1996). The biochemistry of polyadenylation. Trends Biochem. Sci. 21, 247-250.
Xu, Y., Einstein, J. R., Mural, R. J., Shah, M., and Uberbacher, E. C. (1994). An improved system for exon recognition and gene modeling in human DNA sequences. In Proceedings of the Second International Conference on Interlligent Systems for Molecular Biology. R. Altman, D. Brutlag, P. Karp, R. Lathrop, and D. Seqrls, Eds. (Menlo Park, CA: AAA1 Press), pp. 376-383.
Zhang, M. Q. (1997). Idnetification of protein coding regions in the human genome based on quadratic discriminant analysis. Proc. Natl. Acad. Sci. U.S.A. 94, 565-568.