第四章 应用GCG进行序列分析
Barbara A. Butler
Genetics Computer Group. Inc
Oxford Molecular Group
Madison. Wisconsin
一、引言
快速、经济的核酸序列测序方法的出现使包括分子生物学、遗传学以及生物化学在内的许多科学领域发生了革命。(Gilbert, 1981; Sanger, 1981)。这项技术的发展同时也使人们需要构建公用数据库来存储在全世界范围的实验室内得到的序列信息(Benson et al., 1997; Stoesser et al., 1997)。由于提交到数据库中的序列需要进行分析和解释,同时已经存在的数据库中的条目需要进行辨识和修补以供研究人员进一步研究之用,因此随着公用数据库的建立,生物信息学和计算生物学逐渐走向成熟。
生物信息学可被视为为对生物信息,特别是对核酸以及蛋白质序列信息的获取、分析和存储。而计算生物学则是指为实现上述目的进行的相应算法和计算机应用程序的开发。近十年来全基因组测序计划中积累的大量数据使这两个领域都有了飞速的发展,从商业的、学术的各种来源出现了许多可用于序列分析和数据库搜索的程序。用于个人计算机和Macintoshe机的软件包,特别是可供多用户使用的软件包通常比较昂贵,并且可能缺少用于分析和编辑的综合性的程序组。与商业程序相比,那些公用的能独立运行的程序(即此程序不是作为软件包的一部分而可以独立运行)很便宜,但需要下载有时甚至要在本机上进行编译,而且用户还必须熟悉输入序列的格式和学习如何使程序有效地运行。虽然现在通过网络使用选定的程序已经成为可能,但如果分析需要综合多个程序则难以进行。例如,研究者可以使用某种软件进行数据库搜索但却无法进一步将搜索到的序列进行对比。同样,要创建一个序列对比然后再进行编辑也是很困难的。
这一章中介绍了一种集成环境,它将大量序列分析和数据库搜索程序集成在一起,并且可以访问各种来源的序列数据。这一集成环境即为Genetics Computer Group开发的SeqLab, 它同时也是Wisconsin软件包的一部分。Wisconsin软件包是一组综合性的序列分析程序,它使用公用的核酸和蛋白质数据库。SeqLab是一个图形用户界面(GUI),通过它可以使用所有Wisconsin软件包中的程序及其支持的数据库。此外,它还提供了一个环境用于创建、显示、编辑和注释序列。SeqLab也可以被扩展使其可以包括其它公用或非公用的程序和数据库。
在这一卷的其它章节中详细讨论了许多应用Wisconsin软件包程序所进行的分析,以及Wisconsin软件包与SeqLab支持的数据库。因此,这一章中只强调访问数据库条目和本机序列的环境,可进行分析的类型以及编辑和注释这些条目和序列的方法。
二、Wisconsin软件包
Wisconsin软件包是一个综合性的序列分析软件包,它由120多个独立的程序组成,每个程序进行一项单一的分析任务。由于所有程序输入的序列有统一的格式,所以无论是公用的还是私人的数据库中的条目或是独立的序列文件都可以用Wisconsin软件包中的程序进行分析。此外,某些程序的输出文件的格式设定使得这些文件可以用其它程序进行进一步的分析。基于上述原因,以及软件包作为一个整体的模块性,用户可以将这些程序进行组合,从而可以对序列进行各种不同的分析。这一章的附录中列举了使用最广泛的一些程序。包括所有程序的完整目录以及详细的描述可以在Wisconsin软件包的程序使用文档中找到。
Wisconsin软件包支持各种UNIX平台以及OpenVMS。关于GCG,Wisconsin软件包,支持的平台以及硬件需求的一般性信息可以在GCG的主页(/www.gcg.com/)以及Wisconsin软件包的用户手册中找到。
三、Wisconsin软件包使用的数据库
GCG支持五种数据库供Wisconsin软件包使用,其中包括两种核酸数据库和三种蛋白质数据库。这些数据库既有GCG格式的(供大多数Wisconsin软件包程序使用),也有BLAST格式的(供BLAST数据库搜索程序使用)。同时还提供了用于LookUp程序以及数据库参考搜索的索引。
GCG支持的两种核酸数据库是GenBank数据库(Benson et al., 1997)以及仅由GenBank中没有的序列组成的简化版的EMBL核酸序列数据库(Stoesser et al., 1997)。为了方便进行搜索,这两个数据库被组合成一个更为广泛的核酸数据库,称为GenEMBLPlus。这个联合数据库包括GenBank和EMBL核酸序列数据库的表达序列标记(EST),序列标记位点(STS)以及基因组序列纵览(GSS)条目部分。可以用特定TAG分别搜索这三部分或用特定GenEMBL搜索没有这三部分的GenEMBLPlus。
GCG支持的三种蛋白质数据库是Protein Information Resource(PIR)国际蛋白质序列数据库(George et al., 1997), SWISS PROT蛋白质序列数据库(Bairoch and Apweiler, 1997)和SP-TrEMBL数据库(Bairoch and Apweiler, 1997)。SP-TrEMBL是欧洲生物信息学研究所以及Switzenland的Geneva大学的Amos Bairoch博士联合开发的。它包含了大多数在EMBL数据库条目中有标记的预测的翻译区域,但不包含已经在SWISS-PROT中出现的任何条目。SP-TrEMBL中的条目用SWISS-PROT的格式进行注释,当这些条目在SWISS-PROT中出现时,就会从SP-TrEMBL中删除掉。为了方便进行搜索,SWISS-PROT和SP-TrEMBL这两个数据库被结合在一起组成一个更为广泛的蛋白质数据库SWISS-PROTPlus。
GCG支持的数据库两个月更新一次(与GenBank数据库的更新日程同步),这是GCG数据库更新服务的一部分。Wisconsin软件包实体程序和脚本也可用于下载数据库以及格式化站点上的数据库版本,或者用于数据库版本间的更新以及将个人的数据库转换为Wisconsin软件包可用数据库的格式。这些实体程序的列表和说明都可在Wisconsin软件包系统支持文档中找到。FASTA格式的数据库可直接用于Wisconsin软件包中除BLAST和LookUp以外的所有程序而不需进行格式转换。
四、SeqLab环境
SeqLab是Wisconsin软件包基于OSF/Motif的图形用户界面。它使用户可以在一个基于窗口的环境中使用大多数Wisconsin软件包中的程序和所有支持的数据库。SeqLab的使用需要在微型计算机上运行X-terminal或X-server。关于X-server软件的介绍可以在GCG主页www.gcg.com中找到。
Wisconsin软件包初始化完成后,在UNIX提示符下键入命令seqlab以启动SeqLab。这时会出现一个标题为SeqLab主窗口的窗口(如图4.1所示)。这个主窗口可以有两种模式:Main List模式和Editor模式(这里即指SeqLab Editor)。在Main List模式中SeqLab主窗口显示一个列表文件,文件中包含单序列文件、列表文件、多序列格式(MSF)文件、富含序列格式(RSF)文件以及数据库条目的名称。在Editor模式下SeqLab主窗口显示这些文件和数据库条目中的序列。用户可用SeqLab主窗口(图4.1)中的Mode:选择按钮在两种模式之间进行切换。两种模式下都可以访问Wisconsin软件包程序以及所支持的数据库,然而除此以外在SeqLab Editor下用户还可以编辑和注释序列。因此这一章重点介绍SeqLab Editor。
横贯SeqLab主窗口顶端的是一个菜单条,菜单选项可概括如下:
File: 从数据库或目录文件中增加序列或创建新的序列。
Edit: 移动、编辑序列并执行简单的操作。
Functions: 根据分析主题进行组织的Wisconsin软件包程序。
Extensions: 可从SeqLab运行的附加程序列表。
Options: 用于序列和输出显示、文件管理器以及打印的参数。
Windows: 用于输出显示,程序监视和特征注释的窗口列表。
Help: Wisconsin软件包程序和SeqLab界面的在线帮助。
除了Mode选择按钮以外,SeqLab主窗口中还包括一个Display选择按钮用于改变显示序列的颜色或给它加上阴影,以及一个比例条用于改变水平方向的比例。此外,还有一组图标提供了另一种选择编辑选项,观看序列信息以及设置保护的方法。当然,窗口中的大部分空间还是用于显示序列的(图4.1)。
从数据库中增加条目以及从目录中增加序列文件
一个序列首先必须出现在SeqLab主窗口中,然后才能对其进行编辑或用Wisconsin软件包中的程序进行分析。数据库条目可以通过条目名称或访问号加入。GCG格式的单序列文件、列表文件、MSF以及RSF文件可以用文件名加入(关于这些文件格式的细节以及如何创建可参考SeqLab指南)。
要从数据库中往SeqLab主窗口中增加一个条目,首先使用鼠标左键选取菜单条中的File选项, 然后从下拉菜单中选取Add Sequences From选项。接下来,从出现的扩展菜单中选取Databases选项, 这时将出现一个Database Browser窗口(如图4.2)。在窗口底部的Database Specification文本框中键入要加入的数据库条目的名称或访问号,然后点击Add to Main Window按钮和Close按钮。这一过程可简写如下。(本章中全部采用这种简写方式来描述键盘和鼠标命令)
从数据库中往SeqLab主窗口中增加一个条目的方法如下:
1。选取File菜单中的Add Sequences From, 单击Database选项。
2。在Database Browser(图4.2)的Database specification 文本框中键入条目名称或访问号。
3。单击Add to Main Window 与Close按钮。
用户也可以往SeqLab主窗口显示的列表中加入GCG格式的序列文件。
往SeqLab主窗口中加入目录文件的方法如下:
1。选取File菜单中的Add Sequences From菜单,单击Sequence Files选项。
2。选取Filter文本框中合适的过滤器(缺省值为*.seq,它将显示目录中文件名以.seq结尾的所有文件。如果用*代替*.seq将显示目录中所有文件)。
3。从Directory域中选择合适的目录。
4。单击Filter按钮。
5。从Add Sequence窗口的Files域中选择要加入的文件名。
6。单击Add与Close按钮。
双击数据库条目或序列名称可以看到有关此条目或序列的参考信息。这一操作将打开Sequence Information 窗口。在必要的时候,这一窗口中任何文本框里的信息都可以进行编辑。例如要给数据库的条目改名或给作为一个大项目的一部分的序列加一个ID号(访问号)通常是很方便的。
用户可以用箭头键和水平、竖直滚动条浏览显示在SeqLab中的序列。键入残基的编号然后回车即可移动到序列中相应的残基处。关于在SeqLab Editor中浏览用的其它快捷方式,包括移动到当前光标处等等,在SeqLab的指南中有详细的介绍。
创建一个新的序列条目
用户可以向SeqLab中输入新的蛋白质或核酸序列。
输入一个新的蛋白质或核酸序列的方法如下:
1。选取File菜单的New Sequence选项。
2。在New Sequence框中选择DNA, RNA或蛋白质中的一种。
当列表出现后,单击条目的开始处,然后键入序列或从其它窗口粘贴序列信息。双击新条目的名称加入参考信息。这一操作会打开Sequence Information窗口。所有文本框都是可编辑的,包括改变条目名称,描述,作者名以及ID/访问号。在窗口底部的大文本框中可以加入一般参考信息。
编辑已存在的序列
显示在SeqLab Editor中的已存在序列是受保护的,不可能无意中插入或删除一些残基。然而这种保护状态是可以改变的。当这种保护被去除时,可以增加或删除残基,也可以在条目间剪切和粘贴序列或序列的一部分。
改变一个序列的保护状态的方法如下:
1。选取File菜单中的Sequence Protections选项。
2。选取Sequence Protections窗口中所有按钮并单击OK。
SeqLab用于编辑多序列对比结果特别有效。因为用户可以移动到独立序列或对比结果内的某个绝对位置上,可以把序列组成组,这样一组中一条序列的改变同样会影响发生这组中所有其它的序列,或者把已经组成的组打散,可以在间隙间移动残基岛而不改变整个对比结果。例如,用户可以通过滑动psqalt岛将一个包含gq...psqalt......asw的对比结果改为gq.......psqalt....asw,就好象psqalt这六个残基连成一个字符串。这个岛代替了右边一个间隙符号,就好象残基岛向右方移动,同时一个间隙符号出现在岛的左边,这样整个对比结果保留下来。关于编辑操作的完整列表见Wisconsin软件包的SeqLab指南。
五、用操作(operations)和Wisconsin软件包程序分析序列。
一旦序列加入并显示在SeqLab主窗口中,就可以运行任何Wisconsin软件包中程序对其进行分析。程序创建的输出文件列在Output Manager窗口中(详见下文观察输出部分)。这些文件有些可以重新加入到SeqLab Editor或SeqLab List模式中进行扩展或相关分析。此外,还有几种简单的操作可以从SeqLab Editor中直接运行。
执行简单操作
SeqLab Editor中的Edit菜单使用户可以对显示的序列进行一些简单的操作而不用运行程序。这些操作包括翻译核酸序列,反转以及互补核酸序列,计算序列对比结果中的共有序列,寻找短的序列特征模式。这些操作的优势在于运行迅速并且结果可以自动显示在SeqLab Editor中,从而可以直接进行编辑和注释,同时也是最重要的是其结果可以作为从Functions菜单中选中的Wisconsin软件包程序的输入。
选择一个操作的方法如下:
1。根据名称选择一个序列或一段序列。
2。选取Edit菜单中相应的操作选项。
运行Wisconsin软件包程序
Wisconsin软件包程序用于对SeqLab Editor中显示的序列进行更大规模的或更为鲁棒的分析。所有可用的程序都列在Functions菜单下并根据分析功能进行了分组。以作图功能组中的Map程序为例。
运行Wisconsin软件包中Map程序的方法如下:
1。根据名称选定一个序列或用光标选定一段序列。
2。选取Functions菜单中的Mapping, 然后选定Map选项。
根据名称选定一个程序将为此程序打开一个Program窗口。每个Program窗口都有相同的基本格式,其中包括选定的序列名称,运行此程序所需的参数,一组用于选择和存储可选参数的按钮以及用于运行程序、关闭窗口和获取帮助的按钮。Map程序的Program窗口如图4.3的左图所示。
用户可以选用参数的缺省值来运行程序,也可以通过Program窗口中的按钮和文本框来改变参数值。此外,每个程序都有其独有的一组可选择的参数,可用于修改程序进行的分析或改变输出显示的方式。这些可选参数列于Program Options窗口中,当选定Program窗口的Options按钮时Program Options窗口将被打开。通过为Map程序选定必须的以及可选择的参数,用户可以选择包含在一个限制性酶切图中的酶子集,使其只包含产生图上5'突出端的酶,或选择忽略作为限制性酶切图一部分正常所包含的反转互补链。Map Options窗口如图4.3右图所示。
选取Program窗口中的Run按钮将使用选定的参数运行这一程序并关闭Program窗口。如果一个程序在同一个SeqLab运行进程内再一次运行,Program窗口出现时会保留上一次选定的参数。通过选定Save Settings按钮可以在不同的SeqLab运行进程间保存选定的参数。在Program窗口中选取GCG Defaults将把Program和Programs Options中的参数重新设为缺省值。所有的Program窗口都有一个Help按钮用于访问此程序特定的在线帮助。
六、观察输出
在SeqLab期间运行程序产生的输出文件列于Output Manager窗口中(如图4.4所示)。
打开Output Manager窗口 的方式如下:
1。选取Windows菜单中的Output Manager选项。
这个窗口中列出的输出文件可以被显示或打印出来。单击Display按钮可以显示窗口中被加亮的那个文件。图4.4中给出了一个显示的输出文件的例子。单击Print按钮可以把选定的文件传送到网络打印机上。
对于以前启动的SeqLab运行进程间产生的输出文件必须列在Output Manager窗口中才能看到或打印出来。选取Add Text Files或Add Graphics Files按钮并且从出现的file browser中根据文件名选取相应文件。产生图形输出的程序将创建以.figure为扩展名的文件。当这种类型的文件被选中要进行显示,它会被转换使其可以显示在一个X-window中。当这种类型的文件被选中进行打印,它会根据选择的打印机及其设置被转换为PostScript或HPGL格式。
某些输出文件(序列文件,列表文件,MSF文件)可被加入SeqLab Main List或Editor中用作Wisconsin软件包程序的输入。如果在Output Manager窗口中选中这样一个文件,Add to Main List 以及Add to Editor按钮将处于激活状态(如图4.4所示)。如果选中的文件不能加入这些窗口中,这些按钮将处于非激活状态。
七、监视程序执行过程并解决问题
每次SeqLab进程执行期间运行的程序都记录在Job Manager窗口中(如图4.5所示)。这个窗口可从SeqLab Main Window的Windows菜单条中访问到。
打开Job Manager窗口的方法如下:
1。选中Windows菜单的Job Manager选项。
Job Manager窗口的上半部分是所有当前SeqLab进程间运行的程序的事件记录。根据名称选中相应程序即可监视此程序的状态。如果一个程序因某种原因运行失败,会在这个窗口中出现一条消息,并在Output Manager窗口中出现这个程序的一个事件文件。从这个窗口中也可以终止正在运行的程序。
八、给序列加注释并在SeqLab Editor中图形化地显示注释。
SeqLab有一个独特的特征即它链接到数据库条目的特征表格(Features table)上。例如,核酸数据库的条目通常有关于位置、编码区、单独的内含子和外显子以及聚腺苷酸化位点的特征。SWISS-PROTPlus条目通常有关于已知蛋白质模式modif的位置、翻译后修饰位点以及二级结构的特征。这些特征可以在SeqLab Editor中通过涂色残基(Features Coloring)或示意图(Graphic Features)观察到。
选择特征显示方式的方法如下:
1。选定Display方式按钮中的Features Coloring。
2。选定Display方式按钮中的Graphics Features。
图4.6的上图给出了一组对比的数据库条目的图形特征显示的实例。SeaLab主窗口(图4.1)中的1:1滑动条可用于改变示意图的水平比例。
通过选取Windows菜单的Features选项可以显示一个条目的数据库特征。这一操作将打开一个Sequence Features窗口(图4.6)。用户可以选择观看所有的特征或是只看选中的那部分特征。在Sequence Features窗口上部区域选取一个特征时在下部区域中会显示关于这个特征的详细信息。双击一个条目中的一个特征也可以打开这个窗口。
SeqLab Editor另一个独特同时的也是非常有用的特征是可以增加特征或编辑现有特征。这一操作可以在Sequence Features和Feature Editor窗口中完成(图4.6)。
增加一个特征的方法如下:
1。用光标加亮一个区域(或在Feature Editor的文本框中From和To区域中填上起止范围)。
2。选中Windows菜单的Features选项。
3。在Sequence Features窗口中选中Add按钮。
4。在Feature Editor窗口中选中Shape and Color按钮。
5。在Feature Editor窗口的关键词文本框中键入特征名。
6。在Feature Editor出口的Comments域中键入详细的注释。
7。单击OK按钮和Close按钮。
编辑一个特征的方法如下:
1。选中Windows菜单的Features选项。
2。在Sequence Features窗口中选中要编辑的特征。
3。在Sequence Features窗口中选中Edit按钮。
4。修改Feature Editor窗口中的形状、颜色、范围、关键词或注释。
5。单击OK按钮和Close按钮。
九、在SeqLab Editor中保存序列
当用户退出SeqLab Editor模式或保存编辑的工作时,信息被保存在一个富含序列格式文件(RSF)中。这是一种新型文件,它包含了序列的参考信息和特征信息以及序列本身。RSF文件格式允许特征信息显示在SeqLab Editor中。RSF文件可以包含一个或多个序列条目。如果数据库条目被保存,这些条目的复制件(包括所有的参考信息和特征表格信息)都被包含在这个RSF文件中。以这种方式创建的RSF文件自动添加到显示在SeqLab List模式下的当前列表文件中并存储在用户的工作目录里。
十、在SeqLab中可以实现的分析实例。
SeqLab中可以使用多个序列分析程序的特性使用户可以应用这些程序顺序地回答相关问题或在对输入序列进行编辑后重复某项分析。而可以同时访问公用数据库和本机序列的优点使用户可以在一个分析中使用其中任意一种而不用先进行转换或格式化的工作。这一部分中介绍了6种用SeqLab可以解决的序列分析问题。
在两条mRNA中寻找开放阅读框架,翻译并对比RNA与蛋白质序列。
对两条相关的mRNA进行测序的用户可能希望寻找开放阅读框架(ORF)、翻译以及进行核酸与氨基酸序列间的两两对比。
把序列加入SeqLab Editor中,从Functions菜单中选中Map选项运行Map程序。Map输出文件包含了限制性酶切图和6种可能的翻译框架的ORF的显示。这些ORF的起始和终止位置可进行标记并选为SeqLab Editor中序列显示的范围,然后可用Edit菜单的Translate操作进行翻译。翻译结果自动出现在SeqLab Editor中。
两条相关的核酸或蛋白质序列可用Gap程序(Needleman and Wunsch, 1970)或BestFit(Smith and Waterman, 1981)程序进行对比。Gap程序寻找两条序列间的全局最优对比结果。适用于两条待比对的序列是进化相关的情况。BestFit程序寻找两条序列的局部最优对比结果,它适用于两条序列不是进化相关而是功能相关的情况。
通过参考搜索寻找数据库中的相关条目并进行对比
研究一个特征序列家族成员的用户可能希望寻找这个家族中的其它成员并建立它们的多序列对比。
从Functions菜单中选取LookUp程序。LookUp在数据库条目的参考信息部分搜索描述词并建立匹配条目的列表(Etzold and Argos, 1993; Etzold et al., 1996)。在参考部分的Definiton, Author, Keyword和Organism域中搜索描述词并在词之间使用“and”(&)、“or”(|)以及“but not”(!)布尔表达式。例如,在SWISS-PROT条目的Description域搜索“lactate & dehydrogenase & h & chain”将产生一个输出文件,其中列出了乳酸脱氢酶 H 链(lactate dehydrogenase H chain)条目。这个输出文件可以从Output Manager窗口中加以显示,然后与用户的序列一起添加到SeqLab Editor中。
要创建所有这些序列的多序列对比,只要根据序列名称选中这些序列并从Functions菜单中运行PileUp程序。由PileUp产生的多序列文件也列在Output Manager窗口中并可以直接添加到SeqLab Editor中。推荐采用这一步的原因在于数据库条目的特征表格(Features table)信息可与对比结果一起被包括进来。必要时对比结果是可以被编辑的,并且如果数据库条目有相似的特征,这些特征可被附加给用户序列。LookUp程序窗口,输出文件以及输出文件中的序列对比结果如图4.7所示。
用查询序列搜索数据库,将找到的条目与查询序列进行对比并产生进化系统树
克隆并测序一个未知功能基因的用户可能希望在一个数据库中搜索相似的序列。如果搜索到了,用户可能进一步希望创建与查询序列最相似的序列的多序列对比并产生数据的种系图。
往SeqLab Editor中添加一个查询序列并从Functions菜单中选取FASTA程序。FASTA程序(Pearson and Lipman, 1988)在数据库中搜索与查询序列相似的序列。输出文件可从Output Manager窗口中加以显示并直接添加到SeqLab Editor中。在这个输出文件中数据库条目与查询序列局部相似性最好的区域被加以标记。如果要显示的话,每个数据库条目只有这种区域可以显示在SeqLab Editor中。不要的条目可以从SeqLab Editor中一起被删除。
从Functions菜单中选中PileUp程序创建这些序列的多序列对比。输出可从Output Manager窗口中加以显示并添加到SeqLab Editor中更新已经存在的未对比序列。必要时可对这一对比结果进行编辑,并且数据库条目的有用的特征表格信息也可以添加给查询序列。
从Functions菜单中选取PaupSearch程序,程序提供了一个PAUP(进化系统简约性分析(Phylogenetic Analysis Using Parsimony))(Suofford, 1996)中树搜索方式的GCG接口。PaupDisplay程序为PAUP中的树操作,鉴定以及显示方式提供了一个GCG接口。FASTA搜索的输出,前6个序列的对比结果以及这一对比结果产生的进化树如图4.8所示。
拼接交叠序列片段产生一连续序列,寻找并翻译这一序列的编码区域并在数据库中搜索相似序列
克隆了一个基因,把它分解克隆为一组有交叠的序列片段并进行了测序的用户可能希望把这些序列片段重新组装为一条连续的序列。一旦contig拼接完成,用户可能希望在序列中寻找阅读框架,翻译并在数据库中搜索相似序列。
Fragment Assmbly System的程序可用于拼接交叠序列片段。GelStart程序创建一个项目。GelEnter程序把序列片段复制到项目中。GelMerge程序寻找片段之间的交叠并把它们拼接成contig。GelAssemble程序是一个编辑器,可用于编辑这些连续的部分并解决片段之间的冲突问题。所有这些程序都可以从Functions菜单中选取。一旦拼接完成,最终构成此contig的连续序列可以被保存为一个序列文件并添加到SeqLab Editor中。
使用Map、Frames、TestCode(Fiekett, 1982)或Codon Preference(Gribskov et al., 1983)程序可预测序列中的编码区(所有这些程序可以从Functions菜单中选中)。使用Edit菜单的Select Range功能选择这些程序预测的区域并使用Edit菜单中的翻译操作把它们翻译为蛋白质。这些提出的翻译区域也可以作为核酸共有序列的特征被加入。
选取蛋白质序列然后选择Functions菜单中BLAST(Altschul et al., 1990)。BLAST程序在数据库中搜索与查询序列相似的条目,此程序既可以进行远程搜索也可以进行本机搜索。搜索结果可以从Output Manager窗口中加以显示。如果被搜索的是一个本机的数据库,结果文件可以加入SeqLab Editor或Main List窗口中,并允许对找到的序列进行进一步分析。
对比相关的蛋白质序列,计算对比结果的共有序列,辨识序列中新的特征序列模式,在数据库中搜索包含此模式的序列或在对比结果的共有序列中搜索已知的蛋白质模式
辨识了一组相关序列的用户可能希望对其进行对比并计算对比结果的共有序列。如果可以在对比结果中找到保守模式,用户可能希望在数据库中搜索包含这种模式的其它序列。用户可能还希望在计算出的共有序列搜索已知的蛋白质模式。
选取待对比的序列,从Functions菜单中选取PileUp程序创建多序列对比,PileUp程序的输出文件可从Output Manager窗口中加以显示并添加到SeqLab Editor中。用户可以对对比结果的某个区域重新加以对比并以此替换原有的对比结果。只要选取一个区域并重新运行PileUp即可。从PileUp Options窗口中选取"realign a portion of an existing alignment(重新对比一个已存在的对比结果的一部分)",这可能有利于选择一个替代评分矩阵或不同的创建和扩展处罚。新的输出文件将包含最初的对比结果以及替换原始对比结果的重新对比的区域。
用Edit菜单中Consensus操作计算对比结果的共有序列。如果保守模式可被辨识,从Functions菜单中选取FindPatterns选项。从共有序列中剪切下此特征序列模式并把它粘贴到FindPatterns模式选择器中,并在数据库中搜索包含这一模式的序列。
此外,运行Motif程序可在共有序列中搜索已知的蛋白质模式。Motif在蛋白质序列中搜索在PROSITE,蛋白质位点和模式的PROSITE字典中已知的蛋白质模式(Bairoch et al., 1997)。如果辨识出一个Motif,则给所有序列增加一个特征,并标出它的位置。图4.9显示了一个蛋白质序列的匹配、一个共有序列以及Motif搜索的结果。
使用Profile进行相似性搜索并对比相关序列
序列分析的一个新的扩展领域是Profile技术。一个profile是一个位置特定的评分矩阵,它包含了一个序列对比结果中每个位置的所有残基信息。这一点与共有序列不同,共有序列中只包含每个位置的保守残基的信息。Profile做好后可用于搜索数据库、数据库划分或在一个集合中搜索与原始对比结果中的序列相似的序列。它也可以用于把一条单独的序列与一个对比结果进行对比。
使用ProfileMake程序(Gribskov et al., 1987,1990)可创建一个序列对比结果的profile。使用ProfileSearch程序可用profile对数据库进行搜索,ProfileSegment程序可以显示搜索结果(Gribskov et al., 1987,1990)。使用ProfileGap程序可将一个序列与profile进行对比(Gribskov et al., 1987,1990)。ProfileMake, ProfileSearch, ProfileSegments以及ProfileGap程序都可以从Functions菜单中启动。
十一、引入非Wisconsin软件包组件的程序扩展SeqLab
SeqLab另一个关键特征在于它的灵活性,可以在环境中插入附加程序。这一过程需要获取要引入程序的可执行文件,并创建一个描述必需和任选参数以及输入输出文件格式的配置文件。关于如何创建一个配置文件的详细介绍参见Wisconsin软件包系统支持手册。不必把这些可独立运行的程序链接到Wisconsin软件包的任何进程上。用这种方式,可以从SeqLab内运行任何编译来运行在运行Wisconsin软件包的计算机操作系统下的程序,同时观察其输出也十分容易,就象它是Wisconsin软件包的一部分。ClustalW(Higgins et al., 1996)就是Wisconsin软件包9.0版本引入的扩展程序的一个实例。注意除非可执行文件已经下载下来或已经编译连接并且配置文件已被编辑指向这一文件的位置,否则这不是一个功能程序。
附录
Wisconsin软件包程序根据程序功能组织为几部分。列出的主题都在SeqLab Functions菜单中。下文中列出了大多数(但不是全部)从SeqLab可访问到的程序以及简要的说明。GCG主页提供了更新信息以及Wisconsin软件包程序的完整列表。
1.两两比较
(1)Gap: 使用Needleman和Wunsch(1970)提出的算法来寻找两条序列的全局最优对比结果。
(2)BestFit: 使用Simith和Waterman(1981)提出的算法寻找两条序列的局部最优对比结果。
(3)FrameAlign: 创建一条蛋白质序列与一条核酸序列的三种前向阅读框架的三联体编码之间的局部最优对比结果。对比时通过加入必要的间隙保持阅读框架。
(4)Compare/DotPlot: 比较两条蛋白质序列或核酸序列,创建包含序列相似区域信息的文件,并将结果图形化地显示为一个相似性的点矩阵。
(5)ProfileMake/ProfileGap: 创建一个位置特定性的评分表,称为profile,定量描述一组进行对比的序列的信息。ProfileGap创建一个profile和一条序列间的最优对比结果(Gribskov et al., 1990)。
2.多个比较
(1)PileUp: 通过两两对比创建一组序列的多序列对比。同时可以创建一个图形文件,显示用于创建此对比结果的聚类情况。
(2)PlotSimilarity: 在多序列对比结果中图形化序列相似性分数的平均过程。
3.数据库参考搜索
(1) LookUp: 通过索引域如Name, Accession, Number, Author, Organism, Keyword, Title, Reference, Feature, Definition, Length或描述项的日期(Etzold and Argos, 1983)搜索数据库条目。
4.数据库序列搜索
(4)FrameSearch: 在一个核酸数据库或列表文件中搜索与一个蛋白质查询序列相似的序列。也可以在一个蛋白质数据库或列表文件中搜索与核酸查询序列相似的序列。对于每个序列对比,程序寻找蛋白质序列与核酸序列的每条链的所有可能的三联体之间的最优对比结果,对比时加入间隙来保持阅读框架。
5.编辑和发布
6.进化
7. 片段拼接
8. 模式识别和基因预测
9.输入/输出
10.作图
11.引物选择
12.蛋白质分析(1)CoilScan: 在蛋白质序列中定位coiledcoil段。
13.RNA二级结构
14.翻译