第十三章 ACEDB一个基因组信息的数据库

ACEDB的一般特点

背景

ACEDB(一种线虫C.elegans数据库)是一种被广泛应用的管理和提供基因组数据的工具组。它是在1991年由Richard Durbin和Jean Thierry-Mieg首先提供的,他们发展它来支持和整理C.elegans领域中的大范围序列和物理图谱的工作。在本章结尾所列出的因特网资源和资料中可见1和2条。后续的程序由Durbin和Thierry-Mieg编制和完善,还有许多其他人参与了代码的编制。这一时期,ACEDB适用于许多动物和植物的基因组计划[3]。软件对于“非基因组”信息的计划仍然有效,诸如,民族植物学的数据、基因命名法、具体的文献等[4,5]。准确估计基于ACEDB资源的出版物很困难,1997年春的保守估计[3]是25-30种。

ACEDB由于它的一些特性而流行起来。该软件是免费的,并且可运行在Unix和Macintosh OS系统下,Windows版本马上就会推出。数据库以丰富的图形界面提供信息,包括有具体显示的基因图谱,物理图谱,新陈代谢的途径和序列等。界面依靠相关信息的超级文本连接,并可由鼠标方便的完成操作。数据用流行的对象的形式进行组织,使用大家熟悉的类别如,相关的文献,基因,描述,和克隆的DNA等。也许最重要的是,ACEDB能很容易的由于新信息而被重新设定.简单的图解语言和快速数据装载的周期使ACEDB适合一个废弃(throwaway)数据库的建立,他可用于专用的数据分析,还可用于许多永久性数据的采集,而且使用者不需要经过专门的计算机和数据库的训练就可以使用ACEDB。对于资源有限的计划,这往往是决定使用ACEDB的关键因素。

本章主要把ACEDB作为序列数据的管理工具来介绍,而不是当作一种提供数据的方法。这里并不是把ACEDB的每一部分都专门的介绍,而是主要集中在:ACEDB的早期的数据采集的作用,和主要面向内部使用者的注释的过程。现在使用ACEDB来管理序列数据和用于其他计划的有:剑桥大学的Sanger(英国),华盛顿大学的基因组中心,克罗拉多大学(Colorado State University)的 Aedes aegypti基因组计划, Massachusetts General 医院的Arabidopsis物理图谱计划,和 Walter和 Eliza Hall研究院(WEHL)的疟疾基因组计划。

读者肯定会对有感于管理和提供生物学数据的软件的高速的发展速度。ACEDB本身是基于Unix系统开发的,并当作X-window的应用程序被首次展示出来的。现在,许多用户可通过万维网(World Wide Web)登陆到公共数据服务器上来使用它。将来,很可能由Java语言或其他网络语言编写的有人们更熟悉界面的ACEDB将出现。但本章主要介绍X-window版本(Xace 4,3)及与它相关的特性。

界面

以下简写代表鼠标操作。

LM:鼠标左键

MM:鼠标中键

RM:鼠标右键

一般的ACEDB用户通过浏览超文本连接的文件来交互的操作ACEDB。这种浏览方式的界面如图13.1。这是从Grain Gene(一个用于Triticeae的数据库)吸取来的包含有多个ACEDB窗口的阻合窗口。这些窗口是一系列鼠标操作产生的,如用户定位两种不同的信息内容。ACEDB的主窗口是位于图中左上的窗口,它在软件开始时就显示出来。其中列有数据类型用于查阅。点击Reference类型(双击LM)打开一个KeySet窗口,其中列出了许多Reference类型的成员,这些成员被称为对象。点击一个reference对象,如BCG-28-487,则打开了第三个窗口(右下窗口)显示文献的细节,如作者,题目等。点击任何粗体字都可打开相应的窗口。

图13.1

图13.1还包括一个遗传图谱(左下)。这是在reference窗口下,点击locus下的iBgl弹出的。这是众多的用图形形式描述数据的方式中的一种。图中的locus标记也是超文本连接的,可通过点击(LM)把它击活。文本窗口中遗传图谱下的数据是可视的,就象在reference窗口中一样。在这种情况下,如果有适当的数据和图形,数据库管理员就把locus标记设置成缺省值,使它显示遗传图谱。

关于ACEDB还有一些在线的教育。这里特别推荐在Sydney的澳大利亚遗传信息中心的Bruno Gaeta提供的一个[7]。Cornell大学的Dave.Matthecos正准备提供一个关于遗传图谱显示的教育内容[8]。后文还将更详细的介绍序列显示的特点。

数据模型

ACEDB的核心部分是“数据模型”(或图形),这将决定数据库中的数据是如何组织的。各个模型可由简练的语言加以解释,这由数据库管理员来定义。各类数据可由如sequence,gene,reference等类型来表示。各模型以如图13.2的形式保存在名为models.wrm的文本文件中,它存在数据库的wspec目录下。在文本框中,设定显示数据的模型有很强的灵活性,但在其它的ACEDB的显示中[9],需要各模型中包括有预先定义好的结构。这一内容将在后文的“序列显示”中加以讨论。注意,更详细的模型介绍和ACEDB中模型的问题可见[10]。读者可查阅不同的数据库来了解模型的适用范围。

//this shows partial models for the Sequence,

//Locus and Paper class

?Sequence DNA UNIQUE ?DNA UNIQUE Int

Structure Length UNIQUE Int

Properties Pseudogene

CDS

Genomic_canonical

Locus ?Locus XREF Sequence

Paper ?Paper

Remark Text

?Locus Sequence ?Sequence XREF Locus

Paper ?Paper

?paper Title Text

图13.2 modles.wrm

为了展示一些模型的特点,我们先看为sequence,locus,和paper information这三种信息的模型。这些例子并不能展示这种模型语言的全部功能,但能展示一些重要的特点。

模型有一个等级树的结构,就象概要图一样,数据开始于总括,然后沿许多支路进行处理,越分越细。从树的根开始,每一个支点都代表一类(阶层)数据的一个子分裂。每一支路开始于一个标示符,或就此终结或带有许多字段,这里可填入数据,Structure,CDS,和Paper就是标示符的例子,Int,和?Paper是字段。

从左上开始,向下处理。透过Sequence模型的例子(图13.2),我们可以看出,这种模型可让DNA序列的内容同一个DNA对象,它的长度,及序列性质的类型(这里的Properities分支分为三支)联系起来。还可知道序列的那一部分已被发布了,是否有一个位点与它对应,是否要对它进行什麽特别的说明。

这一类的第一个字段(?Sequence)被存为一个对象名的存储器。对象名要能被唯一识别,许多与序列相关的其他信息要通过对象名附加给对象的。其他类型的字段有:Text(接受自由格式的文本),Float(用于浮点型数据),Date(用于日期),Int(用于整型数据)。一种字段类型限制填入其中的数据类型。例如,一个长度型(length)中能填入100,但不能填one hundred。作为缺省,一个字段可复制本身来接受多重数据的输入。这通常是有用的,一个序列会涉及到多重的论文(Paper),位点(loci),评论(remarks)。但是,UNIQUE限制一个字段对每一个对象只能有一种输入类型。在本例中,一个sequence对象只能有一个长度,字段还有别的更复杂的限制,这里就不在涉及。

通过使用字段,它们接受对象名,把信息在ACEDB内互连起来。“?”前缀识别这些字段。考虑sequence模型中的分支,它们把一个序列和一个出版物联系起来。

Paper ?paper

当为一个特定的序列把数据输入到?Paper字段后,Sequence对象和已命名的Paper对象就会建立起链接,该链接通过在用户界面中点击Link来操作。如图13.1所示。但是,这种链接是单向的。虽然浏览者在Sequence对象中能见可点击的粗体的Paper字段,但相应的Paper对象却不能回联到Sequence中。不过,许多数据库管理员都愿向用户提供双向的链接。可通过使用XREF(cross-reference)来自动建立。一个Sequence模型中的XREF的例子是:

Locus ?Locus XREF Sequence

一个XREF字段有两个部分,XREF前面的部分是“目标类(class)”,这里是?Locus,这里它必须是class-XREFs而不能是Int,Text,Float,或DateType类型。XREF后面的是“目标标识符(target tag)”,这个标识符说明在目标类中哪些字段可用于建立交互式的链接。为了运行XREF,Locus类必须支持这种链接,这意味着在?Locus字段中,一个支路必须包括Sequence目标标识符和有确定seqence对象的字段。这支路是:

Sequence ?Sequence

为满足这个要求,当Sequence对象中的?Locus字段一填入数据,XREF就建立交互式的链接,对于数据库的管理员,这将大大简化双向链接的管理。更进一步的是建立全双向链接,使输入任何字段的数据都能建立双向链接,要作到这一点,我们应如下修改Locus模型:

Sequence ?Sequence XREF Locus

可用标准形式//对模型进行注解,(当models.wrm文件被读入时,一行中//右侧的内容将被忽略)。注解在编写models.wrm文件和数据文件时非常有用。

数据输入

数据是以模型做为模板输入到ACEDB中的。数据文件可通过X-windows界面或直接通过数据库中的命令行把数据输入给数据库的[12]。这个命令行界面,这里虽然不介绍,但在从其他处理过程的自动收集数据操作中却很重要。还可在运行数据库时,直接建立个人的对象。选用什麽方法取决于数据库管理员参数的选择,数据量的多少和数据的性质。要把大量数据从文件中高效的输入,就很少会使用交互式的方法。当文件被调用时,直接使数据格式化,还有一个“段落”来描述这个对象(用空行来分开每一个段落),每段的第一行总是类名,接下来是对象名,所以字段通过先于它们的标识符立刻被识别。为加入sequence和paper对象,我们应如图13.3输入数据。

注意,我们不用填写每一个字段,标识符也不用同模型中显示的顺序一样。但是,标识符-字段的组合必须符合模型,如果不符合,数据库就会认为是出错。所以,Genomic_Canonical模型后不能跟有字段。那些在同一行中标识符后跟有其他信息的输入数据也是错误的。更细致的关于数据装载过程的讨论见[13],它包括有:大型数据文件的准备,数据的删除,及对象更名等内容。

查询和表格

ACEDB用查询的语言来应用对象的性质和不同数据间的链接。有几个查询的界面:纯文本的形式(这里不涉及),一个“原始”的查询工具,用户在查询时直接输入命令;“query be exmple(范例式查询)”工具,它实现功能就象填表一样;“query builder(查询创建器)”,它帮助用户确切的建立复杂的查询。查询的响应是一系列符合具体标准的对象名(技术上如图13.1中的 KeySet),查询的语法是固定的,合法的查询必须和模型的结构兼容,因此

Find Sequence ATHFOO1; Follow Locus

是一个合法的查询。如前所述,它对应于模型和数据,这个查询的回应将列出联系这一序列的位点,但是查询,

Find Sequence AGE>10

虽然符合语法,但是错误的,因为Sequence类中没有Age标识符或相关的字段。如果,一定要这样查询,可由数据库管理员修改模型,添加相应的字段。

ACEDB中还包括有TableMaker,一个用于创建相关表格的工具。它的界面很复杂,但功能很强,它可让用户从内联的各类中引用和关联信息。相对于前述的查询,TableMaker能显示和检索对象中的信息,而不只是列出对象名。关于查询和TableMaker的教学内容见[14-16]。

Sequence"ATHFOOI"

Length 3879

Remark " a very strange Arabidopsis thaliana DNA."

Locus "FOOI"

Genomic_canonical

Remark " a second remark"

Locus "FOOI"

Paper "smith_1997_aahmt"

图13.3 ACEDB的数据文件

使用性和安装

ACEDB可从许多免费访问的FTP站点获得。在标准发布中带有为Unix系统的安装说明。还可为那些需要重新编辑的用户提供资源代码。关于FTP与平台的详细内容可从前面已提到的FAQ中找到[3]。本章的内容是关于版本4.3的ACEDB,也是写作本书时的流行版本。新的内容会定期的出版在ACEDB的新闻组中[17]。

ACEDB中的序列分析

引论

图形格式的显示可让用户在ACEDB中快速收集和分析遗传数据。虽然Map和Clone Gird显示,它们支持遗传图谱和物理图谱项目,并且可用图形显示来代表生物化学的途径,但我们的重点在序列分析。

序列的显示是一种特征图谱(Feature Map,Fmap),它链接有许多工具,其中包括Gene Finder[18];Blixem,一种BLAST[19]多重比对观察器[20];DOTTER,一种点-图程序[21]。综合这些工具,为序列分析提供了丰富的图形环境。

虽然设计的一般性允许来自于主要模型系统,病原体,和人类的的序列用类似的方法进行分析,但Fmap最初是为支持线虫(C.elegans)基因组序列计划而开发的。

特征图谱

特征图谱是一种高度可配置的显示格式,图13.4显示了一张来自于Schizosaccharomyces pombe的rhp6的已配置的显示样式。该图展现了这种显示形式的一般结构。顶部是按钮和文字,下面是若干列,这些列从左到右用红色数字记数,下面从左到右加以解释:

  1. Locator: 绿色的框显示完整序列的蛋白质(黑色条)。移动操作通过:a)Zoom In,Zoom Out,和Whole按钮;b)点击绿色框并滑动(LM);c)点击定位条中心的右侧(MM),点击定位条的左侧(LM)可滚动和放缩。
  2. Sequence and ends: 全白色框和序列对象名(EM:250728),全白框表示几个sequence(序列)对象重叠群的交叠部分(本例中没有交叠)。
  3. Summary: 黄框中其他颜色条强调某些特性。兰色条界定了“活性区”。
  4. Scale: 用顶部的Origin文本输入框,重定记数从序列中的强制点开始。
  5. Genes:“Genes”这里表示完整的和部分的转录序列[如mRNA或编码序列(CDS:从转译起始密码子到终止密码子),它决定着外显子结构]。外显子(兰色轮廓框)和内涵子(线条联着外显子)被显示出。
  6. Features: 暗红色框与除了能从EMBL特征表和GeneBank记录中找到的基因以外的特征相联系。
  7. ATG: 小黄色框代表着每个阅读框中的潜在的甲硫氨酸转译起始密码子,通过配置GeneFinder表,可建造其他的密码子。
  8. ORFs: 黑色水平线代表每个开放阅读框中的终止密码子。第二阅读框这里也被显示。
  9. Gene Finder Coding Sequence: 灰色框表示高概率蛋白编码的区域。

10. Coding Frame: 兰色轮廓框表示阅读框,从中可得到每个外显子。

11. Pssearch: 青色框表示相对PROSITE数据库中一个基元的匹配。

12. BLASTX: 兰色框代表局部最大成对节段(maximal segment pairs,MSPs)(在BLAST中称HSPs,见第七章)。它来自蛋白质序列中的BLASTX查找。

13. Gene Translation: 通过点击(RM)基因可动态转录和染色,这将击活一个菜单,选取选项Show Translation和Color Exons。

14. BLASTN: 黄色框代表从核苷数据库的BLASTN查找中查出的MSPs。

15. INTRON_HMM: 浅橘黄色框代表了一个内涵子预测程序的预测结果。

16. Gene Finder Splice Site: 向上指的点线代表剪接受体,下指点线是剪接供体。(染色的位点是在同一区段内),在基因预测时将用到绿色的特征(剪接位点,ATG密码子,和中止密码子)。

17. DNA Sequence: 核苷序列和其同等物。碱基(Base)1被设置为转译起始密码子A(甲硫氨酸,ATG)。通过选择点击基因(RM)产生的菜单中的Color Exon选项,外显子高亮成黄色,剪接的密码子成紫色,终止密码子成红色。序列从5’到3’端,点击Rev-Comp按钮(LM)可显示相应的一列。Rev-Comp菜单(RM)中有选项来单独反转和补充序列。

图13.4

Sequence(序列)对象的显示主要通过点击Column按钮来配置,其中有很多触发器来打开或关闭各列。图13.4中并没有显示全部序列,显示那些列由数据库的设置来决定。一些列是通用的(ATG,ORFs,和DNA),一些取决于GeneFinder的安装(如GeneFinder Coding Segments和GeneFinder Splice Site),其他取决于特定数据库的监护(curation)。管理员还能加入代表外部程序分析序列结果的列(如BLASTX,BLASTN,INTRON,HMM等)。

选取一个特征可把相应的序列高亮成粉色,相应特征的信息显示在顶部的兰色拦中。图13.4中,CES的最后一个外显子被选种。如果所选的特征是一个数据库的对象的话,双击可产生一个文本窗口,可浏览Fmap显示下的数据。

Efetch和Blixem

选择一个代表BLASTN和BLASTX数据库查找结果的框,将击活一个带有两个选项Efetch和Analyse in Blixem的菜单。Efetch[22]是一个ACEDB的外部程序,当需要数据库(如BMBL或GeneBank)中的数据时,它开始检索,它还可以存储ACEDB中是所有序列的记录。如果序列的数量很大,大量的同源物会影响该选项在分配ACEDB数据库时是灵敏性。如果,主序列数据库已被使用,那取回的(Fetching)记录也要去除用户系统中的多余数据。如果,序列数据库同其他程序同被索引,诸如Sequence Retrieval System(见第五章)。用简单的脚本,Efetch就能被仿效,如同程序文献资料提到的那样。

菜单中的第二个选项可运行Blixm[20],一个用来显示BLAST比对的程序。图13.5也是以部分的S.pombe rhp6基因为例,来说明从BLASTX框中击活的BLIXEM窗口。在顶部,是以序列MSPs的识别率的百分比来显示序列位置的,用若干平行的线条来代表MSPs,用高亮的框来限制比对的区域,这些可被详细的显示在下面的扩展显示区中,来说明序列中MSPs比对的具体情况。在缺省情况下,片段显示出全同区(暗蓝),保守的替代区(明蓝),差别区(无染色)。从图形或扩展区中选取(LM)一个MSPs,可高亮所选序列中所有其他的MSPs。这一功能可帮助判断匹配的性质,因为沿基因的MSPs分配可很容易的被估计出。这种匹配可放到任何一个数据库记录中的功能信息的环境中进行检测;双击(LM)扩展显示区中的一个序列可检索序列的记录。Bliexm窗可被设置成显示Fmap序列的双链,高亮片段中的差别区,合并同一序列中的MSPs到同一行上,修改颜色或显示低复杂度区域的图形。

DOTTER(点标器)

通过BLIXEM窗口可进入到点标器DOTTER(右键点击背景),点标器是一个点绘图程序,用来比较两个序列的细节。点标器和BLIXEM都可单独使用[20,21]。图13.6展示了S.pombe假想蛋白质C8A4.02C的自比较,其中带有一个基因组序列的三读框转译因子,并包括相应的位点,SPA C8A4.02C。蛋白质序列沿y轴绘制,转译的基因组序列和代表这个单独外显子基因的框沿x轴。最长的对角线是一个很好的自匹配,而其他的以最长对角线对称分布的对角线表示了六种不太完美的36氨基酸重复单位。移动十字准线(LM,鼠标左键和按键)超过一条对角线则在另一窗口中显示相应的队列。

为能绘图,点标器的算法首先计算一个二维矩阵,它存储了所有成对比较的残基的分值,就是说,每一水平序列的残基与每一竖直序列的残基相对应。为提高绘图的信噪比,一个窗口(缺省25个残基)沿对角线步进,新的分值是窗口内的所有点的平均值。矩阵中每一点的值在0至255之间(每一点一个字节)。每一项都有一与之分值成比例的灰色亮点。Greyramp工具(见图13.6)给出两个域值,其可由鼠标来设置。数值低于最小值显示成白色,高于最大值的显示成黑色,数值只有在两域值之间的显示成灰色。这一工具可让点绘图的域值动态变化,这有助于探测相关的对角线。

从ACEDB调用的点标器DOTTER即可对比BLIXEM中的DNA序列,又可比较BLIXEM中的蛋白质序列,或是进行自比较(DNA/DNA)。各选择也可用来对比 BLAST HSPs,或相对于全部比较加亮HSPs。这些后面的选择用来探测那些BLAST可能忽视的非常弱的相似体,例子参见相关文献[21]的图2。

GeneFinder

GeneFinder[18]是ACEDB系统中的一个应用程序。单独使用还是ACEDB的版本中基本上都使用相同的算法(关于这个问题见第十章)。这里我们着重讨论ACEDB中的GeneFinder的图形界面。

GeneFinder只有依靠一系列明确且有机结合的配置文件才能正常的运行。这些文件储存在数据库的wpf目录下。带有独立版本GeneFinder的一些应用程序可用来建立各种表格。GeneFinder 分配中就提供这些制作表格的指令。

Fmap中的GeneFinder按钮可击活(RM)一个菜单,选择GeneFinder Features选项将在Fmap中标记出剪接位点、可能的编码区、转译的起始密码子。这些特性是根据wpf目录下的表格计算得出的,并且每一特性都分配一个分值。点选Autofind One Gene 可在Fmap中标出一个预测的基因,命名为temp_gene。创建基因的位点标为绿色的高亮区。

AutoFind One Gene 一经被选种,GeneFinder的算法就产生一系列的待选外显子。这些外显子有三种:引导外显子,它们开始于转译起始密码子,结束于剪接供体或终止密码子;中部外显子,它们开始于剪接受体,结束于剪接供体;尾部外显子,它们开始于剪接受体,结束于终止密码子。注意GeneFinder 不能预测基因的3或5的非转译区域;本文中的预测“基因”就是指编码部分。外显子的分值是通过综合单个有限位点及可能被其包围的编码段的分值得出的。内涵子是根据长度来赋值的。外显子和内涵子最高分值的有效结合的区域既是预测的基因。

要查看基因的分值,先点种该基因,然后选Gene->Selected选项。这使基因的各特性高亮成绿色。选Show Selected 则显示一个关于各分值的表格。(见表格13.1的例示)

参数的变化可调整基因的预测。菜单选项Parameter显示了两组变量。Assembly变量,它们与从外显子和内涵子中组建基因有关;GeneFinder变量,它们决定着组建外显子的起始点和各特性的范围。这些参数列于表13.2中。

这些参数可被存储成Method(方法)项目,可让数据库的管理员设定一套最佳的参数,这可通过修改一组已知结构的调试基因的参数,直到预测的最大值与调试组相一致为止。在调试过程中,检测分值的表格有助于决定众多序列中那些更有可能是预测的基因,并有助于参数的修改。不过实际过程中,GeneFinder 的预计序列也会与Fmap 列中的有矛盾。Fmap提供一种机制来修改那些有明显不当之处的预测基因。选取(RM)GeneFinder的一种特性(如,转译的起始编码,结合位点,或结束编码)可击活带选项的菜单来选定、取消一个特性。用这些选项,可使一基因被完全确定,或使基因包括或排除某一具体的特性。设定活动区是另一种机制来排除特定区域(以外,中?)的所有GeneFinder特性;那些排除区域在Summary Bar(见图13.4)上标记成兰色。作为最后的措施,预测基因可被手动修改,是通过在文本框中显示temp_gene项目并在从下拉菜单中选取(RM)Update。在这种情况下,建议设定Origin(见图13.4),以确定一个基本的转译起始编码。编辑后,有必要从下拉菜单(RM 点击Fmap的白色背景)中选取Recalculate来刷新显示。可选GeneFinder菜单中的选项来在数据库中把预测基因存储成Sequence(序列)项目。但是,无论保存还是编辑项目都要写入(write access to)到数据库中。

表格13.1 S.pombe rhp6的Genefinder分值

表格13.2 Genefinder参数

Importing Sequence 和Magic Tags

Fmap中显示的Import Sequence选项(RM 背景活动窗口)可用来向Fmap输入序列而不用直接写入到数据库中。但,要分析序列基本上还是需要写入到数据库中,且输入的序列是作为一个ace文件,如下例所示。

Sequence "MysortSeq"

DNA "MyShortSeq"

Dna "MyShortSeq"

cacacacaccacacccacaccacaccacaccacacccacacccacacacaccacacccac

acaccacacccacaccaactctctctcatctacctttactcgcgctgtcacaccttaccc

ggctttctgaccgaaattaaaaaaaatgaaaatgaaatcctgttctttagccctacaaca

这个文件创建一个Sequence(序列)对象和一个DNA对象。选择Sequence(序列)对象MyShirSeq 会在Fmap中既显示Sequence(序列)对象和又显示DNA对象。虽然,这是一种非常不引人注意的操作,但非常重要的是要注意到数据库总会知道要创建一个Sequence(序列)对象,并且核酸序列必需和Sequence(序列)对象一道显示。如果序列对象MyShirSeq以文本格式显示,则格式如下:

MyShortSeq

DNA MyShortSeq 180

序列的长度被计算出,并被自动插入到对象中跟在DNA标识符后的整型字段(Int field)里。这里的DNA是指“Magic Tag。这些特殊的识别标记被写入到数据库引擎中,主要用来显示目的。一种Magic Tag含义是数据库的开发者和序列分析者需要知道哪些标识被用来产生ACEDB显示元素的。Magic Tag怎样被使用的说明见[9]。

程序使用于把GeneBank 和EMBL记录改变为ace格式[23]。如果是公共的,这些程序大大降低了输入序列的工作量。从GeneBank-到-ace的语法分析程序产生的一个ace文件显示于图13.7。这个例子表明了ACEDB中序列建模的一些表现形式。核酸序列与转录子(如CDS和mRNA)与序列对象GB:ATABIIG相链接。虽然,转录子本身应是Sequence(序列)对象,但它们被作为GB:ATABIIG的子序列的模型。这序列/子序列的建模可通过在另一sequence(序列)对象中确定两序列的交叠部分来建造序列的重叠群。这一假想的例子加入到两列有81个重叠单元的序列。

Sequence "LINK_MySeqs"

Subsequence "MyShortSeq" 1 180

Subsequence "MyShortSeq" 100 20000

BLAST分析和MSPcrunch

Fmap, BLAST,和DOTTER都能显示BLAST系列程序的结果(见7章)。使用ACEDB的方案,将运行如下的典型的数据库搜索,来获取最大同源物的信息(X代表有序的有机体)。

BLASTX 对所有蛋白序列的核苷转译因子的查询。

BLASTN 对x有机体中的ESTs的核苷查询。

TBLASTX 对非x有机体中的ESTs的核苷转译因子的查询。

BLASTN 对除ESTs以外的所有核苷序列的核苷查询。

实际的数据库搜索依靠一系列的因素(见第二章中讨论的公共的序列数据库)。BLAST搜索的结果是通过BLAST的事后处理程序MSPcrunch被筛选的。MSPcrunch有很多有用的功能:

  1. 偏离成分的区域被BLAST勿赋予高分值,MSPcrunch适当的降低这些分值。
  2. 类似大蛋白质类型和有高频率出现的氨基酸的区域会产生很多MSPs,MSPcrunch可消除这些拥挤区域多余的MSPs。
  3. MSPcrunch 从相同的数据库序列中检测接近的MSPs,这检测保留低分值的MSPs,它们与一个带缺口的列相一致。
  4. MSPcrunch分析BLAST的输出,并产生ace文件。

运行1-3使BLAST非常灵敏,但是,如果要求一个数据库中的所有MSPs查询,MSPcrunch可被用作带有w开关的ace文件生成器。

在公共区域的全序列的BLAST内部查询,需要对计算资源有大量的投入,因序列数据库的规模;需要长的时间来查找;还需要维持日易增大的数据库。不过,少量的序列可通过网页提供的BLAST服务来得到分析。BLAST的输出可被E-MAIL引用,且MSPcrunch可用作产生ace文件。

图13.7 GeneBank-到-ace的语法分析程序的输出

加入结果列

在序列的分析中,非常必要的是从众多的查找和预测程序中确认结果。任何可确认核苷序列区域的结果都可被输入到ACEDB中,并可显示为是Fmap文件上的一个有染色框的列。

当Fmap的序列对象被显示时,为各个单独的涉及Sequence(序列)对象的“Method(方法)”绘制一个结果列。Methods(方法)是决定一结果列怎样被显示和怎样被Blixem处理的对象。这里有一个BLASTN方法对象的例子:

Method BLASTN

Colour LIGHTBLUE

Score_by_width Score_bounds 100 400

Right_priority 5.2

Blastn

Blixem N

Mothed(方法)对象用一个Magic Tag(标签)变量,如在其他地方[9]描述的。

涉及方法的序列模型的部分如下:

Homol DNA Homol ?Sequence XREF DNA_homol ?Method Float Int UNIQUE Int Int UNIQUE int

Pop Homol ?Protein XREF DNA_homol ?Method Float Int UNIQUE Int Int UNIQUE int

Motif Homol ?Motif XREF DNA_homol ?Method Float Int UNIQUE Int Int UNIQUE int

Feature Method Int Int UNIQUE Float UNIQUE Text

Homol是用来定位数据的Magic Tag(标签),目的是绘制数据库查询查出的结果列。方法顾及到DNA、蛋白质、和基元(如PROSITE 基元,见13.4图,11列)等诸方面的同源物。

这里有一个从BLAST查询中查出的由MSPcrunch产生的ace文件的例子。

Sequence MyShortSeq

DNA_homol Z47047 BLASTN 900 1 180 1 180

DNA_homol行定义一个BLAST MSP:用BLAST方法,MyShortSeq的碱基1-180的和分值为900的Z47047碱基1-180相似。

来自于预测程序的结果(它们不会导致来自另一序列的同等物,例如,图13.4中Hidden Markov Model内涵子预测,15列)在“Feature”Magic Tag(标记)下被储存。一个ace文件的例子如下:

Sequence MyShortSeq

Feature INTRON_HMM 100 120 10.12

多种(混合)分析功能

点选Analysis按钮可击活(LM) DNA Analysis (DNA分析)窗口,该窗口提供众多的有用的功能,这些功能可应用于DNA窗口和对象的KeySet(窗口),这里介绍一些常用的功能。

查找基元和人造凝胶

基元可通过在DNA分析窗口的文本框中进入查找队列和选择DNA(为查找核苷序列)或AA(为查找转译核苷序列)在序列中定位。按ENTER键开始查找。在KeySet上查找,转到新的包含有基元的序列的KeySet,用于DNA窗口中的查找把Fmap上的基元变为彩色。在两种情况中,查找的结果都加载到DNA分析窗口中。

基元查找队列可包括核苷碱基的多义密码子。在线帮助文件“DNA and amino acid nomenclature”列有DNA和氨基酸的多义密码子。基元可被存储成Motif对象的类型,而后,按名写入到地址。这是一个ace文件的例子。

Motif "Branch"

Match_sequence yTrAy

Remark "Splice branch site consensus"

Remark "Y is pYrimidine, R is puRine"

DNA

Motif "HaeI"

March_sequence "wGGCCw"

Offset 3

Cleavage "wGG'CCw"

Overhang 0

Remark "unpublished observations"

DNA

注意Match_sequence是一个Motif模型的Magic Tag(标记),一旦文件被加载,两个基元都可被查到,通过同时使用查询:

Branch:Hael

还有可能产生一个基元的KeySet,同时查找每一个相匹配的序列,通过触发Motif KeySet按钮,并可在文本框中没有输入的情况下开始查找。

用Max MisMatch按钮指定一些允许的不匹配量可实施模糊查找。

从分析菜单中可运行(RM)琼脂糖凝胶模拟器。基元被用来切断的序列,一个凝胶的图象也被显示出来。这功能有一名为Agarose-gel的在线帮助页。

其它支持序列和软件

Dump sequence: 用户可以用FASTA格式转存Fmap Active Zone(Fmap活动区)序列或是所有KeySet(窗口)中的序列。

BLAST Submission: 执行blast_mail文本,传递参数______________________和核苷序列。

Fastamail Submission: 执行fastamail_mail文本,传递参数______________________和核苷序列。

Splice Consensus:从3到5的剪接位点计算权重基元。结果显示在DNA分析窗口中(DNA Analysis)。

Codon Usage: 估计KeySet中的所有序列中密码子的用途。

Sequence Lengths: 产生一个KeySet中的序列长度的直方图,并在Analysis窗口中报告全序列长度。

Data Export: Fmap下拉菜单(RM白色背景上)提供一系列数据输出工具,它们编写一个关于特性(包括:外显子,剪接位点,等),序列和CDS转译因子(FASTA格式化的)文件。输出位置相应于活动区(Active Zone)。

EMBL Dump: 用能提供给EMBL数据库的格式把序列和特性写入文件。

Acembly:虽然本章着重于序列分析。ACEDB也为原始序列数据提供管理。Acembly是一个基于ACEDB的程序,它可显示和分析从ABI测序仪中读取的序列。它是由Uirich Savauge, Danielle, 和Jean Thierry-Mieg开发的。软件是为显示和解释来自于测序梯中的痕量数据和通过排列单个的测序梯来收集重叠群而设计的。多种编辑功能允许用户去识别有问题的区域,建立和改变基本调用,注释数据等等。Acembly软件包(Unix系统)是和ACEDB一道分配的,有相似的界面,Axembly中的数据可很容易的移动到其它的ACEDB数据库中。

上一页
下一页
返回目录
返回茶庄