第十四章 提交DNA序列到数据库

序言:

要在分子生物学领域进行计算分析,从公共数据库(DDBJ/EMBL/GenBank)中获得DNA序列记录是其必需条件。借助于和一个已了解其生物学功能而被分离出来并测序的基因比较相似性的方法,我们可以尝试确定某疾病基因的功能,这种方法要求序列记录有精确并且富于信息的生物学注解。对于将其作为BLAST Entrez的检索结果来研究的科学家来说,编码的蛋白质产物的名称或功能、基因座位的名称以及和该序列最初的公布之间的联系(它因何被测序?)构成了序列记录的直接的确切涵义。

本章的内容是提交DNA序列及其注解到公共数据库,重点介绍了与国际核苷酸序列协作数据库:DDBJEMBLGenBank密切相关的核苷酸序列数据库。我们描述了提交序列到这些数据库的两种不同的方法,一种方法基于互联网,(例如,使用Bankit,另一种方法使用Sequin,这是一个多平台程序,若同时具有网络连接有很大益处,不过这不是必需的。Sequin也是一种很好的利用了NCBI数据模型(参见第六章)的ASN.1编辑工具,而且在不久的将来会成为许多采用NCBI的序列分析工具的平台,因此,Sequin是可供选择的升级工具。

大多数期刊不再刊登完整的序列数据,并且现在公开发表文章时向公共数据库提交序列数据已成为一条准则。基因组测序时期(ESTs 和基因组序列的数量以很快的速度增加的时期,在历史上以1992年底EST计划的开始为标志)已经通过很多方式影响了科学界。例如,许多科学家公布他们发现的序列先于发表对其进行的详细分析,这个习惯已成为大型基因研究中心的规定,尽管一些个别的实验室仍然直到文章发表后才公开他们的数据,还有一些人认为公开他们的记录与否取决于自己的愿望。

像第二章概述的那样,到目前为止,数据库内容的增长是指数性的。大多数早期的序列记录是由对于某个基因感兴趣的单个的科学家提交的,适合这种情况的提交程序必须允许手工进行生物学信息的任意注解。然而最近这些数据库不得不接受新类型的数据,而且提交速度要有实质性的提高。在EST测序开始不久,为了接受这些记录必需一种单独的提交协议,这种要求变得很明显,通过该协议每天接受的记录将达到上千个,峰值时期更将达到每周100000个提交量。幸运的是,这些记录相当简单,而且在内容上是一致的,因此适合于自动处理。这种大批量提交协议将在下文讨论。提交过程也是国际活动的一部分,值得注意的是,向三个国际性协作数据库中的任一个提交的记录(参见第二章图2.1)几天后都将在另两个数据库中出现,然后这些序列记录将被许多研究组和研究中心传送到世界范围,其中有些研究者再格式化这些记录以适合他们的数据库和他们的程序使用(例如,GCG,参见第四章),因此仅仅提交序列数据到这三个数据库之一,研究者们能够避免给这三个地方的数据库维护人员带来任何可能的重复工作,而且也能避免发布多余的记录。同样的,大多数期刊都希望在一篇文章中提出的所有核苷酸序列,将被由国际性的协作数据库之一提供的加入号码所验证,而且这对该文章来说具有核心的意义。(参见第2章和 6章)。

提交到哪儿?

过去研究者将数据提交到哪一个特定的数据库依赖于他们想要发表文章的期刊,虽然现在一些期刊仍然不合适的指出一个偏爱的数据库,但这不再是正确的了,研究者应该提交到最方便的数据库。这可能是地理上最近的数据库(例如,如果需要一次电话会谈的话);也可能是经常提交的数据库;或者可能仅是因为在那里提交可能得到最多的注意。这三个数据库都有知识丰富的人员来帮助提交者完成整个提交过程。在通常的情况下,一个工作日内将会反馈回来一个加入号码,而记录的完成将需要510天的时间,其实际长短将依赖于那个工作周的繁忙程度和提交的序列的状态。

目前,假设所有的序列记录提交都通过电子方式:例如通过互联网,通过电子邮件,或者(最起码)通过常规方式邮寄一张计算机磁盘。供电子方式提交的URLsE_mail地址列于本章末尾, 这两种提交方式取代了早期使用的授权软件的方法,该方法现在已经过时了。不过通过授权软件来提交仍然可被接受(在本文出版时),但是使用授权软件的提交者应该注意其局限性和可以选择更好的方法。

提交什么内容?

这三个数据库都需要同样的最终结果:充分注解的、具生物学意义的、便于计算的良好记录,该记录允许其他科学家利用提交该记录的生物学家已获得的工作成果,并且提供了与蛋白质、参考文献和基因组数据库(参见第5章)的联系。这些数据库是所有通过实验获得的序列的宝库,因此最新测序的mRNA或基因区域的序列可以提交到某个数据库,其工作人员将协助提交者提供足够的信息以使该序列对其他研究者有使用价值。一套丰富的生物特征和其他注解是可得到的,但其中重要的部分无疑是那些可用于分析的内容。这些部分包括核苷酸和蛋白质序列:CDS(编码序列,又称编码区)、基因、mRNA特征(如:表现分子生物学中心法则的特征);序列得以确定的生物;以及关于参考文献的引用,这些引用将此序列连接到有关的信息领域并将给出证明该序列存在的实验细节。

DNA/RNA

提交的过程相当简单,但必须小心谨慎,才能提供准确(无错误和无载体污染)和生物学上尽量良好的信息,以保证其得到科学界的最充分利用。无论提交形式如何,在开始提交以前,都要解决以下几个问题。

序列的性质

该序列来源于基因组还是mRNA?数据库的用户想知道被测序的DNA分子的来源。例如:尽管cDNA是在DNA(不是RNA)上进行测序的,在细胞中的分子表现型却是mRNA。同样对于rRNA基因的基因组测序而言,测序的分子几乎全都是DNA分子。将rRNA复制成DNA,就象直接对rRNA测序一样,尽管是可能的,但很少这样做。记住:既然被提交的基因必须有独特的分子类型,它就不会表现出(例如)一种基因组和mRNA分子的混合类型,否则实际上不会从一个活细胞中提取出来。

序列是合成的,但不是人造的吗?

合成分子在核苷酸数据库中有一个特殊的分类,在此环境中,序列被按照实验排列,而这在自然环境中是不会出现的(如:蛋白质表达的载体序列)。DNA数据库不接受计算机产生的序列(如:同源序列),在数据库中的所有序列都是从有问题的实际分子序列中通过实验获得的,但是它们可以被汇聚成测序训练猎枪。

序列有多精确?

在数据库文献中很少提到这个问题,但假设被提交的序列尽可能精确,这通常意味着整个提交序列至少包括两相覆盖域(相反方向)。证实最终提交的序列也同样重要,它必须无载体的污染(这可以用在载体数据库中BLASTN查寻证实:参见其后的第7章),可以以已知的限制图谱检验,消除序列重组的可能性,或确认正确的序列集合。

生物体

给每条记录分配正确的生物是至关重要的,尽管在大多数情况下这是很容易做到的。所有的DNA序列记录必须有一个生物分配给它们,从数据库中的记录出现在系统发生树上的位置可以得到许多推论。如果它们被错误的安置了,可能会翻译错误的遗传密码,并产生被错误截取的蛋白质产物序列。已经知道的基因和物种的种类足可以使数据库成员识别生物和其谱系。NCBI提供了一个重要的分类服务,分类学家维护能用于所有核苷酸数据库和Swiss-Prot蛋白质数据库的分类法。

引用

注解即使再好,也永远比不上一篇充分阐述生物学的已发表文章,因此,有必要保证正确链接研究出版物和它将引用的原始数据。基于此理由, 提交中准备好引用是很重要的,即使其中只有作者的临时列表和工作标题。在出版时更新这些引用对于记录的价值也很重要。(这由数据库成员惯例的执行,而且如果提交者在发表文章以前通知数据库成员,将执行得更快)。

编码序列

核苷酸序列的提交也意味着包括其编码的蛋白质序列,这是因为:

1. 蛋白质数据库(如:Swiss-ProtPIR)几乎完全由在DNA序列数据库中记录的蛋白质序列所组成。

2. 在提交过程中包括蛋白质序列如果不是必需的话, 也是重要和有效一步。

蛋白质包括执行我们研究的许多生物反应的酶分子,其序列数据是提交中的固有部分,它们的重要性(在第6章中概述)也在提交过程中体现出来,在各种数据库中其信息作为代表性必须被捕获。如果已知的话, 蛋白质产物和基因的名称也很重要,有各种各样的资源(许多在总结这些章节的列表中有描述)为给定的生物提供准确的命名系统。(参见“基因命名指导,基因趋势”,1995Elsevier。)

编码序列特征,或CDS,是DNARNA和蛋白质序列的联系,随同正确的翻译表一起, 在有效性中其正确定位占据了中心位置。核苷酸数据库现在用了13种不同遗传密码(参见章末的列表),这些遗传密码由NCBI中的分类学和分子生物工作人员维护。由于蛋白质序列是如此重要,它们是生物学家可以计算的主要分子生物信息资源之一,它们理所当然地得到各种数据库成员的重视。在mRNA中正确地找到开放的读框架通常是很简单的(参见第10章), 并且有多种工具可供利用 [ 如:NCBIORF查找器(见章末列表)],而且在Sequin中是作为一个函数(如下);从一个较高级的真核生物获得正确的CDS间隔就不那么容易了:必须连接不同的外显子序列,这涉及许多方法,在第10章中有介绍(如果给定蛋白质序列和正确的遗传密码的话, Sequin中的推荐间隔函数可以计算CDS间隔)。在提交中包括什么内容将由数据库工作人员来决定, 更恰当地说, 这受到所使用的提交工具的限制, 如通过互联网或Sequin。有效性检查包含CDS间隔中的起始和终止密码子,该间隔具有合法的外显子/内含子一致边界,用合适的遗传密码可将提供的氨基酸序列从指定的CDS中转换出来。

其他特征

在提交序列记录的特征部分还有许多其它特征,并且其中许多特征将扩充记录内容。在特征表文件中描述了完整的特征集,该文件可以WWW方式取得或通过匿名FTP获得PostScript 文件。尽管有许多特征可供利用,但在数据库中却有许多不一致的用法,主要原因是缺乏一致的原则和生物学家们对它们究竟意味着什么看法很不相同。正确地获得生物、书目、基因、CDSmRNA通常就足以并且有助于证实序列,使生物学家通过几行文字就能获得生物学的内容。只要应用恰当,一个特征表文件是可以利用的,但要注意文件注解的意图。

种群、系统发生、变异的研究

现在核苷酸数据库可接受种群、系统发生、变异的研究作为提交的序列集,尽管在简单文件记录中并没有充分描述该信息,但它却在各种各样的数据库中出现。新型的提交方式允许:若仅因为操作的原因,一起提交一组相关序列,那么获得共享信息入口只需要一次请求。Sequin也允许用户包含有用自己中意的比对工具生成的序列比对结果,并随着DNA序列提交该信息。尽管所有的数据库都知道该信息对于目前获得的大量记录很重要,但是NCBI是唯一接受该信息的数据库。显示该信息的新方法(如:Entrez)应尽快能使一般科学团体更易获得这种数据。

仅提交蛋白质序列

在大多数情况下,蛋白质序列和DNA序列并存,但也有些例外�人们直接处理蛋白质序列�这些序列必须在没有相应的DNA序列的情况下提交。对于这些提交而言,目前SWISS-PROT是最好的地方,EBI处理这些提交,并将其传送到SWISS-PROT

如何提交到互联网

Authorin利用率的下降使这三个数据库决定在互联网上采用基于表格的方式,这个新的媒介能很好的适应提交过程。三个数据库都设计了一种表格,以使DNA序列提交到自身的数据库中:DDBJSakura(樱花开)EBIWebIn、和GenBankBankIt。互联网是简单提交序列的理想提交途径(如图14.1),也是那些不需要复杂注解和过多重复的提交序列的最佳选择(如:在种群研究中,很典型的有30条类似的序列,用Sequin提交最好)。互联网对于那些只做少量提交和要求较少、只需要简单的学习或不需要的研究小组最为理想。对于大多数提交来说,互联网的表格方式将是合适和足够的:60%80%的提交者通过互联网向NCBI提交其DNARNA序列。这三个数据库提交的入口地址(或URLs)在本章末有介绍。

尽管本章的这部分强调NCBIBankIt提交工具,实际上,提交到基本数据库中的任何一个都将使序列获得合理的处理,并存储到另外两个数据库中。

进入BankIt提交后(图14.2),用户被询问要提交的核苷酸序列长度。这是由于WWW浏览器的局限性,使得在一个给定的窗口不可能输入29000个核苷酸(字符)。如果必须提交40000条碱基对(人们提交的粘性质粒的通常大小),BankIt将打开两个窗口,故通过每个窗口复制和输入20000个字符,这样就解决了这个矛盾。

 

14.1:决定采用哪种协议提交DNA序列到某一DNA序列数据库的流程图。WWWBankItWebIn,或Sakura。其URLs和电子邮件地址,请参见本章末的列表。

 

14.2

 

 

14.2BankIt, GenBank互联网的提交网页。新提交序列的进入点(输入序列长度,并按New按钮)或更新GenBank数据库中的一条记录。

BankIt的下一张表格也是明了的(图14.3),它询问联系人(即回答数据库工作人员询问的人),引用(谁得到了科学荣誉),生物(前100个在列表中,其余的必须输入),位置(细胞还是细胞器),一些图谱信息和核苷酸序列本身。在列表末,有个BankIt按钮,能激活下一张列表。按下这个按钮后,首先验证一些项的有效性,如果一些基本的区域没填,该表将再次出现。若全部合格,下一张表将查问会加入多少特征并提示用户指出其类型。如果没填任何特征,(图14.4),BankIt将发出警告,以证实提交序列中没有加入一个CDS。用户可以回答没有(0个新CDS)或选择加入一个或更多的CDS。此时,结构化RNA信息或其它合法的DDBJ/EMBL/GenBank特征也会被加入。

 

 

14.3

1 4.3BankItGenBank的互联网提交页面:标明提交联系人。

 

14.4

 

14.4BankItGenBank的互联网提交网页:BankIt要求获得特征的数目, 以产生一个具有合适数目的特征表。

要保存记录,再次按BankIt,出现的新页面(图14.5)必须在提交完成前得到确认,也就是说,在此之前,可做更多的改变或加入其他特征。再次单击BankIt结束。接着出现最后的页面: (14.6)切换Update/Finished按钮,最后按BankIt按钮,提交将进入NCBI进行处理。刚完成的提交序列复本必须立即通过电子邮件送达,否则,有必要联系数据库以证实提交已被接受,并做出任何必要的修改。

 

14.5

 

14.5BankItGenBank的互联网提交网页:倒数第二个屏幕:这是一个增加或改变一些特征的互锁按钮,显示如所指示的完成入口。

 

 

14.6

 

14.6BankItGenBank的互联网提交网页:最后一个屏幕:显示BankIt的提交表格已成功完成。

 

如何用Sequin提交

Sequin是设计用来协助科学家准备新序列,更新序列数据的一个程序,利用它将序列数据提交到DDBJEMBLGenBank数据库。这是一个能在绝大多数计算机平台上运行的软件,而且适用于各种序列长度和复杂情况,包括传统的(基因大小)核苷酸序列,分段的记录(如:剪接的基因组,不是所有的内含子序列都已被确定),有许多注解特征的长序列(基因组大小),和各种相关序列(如:对于一个特殊基因、域或滤过性病毒基因的种群、系统发生、变异的研究),许多这样的提交能通过互联网执行,但Sequin 在复杂的情况下更实用。而且特定类型的提交(如:分段类)不能通过Web来完成,除非给数据库工作人员加以明确的指导。

Sequin 也接受以提交的核苷酸酸序列编码的蛋白质序列,允许在这些蛋白质上进行特征的注解(如:信号肽、跨膜区或二硫键)。这与大多数科学家在提交DNA序列时的普遍观点形成鲜明的对比。这里的新概念是蛋白质是直接注解的,而不是编码生成之的DNA的副产物。对于各种相关或是相近的序列(如:种群或系统发生的研究),Sequin从提交者处获得关于多个序列是如何比对的信息,最终它可以用来编辑和重新提交已存在于GenBank中的记录,不论是延长(或取代)已有的序列,还是注解附加的特征或比对(见下描述)。

进入一个新的提交过程

Sequin有许多性质大大简化了创建和注解一条记录的过程。最神奇的一方面是在只给定核苷酸酸序列,蛋白质产物序列和遗传密码(从生物的名称中自动获得)的情况下,自动计算CDS特征间隔。这所谓的“建议间隔”过程在计算中考虑了一致的剪接位点。传统上这些间隔是手工输入的,这是一个既耗时又易错的过程,尤其是对于一个在可变剪接或分段时有许多外显子的基因序列。

Sequin的另一种重要的贡献在于能在序列数据库文件的定义行上以一种简单的格式输入相关注解。在读序列时,Sequin识别和提取这一信息,并将其放置在记录中合适的位置。对于核苷酸序列,可以输入生物体的科学名称、品系或克隆名称和几个其它的修饰基因。对于蛋白质序列,可以输入基因和蛋白质名称。(如果在定义行上没有这些信息,Sequin在执行前就会提示用户此信息。定义行的注解是非常方便的,因为信息和序列是在一起的因此以后不容易被遗忘或混淆。)除了组建合适的CDS特征以外,Sequin将自动利用该信息生成基因和蛋白质特征。

由于大多数提交序列包含了一个单独的核苷酸序列和一个或多个编码区域特征(及相关的蛋白质序列),前面概述的功能将频繁地影响一条没有进一步注解时就被提交的记录。由于正确地记录了基因和蛋白质名称,从而使得该记录为其他科学家提供有用信息,他们可能通过一个BLAST的相似性比对或从Entrez查找中获得该信息。

有效性

为保证提交数据的质量,Sequin使用一个内建的有效器来查询。例如:丢失的生物体信息,错误的编码区长度(相对于被提交的蛋白质序列),编码区内部的终止密码子,不匹配的氨基酸或不一致的剪接位点。在错误报告中双击其中一项,在“冲突”特征项中就会出现一个编辑框。

有效器也检查“局部”指示器的使用是否一致,尤其是在编码区、蛋白质产物和产物的蛋白质特征中的使用。(除非作了相反的设置,否则CDS就会自动的同步这些分散的局部指示器,将使纠正这类不一致问题变得很方便。)

观察序列记录

Sequin对同一条记录提供了许多不同的视图。传统的简单文件可以出现在FASTAGenBankEMBL形式中。(它们可以在用户计算机中以文件的方式输出,然后输入其它的序列分析包中。)图像视图显示了序列的特征间隔,这对于观察可变剪接的编码区尤其有意义。(图像视图的风格可以定制,这些视图可以被复制到个人计算机的剪贴板中,粘贴到文字处理器或视图程序中,用于准备出版物的手稿。)有一个视图可以更详细地显示实际序列的特征,对于包含比对的记录(如:由一个用户输入的相关序列或通过PowerBLAST中查找的比对结果,参见第7章),用户可以请求一个全图像视图以显示添加、删除和不匹配的情况,或细节视图显示序列字母比对。

上述提及的观察者是主动的,单击一个特征、序列或序列比对图片,将会高亮度显示该处。双击会出现一个合适的编辑框,以便多个观察者使用同一条记录,而能够看到不同的形式。例如:可以很方便的使图像视图和GenBank(或EMBL)的简单文件视图同时显示,尤其是对于包含多个CDS的较大记录。图像视图可比做科学家实验室的记事本图片,为特征注解的准确性提供一个快速实用的检查手段。

先进的注解和编辑功能

Sequin中的序列编辑器能在编辑序列时自动调节特征间隔,这对于想在已提交的序列记录中加入一段5’端的序列尤为重要。在Sequin出现之前,这需要手工添加,并纠正序列中所有生物特征间隔。这样很有可能从草稿开始重做全部提交过程。序列编辑器很象文本编辑器,可在光标所在出处插入或输入一个新的序列。

在提交序列中的一个大类包含了多样的相关序列(如:种群、系统发生和变异的研究),如果用户提交了这些序列是如何自身比对的信息,这些记录将会更有指导意义。这种比对可随序列数据(如:以PHYLIPNEXUSFASTA+GAP形式)输入或在输入序列以后用Sequin计算。参见附录II中的各种形式的实例。

对于这些记录,Sequin允许给一条序列添加注解,而且该注解可以被复制到其它的序列中。(若为CDS特征,特征间隔可通过读蛋白质产物序列自动进行计算,而不必全部输入。)为了实现这一方法,选用特征传播的方法(从比对编辑器中),被选中的特征将传播到剩余序列中去,并用比对信息调整特征间隔。这和在每条序列上手工注解特征产生的效果相同。但用特征传播的方法仅需几分钟就能完成全过程,而手工则需几小时。

特征传播和序列编辑器组合起来为更新一个已经存在的序列提供了简单而且自动的方法。更新序列的功能允许用户输入重叠或替代的序列。Sequin设计了比对,在有必要时合并序列,将特征传播到新序列的新位置,以取代旧序列和旧特征。

Sequin做为分析平台

Sequin也提供了许多种序列分析的功能,例如:有一个功能可以反补于序列和特征间隔,也很容易加入新的功能。这些功能在一个称为NCBI桌面的窗口中出现,直接显示调入内存的当前记录的内部结构。该窗口可以被理解为一个有描述器的Venn图表(参见下述和第6章),此描述器能在一组系统中(如:种群研究)应用于各种序列。在桌面上,用户可以读出PowerBLAST的分析结果,再拖动之将其在一条序列记录上释放,从而向记录中加入比对数据,修改的结果将很快显示在观察者面前。注意:并非所有的注解都能被任何一个观察者看见,简单文件视图有其局限性,例如:它不显示比对。

NCBI数据模型支持大量的序列集,Sequin允许为了显示或注解的目的在这些序列集中进行完全的漫游,例如:Nuc-Prot类包含一条核苷酸序列和它的蛋白质产物,核苷酸序列可自身分解。在这种情况下,Seg类包含了片段序列和一个Parts类,Parts类顺序包含每一个片段的原始数据。种群、系统发生和变异可包含多种相关序列或Nuc-Prot类。NCBI桌面是浏览记录内部结构的最快的方法。

数据模型的重要性

Sequin是一种ASN.1编辑器。用ASN.1数据描述语言写成的NCBI数据模型,可用来使相关信息在描述器或特征项中保持在一起(参见第6章),特征项是典型的生物概念(如:基因,编码区,RNAs,蛋白质),这些概念通常在一条序列中有一个位置(一个或多个间隔)。描述器可用于传送应用于多个序列的信息,这样避免了重复输入同一条信息的多个拷贝。

例如:BioSource描述器包含了一个生物体的科学名称,常用名称,分类学上的链接,GenBank分类,和修饰器(如:品系、克隆、染色体、图谱位置)。将此信息收集在一起记录在数据详细说明书中,将便于用户输入和修改。将单个的BioSource描述器应用于Nuc-prot集将满足证实者的愿望: 在每条序列, 包括蛋白质序列上都有生物来源信息, 这同时也是数据库的规定。

GenBank简单文件视图上双击一段,或在图形视图中双击一个特征,将激活一个编辑器用于修改该项的永久性的信息。在某些情况下,特别是在BioSource或出版物中,这些项可能是描述器或者是特征,并且在简单文件中将其区分开来是困难的。(NCBI桌面上可以很容易地区分描述器和特征。并且只有特征和序列在总结、图表、比对、和序列视图中出现。

对于偶然的使用者来说,数据模型导致习惯可能并不明显(请看GenBankEMBL的视图文件),但确实能够简化生物信息的输入。例如:在GenBank简单文件的头部出现的文献能够包含一个评价的子部分,在这里可以输入解释关于引用的生物学结论,和那些关于序列记录的信息。在报告中文本通常和引用在一起,相反将解释性的信息放置在大的注解段中,并用编号指向引用的文章(如“〖5〗”)是一种冒险性的做法,因为这些编号可能会发生变化,(例如由于新的文献的引用),将导致编号和文献不相符。

类似地,对于特征的引用(例如确定在编码区中核糖体的滑动)内在地引用了文献,而不是文献编号,即使在简单文件中显示了一个数字。这是另一个惯例允许文献编号改变而不“破坏”引用的完整性。并且这意味着只有一个完整的引用复本,这将使更新文献中的任何信息变得更容易。

然而,应该保守地使用对于序列记录的文字上的引用,一个序列记录并不是一门学科的回顾,使用Entrez中的链接和近邻是一种更加可靠的收集信息的方法和使用序列数据库作出最初发现的方法。

在最简单的情况下,单个的核苷酸序列有一个或多个蛋白质产物。Sequin允许用户不了解数据模型的结构层次而使用它。CDS特征编辑器用来输入蛋白质序列(或将其从已输入的地方翻译出来),并且输入或修改特征(提供了蛋白质的名称)。用户可以获得(单个的)蛋白质特征而不必在整个蛋白质序列中“漫游”。并且CDS编辑器也用基因名建立了分离的序列特征。

如果预期有关于蛋白质产物序列的大量的注解,那么漫游是必需的,至少作为对于数据模型的一种粗略的了解,许多蛋白质有半胱氨酸的双硫键。结合区,活性区,糖基化区,信号肽,或跨膜区。关于这些部分的注解对将其作为BLASTEntrez检索结果的生物学家很有意义,对于给定序列设置目标控制使观察者转向显示该序列的图形平面或文字报告。使用注解子菜单建立的任何特征或描述器将和当前的目标序列组织在一起。

虽然Sequin确实提供了在一个结构记录中所有的序列间进行完全的漫游的功能,但是最初的序列数据建立原始的结构最好由Sequin的“创建新提交”功能来完成。Sequin在前面的步骤中提取信息,(例如生物体和资源编辑器,基因和蛋白质名称)并且知道怎样正确的将每个信息填充在合适的位置。这也就是Sequin的主要设计目标之一。手工注解需要对于数据模型更详尽的了解,和对于具有使用Sequin复杂功能的专业技能。

完成的提交可以存储到磁盘(File->Prepare Submission)和发送电子邮件到某一数据库,在Sequin期间经常存盘是一个好习惯,可以避免无意中的数据丢失。

提交单个的序列

最简单的交包含一个单个的没有中断的核苷酸序列和一个或多个蛋白质产物序列。这些序列典型地来自于传统的基于基因的生物学研究,并且这样的提交在大多数情况下可以通过互联网(请看上例BankIt)或Sequin来完成,Sequin提供了许多已经确认的好处和对于各种网络连接的独立性。

Sequin开始时出现一个窗口,提示用户开始一个新的提交或者打开一个包含记录的文件(图14.7)。在最初的提交建立以后,记录可以保存下来存为文件和在最终传送到数据库之前进行编辑,如果Sequin被配置为网络敏感,该窗口将允许下载已存在的将要更新的数据记录。

 

14.7

 

14.7 Sequin 的初始窗口,提供了开始一个提交的几个选择,为了由原始序列文件和其它信息的最小集生成一个提交,选择开始新的提交(Start New Submission),一旦初始记录建立起来,就可以存成一个文件。若要读已存的文件或任何其它存成文件的ASN.1记录,选择读已存在的记录(Read Existing Record),若Sequin配置为网络连接,将会显示按钮Download from Entrez,该按钮用来下载记录用于更新。

通过完成几个表格可以建立一个新的提交(图14.814.15)。这些表格使用文件夹标签来将窗口划分为几页,这样允许输入所有必需数据而不必一个大的计算机屏幕,这些表格项有前一页和后一页的按钮,当用户到达一个表格的最后一页时,下一页按钮变成了下一个表格按钮。

开始一个新的提交过程,第一步是请求一个暂时性的标题(图14.8):然后询问联系人、序列作者和他们的学术联系的信息(图14.9)。对于所有的提交来说,这个表格是一致的,联系人、序列作者、和他们的学术联系页通过按输出菜单按钮可以存储下来,在开始其它提交时可通过选择输入菜单按钮读入该文件。然而,因为种群、系统发生和变异研究是作为一个记录一次引入的,存储提交表格页面就不太必要了。

 

14.8

 

14.8 提交页用来从手稿中为Sequin输入一个暂时的标题;即使该文章没有写,或者试图发表,对于提交的描述也是必要的。该页也允许提交者要求直到文章发表再公布序列或指测序列公布的日期。

 

14.9

 

14.9 Sequin的联系人页面记录了回答数据库工作人员查询的负责人的姓名和联系信息(通常是执行提交的人,但不必是真正测序的人)。Sfx域要求名字后缀(例如:Jr.,III),而不是敬语或学位(如Ph.D,M.D.)。当记录公布时该信息并不公开,而是保存在数据库中。

序列格式表格(图14.12)询问提交的类型(单个的序列,如例子中所用;片段序列或种群、系统发生、变异研究)。对于最后三种类型的提交,包括相关序列的比对研究,输入数据的形式也能被指示。缺省是FASTA格式(或原始序列),不过PHYLIPNEXUSPAUPFASTAGAP格式也是支持的。后几种格式包含比对信息,这些存储在序列记录中。

 

14.10

 

14.10 Sequin作者页命名了描述测序的手稿作者。(例如从测序中获得荣誉的人),本页是一个电子表格,可以容纳需要的作者名。按TAB按钮可以水平地从一个域移动到下一个域。要移动到下一行的第一个名字列,从Sfx列内按TAB按钮。如果在最后一行中键入了任何东西,新的一行将附加到表格的后面。(在视觉上立刻感到滚动条的变化),在一行中的任何位置按下回车按钮将在当前行下增加新的一行。Sequin将忽略任何姓一栏空着的行。

 

14.11

 

14.11 Sequin的联系页,用于与手稿原始作者的制度上的联系,当数据库工作人员处理记录时,该信息将出现在引用其自身的参考书目中。在本页中下一页(Next Page)换名为下一表格(Next Form);当按下该按钮时,Sequin自动检查表格内容,如果用户遗漏了任何基本信息的话,将给出提示。如果输入的信息符合要求,Sequin将出现下一个表格。

 

`14.12

 

14.12 Sequin的序列格式表格,允许用户指定提交记录的类型和原始序列数据的类型。大数提交是单个的序列(核苷酸)(也可能有一条或几条蛋白质产物序列)。另一类提交是片段序列。例如,在一些基因组序列中,外显子已测序,但是内含子并未完全测序。通过分割该记录,我们可以注解编码区和mRNA特征。系统发生、种群研究和变异研究涉及不止一条相关序列的提交,它们由Sequin包装为合适的集合。批量提交是用于那些并不具有相似性的序列集的提交,这样作只是基于方便的理由。单个的序列数据和分段的序列数据必须是FASTA格式。种群、系统发生和变异研究也可以使用包含比对的格式。这些比对是关于提交者对于序列之间关系的断言。目前Sequin支持FASTAGAPPHYLIP,交叉存取NEXUS和近邻的NEXUS多种格式。

生物体和序列表(图14.1314.15)要求生物学数据。在生物体页面上(图14.13,随着用户键入生物体的科学名,经常使用的生物体名列表自动翻卷,Sequin 保存了GenBank中存在的最多的800种生物体。)因此在键入几个字母后,用户可以通过在列表中单击合适的项来补全生物体名称的其余部分。现在Sequin知道了科学名称,一般名称,GenBank分类,分类学联系和其中最重要的,使用的遗传密码,(对于线粒体基因,有一个控制指示应该使用哪个遗传密码)对于列表中没有的生物体,需要手工设置遗传密码控制。Sequin缺省使用标准密码。

 

14.13

 

14.13序列的生物体页面,询问测序的生物体的科学名。对于通常用到的800种生物体来说,还有普通名,完全的分类,GenBank分类和存储的遗传密码。对于表中没有的生物体,用户必须输入正确的遗传密码,序列弹出位置允许用户指示线粒体编码在这种情况下,在翻译中使用了特定生物体的可选遗传密码。在系统发生研究中,包括了不同的生物体,生物体选择列表被隐藏起来,单个的生物体名希望在数据文件中编码。并且在缺省情况下,在生物体列表中不出现遗传密码控制。

在核苷酸页(图14.14),激活Import Nucleotide FASTA按钮将读取序列。给基因组DNAmRNA[cDNA]设置合适的分子控制,对3’5’端的检查框同样也应予以适当的设置。序列可以有一条FASTA定义行。这条线作为序列的先导,并以一个左尖括号开始(>);一个“局部标识符”可能被定义为尖括号后的第一个字符。如果你是这样做的,在引入该序列前检查“以序列ID开头的FASTA定义行”框。在加入数字由序列数据库工作人员发放以前,局部ID代替了其位置。如果需要的话,样本定义行如下:

>TK [org=Musculus] [strain=BALB/c] thymidine kinase gene

在读完核苷酸文件后,将有一个总结报告给出序列的长度,局部ID,任何生物体名,品系,或其它修饰成分,这些是从定义行上解析(抽取)出来的,以及剩余的标题(图14.14)。总结同样给出了任何不在核苷酸字母表中的无效字母。例如,偶然引入了一个氨基酸序列,将有许多字母不在字母表中,结果报告将指出这个错误。在这种情况下,从编辑菜单下选择Clear(清除),然后引入正确的序列。

片段的核苷酸序列可通过连接同一文件中的单个片段来输入。在这种情况下,在每个序列上方的定义行上向Sequin指出有多个片段。每一个片段必须有唯一的一个局部ID号(如:通过对该片段编码的外显子号使其变得唯一)。

 

14.14

 

14.14 序列的核苷酸页,该页是核苷酸序列文件和分子类型(例如基因组DNA,基因组RNAmRNA, tRNA)说明书的入口,即使排列的分子实际上组成了cDNA也使用了mRNA。按下输入核酸FASTAImport Nucleotide FASTA)按钮引出用户计算机上的阅读对话框。当记录在分立的文件中时,这种情况出现在分段序列和多条序列的研究中,必须多次按该按钮。然而,将所有序列放置在单个的文件中将更为合适。如果检测出任何无效字母,将有一个警告信息,同时出现一份关于序列文件是如何被中断的报告。

蛋白质页面(图14.15)允许输入蛋白质序列,比起手工加入CDS特征(和相关基因及蛋白质特征)而输入该序列,让Sequin组建记录要容易得多。这对于片段序列来说尤其如此,若合适的话也须设置的局部标记。蛋白质页面有个控键,可以提示局部的ID号是否在定义行上,它也允许基因和蛋白质的名称被编码,如:

>TKp [gene=TK] [prot=thymidine kinase] thymidine kinase protein

局部IDTKp必须不同于所有其余的ID号,在这个例子中是TK,它是核苷酸序列的局部ID号。

蛋白质页面也有一个检验框,以产生与将要生成的CDS具有相同间隔的mRNA特征,用户随后双击mRNA的结果,通过mRNA编辑器延长该特征项5’3’的间隔。(Sequin编辑器被设计来保证重复的基因特征也被延长,使用户不必分别延长其范围。)多蛋白质序列(如:可变剪接的产物)的进入可锁定在同一个文件中。由于有核苷酸序列,每条蛋白质序列上的定义行提示Sequin有多条序列。

读入蛋白质也会产生一个报告(图14.15),它给出序列长度,解析的局部ID号,解析定义行的基因和蛋白质,剩余标题。报告也指出蛋白质列表中不存在的非法特征,同样选择编辑菜单中的清除按钮修正该页面。

 

14.15

 

14.15 Sequin的蛋白质页,允许蛋白质产物序列的输入。其输入按钮的表现和核酸页的按钮相同。作为表格中的最后一页,它有一个下一表格(Next Form)的按钮。按下之后将提示用户在表格中任何被忽视的基本信息。表格完成后,Sequin将开始处理序列数据。如果再蛋白质序列FASTA定义行上基因和蛋白质名未被注解,Sequin将提出一个表格来输入这些名字。然后Sequin将基于已提供的数据开始建立一个初始的记录。

此时,按下Next Form按钮将会使Sequin把进入的数据组建成一条提交记录,对于每条蛋白质,建议间隔按照核苷酸序列来选取(用已经输入的遗传密码,它通常是从被选择的生物体来推断出)。编码区特征是由间隔的结果产生的,这也是一个最初的mRNA特征。基因特征是由一个横跨所有间隔的间隔产生的,这样生成了蛋白质序列,并由蛋白质特征给出它的名称,生物体(BioSource描述器)被放在记录中,同样有文献的描述器。(最后两个被归入Nuc-Prot类,这样它们在能应用于该类中所有的核苷酸序列和蛋白质序列),在所有的序列中加入合适的分子信息描述。

这样产生了一个阅读器表格,它能显示记录的GenBank简单文件表格(图14.16)。这个阅读器有各种菜单项,能将记录保存到文件中,使记录有效,以及加入新的特征和描述器。可能最后剩下的一步是双击mRNA,出现一个编辑框,点击”Location folder tab”, 用位置电子数据表扩展5’和3’端,更新记录中所有的阅读器。图象视图(图14.17)可以进行CDSmRNA间隔的图象比较,确定在这些域中基因特征是一个单独的间隔区。序列视图(图14.18)显示了特征范围和CDS特征在实际序列中的翻译。选择准备提交按钮,运行有效器,保存文件,并显示提交到GenBank, EMBLDDBL的电子邮件地址(在打开的窗口中选择一个地址)。

 

14.16

 

14.16 GenBank格式中缺省的序列记录观察器。在这个例子中,已按下了序列的CDS特征,如该段旁边的条所示。在段落上双击将开启特征、描述器或选测序列的编辑器。该观察器可被复制。并且同一个记录可以不同格式在多个观察器中打开。

 

14.17

 

14.17 Sequin的图表格式显示了片段序列结果和特征间隔。这可以和实验室记录本相比较,大概看一下,特征是否注解在正确的位置上。可以使用不同的风格,和建立了新的风格来定制图形窗口的外观表现。图片可以拷贝到个人计算机的剪贴板,以备引入字处理软件和画图程序中去。

 

14.18

 

14.18 序列视图显示了Sequin的序列编辑器。它显示了在序列上的特征间隔。

 

提交一个比对的序列集

一个逐渐增长的提交项包括相关的序列类:种群、系统发生或变异。许多的HIV序列是用来作为种群研究的,通常系统发生的研究包括RUBISCO15二磷酸核酮糖羧化酶),它是光合作用的主要酶,也许是地球上最普遍的蛋白质(重量方面)。提交这样一套序列并不比提交单个序列复杂多少,输入作者和联系人的信息具有相同的表格。

在序列格式表格中,选择所要提交的类型。种群研究一般来自于同种(交叉繁殖)物种的不同个体,系统发生是来自于不同的物种。对于前一种情况,最好下定义行加上品系、克隆、隔离或其余的一些种类识别的信息;对于后一种情况,要用生物体的科学名称。复杂序列的研究可以用FASTA形式,在这种情况下,Sequin后来应该用于计算一个比对。更好的方法是在PHYLIPNEXUSFASTA+GAP形式中对数据编码以表示比对信息。在序列格式表格中也可选择这些数据形式。

生物体和序列表格在序列种类上有一点不同,生物体页面上对于系统发生的研究设置默认的遗传密码,仅用于生物体,不能用于Sequin中种群的局部列表。核酸页只在引入按钮的名称上有所不同,这反映了选用的实际格式(例如“引入FASTA”或“引入PHYLIP”)。

现在代替蛋白质页的是一个注解页(图14.19)。许多提交是属于rRNA序列或只是一条完整的CDS。(这意味着特征间隔跨越了每条序列的整个范围。)注解页允许建立和为以上这些命名。指定一个定义行(标题),并且Sequin 可将单个的生物体名置于标题前缀。在更加复杂的情况下,序列在整个横跨区中有不止一个单独的区间特征,可以在序列建立且其中的一条已作了注解后,通过特征拷贝来完成注解,这将在下文详述。

按下一张表(Next Form)出现编辑器,允许在每条序列上编辑所有的生物体和修改器。直到确认修改,Sequin将记录组织成正确的结构。

当查看器出现时,目标控制被设置为该集的第一个元素。设置目标为所有序列(ALL SEQUENCES)将产生一个所有序列的简单文件视图。然而图形视图在同一时间只能显示一条序列上的特征。并且序列视图将在单独的碱基水平上比较序列。

 

14.19

 

14.19 对于种群、系统发生或变异研究,注解页替代了蛋白质页,最一般的提交是一条CDS或多个来源的rRNA。当所有的CDS或间隔扩展到这个序列时,Sequin可以自动生成这些特征的注解。输入对于CDS特征或RNA名或rRNA特征的蛋白质产物的名称,基因符号,关于每个CDSrRNA特征的注解,以及每条序列的标题。在每条记录标题的前面可以加上生物体的名称。这将为每条记录制作正确的定义行。

通过特征传播进行注解

假定提交几种乙醇脱氢酶基因组区域,同时传送一个比对,表明了提交者对于它们之间的关系的判断。序列包括5’和3’未翻译的区域以及乙醇脱氢酶外显子和内含子。假设由第一个核苷酸编码的蛋白质序列也是可获得的,下面使用特征传播来注解研究中的所有序列。

首先,定位第一条序列。然后从编码区和注解菜单的副本子菜单选择CdRgn。进入产物子页(在编码区页中);并且输入蛋白序列文件(在文件菜单中引入蛋白质FASTA)。如果在定义行上蛋白质和基因名没有被注解,那么在蛋白质子页和属性子页的一般页中分别输入其注解。引入序列自动运行建议间隔,因此现在位置页在第一个核苷酸上应该有三个间隔,并且BioSource应该已设置了那个核苷酸上的遗传密码。按下接受(Accept)完成特征的添加。

定位所有的序列(ALL SEQUENCES),从编辑菜单选择编辑比对打开比对编辑器,并从特征菜单选择传播。在第一个框中选择CDS特征。最后,按下传播按钮(要看记录结构的变化过程,在这几步中将NCBI桌面打开。)

使用Sequin作为工作台

NCBI桌面(图14.20)允许在一个记录中拖放项目。在一个记录中点击向上的箭头将扩展显示的细节的层次。如果你从一个记录拖动其某个特征到桌面,它将被从记录中除掉。但它保留在桌面上。它也可拖回记录中去,并可能到另一个不同的地方。(特征可以被拖到bioseqsBioseqs集,或存在的特征表,然而这并不改变特征位置。对于描述器来说却有所不同,改变打包的层次将改变描述器应用的范围。并且在桌面上的一个独立的Seq-loc能被拖动到特征上,在此情况下,它确实改变了特征的位置。)

 

14.20

 

14.20 NCBI桌面用图形的方式显示了基于NCBI数据模型,记录在内存里的结构。这对于生物学家来说用处不大,但对于软件开发人员和数据库序列注解者甚为有用。在本例中,提交包括了一个单独的Nuc-prot集,该集顺序包括了一个核苷酸链和两条蛋白质链。每条序列都有特征联系在一起。BioSource和关于Nuc-prot的出版描述对于所有的序列都提供了同样的生物体(Drsophia melanogaster)和同样的文献。

其它ASN.1的数据可以从桌面的打开菜单读取。下面的子菜单包括ASN.1文本格式、ASN.1二进制格式和FASTA格式的核苷酸和蛋白质序列。这些在桌面上将以分离的实体的形式出现。但是它们应用于拖放方式或使用桌面上的过滤功能进行分析很合适。例如,从PowerBLAST进行的Seq-align输出可被读进来并拖放到一个序列记录上去。(当Sequin配置为网络连接时,PowerBlast可以在Sequin内部运行。参见如下)。就象观察者想到的一样,其将成为记录的一部分。因此任何可以输出ASN.1格式的程序��例如从一个基因查找程序得到的基因特征��能够用Sequin读取其结果并由用户将其添加到序列中去,并且分析程序不需要理解数据模型或如何包装其结果。

一个复杂记录的爆炸视图,描述了在桌面上将会看到的内容,如图14.21所示。在这个例子中,系统发生的研究包括五个部分,每部分是一个Nuc-prot集。在Phy集中有两个描述器(建立日期和文献)它们应用于所有的部分,第一个Nuc-pot集是“放大”显示更多的细节:它包含了核苷酸和蛋白质biosoqs,还有一个BioSource描述器在这二者上都有应用。(系统发生的其它部分将有不同生物体的BioSources

两种bioseqs都是“原始”类型,意味者实际的序列数据在bioseq中编码(“片段的”bioseqs包含了指向实际原始片段的序列指示符。这就是Entrez基因组部分建立的方法;参见第6章),核苷酸bioseq有一个Molleo描述器,说明测序的分子是基因组分子[mRNAcDNA,)或tRNA,rRNA相反]。蛋白质bioseqMollnfo是一个肽段,并且是作者提供的概念性的翻译[与通过Edman降解法或其它方法直接测序不同]

在桌面视图上的特征显示了一个文本标签和关于特征位置和可选产物的信息。例如,CDS特征位置指向核苷酸bioseq上的间隔。其产物指向了整个蛋白质。bioseq.文本标签(“乙醇脱氢酶”)实际上来自于蛋白质bioseq上的蛋白质特征。(GenBank上的简单文件视图作同一类型的映射,CDS将蛋白质特征的名字作为它的产物的限定词,以及蛋白质bioseq的序列数据为其翻译限定词。)

想要熟悉NCBI数据模型的人将会发现用NCBI桌面观察不同类型的记录是了解bioseqs的好方法,也是发现包装多种多样的描述器的层次的好途径,还能知道其层次的工作方式。但是对于高级用户来说,很快可以发现数据中没有什么神秘的东西。

 

14.21

 

14.21系统发生的桌面视图。在这个复合的图表里,一个系统发生发生包括几个Nuc-prot集并且给所有的部件应用了同样的文献,Nuc-prot中的一个更详细地扩展开来。其中包括了一个果蝇黑素的BioSource,这是一个包括了基因、mRNA/CDS特征的核苷酸序列和一个蛋白质序列,带有一个蛋白质特征说明了该蛋白质产物的名称。

具有网络连接的Sequin

当配置为网络连接时,Sequin包括PowerBLAST, 网络Entrez,可实现MEDL/PubMed查找的能力,以及分类学查找的功能。从查找菜单选择PowerBLAST,将出现一个对话框,提供选择运行BLASTN或具有核苷酸比对的BLASTX;另外,还可以选择搜索nr数据库或几个子数据库,包括est和载体,其结果自动添加到序列记录中,并将在摘要、图表、比对和序列视图中出现。

在这些视图之一的比对上双击将从Entrez网络服务中获取相关的序列记录,在结果观察窗的底部是近邻和链接控制。因此若一个用户对某疾病基因进行了测序,并在Sequin内运行PowerBLAST,他将立即看到数据库“选中”,而且只需一步就可以得到讨论该生物学问题的MEDLINE文献,同时还有该记录的邻近记录,然后将其发送到Entrez查询窗口(通过Refine按钮),在那里,例如可通过选择或排除某分类目录来缩小查询范围。

为了配置网络应用,从Misu菜单选择网络配置(Net Configure)。如果使用了防火墙的话选中“只有往外去的链接”检查框。通常来说,除非网络有暂时性的问题,“在配置过程中测试链接”检查框应被选中。

在本书编写的过程中,在Sequin中加入了无数的扩充。紧跟最新发展的最好方法是(例如:新版本的Sequin;排除了bug)访问Sequin的主页和注册为Sequin的用户。Sequin的主页同样包括了最新更新的信息和完全的文档以及常见问题列表。

EST/STS/GSS

表达的序列标签(ESTs)是一些短的RNA序列,它们是克隆mRNA序列鉴定计划的结果(更广泛的定义参见词汇表)。虽然这些序列代表了大量的现存的核苷酸数据库的内容,但从数据库的观点来看,ESTs只包含了提交过程的一小部分投资。只有这个过程的自动化使处理ESTs成为可能。因为EST文件的提交格式简单,使其很便于快速处理,而且可以达到每天数千个提交进入数据库的量级。ESTs通常大量生成,并且代表了在GenBank版本102中的超过三分之二的记录。仅仅因为其数目巨大,许多核苷酸数据库被迫为其提交和该形式记录的处理设计了新的系统。幸运的是这些记录的结构相当简单,而且除了序列本身以外,在提交过程中只有几种重要的数据类型需要合并进来,包括关于图书馆的信息(包括BioSource),以及引用信息。另外,为了提交可能知道的关于某个特定的EST的图谱信息,数据库为图谱组发展了一种简单的方法。该信息的简单结构使其非常符合关系型数据库模型,由其可以调出简单的数据项进而由其生成各种报告,在最简单的情况下提交者只需提交一个文献信息文件,一个联系信息文件和一个库信息文件。它们可以和数以百计(或数以千计)的EST文件一起发送(参见图14.22),其中包括将每个序列链接到其它类型合适文件的标签。这些文件通常由定制的程序创建,确保在不同的记录间该信息是不变的。然后这些文件通过e-mail的方式提交(如果其数目在百的量级上),或借助于FTP(如果其数目在千的量级上),提交记录所需的数据库当前的地址和联系信息参见本章末的列表。

这个提交模型是如此成功以致于为序列标签位置(STS),和基因鉴定序列(GSS)数据库提交过程所借用,在这里同样使用了具有几个变量的简单文件格式。关于如果提交这些记录的更详尽的信息参见它们各自的网页。

 

14.22

 

14.22 EST提交。提交ESTs (STSGSS记录)需要生成一些简单文件, GenBankdbEST数据库工作人员用它们来创建记录。单独的联系信息、发表信息、一个或多个数据库信息文件将和大量序列文件连接起来生成许多完全的EST记录。所有这些文件开始的一行是TYPE,最后用 || 作为一行结束。

 

基因组中心

专门研究大段DNA(每年几十万到几百万的碱基对)的中心有其自己的信息处理系统,他们不仅设计了自己的数据库系统,并且他们的程序员维护软件和数据库以明了各种各样的测序计划,而且他们将组织此信息以允许跟踪其集合,性能跟随,和早期发现问题。基因中心将他们的结果格式化为多种形式,通常包括WWW网页,将他们生产的信息直接对社区全部开放或只面向他们的顾客。如果这些基因中心希望他们的序列可被公共数据库得到,那么他们与这些数据库之一联系以确保正确的数据交换。这三个数据库( DDBJEBI,和NCBI)具有与这些不同的基因中心打交道的经验以确保及时有效率的信息交换(尽可能的快)。这包括自动数据交换的设置,特殊FTP帐户的建立以便于以一种准确、方便的方式进行数据交换,以及生成工具确保以最有用的方式进行数据交换。在NCBI,为所有向该组织提交数据的基因测序中心建立了FTP帐户。还有设计了各种各样的工具用来加速提交高吞吐量的基因序列(HTGS)。在GenBank的两个分部可以找到这些HTGS记录,查询结果依赖于它们的完成情况(参见第二章)。未完成的记录(第1段或第2段)在GenBankHTG分部,而完成的记录(第3段)在它们所属的分类学分部里。在它们整个的存在过程中,HTGS记录拥有一致的DDBJ/EMBL/GenBank确认号码。NCBI设计的一种用来建立这些记录的工具是fa2htgs,这是一个命令行程序,可以很容易地编写脚本,并允许用户从FASTA文件和一个Sequin模板生成HTGS提交。就象其它所有的NCBI产品,该程序对于大多数计算机平台都是可使用的。

高吞吐量的基因组测序也意味者序列使用方式的改变。这就是由这些中心生成的序列由HTG关按钮字标识的原因,目的是使用户在他们的分析中有选择的使用这些数据,或者简单地注意到其来源。如此标记的数据不应和未完成的记录相混淆,后者不仅有HTG关按钮字,而且在GenBankHTG分部中。这在第2章中由OuelletteBoguski1997)更详尽地予以检验。基因组中心愿意与之合作的数据库应该通过最新的指南和工具确保对于HTG数据的合适的处理。

更新

更新DDBJ/EMBL/GenBank记录可能是强加给每个科学家的最没有报酬的任务之一,这项工作没有什么刺激性,也没有什么科学荣誉,而且它很少受到注意。然而,这项工作是完成提交过程后最重要的步骤之一,它确保了在记录中的信息仍然是正确的。更新记录的最重要的方面是通知数据库与该记录联系的引用的文献的发表。这将允许数据库工作人员更新数据库中的引用,进而允许将其链接到合适的参考数目上去,(参见第5章),然后记录可以链接到大量的相关引用上,以及使用Entrez可得到的知识范围。

信息的另一个重要方面是在记录中提到的每种蛋白质和基因的正确名称;同样,此处的一个更新允许在信息和数据库中可比较的材料之间建立合适的链接。数据库给出了更新记录的e-mail地址和WWW地址,而且Sequin也可用来执行此项任务,Sequin设计用来更新已存在于数据库中的序列记录,要下载已存在的记录,必需将Sequin配置为具有网络连接(网络连接菜单项包括了设置此连接的对话框)。然后待Sequin重新启动后,“从Entrez下载”(Download from Entrez)的按钮(图14.7)将在开始窗口中出现,这允许输入一个加入号码并直接从ID数据库中获取(参见第6章)。通过更新引用(可通过MEDLINEPubMed 查找器获得)或增加特征来编辑记录,或利用序列编辑器加入新的序列,在后一种情况下,采用更新功能可能比直接将其贴到序列编辑器中更加方便。加入了新的更新特征,并且建议Sequin用户访问SequinWWW站点以确保他们获得了最新的版本。

这三个数据库的工作人员都欢迎使更新过程尽可能地有效和无痛苦。也强烈建议那些注意到记录已发表却还没有公开的人们通知数据库。如果有人检查到错误,同样应该传送到更新地址,据此数据库工作人员通知记录的所有者,并且通常导致结果的改正。这条事件链可以同第三方注解分别开来,该方式目前并不被数据库所接受。记录属于提交者,数据库工作人员提供了一些帮助,格式化指南建议,但是实质性的改变只能是来自于列表中的提交者。

结论性的评价

将序列提交到数据库和看着它们公开发布对于部分提交者来说通常是一种自豪的经历,这是他们所在的实验室的一段科学活动,提交者通过参与实验室的工作而出现在科学团体里,这也是在出版过程中由出版者施加的影响的一步。在此过程中,提交者通常希望以最完全和有用的方式提供信息,允许他们的数据获得科学团体的最大程度的利用。

极少的使用者注意到数据库中表现出来的错综复杂的完全排列,但是他们确实知道他们所提供的生物学内容。提供便利这一过程的工具已成为数据库的任务。数据库工作人员也提供关于其索引的专家(某些数据库也将其称为监护人或注解者),他们在生物学方面有广泛的训练并且非常熟悉数据库,确保在提交过程中不遗漏任何东西。提交过程本身并不是一直都这样简单的,甚至在测序初期并不被鼓励,这只是由于数据库不知道如何处理这种信息。然而,现在数据库强烈地建议序列数据的提交和所有合理的更新。出现了许多工具便利完成这个任务,同时除它们各自的WWW提交工具以外,数据库也支持Sequin为新的提交工具,现在提交数据到数据库变成了一种令人愉快的享受,并且科学家不再有忽视它的好借口了。

致谢:

Sequin建立的基础是NCBI的软件工具箱,相当多的人对此作出了贡献;应特别提及NCBI的几位工作者,因为他们的工作对于Sequin的成功具有决定性的作用。除了我们中的一员(JAK),还包括Colombe Chappey, Jinghui ZhangTatiana TatusovJimOstell,和 Greg Schuler。建议间隔程序由Pennsylvania 州大学的Webb Miller编写,Warren Gish(现在在华盛顿大学) Karl SirotkinNCBI)和Yuri Sadykov(现在在Netscape)修改。BankIt提交表格由David Lipman设计,并由Brandon Brylawski,Sergei Shavirin,和Tatiana Tatusov实现。

在第14章提及的通讯资源:互联网和通信地址;电话和传真号码

DDBJ/EMBLGenBank的一般联系信息以及提交DNA序列到这些数据库的入口。

DDBJ(信息生物学中心,NIG

地址:DDBJ1111 Yata MishimaShiznoka 411Japan

传真:81-559-81-6849

E-mail

提交: ddbjsub@ddbj.nig.ac.jp

更新: ddbjupd@ddbj.nig.ac.jp

信息: ddbj@ddbj.nig.ac.jp

互联网

主页:http://www.ddbj.nig.ac.jp/

提交:http://sakura.ddbj.nig.ac.jp/

EMBL(欧洲生物信息协会,EMBL分部)

地址:EMBL Outstation, EBI, Wellcome Trust Genome Campus, Hinxton Cambridge, CB 10 1SD, United Kingdom

电话:01.22.349.44.44

传真:01.22.349.44.68

E-mail

提交: datasubs@ebi.ac.uk

更新: update@ebi.ac.uk

信息: datalib@ebi.ac.uk

互联网

主页:http://www.ebi.ac.uk/

提交:http://www.ebi.ac.uk/subs/allsubs.html

WebInhttp://www.ebi.ac.uk/submission/webin.html

GenBank(国家生物技术信息中心,NIH

地址:Gen Bank National Center for Biotechnology Information, Nationtional Library of Medicine, National Institutes of Health, Building 38A, Room 8N805, Bethesda MD 20894

电话:301-496-2475

传真:301-480-9241

E-mail

提交: gb-sub@ncbi.nlm.nih.gov

EST/GSS/STS batch-sub@ncbi.nlm.nih.gov

更新: update@ncbi.nlm.nih.gov

信息: datalib@ebi.ac.uk

互联网

主页:http://www.ncbi.nlm.nih.gov/

提交:http://www.ncbi.nlm.nih.gov/Web/GenBank/submit.html

BankIt: http://www.ncbi.nlm.nih.gov/Web/BankIt/

其它资源,按照它们在本章中出现的顺序列出如下:

分类学浏览器: http://www.ncbi.nlm.nih.gov/Taxonomy/tax.html

DNA序列数据库中使用的遗传密码:

http://www.ncbi.nlm.nih.gov/htbin-post/Taxonomy/wprintgc?mode=c

寻找ORF:链接到BLAST页上的读框架寻找器

http://ncbi.nlm.nih.gov/gorf/gorg.html

DDBJ/EMBL/GenBank特征表文档可用WWW方式获得或者从EBINCBIFTP服务器上得到PostScript文件。

http://www.ncbi.nlm.nih.gov/collab/FT/

http://www.ebi.ac.uk/ebi_docs/embl_db/ft/feature_table.html

ftp://ncbi.nlm.nih.gov/genbank/docs/

ftp://ftp.ebi.ac.uk/pub/databases/embl/doc/

EMBLGenBank数据库的版本信息

EMBL ftp://ftp.ebi.ac.uk/pub/databases/embl/release/relnotes.doc

GenBank ftp://ncbi.nlm.nih.gov/genbank/gbrel.txt

Sequin: DNA序列数据库的提交和更新工具

http://www.ncbi.nlm.nih.gov/Sequin

EST, STSGTS主页,获取信息和向这些特定GenBank数据库提交序列

EST http://www.ncbi.nlm.nih.gov/dbEST

STS http://www.ncbi.nlm.nih.gov/dbSTS

GSS http://www.ncbi.nlm.nih.gov/dbGSS

HTGS主页:高吞吐量基因组序列资源,工具和信息

http://www.ncbi.nlm.nih.gov/HTGS

参考文献:

Boguski, M. S. , Lowe, T. M. , Tolstoshev, C. M. (1993). dbESTdatebase for "expressed sequence tags". Nat. Genet. 4:332-333

Ouellette, B. F. F. , and Boguski, M. S. 1997. Database Divisions and Homology Search Files: A Guide for the Perplexed. Genome Res. 7, 952-955

 

上一页
下一页
返回目录
返回茶庄