第五章 生物数据库的信息检索
Andreas D Baxevanis
国家人类基因组研究学会,基因组技术部
国家保健学会
马里兰州,Bethesda
如第二章所述,建立GenBank是为了适应人类基应组工程等科学研究产生的大量序列数据的信息爆炸。总的来说,GenBank是带有注释的公用DNA,蛋白质序列的集合。写作本书时,GenBank中有160万条链的纪录,含超过10亿个核苷酸碱基。向GenBank存入新的序列有两种方法:通过Sequin和BankIt等工具直接提交,或通过国际核苷酸序列数据库的组成部分GenBank,EMBL,和DDBJ等相互之间传递数据的共享协议。关于提交工具及这种数据协作的性质的进一步的信息参见第14章。
GenBank或其他任何有关的生物数据库必须容易查找而且查出的记录的格式便于使用??,否则就不会有很大的用处。??另外,因为总的来说生物学界还不能有效的利用隐藏在这些上百万的碱基及氨基酸之中的信息,排序的工作也没有很大的用处。为了使这些数据对于一般的使用者容易利用而做过很多努力,这些工作的结果--程序和界面是本章的重点。因为这些更通用的数据库与生物学家通常使用的那些数据库相差很远,所以本章的论述集中在如何查询NCBI数据库上,但是本章同时也注意到一些较小的较专门的数据库,它们提供的信息在GenBank中未必能找到。
检索数据库记录:检索服务器
查询NCBI数据库最简单的方法可能是使用名为Retrieve的邮件服务器。检索服务器通过简单的关键字搜索来查询记录。一次可以检索一个可用的数据库,可以是简单的(只含有一个关键字〕或复合的(含有由逻辑算符组合的多个关键字)。服务器的地址为retrieve@ncbi.nlm.nih.gov。同大多数邮件服务器一样,如果向服务器发送一封正文只含一个单词Help的邮件将会返回一个关于如何使用检索服务器的详尽的解释。
回顾第一章,使用一个邮件服务器时,向服务器发送的消息必须是严格的符合服务器可以理解的指令格式。如下例所示:
此处,消息的标题与服务器无关。由于返回查询结果时将会带有原来的标题,因此发送多条消息给服务器的时候加上一个描述性的标题有助于使用者区分不同的查询结果。消息正文以名为DATALIB的查询参数开始,该参数表示应检索那一个可用的数据库(这里是查询SWISS-PROT)。标志“BEGIN”表示没有别的检索参数了,紧接着的词都是搜索条件。可以用逻辑符号AND,OR,及NOT组合检索条件;圆括用于分隔检索条件;引号表示必须组合在一起的短语。本例中,服务器将会返回所有含有短语"histone H1"且含有单词Saccharomyces及Schizosaccharomyces之一的记录。如果不用逻辑运算符及分隔符(即,检索条件为histone H1 Saccharomyces Schizosaccharomyces〕,则在条件之间将会自动加上OR,这不符合使用者的要求。这个复合查询的结果显示于图5.1。
通常,提交的检索范围过大,返回的记录数远多于对查询者有用的数目。例如,前面的检索如果没写种类名的话将会失败,因为含有"histone H1"的记录太多。况且,即使这条短语并不是某条记录的真正主题,它也有可能出现在该记录之中:例如,这个短语是某篇论文的标题的一部分,但论文是讨论别的序列的。当查到的记录太多无法处理的时候,将会产生错误。输出行数及检索到的记录数都有上限;这主要是由于很多电子邮件系统不能处理太大的电子邮件信息,而且过多的泛泛的查询只会降低系统的速度。为了提高检索质量,用户可以设定额外的检索参数;用于改变行数或记录数的限制,或只返回记录的标题而不是全部列出。用户也可以限制实际检索的域。回到上面的例子,如果检索条件以"histone H1"[DEF]开始,则表示仅在记录的定义行中查找这个短语。可以在检索帮助文档中找到检索参数和域限制条件的完整的清单,以及可以检索的数据库的列表.
图5.1 提交检索服务器的一个复合查询的结果。注意检索在SWISS-PROT和更新过的SWISS-PROT上运行共两次(后者含有上一个数据库主版本之后的新的记录)。此处提交的查询只返回了一条记录。
集成信息检索:ENTREZ系统
检索服务器可以对有目标的检索记录,但它主要的缺陷在于一次只能从一个数据库中检索到记录;想对一批数据库进行检索的用户必须为每一个目标数据库分别发出一次申请。很明显,这些大量的公用数据库之间存在着逻辑联系。例如,MEDLINE中的一篇论文可能描述一个基因的序列,该基因又在GenBank中出现。其核苷酸序列所编码的蛋白质的序列又存放在蛋白质数据库中。这种蛋白质的三维结构可能又是已知的,结构的数据可能出现在结构数据库中。最后,基因可能定位在某条染色体的某个区域,这类信息存放在图谱数据库中。
在这些生物学上的联系的基础上开发了一种方法;可以通过它查询所有与某一特殊的生物学实体有关的所有信息,而不必按次序查询分立的数据库。这就是一个名为Entrez的分子检索系统。它由NCBI开发和维护,Entrez在所有的主要的数据库计算机平台上均可使用,允许对PubMed(MEDINE)的记录,核苷酸和蛋白质的序列数据,三维结构信息,图谱信息进行集成的访问。全部信息只需经过一次查询。Entrez能够通过数据库之间的两种类型联系:相近性和硬连接来提供集成的信息检索。
相近性
相近性联系着一个给定的数据库之内的记录。使用者在查看MEDLINE中某条记录时可以要求Entrez"找出所有类似的论文",类似的,使用者在查看一个序列的同时可以要求Entrez"找出所有与这个序列类似的序列"。一个数据库之内的相近性关系是建立在对相似性的统计计算上的:
BLAST 序列数据可以用基本局部对比搜索工具(Basic Local Alignment Search Tool,即BLAST)相互比较。这个算法试图找到"高度匹配的片段对"(high-scoring segment pairs,简记为HSPs),即能够无缺口的对齐且达到一定的分数的成对的序列。第7章详细的讨论了BLAST算法系列及它们的应用。
VAST 几套坐标数据之间的比较采用一种名为VAST的基于向量的算法。VAST即Vector Alignment Search Tool(Madej等,1995;Gibrat等,1996)。VAST的比较有三个步骤:
1.第一,在坐标数据的基础上,标出所有的构成蛋白质的核心部分的α螺旋和β片层。然后根据这些二级结构单位的位置计算向量。以下的步骤使用这些向量来做对比而不是整个一套坐标。
2.然后,算法试图最佳的匹配这些向量,寻找类型和相对方位相同的成对的结构单位,并且在这些单位之间还要有同样的连接方式。其目标在于识别高度相似的"核心结构",这些成对结构的匹配性要比随机的选择蛋白质相互比较得到的高得多。
3.最后,在每个残基位置上使用蒙特-卡洛方法对结构的排列进行优化。
使用这个方法有可能找到一些序列相似性不明显的蛋白质之间的结构上的关系(可能在功能上也有关系)。最后的对齐结果不一定是全局的,可能在不同的蛋白质的单独的结构域之间配对。
需要重点注意的是VAST不是确定结构相似性的最好办法,因为还可以利用三维坐标文件中的其它信息来做更进一步的修正,如考虑侧链的位置及侧链之间的相互作用的热力学特点。而把结构压缩成一列矢量必然会导致信息的丢失。然而,考虑到这个问题的数量级-即需要做的成对比较的次数-及采用更高级的方法所需要的计算能力和时间,VAST至少为结构相似性问题提供了一个简单和快速的答案。关于别的基于X射线或NMR坐标数据的结构预测方法可以参见第11章。
加权的关键词 序列数据对比问题与MEDLINE记录的对比相比较还是容易一点,MEDLINE的记录是自由书写的文本,语法上不固定。Entrez使用了名为"相关配对模式检索"的方法来做这种对比,该方法依靠的基础是加权关键词(Wilbur和Caffee,1994;Wilbur和Yang 1996),这个概念用具体的例子来描述比较合适。考虑具有下面两个标题的两篇文稿:
这两个标题含有公共词BRCAI,Breast,和Cancer,这些公共词的存在显示这些文稿的主题可能是相似的。同时也考虑单词之间的距离,对两条记录中的公共词距离较近的给予较高的分数,分开较远的给予较低的分数。在这个例子中,对词Breast和Cancer将给予较高的分数,因为这两个词是相邻的,比它们之中的任何一个与BRCAI之间的距离短。标题中找到的公共的词比摘要中的公共词得分高,因为一般认为标题的词比摘要中的词"更重要"。一个词的总的权重取决于它在MEDLINE中的所有记录中出现的频率,在数据库中总的来说出现较少的词得到较高的权重。
如果不算相近关系所基于的那些方法,实际确定和利用这些关系的能力是基于所有这些分支数据库的数据的底层格式。这种格式称为抽象语法形式(Abstract Syntax Notation,即ASNI),所有类似的域(如引用书目)可以以完全一样的方式在这种格式中结构化,而不管这条记录是在蛋白质数据库,核酸数据库或其它数据库之中。NCBI的这种数据模式将在第6章中深入的讨论。
硬连接
硬连接的概念比相近性的概念更容易接受。硬连接用于联系不同的数据库中的记录,只要这些记录之间存在逻辑联系,就存在硬连接。举例来说,如果一条MEDLINE记录是关于??装配型质粒的,那么在这条记录和对应的核酸记录之间就建立一条硬连接。如果这个装配型质粒??上的一个开放阅读框架编码某种已知的蛋白质,那么在核酸记录和蛋白质记录之间就建立一条硬连接。如果这种蛋白质恰好已经有实验测出了它的结构,那么在这条蛋白质记录和结构记录之间也会建立一条硬连接。
相近性和硬连接的关系可以用图5.2来解释。每个分支数据库(MEDLINE,蛋白质,核酸,结构及基因)用一个五角形表示。从每个五角形引出又回到自身的曲线表示相近性关系,根据相近性关系可以在同一数据库内寻找相关的记录。图的中心从五角形到五角形的直线连接代表硬连接关系。根据硬连接关系可以在几个数据库之间寻找相关记录。使用者通过合理的使用这两种类型的关系可以只进行一次查询就可以获取多得不可思议的信息,比对单个的数据库分别进行查询所花的时间少得多。
## 图5.2 Entrez集成信息查询相同中的关系的示意图。每个五角形表示一个数据库;每个五角形上指向自身的曲线代表相近性关系,图的中心的直线表示硬连接。
搜索的入口点
如图5.2所指出的,基本上可以从任何地方开始使用Entrz系统搜索-使用者不必考虑从何处进入信息的空间。然而,选取不同的数据库作为搜索的起点就会有不同的域可以用于搜索。这显然是由于不同类型的数据库中的记录必须有不同的组织方式,以反映了它们所编目的实体的生物学特点。表5.1列出了每个Entrez系统中的数据库可以用于搜索的域。
实现
不考虑平台的差异,Entrez的搜索可以用两种界面进行。第一种称为Network Entrez,是用客户-服务器方式实现的。这是Entrez程序中最快的,它直接连接到一个NCBI的"发送者"。其图形用户界面的特点是一套窗口。由于客户软件存于用户的计算机上,需要用户去获取,安装和维护软件,软件加入了新的特征时可以下载更新的部分。安装的过程相当简单。
第二种实现方法是在环球网上,称为WWW Entrez或者Web Entrez。可以利用各种可用的网页浏览器,例如Internet explorer或Netscape,它们把搜索结果传回桌面上。使用网络浏览器的用户不必再确认是否安装了最新的Entrez版本-只要浏览器是较新的版本,查询的结果总是通过最新的Entrez版本得到的。Web版还有另外一项用处,上述所有的相近性关系和硬连接关系都可以用超文本表示,用户可以通过点击记录上的特定的词来浏览。
用网页实现比网络版进步的地方在于网页可以有连接到外部数据源的能力。如由某个杂志或出版社维护的论文的全文版本,或某些本来不是Entrez组成部分的专门的数据库。网络版的速度上的优势同时导致了这方面的限制,直接连接到NCBI发送者意味着用户一旦连接到NCBI就不能再转移到别的任何地方。这两种方法的另一个主要区别在于表达方式上,网络版用一套窗口而网页版用一系列的网页,服从标准的网页规范。选择哪一种是用户的爱好问题,两种方法在Entrez的搜索空间中得到的一样的结果。
Entrez的查询方法:举例
##
图5.3 从MEDLINE开始作entrez查询,使用网页版的Entrez版本(http://www.ncbi.nlm.nih.gov/entrez)。详细说明参见正文。
为了解释前面的Entrez系统的集成特性并且把相近性联系的特性讲透彻,最好的方法是考虑一个生物学的实例。此处使用Web版的Entrez界面。从NCBI网址上的Entrez主页开始,用户可以选择组成Entrez系统的五个数据库之一作为查询的起点。此处查询从MEDLINE开始。PubMed的查询主页显示于图5.3,此页上的表格要求进行两项选择然后提交查询。首先用户必须选择查询域,把搜索范围限制在数据库入口的一个特定的域上(例如,生物学分类或标题)。其次,用户必须选择一种查询模式,指定客户和服务器的交互方法。如果是Automatic模式,服务器会自动的查看搜索框中输入的词条,在数据库中查找符合得最好的词条。显然Automatic模式和List Terms模式常常返回同样的结果,但由于在开始查询的时候记录的可能的索引方式用户可能还不太清楚,建议使用List Terms模式。
假设用户要检索关于hiv 1的摘要。使用Entrez查询窗口,在查询框中输入hiv 1,选定Text Words为检索域(即在标题和摘要中查找HIV 1的出现),选择List Terms为查询模式。(当然也可以用Organism作为检索域;使用两种不同的方法进行检索并观察输出的不同对用户来说是一个很好的练习。)检索命中后会打开一个新的网页(图5.4)。这一页包含一个词条选择窗口,用户可以浏览与原来的词条(HIV 1)最接近的词条。注意选择窗口在HIV 1后面还显示了很多略有区别的其它条目。如果用户选择的是Automatic模式,就会忽略这些额外的条目,这样可能忽略了重要的信息。采用List Terms模式,就可以使用户看到原来的检索词的各种变种。
##图5.4 在MEDLINE数据库上进行Entrez检索查的所有条目。详细说明参见正文。
到这一步还没有实际检索到记录。要检索记录用户要先在词条选择框中点击需要的词条(此处为hiv 1)然后点击Select按钮。随后打开的网页的上部显示了现在检索的状态和查到的记录数(图5.5)。执行上面所述的查询返回了17,943条记录,数量太大了,任何人都无法完全过滤一遍。因此有必要进行修正以减少返回的摘要的数量。如果用户对HIV 1的杂二聚体??的折叠感兴趣,可以用heterodimers和folding作为附加的检索词,重复上面的步骤。虽然每个单独的词都能检索到成千上万条记录,它们的组合只查到6条记录(图5.6)。在Entrez系统中,缺省的逻辑算符是AND,在检索词下方的修正窗口中可以看到。
为了看到实际的检索结果,用户应点击标记为Retrieve 6 Documents的那个按钮;随后会打开新的窗口(图5.7)。窗口中每一条记录有下面几个部分:检查框,第一作者的名字,出版年份,标题,引用信息。选中窗口底部的Jacoco-Molina 1993年的记录;点击作者名字打开另一个窗口,这个窗口包括引用信息,论文名称,所有作者列表,来源及摘要,以标准的引用格式书写。
图5.7所示的页面上,在Display按钮后面的下拉菜单中可以选择一些别的格式。切换到Absttract格式将得到起来非常相似的记录。差别在于在摘要后面显示了一些分类信息如MeSH条目以及与这条记录有关的编有索引的材料。使用MEDLINE格式将打开MEDLINE/MEDLIARS页面,记录的左边有每个域都对应的两个字母的代码(如作者域的代码为AU)。这种格式的记录可以存储而且能容易的输入到第三方的目录管理程序,例如EndNote和Reference Manager。
在图5.8的上端是一排连接按钮。这是用户可以进一步查看刚才讲过的相近性和硬连接关系的入口点。如果用户点击Related Articles按钮,Entrez会显示出有133条与Jacobo-Molina这条记录相关的记录-即有133条具有相似的主题的记录。-这些论文的前20篇显示在图5.9的一个新的列表中。第一篇是原来的那篇关于HIV 1反转录酶的晶体结构的论文。这一篇称为原记录,它显示在列表的上端,相近的记录列在后。这些相近记录的排列是按照相似程度降序排列的。因此最靠近原记录的被认为是与原记录最接近的。浏览一下标题用户就可以很容易的找到与HIV 1的蛋白质有关的结构和功能研究的有关信息,可以很快的得到相关索引的目录。当用户在写论文的时候这种功能尤为有用而且节省时间。因为用户在到图书馆的书架中去寻找之前就可以浏览摘要并选定真正感兴趣的论文。
从这个新的论文列表中,用户可以通过使用列表中每一项旁边的检查框来找到硬连接的记录。仍然用这个例子,将Display按钮后面的下拉菜单选为Proteins links然后点击Display按钮,将会从蛋白质数据库中找到与本页这条MEDLINE记录有关的19条记录并列表;图5.10显示了其中的6条。这一页的格式与已经在MEDLINE中见过的那些格式相同,区别在于每条记录后面有一些超链接对应可用的其它格式或对应相近和有硬连接的记录。有用的格式之一是FASTA,它提供了一种格式可以输入到大多数序列分析程序中去。点击相近蛋白质的超链接所得到的输出大体上是对这个蛋白质序列用BLAST搜索的结果。用户可以以相似的步骤访问核酸数据库。
这次查询得到的蛋白质记录的列表中有IHIV-A和IHIV_B的记录,是一种HIV-1反转录酶在一个点发生突变的突变体(Cys280→Ser)。点击Graphic View连接将打开一个图形方式的视图,看到这条记录的特征表中的所有信息。这个蛋白质有大量的二级结构单元,用这种类型的视图可以很容易的准确的整理出沿着蛋白质链有那些二级结构单元。如果点击标有1 Structure Link的超链接,将打开一个结构一览页面(5.12)。这一页显示的细节是从源PDB文档的标题开始,还有三字母格式的原始结构,到其它信息的链接,如VAST相近记录的列表。如果点击"View/Save:IHIV"下面的View按钮,则将调用Cn3D软件,打开新的窗口显示结构透视图。有些用户对于蛋白质的外形的直观形象感兴趣,Cn3D为此提供了强大的界面。它所给出的信息比任何人从观察字符串(蛋白质的序列)中所能得到的信息更多。可以通过窗口底部和右边的滚动条沿着轴旋转蛋白质分子,或者当光标在窗口中时用点击然后拖拉的方式随意的旋转它。用户也可以放大观察结构的某部分,必要时用数字给残基编号;如本例中的一处变异的位点可以标出。用户也可以改变图的着色方案以确定该蛋白质的特殊的结构特征。在图5.13的例子中,涂刷和着色的方案分别空白填充和疏水性。这个组合的方案可以用于观察表面的电荷分布,指示出蛋白质的那些是蛋白质之间相互作用的部位,那些是蛋白质和DNA作用的部位。关于Cn3D的进一步的资料在地3章中。Cn3D的文档中也有。另外,用户也可以把坐标信息存入到一个文件中,用第三方的程序来观看,如Kinemage(Richardson与Richardson,1992)和Rasmol(Sayle与Milner-White,1995)。
集成的信息访问:查询服务器
有时候用户没有Entrez平台可用,他将只好通过电子邮件来进行检索。也有可能用户在实验室通过T1连接在环球网上访问Entrez但速度又不够快。Query是一种使用电子邮件的Entrez,它能满足需要。Query的思想与Retrieve非常类似,但是一次能查询不止一个数据库。Query可以在一个指定的数据库范围 中查询(蛋白质,核酸,结构或MEDLINE),而且能返回相近的和有硬连接的记录。
同使用Retrieve一样,Query的用户向服务器发出查询请求时必须遵循规定的格式。图5.14概括了Query的申请的一般的格式,显示出在搜索之中可以使用的标志和选项。(Query也支持Retrieve的语法,所以向Query服务器发送Retrieve格式的查询请求也能正确执行。)最简单的查询是使用检索词。执行这种查询要先给定目标数据库和一个或几个检索词。用Query和用Retrieve一样,基于词的检索可以限定在数据库记录的特定域中,这样得到的结果更好。为了显示Query和Retrieve的区别,我们将采用图5.3至图5.14中用过的例子,而按Query的格式表达。
查询以一行"DB p."开始,指出要检索的是蛋白质数据库。对比Retrieve一次只允许检索一个数据库;Query允许一次检索所有同类的数据库(此处由蛋白质数据库构成无冗余的查询集)。数据库由一个单字符代码指定:p表示蛋白质,n表示核酸,m表示MEDLINE,t表示结构,s表示对蛋白质和核酸同时检索。检索空间与Entrez检索时用过的相同。
与原来Retrieve检索不同的是,对检索词分别限定了几个域:只在蛋白质名称域中查找"histone H1",只在生物名称域中查找生物名。注意符号&用于表示逻辑与AND,竖线符(|)用于表示逻辑或OR,逻辑非用连字符表示(-);因为检索词中也有可能出现连字符,所以表示逻辑算符的连字符必须在左边或右边至少有一个空格,以与实际的检索词区分。
到此为止,Query看来与Retrieve的区别还不大。实际上执行前面的查询得到的结果与Retrieve相同。然而使用DOPT标志(显示选项)能够彻底改变查询结果,对于用户更为有用。继续看这个例子,可能用户需要有FASTA格式的结果而不是标准的Entrez文档的摘要格式。另外,用户不想看蛋白质记录本身,而是想要与它们有关的核酸链。为了达到这种效果,可以如下的修改检索语句:
DB p
TERM histone H1 [PROT]
&(Saccharomyces [ORGN] | Schizosaccharomyces [ORGN])
DOPT fn
DOPT语句中的fn表示与检索条件确定的蛋白质记录有关的核酸记录(n)要用FASTA格式(f)显示。这次检索的结果如图5.15所示。DOPT语句的多种功能使得Query可以输出由别的程序(如序列对比编辑器或预测工具)处理的信息,尤其是FASTA格式的结果,这使得Query非常有用。
最后,Query用户还可以用一下三个附加的标志选项。HTML可以使得返回的结果为HTML格式,可以用网页浏览器来看,DISPMAX可以控制返回的最大记录数:如果不使用DISPMAX,则该缺省值为200,另外还有电子邮件的行数限制为10万行。最后,PATH使返回的查询结果送到另外一个电子邮件地址而不是发出检索请求的地址。
NCBI上的序列数据库
从上面的论述看起来,NCBI似乎是序列数据领域的中心,但世界上还有其它的一些专门的数据库也在科学交流中发挥特殊的作用。这些数据库通常提供一些辅助的信息,如性状,实验条件,杂交??,以及图谱特征。这些数据对于科学交流的某些领域来说很重要,因为它们有助于合理的实验设计。然而这些数据不完全符合NCBI的数据模式的限制,因此建立了这些专门的数据库,它们将被用来作为GenBank的附件而不是作为它的一部分。
这些特殊的数据库之中的两个是酵母基因组数据库(Saccharomyces Genome Database,即SGD)和Arabidopsis thaliana数据库(AtDB),两者都在斯坦福的人类基因组中心。关注SGD是因为
酵母的全基因组已经被测序,这个数据库提供了一个非常简单的查询界面,使用基因名,基因信息,无性系,蛋白质信息,序列名,作者名,或全文来作文本方式的查询。例如,用GeneName作为检索主题,hho1为基因名查询,将会打开一个SacchDB信息窗口,显示所有的关于HHO1座位的信息(图5.16)。座位窗口中还有连接到别的数据库的跳转点,如MEDLINE,酵母蛋白质数据库(Yeast Protein Database,即YPD)。从这条记录到Sacch3D的连接提供了PDB中找到的HHO1的蛋白质产物的同结构族的信息。还有到二级结构和三级结构预测的站点的连接。及??根据查询一些数据库预先计算出的BLAST报告。返回到原座位窗口,点击Seq&Disply连接,用户将能看到序列的座位周围区域的图形显示。可用的视图包括物理图谱,遗传图谱,染色体特征图谱以及其它。HHO1的物理图谱显示在图5.17(注意着色)。注意图形上部的黄色的粗棒,它给出了目前视图的位点相对于着丝点的位置。在黄色棒上点击就可以在染色体上移动查看,点击单独的基因,无性系,或序列名就会给出与特定的区域有关的详细信息。
还有一个这样的专门一种生物的数据库即FlyBase,它的目标是维护果蝇(Drosophila)的基因和分子生物学方面的综合信息。可以用World Wide Web,Gopher,FTP访问FlyBase。可查到的信息包括大范围的果蝇方面的书刊目录,涉及果蝇的项目的研究者的地址,11,000多个基因的38,000多个等位基因的信息汇编,13,000多种染色体畸变,图谱信息,基因产物功能的信息,存储中心和基因组无性系的列表,同类数据库的信息。所有这些方面的检索都可以通过一种简单的检索机制完成。
例如,查找基因符号,capu为检索词,将找到一条名为cappuccino的基因的记录,在果蝇卵母细胞周期的正确极化中需要用到它(Emmons等,1995)。调用图形视图可以显示cappuccino的基因及其细胞学定位及邻近区域的其它基因,用户可以在基因条上点击任何地方查看某个基因的具体细节信息(图5.18)。在这个视图上可以清楚的看到重叠的情况:这儿的cappuccino看来与为转录因子编码的slp1和slp2重叠了。选择窗口底部的类别按钮之一就能改为以查看无性系,缺失,重复,倒置,易位,转座,或其它变异的图形视图。
医学数据库
虽然本章的重点在于序列,但对于生物学家来说,除了分类和组织序列信息的数据库之外,还有别的类型的数据库也很有用。例如不基于序列的信息源Online Mendelian Inheritance in Man(OMIM),它是由约翰霍普金斯大学的Victor McKusick编辑的关于人类基因和基因异常的目录的电子版。OMIM提供了来源于出版物的简明扼要的文本方式的信息,内容是关于大多数有遗传学基础的人的正常条件,附有图片解释这些条件和异常情况,配有完备的引用信息。OMIM的在线版位于NCBI,每条记录引用的参考资料都有到Entrez系统的连接。
OMIM提供了一个编号系统对每条记录有一个唯一的编号,与登录代号相似,但数字的某些位表示了与基因异常本身有关的信息。例如,第位表示异常的遗传模式:1表示显性遗传,2表示隐性遗传,3表示X连锁的座位或性状,4表示Y连锁的基因或性状,5表示线粒体,6表示常染色体的基因或性状。(1或2与6的区别是:在1994年5月之前的记录赋予1或2,以后的记录则不论显性或隐性都赋予6。)数字之前的星号表示这个座位上的基因引起的性状不受其它地方的基因的影响:然而异常本身可能是由于多处变异引起的。未确定遗传模式的异常不带星号。最后,#号表示性状由两处或两处以上的基因异常引起的。
OMIM的查询很容易进行。检索引擎根据输入到检索窗口的一个或几个词执行简单的查询,返回含有该词的文档的列表,用户可以在列表中选择一个或更多的异常查看其OMIM记录的全文。记录含有各种信息,如基因符号,病变的名称,对病变的描述(包括临床的,生物化学的,细胞遗传学的特征),遗传模式上的细节(包括图谱信息),临床的说明,还有参考文献。由于篇幅的限制不能在此显示一条完全的记录,建议读者可以试用检索词Alzheimer作输入进行检索,可以得到一条包含OMIM提供的大多数特性的记录。