第十二章 鼠类和人类公用物理图谱数据库的使用

Lincoln D. Stein

Cold Spring Harbor Laboratory

Cold Spring Harbor, New York

 

几年前,几张已经制成的人类基因组图谱还只是在小面积上的低分辨率图。生物医学研究者如果希望定位和克隆一个致病基因,总的说来就不得不对目的区域制图,而这是一个费时费力的过程。这种情况在近几年发生了巨大的变化。现在已经有了高质量的人类基因组基因图谱,它以单一序列重复多态性(Murray et al.,1994; Dib et al., 1996)为基础,提供分辨率达15Mb的图谱信息。此外,还有许多物理图谱分辨率在亚兆(sub-Mb)范围(参见Hudson et al.,1995; O’Connell et al.,1996,及其它)。长约16000的表达序列的图谱现在也可以得到。利用这些图,一个研究者,在很多情况下,可以只集中研究一个选定区域,用几个小时来搜索公用图谱数据库,而不是用几个月时间做实验了。

令人啼笑皆非的是,研究者的困难现在已经从基因组制图转到了使用一个巨大的未知领域。它包括www站点,FTP(文件传输协议File Transfer Protocol)服务器和数据库。其中有大型数据库,如NCBI EntrezGDB。也有小型数据库,可以提供由基因组中心发表的初级图谱、由个体染色体委员会赞助的网址和由小型实验室使用,以发表特定区域详图的网址。每种来源中的信息,即使与另一种中的相重复,也有其自身的价值。使用这个信息网并不容易。最近,一项在Alta Vist Web搜索器上做的对“基因组”一词的搜索就找到了超过80000个的潜在的相关文件。本章作为这些图谱的一个“简图”,用来引导读者穿过物理图谱数据库的迷宫。

本章先对物理图谱制图方法作一简要回顾,然后讨论大型公用数据库NCBI EntrezGDB,这些库提供了查找许多不同来源图谱的简捷途径,并能在这些来源中进行比较。接着,本章再讨论一下由个体制图实验室所出版的资料,从在基因组范围做出制图努力的某些中心,一直到对个体染色体做出制图努力的。因为作者的专业领域所限,本章集中讨论人类和鼠类的图谱。

物理图谱的类型

物理图谱有许多结构和形式。一个极端是限制性图谱(restriction map),用于对小区域、如kb量级做精细结构制图,另一个极端是细胞遗传学图(cytogenetic map),用于对以104 kb为长度量级的区域制图。但是,最常用的两种类型还是STS含量图(STS content map)和放射性杂交图(radiation hybrid map),它们的分辨区域都大于1Mb,并且有能使用简易PCR中的定位标记物的优点。

STS含量图(图12.1)中,STS标记物通过多聚酶链反应所监测,在反应中它与一个大的插入克隆基因库反应,如酵母人工染色体(TACs),细菌人工染色体(BACs)和粘粒等。如果两个或多个STS被发现是存在于同一个克隆之中,那么这些标记位点紧密相邻的机会就很高(不是100%,因为在制图过程中存在一些假象,如出现嵌合克隆体)。一段时期以来,根据STS含量图已经建立起一系列重叠群,如含有STS的重叠簇克隆。这样一张图的分辨率和覆盖度由一些因子决定,如STS的密度、克隆群体的大小、以及克隆文库的深度。通常STS含量图以长1Mb的插入YAC库为基础,分辨率为几百个bp。如果使用插入部分较小的克隆载体,图谱就会有一个更高的理论分辨率,但是覆盖基因组同样大小面积就需要更多的STS。虽然一般有可能从STS含量图上得到标记物的相对顺序,但是相邻标记物之间的距离还是无法精确测得。尽管如此,STS含量图还是有与克隆原相关的优点,并且可将其用于更进一步的研究,如次级克隆或DNA测序。到目前为止,STS含量图制图简单而使用最多的来源是巴黎的CEPHcentre d’Etudes du Polymorphisme Humain)中的YAC库。它是一个10×覆盖率的文库,平均插入长度为~1Mb

放射性杂交图(图12.2Cox1992)对片段DNA的断点作图。在此技术中,一个人体细胞系被致死性的gamma射线照射,染色体DNA分成片段。然后该细胞系与一个仓鼠细胞系融合而被救,并能繁殖几代。在这期间,人类细胞和仓鼠细胞的杂合体随机丢失其人类染色体片段。这样一百个或更多的杂合细胞系克隆体中,每一个都有不同数量的染色体片段,筛选生长后,就可以形成一套杂合组,供接下来的制图实验用了。

如果要在一个放射性杂交组中对一个STS作图,那就要将每种杂交组细胞系中的DNA进行STSPCR操作。细胞系中如果含有该STS的染色体片段,那么就能得到一个正的PCR信号。在基因组中相邻很近的STS有相似的固位模式(retention pattern),因为放射性引起的断点落在它们中间的几率很小。相邻较远的STS固位模式相似性降低,相邻很远的STS的固位模式将会截然不同。与基因图谱所用方法类似,算法类的软件也能推出STS在放射性杂交图上的相对顺序,并通过断点落在其中间的可能性,用某一距离系统计算相邻标记物之间的距离。放射性杂交图还能提供一个标记物位于某一个特殊位点的可能值(优势对数值)。一个放射性杂交图的分辨率依赖于杂交体片断的大小,而这又依赖于人体细胞系所受的辐射量。一般对基因组大小作图的细胞系分辨率为~1M

STS含量图和放射性杂交图外还有几个方法可用于制作人类物理图谱。克隆图谱使用与STS含量图不同的技术来决定克隆体的接近程度。例如,CEPH YAC图谱法(Chumakov et al., 1995)综合利用指纹法(fingerprinting)、间-Alu产物杂交法(inter-Alu product hybridization)和STS含量图法来制作一张重叠的YAC克隆体图谱。缺失和体细胞杂交图依赖于大型基因组重组(可以人工引进或由实验本身引起),从而将标记物放在由染色体断点所限定的bin?中(Vollrath et al., 1992)。FISH图谱(Licher et al., 1990)使用一个荧光信号来探测克隆体的间期DNA扩散时的杂交情况,从而以细胞遗传学图中一条带的位置定出克隆体的位置。

研究者捕捉致病基因时对转录序列图谱有特别的兴趣。这些序列是由已表达序列,和那些从已转化成STS并置于传统物理图谱的已知基因衍生而来的。近来一些制作大量ESTAdams et al., 1991; Houlgatte et al., 1995; Hillier et al., 1996)的工程已经使制图实验室能够得到数以万计的单一表达序列。一旦一个致病位点被鉴定出来后,这些转录序列图谱就能明显加快对目标基因的研究速度。

YAC库可用于STS的排序,但其克隆体中的高嵌合率和高删除率使它们不能用于DNA测序。去年高分辨率、可用于测序的质粒和BAC图谱则发展很快。因为它们所需的克隆工艺水平很低。除了几个特例,如染色体19Lawrence Livemore实验室质粒图外,其它图谱都还只处在初级阶段。

大型公用数据库中的基因组范围图谱

人类基因组物理图谱信息的主要来源是由NCBINational Center for Biotechnology Information国家生物技术信息中心)和GDBGenome Data Base基因组数据基地,见注释)提供的大型公用数据库。这些数据库提供各种图谱的来源,使研究者能够用一个多用户界面交互系统在图谱中进行比较。在一定程度下,这些数据库还能进行图谱的综合及分析。NCBI EntrezGDB将在本节介绍。由个体中心维持的数据库可提供更为详尽的信息,并将在下一节“从个体来源的基因组范围的图谱”中介绍。

NCBI Entrez中染色体图谱的使用

Entrez的基因组部分是最容易获得物理图谱信息的来源之一。此服务由NCBI所提供。Entrez试图以一种可理解的方式将几种遗传学图谱和物理图谱、DNA和蛋白序列信息、以及一个目录型引用数据库和三维晶体结构信息融合起来。因为它的内部连接多,而且界面简单,Entrez 可作为搜索图谱的一个起始点。Entrez信息补救系统在第5章详细介绍。

任何支持网络浏览器,如NetscapeMosaicMicrosoft Internet Explorer的计算机系统都可以使用Entrez。与Internet的连接应支持TCP/IP,通过一个Internet服务提供器就会形成一个有用的网络连接或是一个拨号连接。因为图谱信息中图形很多,所以应能连接28800bp或更多信息。

首先,将浏览器连到Entrez的主页所在的URLUNIFORM RESOURCE LOCATOR统一资源定位器),这样就会下载一页,包含一系列与Entrez中核酸、蛋白质、目录、基因组和三维结构数据库的链接,以及一些文档和帮助。选择标有“搜索基因组数据库”的链接,这样就会弹出来一个窗口,提供搜索的范围(如图12.3)和在其它范围中一系列生物种类的名称。每一个生物体名称旁边都有一个数字,说明在数据库中其图谱的数目。得到人类图谱列表最简单的办法就是点击标有“Homo Sapiens”的链接,这样就会得到一个含25个染色体图的列表(染色体Ⅰ至Ⅹ再加上线粒体染色体组的两个词条,Y型图谱现仍没有)。

现在再在感兴趣的染色体下选择标有“图示”(Graphical View)的链接。这就会得到与图12.4中所示相似的一个图谱。它是由几个图组成的一张复合图。这类图对于各个染色体来说并不同,但至少它们都含有GenethonCHLCCooperative Human Linkage Center 合作性人类链接中心)基因图谱(Murray et al.,1994; Dib et al.,1996)、Whitehead Institute放射性杂交图谱和STS含量图(Hudson et al.,1995)、斯坦福大学放射性杂交图谱、细胞遗传学图、和一个序列图。序列图基本上是一个定位器,即将已制成图的片段定位。对于这些片段,序列分析中心希望能在十年内将其制造出来。存在于多个图谱中的标记物用绿线连接了起来,好让读者能够互相比较并在从一个图谱转向另一个时保持正确的方位。出于比较和图示的目的,每一个图谱均由一个公用坐标系统校正,该系统以物理距离(DNA碱基对)的值为基础。稍一检查就会发现它们只是笼统地排成一条线,如在标记物的顺序上就有很多矛盾,在图上表现为绿线有交叉点。

这些图可以用鼠标浏览,一对标有“Action”和“Zoom”的选项按钮(radio button)能控制图的大小。要想对图的一部分作更详细的观察,可选择Zoom按钮,并点中需放大的区域。如果选Zoom后直接点击图上的区域,一般默认为放大10%。另外也可以用图形上方的pop-up(复选框)菜单来改变放大率的值。在高放大率下,诸如单个标记物的名称、图示基因、YAC序列群和图示克隆等特征都可以很容易地分辨。进而也可以选择“左、右、校正”(LeftRightAlign)等按钮来调整图象至合适的尺寸(左右按钮在点击Zoom一次后将会出现),Overview(全览)命令将显示图象返回其初始大小。

为得到一个具体标记的图中元素的信息,可选择标有“Action”的选项按钮,然后再点击该元素。注意该按钮非要使用一次Zoom才会出现,例如,单击一个STS的名称将会显示其在Genebank中的词条,而此词条又包含着与其它部分,如Entrez词条、核酸、蛋白质和三维结构数据库等的链接。

Entrez网同时也提供了一条简单的在图上定位一个特定标记物的途径。在标有Search by gene(基因查询)的两个小框中选一个,输入标记物的名称或GenBank中的通道号,然后按旁边的按钮。这样就会产生另外一张图,其中标记物以黄色着重标记。如果输入两个名称,则它们之间的区域将会着重显示。在此功能中,除了名称,物理图谱上很少有元素对应着实际的基因,大多数标记物都只是重名的序列或是基因多样性中简单的序列重复(在STS中有很多例子)。

要想将一张Entrez 图存在用户盘上,可单击鼠标右键(或Machintoch上的Shift-Click键),弹出窗口上方的Cursor,然后会产生一个pop-up菜单,选择Save Image As(将图形存为)并输入一个名称作为该图形文件的文件名。该图形以GIF形式保存,可以在很多图形程序中加以显示、打印和操作。这个过程在不同的网络浏览器中略有不同,有的要求在点击图片前选择File(文件)菜单中标有Save next Link to Disk(将下一个链接存盘)一项。

除人类基因组,Entrez还提供关于鼠类、果蝇、C.elegans、酵母以及一些原生动物的图谱。尽管可比较的(同线性)图仍不可获得,但它代表了现在最大和最完整的一套多生物体的图谱信息。

尽管以网络浏览Entrez对一般的使用已经足够,此来源使用频率高的人还是想建立一个Entrez网站,即NCBI“站柜台”,以顾客--服务员的形式使用软件。这种形式与网络版特征一致,但从实质上可以更好地应用,而且界面美观。它适用于WindowsMacintoshUnix等系统,并可在Entrez Overview(全览)页上下载。

Entrez也有一定的限制。最严重的是由几种方法构建的图谱不得不使用同一坐标系统。这种简化,满足了将所有表示同一区域的图形同时显示的需要,但有时也掩饰了其图谱信息模棱两可和存在矛盾的特点,制造出并不存在的确定性的假象,特别是细胞遗传学图和物理图片、基因图谱的整合关系并不紧密,必须小心使用。当然,Entrez也和一些实验室制作的网页相连,它们提供图谱来源,这就使图谱能够保持实验室最常用的最新的形式。这些个体中心的图谱将在后面作更详细的介绍。

GDB中浏览染色体图

另一种常见的人类物理图谱数据的来源是GDB。尽管GDB是基于当时基因图谱的重要性才构建起来的,但是最近几年来,GDB也已经进行了扩建重组,现在同样可以算是物理图谱数据的仓库。不象NCBIGDB只限于人类图谱数据。它不含序列数据,也没有其它种类生物的信息。

NCBI一样,GDB可以由WWW上得到。GDB提供了一种全功能的对其数据库的查询式界面,这一点,尽管很有用,对新手来说可能还是会很头疼。限制性更强的查询界面,包括一种“按址查图”的功能,能帮助你更直接进入GDB,特别是在199612月引入的GDB的视图-2程序(Mapview 2 program),它利用新的Java微程序(applet)技术提供了一个与GDB中的基因图谱和物理图谱相连的图形界面,并使网页能够合并“活性内容”(active content)(Anuff, 1995)。一个能使用Java微程序的网络浏览器应服从以下规则:它们应含有Microsoft Internet Explorer3.0版本或更高)和Netscape Navigator2.0版本或更高)。

首先,要连上GDB,需连到GDB主页上的浏览器。从这个网址上,再找到并选择标有Advanced Search(高级搜索)的链接,从而得到一个含有几种查询方式的页面。

最简单的查询方式名为按址搜索(Search Maps by Location)。如图12.5,选择这一项后会出现一个表。要使用这个表,得先选择要演示的染色体或亚染色体区域。如果要看整条染色体,可从pop-up菜单中直接选择。而要看一个染色体区域的话,就要在输入栏FromTo(从......)中输入两个细胞遗传学带或基因标记物的名称。

搜索窗口下方的两个滚动式列表允许用户自己限制所搜索的图和标记物的种类。例如,可以限制STSs(在GDB用语中为“扩增引物”amplimer)只用于放射性杂交图中的情况。

让我们从标有Submit(提交)的按钮开始。在短时间等待后,将出现一个滚动列表,包括所有符合要求的图谱。一般都会有基因型、细胞遗传型和物理型图谱。

现在对感兴趣的图再按Submit。因为每个图都要花时间来获取和演示,所以除非使用速度很快的网络连接,最好将同时浏览的图谱的数目限制在3个以内。

图谱被整理后,将会打开一个新的窗口,以肩并肩的方式演示被选中的图(如图12.6),两个或多个图中均用到的标记物用线相连,应注意有时也存在矛盾现象。

要得到演示图谱中一个标记物的其它信息,可双击它的名称。浏览器窗口将会返回前一页并演示所选标记物在GDB中的词条。这个词条将会包括与GDB中其它信息的超链接(hyperlink)(如目录词条)和一些其它的生物数据库。

要得到制图方法的信息或关于一张特定图的其它信息,双击其垂直的主干,得到一张网页,描述图谱并给出详尽的信息。(警告:不要关掉Mapview后的浏览器窗口,由于Java安全性的一个特点,微程序只有当浏览器窗口开着时才能演示关于所选标记物的信息)。

Mapview(图片演示)中的演示可通过选择View(演示)菜单中的Marker Names(标记物名称)或Display Options(演示选项)来调整。这些选项可以让用户开或者关某些图的演示、改变图谱的相对摆放顺序、并熟练选择标记物的名称。标记物被演示时默认为使用其基因座D-片断名。但有时候如果使用最初实验室里的命名,信息量将会更大,因为这会对标记物的本质提供一些线索(例如,它是微卫星重复片断,还是一段表达序列)。

要在图上搜索一个特定的标记物,应从Edit(编辑)菜单中选择Find(寻找)一项。输入一个或多个标记物的名称再按OK按钮。标记物的任何别名都能使用,也可用一个单*号,被选中的标记物高亮度显示并滚动到视野内。

来自个体来源的基因组范围图谱

尽管一级数据库,如EntrezGDB是已发表的图谱的重要来源,但是它们还没有能替代原始数据的东西。有能力制作自己的物理图谱的实验室一般都有自己的网址,连向它们的图谱数据库。通过从这一渠道直接获取资料,我们可以看到制图实验室所使用的图的形式、下载原始数据、并且了解实验室制图时的协议。另外,一些图在出现于EntrezGDB前经常被丢掉。EntrezGDB数据库选择的表达方式,对那些希望将新的标记物定位于已知物理图谱上的研究者来说,只提供了最小的帮助。

基因组的基因图谱

尽管本章讨论的是物理图谱的来源,但若不涉及基因图谱,这些讨论就不能算全面,因为后者是制作许多物理图谱时工作的基本骨架,也是许多制图项目的起点。有两种基因组范围的基因图谱可供选择。Genethon图(Dib et al., 1996)含5264个多样性微卫星重复片断,间隔1.6cM。完整的数据库文件,以及图谱的PostScript方式图形表示,在GenethonFTP站点上均可获得,这些图通过GDB也可以获得。

第二大基因图谱由Cooperative Human Linkage Center(公用人类链接中心)(Murray et al., 1994)制造,CHLC图由10775个标记物组成,大多数为微卫星重复片断,间隔3.7cM

人类基因组的转录物图

199610月,Horno sapiens的一个全基因组转录物图由一个国际合作的研究实验室发表于Science上(Schuler et al., 1996)。这个图由~15000个不同的表达序列组成,由放射性杂交法定位,与Genethon基因图谱衍生的框架相近。通过对酵母人工染色体作STS含量法又增添了1000个表达序列。在这张图中,大约1/5的标记物有已知的或是假定的功能,而余下的代表了未知功能的表达序列。制成图的序列一般由UniGeneset衍生而来,它是一个由NCBI管理的公用重复ESTs数据库。

转录物图是通过将八家不同实验室的图谱数据综合而得到的。为协调制图方法的些微不同,表达序列被放在由Genethon基因图谱衍生的框架上。结果,该图的最大分辨率为~2cM。很多情况下,可以从各个实验室的数据库里得到针对某一部分数据更好的制图信息,特别是the Whitehead InstituteStanford University的。

浏览NCBI转录物图

转录物图可在两个网址上得到。数据的“亲本”站点为NCBI。在那儿可以找到含有全基因组转录物图的Science文章的全文,以及彩色的图象,但一般都只有装饰性的墙面图案。另外,也有搜索页可以让浏览者对特别感兴趣的基因进行查询,或是通过对功能未知,但其读码框与某已知功能的蛋白质相近的表达序列图谱进行搜索。

NCBI网址的一个限制就是它不能在低分辨率标记物分布柱形图上提供转录物图的图形。但是通过Mapview微程序就可以得到其图形显示。从GDB的首页,沿着What’s New的链接,可找到全基因组转录物图(到本书出版时链接形式可能已有所不同)。同样,可以认为转录物图也是Entrez网将要制作的一部分。

任何支持网络浏览器的计算机系统都可用来浏览NCBI转录物图,要求是应连向Internet并支持TCP/IP。通过Internet服务器可能形成一个dedicated网络连接或是一个拨号连接。因为这个网址图形不多,所以连接速度不要求很快。

首先,点击Science转录物图网页所在的浏览器,得到转录物图的主页,通过其鲜快的桃红背景很容易认出它。现在,寻找并点击标有Reasearch Tools Page(研究工具页)的链接。一般这个链接很不起眼(它在该页的右方,图的下方),这个链接会引向一个有几种搜索方式的窗口,你可以按址、按假定功能或只按序列进行搜索。

要想搜索基因组的一个特定区域中特殊目的基因的图谱,可选择标有Map Search(搜索图谱)的链接,得到含有一列染色体的页面。选择感兴趣的染色体,得到与图12.7相似的页面。现在,在标有Interval(间隔)栏中,输入两个Genethon基因标记物来定义你感兴趣的区域。

Genethon图可从GDB得到,或直接在上面所给的URL上的Genethon中得到。例如,如图12.7所示,要搜索位于染色体18Genethon图上32cM34cM中的表达序列,可输入D18S464D18S1153,再按Select Markers(选择标记物)键开始搜索,得到列有目标区域中表达序列的页面(图12.7),其中每个EST位于不同列,并有简短说明。附言“Highly similar to”或“Similar to”说明它不对应已知基因,但与Swiss-Prot中的某个基因相似。

每个转录物的名称都是一个超文字链接。选择此链接会产生一个页面,对转录物进行详细说明。在可获得信息中有重叠基因表、形成转录物群的ESTscDNA的准备原始材料,转录物的克隆ID(在I.M.A.G.E Consortium的网页可得到大多数ESTs的克隆号)、Swiss-Prot相似性搜索结果,以及Entrez中关于其序列和词条信息的链接。

要想根据名称或假定功能搜索一个图中的转录物,应回到搜索页并选择Text Search(主题搜索)。接着会弹出一页,上面有一个或多个搜索项。你可以搜索以下类型的内容,GenBank中的一个通道号、一个标记物或地点名称、在转录物GenBank词条的说明区内找到的一个说明性词语、或是在Swiss-Prot词条的说明区内找到的说明性词语,转录物与之很相似。你可以同时限定很多搜索项,这样搜索系统会挑出含所有项的那些词条。

Search搜索键提交搜索,将会出现一列符合条件的转录物,其形式与前所述搜索的图谱相似。例如搜索kerabin(角蛋白)通常会得到17keratin和与keratin相似的转录物,并指出它们在图中的位置。

搜索的最终类型取决于BLAST相似性,如要搜索与一段DNA序列相似的转录物图,在搜索页上选择“序列搜索”,弹出一个很大的输入区。用FASTA模式将目的序列剪切后粘贴在输入区;先在>后加上序列名称(任意标记物均可),再加入该序列,如下:

>blunderglobin 3’end

CTTGCATGCCTGCAGGTCGACTCTAGAGGATCCCCCTGTGCAGCATTCCATAAT

GTGAATATATAACACTTTATTCAAAATTTGGGGAAATAGTACCTTGTACATACA

TAATTTCACATGTTTGCCAGTGTGTGTTTTAGATACATGCCTGGA

如该序列在GenBank中已有一词条,那么只要输入其通道号就可以了。按下Submit Query(提交要求)键。在被查询序列对照转录物序列进行一次BLAST搜索后,NCBI服务器将会给出一页结果,总结所有相似转录物的身份和图中位置。

White head Institute提供的人类物理图谱

The Whitehead Intitute/MIT Center for Genome Research是两张基因组范围物理图谱的最初来源。其中一张是STS含量图,内含指定为YAC10000多个标记物,以及一张含12000个左右标记物的放射性杂交图。Whitehead所用的G4杂交板(Genebridge 4 radiation hybrid panel)分辨率为~1Mbp,而以YAC为基础作的图分辨率大约为200kbp。这些图已经和Genethon基因图相结合,产生了一张合图,在平均150kb范围内有20000STSsWhitehead图上大约有一半的标记物是表达序列,它们在人类转录物图上也会出现。

WIWhitehead Institute)图可通过网络从Whitehead Center for Genome Research的主页上得到。沿着“人类物理图项目”(Human Physical Mapping Project)的链接就可以得到感兴趣的图,这些图可通过几种方法浏览。选择一系列pop-up菜单可以产生所选染色体的图,选择选项按钮可以综合放射性杂交图、STS含量图和基因图。与Entrez一样,这些图不是固定不变的。点击一个STS或是重叠群,会弹出关于该图素详细信息的页面。图形式图谱在网址上可按GIFMacintosh最初模式(PICT)下载。最近引入的一个多图浏览器,有一个望文生义的名称Multimap(多图)可以为Java型浏览器(如图12.8)提供这些图详尽的信息。这些图的后转录形式在Whitehead FTP站点上也可得到。但应注意,这些后转录图是一些长几英尺,与墙壁差不多尺寸的怪物。这就需要一个有足够内存(至少8M)的激光打印机或标绘器才能进行硬拷贝。

Whitehead网址上还提供了对图谱数据库进行查询的搜索页。这些搜索数据的链接可按名称、GenBank通道号、STS型号、染色体分配进行搜索。另外,Whitehead网页也可根据功能关键字搜索制图转录序列,并提供与NCBI中的主转录物图的链接。

Whitehead也为那些希望建立他们自己的STS 的研究者提供服务,并将之放在一个或多个图上,这些服务包括:

一个在线的引物选择程序,引物3

将一个STS放在STS/YAC含量图上的服务

将一个STS放在放射性杂交图上的服务

Whitehead图远未完善,对合图进行监督性测试就能显示出在基因图、放射性杂交图和STS/YAC图上的STSs位置间存在矛盾。这些矛盾表现在合图上仍存在交叉线。解释这些图的一个关键点在于理解这些图在可靠性与分辨率水平不一。基因图骨架在数十兆时能可靠地连接标记物,但在低于约2兆时就无法准确解决两个STS的顺序问题了。放射性杂交图能够测知约10Mb的连接,有效分辨率达~1Mb(更小的间隔也能排序,但是不可靠性逐步增加)。STS/YAC图可以测知两个相互间隔1MbSTS的连接,估计分辨力达100300kb。理解图谱时头脑中应有这些尺度上的差异。一般在1Mb的范围以下,STS/YAC图是说明顺序的图谱中最可靠的一种。

STS含量图中,由于STSYAC的不等分布,可靠性也会有地域差异。在YAC密集的区域(每一个STS5个或更多的YAC),在排序信息的重要性上,图谱结果是相对更可靠的。在低密度区,图谱结果中就会有几种同时可能替代的STS顺序,并会附上数据。假定的错误的反面情况,如图12.8中,表示为图中的空白框。这一点也会严重降低图谱的准确性。最后,因为在所有YAC库中都存在嵌合现象的问题,双键(例如,一对STS同时与2个或更多YAC连接)比单键(STS只由1YAC连接)更能可靠说明相邻关系。尽管只有在基因图或放射性杂交图中存在支持性数据时,图上才能构建单键信息,但单由两个STS相连形成的连接仍保留怀疑。这些元素在任何制图区域被详细检查的时候都应考虑在内。

下面的部分介绍如何在Whitehead图上,通过Whitehead网址安置新的STS。从STS设计和针对Whitehead和放射性杂交图进行制图开始。

设计一个STS,置于Whitehead

设计一个STS需要一个高质量的DNA序列,至少长达所需的PCR产物。为得到最好的结果,这些序列应不含重复元素和载体序列,并且质量相对高些。任何支持一个WWW浏览器的计算机系统都可以使用该程序,支持TCP/IP的网络连接也是必须的。

首先,将浏览器连到Whitehead Genome Center的主页。寻找并点击指向WWW Primer Picking的链接。接着出现一页,在其上方有一个很大的输入框。剪切原始序列并粘贴到该处,只用粘贴原始序列,不需用名称或其它标记词。这些碱基可以小写或大写,而白色空格可以忽略。

现在,向下滚动窗口,将PCR的条件调至需要值。那些关于盐浓度、温度和产物大小范围等的默认值均是WI所设定的。如果有必要的改变需输入时,按标有Pick Primers键返回一套引物处进行特定设定。这些引物现在在对感兴趣的序列的审查实验中用得上。通过放大基因组DNA中的一条特定带,可以对这些引物的能力进行经验性鉴定。引物的失败主要与引物扫描区域中的重复元素有关。相反,通过进行BLASTFASTA搜索,再选择引物对,来对输入序列中的重复序列进行筛选则是比较明智的,如果STS成功地放大了一条特定带,它就可以与Whitehead STS/TAC含量图或放射性杂交图相联系,被制成图。

Whitehead STS/YAC含量图联系对STS制图

一旦被制出后,一个STS就可以通过对CEPT mega-YAC库的扫描确定在STS/YAC含量图上的位置。而对含有超过30000个克隆,其中又有1200个排列、板块和柱池(rowplatecolumn pool)的YAC库进行搜索,实在是一件头疼的任务。可喜的是,几个生物技术公司已经提供了CEPH YAC的复本和(或)筛选系统,包括Research Genetics CorporationWhitehead图就是仅从YAC库的后一部分构建起来的。这意味着库模块中位于709972的范围仍需筛选。STS接着就可以用以下步骤放在图上了。

使浏览器连向Whitehead的主页,并点击标有Human Physical Mapping Project的链接以跳到该组织的物理制图页。从这儿,再找到并选择“Search for a YAC to its address”,接着出现一页,内有一系列pop-up菜单,能用于输入单个YAC的地址、或一个输入单个YAC名称的主题栏、或一个能粘贴一列YAC地址的大型区域。后者适用于将多个YAC用于研究的时候。在这个地方输入YAC列表,再使用“plate_row_column”形式,这里是用“_”号分离板块、排和列这三维(如709_A_1),也可输入多个YAC地址,用空格或carriage回车隔开。搜索过程输入格式并不固定,它也可识别多个YAC模式(包括709_a_1709a1)。

YAC表完成后,按Search键,得到一个表,列有各个YAC,其重叠群位置和染色体分配,以及附近STS的位置。这些STS位于放射性杂交图和(或)基因图上(见例1)。

要理解该搜索结果,应该知道CEPH库中相当数量(4050%)的克隆都是嵌合体,这意味着单个YAC可能存在于位于基因组不同部分的重叠群中。由于这个原因,需要找到多个YAC来证明单个STS分配到了某一特定重叠群中,或是从其它方法来证明(比如FISH,体细胞杂交制图,放射性杂交图制图数据)。

  1. 将一个STS置于Whitehead STS/YAC含量图中

作为一个具体的例子,让我们考虑在YAC库中筛选的位于3YAC中的一个STS945_B_6743_G_12765_D_8,将它们的地址输入网页后,按Search键,回到以下页面(为清晰起见这儿有几处缩写)。

945_B_6

     

Map

Positioin

Contig

 

STS

Chrom

Genetic

RH

Single

Double

1

D18S59

Chr18

-

-

WC18.0

WC-1465

2

D18S1140

Chr18

-

-

WC18.0

WC-1465

3

CHLC.GGAT2G04.1217

Chr18

-

-

WC18.0

WC-1465

4

CHLC.GGAT2G04

Chr18

-

-

WC18.0

WC-1465

5

WI-9527

Chr18

-

-

WC18.0

WC-1465

6

WI-7796

Chr18

-

15cR

WC18.0

-

743_G_12

     

Map

Positioin

Contig

 

STS

Chrom

Genetic

RH

Single

Double

1

D18S1140

Chr18

-

-

WC18.0

WC-1465

2

CHLC.GGAT2G04

Chr18

-

-

WC18.0

WC-1465

3

WI-9527

Chr18

-

-

WC18.0

WC-1465

4

D18S59

Chr18

-

-

WC18.0

WC-1465

5

CHLC.GGAT2G04.1217

Chr18

-

-

WC18.0

WC-1465

6

WI-7796

Chr18

-

15cR

WC18.0

-

8

D6S1634

Chr6

96cM

-

WC6.12

WC-1197

9

WI-3308

Chr6

-

584cR

WC6.12

WC-1197

10

FB10A2

Chr17

-

424cR

WC17.8

WC-1673

11

AFM198YB2

Chr5

-

32cR

WC5.0

WC-596

12

CHLC.GATA82H02

Chr5

-

-

WC5.0

WC-596

13

D5S406

Chr5

12cM

-

WC5.0

WC-596

765_D_8

     

Map

Positioin

Contig

 

STS

Chrom

39cM

RH

Single

Double

1

D14S69

Chr14

-

-

WC14.0

WC-1651

2

AFMA133WF1

Chr14

1cM

-

WC14.0

WC-1651

3

D18S1105

Chr18

-

-

WC18.0

WC-909

4

WI-5528

Chr18

-

4cR

WC18.0

-

5

WI-3058

Chr11

-

5cR

WC18.0

WC-909

6

WI-5872

Chr11

-

145cR

WC11.4

-

7

WI-6096

Chr11

-

143cR

WC11.4

-

每张图对应输入的一个YAC地址,每个表包括已知YAC中的STS表,以及STS制图信息。对于每个STS,染色体分配、基因图位置和放射性杂交图位置只要已知就会给出。另外,STS所属的已命名的重叠群也列成表,这些表中大多数元素是超文字链接,选择合适的链接可以获得关于一个STS或一个重叠群更多的信息。由于历史原因,许多STS有两个重叠群。双链接重叠群(例如由成对YAC共有的重叠群)短一些,在构图的起始阶段中是可创造的更可靠的重叠群,它们可以被放心地忽略。单个重叠群长一些,在不同方式下也应承认其合理性。

在此例中,三个YAC中有两个似乎有嵌合性,因为它们散布于几个不同的染色体的重叠群中,很显然这三个YAC都有WC18.0重叠群,这就使尝试性的将STS分配至这个重叠群成为可能,因为从重叠群的其它STS 的基因图和放射性杂交图位置我们知道WC18.0位于染色体18上,并靠近P端。

Whitehead放射性杂交图

STS也能被置于Whitehead放射性杂交图中,这比STS/YAC含量图的问题简单很多,因为在放射性杂交图上搜索一个STS只用93PCR,而不是1000次。Whitehead放射性杂交图使用Genebridge 4 radiation hybrid panel。与CEPH YAC库一样,这些细胞谱系的DNA也可以从一些生物技术公司那儿得到。而有些公司还提供搜索服务。为得到最好的结果,PCR必须在与制作Whitehead图的相同条件下进行(见Hudson et al., 1995),并应在复制时进行。复制PCR间出现的不同结果说明应继续重复或以未知物对待。

首先,将杂交模板筛选结果重定为“rhv”格式,看上去如下:

sts_name1 001001011000001000000011010001101110011100101001211001110101010100101000

sts_name2 000001111000001000000011010000001110011100101001211001110101010100100000

。。。

每个数字代表每个放射性杂交细胞系的PCR结果:0说明PCR结果为负(无反应产物),1说明为正,2说明为“未知”或“未完成”。载体上数字的顺序是很重要的,必须与G4rhp中的正式顺序相对应。为找到该顺序,可沿(Whitehead物理图页上)标有“How the radiation hybrid maps were constructed”(如何构建放射性杂交图)的链接,再按下标有“G40”的链接。该顺序与它们由Research Genetics运输时包装的DNA顺序相同,所以它一般还不是结果。要增加可读性,可在载体内加入空格,用一个或多个空格、或Tab键就可以将STS名称与扫描数据分离开了。

Whitehead物理图页上,按下标有“Place your own STSs on the genome framework map”(将你自己的STS放入基因组框架图中)的链接,再输入提示的合适的Email地址,并将PCR值粘贴至位于该页上的大型主题框。输入正确的Email地址很重要,否则制图结果将有可能被误解。

默认时,制图数据会以正文形式返回。为产生放在Whitehead图上的STS的图形,选择一个标有Mac PICT(针对Macintosh系统)或GIF(针对WindowsUinx系统)的选项按钮。

当设置完成时,按下“提交”键。当数据已被转交或正在制图时,你会得到一个证明,在一小时内结果将会通过Email回执给你。

对于大量的筛选数据,如果用剪切和粘贴来向服务器提交这些文件就不太方便了。这时可以将数据以纯文本形式存在用户盘上,然后用RH制图页中的浏览键来定义并提交此文件给服务器,同样,Email地址也要手工输入。

对于~98%的提交的标记物,Whitehead放射性杂交图制图服务器都会找到特定的位置。如果安置成功,软件将会给一回执,包括该标记物的染色体分布和在染色体连接群中的位置、对标记物的表格式说明、和在Whitehead放射性杂交图上两侧标记物的存在时其数据情况。按要求将会得到一张Macintosh图或GIF格式图。这些图由Whitehead框架图组成,所提交STS的位置以红色标明。

如果发现标记物连接的染色体多于一个或是根本就没有连接,制图过程也可能失败。在前一种情况中,可以重新提交并设置高优势对数值,这样服务器将会认为其连接一个染色体,在后一种情况中,你可以试着利用放射性杂交图页上的一个pop-up菜单将限制性降低。如果一个标记物确实连向多个染色体,那么有可能用STS探测出重复序列。

Stanford University放射性杂交图

Stanford Human Genome Center已经用G3制图板发展了一张基因组放射性杂交图。由于比G4板所用放射量更高,G3板的分辨率更高,但是代价是在探测长距离连接时限制很大。Stanford图一般在平均375kb的范围内存在~8000STS,这些标记物中,3700个左右是表达序列,存在于NCBI转录物图中。同以往一样,在基因组很多部分中,Stanford图中的表达序列比“全包容”NCBI图中的准确性更高。

Stanford图可用WWW接通。在主页中点击Mapping再点击RH Mapping,这样就可以得到基因组放射性杂交图。在这儿,标有Maps的链接可以引向一页,帮助用户选择所要演示的染色体。这个网址接着就会演示所选染色体的一个表意符号、一个密度图,指明每个制图标记物的位置、和一列用于构建该图框架的Genethon基因标记物(图12.9)。点击一个基因框架标记物的名称将会得到该地区标记物的一个详表。选择一个标记物的名称又会得到该标记物和其制图数据的更详细的信息页,通过搜索页可以得到特定标记物的位置。允许的搜索项包括:标记物名称、GB通道号、GDB位置鉴定和dbSTS数量。

Stanford提供一个放射性杂交图制图服务器。如同Whitehead服务,这个服务器允许对从Research Genetics和其它业主处得到的G3板进行STS扫描。输入数据,服务器将会尝试将STSStanford图相连,并用Email返回结果。因为G3板不能探测长距离连接,在无其它图谱信息时,Stanford服务器只能将75%的STS定位在一条染色体上。但是如果要在可选区域内提供标记物的染色体分布。服务器就能够在一个低优势对数连接值时进行分析,并可对90%的情况作出分布图谱。

当使用PCR时,STS应对83G3DNA扫描。为得到最好的结果,可使用StanfordRH Protocol主页给出的PCR协议,每次分析结果都应该复制,并且复制品间有分析差异就应该重复或标为未知。

Stanford服务器返回的制图结果由一系列相应的标记物分布组成。对于每一个STS,服务器都会报告离其最近的基因标记物、染色体、和标记物到STS的距离,以centiraycR)为单位。尽管对于制图结果并不提供图形显示,图谱信息还是可以用来与以上讨论的浏览图形结合来说明所提交STS相对于Stanford图上其它STS的位置。

首先,将筛选结果重置为“radiation hybrid载体”格式:

sts_name1 100000000000000010000000000010000000100110010000011000000100000R1100000

sts_name2 0000000000000000R0000011110000000000100110010000001100000100000R1100000

...

每个数字代表每个放射性杂交细胞系的PCR结果:0说明PCR结果为负(无反应产物),1说明为正,2说明为“未知”或“未完成”,R用于说明“未知”或“模棱两可”(这不同于Whitehead形式,尽管Whitehead也可识别“R”),载体中数字的顺序很重要,必须对应于G3 radiation hybrid板上的正文顺序,这Research Genetics运输的DNAs板顺序相同,用单个Tab(不能是空格)将STS名称与扫描数据分开,空白区域在载体中不允许存在(又一个与Whitehead的形式不同之处)。

要提交这一数据,连接Stanford的主页,并按下RH服务器的链接,然后是RH Server Web Submission。输入Email地址和提交号的区域已被说明。Email地址对于保证收到制图结果是很重要的。提交号是一个可选择栏,它会同结果一起回执给用户,并且用于帮助工作人员使结果组织化。如果STS的染色体分布已知,那么应输入到标有Chromosome Number的区域。这个信息会增加制图软件测出一个正确连接的能力。

现在,将筛选数据粘到大型正文栏中,并按提交键。制图结果一般在几分钟内通过Email回执。Stanford服务器以一系列相对基因标记物的位置返回制图结果。对于每个STS,服务器会报告离其最近的基因标记物、其所在染色体和STS到标记物的距离(以centirays为单位)。尽管并不提供制图结果的图形显示,制图信息仍可用于和以上标出了用户的STS相对Stanford图谱上的其它STS的位置的可浏览型图谱相结合。

CEPH YAC

1993年,巴黎的CEPHCentre d’Études du Polymorphisme Humain),与Genethon合作,发表了人类基因组的第一张物理图谱(Cohen et al., 1993)。这张图由几套重叠YAC组成,形成连接邻近基因标记物的途径。YAC重叠可由几种技术鉴定,包括YAC指纹印迹法(YAC fingerprinting)、与inter-Alu PCR结果杂交法、荧光原位杂交(FISH)和STS含量图。尽管YAC克隆图大部分已被更方便的以STS为基础的图谱替代,对于要包括CEPH YAC库或以克隆为基础的反应物的制图项目还是有用的。

由于YAC库中的高嵌合率,在两个通过指纹法或inter-Alu PCR杂交法确定相互重叠的YAC之间,每一小步可能都很可能跨过基因组的一个物理距离。基于这一点,短距离比长距离更可靠,这一概念已植入CEPH的词条“level”中。一个1级(level)途径,由两个锚定STS组成,它们应至少有一个YAC直接连接。这类途径,与平面STS含量图中用于确定相邻关系的键或单键相类同。可以让研究者从一个STS跳到另一个,而无需跳过任何YAC/YAC连接点。相反,一个2级途径,由两个锚定STS组成,不直接由单个YAC连接,而是由inter-Alu PCR或指纹法确定在包含它们的两个或多个YAC间有一个重叠,所以2级途径需要跳过一个YAC/YAC连接点。3级途径需跳过2个。4级需跳过3个,等等。尽管每一种的可靠性尚未经验性证明,通过对一套CEPH数据的分析(J. Orlin, personal communication)暗示4级或更高时可能不精确。而幸好CEPH途径中近90%的基于间距为3级的或更低。

CEPH服务器得到YAC重叠

CEPH图可以在其单位的网址上在线获得。这里可找到的链接有YAC库信息,也有一系列图谱的后转录文件,用于制图的QuickMap软件,以及含原始图谱数据的文件。浏览CEPH图最好的作用方法为下载QuickMap文件,安装并利用它来观看数据文件。然而,由于QuickMap只对Sun workstations工作,这种方法已经不可行。CEPH也提供针对QuickMap的一种在线界面,在通过标有Infoclone的链接处可以获得。这时会弹出一页,可以提交一个STS、或一个基因标记物或一个YAC的名称。提交名称后会回执所有关于它的原始图谱数据。该文本是超链接,可以从一个YAC的单一inter-Alu PCR杂交跳至另一个。

要得到数据,将浏览器连到CEPH的网址上。这会弹出ECPH Genethon网页。现在找到并选择I链接,接下来的一页会要你在一个小文本栏中输入一个YAC或一个STS的名称。YAC应遵循简便的plate_row_column(板块__列)格式,如923_f_6。对于STS,可以用GDB分配的D-片断名(如果可得的话)或是实验室分配的研究名称。该文件只针对特定事例,所以输入AFM20ZE3不会得到正确的名为AFM220ZE3STS。也应注意YAC地址中排的名称应小写。

按下Query(查询)键,如果该名称存在于CEPH数据库中,那么在短例例2中含相似信息的页面将会出现。第一部分包括一些关于STS的总体信息,如引物序列和基因图谱信息。第二部分给出STSYAC搜索数据。该部分列表中的所有YAC通过直接PAC扫描均发现含有该STS,注释Alu-PCR probe(探针)说明这个YACinter-Alu PCR杂交实验中被选用为探针。第三部分包含与STS相邻的YAC的信息,它们与STS相隔一个inter-Alu PCR的距离。

为得到一个YAC上的制图信息,可在文本栏输入其名称并按下Query键,出现的界面将会给出YACFISHSTS含量图数据的尺寸信息,以及inter-Alu PCR和指纹印迹实验中衍生出的重叠信息。

2 G基因型信息

Genotyping information from Genethon 1994 genetic map:

Number of alleles: 7

Heterozygosity: 0.78

Reference alleles: 1-4

Size range: 204206208210212214218

Primer sequences:

ca TGTACCTAAGCCCACCCTTTAGAGC

gt TGGCCTCCAGAAACCTCCAA

YACs specific for STS AFM220ze3:

678_g_3

CE

 

1730 kb

746_e_4

CE

 

1080 kb1350kb1500kb

756_e_8

IE

Alu-PCR probe

1380 kb

765_d_4

IE

 

1060 kb

765_e_4

IE

Alu-PCR probe

880 kb

826_e_6

IE

Alu-PCR probe

820 kb

YACs neighbouring STS AFM220ze3:

56_c_5

a

Alu-PCR probe

no size

154_d_3

a

Alu-PCR probe

no size

261_c_12

a

Alu-PCR probe

no size

309_c_11

a

Alu-PCR probe

no size

340_g_10

a

Alu-PCR probe

no size

366_f_1

a

Alu-PCR probe

no size

682_a_11

f

 

no size

每个YAC词条有几个编码与之相关。例如,在直接PCR扫描表中,c说明CEPH进行实验的无分歧结果,而E说明为单个已证明的YAC,来源于外在(非CEPH)实验室。在YAC/YAC重叠表中,a说明为一个APCR关系,而f说明为一个指纹印迹关系。完整的编码表从位于该页上的不同帮助链接中而得到。

CEPH YAC库的一个子集已由脉冲区凝胶电泳法限定了大小。如果可以得到它,就能得到YAC的大小。在某些情况下,可以找到多带,这是污染的结果,或是因为在YAC插入区和克隆生长时DNA的随机删除所造成的。这种情况下,多YAC的大小也会演示出来。

特定人类染色体图谱

除基因组范围图谱外,许多个体染色体物理图谱也由研究实验室和基因组中心构建起来了。在很多情况下,这些图谱能比相应基因组范围图谱提供更详尽的信息。表12.1列出了这些图和从网上何处可找到表。除这里所示的URL,在GDB的来源页面上也可得到一个最新的表。另一张表由NHGRI的网址保存。下面所讨论的所有网址列于表12.1中。

染色体3图可在2个中心得到。The University of Texas Health Center at San Antonio提供基于YAC的一张STS含量图,以及一个放射性杂交图。这个网址还提供关于制图数据的一个图形式操作型界面,以及一个基于查询式的机制。The University of Texas也有一张染色体8的放射性杂交图,在同一网址中可以得到。

染色体4STS含量图,含1280STS3300YAC,可从Stanford Human Genome Center网址上得到。这张图只是一系列后转录文件。原始扫描数据还不能在线获得。

Sanger Centre也可得到一套网页,进而得到该组织的放射性杂交图和测序项目的进展。你可以得到以点击式图形存在的图谱数据。测序数据也可以Unix Tape夹形式下载(tar文件)。

染色体7的图谱数据的最初所在网址为位于NHGRI中的Eric Green实验室。主图是一张STS/YAC含量图,附加以ESTBACcosmid重叠群数据。该数据与Washington University的染色体7测序计 划相交联。在The Hospital for Sick Children的遗传学系也可以得到一些染色体7的物理图谱。页通过重叠染色体7特有的YAC组装而成。这些重叠可以综合使用inter-Alu PCR杂交图、指纹印迹法和STS含量图制图的方法来证明。大约90%的7q可认为由重叠群所覆盖。

Genome Therapeutics Corporation of Waltham, Massachusets已经制作了覆盖染色体10的几个部分的STS含量图。这些图的文献摘要和列表从该公司的网址上可以得到,但是这些图本身只能通过GDB得到。

染色体11图谱在University of Texas/Southwestern Medical Center’s Genome Center那里可以得到。其中最大的图是一张针对CEPH YAC库和roswell Park 染色体11特有YAC库的一个STS含量图,包括~1200STS。你可以flatfile形式或是GIF图片形式得到这些数据。FISH制图结果和YAC与一个特定染色体质粒库的杂交结果也可以在这个网址上找到。

Yale UniversityAlbert Einstein Medical Center已经发表了一张染色体12 STS含量图(MarynenKucherlapati, 1995)。该图主要以CEPH YAC库为基础,但也包括质粒和其它类型的克隆。

Columbia University可得一系列染色体13的图谱。这些图由CEPH YAC克隆体组成,这些克隆体通过使用inter-Alu PCR杂交技术在一个染色体13特定质粒库中被检测出来。在这些以克隆为基础的图谱上方也放置了基因、STScDNA。这些图谱和原始数据在Columbia的网址上可以得到,它们以超链接表和flatfile的形式传送。

染色体16Los Alamos National Laboratory图谱(Doggett et al., 1995)是一张相对CEPH YAC库和一系列质粒和其它克隆体制出的,含有500多个STSSTS含量图。Los Alamos网址上有一个完全查询式的染色体10制图数据的数据库,以及一系列图形画面和含有制图数据的flatfile。常用的Sigma图构建项目也由Los Alamos进行,所以这张图也可以Sigma数据文件形式传送。

另一个国家实验室,Lawrence Livermore,负责染色体19。一张高分辨率、以质粒为基础的图谱已经通过限制性分析和FISH制图构建起来,它含有~400STS和许多基因。这张图可从Livermore的网址得到,形式为一系列大型的图片。原始制图数据好象还不能在Internet上得到。

人类染色体22由两个中心负责。The University of Pennsylvania的图片由200多个排在CEPH YAC库上的STS组成(Bell et al., 1995)。在其网址上可以得到完整的一套数据,以及可供查询的搜索页。另外,the Sanger Centre in Cambridge, England也积极参加了这条染色体的制图过程,为大规模测序作准备。在Sanger的网址上可以得到一张以CEPH YAC为基础的STS含量图。它能够以一系列PostScript图片形式或者ACEDB数据库所使用的一种格式(见本章后的列表)被下载。另外,Sanger正在用许多质粒、fosmidsBACPAC进行染色体克隆体图片的构建。此数据现在还不能从Internet上得到。

The Baylor College of MedicineCEPH YAC库为基础,正在制作一张染色体XSTS含量图。STS筛选数据可从一系列位于Baylor网址上的网页中搜索到。另外,Baylor还提供了一个界面,用于搜索由一些其它来源发表的STS筛选信息。

最后,基于完整人类线粒体序列的图谱可从the Department of Genetics and Molecular MedicineEmory University处得到,它是MITOMAP数据库的一部分(Kogelnik et al., 1996)。这个网址可以提供一系列点击式图形图片,显示线粒体的基因、变异和重组,以及完整的核酸序列。

鼠类图谱来源

现在对鼠类作物理图活动最多的地点是Whitehead Institute/MIT Center for Genome Research,而且一张murine STS/YAC含量图已经被构建起来了。这张图,最终将在24000YAC上含有10000STS现在已完成四分之三,在19975月时达到了7500STS

MIT的物理图谱可以在Whitehead的主页上在线浏览。先按下Mouse Genetic and Physical Mapping Project(鼠类基因图和物理图制图项目)的链接,然后向下滚动到标有鼠类STS物理图谱的部分。这一部分与Whitehead人类物理图谱有相同的搜索项和用户界面,但是放射性杂交图数据还不可得。

Whitehead网址上还可以得到基于6331个简单相邻长度多态性的鼠类物理图谱,以及这张图与Copeland/Jenkins限制性片断长度多态性图的整合。这些RFLP图,在Dietrich et al.1996)中所描述,分辨率为1.1cM。分辨率更高的鼠类基因图正由European Collaborative Interspecific Mouse BackCros项目得到。该图最大的理论分辨率将会达0.3cM,并且可以在ECJMBC的主页上在线得到。到19975月已完成5条染色体。

The Mouse Genome DatabaseMGD)是由Bar HarborJackson Laboratory维持的一个大型鼠类基因信息的公用数据库。尽管它基本上还是一个基因图库,MGD还是保留了很多物理图谱信息,包括细胞遗传图谱和synteny图,将来一旦得到数据就会加进去。MGD可在Jackson Laboratory的主页上得到。按下标有Mouse Genome Informatics的链接,然后是标有Mouse Genome Database的链接,可得到用于不同研究的一个起始网页。在所列选项中包括目录检索、基因和标记物符号检索、以及多态性检索。

两个与制图数据的链接很令人感兴趣。一个是标有MapsMapping Data的链接,可以打开一页,通往大量的鼠类基因图谱,也可以得到这张细胞遗传图。第二个链接,标有Mammalian Homology,提供与MGDSynteny图的界面。这些图,基于已知基因的位置,可提供2个或多个哺乳类生物染色体的低分辨率比较。当选择这个链接后,就出现如图12.10所示的很长的一页。该页上有两个滚动列表:Primary SpeciesComparison Species(后者在图12.10中位于视野之外)。每个列表含有一系列哺乳类生物的名称。另外,有很多区域可供用户来限定搜索条件,通过染色体、细胞遗传学带、或是一些几乎不相关的其它数据库区域(如作者名)等等。

要用这个表,只用简单地选择两个待比较的生物的名称。为限定搜索次数,最好在被比较生物或是比较生物中选择一个染色体或是细胞遗传学带。按下Retrieve(取)。在一分多钟后,将会出现一列两种生物共有的基因的表和它们相对的图谱位置。在图12.11中所示的输出例中,比较搜索鼠类染色体1和人类染色体2(第三列)就得到了很大的一个同源区域。

12章提到的有关话题的Internet来源


CEPH YAC

http://www.cephb.fr/ceph-genethon-map.html

CHLC

http://www.chlc.org

ECIMBC主页

http://www.hgmp.mrc.ac.uk/MBx/MbxHomepage.html

Entrez主页

http://www.ncbi.nlm.nih.gov/Entrez/

Entrez全览页

http://www.ncbi.nlm.nih.gov/Entrez/nentrez.overview.html

GDB主页

http://gdbwww.gdb.org/

GDB来源页

http://gdbwww.gdb.org/gdb/hgp_resources.html

Genethon FTP站点

ftp://ftp.genethon.fr/pub/Gmap/Nature-1995

I.M.A.G.E. Consortium

http://www.bio.llnl.gov/bbrp/image/iresources.html

Jackson实验室

http://www.jax.org/

NHGRI来源页

http://www.nhgri.nih.gov/Data/

Science转录物图谱

http://www.ncbi.nlm.nih.gov/Science96/

Stanford主页

http://shgc.stanford.edu/

Stanford RH协议

http://shgc.stanford.edu/Mapping/rh/procedure/

Whitehead主页

http://www.genome.wi.mit.edu/

Whitehead FTP站点

ftp://www.genome.wi.mit.edu/pub/human_STS_releases

C.elegans

ACEDB

http://probe.nalusda.gov:8300/other/

E.coli

University of Wisonsin

http://www.genetics.wisc.edu/

D.melanogaster

FlyBase

http://flybase.indiana.edu:82/

S.cerevisiae

SGD,Stanford

http://genome-www.stanford.edu/Saccharomyces


上一页
下一页
返回目录
返回茶庄