酿酒酵母作为一种模式生物在实验系统研究方面具有许多内在的优势。首先,酵母是一种单细胞生物,能够在基本培养基上生长,使得实验者能够通过改变物理或化学环境完全控制其生长。其次,酵母在单倍体和二倍体的状态下均能生长,并能在实验条件下较为方便地控制单倍体和二倍体之间的相互转换,对其基因功能的研究十分有利。如在单倍体状态下,只需一次基因替换,就能得到某个特定基因缺失的酵母株;而对于一些缺失后致死的基因,人们可以在二倍体菌株中进行基因替换,然后通过孢子筛选,获得带有基因缺失的单倍体菌株。此外,酵母的生命周期很适合经典的遗传学分析,使得在酵母16条染色体上构建精细的遗传图谱成为可能。更重要的是,目前已发展了一些非常有效的技术使得酵母基因组中6000个基因中的任何一个基因均能被突变的等位基因取代,甚至从基因组中完全缺失,这种方法具有很高的效率和准确性[1~3]。
1.酵母基因组组成
在酿酒酵母测序计划开始之前,人们通过传统的遗传学方法已确定了酵母中编码RNA或蛋白质的大约2600个基因[4]。通过对酿酒酵母的完整基因组测序,发现在12068kb的全基因组序列中有5885个编码专一性蛋白质的开放阅读框。这意味着在酵母基因组中平均每隔2kb就存在一个编码蛋白质的基因,即整个基因组有72%的核苷酸顺序由开放阅读框组成[5]。这说明酵母基因比其它高等真核生物基因排列紧密。如在线虫基因组中,平均每隔6kb存在一个编码蛋白质的基因[6];在人类基因组中,平均每隔30kb或更多的碱基才能发现一个编码蛋白质的基因。酵母基因组的紧密性是因为基因间隔区较短与基因中内含子稀少。酵母基因组的开放阅读框平均长度为1450bp即483个密码子,最长的是位于XII号染色体上的一个功能未知的开放阅读框(4910个密码子),还有极少数的开放阅读框长度超过1500个密码子。在酵母基因组中,也有编码短蛋白的基因,例如,编码由40个氨基酸组成的细胞质膜蛋白脂质的PMP1基因。此外,酵母基因组中还包含:约140个编码RNA的基因,排列在XII号染色体的长末端;40个编码SnRNA的基因,散布于16条染色体;属于43个家族的275个tRNA基因也广泛分布于基因组中。表1提供了酵母基因在各染色体上分布的大致情况。
表1 酵母染色体简况
染色体编号 |
长度(bp) | 基因数 | tRNA基因数 |
I | 23×103 | 89 | 4 |
II | 807188 | 410 | 13 |
III | 315×103 | 182 | 10 |
IV | 1531974 | 796 | 27 |
V | 569202 | 271 | 13 |
VI | 270×103 | 129 | 10 |
VII | 1090936 | 572 | 33 |
VIII | 561×103 | 269 | 11 |
IX | 439886 | 221 | 10 |
X | 745442 | 379 | 24 |
XI | 666448 | 331 | 16 |
XII | 1078171 | 534 | 22 |
XIII | 924430 | 459 | 21 |
XIV | 784328 | 419 | 15 |
XV | 1092283 | 560 | 20 |
XVI | 948061 | 487 | 17 |
序列测定揭示了酵母基因组中大范围的碱基组成变化。多数酵母染色体由不同程度的、大范围的GC丰富DNA序列和GC缺乏DNA序列镶嵌组成[5、7]。这种GC含量的变化与染色体的结构、基因的密度以及重组频率有关。GC含量高的区域一般位于染色体臂的中部,这些区域的基因密度较高;GC含量低的区域一般靠近端粒和着丝粒,这些区域内基因数目较为贫乏[5、8]。Simchen等证实[9],酵母的遗传重组即双链断裂的相对发生率与染色体的GC丰富区相耦合,而且不同染色体的重组频率有所差别,较小的Ⅰ、Ⅲ、Ⅳ和Ⅸ号染色体的重组频率比整个基因组的平均重组频率高。?
酵母基因组另一个明显的特征是含有许多DNA重复序列,其中一部分为完全相同的DNA序列,如rDNA与CUP1基因、Ty因子及其衍生的单一LTR序列等[8]。在开放阅读框或者基因的间隔区包含大量的三核苷酸重复,引起了人们的高度重视。因为一部分人类遗传疾病是由三核苷酸重复数目的变化所引起的。还有更多的DNA序列彼此间具有较高的同源性,这些DNA序列被称为遗传丰余(genetic redundancy)[8、10]。酵母多条染色体末端具有长度超过几十个kb的高度同源区,它们是遗传丰余的主要区域,这些区域至今仍然在发生着频繁的DNA重组过程。遗传丰余的另一种形式是单个基因重复,其中以分散类型最为典型,另外还有一种较为少见的类型是成簇分布的基因家族。成簇同源区(cluster homology region,简称CHR)是酵母基因组测序揭示的一些位于多条染色体的同源大片段,各片段含有相互对应的多个同源基因,它们的排列顺序与转录方向十分保守,同时还可能存在小片段的插入或缺失。这些特征表明,成簇同源区是介于染色体大片段重复与完全分化之间的中间产物,因此是研究基因组进化的良好材料,被称为基因重复的化石[5、8]。染色体末端重复、单个基因重复与成簇同源区组成了酵母基因组遗传丰余的大致结构。研究表明,遗传丰余中的一组基因往往具有相同或相似的生理功能,因而它们中单个或少数几个基因的突变并不能表现出可以辨别的表型,这对酵母基因的功能研究是很不利的。所以许多酵母遗传学家认为,弄清遗传丰余的真正本质和功能意义,以及发展与此有关的实验方法,是揭示酵母基因组全部基因功能的主要困难和中心问题。
2.酵母基因组分析
在酵母基因组测序以前,人们已知道在酵母和哺乳动物中有大量基因编码类似的蛋白质[11]。对于一些编码结构蛋白质(如核糖体和细胞骨架中的)在内的同源基因,人们并不感到意外。但某些同源基因却出乎人们意料,如在酵母中发现的两个同源基因RAS1和RAS2与哺乳动物的H-ras原癌基因高度同源。酵母细胞如同时缺乏RAS1和RAS2基因,呈现致死表型。在1985年,首次应用RAS1和RAS2基因双重缺陷的酵母菌株进行了功能保守性检测,结果表明,当哺乳动物的H-ras基因在RAS1和RAS2基因双重缺陷的酵母菌株中表达时,酵母菌株可以恢复生长。因此,酵母的RAS1和RAS2基因不仅与人类的H-ras原癌基因在核苷酸顺序上高度同源,而且在生物学功能方面保守。
随着整个酵母基因组测序计划的完成,人们可以估计有多少酵母基因与哺乳动物基因具有明显的同源性。Botstein等将所有的酵母基因同GenBank数据库中的哺乳动物基因进行比较(不包括EST顺序),发现有将近31%编码蛋白质的酵母基因或者开放阅读框与哺乳动物编码蛋白质的基因有高度的同源性[12]。因为数据库中并未能包含所有编码哺乳动物蛋白质的序列,甚至不能包括任何一个蛋白质家族的所有成员,所以上述结果无疑会被低估。酵母与哺乳动物基因的同源性往往仅限于单个的结构域而非整个蛋白质,这反映了在蛋白质进化过程中功能结构域发生了重排。在酵母5800多个编码蛋白质的基因中,约41%(~2611个)是通过传统遗传学方法发现的,其余都是通过DNA序列测定所发现。约有20%酵母基因编码的蛋白质与其它生物中已知功能的基因产物具有不同程度的同源性(其中约6%表现出很强的同源性,约12%表现出稍弱的同源性),从而能初步推测其生物学功能。酵母基因组中有10%基因(约653个)与其它生物中功能未知的蛋白质的基因具有同源性,被称为孤儿基因对或孤儿基因家族(orphan pairs or family);约25%的基因(~1544个)则与所有已发现的蛋白质的基因没有同源性,属首次发现的新基因,是真正意义上的孤儿基因[5、13]。这些孤儿基因的发现是酵母基因组计划的重要收获,对于其功能的阐明,将大大推进对酵母生命过程的认识,因而引起了众多遗传学家的重视。
为了系统地分析酵母基因组测序发现的3000多个新基因的功能,1996年1月,随着DNA测序工作的结束,欧洲建立了名为EUROFAN(European Functional Analysis Network)的研究网络。这一网络由欧洲14个国家的144个实验室组成,它包括服务共同体(service consortia,A1-A4)、研究共同体(research consortia,B0?B9)和特定功能分析部(specific functional analysis nodes,N1-N14)三部分,每个部分下设许多小的分支机构。其中研究共同体中的B0部门负责制作特定的酵母基因缺失突变株。缺失突变株的制作采用新发展起来的PCR介导的基因置换方法进行,即将来自细菌的卡那霉素抗性基因(KanMX)与线状真菌Ashbya gossypil的启动子和终止序列构建成表达单元,它可赋予酵母细胞G418以抗性。然后,根据所要置换的染色体DNA序列设计PCR引物,这些引物的外侧与染色体DNA序列同源,内侧则保证通过PCR可以扩增出KanMX基因,PCR产物直接用于基因置换操作[14]。通过这项技术,可以有目的地将新发现的基因用KanMX置换,造成基因缺失突变,随后通过系统地研究这些酵母缺失突变株表型有无改变(如生活力、生长速度、接合能力等)以确定这些基因的功能[15]。此种方法中有两个方面的问题限制实验进程:其一是大部分的突变子(60%~80%)并不显示明显的突变表型,这往往与前面提到的遗传丰余有关;其二是许多突变子即使发生了表型改变,也不能反映其编码蛋白质的功能,如某些突变子不能在高温或高盐的环境中生长,但这些表型却不能提示任何有关缺失蛋白质在生理功能方面的信息。
3.酵母作为模式生物的作用
酵母作为高等真核生物特别是人类基因组研究的模式生物,其最直接的作用体现在生物信息学领域。当人们发现了一个功能未知的人类新基因时,可以迅速地到任何一个酵母基因组数据库中检索与之同源的功能已知的酵母基因,并获得其功能方面的相关信息,从而加快对该人类基因的功能研究。研究发现,有许多涉及遗传性疾病的基因均与酵母基因具有很高的同源性,研究这些基因编码的蛋白质的生理功能以及它们与其它蛋白质之间的相互作用将有助于加深对这些遗传性疾病的了解。此外,人类许多重要的疾病,如早期糖尿病、小肠癌和心脏疾病,均是多基因遗传性疾病,揭示涉及这些疾病的所有相关基因是一个困难而漫长的过程,酵母基因与人类多基因遗传性疾病相关基因之间的相似性将为我们提高诊断和治疗水平提供重要的帮助。
酵母作为模式生物的最好例子体现在那些通过连锁分析、定位克隆然后测序验证而获得的人类遗传性疾病相关基因的研究中,后者的核苷酸序列与酵母基因的同源性为其功能研究提供了极好的线索。例如,人类遗传性非息肉性小肠癌相关基因与酵母的MLH1、MSH2基因,运动失调性毛细血管扩张症相关基因与酵母的TEL1基因,布卢姆氏综合征相关基因与酵母的SGS1基因,都有很高的同源性(见表2)。遗传性非息肉性小肠癌基因在肿瘤细胞中表现出核苷酸短重复顺序不稳定的细胞表型,而在该人类基因被克隆以前,研究工作者在酵母中分离到具有相同表型的基因突变(msh2和mlh1突变)。受这个结果启发,人们推测小肠癌基因是MSH2和MLH1的同源基因,而它们在核苷酸序列上的同源性则进一步证实了这一推测。布卢姆氏综合征是一种临床表现为性早熟的遗传性疾病,病人的细胞在体外培养时表现出生命周期缩短的表型,而其相关基因则与酵母中编码蜗牛酶的SGS1基因具有很高的同源性。与来自布卢姆氏综合征个体的培养细胞相似,SGS1基因突变的酵母细胞表现出显著缩短的生命周期[16]。Francoise等研究了170多个通过功能克隆得到的人类基因,发现它们中有42%与酵母基因具有明显的同源性,这些人类基因的编码产物大部分与信号转导途径、膜运输或者DNA合成与修复有关,而那些与酵母基因没有明显同源性的人类基因主要编码一些膜受体、血液或免疫系统组分,或人类特殊代谢途径中某些重要的酶和蛋白质[17]。
表2 与定位克隆的人类疾病基因高度同源的酿酒酵母基因
人类疾病 |
人类基因 |
人类cDNA |
酵母基因 | 酵母cDNA GenBank登记号 |
酵母基因功能 |
遗传性非息肉性小肠癌 |
MSH2 |
U03911 | MSH2 | M84170 |
DNA修复蛋白 |
遗传性非息肉性小肠癌 | MLH1 | U07418 | MLH1 | U07187 |
DNA修复蛋白 |
囊性纤维变性 | CFTR | N28668 | YCF1 | L35237 | 金属抗性蛋白 |
威尔逊氏病 | WND | U11700 | CCC2 | L36317 | 铜转运器 |
甘油激酶缺乏症 | GK | L13943 | GUT1 | X69049 |
甘油激酶 |
布卢姆氏综合症 | BLM | U39817 | SGS1 | U22341 | 蜗牛酶 |
X-连锁的肾上腺脑白质营养不良 | ALD | Z21876 | PAL1 | L38491 | 过氧化物酶转运器 |
共济失调性毛细血管扩张症 | ATM | U26455 | TEL1 | U31331 | P13激酶 |
肌萎缩性脊髓侧索硬化 | SOD1 | K00065 | SOD1 | J03279 | 过氧化物歧化酶 |
营养不良性肌萎缩 | DM | L19268 | YPK1 | M21307 | 丝氨酸/苏氨酸蛋白激酶 |
勒韦氏综合症 | OCRL | M88162 | YIL002C | X47047 | IPP-5-磷酸酶 |
I-型神经纤维瘤 | NF1 | M89914 | IRA2 | M33779 | 抑制性的调节蛋白 |
随着获得高等真核生物更多的遗传信息,人们将会发现有更多的酵母基因与高等真核生物基因具有同源性,因此酵母基因组在生物信息学领域的作用会显得更加重要,这同时也会反过来促进酵母基因组的研究。与酵母相比,高等真核生物具有更丰富的表型,从而弥补了酵母中某些基因突变没有明显表型改变的不足。下面将要提到的例子正说明了酵母和人类基因组研究相互促进的关系。人类着色性干皮病是一种常染色体隐性遗传的皮肤疾病,极易发展成为皮肤癌。早在1970年Cleaver等就曾报道,着色性干皮病和紫外线敏感的酵母突变体都与缺乏核苷酸切除修复途径(nucleotide excision repair,NER)有关[18]。1985年,第一个NER途径相关基因被测序并证实是酵母的RAD3基因[19]。1987年,Sung首次报道酵母Rad3p能修复真核细胞中DNA解旋酶活力的缺陷[20]。1990年,人们克隆了着色性干皮病相关基因xPD,发现它与酵母NER途径的RAD3基因有极高的同源性[21]。随后发现所有人类NER的基因都能在酵母中找到对应的同源基因。重大突破来源于1993年,发现人类xPBp和xPDp都是转录机制中RNA聚合酶Ⅱ的TFⅡH复合物的基本组分[22]。于是人们猜测xPBp和xPDp在酵母中的同源基因(RAD3和RAD25) 也应该具有相似的功能,依此线索很快获得了满意的结果并证实了当初的猜测[23]。
酵母作为模式生物的作用不仅是在生物信息学方面的作用,酵母也为高等真核生物提供了一个可以检测的实验系统。例如,可利用异源基因与酵母基因的功能互补以确证基因的功能。据Bassett的不完全统计,到1996年7月15日,至少已发现了71对人类与酵母的互补基因,这些酵母基因可分为六个类型:(1)20个基因与生物代谢包括生物大分子的合成、呼吸链能量代谢以及药物代谢等有关;(2)16个基因与基因表达调控相关,包括转录、转录后加工、翻译、翻译后加工和蛋白质运输等;(3)1个基因是编码膜运输蛋白的;(4)7个基因与DNA合成、修复有关;(5)7个基因与信号转导有关;(6)17个基因与细胞周期有关。现在,人们发现有越来越多的人类基因可以补偿酵母的突变基因,因而人类与酵母的互补基因的数量已远远超过过去的统计。
在酵母中进行功能互补实验无疑是一种研究人类基因功能的捷径。如果一个功能未知的人类基因可以补偿酵母中某个具有已知功能的突变基因,则表明两者具有相似的功能。而对于一些功能已知的人类基因,进行功能互补实验也有重要意义。例如与半乳糖血症相关的三个人类基因GALK2(半乳糖激酶)、GALT(UDP-半乳糖转移酶)和GALE(UDP-半乳糖异构酶)能分别补偿酵母中相应的GAL1、GAL7、GAL10基因突变。在进行互补实验以前,人类和酵母的乳糖代谢途径都已十分清楚,对有关几种酶的活性检测法也十分健全,并已获得其纯品,可以进行一系列生化分析。随着人类三个半乳糖血症相关基因的克隆分离成功,功能互补实验成为可能,从而在遗传学水平进一步确证了人类半乳糖血症相关基因与酵母基因的保守性。人们又将这一成果予以推广,利用酵母系统进行半乳糖血症的检测和基因治疗,如区别真正的突变型和遗传多态性,在酵母中模拟多种突变型的组合表型,或筛选基因内或基因间的抑制突变等[24]。这些方法也同样适用于其它遗传病的研究。
利用异源基因与酵母基因的功能,还能使酵母成为其它生物新基因的筛查工具。通过使用特定的酵母基因突变株,对人类cDNA表达文库进行筛选,从而获得互补的克隆。如Tagendreich等利用酵母的细胞分裂突变型(cdc mutant)分离到多个在人类细胞有丝分裂过程中起作用的同源基因[25]。利用此方法,人们还克隆分离到了农作物、家畜和家禽等的多个新基因[26]。 为了充分发挥酵母作为模式生物的作用,除了发展酵母生物信息学和健全异源基因在酵母中进行功能互补的研究方法外,通过建立酵母最小的基因组也是一个可行的途径。酵母最小的基因组是指所有明显丰余的基因减少到允许酵母在实验条件下的合成培养基中生长的最小数目[10、27]。人类cDNA克隆与酵母中功能已知基因缺陷型进行遗传互补可以确定人类新基因的功能,但是这种互补实验会受到酵母基因组中其它丰余基因的影响。如果构建的酵母最小基因组中所保留的基因可以被人类或者病毒的DNA序列完全替换,那么替换后的表型将完全取决于外源基因,这将成为一种筛选抗癌和抗病毒药物的分析系统。?
参考文献
[1]Rothstein RJ. Methods Enzymol,1983,101:202~211
[2]Baudin A et al. Nucleic Acids Res,1993,21:3329~3330
[3]Wach A et al. Yeast,1994,10:1793~1808
[4]Mortimer RK et al. Yeast,1992,8:817~902
[5]Dujon B. Trends Genet,1996,12:263~270
[6]Hodgkin J et al. Science,1994,270:410
[7]Sharp PM et al. Nucleic Acids Res,1993,21:179~183
[8]Goffeau A et al. Science,1996,274:546
[9]Zenvirth D et al. EMBO J,1992,11:3441~3447
[10]Oliver SG. Microbiology,1997,143:1483~1487
[11]Botstein D et al. Science,1988,240:1439~1443
[12]Botstein D et al. Science,1997,277:1259~1260
[13]Heumann K et al. Max-planck?institute fur Biochemie,Germany,1997,82152
[14]Wach A. Yeast,1996,12:259~265
[15]Oliver S. Trends Genet,1996,12:241~242
[16]Sinclair DA et al. Science,1997,277:1313~1316
[17]Francoise F. Gene,1997,195:1~10
[18]Cleaver JE. Photobiol,11:547~550
[19]Reynolds P et al. Nucleic Acids Res,13:2357~2372
[20]Sung P. Proc Natl Acad Sci USA,1987,84:8951~8955
[21]Weber CA et al. EMBO J,1990,9:1343~1347
[22]Schaeffer L et al. Science,1993,260:58~63
[23]Feaver WJ et al. Cell,75:1379~1387
[24]Quimby BB et al. Am J Hum Genet,1997,61:590~598
[25]Tugendreich S et al. Cell,1997,81:261~268
[26]Taylor RM et al. Plant J,1998,14:75~81
[27]Oliver SG. Nature,1996,379:597~600