真核生物基因表达的调控远比原核生物复杂,可以发生在DNA水平、转录水平、转录后的修饰、翻译水平和翻译后的修饰等多种不同层次(图 真核生物基因表达中可能的调控环节)。但是,Z经济、Z主要的调控环节仍然是在转录水平上。
(一)DNA水平的调控
DNA水平上的调控是通过改变基因组中有关基因的数量、结构顺序和活性而控制基因的表达。这一类的调控机制包括基因的扩增、重排或化学修饰。其中有些改变是可逆的。
1、基因剂量与基因扩增
细胞中有些基因产物的需要量比另一些大得多,细胞保持这种特定比例的方式之一是基因组中不同基因的剂量不同。例如,有A、B两个基因,假如他们的转录、翻译效率相同,若A基因拷贝数比B基因多20 倍,则A基因产物也多20倍。组蛋白基因是基因剂量效应的一个典型实例。为了合成大量组蛋白用于形成染色质,多数物种的基因组含有数百个组蛋白基因拷贝。
基因剂量也可经基因扩增临时增加。两栖动物如蟾蜍的卵母细胞很大,是正常体细胞的一百倍,需要合成大量核糖体。核糖体含有rRNA分子,基因组中的rRNA基因数目远远不能满足卵母细胞合成核糖体的需要。所以在卵母细胞发育过程中,rRNA基因数目临时增加了4000倍。卵母细胞的前体同其他体细胞一样,含有约500个rRNA基因(rDNA)。在基因扩增后,rRNA基因拷贝数高达2×106。这个数目可使得卵母细胞形成1012个核糖体,以满足胚胎发育早期蛋白质大量合成的需要。
在基因扩增之前,这500个rRNA基因以串联方式排列。在发生扩增的3周时间里,rDNA不再是一个单一连续DNA片段,而是形成大量小环即复制环,以增加基因拷贝数目。这种rRNA基因扩增发生在许多生物的卵母细胞发育过程中,包括鱼、昆虫和两栖类动物。目前对这种基因扩增的机制并不清楚。
在某些情况下,基因扩增发生在异常的细胞中。例如,人类癌细胞中的许多致癌基因,经大量扩增后GX表达,导致细胞繁殖和生长失控。有些致癌基因扩增的速度与病症的发展及癌细胞扩散程度高度相关。
2.基因丢失
在一些低等真核生物的细胞分化过程中,有些体细胞可以通过丢失某些基因,从而达到调控基因表达的目的,这是一种极端形式的不可逆的基因调控方式。
如某些原生动物、线虫、昆虫和甲壳类动物在个体发育到一定阶段后,许多体细胞常常丢失整条染色体或部分染色体,而只有在将来分化生殖细胞的那些细胞中保留着整套的染色体。在马蛔虫中,个体发育到一定阶段后,体细胞中的染色体破碎,形成许多小的染色体,其中有些小染色体没有着丝粒,它们因不能在细胞分裂中正常分配而丢失,在将来形成生殖细胞的细胞中不存在染色体破碎现象。
但是,基因丢失现象在高等真核生物中还未发现。
3.DNA重排(基因重排)
基因重排(gene rearrangement)是指DNA分子中核苷酸序列的重新排列。这些序列的重排可以形成新的基因,也可以调节基因的表达。这种重排是由基因组中特定的遗传信息决定的,重排后的基因序列转录成mRNA,翻译成蛋白质。
尽管基因组中的DNA序列重排并不是一种普通方式,但它是有些基因调控的重要机制,在真核生物细胞生长发育中起关键作用。
⑴酵母交配型转换。
啤酒酵母交配型转换是DNA重排的结果。酵母菌有两种交换型,分别a和α。单倍体a和α之间配合才能产生二倍体a/α,经减数分裂及产孢过程形成单倍体四分子,其中a和α的孢子的比例为2:2。如果单独培养基因型a和α的孢子,由于仅有与亲代相同的交配型基因型,所以形成的孢子之间不能发生交配。但酵母菌中有一种同宗配合交配类型,其细胞可转换成对应的交配类型,使细胞之间可发生配合。
起始的单倍体孢子(这里是α)发育成一个母细胞及一个芽细胞,芽细胞再长成子细胞。在下一次分裂后,这个母细胞及新形成的子细胞转换成对应的交配型a,结果是两个α 和两个a型细胞。相对应交配型细胞融合形成a/α二倍体合子(交配)。再经有丝分裂及产孢过程又形成单倍体孢子。这种交配型转换的基础是遗传物质的重排。控制交配型的MAT基因位于酵母菌第3染色体上,MATa和MATα互为等位基因。含有MATa单倍体细胞为a交配型,具有MATα基因型的细胞为α交配型。MAT位点的两端,还有类似MAT基因的HMLa和HMRa基因,他们分别位于第3染色体左臂和右臂上。这两个基因分别具有与MATα和MATa 相同的序列,但在其基因上游各有一个YZ转录起始的沉默子,所以不表达。
交换型转换是由HO内切核酸酶(HO endonuclease)的作用开始的(图8-19)。这个内切酶将MATa基因内的一段24bp的双链DNA切开,另一种核酸外切酶在双链DNA的切口,从5′到3′加工产生一段突出的3′单链尾端序列(约500个核苷酸),MATa基因用这一段单链系列插入到MATα基因的同源序列中,以HMLα序列为模板,合成一段新的HMLα基因序列,再通过重组使HMLα整合到MATa序列中,导致基因转换,由MATa转换成MATα。在这个重组过程中,有一段244bp的重组强化子(recombinant enhancer, RE)对重组起顺式调控作用,是基因转换所必须的,RE缺失则不能发生基因转换。这段RE序列也位于第3染色体左臂上,靠近HMLα位点。
MAT基因编码一种与MCM1转录因子互作的调控蛋白,控制其它基因转录。MATa和MATα基因产物对MCM1具有不同的影响,因而表现出不同的等位基因特异表达模式。在红色面包霉及其它真菌中出现的四分孢子异常比例,也是重组后产成的基因转换形成的。
(2)动物抗体基因重排
一个正常哺乳动物可产生108以上不同的抗体分子,每一种抗体具有与特定抗原结合的能力。抗体是蛋白质,每一种特异抗体具有不同的氨基酸序列。如果抗体的遗传表达是一个基因编码一条多肽链,那么一个哺乳动物就需要108以上的基因来编码抗体,这个数目至少是整个基因组中基因数目(现在估计人类基因组中编码蛋白质的基因大概只有30000个左右)的1000倍。这是不可能实现的!
那么哺乳动物是采用什么机制形成如此众多的不同抗体分子的呢?
首先我们看一下抗体分子的结构(图 抗体分子结构)。抗体包括两条分别约440个氨基酸的重链(heavy chain, H)和两条分别约214个氨基酸的轻链(light chain, L)。不同抗体分子的差别主要在重链和轻链的氨基端(N端),故将N端称为变异区(variable region, V),N端的长度约为110个氨基酸。不同抗体羧基端(C端)的序列非常相似,称为恒定区(constant region, C)。抗体的轻链、重链之间和两条重链之间由二硫键连接,形成一种四链(H2L2)结构的免疫球蛋白分子。
在人类基因组中,所有抗体的重链和轻链都不是由固定的完整基因编码的,而是由不同基因片段经重排后形成的完整基因编码的。
完整的重链基因由VH、D、J和C四个基因片断组合而成,完整的轻链基因由VL、J和C三3个片段组合而成。
人的第14号染色体上具有86个重链变异区片段(VH),30个多样区片段(diverse,D),9个连接区片段(jioning,J)以及11个恒定区片段(C)。
轻链基因分为3个片段,变异区(VL),连接区(J)和恒定区(C)。人类的轻链分为2型:κ型(Kappa轻链,κ)和λ型(Lambda轻链,λ)。κ轻链基因位于第2号染色体上,λ轻链基因位于第22号染色体 随着B淋巴细胞的发育,基因组中的抗体基因在DNA水平发生重组,形成编码抗体的完整基因(图 人类抗体重链基因结构)。在每一个重链分子重排时,首先V区段与D区段连接,然后与J区段连接,Z后与C区段连接,形成一个完整的抗体重链基因。每一个淋巴细胞中只有一种重排的抗体基因。
轻链的重排方式与重链基本相似(图 人类抗体κ链基因结构),所不同的是轻链由3个不同的片断组成。
重链和轻链基因重排后转录,再翻译成蛋白质,由二硫键连接,形成抗体分子。
产生免疫球蛋白分子多样性的遗传控制:
重链和轻链的不同组合,κ、λ、H;
在重链中,V、D、J和C片段的组合;
κ轻链中V和C的组合;
λ轻链中V、J和C的组合;
此外,基因片段之间的连接点也可以在几个bp的范围内移动。
因此,可以从约300个抗体基因片段中产生109 数量级的免疫球蛋白分子。
3. DNA甲基化和去甲基化
在真核生物DNA分子中,少数胞嘧啶碱基第5碳上的氢可以在甲基化酶的催化下被一个甲基取代,使胞嘧啶甲基化(methylation)。
甲基化多发生在5′-CG-3′二核苷酸对上。有时CG二核苷酸对上的两个C都甲基化,称为完全甲基化,只有一个C甲基化称为半甲基化。甲基化酶可识别这种半甲基化DNA分子,使另一条链上的胞嘧啶也甲基化。
DNA的甲基化可以引起基因的失活。活跃表达的基因都是甲基化不足的基因。表达活性与甲基化程度呈负相关。甲基化的程度可以在转录的充分激活和完全阻遏之间起调节作用。把甲基化和未甲基化的病毒DNA或细胞核基因分别导入活细胞,已甲基化的基因不表达,而未甲基化的能够表达。在大鼠个体发育过程中,核内DNA甲基化的水平失不断提高的,14d的胚胎肝脏只有8%的rDNA甲基化,18d的胚胎肝脏有30%的rDNA甲基化,而成年大鼠肝组织中rDNA的甲基化程度高达60%。
某些玉米Ac转座因子在没有任何DNA序列变化的情况下,失去了转座酶基因活性,就是因为这个基因的富含CG区域发生了高度甲基化。经化学处理去甲基化后,又可使转座酶基因活性恢复。
(二)转录水平的调控
持家基因和基因
在多细胞的高等真核生物中,各种类型的细胞中都有相同的一些基因在表达,这些基因的产物是维持细胞的正常结构、运动、以及参与新成代谢等生命活动所必须的,由于它们的功能对于每一个细胞开说都是必不可少的,所以将这些基因称为持家基因(house keeping gene)。如组蛋白基因、核糖体蛋白基因、线粒体蛋白基因、糖酵解酶基因等。在哺乳动物中,持家基因大约有10000个左右。另一类基因是组织特异性基因(tissue-specific gene),又称为基因(luxury gene)。这类基因与细胞的特定功能有关,是在各种组织中选择性表达的基因。如表皮的角蛋白基因、肌细胞中的肌动蛋白基因和肌球蛋白基因等。据估计,各类细胞中的基因的总和大于持家基因的数目。
持家基因和基因的表达调控通常发生在转录水平。
前面介绍了细菌中的基因经诱导可使表达效率提高千倍以上。这种极端的调控水平很难发生在真核生物基因表达中(酵母菌除外)。大多数真核生物基因经诱导可提高几倍至数十倍的表达效率。多数真核生物基因转录水平的调控是正调控。
1、真核基因表达调控的顺式作用元件
顺式作用元件(cis-acting element)是指DNA分子上对基因表达有调节活性的特定核苷酸序列。顺式作用元件的活性只影响同一DNA分子上的基因。这种DNA序列多位于基因上游或内含子中。
真核基因的顺式作用元件按其功能可以分为:启动子、增强子和静止子。
启动子的结构和功能
启动子是转录因子和RNA聚合酶的结合位点,位于受其调控的基因上游,邻近基因转录起始点,是基因的一部分(图 真核生物启动子元件)。
TATA框(TATA box):ZX位于-30位置,是RNA聚合酶Ⅱ识别和结合位点。富含AT碱基,一般有8bp,改变其中任何一个碱基都会显著降低转录活性,又称为Hogness box。如人类的β珠蛋白基因启动子中TATA序列发生突变,β珠蛋白产量就会大幅度下降而引起贫血症。
CAAT框(CAAT box):位于-70~-80位置,共有序列GGCC(T)CAATCT。决定启动子的起始频率。兔的β珠蛋白基因的CAAT框变成TTCCAATCT,其转录效率只有原来的12%。
GC框(GC box):-110位置,GGGCGG。增强转录活性。
真核基因的启动子有三个元件构成,而原核基因的启动子一般只有两个元件,-10位置的TATAbox和-35位置的TTGACAbox。
增强子的结构和功能
增强子(enhancer),又称强化子(transcriptional enhancer),是一种远端调控元件,至少距转录起始点上游100bp以上,通常位于-700~-1000处,所以又称为上游激活序列(upstream activator sequence, UAS)。
增强子区的跨度一般有100-200bp,和启动子一样,由一个或多个各具特征的DNA序列组成,常由8-12bp的核心序列和其他序列相间排列。
增强子也要通过与特定的蛋白质因子(转录因子)结合而实现其对转录的增强作用。
静止子
是一种类似增强子但起负调控作用的顺式作用元件。有人称为沉默基因。静止子与相应的反式作用因子结合后,可以使正调控系统失去作用。
2、真核基因调控的反式作用因子
不论是启动子还是增强子序列,他们的转录调节功能都是通过与特定的DNA结合蛋白的相互作用而实现的。
真核生物的RNA聚合酶与原核生物的RNA聚合酶不同,它本身不能启动转录,纯化了的真核生物RNA聚合酶在体外是不能启动转录的。因此必须事先有一套转录因子装配到启动子上,RNA聚合酶才能启动转录。
这些转录因子一般并不是RNA聚合酶的组成成分。
能直接或间接识别各种顺式调控元件并与之结合从而调控基因转录效率的各种蛋白质分子称为反式作用因子 (trans-acting factor)。
能激活真核生物基因转录的蛋白质称为转录因子(transcription factor, TF)。转录因子是参与正调控的反式作用因子,是转录起始过程中RNA聚合酶所需要的辅助因子。
这类DNA结合蛋白有很多种,顺式调控元件也有多种,正是不同的DNA序列和不同的DNA结合蛋白之间在空间结构上的相互作用,以及蛋白质与蛋白质之间的相互作用,构成了复杂的基因转录调控机制。
反式作用因子的结构特征
反式作用因子一般都具有三个不同功能结构域(domain)。
①DNA结合结构域 与顺式调控元件结合的部位。
对大量转录调控因子结构的研究表明,DNA结合结构域大多在100bp以下。大体上有4种结构特征:α螺旋-转角-α螺旋(helix-turn-helix, HTH)结构(图 螺旋-转角-螺旋)、锌指(zinc finger)结构(图 锌指结构)、亮氨酸拉链(leucine zipper)结构(图 亮氨酸拉链)等。
②激活基因转录的功能结构域 一般有20-100个氨基酸组成。有时一个反式作用因子可能有一个以上的转录激活区。结构特征有:含有很多带负电荷的α螺旋、富含谷氨酰胺或者富含脯氨酸。
③与其他蛋白质因子结合的结构域
不同的反式调控因子(转录因子)与顺式调控元件相互作用,启动转录的效率不同。
2.选择性启动子
有些真核生物基因具有两个或两个以上的启动子,用于在不同细胞中表达。不同启动子可产生不同的初级转录产物和不相同的蛋白质编码序列。果蝇的乙醇脱氢酶基因是一个典型的例子。这个基因的结构见图8-31A。在幼虫(图8-31B)和成虫期(图8-31C)分别利用不同启动子进行转录。成虫期的转录具有一段很长的5’端前导序列,其中大多数在mRNA加工中去掉。多启动子可使幼虫和成虫具有独立的转录调控。
(三)转录后调控
在真核生物中,蛋白质基因的转录产物统称为核不均一RNA,必须经过加工才能成为成熟的mRNA分子。在第三章已经讲过,加工过程包括三个方面:加帽、加尾和去掉内含子。
转录后的内含子剪切过程在基因表达的调控中具有重要意义。
选择性mRNA切割
我们知道,在DNA水平上,真核生物基因与原核生物基因有一个明显的不同之处,也就是真核生物的基因是不连续的,外显子与内含子相间排列,而转录的时候外显子和内含子是一起转录的。转录以后必须降内含子切除,才能形成成熟的mRNA分子。这个过程成为剪接(splicing)。
同一初级转录产物在不同细胞中可以用不同方式切割加工,形成不同的成熟mRNA分子,使翻译成的蛋白质在含量或组成上都可能不同(图 选择性剪接)。
(四)翻译水平的调控
在真核生物中,基因表达的调控主要发生在转录水平上,但是,翻译水平的调控也是十分重要的。
阻遏蛋白与mRNA结合,可以阻止蛋白质的翻译。
铁蛋白的功能是在细胞内贮存铁。铁蛋白mRNA的翻译取决于铁的供应。铁供应充足,则铁蛋白合成就多。当细胞中没有铁时,阻遏蛋白与铁蛋白mRNA结合,阻止翻译的进行。当细胞中有铁存在时,阻遏蛋白就不与铁蛋白mRNA结合,使翻译得以进行。
成熟的mRNA可以失活状态贮存起来。
(五)翻译后调控
从mRNA翻译成蛋白质,并不意味着基因表达的调控就结束了。直接来自核糖体的线状多肽链是没有功能的,必须经过加工才具有活性。在蛋白质翻译后的加工过程中,还有一系列的调控机制。
1.蛋白质折叠
线性多肽链必须折叠成一定的空间结构,才具有生物学功能。在细胞中,蛋白质的折叠必须有伴蛋白的作用下才能完成折叠。
2.蛋白酶切割
末端切割
有些膜蛋白、分泌蛋白,在氨基端具有一段疏水性强的氨基酸序列,称为信号肽,用于前体蛋白质在细胞中的定位。信号肽必须切除多肽链才具有功能。
脊椎动物中形成的胰岛素,Z初的长度是105个氨基酸,称为前胰岛素原,在加工中首先将氨基端的24个氨基酸残基切除,成为前体胰岛素,再将中间的一段切除,留下两端有活性的部分,即21个氨基酸残基的A链和30个残基的B链,这两条链再由两个二硫键连接成有生物活性的胰岛素。
多聚蛋白质的切割
有些新合成的多肽链含有几个蛋白质分子的序列,切割以后产生具有不同功能的蛋白质分子。如脑下丘腺产生的一种多肽链,包括4种不同的激素分子,经蛋白酶切割以后成型。在不同的细胞中切割的方式和位点不同,从而产生多种不同的激素,适应不同细胞生长发育的需要。
3、蛋白质的化学修饰
简单的化学修饰是将一些小的化学基团,如乙酰基、甲基、磷酸基加到氨基酸侧链上,或者加到氨基端或羧基端。这种修饰的方式是特异的,不同蛋白质可以有完全相同的修饰,相同的蛋白质可以有完全不同的修饰。有些蛋白质经磷酸化活化以后,在基因表达中具有重要的调控作用。
复杂的修饰是蛋白质的糖基化(glycosylation),就是将一些分子量很大的碳水化合物加到多肽链上。
人类的ABO血型也是蛋白质化学修饰的典型例子。控制ABO血型的是一个复等位基因座位,编码负责将糖基加到红细胞膜上的糖蛋白分子上的酶。这个座位上有三个基因(alleles),编码三个不同的酶。一个是将N-乙酰-半乳糖胺(N-acety-galactosamine)加到糖蛋白上,表现为A血型。第二个酶是将半乳糖(galactose)加到糖蛋白上,表现为B血型。第三个基因编码的是一个没有功能的酶,不能将任何糖加到糖蛋白上,表现为O血型。
4、切除蛋白质内含子
有些mRNA翻译的Z初产物同DNA转录的Z初产物一样,具有内含子(intein)序列,位于多肽链序列的中间,经剪接后,蛋白质的外显子(extein)才能连接成为成熟的蛋白质。
蛋白质内含子的切割位点十分保守。内含子前面的氨基酸通常是半胱氨酸,仅有少数是丝氨酸,而后面总是组氨酸-天门冬酰氨,紧接着内含子的外显子序列通常是半胱氨酸、丝氨酸或苏氨酸。内含子内的有些序列也是十分保守的。
内含子的一个重要特点是具有自动切割加工的能力。例如,果蝇胚胎发育有一种蛋白质Hedgehog,其内含子就能将本身的前提蛋白切割成两个有功能的蛋白质分子。
内含子的另一个特点是,有些切割下来的内含子具有核酸内切酶活性。这种酶可以识别DNA序列中与编码自身序列对应但没有自身编码序列的位置,并将其切开,使内含子的编码序列插入这个位置。如果一个细胞中与这个内含子有关的基因是杂合体,一个含有编码内含子的序列,另一个不含编码内含子的序列,加工切割下来的蛋白质内含子可以切开没有编码内含子序列的DNA,使其插入相应序列,使杂合体成为纯合体。