遗传密码
遗传密码(英文:Genetic code)是一组规则,将DNA或RNA序列以三个核苷酸为一组的密码子转译为蛋白质的氨基酸序列,以用于蛋白质合成。几乎所有的生物都使用同样的遗传密码,称为标准遗传密码;即使是非细胞结构的病毒,它们也是使用标准遗传密码。但是也有少数生物使用一些稍微不同的遗传密码。
目录
破解历史
自从发现了DNA的结构,科学家便开始致力研究有关制造蛋白质的秘密。伽莫夫指出需要以三个核酸一组才能为20个氨基酸编码。1961年,美国国家卫生院的Matthaei与马歇尔•沃伦•尼伦伯格在无细胞系统(Cell-free system)环境下,把一条只由尿嘧啶(U)组成的RNA转释成一条只有苯丙氨酸(Phe)的多肽,由此破解了首个密码子(UUU -> Phe)。随后哈尔•葛宾•柯拉纳破解了其它密码子,接着罗伯特•W•霍利发现了负责转录过程的tRNA。1968年,柯拉纳、霍利和尼伦伯格分享了诺贝尔生理学或医学奖。 但朊病毒是以蛋白质为遗传密码的。
基因组的表达
一个生物体携带的遗传信息-即基因组-被记录在DNA或RNA分子中,分子中每个有功能的单位被称作基因。每个基因均是由一连串单核苷酸组成。每个单核苷酸均由碱基,戊糖(即五碳糖,DNA中为去氧核糖,RNA中为核糖)和磷酸三部分组成。堿基不同构成了不同的单核苷酸。组成DNA的堿基有腺嘌呤(A),鸟嘌呤(G),胞嘧啶(C)及胸腺嘧啶(T)。组成RNA的堿基以尿嘧啶(U)代替了胸腺嘧啶(T)。三个单核苷酸形成一组密码子,而每个密码子代表一个氨基酸或停止讯号。
制造蛋白质的过程中,基因先被从DNA转录为对应的RNA范本,即信使RNA(mRNA)。接下来在核糖体和转移RNA(tRNA)以及一些酶的作用下,由该RNA范本转译成为氨基酸组成的链(多肽),然后经过转译后修饰形成蛋白质。详情参阅转译。
因为密码子由三个核苷酸组成,故一共有43=64种密码子。例如,RNA序列UAGCAAUCC包含了三个密码子:UAG,CAA和UCC。这段RNA编码了代表了长度为3个氨基酸的一段蛋白质序列。(DNA也有类似的序列,但是以T代替了U)。
标准遗传密码如下表所示:由3个堿基对应到氨基酸的密码子表以及由氨基酸对应到3个堿基的反密码子表。
表一:密码子表
第二位碱基 | |||||
---|---|---|---|---|---|
U | C | A | G | ||
第 一 位 堿 基 |
U |
UUU (Phe/F)苯丙氨酸 |
|||
C |
CAU (His/H)组氨酸 |
||||
A |
AUU (Ile/I)异亮氨酸 |
AAU (Asn/N)天冬酰胺 |
|||
G |
GAU (Asp/D)天冬氨酸 |
1标准起始编码,同时为甲硫氨酸编码。mRNA中以某一个AUG作为蛋白质翻译的起始部位。但最终成熟蛋白质中由于翻译后修饰作用,不一定均会以甲硫氨酸作为第一个氨基酸残基。
表二:逆密码子表
此表列出了和20种氨基酸和密码子的标准配对(嘌呤族(缩写作R)嘧啶族(Y)任意碱基(N))。
Ala | A | GCN | Leu | L | UUN, CUR |
Arg | R | CGN, AGR | Lys | K | AAR |
Asn | N | AAY | Met | M | AUG |
Asp | D | GAY | Phe | F | UUY |
Cys | C | UGY | Pro | P | CCN |
Gln | Q | CAR | Ser | S | UCN, AGR |
Glu | E | GAR | Thr | T | ACN |
Gly | G | GGN | Trp | W | UGG |
His | H | CAY | Tyr | Y | UAY |
Ile | I | AUY, AUA | Val | V | GUN |
起始 | AUG | 终止 | UAR, UAA |
技术细节
起始和终止密码子
蛋白质的转译从初始化密码子(起始密码子)开始,但亦需要适当的初始化序列和起始因数才能使mRNA和核糖体结合。最常见的起始密码子为AUG,其同时编码的氨基酸在细菌为甲酰甲硫氨酸,在真核生物为甲硫氨酸,但在个别情况其它一些密码子也具有起始的功能。
在经典遗传学中,终止密码子各有名称:UAG为琥珀(amber),UGA为蛋白石(opal),UAA为赭石(ochre)。这些名称来源于最初发现到这些终止密码子的基因的名称。终止密码子使核糖体和释放因数结合,使多肽从核糖体分离而结束转译的程式。另外,在哺乳动物的线粒体中,AGA和AGG也充当终止密码子。
简并性
大部分密码子具有简并性,即两个或者多个密码子编码同一氨基酸。简并的密码子通常只有第三位元堿基不同,例如,GAA和GAG都编码谷氨酰胺。如果不管密码子的第三位元为哪种核苷酸,都编码同一种氨基酸,则称之为四重简并;如果第三位有四种可能的核苷酸之中的两种,而且编码同一种氨基酸,则称之为二重简并,一般第三位上两种等价的核苷酸同为嘌呤(A/G)或者嘧啶(C/T)。只有两种氨基酸仅由一个密码子编码,一个是甲硫氨酸,由AUG编码,同时也是起始密码子;另一个是色氨酸,由UGG编码。
遗传密码的这些性质可使基因更加耐受点突变。例如,四重简并密码子可以容忍密码子第三位元的任何变异;二重简并密码子使三分之一可能的第三位的变异不影响蛋白质序列。由于转换变异(嘌呤变为嘌呤或者嘧啶变为嘧啶)比颠换变异(嘌呤变为嘧啶或者嘧啶变为嘌呤)的可能性更大,因此二重简并密码子也具有很强的对抗突变的能力。不影响氨基酸序列的突变称为沉默突变。
简并性的出现是由于tRNA反密码子的第一位堿基可以和mRNA构成摆动堿基对,常见的情况为反密码子上的次黄嘌呤(I),以及和密码子形成非标准的U-G配对。
另一种有助对抗点突变的情况,是NUN (N代表任何核苷酸) 倾向于代表疏水性氨基酸,故此即使出现突变,仍有较大机会维持蛋白质的亲水度,减低致命破坏的可能。
阅读框
“密码子”是由阅读的起始位点决定的。例如,一段序列GGGAAACCC,如果由第一个位置开始读,包括3个密码子GGG,AAA和CCC。如果从第二位开始读,包括GGA和AAC(忽略不完整的密码子)。如果从第三位开始读,则为GAA和ACC。故此每段序列都可以分为三个阅读框,每个都能产生不同的氨基酸序列(在上例中,相应为Gly-Lys-Pro,Gly-Asp,和Glu-Thr)。而因为DNA的双螺旋结构,每段DNA实际上有六个阅读框。 实际的框架是由起始密码子确定,通常是mRNA序列上第一个出现的AUG。
破坏阅读框架的变异(例如,插入或删除1个或2个核苷酸)称为阅读框变异,通常会严重影响到蛋白质的功能,故此并不常见,因为他们通常不能在演化中存活下来。
非标准的遗传密码
虽然遗传密码在不同生命之间有很强的一致性,但亦存在非标准的遗传密码。在有“细胞能量工厂”之称的线粒体中,便有和标准遗传密码数个相异的之处,甚至不同生物的线粒体有不同的遗传密码。支原体会把UGA转译为色氨酸。纤毛虫则把UAG(有时候还有UAA)转译为谷氨酰胺(一些绿藻也有同样现象),或把UGA转译为半胱氨酸。一些酵母会把GUG转译为丝氨酸。在一些罕见情况,一些蛋白质会有AUG以外的起始密码子。
真菌、原生生物和人以及其它动物的粒线体中的遗传密码与标准遗传密码的差异,主要变化如下:
密码子 | 通常的作用 | 例外的作用 | 所属的生物 |
UGA | 中止编码 | 色氨酸编码 | 人、牛、酵母线粒体,支原体(Mycoplasma)基因组,如Capricolum |
UGA | 中止编码 | 半胱氨酸编码 | 一些纤毛虫(ciliate)细胞核基因组,如游纤虫属(Euplotes) |
UGA | 中止编码 | 硒半胱氨酸编码 | 人,大鼠,小鼠等哺乳体系 |
AGR | 精氨酸编码 | 中止编码 | 大部分动物线粒体,脊椎动物线粒体 |
AGA | 精氨酸编码 | 丝氨酸编码 | 果蝇线粒体 |
AUA | 异亮氨酸编码 | 蛋氨酸编码 | 一些动物和酵母线粒体 |
UAA | 中止编码 | 谷氨酰胺编码 | 草履虫、一些纤毛虫(ciliate)细胞核基因组,如嗜热四膜虫(ThermophAilus tetrahymena) |
UAG | 中止编码 | 谷氨酸编码 | 草履虫核细胞核基因组 |
UAG | 中止编码 | 吡咯赖氨酸编码 | 甲烷八叠球菌(Methanosarcina barkeri)核基因组,表达转甲基酶(methyltransferase) |
GUG | 缬氨酸编码 | 丝氨酸编码 | 假丝酵母核基因组 |
AAA | 赖氨酸编码 | 天冬氨酸编码 | 一些动物的线粒体,果蝇线粒体 |
CUG | 亮氨酸编码 | 中止编码 | 圆柱念珠菌(Candida cylindracea)细胞核基因组 |
CUN | 亮氨酸编码 | 苏氨酸编码 | 酵母线粒体 |
按信使RNA的序列,在一些蛋白质里停止密码子会被翻译成非标准的氨基酸,例如UGA转译为硒半胱氨酸和UAG转译为吡咯赖氨酸,随着对基因组序列加深了解,科学家可能还会发现其它非标准的转译方式,以及其它未知氨基酸在生物中的应用。
遗传密码的起源
除了少数的不同之外,地球上已知生物的遗传密码均非常接近;因此根据进化论,遗传密码应在生命历史中很早期就出现。现有的证据表明遗传密码的设定并非是随机的结果,对此有以下的可能解释1:
- 最近一项研究显示,一些氨基酸与它们相对应的密码子有选择性的化学结合力2,这显示现在复杂的蛋白质制造过程可能并非一早存在,最初的蛋白质可能是直接在核酸上形成。
参考资料
- 注解1: Knight, R.D.; Freeland S. J. and Landweber, L.F. (1999) The 3 Faces of the Genetic Code. Trends in the Biochemical Sciences 24(6), 241-247.
- 注解2: Knight, R.D. and Landweber, L.F. (1998). Rhyme or reason: RNA-arginine interactions and the genetic code. Chemistry & Biology 5(9), R215-R220. PDF version of manuscript
- 注解3: Brooks, Dawn J.; Fresco, Jacques R.; Lesk, Arthur M.; and Singh, Mona. (2002). Evolution of Amino Acid Frequencies in Proteins Over Deep Time: Inferred Order of Introduction of Amino Acids into the Genetic Code. Molecular Biology and Evolution 19, 1645-1655.
- 注解4: Amirnovin R. (1997) An analysis of the metabolic theory of the origin of the genetic code. Journal of Molecular Evolution 44(5), 473-6.
- 注解5: Ronneberg T.A.; Landweber L.F. and Freeland S.J. (2000) Testing a biosynthetic theory of the genetic code: Fact or artifact? Proceedings of the National Academy of Sciences, USA 97(25), 13690-13695.
- 注解6: Freeland S.J.; Wu T. and Keulmann N. (2003) The Case for an Error Minimizing Genetic Code. Orig Life Evol Biosph. 33(4-5), 457-77.
其它参考资料
网络上有很多有关本题目的资料,由美国国家卫生院提供NCBI Bookshelf[失效链接]。
- Griffiths, Anthony J.F.; Miller, Jeffrey H.; Suzuki, David T.; Lewontin, Richard C.; Gelbart, William M. (1999). Introduction to Genetic Analysis (7th ed.)[失效链接]. New York: W. H. Freeman & Co. ISBN 0-7167-3771-X
- Alberts, Bruce; Johnson, Alexander; Lewis, Julian; Raff, Martin; Roberts, Keith; Walter, Peter. (2002). Molecular Biology of the Cell (4th ed.)[失效链接]. New York: Garland Publishing. ISBN 0-8153-3218-1
- Lodish, Harvey; Berk, Arnold; Zipursky, S. Lawrence; Matsudaira, Paul; Baltimore, David; Darnell, James E. (1999). Molecular Cell Biology (4th ed.)[失效链接]. New York: W. H. Freeman & Co. ISBN 0-7167-3706-X
- 有关遗传密码演化的wiki
- NCBI网页,有关遗传密码的详细的说明
相关条目
外部链接