割裂基因

割裂基因

又稱不連續基因或斷裂基因.在真核生物的染色體上,由於內含子的存在,使真核生物基因成為不連續基因或斷裂基因。

基本介紹

  • 中文名:割裂基因
  • 外文名:split gene 
  • 存在方式:真核生物染色體
發現歷史,基本信息,由來,

發現歷史

在本世紀70年代以前,人們一直認為遺傳物質是雙鏈DNA,在上面排列的基因是連續的。Robert and Sharp徹底改變了這一觀念。他們以腺病毒作為實驗對象,因為它的排列序列同其他高等動物很接近,包括人。結果發現它們的基因在DNA上的排列由一些不相關的片段隔開,是不連續的。
他們的發現改變了科學家以往對進化的認識,對於現代生物學的基礎研究以及生物進化論具有重要的奠基作用,對於腫瘤以及 其他遺傳性疾病的醫學導向研究,亦具有特別重要的意義。
榮獲1993年諾貝爾生理學或醫學獎
發現發現斷裂基因
羅伯茨
Richard J. Roberts
美國
貝弗莉新英格蘭生物實驗室
1943年--
夏普
Phillip A. Sharp
美國
麻省理工學院癌症研究中心

基本信息

真核生物的基因組十分複雜,DNA的含量也比原核生物的大得多。噬菌體由於基因組很小,但又要編碼一些必不可少的蛋白,鹼基顯然不夠用,這樣不僅幾乎所有的鹼基都參加編碼,而且在進化中還出現了“重疊基因”,以有限的基因編碼更多的遺傳信息。真核基因組正好相反,DNA十分富餘,這樣不僅無需“重疊基因”,而且很多序列不編碼,如重複序列、間隔序列 (spacer) 和間插序列(intervening sequence) 即內含子(intron)等。但不編碼並不等於沒有功能。有的我們可能還不了解,如重複序列。間隔區和間插序列這兩個概念是不同的,間隔區是指基因間不編碼的部分,有的轉錄稱轉錄間隔區(TS),有的不轉錄稱為非轉錄間隔區(NTS)。間插序列是指基因內部不編碼的區域,也稱內含子,在初始轉錄本中存在此序列,但在加工後將被切除掉,所以常不作為翻譯的信息。間隔區常常含有轉錄的啟動子和其它上游調節序列。有的內含子也可以編碼,如成熟酶和內切酶等。
在遺傳學上通常將能編碼蛋白質的基因稱為結構基因。真核生物的結構基因是斷裂的基因。一個斷裂基因能夠含有若干段編碼序列,這些可以編碼的序列稱為外顯子。在兩個外顯子之間被一段不編碼的間隔序列隔開,這些間隔序列稱為內含子。每個斷裂基因在第一個和最後一個外顯子的外側各有一段非編碼區,有人稱其為側翼序列。在側翼序列上有一系列調控序列(圖3-3)。
調控序列主要有以下幾種:①在5′端轉錄起始點上游約20~30個核苷酸的地方,有TATA框(TATA box)。 TATA框是一個短的核苷酸序列,其鹼基順序為TATAATAAT。TATA框是啟動子中的一個順序,它是RNA聚合酶的重要的接觸點,它能夠使酶準確地識別轉錄的起始點並開始轉錄。當TATA框中的鹼基順序有所改變時,mRNA的轉錄就會從不正常的位置開始。②在5′端轉錄起始點上游約70~80個核苷酸的地方,有CAAT框(CAAT box)。CAAT框是啟動子中另一個短的核苷酸序列,其鹼基順序為GGCTCAATCT。CAAT框是RNA聚合酶的另一個結合點,它的作用還不很肯定,但一般認為它控制著轉錄的起始頻率,而不影響轉錄的起始點。當這段順序被改變後,mRNA的形成量會明顯減少。③在5′端轉錄起始點上游約100個核苷酸以遠的位置,有些順序可以起到增強轉錄活性的作用,它能使轉錄活性增強上百倍,因此被稱為增強子。當這些順序不存在時,可大大降低轉錄水平。研究表明,增強子通常有組織特異性,這是因為不同細胞核有不同的特異因子與增強子結合,從而對不同組織、器官的基因表達有不同的調控作用。例如,人類胰島素基因5′末端上游約250個核苷酸處有一組織特異性增強子,在胰島素β細胞中有一種特異性蛋白因子,可以作用於這個區域以增強胰島素基因的轉錄。在其他組織細胞中沒有這種蛋白因子,所以也就沒有此作用。這就是為什麼胰島素基因只有在胰島素β細胞中才能很好表達的重要原因。④在3′端終止密碼的下游有一個核苷酸順序為AATAAA,這一順序可能對mRNA的加尾(mRNA尾部添加多聚A)有重要作用。這個順序的下游是一個反向重複順序。這個順序經轉錄後可形成一個發卡結構(圖3-4)。發卡結構阻礙了RNA聚合酶的移動。發卡結構末尾的一串U與轉錄模板DNA中的一串A之間,因形成的氫鍵結合力較弱,使mRNA與DNA雜交部分的結合不穩定,mRNA就會從模板上脫落下來,同時,RNA聚合酶也從DNA上解離下來,轉錄終止。AATAAA順序和它下游的反向重複順序合稱為終止子,是轉錄終止的信號。

由來

現在割裂基因的原始形式是怎樣的呢? 目前有兩種模型,“內含子占先(Introns early)”模型支持內含子總是基因的整體部分。認為基因起始於割裂的結構,沒有內含子的基因是在進化過程中丟失的。“內含子滯後(Introns late)”模型認為原始蛋白質編碼單位由非割裂的DNA 序列組成,內含子是隨後插入進去的。
檢驗這些模型的方法是明確真核和原核基因的區別,是否等同於真核基因中內含子的獲得或者原核基因中內含子的丟失。
內含子占先模型表明,基因的鑲嵌結構是基因重組從而產生新蛋白質的一種原始方法。試想,早期細胞有許多不同的蛋白質編碼區域,其進化的一個方面很可能是不同多肽鏈單位重新組合和並列,從而產生新的蛋白質
如果蛋白質編碼單位必須是連續的密碼子序列,重新創造這種序列將需要精確的DNA重組,從而使兩個蛋白質編碼單位並列,以同樣的讀碼框頭尾相接。並且,如果這種重組沒有成功,卻失去了原始的蛋白質編碼單位,細胞必然受到破壞。
但是如果DNA 重組能將兩個蛋白質編碼單元置於一個轉錄單位中,剪接模式將在RNA水平上獲得突破,從而將兩種蛋白質放在一條多肽鏈中。而且如果重組並不成功,原始的蛋白質編碼單位仍能被套用。這種方法必然使細胞嘗試限制RNA 刪除,而不至於在此過程中引起DNA 穩定性破壞。
如果現在的蛋白質通過組合本來就分離的原始蛋白質來進化,單元增長很可能在隨後的一段時間內發生,每次增加一個外顯子。放置在一起的基因,可以從它們的結構中判斷其不同功能嗎?換言之,我們能夠將當前蛋白質與個別外顯子等同起來嗎?
某些情況下,基因結構與蛋白質之間有明顯的關係。一個很好的例子是免疫球蛋白,它是由每一個外顯子與已知的蛋白功能區域相對應的基因編碼的。免疫球蛋白是兩條輕鏈和兩條重鏈組成的四聚體,它們一起產生了具有幾個不同區域的蛋白質。輕鏈和重鏈的結構不同,並且有幾種類型的重鏈。每一類型的鏈都是由一系列的外顯子表達的,外顯子與蛋白質的結構域相一致。
有很多基因的外顯子能夠被確認有特定的功能。在分泌蛋白質中,第一個外顯子編碼多肽的N 端結構域,能夠識別跨膜分泌中涉及的信號序列,如胰島素基因。
有時基因進化涉及外顯子的複製,從而在蛋白質中產生整體複製的序列。例如,雞膠原蛋白質的54bp 外顯子被多次複製,產生一系列54bp 或其整數倍的外顯子。
只有少部分相關基因間相同的序列可能代表外顯子,這些外顯子可在基因間轉移或重新集結(Recruit)。例如人類膜低濃度脂蛋白(Plasma low density liproptein,LDL)受體和其他蛋白質的關係(圖2.30)。LDL 受體基因中有一系列的外顯子,它們與表皮生長因子(Epidermal growth factor,EGF)前體基因外顯子相關。在蛋白質的N端,一系列外顯子編碼與血液中C9 補體(Complement factor)相關的序列。因此LDL 受體基因是由廣泛的功能單元重組而獲得,這些單元也在其它蛋白質中使用。
在已知基因中,外顯子和蛋白質的關係有時是不穩定的。有些情況下具有明確的1:1關係,但在其他情況下則未發現固定的模式。一種可能是內含子移除是與兩端相鄰的外顯子是融合的。這就意味著這些內含子必須精確地移開,不改變編碼區的完整性。另一種方式是某些內含子由插入連續的區域產生,但是攜帶的內含子還具有被剪下掉的能力。
外顯子一般都很小,能夠形成穩定摺疊結構的最小多肽大約是20-40 個胺基酸殘基。很有可能蛋白質原本就是由這樣小的結構單元組合而成。每個單元不需要與當前功能相關,或許幾個單元一起產生一種功能。一般而言,基因中外顯子的數量隨著蛋白質長度的增加而增加,這與蛋白質通過連續增加適當的單元獲得多種功能的觀點一致。這個觀點能夠說明蛋白質結構的另一個特點:代表外顯子-內含子邊界的位點通常位於蛋白質的表面。隨著編碼單元被加入到蛋白質中,連線物,至少是最新加入的單元,很可能位於蛋白質表面。
保守進化的一個有趣例子是珠蛋白,每個基因有三個外顯子。兩個內含子位於與編碼區相鄰的穩定位點上。中間的外顯子代表珠蛋白鏈的血紅素-結合域,α-和β-珠蛋白具有相似的結構。
解釋這種結構的另一種觀點可由與珠蛋白相關的其他兩種蛋白質提供。肌球蛋白(Myoglobin)是動物中結合氧的蛋白質單體,它的胺基酸序列揭示了珠蛋白亞基的一個普遍(但是古老)的起源。豆血紅蛋白(Leghemoglobin)是豆科植物中氧-結合蛋白質,同肌球蛋白一樣也是單體。它們與其他血紅素結合蛋白具有共同的起源。珠蛋白、肌球蛋白和豆血紅蛋白一起組成了珠蛋白超家族(Super family)——從同一個遠古祖先遺傳下來的基因家族。肌球蛋白由人類基因組中單個基因編碼,其結構與珠蛋白基因是一致的。三外顯子結構說明了肌球蛋白和珠蛋白功能分離的進化。

相關詞條

熱門詞條

聯絡我們