SAGE簡介
1995年Velculescu等提出了基因表達系列分析(Serial Analysis of Gene Expression,SAGE)技術,能同時對上千個轉錄本進行研究。
SAGE是一種快速分析基因表達信息的技術,它通過快速和詳細分析成千上萬個表達序列標籤(Expressed Sequenced Tags, EST)來尋找出表達豐度不同的SAGE標籤序列,從而接近完整地獲得基因組表達信息。SAGE技術與基因晶片一起為目前兩種最常見的基因表達譜研究方法。隨著第三代測序技術的發展,通過構建cDNA文庫,然後利用第二代測序技術的高通量優勢對mRNA文庫進行測序,進而進行基因表達譜分析的方法在基因表達譜研究中占有越來越重要的地位。
在此方法中,通過限制性酶切可以產生非常短的cDNA(10-14bp)標籤,並通過PCR擴增和連線,隨後對連線體進行測序。SAGE大大簡化和加快了3’端表達序列標籤的收集和測序。同DD一樣,SAGE是一個“開放”的系統,可以發現新的未知的序列。在進行標本的比較之前,SAGE在cDNA的產生和處理上需要較多個步驟。由於SAGE是一個依賴DNA測序的基因計量方法,它對基因表達的測定比DD更加量化。由於需要進行大量的測序反應,所以費用因素使大多數研究機構對其廣泛套用的主要限制。
原理
第一,一個9~10鹼基的短核苷酸序列標籤包含有足夠的信息,能夠唯一確認一種轉錄物。例如,一個9鹼基順序能夠分辨262144個不同的轉錄物(49),而人類基因組估計僅能編碼80000種轉錄物,所以理論上每一個9鹼基標籤能夠代表一種轉錄物的特徵序列。
第二,如果能將9鹼基的標籤集中於一個克隆中進行測序,並將得到的短序列核苷酸順序以連續的數據形式輸入計算機中進行處理,就能對數以千計的mRNA轉錄物進行分析。
實驗路線
(1) 以biotinylated oligo(dT)為引物反轉錄合成cDNA,以一種
限制性內切酶(錨定酶 Anchoring Enzyme, AE)酶切。錨定酶要求至少在每一種轉錄物上有一個酶切位點,一般4鹼基限制性內切酶能達到這種要求,因為大多數mRNA要長於256鹼基(44)。通過
鏈霉抗生物素蛋白珠收集cDNA3′端部分。對每一個mRNA只收集其polyA尾與最近的酶切位點之間的片段。
(2) 將cDNA等分為A和B兩部分,分別連線接頭A或接頭B。每一種接頭都含有標籤酶(Tagging Enzyme TE)酶切位點序列(標籤酶是一種Ⅱ類限制酶,它能在距識別位點約20鹼基的位置切割DNA雙鏈)。接頭的結構為引物A/B序列+標籤酶識別位點+錨定酶識別位點。
(3) 用標籤酶酶切產生連有接頭的短cDNA片段(約9~10鹼基),混合併連線兩個cDNA池的短cDNA片段,構成雙標籤後,以引物A和B擴增。
(4) 用錨定酶切割擴增產物,抽提雙標籤(Ditga)片段並克隆、測序。一般每一個克隆最少有10個標籤序列,克隆的標籤數處於10~50之間。
(5) 對標籤數據進行處理。在所測序列中的每個標籤間以錨定酶序列間隔,如圖1中錨定酶採用Nia Ⅲ限制性內切酶,則以CATG/GTAC序列確定標籤的起始位置和方向。圖1 基因表達系列分析(SAGE)示意 錨定酶(AE)和標籤酶(TE)是NiaⅢ、FokI X和O分別表示不同標籤的核苷酸順序 由於雙標籤體的長度基本相同,不會導致擴增的偏態性,同時數量和種類極大的轉錄物使同一種標籤連線成雙標籤體的可能性極小,這保證了克隆中的每一個標籤代表一種轉錄物在當前細胞狀態下的一個單位的轉錄產物,因此通過計算機軟體的分析能夠得到上千種基因表達產物的標籤序列以及豐裕度。
雖然SAGE技術能夠儘可能全面地收集生物組織的基因表達信息,但也不能完全保證涵蓋所有的低豐度的mRNA。另外標籤體的連線可能因接頭的干擾造成克隆所包含的標籤體過少和克隆序列末端不能高效地連入載體。Powell利用磁性生物素珠特異吸附引物,避免了接頭的干擾(Powell 1998)。
優點和套用
SAGE是一項快捷、有效的基因表達研究技術,任何具備PCR和手動測序器具的實驗室都能使用這項技術,結合自動測序技術能夠在3個小時內完成1000個轉錄物的分析。另外使用不同的錨定酶(識別5~20鹼基的Ⅱ類核酸內切酶),使這項技術更具靈活性。
首先SAGE可套用於人類基因組研究。1995年 Velculescu 等選擇Bsm F I和Nia Ⅲ分別作為標籤酶和錨定酶,使用計算機對9鹼基標籤數據進行分析並對GenBank檢索。在分析的1000個標籤中,95%以上的標籤能夠代表唯一的轉錄物。轉錄水平依標籤出現頻率分為4類:① 超過三次 共380個,占45.2%;② 出現三次 共45個,占5.4%;③ 出現兩次 共351個,占7.6%;④ 僅出現過一次 共840個,占41.8%。所以SAGE能夠快速、全範圍提取生物體基因表達信息,對已知基因進行量化分析。SAGE也能套用於尋找新基因。雖然SAGE的標籤僅包括9個鹼基,但加上錨定酶的位點序列(4個鹼基)共可確認13鹼基序列。如果一個標籤檢索已知序列時沒有同源序列,13鹼基片段就可作為探針篩選cDNA文庫得到
cDNA克隆。
其次,SAGE可用於定量比較不同狀態下的組織細胞的特異基因表達。Stephen L等(1997)利用SAGE技術比較小鼠胚囊纖維細胞
基因表達。小鼠胚囊纖維細胞能產生對溫度敏感的P53腫瘤抑制蛋白,就可通過SAGE分析,比較兩種不同溫度下基因表達的差異。從約15 000個分析的基因中,發現有14個基因的表達依賴於P53蛋白,有3個基因的表達與P53蛋白的失活顯著相關。Zhang等(1997)比較正常細胞和腫瘤細胞基因表達的300000個轉錄物發現:在分析的4500種轉錄物中,至少有500種在兩種細胞組織中的表達有顯著差異。
第三,由於SAGE能夠同時最大限度的收集一種基因組的基因表達信息,轉錄物的分析數據可用來構建染色體表達圖譜(Chromosomal expression map)。Victor等分析了酵母基因組的基因表達,從60633個轉錄物中發現了4655個基因(表達水平分布在0.3~2.0/細胞),其中1981個基因已被確認了功能,2684個還未被報導過。利用基因的表達信息與基因組圖譜融合繪製的染色體表達圖譜,使基因表達與物理結構連繫起來,更利於基因表達模式的研究。(Velculescu,1997) SAGE是基因表達定性和定量研究的一種有效工具,非常適合於比較不同發育狀態或疾病狀態的生物基因表達。
另外
SAGE能夠接近完整地獲得基因組表達信息,能夠直接讀出任何一種類型細胞或組織的基因表達信息。SAGE技術的套用將大大加快基因組研究的進展,但必須和其它技術相互融合、互為補充,才能最大可能地進行基因組基因表達的全面研究。