研究歷史 對人類基因組的研究在70年代已具有一定的雛形,在80年代在許多國家已形成一定規模。1984年在Utah州的Alta,White R and Mendelsonhn M受美國能源部(DOE)的委託主持召開了一個小型專業會議討論測定人類整個基因組的DNA序列的意義和前景(Cook Deegan RM,1989)
人類基因組計畫
1985年5月在
加州 Santa Cruz由美國DOE的Sinsheimer RL主持的會議上提出了測定人類基因組全序列的
動議 ,形成了美國能源部的“
人類基因組計畫 ”草案。
1986年3月,在
新墨西哥州 的Santa Fe討論了這一計畫的可行性,隨後DOE宣布實施這一計畫。
1986年,
諾貝爾獎 得主杜爾貝科(R. Dulbecco)在《科學》(Science)周刊撰文回顧腫瘤研究的進展,指出要么依舊採用“零敲碎打”的策略,要么從整體上研究和分析人類基因組。文中指出:如果我們想更多地了解腫瘤,我們必須關注細胞的基因組。…… 從哪個物種著手努力?如果我們想理解人類腫瘤,那就應從人類開始。……人類腫瘤研究將因對DNA的詳細知識而得到巨大推動。”
1986年遺傳學家McKusick V提出從整個基因組的層次研究遺傳的科學稱為“基因組學”
1987年初,美國能源部和
國立衛生研究院 為HGP下撥了啟動經費約550萬美元(全年1.66億美元)
1988年,美國成立了“國家人類基因組研究中心”由Watson J出任第一任主任
1990年10月1日,經
美國國會 批准美國HGP正式啟動,
總體計畫 在15年內投入至少30億美元進行人類全基因組的分析。
1987年,
義大利 共和國國家研究委員會開始HGP研究,其特點是技術多樣(
YAC ,
雜種細胞 ,
cDNA 等)、區域集中(基本上限於Xq24-qter區域)
1989年2月英國開始HGP,特點是:帝國癌症研究基金會與國家醫學研究委員會(ICRP-MRC)
共同負責 全國協調與資金調控,劍橋附近的Sanger中心注重首先線上蟲基因組上積累經驗,改進大規模
DNA測序技術 ;同時建立了YAC庫的篩選與克隆、特異
細胞系 、
DNA探針 、基因組DNA、
cDNA文庫 、比較生物基因組DNA序列、信息分析等的“英國人類基因組資源中心”。可謂“資源集中、全國協調”。
1990年6月
法蘭西共和國 的HGP啟動。科學研究部委託國家醫學科學院制定HGP,主要特點是注重整體基因組、cDNA和自動化。建立了人類多態性研究中心(CEPH),在全基因組YAC
重疊群 、
微衛星標記 (
遺傳圖 )的構建以及馳名世界的用作基因組研究的經典材料CEPH家系(80個3代多個體家系)方面產生了巨大影響。
人類基因組遺傳圖
1990年,美國能源部(DOE)與國立衛生研究院(
NIH )共同啟動HGP,原定投入30億美元,用15年時間完成該計畫。英、日、法、德等國相繼加入。
1990年6月
歐共體 通過了“歐洲人類基因組研究計畫”,主要資助23個實驗室重點用於“資源中心”的建立和運轉。還有
丹麥王國 、
俄羅斯 聯邦、日本、韓國、
澳大利亞 等。
1998年在國家科技部的領導和牽線下,在上海成立了南方基因中心。
1998年5月11日,世界上最大的
測序儀 生產商美國PE Biosystems公司,以其剛研製成功的300台最新
毛細管 自動測序儀(ABI 3700)和3億美元資金,成立了Celera Genomics公司,宣稱要在3年內,以所謂的“人類全基因組霰彈法測序策略”完成人類
基因組測序 ,並聲稱要專利200~400個重要基因,並將所有序列信息保密3個月。Celera公司已有雇員300多人,購買了號稱“全球第三”的
超大型計算機 ,號稱擁有了超過全球所有
序列組裝 解讀力量總和的實力。就在六國共同宣布工作框架圖構建完成的同一天,Celera公司宣稱已組裝出了完整的人類
遺傳密碼 。Celera公司此舉,是對公益性的HGP的競爭與挑戰
1998年,組建了中科院遺傳所,1998年在北京成立了北方人類基因組中心。1999年7月在國際人類基因組註冊,得到完成人類
3號染色體 短臂 上一個約30Mb區域的測序任務,該區域約占人類整個基因組的1%。
人類基因組計畫(Human genome project)由美國於1987年啟動,中國於1999年9月積極參加到這項研究計畫中的,承擔其中1%的任務,即人類3號染色體短臂上約3000萬個鹼基對的測序任務。中國因此成為參加這項研究計畫的唯一的
開發中國家 。
2000年6月26日,參加人類基因組
工程項目 的美國、英國、法國、德國、日本和中國的6國科學家共同宣布,人類基因組草圖的繪製工作已經完成。最終完成圖要求測序所用的克隆能忠實地代表
常染色體 的基因組結構,序列錯誤率低於萬分之一。95%
常染色質 區域被測序,每個Gap小於150kb。完成圖將於2003年完成,比預計提前2年。由於人類
基因測序 和
基因專利 可能會帶來巨大的
商業價值 ,各國政府和一些企業都在積極地投入該項研究,如1997年AMGEN公司轉讓了一個與
中樞神經 疾病有關的基因而獲利3.92億美元。
研究領域 選擇人類的基因組進行研究是因為人類是在“進化”歷程上最高級的生物,對它的研究有助於認識自身、掌握生老病死規律、疾病的診斷和治療、了解生命的起源。
人類基因組DNA草圖
測出人類基因組DNA的30億個
鹼基對 的序列,發現所有人類基因,找出它們在染色體上的位置,破譯人類全部
遺傳信息 。
在人類基因組計畫中,還包括對五種生物基因組的研究:大腸桿菌、酵母、
線蟲 、
果蠅 和
小鼠 ,稱之為人類的五種“
模式生物 ”。
HGP的目的是解碼生命、了解生命的起源、了解
生命體 生長發育 的規律、認識種屬之間和個體之間存在差異的起因、認識疾病產生的機制以及長壽與衰老等生命現象、為疾病的診治提供科學依據。
研究內容 遺傳圖譜 又稱
連鎖圖譜 (linkage map),它是以具有
遺傳多態性 (在一個遺傳位點上具有一個以上的
等位基因 ,在群體中的出現頻率皆高於1%)的遺傳標記為“路標”,以
遺傳學 距離(在減數分裂事件中兩個位點之間進行交換、重組的
百分率 ,1%的
重組率 稱為1cM)為圖距的基因組圖。
遺傳圖譜 的建立為
基因識別 和完成
基因定位 創造了條件。意義:6000多個遺傳標記已經能夠把人的基因組分成6000多個區域,使得連鎖
分析法 可以找到某一致病的或
表現型 的基因與某一標記鄰近(緊密連鎖)的證據,這樣可把這一基因定位於這一已知區域,再對基因進行分離和研究。對於疾病而言,找基因和分析基因是個關鍵。
第1代標記
第2代標記
1985年,
小衛星 中心(minisatellite core)、可變
串聯重複 VNTR (variable number of tandem repeats)可提供不同長度的片段,其重複
單位長度 為6至12個核苷酸 ,1989年
微衛星標記 (microsatellite marker)系統被發現和建立,重複單位長度為2~6個
核苷酸 ,又稱簡短串聯重複(STR)。
第3代標記
1996年MIT的Lander ES又提出了
SNP (single nucleotide polymorphysm)的
遺傳標記 系統。對每一核苷酸
突變率 為10-9,雙等位型標記,在人類基因組中可達到300萬個,平均約每1250個鹼基對就會有一個。3~4個相鄰的標記構成的單倍型(haplotype)就可有8~16種。
物理圖譜 物理圖 譜是指有關構成基因組的全部基因的排列和間距的信息,它是通過對構成基因組的
DNA分子 進行測定而繪製的。繪製
物理圖譜 的目的是把有關基因的
遺傳信息 及其在每條染色體上的相對位置線性而系統地排列出來。
DNA物理圖譜 是指DNA鏈的
限制性酶切片段 的排列順序,即酶切片段在DNA鏈上的定位。因限制性內切酶在DNA鏈上的切口是以特異序列為基礎的,
核苷酸序列 不同的DNA,經酶切後就會產生不同長度的DNA片段,由此而構成獨特的
酶切圖譜 。因此,DNA物理圖譜是DNA分子結構的特徵之一。DNA是很大的分子,由
限制酶 產生的用於測序反應的DNA片段只是其中的極小部分,這些片段在DNA鏈中所處的位置關係是應該首先解決的問題,故DNA物理圖譜是順序測定的基礎,也可理解為指導
DNA測序 的藍圖。廣義地說,DNA測序從物理圖譜製作開始,它是測序工作的第一步。製作DNA物理圖譜的方法有多種,這裡選擇一種常用的簡便方法──標記片段的部分
酶解法 ,來說明圖譜製作原理。
⑴完全降解
選擇合適的限制性內切酶將待測DNA鏈(已經標記
放射性同位素 )完全降解,
降解產物 經凝膠電泳分離後進行自顯影,獲得的圖譜即為組成該DNA鏈的酶切片段的數目和大小。
⑵部分降解
以
末端標記 使待測DNA的一條
鏈帶 上
示蹤 同位素 ,然後用上述相同酶部分降解該DNA鏈,即通過控制反應條件使DNA鏈上該酶的切口隨機斷裂,而避免所有切口斷裂的完全降解發生。部分酶解產物同樣進行
電泳分離 及自顯影。比較上述二步的自顯影圖譜,根據片段大小及彼此間的差異即可排出酶切片段在DNA鏈上的位置。下面是測定某
組蛋白基因 DNA物理圖譜 的詳細說明。
完整的物理圖譜應包括人類基因組的不同載體DNA
克隆片段 重疊群 圖,大片段限制性內切酶
切點 圖,DNA片段或一特異DNA序列(STS)的路標圖,以及基因組中廣泛存在的特徵型序列(如CpG序列、
Alu序列 ,isochore)等的標記圖,人類基因組的細胞
遺傳學圖 (即染色體的區、帶、亞帶,或以染色體長度的百分率定標記),最終在分子水平上與
序列圖 的統一。
基本原理是把龐大的無從下手的DNA先“敲碎”,再拼接。以Mb、kb、bp作為圖距,以
DNA探針 的STS(sequence tags site)序列為路標。1998 年完成了具有52,000個
序列標籤位點 (STS),並覆蓋人類基因組大部分區域的連續克隆系的
物理圖譜 。構建物理圖的一個主要內容是把含有STS對應序列的DNA的克隆片段連線成相互重疊的“片段
重疊群 (contig)”。用“
酵母人工染色體 (YAC)作為載體的載有人DNA片段的文庫已包含了構建總體
覆蓋率 為100%、具有高度代表性的片段重疊群”,這幾年來又發展了可靠性更高的
BAC 、PAC庫或cosmid庫等。
序列圖譜 隨著遺傳圖譜和物理圖譜的完成,測序就成為重中之重的工作。
DNA序列分析 技術是一個包括製備DNA片段化及鹼基分析、DNA信息翻譯的多階段的過程。通過測序得到基因組的
序列圖譜 。
大規模測序基本策略
逐個克隆法
對連續克隆系中排定的BAC克隆逐個進行亞克隆測序並進行組裝(
公共領域 測序計畫)。
在一定作圖信息基礎上,繞過大片段連續克隆系的構建而直接將基因組分解成小片段隨機測序,利用
超級計算機 進行組裝(美國Celera公司)。
基因圖譜
轉錄圖譜 轉錄圖譜 是在識別基因組所包含的蛋白質編碼序列的基礎上繪製的結合有關基因序列、位置及表達模式等信息的圖譜。在人類基因組中鑑別出占具2%~5%長度的全部基因的位置、
結構與功能 ,最主要的方法是通過基因的表達產物
mRNA 反追到染色體的位置。
原理
所有生物性狀和疾病都是由結構或
功能蛋白 質決定的,而已知的所有蛋白質都是由mRNA編碼的,這樣可以把mRNA通過
反轉錄酶 合成
cDNA 或稱作EST的部分的cDNA片段,也可根據mRNA的信息人工合成cDNA或cDNA片段,然後,再用這種穩定的cDNA或EST作為“探針”進行
分子雜交 ,鑑別出與轉錄有關的基因。用PolyA互補的寡聚T或
克隆載體 的相關序列作為引物對mRNA雙端尾側的幾百個bp進行測序得到EST(
表達序列標籤 )。2000年6月,
EMBL 中EST數量已有4,229,786。
轉錄圖譜的意義
在於它能有效地反應在正常或受控條件中表達的全基因的時空圖。通過這
張圖 可以了解某一基因在不同時間不同組織、不同水平的表達;也可以了解一種組織中不同時間、不同基因中不同水平的表達,還可以了解某一特定時間、不同組織中的不同基因不同水平的表達。
人類基因組是一個
國際合作項目 :表征人類基因組,選擇的模式生物的DNA測序和作圖,發展基因組研究的新技術,完善人類基因組研究涉及的倫理、法律和
社會問題 ,培訓能利用HGP發展起來的這些技術和資源進行生物學研究的科學家,促進人類健康。
主要用途 人類疾病貢獻
對醫學的貢獻
生物技術貢獻
⑵診斷和研究試劑產業
基因和抗體試劑盒、診斷和研究用
生物晶片 、疾病和篩藥模型。
對製藥的貢獻
社會經濟影響
生物的進化史,都刻寫在各基因組的“天書”上;
草履蟲 是人的親戚——13億年;人是由300~400萬年前的一種
猴子 進化來的;人類第一次“走出
非洲 ”——200萬年的
古猿 ;人類的“夏娃”來自於非洲,距今20萬年——第二次“走出非洲”?
負面作用
破譯人類
遺傳信息 ,將對生物學,醫學,乃至整個生命科學產生無法估量的深遠影響。基因組信息的注釋工作仍然處於初級階段。隨著將來對基因組的理解更加深入,新的知識會使醫學和生物技術領域發展更為迅速。基於
DNA 載有的信息在細胞生命活動中的指導作用,在
分子生物學 水平上深入了解疾病的產生過程將大力推動新的療法和新藥的開發研究。對於
癌症 、老年
痴呆症 等疾病的病因研究也將會受益於基因組遺傳信息的破解。事實上,在人類基因組計畫完成之前,它的潛在
使用價值 就已經表現出來。大量的企業,例如巨數遺傳公司開始提供價格合宜,而且容易使用的
基因檢測 ,其聲稱可以預測包括
乳腺癌 、凝血、
纖維性 囊腫 、
肝臟疾病 在內的很多種疾病。
人類基因組計畫對許多生物學研究領域有切實的幫助。例如,當
科研人員 研究一種癌症時,通過人類基因組計畫所提供的信息,可能會找到某個,或某些相關基因。如果在網際網路上訪問由人類基因組信息而建立的各種資料庫,可以查詢到其他科學家相關的文章,包括基因的DNA,
cDNA 鹼基順序 ,蛋白質立體結構、功能,多態性,以及和人類其他基因之間的關係。也可找到和
小鼠 、酵母、
果蠅 等對應基因的進化關係,可能存在的突變及相關的信號傳到機制。人類基因組計畫對與腫瘤相關的
癌基因 ,
腫瘤抑制基因 的研究工作,起到了重要的推動作用。
分析不同物種的
DNA序列 的
相似性 會給生物進化和演變的研究提供更廣闊的路徑。事實上,人類基因組計畫提供的數據揭示了許多重要的生物進化史上的
里程碑事件 。如
核糖體 的出現,器官的產生,
胚胎 的發育,脊柱和
免疫系統 等都和DNA載有的遺傳信息有密切關係。
主要實例 疾病基因 人類基因組研究的一個關鍵套用是通過位置克隆尋找
未知生物 化學功能的疾病基因。這個方法包括通過患病家族
連鎖分析 來繪製包含這些基因的染色體區域圖,然後檢查該區域來尋找基因。位置克隆是很有用的,但是也是非常乏味的。當在1980s早期該方法第一次提出時,希望實現位置克隆的研究者們不得不產生遺傳標記來跟蹤遺傳,進行染色體行走得到覆蓋該區域的
基因組DNA ,通過直接測序或間接
基因識別 方法分析大約1Mb大小的區域。最早的兩個障礙在1990s中期在人類基因組項目的支持下隨著
人類染色體 的遺傳和
物理圖譜 的發展而清除。然而,剩餘的障礙仍然是艱難的。
疾病基因示意圖
所有這些將隨著人類
基因組序列草圖 的實用性而改變。在公共資料庫中的人類基因組序列使得
候選基因 的計算機快速識別成為可能,隨之進行相關候選基因的突變檢測,需要在
基因結構 信息的幫助。對於孟德爾遺傳疾病,一個基因的搜尋在一個適當大小的研究小組經常在幾個月實現。至少30個疾病基因直接依賴
公共提供 的基因組序列已經定位克隆到。因為大多數人類序列只是在過去的12個月內得到,可能許多類似的發現還沒有出版。另外,有許多案例中,基因組序列發揮著支持作用,例如提供候選
微衛星 標識用於很好的遺傳
連鎖分析 。(2001年
中國上海 和北京科學家發現
遺傳性乳光牙本質 Ⅱ型基因)
基因組序列對於揭示導致許多普通的染色體刪除綜合症的機制同樣有幫助。在幾個實例中,再發生的刪除被發現,由同源體重組合在大的幾乎同一的染色體內複製的不等交叉產生。例子包括在第22條染色體上的DiGeorge/ velocardiofacial綜合症區和在第7條染色體上的Williams-Beuren綜合症的重複刪除。
基因組序列的
可用性 同樣允許疾病基因的旁系
同源性 的快速識別,對於兩個理由是有價值的。首先,
旁系同源 基因的突變可以引起相關遺傳疾病。通過基因組序列使用發現的一個很好的例子是
色盲 (完全色盲)。CN
GA3 基因,編碼視錐體
光感受器 環GMP
門控通道 的a
亞單位 ,顯示在一些色盲家系中存在突變體。基因組序列的
計算機檢索 揭示了旁系同源基因編碼相應的b亞單位,CNGB3(在EST資料庫中沒有出現)。CNGB3基因被快速認定為是其他家系的色盲的原因。另一個例子是由早衰1和早衰2基因提供的,它們的突變可能導致Alzheimer疾病的的早期發生。第二個理由是旁系同源體可以提供治療敢於的機會,例子是在鐮刀狀細胞疾病或β
地中海貧血 的個體中試圖再次激活胚胎表達的
血紅蛋白 基因,它是由於β-
球蛋白 基因突變引起的。
我們在線上人類孟德爾遺傳資料庫(
OMIM )和
SwissProt 或TrEMBL
蛋白質資料庫 中進行了971個已知的人類疾病基因的
旁系同源 體的系統檢索。我們識別了286個潛在的旁系同源體(要求是至少50個
胺基酸 的匹配,在相同的染色體上一致性大於70%但小於90%,在不同的染色體上小於95%)。儘管這種分析也許識別一些
假基因 ,89%的匹配顯示在新靶序列一個
外顯子 以上的同源性,意味著許多是有功能的。這種分析顯示了在計算機中快速識別疾病基因的潛能。
治療疾病 在過去的世紀裡,製藥產業很大程度上依賴於有限的藥物靶來開發新的治療手段。最近的綱要列舉了483個藥物靶被看作是解決了市場上的所有藥物。知道了人類的全部基因和蛋白質將極大的擴展合適藥物靶的尋找。雖然,僅僅人類的小部分基因可以作為藥物靶,可以預測這個數目將在幾千之上,這個前景將導致基因組研究在藥物研究和開發中的大規模開展。一些例子可以說明這一點:
⑴
神經遞質 (
5-HT )通過
化學門控通道 介導快速興奮回響。以前識別的5-HT3A受體基因產生功能受體,但是比在活體內有小得多的電導。
交叉雜交 實驗和EST分析在揭示已知受體的其他同源體上都失敗了。然而,通過對人類基因組序列草圖的低要求檢索,一個推定的同源體被識別,在一個PAC克隆中第
11號染色體 長臂上。同源體顯示在
紋狀體 、
尾狀核 、海馬中表達,全長cDNA隨後得到。這個編碼胺受體的基因,被命名為5-HT3B。當與5-HT3A組合成異
二聚體 中,它顯示負責大電導神經胺通道。假定胺途徑在精神疾病和精神分裂症的中心作用,一個主要的新的治療靶的發現是相當有興趣的。
⑵半胱氨醯基
白三烯 的收縮和炎症作用,先前認為是過敏反應的慢反映物質(SRS-A),通過特定的受體介導。第二個類似的受體,CysLT2,使用老鼠EST和人類基因組序列的重組得到識別。這導致了與先前識別的唯一的其它受體有38%胺基酸一致性的基因的克隆。這個新的受體,顯示高的親和力和幾個白三烯的結合,映射在與
過敏性哮喘 有關的第
13號染色體 區域上。這個基因在氣道
平滑肌 和心臟中表達。作為白三烯途徑中抗哮喘藥物開發中一個重要的靶,新受體的發現有明顯的重要的作用。
⑶ Alzheimer疾病在
老年斑 中有豐富的
β-澱粉 樣物沉積。β-澱粉樣物由前體蛋白(
APP )
蛋白水解 生成。有一個酶是β位 APP裂開酶,是跨
膜天冬氨酸蛋白酶 。公共的人類基因組草圖序列計算機搜尋最近識別了BACE的一個新的同源序列,編碼一個蛋白,命名為
BACE2 ,它與BACE有52%的胺基酸
序列一致性 。包含兩個激活
蛋白酶 位點和象APP一樣,映射到第21條染色體的必須Down綜合症區域。它提出了問題,BACE2和APP過多的拷貝是否有功於加速Down綜合症病人的腦部β-澱粉樣物沉積。
給出了這些例子,我們在基因組序列中進行系統的識別
傳統藥 靶蛋白質的
旁系同源 體。使用的靶列表在SwissPrott資料庫中識別了603個入口,有唯一的訪問碼。
生物學 一個例子是:解決了困擾研究者幾十年的一個神秘課題:苦味的分子學基礎。人類和其他動物對於某一種苦味有不同的回響(回響的多態性)。最近,研究者將這個
特徵映射 到人類和老鼠中,然後檢索了
G蛋白 偶合受體的人類基因組序列草圖上的相關區域。這些研究很快導致了該類蛋白的新家族的發現,證明了它們幾乎都在味蕾表達,實驗證實了在培養細胞中的受體回響特定的苦基質。
人體
基因 組圖譜是全人類的財產,這一研究成果理應為全人類所分享、造福全人類,這是參與人類基因組工程計畫的各國科學家的共識。值得關注的是,在人類基因組研究領域,出現了一些
私營公司 爭相為其成果
申請專利 的現象。美國
塞萊拉 基因公司曾表示,想把一部分研究成果申請專利,有償提供給製藥公司。
如:
肥胖基因 、
支氣管哮喘 基因。這類基因的新發現每年都有新報導。這些基因的發現,增進了人們對許多重要疾病機理的理解,並且推動整個醫學思想更快的從重治療轉向重預防。例如:
湖南醫科大學 夏家輝 教授組於1998.5.28發表克隆了人類神經性高頻性
耳聾 的致病基因(GJB3),這是第一次在中國克隆的基因。
生物技術的產業化。一批世界級的大公司紛紛把它們的重心轉向生命科學研究和生物技術產品。這種趨勢或潮流也不能不說和人類基因組計畫密切相關。
研究進展 國外 完成人類基因組序列完成圖
⑴ 從當前物理圖譜生成的克隆產生完成的序列,覆蓋基因組的
常染色質 區域大於96%。大約1Gb的完成序列已經實現。剩下的也已經形成草圖,所有的克隆期望達到8~10倍的覆蓋率,大約2001年中期(99.99%的正確率),使用已經建立的和日益自動化的協定。
⑵ 檢測另外的庫來關閉gaps。使用
FISH技術 或其他方法來分析沒有閉合的Gaps大小。22,21條染色體用這種方式。2003年已經完成。
⑶ 開發新的技術來關閉難度較大的gaps,大約幾百個。
基因組序列工作框架圖(Working draft):通過對染色體位置明確的BAC連續克隆系4-5倍覆蓋率的測序(在BAC克隆水平的覆蓋率不應低於3倍),獲得基因組90%以上的序列,其錯誤率應低於1%。工作框架圖可用於基因組結構的認識、基因的識別和解析、疾病基因的
定位克隆 ,SNP的發現等。
草圖的作用
1、草圖,許多疾病相關的基因被識別
2、SNP(人與人之間的區別),草圖提供了一個理解遺傳基礎和人類特徵進化的框架。
4、比較其它基因組可以揭示共同的調控元件,和其他物種共享的基因的環境也許提供在個體水平之上的關於功能和調節的信息。
5、草圖同樣是研究基因組三維壓縮到
細胞核 中的一個起點。這樣的壓縮可能影響到
基因調控 6、在套用上,草圖信息可以開發新的技術,如DNA晶片、
蛋白質晶片 ,作為傳統方法的補充,這樣的晶片可以包含
蛋白質家族 中所有的成員,從而在特定的疾病組織中可以找到那些是活躍的。
2001年2月12日,美國Celera公司與人類基因組計畫分別在《
科學 》和《
自然 》雜誌上公布了人類基因組精細圖譜及其初步
分析結果 。其中,
政府資助 的人類基因組計畫採取基因圖策略,而Celera公司採取了“鳥槍策略”。至此,兩個不同的組織使用不同的方法都實現了他們共同的目標:完成對整個人類基因組的測序的工作;並且,兩者的結果驚人的相似。整個人類基因組測序工作的基本完成,為人類生命科學開闢了一個新紀元,它對
生命本質 、
人類進化 、生物遺傳、
個體差異 、
發病機制 、疾病防治、新藥開發、健康長壽等領域,以及對整個生物學都具有深遠的影響和重大意義,標誌著人類生命科學一個
新時代 的來臨。
眾多發現
1、分析得知:全部人類基因組約有2.91Gbp,約有39000多個基因;平均的基因大小有27kbp;其中G+C含量偏低,僅占38%,而
2號染色體 中G+C的含量最多;仍有9%的鹼基對序列未被確定,
19號染色體 是含基因最豐富的染色體,而13號染色體含基因量最少等等(具體信息可參見cmbi 特別報導:生命科學的重大進展)。
2、已經發現和定位了26000多個功能基因,其中尚有42%的基因尚不知道功能,在已知基因中酶占10.28%,
核酸酶 占7.5%,
信號傳導 占12.2%,
轉錄因子 占6.0%,
信號分子 占1.2%,
受體分子 占5.3%,選擇性調節分子占3.2%,等。發現並了解這些功能基因的作用對於基因功能和新藥的篩選都具有重要的意義。
3、
基因數量 少得驚人:一些研究人員曾經預測人類約有14萬個基因,但Celera公司將人類基因總數定在2.6383萬到3.9114萬個之間,不超過40,000,只是線蟲或果蠅基因數量的兩倍,人有而鼠沒有的基因只有300個。如此少的基因數目,而能產生如此複雜的功能,說明基因組的大小和基因的數量在生命進化上可能不具有特別重大的意義,也說明人類的基因較其他生物體更'有效',人類某些基因的功能和控制蛋白質產生的能力與其他生物的不同。這將對我們許多觀念產生重大的挑戰,它為
後基因組時代 中生物醫學的發展提供新的非凡的機遇。但由於基因剪下,EST資料庫的重複以及一些技術和方法上的誤差,將來亦可能人類的基因數會多於4萬。
4、人類
單核苷酸多態性 的比例約為1/1250bp,不同人群僅有140萬個核苷酸差異,人與人之間99.99%的基因密碼是相同的。並且發現,來自不同人種的人比來自同一人種的人在基因上更為相似。在整個基因組序列中,人與人之間的變異僅為萬分之一,從而說明人類不同“種屬”之間並沒有本質上的區別。
5、人類基因組中存在“熱點”和大片"荒漠"。在染色體上有基因成簇密集分布的區域,也有大片的區域只有“
無用DNA ” ——不包含或含有極少基因的成分。基因組上大約有1/4的區域沒有基因的片段。在所有的DNA中,只有1%-1.5%DNA能編碼蛋白,在人類基因組中98%以上序列都是所謂的“無用DNA”,分布著300多萬個長片斷
重複序列 。這些重複的“無用”序列,決不是無用的,它一定蘊含著人類基因的新功能和
奧秘 ,包含著人類演化和差異的信息。經典分子生物學認為一個基因只能表達一種蛋白質,而人體中存在著非常複雜繁多的蛋白質,提示一個基因可以編碼多種蛋白質,蛋白質比基因具有更為重要的意義
6、男性的
基因突變率 是女性的兩倍,而且大部分人類遺傳疾病是在
Y染色體 上進行的。所以,可能男性在人類的遺傳中起著更重要的作用。
7、人類基因組中大約有200多個基因是來自於插入
人類祖先 基因組的細菌基因。這種
插入基因 在
無脊椎動物 是很罕見的,說明是在
人類進化 晚期才插入我們基因組的。可能是在我們人類的
免疫防禦 系統建立起來前,寄生於機體中的細菌在共生過程中發生了與人類基因組的
基因交換 。
8、發現了大約一百四十萬個
單核苷酸多態性 ,並進行了精確的定位,初步確定了30多種致病基因。隨著進一步分析,我們不僅可以確定
遺傳病 、腫瘤、
心血管病 、糖尿病等危害人類生命健康最嚴重疾病的致病基因,尋找出個體化的防治藥物和方法,同時對進一步了解
人類的進化 產生重大的作用。
9、人類基因組編碼的全套蛋白質(
蛋白質組 )比無
脊椎動物 編碼的蛋白質組更複雜。人類和其他脊椎動物重排了已有蛋白質的
結構域 ,形成了新的結構。也就是說人類的進化和特徵不僅靠產生全新的蛋白質,更重要的是要靠重排和擴展已有的蛋白質,以實現蛋白質種類和功能的多樣性。有人推測一個基因平均可以編碼2-10種蛋白質,以適應人類複雜的功能。
模式生物:酵母(yeast)、
大腸桿菌 (Escherichia coli)、果蠅(Drosophila melanogaster)、線蟲(Caenorhabditis elegans)、小鼠(Mus musculus)、
擬南芥 、水稻、玉米等等其它一些模式生物的基因組計畫也都相繼完成或正在順利進行。
基因組學的研究出現了幾個重心的轉移:一是將已知基因的序列與功能聯繫在一起的
功能基因組學 研究;二是從作圖為基礎的
基因分離 轉向以序列為基礎的基因分離;三是從研究疾病的起因轉向探索發病機理;四是從
疾病診斷 轉向疾病
易感性 研究。
在後基因組時代,如果在已完成基因組測序的物種之間進行整體的比較、分析,希望在整個基因組的規模上了解基因組和
蛋白質組 的功能意義,包括基因組的表達與調控、基因組的多樣化和進化規律以及基因及其產物在生物體生長、發育、分化、行為、老化和治病過程中的作用機制都必須發展新的算法以充分利用超級計算機的超級
計算能力 。
美國和英國科學家2006年5月18日在英國《自然》雜誌網路版上發表了人類最後一個染色體——
1號染色體 的
基因測序 。
在人體全部22對
常染色體 中,1號染色體包含基因數量最多,達3141個,是平均水平的兩倍,共有超過2.23億個鹼基對,破譯難度也最大。一個由150名英國和美國科學家組成的團隊歷時10年,才完成了1號染色體的測序工作。
科學家不止一次宣布人類基因組計畫完工,但推出的均不是全本,這一次殺青的“生命之書”更為精確,覆蓋了人類基因組的99.99%。解讀人體基因密碼的“生命之書”宣告完成,歷時16年的人類基因組計畫書寫完了最後一個章節。
中國 人類基因組計畫中還包括若干個模式生物體基因組計畫,中國重點支持的
水稻基因組 研究計畫亦可劃入這一範疇。模式生物體一直就是生命科學領域研究的基本模型,加之它們與人類相比基因組結構簡單、單位DNA長度上基因密度高, 易於基因的識別,而且從低等至高等的各個模式生物是研究基因
分子進化 的絕佳材料。各模式生物體之間的比較性研究將有助於人類基因的結構與功能的闡明。對於在整體水平研究基因的功能,模式生物體更有著無法取代的地位。
中國的基因組研究工作起步較晚,而且是基礎差、底子薄、資金少,與國際上這幾年HGP的驚人速度相比,中間的差距很大,並且這種差距有進一步加大的可能。中國生命科學界應在如下幾個方面共同努力:
⒈ 儘快收集和利用中國寶貴的多民族基因組資源和遺傳病家系材料, 並阻止這些資源盲目流向國外。
⒉ 集中人力、物力和財力,建立互相配套的、集分子遺傳學、
自動化技術 和信息技術為一體的中心,才能卓有成效地開展工作。
⒊ 根據中國國情和原有工作基礎,做到有所為有所不為, 走“短平快”和出奇制勝的道路,直接楔入基因組研究中最為關鍵的部分-
基因識別 ,如走“cDNA計畫”道路,儘可能地克隆一大批新基因,在人類8萬~10 萬個基因中占有一定的份額。同時,由於基因組
DNA測序 是一項勞動和技能密集性工作,如能
引進技術 , 培訓一支高水平的技術隊伍,完全有可能將人類基因組測序的一部分工作吸引到中國。
⒋ 充分利用國際
基因資料庫 中已有信息,建立
生物信息技術 , 推進中國基因組研究工作,並在基因組轉錄順序的認識及基因功能推測方面多做工作。
⒌ 多渠道籌措資金,在維護智慧財產權的前提下開展國際間合作。
歷史已將中國當代科學家推上了人類基因組計畫這一
國際合作 和競爭的大舞台,他們責無旁貸地要為供養自己的國家和人民負責,為21世紀中國的科學、技術和產業負責,唯有高瞻遠矚地認清當前的形勢和不辭勞苦、不計得失地拼搏,才有可能在國際人類基因組計畫中占有一席之地,有著交換和分享數據的資本,共同品嘗人類基因組這一全人類的“聖餐”。
中國1994年啟動HGP,現已完成南北方兩個漢族人群和西南、
東北地區 12個
少數民族 共733個永生
細胞系 的建立,為
中華民族 基因保存了寶貴的資源,並在多民族基因組多樣性的研究中取得了成就,在致病基因研究中有所發現。定名為中華民族基因組結構和功能研究的HGP為“九五”國家最大的資助研究項目之一(700萬元),為中國在下世紀國際HGP科學的新一輪競爭中占據有利地位打好了基礎。
技術套用 1、人類基因組測序
1990年~1998年,人類基因組序列已完成和正在測序的總計約330Mb,占人基因組的11%左右;已識別出人類疾病相關的基因200個左右。此外,細菌、
古細菌 、
支原體 和酵母等17種生物的全基因組的測序已經完成。
值得一提的是,企業與研究部門的攜手,將大大地促進測序工作的完成。美國的基因組研究所(The Institute of Genome Research,TIGR)與PE(Perkin-Elmar)公司合作建立新公司,三年內投資2億美元,預計於2002年完成全序列的測定。這一進度將比
美國政府 資助的HGP的預定目標提前三年。美國加州的一家遺傳學數據公司(Incyte)宣布(1998年),兩年內測定基因組中的
蛋白質 編碼序列 以及
密碼子 中的
單核苷酸 的
多態性 ,最後將繪製一幅人的10萬個基因的定點陣圖。與Incyte公司合作的HGS(Human Genome Science)公司的負責人宣稱,截至1998年8月,該公司已鑑定出10萬多個基因(人體基因約為12萬個),並且得到了95%以上基因的
EST (expressed sequence tag)或其部分序列。
1998年9月14日美國國家人類基因組計畫研究所(NHGRI)和
美國能源部 基因組
研究計畫 的負責人在一次諮詢會議上宣布,美國政府資助的人類基因組計畫將於2001年完成大部分蛋白質編碼區的測序,約占基因組的三分之一,測序的
差錯率 不超過萬分之一。同時還要完成一幅“工作草圖”,至少覆蓋基因組的90%,差錯率為百分之一。2003年完成基因組測序,差錯率為萬分之一。這一
時間表 顯示,計畫將比開始的目標提前兩年完成。
在遺傳和
物理作圖 工作的帶動下,疾病基因的定位、克隆和鑑定研究已形成了,從
表位 →蛋白質→基因的傳統途徑轉向“
反求遺傳學 ”或“
定位克隆法 ”的全新思路。隨著人類
基因圖 的構成,3000多個人類基因已被精確地定位於染色體的各個區域。今後,一旦某個疾病位點被定位,就可以從局部的基因圖中遴選出相關基因進行分析。這種被稱為“
定位候選克隆 ”的策略,將大大提高發現疾病基因的效率。
人類疾病的
基因組學 研究已進入到多基因疾病這一難點。由於多
基因疾病 不遵循
孟德爾遺傳規律 ,難以從一般的家系遺傳
連鎖分析 取得突破。這方面的研究需要在人群和
遺傳標記 的選擇、
數學模型 的建立、
統計方法 的 改進等方面進行艱苦的努力。近來也有學者提出,用比較
基因表達譜 的方法來識別疾病狀態下基因的激活或受抑。實際上,“癌腫基因組解剖學計畫(Cancer Genome Anatomy Project,CGAP)就代表了在這方面的嘗試。
國際HGP 研究的飛速發展和日趨激烈的基因搶奪戰已引起了中國政府和科學界的高度重視。在政府的資助和一批高水平的
生命科學 家帶領下,中國已建成了一批實力較強的國家級生命科學
重點實驗室 ,組建了北京、
上海人類基因組研究中心 。有了研究人類基因組的條件和基礎,並引進和建立了一批基因組研究中的新技術。中國的HGP在多民族
基因保存 、基因組多樣性的
比較研究 方面取得了令人滿意的成果,同時在
白血病 、
食管癌 、
肝癌 、
鼻咽癌 等
易感基因 研究方面亦取得了較大進展。
首先建立了
寡核苷酸 引物 介導的人類高分辨染色體
顯微切割 和顯微基因克隆技術;已建立的17種染色體
特異性 DNA文庫 和24種染色體區特異性DNA文庫及其探針;構建了人X染色體
YAC 圖譜,已完成了人X染色體Xp11.2-p21.3跨度的約35cM STS-YAC圖譜的構建;建立了YAC-cDNA篩選技術。
中國是世界上人口最多的國家,有56 個民族和極為豐富的病種資源,並且由於長期的
社會封閉 ,在一些地區形成了極為難得的族群和遺傳隔離群,一些多世代、多個體的大家系具有典型的
遺傳性狀 ,這些都是克隆相關基因的寶貴材料。但是,由於中國的HGP 研究工作起步較晚、底子薄、資金投入不足,缺乏一支穩定的、高素質的青年
生力軍 , 中國的HGP 研究工作與國外近年來的驚人
發展速度 相比,差距還很大,並且有進一步加大的危險。如果我們在這場基因爭奪戰中不能堅守住自己的陣地,那么在21 世紀的競爭中我們又將處於被動地位:我們不能自由地套用
基因診斷 和
基因治療 的權力,我們不能自由地進行
生物藥 物的生產和開發,我們亦不能自由地推動其他基因
相關產業 的發展。
相關研究 1、生命科學工業的形成
由於基因組研究與製藥、生物技術、農業、食品、化學、化妝品、環境、能源和計算機等
工業部門 密切相關,更重要的是基因組的研究可以轉化為巨大的生產力,國際上一批大型製藥公司和
化學工業 公司大規模紛紛投巨資進軍基因組研究領域,形成了一個新的
產業部門 ,即生命科學工業。
世界上一些大的製藥集團紛紛投資建立基因組研究所。Ciba-Geigy 和Ssandoz合資組建了Novartis 公司,並斥資2.5億美元建立研究所,開展基因組研究工作。Smith Kline 公司花1.25億美元加快測序的進度,將藥物開發項目的25%建立在
基因組學 之上。Glaxo-Wellcome 在基因組研究領域投入4,700萬美元,將研究人員增加了一倍。
大型化學工業公司向生命科學工業轉軌。
孟山都公司 早在1985年就開始轉向生命科學工業。至1997年,該公司向生物技術和基因組研究的投入已高達66億美元。1998年4月,
杜邦 公司宣布改組成三個實業單位,由生命科學領頭。1998年5月,該公司又宣布放棄能源公司Conaco,將其改造成一家生命科學公司。Dow化學公司用9億美元購入Eli Lilly公司40%的股票,從事穀物和食品研究,後又成立了生命科學公司。Hoechst公司則出售了它的基本化學品部門,轉項投資生物技術和製藥。
傳統的農業和食品部門也出現了向生物技術和製藥合併的趨勢。Genzyme Transgenics 公司培養出的
基因工程 羊能以較高的產量生產
抗凝血酶Ⅲ ,一群羊的酶產量相當於投資1.15億美元工廠的產量。據估計,
轉基因動物 生產的藥物成本是大規模
細胞培養 法的十分之一。一些公司還在研究生產能抗
骨質疏鬆 的穀物,以及
大規模生產 和加工基因
工程食品 。
能源、採礦和環境工業也已在分子水平上向基因組研究匯合。例如,用
產甲烷菌 Methanobacterium 作為一種新能源。用抗輻射的細菌Deinococcus radiodurans清除
放射性物質 的污染,並在轉入tod基因後,在高輻射環境下清除多種有害化學
物質 的污染。
人類基因組計畫當前的整體
發展趨勢 是什麼?一方面,在順利實現
遺傳圖 和
物理圖 的製作後,
結構基因組學 正在向完成染色體的完整核酸
序列圖 的目標奮進。另一方面,功能基因組學已提上議事日程。人類基因組計畫已開始進入由結構基因組學向功能基因組學過渡、轉化的過程。在功能基因組學研究中,可能的核心問題有:基因組的表達及其調控、基因組的多樣性、模式生物體基因組研究等。
⑴基因組的表達及其調控
一個細胞的基因轉錄表達水平能夠精確而特異地反映其類型、
發育階段 以及反應狀態,是功能基因組學的主要內容之一。為了能夠全面地評價全部基因的表達,需要建立全新的工具系統,其定量
敏感性 水平應達到小於1個拷貝/細胞,定性敏感性應能夠區分剪接方式,還須達到檢測單細胞的能力。近年來發展的
DNA微陣列 技術,如
DNA晶片 ,已有可能達到這一目標。
研究基因轉錄表達不僅是為了獲得全基因組表達的數據,以作為數學
聚類分析 。關鍵問題是要解析控制整個發育過程或反應通路的
基因表達 網路的機制。
網路概念 對於生理和病理條件下的
基因表達調控 都是十分重要的。一方面,大多數細胞中基因的產物都是與其它基因的產物互相作用的;另一方面,在發育過程中大多數的
基因產物 都是在多個時間和空間表達並發揮其功能,形成基因表達的
多效性 。在一個意義上,每個基因的表達模式只有放到它所在的
調控網路 的大背景下,才會有真正的意義。進行這方面的研究,有必要建立高通量的
小鼠 胚胎
原位雜交技術 。
蛋白質 組學研究是要從整體水平上研究蛋白質的水平和修飾狀態。正在發展標準化和自動化的二維蛋白質
凝膠電泳 的工作體系。首先用一個
自動系統 來提取人類細胞的蛋白質,繼而用
色譜儀 進行部分分離,將每區段中的蛋白質裂解,再用
質譜儀 分析,並在
蛋白質資料庫 中通過特徵分析來認識產生的多肽。
3 生物信息學的套用
生物信息學已大量套用於基因的發現和預測。然而,利用生物信息學去
發現基因 的蛋白質產物的功能更為重要。模式生物體中越來越多的蛋白質構建編碼單位被識別,無疑為基因和蛋白質
同源 關係的搜尋和家族的分類提供了極其寶貴的信息。同時,生物信息學的算法、程式也在不斷改善,使得不僅能夠從一級結構,也能從估計結構上發現同源關係。但是,利用
計算機模擬 所獲得的理論數據,還需要經過實驗經過的驗證和修正。
⑵基因組多樣性的研究
人類是一個具有
多態性 的群體。不同群體和個體在
生物學性狀 以及在對疾病的
易感性 與抗性上的差別,反映了進化過程中基因組與內、外部環境相互作用的結果。開展人類基因組多樣性的
系統研究 ,無論對於了解
人類的起源 和進化,還是對於
生物醫學 均會產生重大的影響。
可以預測,在完成第一個人類
基因組測序 後,必然會出現對各人種、群體進行再測序和精細
基因分型 的熱潮。這些資料與人類學、語言學的資料相結合,將有可能建立一個全人類的資料庫資源,從而更好地了解人類的歷史和自身特徵。另外,基因組多樣性的研究將成為疾病基因組學的主要內容之一,而
群體遺傳學 將日益成為
生物醫藥 研究中的主流工具。需要對各種常見
多因素疾病 (如
高血壓 、
糖尿病 和
精神分裂症 等)的相關基因及癌腫相關基因在基因組水平進行大規模的再測序,以識別其變異序列。
2 對其它生物的測序
對進化過程各個階段的生物進行系統的比較
DNA測序 ,將揭開生命35億年的進化史。這樣的研究不僅能勾畫出一張詳盡的系統
進化樹 ,而且將顯示進化過程中最主要的變化所發生的時間及特點,比如新基因的出現和全基因組的複製。
認識不同生物中基因序列的
保守性 ,將能夠使我們有效地認識約束基因及其產物的功能性的因素。對序列差異性的研究則有助於認識產生大自然多樣性的基礎。在不同生物體之間建立序列變異與
基因表達 的時空差異之間的
相關性 ,將有助於揭示基因的
網路結構 。
⑶開展對模式生物體的研究
1 比較基因組研究
在人類基因組的研究中,模式生物體的研究占有極其重要的地位。儘管模式生物體的基因組的結構相對簡單,但是它們的核心細胞過程和生化通路在很大程度上是保守的。這項研究的意義是:1〕有助於發展和檢驗新的
相關技術 ,如大規模測序、大規模表達譜檢驗、大規模功能篩選等;2〕通過比較和鑑定,能夠了解基因組的進化,從而加速對人類基因組結構和功能的了解;3〕模式生物體間的
比較研究 ,為闡明
基因表達 機制提供了重要的線索。
對於基因組總體結構組成方面的知識,主要來源於模式生物體的基因組序列分析。通過對不同物種間
基因調控 序列的計算機分析,已發現了一定比例的
保守性 核心
調控序列 。根據這些序列建立的表達模式資料庫對破譯
基因調控網路 提供了必要的條件。
識別基因功能最有效的方法,可能是觀察基因表達被阻斷後在細胞和整體所產生的表型變化。在這方面,
基因剔除 方法(knock-out)是一項特別有用的工具。國際上已開展了對酵母、
線蟲 和
果蠅 的大規模
功能基因組學 研究,其中進展最快的是酵母。
歐共體 為此專門建立了一個稱為EUROFAN(European Functional Analysis Network)的研究網路。美國、
加拿大 和日本也啟動了類似的計畫。
隨著線蟲和果蠅基因組測序的完成,將來也可能開展對這兩種生物的類似性研究。一些
突變株 系和
技術體系 建立後,不僅能夠成為研究單基因功能的有效手段,而且為研究基因冗餘性和基因間的相互作用等深層次問題奠定了基礎。小鼠作為
哺乳動物 中的
代表性 模式生物,在
功能基因組學 的研究中展有特殊的地位。
同源重組 技術可以破壞小鼠的任何一個基因,這種方法的缺點是費用高。利用點突變、
缺失突變 和
插入突變 造成的隨機突變是另一中可能的途徑。對於
人體細胞 而言,建立
反義寡核苷酸 和
核酶 瞬間阻斷基因表達的體系可能更加合適。蛋白質水平的剔除術也許是說明基因功能最有力的手段。利用
組合化學 方法有望生產出化學剔除試劑,用於激活或失活各種蛋白質。
總之,模式生物體的
基因組計畫 為人類基因組的研究提供了大量的信息。今後,模式生物體的研究方向是將人類基因組8~10萬個編碼基因的大部分轉化為已知生化功能的
多成分 核心機制。而要獲得酶一種
人類進化 保守性 核心機制的精細途徑,以及它們的紊亂導致疾病的各種途徑的知識,將只能來自對人類自身的研究。
通過
功能基因組學 的研究,人類最終將將能夠了解哪些進化機制已經確實發生,並考慮進化過程還能夠有哪些新的潛能。一種新的解答發育問題的方法可能是,將蛋白質
功能域 和調控順序進行重新的組合,建立新的
基因網路 和
形態發生 通路。也就是說,未來的生物科學不僅能夠認識生物體是如何構成和進化的,而且更為誘人的是產生構建新的生物體的可能潛力。該計畫在人類
科學史 上又豎起了一座新的里程碑!這是一項改變世界,影響人類生活的壯舉,隨著時間的推移,它的偉大意義將愈顯昭彰。
在國際人類基因組計畫(以下簡稱“國際計畫”)啟動八年後的1998年,美國科學家
克萊格·凡特 創辦了一家名為塞雷拉基因組(Celera Genomics)的小私立公司,開展自己的人類基因組計畫。與國際人類基因組計畫相比,公司希望能以更快的速度和更少的投資(3億美元,僅為國際計畫的十分之一)來完成。塞雷拉基因組的另起計畫被認為對人類基因組計畫是一件好事,因為塞雷拉基因組的競爭促使國際人類基因組計畫不得不改進其策略,進一步加速其工作進程,使得人類基因組計畫得以提前完成。
塞雷拉採用了更快速同時更具風險的技術全基因組
霰彈槍 測序法。霰彈槍測序法的思想是將基因組打斷為數百萬個DNA片斷,然後用一定的算法將片斷的序列信息重新整合在一起,從而得到整個
基因組序列 。為了提高這一方法的效率,1980年代,測序和片斷
信息整合 達到了自動化。這一方法雖然已被用於序列長達6百萬個
鹼基對 的細菌基因組測序,但對於人類基因組中3千萬個鹼基對的
序列測定 ,這一技術能否成功在當時還未有定論。
塞雷拉基因組一開始宣稱只尋求對200至300個基因的
專利權 保護,但隨後又修改為尋求對“完全鑑定的重要結構”的總共100至300個
靶基因 進行
智慧財產權保護 。1999年,塞雷拉申請對6500個完整的或部分的
人類基因 進行初步
專利保護 ;批評者認為這一舉動將阻礙遺傳學研究。此外,塞雷拉建立之初,同意與國際計畫分享數據,但這一協定很快就因為塞雷拉拒絕將自己的測序數據存入可以自由訪問的
公共資料庫 而破裂。雖然塞雷拉承諾根據1996年百慕達協定每季度發表他們的最新進展(國際計畫則為每天),但不同於國際計畫的是,他們不允許他人自由發布或無償使用他們的數據。
2000年,美國總統柯林頓宣布所有人類基因組數據不允許專利保護,且必須對所有研究者公開,塞雷拉不得不決定將數據公開。這一事件也導致塞雷拉的
股票價格 一路下挫,並使倚重生物
技術股 的
納斯達克 受到重挫;兩天內,生物技術板塊的市值損失了約500億美元。
後人類基因組計畫
後基因組計畫 就是人類完成人類基因組計畫(結構基因組學)以後的若干領域,實際上是指完成順序後的進一步計畫,其實質內容就是生物信息學與功能基因組學。其核心問題是研究基因組多樣性,
遺傳疾病 產生的原因,
基因表示 調控的
協調作用 ,以及蛋白質產物的功能。
人類基因組計畫
人類基因組研究的目的不只是為了讀出全部的
DNA序列 ,更重要的是讀懂每個基因的功能,每個基因與某種疾病的種種關係,真正對生命進行系統地科學解碼,從此達到從根本上了解認識生命的起源、種間、個體間的差異的原因,疾病產生的得機制以及長壽、衰老等困擾著人類的最基本的
生命現象 目的。
延伸計畫