計畫介紹
水稻(Oryza sativa L.)是最重要糧食作物之一,也是世界1/2以上人口的主食,與其相關的遺傳學和分子生物學研究一直倍受研究者的重視。水稻
基因組(430 Mb)是禾穀類作物中最小的,且易於
遺傳操作並與其他禾穀類作物存在
共線性,目前已成為遺傳學和基因組研究的模式植物。至2002年,秈、粳稻兩個亞種全
基因組工作框架圖的測定和粳稻基因組全長序列的測定相繼完成。這不僅有利於探明水稻基因功能,而且還有利於闡明更大和更複雜的禾穀類
基因組研究。水稻
基因組測序的研究成功將有助於為全人類的食物安全提供保障。
研發歷程
水稻是最重要的糧食作物之一,直接關係到世界一半人口的生活質量。而決定水稻品質與產量的,則是水稻的基因。
1993年,基因中心以中國主要栽培品種
秈稻廣陸4號為水稻
基因組研究品系。1996年,中國在國際上率先完成了水稻(
秈稻)
基因組物理圖的構建。更為有價值的是,韓斌研究組在
測序4號
染色體的同時,還對另一個亞種
秈稻廣陸矮4號染色體序列進行了測定,通過對兩個品種連續長度達230萬個DNA
鹼基對相應序列的同源比較,首次報導了水稻兩個主要栽培稻(秈稻、粳稻)間的
基因組成、順序及DNA基因水平上的一些異同,從而揭示了栽培稻間的一些親緣關係和進化關係。這是中國科學家在水稻基因研究領域的獨到貢獻。《自然》審稿人認為:這些數據為將來整個基因水平上的比較提供了一個良好的示範。
隨後,中國科學家發現,國際上同時進行的水稻基因研究不是以
秈稻為主,而是以粳稻為主。所以,中國科學家在國際學術交流中一度遇到冷落。因為國際上的一些科學家估計,
秈稻的
基因組將比粳稻多出10%,研究成本會更大。
1998年,國際水稻基因組測序計畫正式啟動,中國以及台灣地區與
日本、美國、
法國、韓國、
印度等一道,成為這一國際組織的成員。每個國家根據自身的經濟實力,除
日本承擔6條
染色體的測序外,其它國家與地區大都只承擔一條染色體的測序。根據國際水稻
基因組織的協定,其成員必須將測序的所得數據提供給公共基因庫,同時,也可以分享他人的數據,和有關這一領域的先進技術與成果。這就意味著,中國水稻基因的測序研究,奉獻了10%的工作量,卻擁有了分享另外90%成果的資格基因中心已向公共資料庫遞交了超過5000萬
鹼基的水稻
基因組DNA序列數據。
日本在水稻基因研究領域處於領先地位,而中國的第4號
染色體與日本的第1號染色體工作同時刊出論文,這本身就是國際合作的結果。
在測序過程中,需要大量的探針,中國暫不具備成熟的產品。而
日本從1992年就開始研究,探針的技術與產品已相當完備和成熟。根據協定,國家基因研究中心因此獲得了最好的探針,提高了測序的準確性。
2002年12月18日,國際水稻
基因組測序工程結束紀念儀式在東京舉行,200多位來自10個國家和地區的科學家和
日本各界代表出席了會議。宣布國際水稻基因組測序結束。
重大發現
水稻(
秈稻)基因工作框架圖是繼人類基因組之後完成測定的最大的基因組,也是迄今測定的最大植物基因組。該框架圖已基本覆蓋了水稻的整個
基因組、92%以上的水稻基因,人類第一次對水稻有了全基因組層次的了解。
《科學》雜誌說,中國科學家採用“全
基因組散彈槍測序法”,測出了
秈稻亞種的基因組序列,該品種是中國和亞太地區其他國家的一個主要品種。
1 估計水稻基因組中基因總數在46022至55615之間,其基因總數幾乎是人類基因組基因總數的兩倍;
2 水稻基因主要通過基因加倍而使“
基因家族”的成員數目增加,但每一“成員”的功能比較單一;
3 基因頭尾差別大,大部分水稻基因的頭部與尾部組成不一樣,增加了基因發現的難度;
4 水稻、
擬南芥與人類基因組都有很多不
編碼蛋白質的“垃圾”序列。水稻的這些“垃圾”序列多位於基因之外,而人類的卻在基因之內。正因為如此,水稻基因的平均長度只有4500個
鹼基,而人類基因的平均長度為72000個
鹼基;
5
擬南芥已發現有2.5萬個基因,80%左右的基因在水稻的
基因組中都可找到。而水稻
基因組中只有一半不到的基因在
擬南芥基因組中找到;
7 水稻序列的相互之間差異近1%,而人類序列的相互差異為1‰左右;
8 秈稻與雜交水稻母本的序列給雜交水稻的機制提供了新的啟示:“雜交優勢”很可能與基因組大小、基因表達等都有關係。
意義價值
任何一個生物的全
基因組序列都蘊藏著這一生物的起源、進化、發育、生理等重要信息。水稻是全球半數以上人口賴以生存的糧食作物,對於人類生活、糧食安全具有至關重要的意義。研究表明,水稻共有12條
染色體,它們記錄著與水稻的高產優質、美味香色以及與生長期、抗病抗蟲、耐旱耐澇、抗倒伏等所有性狀相關的
遺傳信息。因此,解析水稻
基因組序列,是改進水稻品質、提高水稻產量的前提和基礎。
國際水稻
基因組計畫破譯了水稻
遺傳的“密碼本”,科學家可以根據
測序得到的精確序列,對水稻中影響產量、口感、
香味、抗病蟲害等重要農業性狀的基因進行鑑定,並採取措施提高水稻的產量和質量。這些將給水稻育種帶來革命性的影響。
國際水稻
基因組計畫的完成,在農業生產上的意義可以與人類基因組計畫對人類健康的意義相媲美。 獲得水稻基因4號
染色體的序列分析結果,將有助於了解
小麥、
玉米等其它禾本科農作物的
基因組,為培育具有高產、優質、抗病蟲害、抗逆等優良性狀的水稻新品種打下良好基礎。
基因研究對水稻研究的影響是多方面的。比如以前人們水稻選種只能依靠目測,而通過基因研究,人們可以利用遺傳途徑改良水稻品種,水稻的選種時間也可以大大縮短。
水稻基因數目再次表明,生命的複雜性遠遠超乎人類的任何預先設計和想像,而任何一次科學進步,都將使人類更加接近真理,接近事物的真相。正如人類基因數曾經出現過的波折那樣:最開始人們認為大概有3萬到10萬個,直到2000年
人類基因組工作框架圖被繪製並“解讀”後,人們才發現人類的基因只有3萬到4萬個,遠遠低於最開始的推測。
基因組測序
基因組測序涉及DNA的大規模測序,由於目前只能採取分而治之的測序基本策略,即將基因組DNA分割成一定大小的片段,然後分別對這些片段進行測序。而
遺傳圖和物理圖可作為整個基因組測序的路標,為小片段DNA測序和
重疊群構建提供了基礎。
遺傳圖譜
自1988年McCouch等利用IR34583(秈)×BuluDalam(爪哇)的F2群體構建了第一張水稻分子連鎖圖譜(含135RFLP標記)以來,高密度的圖譜相繼產生。1991年,Tanksley等利用IRAT177(粳)/Apura(秈)DH群體構建了第二個RFLP分子連鎖圖譜;Saito等也構建了一張包含347個遺傳標記的分子連鎖圖譜。1994年Causse等構建了另一張726個RFLP標記分子連鎖圖譜。Kurata等構建了一張包含1384個DNA標記的分子連鎖圖譜。中國的研究組也先後構建了一些遺傳群體。近年來,隨著
分子遺傳學的迅速發展,國際水稻基因組測序計畫(InternationalRiceGenomeSequencingProject,IRGSP)成員國以Nipponbare、Kasalath、IR64和Azucena等水稻品種為材料,構建了10個飽和的
遺傳圖譜並與表型的標記進行了整合,以創造新的
遺傳資源。1998年,Harushima等構建了一張高密度水稻遺傳連鎖圖,包含了2275個遺傳標記,覆蓋水稻
基因組1521.6cM。2001年,RiceGenomeProgram(RGP)公布了包含3267個RFLP
分子標記的水稻分子連鎖圖。還利用次級三體和終級三體(telotrisomics)將經典
遺傳圖和分子遺傳圖中的著絲粒位置確定,修正了分子圖譜的方向,把RFLP標記定位到特定的
染色體臂上;Wu等構建了水稻第11和第12染色體短臂
末端重複基因組區域的圖譜,重複基因組區域大小是2.5Mb,表明水稻也存在
大染色體片段的重複區域。上述
遺傳圖譜在
基因定位、
物理圖譜的構建和基因
測序中發揮了或即將發揮巨大作用。
物理圖譜
已獲得高密度水稻遺傳連鎖圖,為何不能直接指導
基因組計畫的測序,還要繪製物理圖?其主要原因是遺傳圖的精確性較低、解析度有限,而物理圖是對遺傳圖的進一步深化,並能直接套用於圖位
克隆技術分離
目的基因。1998年,Umehara等構建了水稻第一張物理圖譜,共篩選到5701個
YAC,其中2117個單一YAC分配到12條
染色體上,跨度216Mb,覆蓋水稻
基因組的50%。接著
日本水稻
基因組計畫(RGP)開始將
YAC重疊群(contig)分解成粘粒(cosmid)DNA
克隆,構建更精細的物理圖譜。2001年,
RGP還構建了一個覆蓋270Mb(全
基因組的63%)的
YAC文庫的物理圖,由6934個YAC組成,
插入片段平均長度為350kb。
由於
YAC克隆不太穩定、插入DNA難以分離、轉化效率低等原因,美國Clemson大學
基因組研究所(ClemsonUniversityGenomicsInstitute,CUGI)又建成了兩個BAC庫,一個是由37000個HindⅢ酶切的BAC文庫,
插入片段平均長度為128.5kb;另一個是有56000個克隆的EcoRⅠBAC庫,插入片段平均大小為120kb,兩者覆蓋水稻基因組的26倍。1997年,中國科學院國家基因研究中心(NationalCenterforGeneResearch,NCGR)發表了由
指紋?錨標法策略建成的含565個
分子標記且覆蓋率較高的水稻廣陸矮4號
基因組BAC庫
物理圖。
2001年,RGP為了克服
YAC克隆的局限性,又以PAC為載體構建了水稻Nipponbare
基因組文庫,此文庫由72000個Sau3AⅠ酶切克隆組成,平均
插入片段長120kb,覆蓋水稻基因組的16倍。RGP也對75000個PAC
克隆進行了排列,所有已定位的可用標記用於鑑定和錨定PAC克隆。這些
克隆分成3個池,以EST衍生的特異
引物進行PCR排序,一個EST共有的幾個PAC
克隆被認為是重疊的,它們歸為一個克隆群,這個方法可以解除由於
雜交探針屬於
多基因家族而帶來的困難。
基因組測序
國際水稻基因組測序計畫(IRGSP)由1997年在新加坡舉行的植物分子生物學會議發起;1998年,中國、日本、美國和韓國的代表共同草擬了資源共享等組織議程;2000年在美國的C1emson召開了協調會,對12條
染色體測序任務進行了分工(表1)。測序工作分為測序、填補缺口和最後完成三個階段。對於最後測序結果的標準,IRGSP規定為誤差率低於1/10000(精度99.99%)。第二階段是測序工作的瓶頸,測序階段留下的缺口需要補平,水稻特殊序列組成(易於形成
二級結構和GC富集區)和
重複序列造成的低質量測序結果需要改進。通過各研究機構和私營公司的共同努力,IRGSP已於2002年12月宣布,利用
克隆連克隆(逐步克隆)測定法(clonebyclonesequencing),提前3年完成了水稻12條
染色體的
鹼基測序工作。
日本在其中發揮著主導作用,並最先以99.99%的精度完成了最長的第1條
染色體的測序工作。此前,孟山都公司同意將已構建的水稻
基因組序列草圖(包括已構建
物理圖的3416個BAC和125619個STC序列)轉讓給IRGSP。RGP對原有的
物理圖進行延伸及彌補物理圖上的空缺,大大加速了水稻基因組測序工作進程。中國科學家完成了第4
染色體全長序列的精確測定。第1、4
染色體的序列和結構已同時發表在2002年11月《Nature》第420期第312~320頁。由美國Clemson大學負責的第10
染色體的全長序列也已發表在2003年9月的《Science》上。其餘各條
染色體的測序結果也將陸續發表。另外,中國科學院
基因組信息中心暨北京華大基因研究中心(簡稱基因信息中心)等12家單位,於1998年至2001年利用全
基因組霰彈法(wholegenomeshotgunsequencing,WGS),構建了
秈稻93-11基因組工作框架圖和低覆蓋率的培矮64S草圖,並最先向全世界公布了水稻93-11全基因組框架圖。隨後,美國先正達(Syngenta)公司也完成了
日本晴基因組工作框架圖的測序。兩個框架圖同時發表在2002年4月的《Science》第296期第79~99頁,它們都是對IRGSP的補充。
基因組信息
基因組(genome)包含了生物的進化、
遺傳和生命的奧秘,是
細胞遺傳物質的總和,其大小通常以其全部DNA
鹼基對總數來表示。水稻
基因組有12條
染色體,第1染色體最長,第10染色體最短;核基因組序列總長約430Mb,是
擬南芥基因組的3.7倍或
人類基因組的1/6.7,預測基因總數達32000~56000個,可能多於人類基因總數。
秈稻是亞洲和世界其他一些地方廣為種植的主要水稻亞種,同時也是中國雜交水稻的主要
遺傳背景之一,為解決中國人民的糧食問題作出了巨大貢獻。秈稻93-11
基因組框架圖,共完成462萬個成功反應,得到了127550個
重疊群,覆蓋深度為4.2×,預測基因組長466Mb,實測的全長非冗餘序列為409.76Mb,大約覆蓋了水稻全基因組的95.29%,
鹼基準確率大於99%;估計基因的大小為4500bp,預測基因數為4.6~5.6萬個,拷貝基因占基因總數的74%,
轉位因子占全基因組的24.9%,
簡單重複序列數為全基因組的2.1%;基因內GC含量的梯度明顯;
外顯子變異少、內含子變化大;水稻與
玉米、
小麥和大麥之間有廣泛的
共線性,但水稻與
擬南芥的共線性是有限的。這些序列還貯存在
日本、
歐洲和美國的DNA公共資料庫中(DDBI/EMBL/GenBank),項目記錄的代碼為AAAA00000000,版本號AAAA01000000。
粳稻是適宜於溫帶地區種植的另一類栽培稻亞種,
秈稻和粳稻兩個亞種大約於200~300萬年前在進化中產生分離,兩者不同的
基因組比例達22%以上。日本晴(Nipponbare)
基因組框架圖,共完成550萬個成功反應,得到了42109個重疊群,覆蓋深度大於6×;覆蓋率為93%;非冗餘序列為389809244bp,
鹼基準確率大於99.99%,GC含量達44%;預測基因數為3.2~5.0萬個,拷貝基因占基因總數的77%;
轉位因子4220個,簡單重複序列數為46666個;參照
擬南芥的功能分類法,從抗病性、花時和花發育特性、
新陳代謝、磷的轉運子和
轉錄因子等方面進行了基因功能分類(圖1)。這套粳稻
基因組框架圖被簡稱為Syd(Syngentadraftsequence。
第1
染色體的預測長度達51.4Mb,約占水稻圖1水稻基因功能分類
鹼基總數的1/10。其中短臂序列長493729bp,約6756個基因,約30%基因(2073個基因)已被功能分類。基因大小的均值是6.4kb。第1染色體是富G+C含量的染色體,特別是在
編碼區,具有幾個分散或
串聯重複序列基因簇分布的特徵。第4
染色體的預測長度達36.8Mb。已經以99.99%的精度完成了大約34.6Mb的測序工作。
著絲點是序列的植物中最長的,達1.16Mb。共預測到4658個基因和70個tRNA
編碼基因,其中,1681個基因與EST相匹配。35%的基因功能已被分類。G C含量達44.16%。轉座子明顯偏向
常染色質域。水稻第4
染色體序列與
擬南芥基因組幾乎沒有
共線性等特徵。
第10
染色體的預測長度達23.7Mb。已經以99.99%的精度完成了大約22422563bp的測序工作,短臂和長臂分別為7.6Mb和14.8Mb。共預測到3471個基因和67個tRNA編碼基因,其中,8.3%基因與EST相匹配。51.4%基因的功能已被分類。G C含量達43.5%。這些序列貯存在美國的DNA公共資料庫中(GenBank),記錄代碼為AE016959。
研究延伸
水稻基因組測序的完成及2002年9月中國水稻
功能基因組計畫(ChinaRiceFunctionalGenomicsProgram,CRFGP)的啟動,這一切都具有劃時代的意義。然而,這還只是初步完成了整個
基因組學的第一步——
結構基因組學,水稻全基因組的完成圖和第二步的功能基因組學的路更長,且更具現實意義。
完成圖
水稻
基因組框架圖和全長序列的精確測定雖已基本完成,但片段之間或
重疊群之間仍存在一些缺口或空隙(gap),如秈、粳兩個亞種的基因組工作框架圖分別覆蓋了水稻全基因組的95.29%和93%,
鹼基準確率約99%;第1
染色體和第4
染色體的全長序列之間也分別還有8個和7個缺口。由於無數
重複序列,第1染色體390個PAC/BAC
克隆中有4個克隆仍缺乏一致性,還屬於
測序的第1階段;16個克隆屬於第2階段,370個克隆屬於第3階段。框架圖仍需增加更大片段讀序,構建更大跨度的
重疊群(支架),填充這些順序間隙(sequencegap)和物理間隙(physicalgap),結合現有的
物理圖,改善框架圖。全長序列還可用螢光標記終止法、
引物步查法和少
核苷酸的PCR反應等方法填補缺口或糾正組裝錯誤。最終,為世界上所有從事水稻以及其他禾穀類作物研究的生物學家和
遺傳學家提供一個高度準確並進行精細注釋的水稻
基因組完成圖。
功能基因組
大量
微生物和
模式生物的
基因組全序列
測序完成,如線蟲(Caenorhabditiselegans)、釀酒
酵母(Saccharomycescerevisiae)、
擬南芥(Arabidopsisthaliana)、果蠅(Drosophilamelanogaster)和水稻(Oryzasativa)等。完成
基因組測序僅僅是基因組計畫的第一步,更大的挑戰在於弄清:⑴基因組順序中所包含的全部
遺傳信息是什麼。⑵
基因組作為一個整體如何行使其功能。也即“
後基因組計畫”,又稱為
功能基因組學。水稻的基因總數有可能在5萬~6萬個左右,至今已報導的功能基因只有20%。隨著被
克隆基因的日益增多,對基因功能的研究顯得日益迫切。一系列研究基因功能的方法湧現,如基因轉導技術、
基因敲除技術、基因嵌入技術及突變體庫篩選和全
基因組表達分析。可以不同規模地鑑定出各類參與
細胞新陳代謝、轉錄、信號轉導、運輸和植物防禦等功能基因。數以十萬計的基因及其
編碼的
蛋白質可供基因工程和蛋白質工程的操作,從而大大擴展生物技術的產業範圍。
蛋白質組研究
蛋白質的結構是其功能的基礎,
翻譯後修飾是蛋白質調節功能的重要方式,蛋白質與DNA或蛋白質的相互作用及其調節是
細胞中信號傳導及所有代謝活動的基礎。
蛋白質組學的主要技術包括
二維聚丙烯醯胺凝膠電泳、質譜分析、
蛋白晶片、
酵母雙雜交系統和
噬菌體展示技術。已有一系列有關水稻不同組織和器官中蛋白質組研究的報導,從根、莖、葉片、種子芽、糠和
愈傷組織中分離蛋白質,經二維聚丙烯醯胺凝膠電泳,總共分辨出4892個蛋白斑點,其中約3%的氨基端序列已被測定;從根的蛋白中檢測到292個斑點,其中76種蛋白的氨基端及內部序列已經測定,根據胺基酸系列,在水稻cDNA文庫中經
同源性搜尋找到
編碼42種蛋白的c
DNA克隆,如果文庫足夠大,那么編碼蛋白的所有cDNA均應較容易地通過計算機搜尋鑑定出來。
比較研究
禾穀類之間的廣泛
共線性,加之相應的
遺傳圖和
物理圖,可以將某作物的共線性區域的標記作為相關作物進行精細定位和鑑定
候選基因。水稻的小
基因組為其他禾穀類基因組研究提供了基礎,包括鑑定高效直系基因、調控區域、基因功能和便利其他禾穀類基因組的測序,往往作為模式作物。Goff等報導幾乎每個禾穀類
蛋白質與水稻都有一個相關基因,80%~90%禾穀類基因與水稻有同源性。禾穀類作物中大部分基因是保守的,它們的表型差異是由於少數不同基因或相似基因的功能差異引起的。通過
基因組列線比較,有利於鑑定其他禾穀類定位的性狀與水稻相關的基因。約2000個禾穀類QTL被定位和列線在
基因組圖譜上。例如,許多
玉米QTL與水稻第1
染色體的頂端相關。
玉米染色體1、2和7與這些區域同一列線。如在
玉米的第1
染色體上影響產量的一個QTL,與水稻第3染色體具有共線區域,該區域含220個預測基因和120多個水稻
SSRs。利用這些基因,通過同源性鑑定了
玉米的約100個未定位的cDNA,因此,它們是影響產量的候選基因。水稻
基因組中鑑別到生物
合成酶、信號轉導
蛋白質、發育調控子和特殊轉運子,已列線到水稻
物理圖和
遺傳圖,也被錨到異源的禾穀類圖譜上。繪製整個禾穀類
列線圖能夠獲得大部分已定位的禾穀類QTL和取捨相關性狀的候選基因。水稻基因組的成功測序為禾穀類作物基因組研究提供了一個基礎。
生物信息學
生物信息學的主要研究內容是生物資料庫及生物信息分析,隨著各種
模式生物基因組計畫的實施,生物資料庫數量持續增長,資料庫結構更複雜,大量新的分析方法被提出和改進,大量重要基因被發現;大量來自
基因組水平上的分析比較結果被公布,這些結果正在日益改變人類已有的一些觀念。各種資料庫中具有生物聯繫的內容能連線到一起,實現生物信息資源共享。DNA資料庫是公共生物資料庫中最大的一類資料庫,包含大量已知功能和未知功能的DNA系列。中國水稻
功能基因組項目也構建了一個綜合的水稻
基因信息資料庫,包含了國內外相關的水稻插入突變體、TAC末端序列和ESTs序列,可為進一步研究新基因的功能提供更多有價值的信息。生物信息學已廣泛用於基因組和
蛋白質組的研究,但是,隨著大多數基因和蛋白質功能的闡明,將會出現一個新的發展前景,這就是在計算機上模擬
細胞內部和機體內部的生化代謝過程,甚至模擬進化 的歷程,這將使生物學真正進入
理論生物學的新時期。
研究成果
傳統水稻育種的成功主要依賴於一系列優異基因(如矮稈基因、抗病和
細胞質雄性不育基因)的發掘和利用,
功能基因組發現的新基因也將大大促進水稻新品種的選育。通過水稻
基因組序列比較分析和多態性鑑定,發現了品種之間的序列差異,而這些差異與表型差異一致。重要的是,利用這些差異將為分子標記輔助育種提供一個前所未有的機會。5萬~6萬個左右水稻基因的功能注釋完成以後,對植物界有普遍意義。已利用
遺傳工程將單個或多個目的基因導入水稻栽培品種,改良作物某些性狀。科學家們可以利用“
分子設計育種”,只要在螢幕上觸摸任何
發育階段的水稻
細胞就能看到所有表達的
蛋白質以及它們之間的相互作用,在電腦上制定出“保護水稻整個生命周期一切活動所需的最佳基因”研究方案。