細菌基因組結構特點
(1)細菌的染色體基因組通常僅由一條環狀雙鏈DNA分子組成細菌的染色體相對聚集在一起,形成一個較為緻密的區域,稱為類核(nucleoid)。類核無核膜與胞漿分開,類核的中央部分由RNA和支架蛋白組成,外圍是雙鏈閉環的DNA超螺旋。染色體DNA通常與細胞膜相連,連線點的數量隨細菌生長狀況和不同的生活周期而異。在DNA鏈上與DNA複製、轉錄有關的信號區域與細胞膜優先結合,如大腸桿菌染色體DNA的複製起點(OriC)、複製終點(TerC)等。細胞膜在這裡的作用可能是對染色體起固定作用,另外,在細胞分裂時將複製後的染色體均勻地分配到兩個子代細菌中去。有關類核結構的詳細情況尚不清楚。
(2)具有操縱子結構(有關操縱子結構詳見基因表達的調控一章)其中的結構基因為多順反子,即數個功能相關的結構基因串聯在一起,受同一個調節區的調節。數個操縱子還可以由一個共同的調節基因(regulatorygene)即調節子(regulon)所調控。
(3)在大多數情況下,結構基因在細菌染色體基因組中都是單拷貝但是編碼rRNA的基因rrn往往是多拷貝的,這樣可能有利於核糖體的快速組裝,便於在急需蛋白質合成時細胞可以在短時間內有大量核糖體生成。
(4)和病毒的基因組相似,不編碼的DNA部份所占比例比真核細胞基因組少得多。
(5)具有編碼同工酶的同基因(isogene)例如,在大腸桿菌基因組中有兩個編碼分支酸(chorismicacid)變位酶的基因,兩個編碼乙醯乳酸(acetolactate)合成酶的基因。
(6)和病毒基因組不同的是,在細菌基因組中編碼順序一般不會重疊,即不會出現基因重疊現象。
(7)在DNA分子中具有各種功能的識別區域如複製起始區OriC,複製終止區TerC,轉錄啟動區和終止區等。這些區域往往具有特殊的順序,並且含有反向重複順序。
(8)在基因或操縱子的終末往往具有特殊的終止順序,它可使轉錄終止和RNA聚合酶從DNA鏈上脫落。例如大腸桿菌色氨酸操縱子後尾含有40bp的GC豐富區,其後緊跟AT豐富區,這就是轉錄終止子的結構。終止子有強、弱之分,強終止子含有反向重複順序,可形成莖環結構,其後面為polyT結構,這樣的終止子無需終止蛋白參與即可以使轉錄終止。而弱終止子儘管也有反向重複序列,但無polyT結構,需要有終止蛋白參與才能使轉錄終止。
細菌基因組學研究策略
DNA 的提取及測序
首先是DNA 的提取及測序。DNA 提取時要保證DNA 純度, 同時要避免DNA 污染。主要用基因組測序有兩種方法:1,基於第二代測序平台的策略-羅氏454+illumina測序+ABI3730:二代測序讀長(reads)有限,最長的是羅氏454,現在據說能有400bp吧,illumina測序和其他測序就只能有150bp,現在測序又是將基因組打斷後測序,但仍然可能測得的讀長可能不夠長,導致一部分信息丟失,於是產生gap,這個只要根據其上下游已測得的序列信息進行引物設計,再用一代測序補gap即可消除,因此得到細菌基因組完成圖;2,基於第三代測序平台的策略:PacBio RS II平台+ illumina測序:該方法採用的數據是Illumina生成的短讀序片段、Pacific Biosciences生成的長讀序,即可得到0 Gap 細菌基因組完成圖,可2周內完成測序和生物信息學分析。
細菌基因組學是研究細菌全基因組DNA 序列及其結構與功能的學科。1995 年, 科學家獲得了流感嗜血桿菌(Haemophilus influenzae Rd)的全基因組序列, 這是第一個完整的基因組序列, 也是第一個完成的細菌基因組序列。緊接著古細菌詹氏甲烷球菌(Methanococcus jannaschii)基因組、大腸桿菌(Escherichiacoli K-12)基因組等也相繼完成。細菌基因組研究不僅有利於研究細菌的基本生命過程,同時也對高等真核生物的基因組學及後基因組學研究提供了參考和平台。NCBI 上記錄了1 534 個細菌基因組, 包括了103 個古細菌和1 431個真細菌(2011-4-24), 其中中國科學家完成了44個細菌基因組的測序工作。
基因組學研究中,測序只是一個技術問題,只是一個最基本的數據積累。只要建立了成熟、穩定的方法,測序就只是一個技術活和工作量的問題了。通過訓練一些熟練的技工,就可以進行流程化的操作,按既定的技術方案執行就可以完成任務。但是基因組學的目的不僅僅是為了獲得基因組全序列,也不是為了找到一兩個基因的序列,而是要闡明基因組所包含的所有信息、功能。測序工作的完成,只是解決了A、G、C、T這四個字母的排列順序的問題,得到的只是一部沒有任何標點符號、詞句和段落的天書,解讀這本“天書”是一個非常艱巨的工作。因此,獲得基因組全序列只是基因組學這個萬里長征中邁出的第一步。
基因組組裝
常用的軟體有Newbler、AMOScmp、Phred/Phrap/Consed和Velvet等, 可以根據自己的數據選擇合適的組裝軟體, 也可以結合多種方法獲得較好的組裝結果。
基因組完成(Genome finishing)
基因組完成(Genome finishing)即確定組裝獲得的Contigs 之間的連線順序並修補Gaps。可以按照以下幾個步驟進行: 首先, 計算Contigs 和基因組的平均Reads覆蓋度, 通過Contigs 與基因組平均Reads覆蓋度的比較, 獲得Uniquecontigs 和Repeat contigs以及Repeatcontigs 的重複次數。
基因預測
常用的蛋白質編碼基因預測軟體有Glimmer、GeneMarkS和Prodigal,通常可以任選其中一款軟體進行預測, 也可以結合多個軟體以獲得較好的預測結果。此外, ZCURVE是基於DNA 序列Z curve 理論的蛋白質編碼基因識別軟體, 具有較高的基因起始位點預測準確性;GS-Finder 是不依賴於rRNA 序列的細菌基因組翻譯起始位點識別軟體, 能大大提高翻譯起始位點預測的準確性; OperonDB 是比較常用的操縱子預測軟體, 可以用來預測共同轉錄的基因簇。
基因注釋
這一步通常要整合多個資料庫, 如NCBI 的nr 庫、InterPro、COG和KEGG等, 通過序列比對進行預測基因的注釋。此外, 還可以利用一些特定功能的軟體或者資料庫進行相應的分析, 如用SignalP預測信號肽、TMHMM預測跨膜結構、ISfinder預測插入序列、VFDB預測毒力因子、Islander 資料庫查詢基因組島、MobilomeFINDER和IslandViewer[鑑定基因組島、PAIDB預測潛在的致病島、Repeat-match 預測基因組重複序列、Tandemrepeat Finder尋找串聯重複序列、CRISPR finder預測CRISPR 序列、Phage-finder尋找噬菌體序列、TCDB注釋膜轉運蛋白、Ori-Finder尋找複製起始位點、ARDB鑑定和注釋抗菌素抗性基因、ACLAME注釋可變遺傳因子(Mobile genetic elementselements)和TADB資料庫搜尋Type2 toxin-antitoxin位點等。另外, 有些基因是生物體生存不可或缺的基因, 即必需基因, 它們是生命的基礎。DEG資料庫收集了一些物種的必需基因, 也可以用於注釋必需基因,這些必需基因是很好的抗菌藥物靶基因。注釋結束後, 對基因注釋結果進行檢查,比如基因之間是否有Overlap、是否存在假基因等, 可以利用Mciobial Genome Submission Check程式進行檢查。
基因組比較分析
獲得完整基因組及其注釋後, 通常會進行相近物種之間或同一物種不同株之間的基因組比較分析。常用的細菌基因組比較分析軟體和資料庫有ACT、Mauve、MUMmer、MicrobesOnline、mGenomeSubtractor和xBASE等。ACT (Artemis Comparison Tool), 是一款進行基因組及其注釋之間比較的可視化軟體, 支持多種輸入格式(EMBL,GenBank, FASTA 和GFF 格式), 可以用來鑑定相似序列、插入、缺失、重排等。