基因組信息學簡介
近年來,隨著人類基因組計畫(HGP)在世界範圍內的實施,產生了大量的基因組信息,分析這些信息是人類基因組研究必不可少的重要內容。
基因組信息學涉及基因組信息的獲取、處理、存儲、分配、分析和解釋等所有方面。具體而言,就是要構建研究基因組的資料庫,發展包括算法、軟體、硬體在內的有效的信息分析工具以及完善與基因組研究相關的國際網際網路。它源於人類基因組計畫。人類基因組共有約30億個鹼基對,對如此大量的信息數據進行蒐集、存儲及分配是生物學領域從未遇到過的問題。這些數據中包括編碼人類全部蛋白質和結構核糖核酸(RNA)的信息,以及調控這些蛋白質和核酸裝配成生物體的信息。因此解讀這些信息是一個很大的難題。基因組信息學的主要目標就是配合人類基因組計畫的各項實驗研究,測定人類基因組的完整核苷酸序列,確定約10萬個人類基因在染色體上的位置,以及研究包括基因在內的各種DNA片段的功能,也就是“讀懂”人類基因組。
主要內容
基因組信息學研究的主要內容包括兩個部分:一是基因組相關數據的收集與管理;二是基因組數據內涵的分析與解釋,也就是遺傳密碼的破譯。
基因組數據的蒐集管理
到1998年8月,GenBank中收集的核酸序列已達2.532×106條,總共包含1.797×109個鹼基。大量基因組數據的出現促進了資料庫、分析工具以及網路快速發展。一個有效的資料庫通常都具備友好的用戶界面並配有多種套用軟體,以便用戶對原始數據作初步分析。在目前諸多資料庫中,較著名的有GenBank、EMBL、GDB、ROB及PIR等。在建立基因組資料庫時,以下幾個方面特別引起人們的重視:①建立基因組信息的評估與檢測系統;②數據標準化;③進行基因組信息的可視化和專家系統的研究;④建立二級資料庫和專業資料庫。二級資料庫和專業資料庫的建立不僅會給用戶帶來很多方便,更重要的是在建立過程中專業人員提供的知識會對用戶有很大的啟發和幫助。著名的二級資料庫有:蛋白質結構分析資料庫(SCoP)、受體資料庫、克隆載體資料庫等。
以網際網路(Internet)為基礎的基因組信息學信息傳輸網路是基因組信息收集、管理與使用的另一要素。目前隨著網際網路的高速發展,與基因組信息相關的資料庫都有了自己的網址和主頁(Homepage),同時還在網上出現了很多與基因組信息相關的伺服器,提供各種形式的信息服務。面對如此豐富的網上資源,各種網路資源地圖是生物學工作者的最好的嚮導。
基因組數據的分析
目前,人們已得到5種細菌和一種真菌的基因組全序列,幾年後還可能得到人類和數十種微生物的基因組全序列。獲得基因組全序列僅僅是整個研究的開始,分析基因組序列才是面臨的真正巨大的挑戰。基因組信息學在分析比較大量的基因組序列數據中起著關鍵的作用,各種基因組信息學方法越來越多地套用於蛋白功能預測、基因序列分析及物種間基因比較等方面的研究。
全基因組分析
基因組全序列分析的第一步工作之一就是尋找基因組序列中的可翻譯部分,即開放閱讀框(ORF)。現有的方法之一是利用DNA序列上的轉錄和調節信號作為開放閱讀框的識別標記。另一種方法是尋找與已表達序列標誌(EST)具有相似性的核苷酸片段。對於真核生物的基因組,為了正確區分外顯子和內含子,需與已有的cDNA序列數據進行比較,才能推算出相應的胺基酸序列。
基因組序列的初步鑑定完成後,進一步的工作就是比較不同物種間基因組,基因組的比較已在原核生物、古細菌和至少一種真核生物之間進行,主要比較基因的功能和基因在染色體上的定位。對代謝途徑的比較分析可導致代謝方面的新發現,也可對已知途徑進行補充和修改。比較病原菌與非病原菌的基因組可發現新的病原性基因。比較在原核生物、古細菌和真核生物中都存在的蛋白質家族可發現具有高度保守序列的古蛋白。這些古蛋白很可能在進化早期階段的簡單有機體中扮演重要角色。
隨著基因組序列測定技術的發展,人類將在短時間內獲得大量的基因組序列數據。因此序列分析技術面臨的另一個問題就是如何以更快的速度和更高的自動化程度處理大量的基因組數據。1994年出現的GeneQuiz就是一種專為大規模序列分析而編寫的軟體系統,並且經過改進,已發展成一套可以多種自動化水平運作的分析軟體。另外歐洲
生物信息學研究所(EBI)的SRS系統和美國國家生物技術信息中心(MCBI)的Entrez也是性能優良的序列分析軟體。
蛋白質結構預測
隨著基因組計畫的不斷深入,人類已獲得了越來越多的核酸序列數據。了解和預測這些核酸序列編碼的蛋白質的結構和功能就成為生物學家所面臨的另一重大課題。長期以來,較成功的蛋白結構預測方法都建立在分子進化推論的基礎之上。即如果一個序列與其他一些結構已知的序列存在一級結構上相似時,那么它們在進化上也應存在相關性。近年來,由於計算機技術的發展以及大量高精度結構數據的積累,人們在蛋白結構預測領域取得了較大進展,尤其是在二級結構預測領域,其準確性已由以前的不到60%提高到目前的72%。二級結構預測的進展也推動了摺疊識別和三維結構模建等蛋白質高級結構預測領域的發展。目前有關高級結構預測方面的軟體層出不窮,但由於功能還不很完善,因此對於非蛋白質結構領域內的生物學家而言,在使用這些軟體進行結構預測時,應充分認識到預測結果的局限性,以免過分依賴預測結果。
蛋白質功能預測
得到一個新的蛋白質序列後,需要解決這樣一些問題:這個蛋白是否屬於某個已知功能的蛋白家族?假如是的話,這個蛋白與該家族其他成員的聯繫有多緊密?這種聯繫在功能上意味著什麼?這個蛋白的哪個區域與該家族對應?該家族中的相應區域是否與功能特點有關?這個區域中那些與功能有關或可能與功能有關的胺基酸是否保守?這些問題通常需要藉助合適的資料庫搜尋軟體才能解決。
通過合適的序列相似性搜尋算法可對未知蛋白質進行家族歸類。最常用的是BLAST算法,它主要基於相似片段的比較。通常一系列相似的序列可歸為一個家族,並具有該家族特有的三維結構。在此基礎上建立的三維結構和序列相結合的比較算法就具有更強的搜尋能力。更高水平的搜尋算法是基於三維結構的相似性比較。有時,三維結構相似的蛋白質雖然序列相似性很低,但在功能上卻同屬於一個蛋白質超家族。因此,這種算法具有更強的搜尋能力。
在整個基因組中,編碼蛋白質的一系列核苷酸序列含有極豐富的生物學信息,而通過實驗只能了解生物體總蛋白中一個部分蛋白質的功能,其餘大量蛋白質功能的研究要靠基囚組信息學來完成。但由於蛋白三維結構模建等方而還有許多理論問題尚未解決,蛋白質功能預測的錯誤率仍相當高,因此日前蛋白質功能的預測還只能基於其序列的相似性,即推測具有相似序列的蛋白質具有相近的生物學功能。
基因組信息學的套用價值
人類基因組計畫的目標是揭示人類疾病的遺傳學基礎,其最直接的套用價值還在新藥研製方面。值得一提的是,隨人類基因組計畫同時進行的病原微生物和模式生物的全基因組序列測定結果也將廣泛套用於新藥的研製。目前對許多疾病的治療,如心臟病、癌症、神經系統疾病,都只能治標而不治本。當人們對疾病的病理遺傳基礎有了充分的認識後,就可開發出標本兼治的全新藥物,從而大大提高全人類的健康水平。
新藥研製的第一步是信息資料的蒐集。雖然這一階段的工作中開發者的知識背景特別重要,但也非常需要藉助各種資料庫和網際網路的輔助作用,包括線上文獻的查詢、商業化學結構資料庫的檢索和生物學分析數據的調取等。除此以外,還需進行初期預研。初期預研雖然也涉及少量實驗工作,但主要工作還是通過網際網路到各種資料庫中蒐集疾病及其相關生化過程的資料,由於網際網路上的信息是動態的,隨時在更新和補充,因此蒐集工作必須定期進行,直至得到足夠的信息資料。
第二步工作就是選擇鑑定與疾病治療和新藥開發有關的目標生物大分子。這一階段的工作主要集中在兩個方面:選擇特定生物大分子為作用目標,建立合適的分析方法,以甄別一系列後續合成的小分子化合物的藥效和藥性;了解小分子化合物的作用機制。因此必須對與病理過程有關的基因進行詳細的分析,包括基因序列的比較、性質功能的預測等。對已確定的與病理過程有關的基因,要進一步評估它們在開發新藥過程中成功的可能性,最終確定其中的幾個基因及其產物為目標分子。
第三步就是利用已確定的目標分子進行高通量篩選(HTS),以得到有用的化合物。在傳統的篩選過程中,可供篩選的化合物數量不多,因此可以用目標分子篩選所有的化合物。然而,化學合成技術的發展以及長期的積累使可供篩選的的化合物的數量大大增加,因此必須對被篩選化合物進行選擇,以降低工作量,提高效率。基因組信息學對從事這項工作的生物學家顯得十分重要。同樣,基因組信息學系統對合成藥物的化學家也有重要的指導作用,它可向化學家提供某些生物學信息,使合成工作具有更高的目的性,提高藥物合成的產率。
成功的高通量篩選之後得到少量的具有高活性的主導化合物。在這些化合物最終成為可用的藥物以前,還需對它們的各種性質進行最佳化改進,如增大效力、提高選擇性、降低毒性等等。基因組信息學所掌握目標分子結構方面的信息越多,它在改進藥物的性質方面所起的作用就越大。
急需解決的問題
基因組信息學在新藥研製上已取得了相當大的進步,但總的說來,還有兩個問題急需解決。首先是如何更高效地利用網際網路資源,即如何獲取有用的信息,而不至於淹沒於信息垃圾中。這需要跨學科進行合作,將傳統的信息科學知識與IT技術、基因組信息學結合起來。其次,要規劃出這類軟體的發展戰略,提高通用性,實現跨公司、跨研究機構的使用。同時還要為這類軟體留有更大的改進餘地,以便在至少5年內保持較高的生命力。這同樣也需要生物學家、數學家以及網路專家的共同合作。