背景
人類基因組由30億個鹼基對,編碼大約20,000-25,000個基因。然而,除非能夠識別單個基因的位置和關係,否則單獨使用基因組幾乎沒有用處。一種選擇是手動注釋,一組科學家嘗試使用來自科學期刊和公共資料庫的實驗數據來定位基因。然而,這是一項緩慢而艱苦的任務。另一種稱為自動注釋的方法是利用計算機的力量進行蛋白質與DNA的複雜模式匹配。
在Ensembl項目中,序列數據被輸入基因注釋系統(用Perl編寫的軟體“管道”的集合),該系統創建一組預測的基因位置並將它們保存在MySQL資料庫中以供後續分析和顯示。Ensembl使這些數據可供世界研究界免費使用。Ensembl項目生成的所有數據和代碼都可以下載,還有一個可公開訪問的資料庫伺服器,允許遠程訪問。此外,Ensembl網站還提供計算機生成的大部分數據視覺顯示。
隨著時間的推移,該項目已擴展到包括其他物種(包括關鍵模式生物,如小鼠,果蠅和斑馬魚)以及更廣泛的基因組數據,包括遺傳變異和監管特徵。自2009年4月以來,一個姐妹項目Ensembl Genomes將Ensembl的範圍擴展到無脊椎動物後生動物,植物,真菌,細菌和原生生物,而原始項目繼續關注脊椎動物。
核心
Ensembl概念的核心是能夠自動生成基因和其他基因組數據與參考基因組比對的圖形視圖。它們顯示為數據軌道,可以打開和關閉各個軌道,允許用戶自定義顯示以滿足其研究興趣。界面還使用戶能夠放大到一個區域或沿著任一方向沿著基因組移動。
其它顯示器顯示在解析度的不同水平的數據,從整個核型下對DNA和基於文本的表示胺基酸序列,或存在的其它類型的顯示器,如樹木相似的基因(的同系物在一系列物種的)。圖形由表格顯示補充,在許多情況下,數據可以直接從頁面以各種標準檔案格式(如FASTA)導出。
外部生成的數據也可以通過網際網路上的DAS(分散式注釋系統)伺服器添加到顯示器,或者通過上載支持格式之一的合適檔案,例如BAM,BED或PSL。
圖形是使用一套基於GD(標準Perl圖形顯示庫)的自定義Perl模組生成的。
其他功能
除了網站之外,Ensembl還提供PerlAPI(應用程式編程接口),可以對基因和蛋白質等生物對象進行建模,允許編寫簡單的腳本來檢索感興趣的數據。Web界面在內部使用相同的API來顯示數據。它分為核心API,比較API(用於比較基因組學數據),變異API(用於訪問SNP,SNV,CNV ......)和功能基因組學API(用於訪問監管數據)。Ensembl網站提供有關如何安裝和使用API的詳細信息。
該軟體可用於訪問公共MySQL資料庫,無需下載大量數據集。用戶甚至可以選擇使用直接SQL查詢從MySQL檢索數據,但這需要對當前資料庫模式有廣泛的了解。
可以使用BioMart數據挖掘工具檢索大型數據集。它提供了一個Web界面,用於使用複雜查詢下載數據集。
最後,有一個FTP伺服器可用於下載整個MySQL資料庫以及其他格式的一些選定數據集。
當前物種
帶注釋的基因組包括大多數完全測序的脊椎動物和選定的模式生物。所有這些都是真核生物,沒有原核生物。截至2008年,這包括:
脊索動物
哺乳綱
靈長總目
——靈長類動物:嬰猴,黑猩猩,人類,獼猴,老鼠狐猴,猩猩,眼鏡猴;
——樹鼩目:樹鼩;
——齧齒總目(=齧齒動物+ 兔形目):幾內亞豬,袋鼠,小鼠,大鼠,地松鼠,鼠兔,兔;
勞亞獸總目:牛,海豚,羊駝,豬,貓,狗,馬,狐蝠,微型蝙蝠,刺蝟,鼩鼱;
非洲獸總目:大象,非洲蹄兔,馬達加斯加蝟
異關節目:犰狳,懶惰;
有袋目:負鼠,小袋鼠;
單孔目:鴨嘴獸;
鳥類:雞,斑胸草雀;
有鱗類:變色龍蜥蜴(前);
無甲亞綱:非洲爪蟾(非洲爪蟾);
硬骨魚:紅鰭東方魨(河豚),金娃娃(綠斑河豚),斑馬魚(斑馬魚),青鱂(青鱂),刺魚(刺魚);
圓口類:海七鰓鰻(海七鰓鰻)(前);
被囊類:玻璃海鞘,薩氏海鞘;
無脊椎動物
酵母:麵包酵母(麵包酵母)