中心建設
後來的參議員Claude Pepper意識到信息
計算機化過程方法對指導生物醫學研究的重要性,發起了在1988年11月4日建立國立生物技術信息中心(NCBI)的立法。NCBI是在NIH的國立醫學圖書館(NLM)的一個分支。NLM是因為它在創立和維護生物信息學資料庫方面的經驗被選擇的,而且這可以建立一個內部的關於計算分子生物學的研究計畫。NCBI的任務是發展新的信息學技術來幫助對那些控制健康和疾病的基本分子和遺傳過程的理解。
基本研究
它的使命包括四項任務:
實行關於用於分析生物學重要分子和複合物的結構和功能的基於計算機的信息處理的,先進方法的研究
加速生物技術研究者和醫藥治療人員對資料庫和軟體的使用。
全世界範圍內的生物技術信息收集的合作努力。
NCBI通過下面的計畫來實現它的四項目的:
NCBI有一個多學科的研究小組包括計算機科學家,分子生物學家,數學家,生物化學家,
實驗物理學家,和
結構生物學家,集中於計算分子生物學的基本的和套用的研究。這些研究者不僅僅在
基礎科學上做出重要貢獻,而且往往成為套用研究活動產生新方法的源泉。他們一起用數學和計算的方法研究在分子水平上的基本的生物醫學問題。這些問題包括
基因的組織,序列的分析,和結構的預測。目前研究計畫的一些代表是:檢測和分析基因組織,
重複序列形式,蛋白domain和
結構單元,建立
人類基因組的基因圖譜,
HIV感染的動力學數學模型,資料庫搜尋中的序列錯誤影響的分析,開發新的資料庫搜尋和多重序列對齊算法,建立非冗餘
序列資料庫,序列相似性的統計顯著性評估的數學模型和文本檢索的矢量模型。另外,NCBI研究者還堅持推動與NIH內部其他研究所及許多科學院和政府的研究實驗室的合作。
教育和訓練
NCBI通過贊助會議,研討會,和系列演講來培養在套用於分子生物學和遺傳學的計算機領域的科學交流。一個科學訪問學者項目已經成立,來培養同外部科學家的合作。作為NIH內部的部分研究項目,也提供博士後工作位置。
美國國立醫學圖書館(NLM)於1988年11月4日建立國家生物技術信息中心(National Center for Biotechnology Information,簡稱NCBI)。該中心的主要任務為:
為儲存和分析分子生物學、生物化學、遺傳學知識創建自動化系統;從事研究基於計算機的信息處理過程的高級方法,用於分析生物學上重要的分子和化合物的結構與功能;促進生物學研究人員和醫護人員套用資料庫和軟體; 努力協作以獲取世界範圍內的生物技術信息。
資料庫和軟體
簡介
在1992年10月,NCBI承擔起對GenBank DNA序列資料庫的責任。NCBI受過分子生物學高級訓練的工作人員通過來自各個實驗室遞交的序列和同國際核酸序列資料庫(EMBL和DDBJ)交換數據建立起資料庫。同美國專利和商標局的安排使得專利的序列信息也被整合。
GenBank是NIH遺傳
序列資料庫,一個所有可以公開獲得的DNA序列的注釋過的收集。GenBank同日本和歐洲分子生物學實驗室的
DNA資料庫共同構成了國際核酸序列資料庫合作。這三個組織每天交換數據。
GenBank以指數形式增長,核酸
鹼基數目大概每14個月就翻一個倍。最近,GenBank擁有來自47,000個物種的30億個鹼基。
孟德爾人類遺傳(OMIM),三維蛋白質結構的分子模型資料庫(MMDB),唯一人類
基因序列集合(
UniGene),人類基因組基因圖譜,分類學瀏覽器,同國立癌症研究所合作的癌症基因組剖析計畫(CGAP)。
Entrez是NCBI的為用戶提供整合的訪問序列,定位,分類,和結構數據的搜尋和檢索系統。Entrez同時也提供序列和染色體圖譜的圖形視圖。Entrez是一個用以整合NCBI資料庫中信息的搜尋和檢索工具。這些資料庫包括核酸序列,蛋白序列,
大分子結構,全基因組,和通過PubMed檢索的MEDLINE。Entrez的一個強大和獨特的特點是檢索相關的序列,結構,和參考文獻的能力。雜誌文獻通過PubMed獲得,PubMed是一個
網路搜尋界面,可以提供對在MEDLINE上的九百萬雜誌引用的訪問,包含了連結到參與的出版商
網路站點的全文文章。
BLAST是一個NCBI開發的序列相似搜尋程式,還可作為鑑別
基因和遺傳特點的手段。BLAST能夠在小於15秒的時間內對整個DNA資料庫執行序列搜尋。NCBI提供的附加的軟體工具有:開放閱讀框尋覓器(ORF Finder),電子PCR,和序列提交工具,Sequin和BankIt。所有的NCBI資料庫和軟體工具可以從WWW或FTP來獲得。NCBI還有E-mail伺服器,提供用文本搜尋或序列相似搜尋訪問資料庫一種可選方法。
NCBI首先創建
GenBank資料庫,在重點開發GenBank的同時,又於1991年開發了Entrez 資料庫檢索系統。該
系統整合了GenBank、EMBL、PIR和
SWISS-PROT等資料庫的序列信息以及MEDLINE有關序列的文獻信息,並通過相關連結,將他們有機地結合在一起。NCBI還提供了其它資料庫,包括線上人類
孟德爾遺傳(OMIM)、三維蛋白結構的分子模型資料庫(MMDB)、人類
基因序列集成(
UniGene)、
人類基因組基因圖譜(GMHG)、生物門類(Taxonomy) 等資料庫。
NCBI資料庫介紹
下面按照檢索框上的順序分別介紹各資料庫。
Nucleotide
該資料庫由國際核苷酸序列資料庫成員
美國國立衛生研究院GenBank、日本DNA資料庫(DDBJ)和英國Hinxton Hall的歐洲分子生物學實驗室資料庫(EMBL)三部分數據組成。這三個組織聯合組成國際核苷酸序列資料庫協作體,每天交換各自資料庫中的新增序列記錄實現數據共享。其中的序列數據也通過與
基因組序列資料庫(GSDB)合作獲取;專利序列數據通過與美國專利與商標局、國際專利局合作獲取。
Genome
Structures
即結構資料庫或稱分子模型資料庫(MMDB),包含來自X線晶體學和三維結構的實驗數據。MMDB的數據從PDB(Protein Data Bank)獲得。NCBI已經將結構數據交叉連結到書目信息、
序列資料庫和NCBI的Taxonomy中運用NCBI的3D結構瀏覽器和Cn3D,可以很容易地從Entrez獲得分子的分子結構間相互作用的圖像。
Taxonomy
即生物學門類資料庫,可以按生物學門類進行檢索或瀏覽其核苷酸序列、蛋白質序列、結構等。
PopSet
包含研究一個人群、一個
種系發生或描述人群變化的一組組聯合序列。PopSet既包含核酸序列數據又包含蛋白質序列數據。
Entrez 功能強大,在於它的大多數記錄可相互連結,既可在同一資料庫內連結,也可在資料庫之間進行連結。當運用BLAST軟體比較某胺基酸或DNA序列與庫中其他胺基酸或DNA序列差異即進行相似性檢索時,則會涉及到蛋白質庫或核苷酸庫的庫內連結。庫間連結發生在核苷酸資料庫內的記錄與PubMed庫中已發表序列的引文間的連結,或蛋白質序列記錄與
核苷酸序列庫中編碼它的核苷酸序列間的連結。
NCBI資料庫檢索
NCBI資料庫的檢索方法很簡單,在檢索框中輸入檢索詞,檢索詞間默認邏輯關係為AND,檢索規則基本同PubMed。
可以通過下拉選單選擇記錄的顯示格式,通常選擇GenBank Report格式或FASTA Report格式。當選擇GenBank Report格式後,螢幕顯示較完整的
基因記錄,其內容包括:
基因位點(Locus)、基因定義(Definition)、基因存取號(Accession)、 核酸編號(NID )、關鍵字(Keywords)、 來源(Source)、組織分類(Organism)、參考文獻(Reference)、 著者(Author)、題目(Title)、期刊Journal)、Medline存取號(Medline)、序列特徵(Features)、基因(Gene)、CDS(cDNA)、
等位基因(Allele) 對等的肽(Mat-Peptide )、計算
鹼基數(Base Count)、原序列(Origin)。而FASTA Report格式僅包括檢出序列的簡要特徵描述。
● OMIM
孟德爾遺傳學(OMIM)資料庫是人類
基因和基因疾病的目錄資料庫。該資料庫包括原文信息、圖片和參考信息,同時還可以連結到Entrez系統MEDLINE資料庫中相關文獻和序列信息。
BLAST相似性檢索
BLAST(Basic Local Alignment Search Tool)是用於序列相似性檢索的一個重要資料庫,是區分基因和基因特徵的工具。該軟體能在15秒內完成整個DNA資料庫的序列檢索。BLAST記錄的
相關度有明確的統計學解釋,以便更容易地將相關記錄與隨機的資料庫記錄相區分。在NCBI主頁的左工具條中,點擊BLAST圖示,即進入BLAST主頁。
BLAST 主頁提供了幾種BLAST檢索軟體。其中BLAST2.0是一種新的BLAST
檢索工具,它在原有基礎上作了改進,運行速度更快,靈敏度更高,同時具有Gapped BLAST 和PSI-BLAST兩種軟體的新功能。Gapped BLAST 允許在對準的序列中引入空位(
鹼基缺失或插入),引入空位(Gaps)意味著在比較兩個相關序列時不會出現中斷(Break)現象。這些空位對準的記分系統更能反映相關序列的類似程度。PSI-BLAST的全稱是Position-Specific Iterated BALST,即特殊位置重複BLAST,它提供了自動、易用的概貌(Profile)檢索,是查找序列同源的有效工具。