KEGG

KEGG

KEGG 是了解高級功能和生物系統(如細胞、 生物和生態系統),從分子水平信息,尤其是大型分子數據集生成的基因組測序和其他高通量實驗技術的實用程式資料庫資源,由日本京都大學生物信息學中心的Kanehisa實驗室於1995年建立。是國際最常用的生物信息資料庫之一,以“理解生物系統的高級功能和實用程式資源庫”著稱。

基本介紹

  • 中文名:京都基因與基因組百科全書
  • 外文名:Kyoto Encyclopedia of Genes and Genomes
  • 簡稱:KEGG
  • 性質:基因組破譯方面的資料庫
簡介,產生的背景,特點,用途,影響及發展,KEGG資料庫,KEGG對象標識符,當前資料庫中的記錄,KEGG PATHWAY Database,PATHWAY的五種類型,直系同源與旁系同源,

簡介

KEGG(京都基因與基因組百科全書)是基因組破譯方面的資料庫。在後基因時代一個重大挑戰是如何使細胞和有機體在計算機上完整的表達和演繹,讓計算機利用基因信息對更高層次和更複雜細胞活動和生物體行為作出計算推測。為達到此目的,人們建立了一個在相關知識基礎上的網路推測計算工具。在給出染色體中一套完整的基因的情況下,它可以對蛋白質互動(互動)網路在各種細胞活動起的作用作出預測。 KEGG 的PATHWAY 資料庫整合當前在分子互動網路(比如通道,聯合體)的知識,KEGG 的GENES/SSDB/KO 資料庫提供關於在基因組計畫中發現的基因和蛋白質的相關知識,KEGG 的COMPOUND/GLYCAN/REACTION資料庫提供生化複合物及反應方面的知識。

產生的背景

如何藉助計算機全面地展示細胞和生物所包含的生物學信息是後基因組時代的重大挑戰之一。科學家期望能夠根據基因組中的信息,用計算機計算或者預測出比較複雜的細胞中的通路或者生物的複雜行為。出於這個目的,日本京都大學生物信息學中心的Kanehisa實驗室於1995年建立了生物信息學資料庫KEGG。

特點

·KEGG是一個整合了基因組、化學和系統功能信息的資料庫。把從已經完整測序的基因組中得到的基因目錄與更高級別的細胞、物種和生態系統水平的系統功能關聯起來是KEGG資料庫的特色之一。··人工創建了一個知識庫,這個知識庫是基於使用一種可計算的形式捕捉和組織實驗得到的知識而形成的系統功能知識庫。它是一個生物系統的計算機模擬。··與其他資料庫相比,KEGG 的一個顯著特點就是具有強大的圖形功能,它利用圖形而不是繁縟的文字來介紹眾多的代謝途徑以及各途徑之間的關係,這樣可以使研究者能夠對其所要研究的代謝途徑有一個直觀全面的了解。

用途

各個資料庫中包含了大量的有用信息。基因組信息存儲在GENES資料庫里,包括完整和部分測序的基因組序列;更高級的功能信息存儲在PATHWAY資料庫里,包括圖解的細胞生化過程如代謝、膜轉運、信號傳遞、細胞周期,還包括同系保守的子通路等信息;KEGG的另一個資料庫LIGAND,包含關於化學物質、酶分子、酶反應等信息。
通過與世界上其它一些大型生物信息學資料庫的連線,KEGG可以為研究者提供更為豐富的生物學信息(LinkDB)。
KEGG提供了Java的圖形工具來訪問基因組圖譜,比較基因組圖譜和操作表達圖譜,以及其它序列比較、圖形比較和通路計算的工具,可以免費獲取。

影響及發展

KEGG建立了KEGG直系同源系統(theKEGG Orthology (KO)system),這個系統通過把分子網路的相關信息連線到基因組中,從而發展和促進了跨物種注釋流程。·結果表明,KEGG被當做一個參考知識庫,被廣泛的用於基因組測序和其他高通量實驗技術得到的大規模數據集的整合和解釋中。除了保持對基礎研究的支持,隨著KEGG分子網路的一些小變化,KEGG正在朝著更加偏向於實際套用的方向發展,這些套用主要集中在整合人類疾病、藥物和其他與健康相關的物質。

KEGG資料庫

KEGG是一個綜合資料庫,它們大致分為系統信息、基因組信息和化學信息三大類。進一步可細分為16個主要的資料庫。可以通過不同的顏色編碼來區分。
分類
資料庫
目錄
顏色
系統信息
KEGG PATHWAY
KEGG通路圖
KEGG BRITE
BRITE功能層次
KEGG MODULE
KEGG功能單元的模組
KEGG DISEASE
人類疾病
KEGG DRUG
藥物
KEGG ENVIRON
天然藥物和與健康相關的物質
基因組信息
KEGG ORTHOLOGY
KEGG直系同源(KO)組
KEGG GENOME
KEGG中帶有完整基因組的物種
KEGG GENES
在完整基因組中的基因目錄
KEGG SSDB
與基因有關的序列相似性資料庫
化學信息
KEGG COMPOUND
代謝物及其他小分子化合物
KEGG GLYCAN
多糖
KEGG REACTION
生化反應
KEGG RPAIR
化學反應中的反應物對
KEGG RCLASS
RPAIR定義的反應級別
KEGG ENZYME
酶命名法

KEGG對象標識符

資料庫中包含各種各樣的數據對象,這些數據對象是為了用來對生物系統進行計算機模擬的。因此,各個資料庫中的數據記錄都被稱為KEGG對象。這些對象可以通過KEGG對象標識符來識別,標識符由一個與資料庫相關的前綴加五個數字構成。
Database
Object
Prefix
Example
KEGG PATHWAY
Pathway map
map, ko, ec, rn, (org)
hsa04930
KEGG BRITE
Functional hierarchy
br, jp, ko, (org)
ko01003
KEGG MODULE
KEGG module
M, (org)_M
M00010
KEGG DISEASE
Human disease
H
H00004
KEGG DRUG
Drug
D
D01441
KEGG ENVIRON
Crude drug, etc.
E
E00048
KEGG ORTHOLOGY
KO group
K
K04527
KEGG GENOME
KEGG organism
T
T01001 (hsa)
KEGG GENES
Gene / protein
hsa:3643
KEGG COMPOUND
Small molecule
C
C00031
KEGG GLYCAN
Glycan
G
G00109
KEGG REACTION
Reaction
R
R00259
KEGG RPAIR
Reactant pair
RP
RP04458
KEGG RCLASS
Reaction class
RC
RC00046
KEGG ENZYME
Enzyme
ec:2.7.10.1

當前資料庫中的記錄

KEGG Database as of 2013/6/5
KEGG PATHWAY
Pathway maps, reference (total)
457(287,038)
KEGG BRITE
Functional hierarchies, reference (total)
146 (100,112)
KEGG MODULE
KEGG modules, reference (total)
592 (219,684)
KEGG DISEASE
Human diseases
1,359
KEGG DRUG
Drugs
10,084
KEGG ENVIRON
Crude drugs and health-related substances
849
KEGG ORTHOLOGY
KEGG Orthology (KO) groups
17,661
KEGG GENOME
KEGG Organisms
2,998
KEGG GENES
Genes in high-quality genomes(190 eukaryotes, 2336 bacteria, 153 archaea)
12,462,216
KEGG SSDB
Best hit relations within GENESBi-directional best hit relations within GENES
181,088,147,7583,841,515,171
KEGG DGENES
Genes in draft genomes (20 eukaryotes)
514,175
KEGG EGENES
Genes as EST contigs (99 eukaryotes)
3,792,883
KEGG MGENES
Genes in metagenomes (716 samples)
90,754,418
KEGG COMPOUND
Metabolites and other small molecules
17,187
KEGG GLYCAN
Glycans
10,985
KEGG REACTION
Biochemical reactions
9,545
KEGG RPAIR
Reactant pair chemical transformations
14,500
KEGG RCLASS
Reaction class
2,879
KEGG ENZYME
Enzyme nomenclature
6,214

KEGG PATHWAY Database

KEGG PATHWAY 資料庫是一個手工畫的代謝通路的集合,包含以下幾方面的分子間相互作用和反應網路:
1.新陳代謝
2.遺傳信息加工
3.環境信息加工
4.細胞過程
5.生物體系統
6.人類疾病
7.藥物開發

PATHWAY的五種類型

僅僅第一種參考通路(reference pathway)圖是手動畫出來的,其他的通路圖都是通過計算產生的。pathway中的每一個框(或線)都對應一個或多個K編號、EC編號及R編號。
·map -Reference pathway
對於代謝相關的通路,在referencepathway中,一個點同時表示一個基因、這個基因編碼的酶及這個酶參加的反應
·ko -Reference pathway (KO)
ko通路中的點只表示基因
·ec -Reference pathway (EC)
ec通路中的點只表示相關的酶
·rn -Reference pathway (Reaction)
Reaction通路中的點只表示該點參與的某個反應、反應物對及反應類型
·org- Organism-specific pathway map
對於所有的代謝和非代謝通路,K編號都被認為是基因的標識符,這個標識符在每一個物種中對應該物種中的某個基因,從而得到物種特異性的pathway。
KEGG
KEGG ORTHOLOGY (KO) Database
KEGG參考通路圖,BRITE功能層次以及KEGG模組都是以一種廣泛的方式來表示,都可以用於所有物種。而KEGG直系同源系統(KO System)是這一表示方式的基礎。包含手動定義的直系同源組,這些直系同源組就相當於KEGG通路中的點,BRITE層級中的點以及KEGG模組中的點。(這些點並不是某個具體物種的某一個基因,而是在許多物種中都存在的直系同源的某一個基因)。一旦基因被分配了KO標識或K編號,通過基因組注釋流程,物種特異性的通路圖、BRITE功能層次和KEGG模組就可以自動產生了。

直系同源與旁系同源

l直系同源(orthology)是比較基因組學中最重要的定義。直系同源的定義是:
(1).在進化上起源於一個始祖基因並垂直傳遞的同源基因;
(2).分布於兩種或兩種以上物種的基因組;
(3).功能高度保守乃至於近乎相同,甚至於其在近緣物種可以相互替換;
(4).結構相似;
(5).組織特異性與亞細胞分布相似。
l旁系同源(paralogy)基因是指同一基因組(或同系物種的基因組)中,由於始祖基因的加倍而橫向產生的幾個同源基因。直系與旁系的共性是同源,都源於各自的始祖基因。其區別在於:在進化起源上,直系同源是強調在不同基因組中的垂直傳遞,旁系同源則是在同一基因組中的橫向加倍;在功能上,直系同源要求功能高度相似,而旁系同源在定義上對功能上沒有嚴格要求,可能相似,但也可能並不相似(儘管結構上具一定程度的相似),甚至於沒有功能(如基因家族中的假基因)。
ko編號表示一個通路,這個通路是不分物種的,相當於所有物種的這一通路的並集。
eg:ko04722
KEGG
K編號表示一個基因,是ko通路中的基本單位,某一K編號代表的不是某一具體物種的基因,而是所有物種的某一同源基因的統稱。
KEGG

相關詞條

熱門詞條

聯絡我們