國家基因庫生命大數據平台(China National GeneBank DataBase, CNGBdb)是一個為科研社區提供生物大數據共享和套用服務的統一平台(Science as a Service),基於大數據 和雲計算技術,提供數據歸檔、計算分析、知識搜尋、管理授權和可視化等數據服務。
2023年12月,國家基因庫生命大數據平台成為WDS正式會員。
基本介紹
- 中文名:國家基因庫生命大數據平台
- 外文名:China National GeneBank DataBase
- 別名:CNGBdb
- 上線時間:2018年10月25日
平台介紹,平台服務,平台優勢,平台歷史,平台展望,
平台介紹
作為服務於國家戰略的重大科技基礎設施之一,國家基因庫已初步建成覆蓋生命全周期的“三庫兩平台”業務結構和功能。“三庫“之一的生物信息資料庫是基因數據存儲、分析的一體化平台,數十PB (Petabyte) 級存儲容量和691 萬億次/秒計算能力。基於生物信息資料庫搭建的國家基因庫生命大數據平台(CNGBdb)可實現億級索引、TB (Terabyte)級元數據的互聯。
CNGBdb是國內最大的生物大數據中心之一,整合了來源於國家基因庫、NCBI、EBI、DDBJ等平台的數據,包括文獻、變異、基因、蛋白質、序列、項目、樣本、實驗、測序、組裝10個結構的大量分子數據和其他信息,通過CNGBdb搜尋建立索引,並將這些數據與樣本甚至樣本活體相關聯,從而實現數據從活體到樣本再到信息數據全過程的可追溯性,達成綜合數據的全貫穿。
CNGBdb是一個開放的生命科學大數據共享平台,致力於促進生命科學研究項目中生成的數據及研究項目所取得的成果的開發共享和合作利用。目前,CNGBdb提供生物大數據歸檔、管理、搜尋、計算、分析及套用一體化的生命大數據服務。
平台服務
數據歸檔:為提供測序數據歸檔和數據管理服務,CNGBdb已構建了國家基因庫序列歸檔系統(CNSA),可以接受全球用戶線上提交的生物研究項目、樣本、實驗、測序數據及後期項目研究結果等信息。CNSA是一個測序數據歸檔和分享系統,主要遵循在全球生命科學領域廣泛達成共識的INSDC和DataCite等資料庫標準,同時其還提供早期數據的共享等服務,方便科研文章在投稿過程中雜誌編輯檢查投稿文章中的數據是否已經全部成功上傳。
知識搜尋:除了國家基因庫“三庫兩平台”的生命科學大數據資源,CNGBdb還整合很多外部資料庫的優秀數據資源,如科研文獻、基因、變異、蛋白質和序列等知識數據。為了使用戶能夠快速準確的檢索到其需要的數據和信息,CNGBdb中搭建了生命大數據搜尋引擎。CNGBdb的知識搜尋服務,基於Elasticsearch搜尋引擎,支持全文檢索功能,檢索速度快。搜尋引擎可對檢索的結果進行綜合評分排序,將最匹配的最符合用戶檢索目的數據排在前列,通過數據編號索引可以查看檢索出的每一條數據的詳細信息。CNGBdb搜尋引擎還實現了分散式的實時檔案存儲,每個欄位都被索引並可被搜尋,可以擴展到上百台伺服器,處理PB級結構化或非結構化數據,提供更加深層次的數據、信息和知識的關聯關係。
數據管理:CNGBdb基於獨立的用戶統一登錄系統(UMS)進行用戶登入註冊和管理。UMS具備單點登錄、用戶管理和許可權管理3大核心功能,其中單點登錄實現了在同一個集群里,用戶只需登錄一次即可訪問已授權的系統。用戶在UMS系統註冊後,可使用同一個ID和密碼訪問CNGBdb所有的獨立資料庫或服務,無需重複註冊。UMS給每個用戶都賦予唯一識別編碼,作為各系統數據貫穿的核心索引,用於打通CNGBdb的各資料庫資源。CNGBdb制定了數據資源分類和數據訪問形式分類機制,進行數據分類分級保護和統一管理。
數據計算:CNGBdb可信計算平台CODEPLOT是一個集可信計算環境和多元化線上分析工具於一體的生命大數據分析平台,也是國內率先將數據加密、區塊鏈、安全多方計算、基因安全容器虛擬化等最新安全策略套用於生命大數據分析利用和合作共享的平台。用戶無需任何編程背景,就可使用該平台的計算工具進行自動化的生物信息學分析。CODEPLOT 為生命科學領域的研究和行業提供了數據共享、工作流管理、彈性雲計算資源和安全可信協作環境的全面解決方案。
數據套用:CNGBdb基於底層數據結構和數據,構建了包括動物、植物、微生物等不同專題資料庫及分析系統。為及時地共享科研數據,除CNGBdb已經構建的不同研究領域的資料庫,還允許用戶自定義創建數據集並共享發布。相比於傳統的資料庫共享,用戶不需要開發資料庫、運營和維護資料庫。在CNGBdb僅需上傳數據、創建數據集和分享數據集3步,即可將科研數據分享給科研領域的研究人員。
平台優勢
依託於國家基因庫的生命大數據中心有以下優勢:
(1)國家基因庫多年來支撐開展的重大基因組項目,如萬種鳥類基因組項目、萬種魚類基因組項目、千種植物轉錄組項目等,積累了海量珍貴數據資源;
(2)國家基因庫多年來已建成了世界級基因組高通量測序平台和高性能計算平台;
(3)國家基因庫與國內外合作開展的生物樣本資源庫及其數位化項目;
(4)國家基因庫在長期大量基因組學項目中積累的生物信息分析能力和多組學數據深度整合的能力。國家基因庫多年來積累的海量基因組學數據和強大的多組學數據計算分析和整合能力,將為CNGBdb提供豐富的生物數據資源和強有力的維護支撐能力;
(5)國家基因庫構建了覆蓋生命周期的活體庫、樣本庫、信息庫,CNGBdb將三庫的信息貫穿相互關聯,提供對外數據共享服務,使生物數據在整個生命周期中可追溯。
平台歷史
2011年01月,國家發展和改革委員會批覆,依託深圳華大生命科學研究院(原深圳華大基因研究院)組建深圳國家基因庫。國家基因庫“三庫兩平台”,的“三庫”由生物樣本資源庫、生物信息資料庫和動植物資源活體庫組成,“兩平台”為數位化平台、合成與編輯平台。國家基因庫以對海量生物資源的存、讀、寫能力為基礎,搭建起基因資源挖掘的公益性、開放性、引領性、戰略性科技平台。CNGBdb基於國家基因庫的活體、樣本和數據資源,提供多種生物大數據共享和套用服務。
中國科技網·科技日報深圳2018年10月25日電(記者劉傳書)打造“基因界的谷歌”,為了給科研工作者提供更好的生物大數據共享和套用服務。10月25日,國家基因庫生命大數據平台上線。
在深圳召開的為期三天的第十三屆國際基因組學大會(“ICG-13”)開幕式上,深圳國家基因庫正式發布了國家基因庫生命大數據平台(China National GeneBank DataBases,以下簡稱“CNGBdb”)。基於大數據和雲計算技術,CNGBdb面向全球科研人員提供數據歸檔、計算分析、知識搜尋、管理授權和可視化等數據服務,並通過分布性的、由AI驅動的搜尋引擎,實現60+億索引、10+TB元信息的互聯,實現檢索的秒級回響。
專家介紹,此平台可稱為“基因界的谷歌”,它將為國內生命科學領域的科研提供巨大便利,促進生命多組學大數據的互聯互通、開放共享及有效利用,並推動生命科學和生物產業的快速發展。
2022年2月17日,國家基因庫生命大數據平台(CNGBdb)被業界公認的權威開放存取知識庫目錄OpenDOAR收錄。
2023年12月21日,國家基因庫生命大數據平台(CNGBdb)與世界數據系統(WDS)簽署諒解備忘錄(MOU),成為WDS在生物信息領域的首個正式會員(Regular Member)。此前,CNGBdb已通過CoreTrustSeal全球核心可信存儲庫國際認證,並獲得Wiley、Oxford、Cell Press、Science系列期刊等多家國際出版機構/期刊認可。
截至2023年12月,CNSA已歸檔多組學數據13108TB,支撐全球502個科研單位的科研數據匯交和共享,支持論文發表1370篇,發表期刊369種,包括The Lancet、Science、Cell等。
平台展望
CNGBdb的建設和發展,將促進我國生物遺傳數據與生命科學數據的規範管理和利用,為生物、醫藥、農業和海洋等諸多產業的科學研究提供數據共享平台,推動我國生命科學向更深入、更為廣闊和更多創新的領域發展。