BioMedGPT

BioMedGPT

BioMedGPT是清華大學聶再清教授帶領團隊著手構建的多模態生物醫藥領域基礎模型,旨在將生物世界分子、文本與知識進行統一表示學習以達到在各項下游任務上能力的整體提升。

通過打造的乾濕閉環和專家在環的雙閉環體系,使得BioMedGPT能夠從真實世界學習、向人類專家學習有望成為生物醫藥研發基礎大模型,支撐諸如高通量虛擬篩選、分子生成與最佳化、個性化藥物重定位、生物醫藥知識檢索等多項套用。

基本介紹

  • 外文名:BioMedGPT
  • 研發團隊:AIR首席研究員聶再清教授研究團隊
原理,目標,套用,發展歷史,

原理

BioMedGPT在數據層面整合了基因、分子、細胞、蛋白、文獻、專利、知識庫等多源異構的數據,首次將知識引入到模型構建中,實現了生物世界文本和知識的統一表示學習,增強了模型的泛化能力和可解釋性。

目標

BioMedGPT把分子語言中蘊含的知識以及長期以來通過實驗總結的文本和知識圖譜信息融合壓縮到一個大規模語言模型中,從而實現從序列模式中學習生物結構和功能規律,通過AI解碼生命語言。通過海量公開分子序列數據用語言模型來學習其語義表征,用於藥物研發任務。

套用

在套用任務方面, BioMedGPT能夠處理自然語言、藥物性質預測、跨模態生成等多個任務,實現對生命科學全域任務的探索,已經在多個關鍵下游任務中取得了 SOTA 的效果。

發展歷史

2023年4月19日,以“大模型時代AI生物醫藥的創新融合”為主題的第三期AIR學術工作坊在清華大學智慧型產業研究院(AIR)圖靈報告廳成功舉辦。會上AIR首席研究員聶再清教授介紹了團隊在生物醫藥領域大模型方向上的最新進展,並開源了輕量級科研版基礎模型BioMedGPT-1.6B。

熱門詞條

聯絡我們