NVIDIA BioNeMo是NVIDIA Clara Discovery 藥物研發框架、套用和 AI 模型集的一部分, 是 NVIDIA NeMo Megatron框架針對化學、蛋白質和 DNA/RNA 序列領域的擴展,可實現大規模自監督語言模型的 GPU 加速訓練。
BioNeMo框架包含蛋白質和化學領域的預訓練 LLM 模型,可簡化訓練、推理和擴展。這一針對特定領域的框架支持以 SMILES 化學結構標記表征的分子數據、以及以 FASTA 胺基酸和核酸序列字元串表征的分子數據。研究人員將使用BioNeMo,來開發 DNA 和 RNA (生命的 “基礎構件” )的基礎模型。
基本介紹
- 外文名:NVIDIA BioNeMo
- 產品類型:藥物研發框架
- 所屬公司 :NVIDIA
簡介
功能
- ESM-1:這一最初由 Meta AI Labs 發布的蛋白質 LLM 能夠處理胺基酸序列,最終生成用於預測各種蛋白質特性和功能的表征。它還提高了科學家理解蛋白質結構的能力。
- OpenFold:這是由學術界和產業界共同成立的 Openfold 聯盟創建的 sota 蛋白質建模工具,它將可以通過 BioNeMo 服務提供其開源 AI 工作流程。
- MegaMolBART:這一基於 14 億分子訓練而成的生成式化學模型可用於反應預測、分子最佳化和新分子的生成。
- ProtT5:該模型是在慕尼黑工業大學 RostLab 的帶領下合作開發的,NVIDIA 也是該項目的參與者之一。PortT5 將 ESM-1b 等蛋白質 LLM 的功能擴展到序列生成。
- 未來,使用 BioNeMo LLM 服務的研究人員將能夠通過 fine-tuning 以及 p-tuning 等新技術,在幾小時內完成 LLM 模型的自定義,提高套用的準確性。相比原來動輒數百萬個樣本的數據集,p-tuning 訓練方法只需要包含幾百個樣本的數據集。
- AlphaFold2:DeepMind開發的一個深度學習模型,其能夠將確定蛋白質結構所需的時間從幾年縮短到幾分鐘甚至幾秒,僅需要使用蛋白質的胺基酸序列。
- DiffDock:為了幫助研究人員了解藥物分子如何與目標蛋白結合,該模型以高精度和高計算效率預測小分子的3D方位和錨定反應。
- ESMFold:這個蛋白質結構預測模型使用Meta AI的ESM2蛋白質語言模型,可以基於單個胺基酸序列來預測蛋白質的3D結構,而不需要類似序列的樣本。
- ESM2:該蛋白質語言模型用於推理蛋白質的機器表示,對蛋白質結構預測、屬性預測和分子對接等下游任務很有用處。
- MoFlow:用於分子最佳化和小分子生成,這個生成化學模型重新創建分子,提出潛在治療藥物的各種化學結構。
- ProtGPT-2:這個語言模型生成新的蛋白質序列,幫助研究人員設計具有獨特結構、屬性和功能的蛋白質。