NVIDIA BioNeMo

NVIDIA BioNeMo是NVIDIA Clara Discovery 藥物研發框架、套用和 AI 模型集的一部分, 是 NVIDIA NeMo Megatron框架針對化學、蛋白質和 DNA/RNA 序列領域的擴展,可實現大規模自監督語言模型的 GPU 加速訓練。

BioNeMo框架包含蛋白質和化學領域的預訓練 LLM 模型,可簡化訓練、推理和擴展。這一針對特定領域的框架支持以 SMILES 化學結構標記表征的分子數據、以及以 FASTA 胺基酸和核酸序列字元串表征的分子數據。研究人員將使用BioNeMo,來開發 DNA 和 RNA (生命的 “基礎構件” )的基礎模型。

基本介紹

  • 外文名:NVIDIA BioNeMo
  • 產品類型:藥物研發框架
  • 所屬公司 :NVIDIA
簡介,功能,套用,

簡介

NVIDIA BioNeMo 框架用於訓練和部署超算規模的大型生物分子語言模型,幫助科學家更好地了解疾病,並為患者找到治療方法。該大型語言模型(LLM)框架將支持化學、蛋白質、DNA 和 RNA 數據格式。
NVIDIA BioNeMo 使基於生物分子數據的大規模神經網路訓練更為輕鬆,助力研究人員發現生物序列中的新模式並獲得新洞察。研究人員可將這些洞察與生物特性或功能乃至人類健康狀況聯繫起來。
NVIDIA BioNeMo 框架使科學家能夠使用更大的數據集來訓練大規模語言模型,打造出性能更強大的神經網路。NVIDIA 的 GPU 最佳化軟體中心——NVIDIA NGC上將提供該框架的搶先體驗。除語言模型框架之外,NVIDIA BioNeMo 還提供一項雲 API 服務,該服務將支持越來越多的預訓練 AI 模型。

功能

BioNeMo 服務提供提供四個預訓練語言模型
這些模型針對推理進行了最佳化,並將通過 NVIDIA DGX Foundry 上運行的雲端 API 提供搶先體驗。
  • ESM-1:這一最初由 Meta AI Labs 發布的蛋白質 LLM 能夠處理胺基酸序列,最終生成用於預測各種蛋白質特性和功能的表征。它還提高了科學家理解蛋白質結構的能力。
  • OpenFold:這是由學術界和產業界共同成立的 Openfold 聯盟創建的 sota 蛋白質建模工具,它將可以通過 BioNeMo 服務提供其開源 AI 工作流程。
  • MegaMolBART:這一基於 14 億分子訓練而成的生成式化學模型可用於反應預測、分子最佳化和新分子的生成。
  • ProtT5:該模型是在慕尼黑工業大學 RostLab 的帶領下合作開發的,NVIDIA 也是該項目的參與者之一。PortT5 將 ESM-1b 等蛋白質 LLM 的功能擴展到序列生成。
  • 未來,使用 BioNeMo LLM 服務的研究人員將能夠通過 fine-tuning 以及 p-tuning 等新技術,在幾小時內完成 LLM 模型的自定義,提高套用的準確性。相比原來動輒數百萬個樣本的數據集,p-tuning 訓練方法只需要包含幾百個樣本的數據集。
  • AlphaFold2:DeepMind開發的一個深度學習模型,其能夠將確定蛋白質結構所需的時間從幾年縮短到幾分鐘甚至幾秒,僅需要使用蛋白質的胺基酸序列。
  • DiffDock:為了幫助研究人員了解藥物分子如何與目標蛋白結合,該模型以高精度和高計算效率預測小分子的3D方位和錨定反應。
  • ESMFold:這個蛋白質結構預測模型使用Meta AI的ESM2蛋白質語言模型,可以基於單個胺基酸序列來預測蛋白質的3D結構,而不需要類似序列的樣本。
  • ESM2:該蛋白質語言模型用於推理蛋白質的機器表示,對蛋白質結構預測、屬性預測和分子對接等下游任務很有用處。
  • MoFlow:用於分子最佳化和小分子生成,這個生成化學模型重新創建分子,提出潛在治療藥物的各種化學結構。
  • ProtGPT-2:這個語言模型生成新的蛋白質序列,幫助研究人員設計具有獨特結構、屬性和功能的蛋白質。

套用

製藥公司、生物技術初創企業和前沿生物研究人員正在使用 NVIDIA BioNeMo LLM 服務和框架來開發用於生成、預測和理解生物分子數據的 AI 套用。專家正在採用 NVIDIA BioNeMo,為新藥研發提供支持。
阿斯利康和 NVIDIA 使用 Cambridge-1 超級計算機開發了 BioNeMo LLM 服務中的 MegaMolBART 模型。這家全球生物製藥公司將使用 BioNeMo 框架,在涵蓋小分子和蛋白質的數據集上訓練一些全球最大的語言模型。該數據集日後還將涵蓋 DNA。
麻省理工學院和哈佛大學旗下博德研究所的研究人員正在與 NVIDIA 一起使用 BioNeMo 框架來開發新一代 DNA 語言模型。這些模型將被整合至 Terra 中。Terra 是一個由博德研究所、微軟和 Verily 共同開發的雲平台,生物醫學研究人員能夠通過該平台,安全、大規模地共享、訪問和分析數據。這些 AI 模型還將被添加到 BioNeMo 服務集中。
OpenFold 聯盟計畫使用 BioNeMo 框架來推進其 AI 模型開發工作。這些模型可根據胺基酸序列來預測分子結構,並達到接近實驗的準確性。
Peptone 專注於構建固有無序蛋白質(缺乏穩定 3D 結構的蛋白質)的模型。該公司正與NVIDIA 一起使用同樣作為 BioNeMo 基礎的 NeMo 框架來開發 ESM 模型版本。該項目計畫在 NVIDIA 的 Cambridge-1 超級計算機上運行,將推動 Peptone 的新藥研發工作。
位於芝加哥的生物技術公司 Evozyne 將工程與深度學習技術相結合,致力於設計能夠解決長期治療和可持續發展難題的新型蛋白質。
作為NVIDIA AI Foundations的一部分,用於AI模型訓練和推理的BioNeMo雲服務產品能夠加速藥物研發過程中最耗時、費用最高的階段。研究人員能夠依靠它在自己的專有數據上對生成式AI套用進行微調,並可以直接通過網路瀏覽器或者全新雲套用編程接口(API)運行AI模型推理,並集成到現有套用中。

相關詞條

熱門詞條

聯絡我們