NVIDIA NeMo

NVIDIA NeMo是NVIDIA 的一個更新版本的神經模組,可以用於加快語音和語言模型的開發。

基本介紹

  • 外文名:NVIDIA NeMo
  • 類別:更新版本的神經模組
包含了有關NGC中預訓練模型的相關更新信息和基於自定義數據集微調模型的部分,以及使用文本語音轉換合計升級NeMo圖,和使用LibriSpeech數據集替換示例中的AN4數據集。該套件是為解決NVIDIA套用研究團隊所面臨的挑戰而設計的。NVIDIA希望通過將此項目開源,來和整個語音、NLP和TTS研究者社區分享此項成果,並促進彼此之間的合作。
NVIDIA NeMo是PyTorch後端的開源套件,能夠進一步提高抽象層次。NeMo使用戶可以使用可重用的組件建立複雜的神經網路架構。利用神經類型,這些組件之間會自動進行語義兼容性檢查。
NeMo能夠利用NVIDIA GPU上的Tensor Core核心,通過混合精度計算來獲得最高性能。其包括了將訓練擴展到多GPU系統和多節點集群的功能。
該套件的核心是神經模組概念。神經模組會獲得一組輸入後,計算出一組輸出。用戶可以將其視為介於層和整個神經網路之間某處的一個抽象。通常一個模組對應神經網路的一個概念部分,例如編碼器、解碼器或語言模型。
神經模組的輸入和輸出都具有神經類型,包括語義、Axis次序和輸入/輸出tensor張量的維數。這一歸類使得NeMo可以安全地連結在一起,組成套用,比如在下文中所演示的的自動語音識別(ASR)示例。
NeMo還帶有用於ASR、NLP和TTS的可擴展模組集合。此類集合為數據載入、預處理,和訓練不同的網路結構(包括Jasper、BERT、Tacotron 2和WaveGlow)提供了API操作。用戶還可以基於自定義數據集,使用NVIDIA NGC中的預訓練模型進行模型微調。

相關詞條

熱門詞條

聯絡我們