NVIDIA NeMo

包含了有關NGC中預訓練模型的相關更新信息和基於自定義數據集微調模型的部分，以及使用文本語音轉換合計升級NeMo圖，和使用LibriSpeech數據集替換示例中的AN4數據集。該套件是為解決NVIDIA套用研究團隊所面臨的挑戰而設計的。NVIDIA希望通過將此項目開源，來和整個語音、NLP和TTS研究者社區分享此項成果，並促進彼此之間的合作。

NVIDIA NeMo是PyTorch後端的開源套件，能夠進一步提高抽象層次。NeMo使用戶可以使用可重用的組件建立複雜的神經網路架構。利用神經類型，這些組件之間會自動進行語義兼容性檢查。

NeMo能夠利用NVIDIA GPU上的Tensor Core核心，通過混合精度計算來獲得最高性能。其包括了將訓練擴展到多GPU系統和多節點集群的功能。

該套件的核心是神經模組概念。神經模組會獲得一組輸入後，計算出一組輸出。用戶可以將其視為介於層和整個神經網路之間某處的一個抽象。通常一個模組對應神經網路的一個概念部分，例如編碼器、解碼器或語言模型。

神經模組的輸入和輸出都具有神經類型，包括語義、Axis次序和輸入/輸出tensor張量的維數。這一歸類使得NeMo可以安全地連結在一起，組成套用，比如在下文中所演示的的自動語音識別（ASR）示例。

NeMo還帶有用於ASR、NLP和TTS的可擴展模組集合。此類集合為數據載入、預處理，和訓練不同的網路結構（包括Jasper、BERT、Tacotron 2和WaveGlow）提供了API操作。用戶還可以基於自定義數據集，使用NVIDIA NGC中的預訓練模型進行模型微調。

NVIDIA NeMo

基本介紹

相關詞條

熱門詞條