Tensor Core

技術介紹

Tensor Core 可實現混合精度計算，並能根據精度的降低動態調整算力，在保持準確性的同時提高吞吐量。新一代 Tensor Core 擴大了這種加速的套用範圍，覆蓋 AI 和 HPC 領域的各種工作負載。NVIDIA Tensor Core 向所有工作負載提供了新功能，將 Tensor Float 32（TF32，一種革命性的新精度）下的 AI 訓練速度加快 10 倍，並將 FP64 下的高性能計算 (HPC) 速度加快 2.5 倍。

Tensor Core在NVIDIA的Volta、Turing和Ampere GPU架構中均有配備，其中Ampere架構中的Tensor Core為第三代Tensor Core。NVIDIA Tensor Core 技術助力 AI 實現了大幅加速，將訓練時間從數周縮短到幾小時，顯著加快了推理速度。

發展歷史

第一代Tensor Core——NVIDIA Volta架構

2017年5月發布的NVIDIA Volta架構中的第一代 Tensor Core 專為深度學習而設計，通過 FP16 和 FP32 下的混合精度矩陣乘法提供了突破性的性能 – 與 NVIDIA Pascal 相比，用於訓練的峰值 teraFLOPS (TFLOPS) 性能提升了高達 12 倍，用於推理的峰值 TFLOPS 性能提升了高達 6 倍。這項關鍵功能使 Volta 提供了比 Pascal 高 3 倍的訓練和推理性能。

第二代Tensor Core——NVIDIA Turing架構

2018年8月發布的NVIDIA Turing Tensor Core 技術能進行多精度計算，可實現高效的 AI 推理。Turing Tensor Core 提供了一系列用於深度學習訓練和推理的精度（從 FP32 到 FP16 再到 INT8 和 INT4），性能遠超 NVIDIA Pascal GPU。Turing架構也首次在消費級GeForce產品線上配備Tensor Core，另GeForce RTX 20系列顯示卡具備了全新的AI硬體加速計算能力。

第三代Tensor Core——NVIDIA Ampere架構

2020年5月發布的NVIDIA Ampere 架構帶來性能的提升，提供了新的精度，可覆蓋研究人員需要的全系列精度（TF32、FP64、FP16、INT8 和 INT4），從而加速和簡化 AI 的採用，並將 NVIDIA Tensor Core 的強大功能擴展到 HPC 領域。

支持的Tensor Core精度

Tensor Core

基本介紹

技術介紹

發展歷史

在遊戲中的套用

相關詞條

熱門詞條