每秒浮點運算次數

介紹

讓我們看一下怎樣基於其峰值FLOPS來對比DSP、GPU和FPGA體系結構的性能。在最大工作頻率下，通過加法器和乘法器求和積來確定峰值FLOPS比。這代表了計算的理論極限，實際中很難獲得，因為一般不可能實現所有時間、所有計算單元上都保持運行的算法。但確實有實用的對比指標。

首先，我們考慮DSP GFLOPS性能。對此，我們選擇德州儀器公司的TMS320C667xDSP作為實例器件。這一DSP包括了8個DSP核心，每一核心含有兩個處理子系統。每一子系統包括4個單精度浮點加法器和4個單精度浮點乘法器。總共有64個加法器和64個乘法器。最快的能夠運行在1.25GHz，峰值性能達到160Giga FLOPS（GFLOPS）。

例子

GPU是非常流行的器件，特別是圖像處理套用。功能最強大的一種GPU是NVIDATeslaK20。這一GPU基於CUDA核心，每一個都有一個浮點乘法加法單元，在單精度浮點配置時，每個時鐘周期能夠執行一次。毎個流多處理器（SMX）處理引擎中有192個CUDA核心。K20實際上含有15個SMX，能夠使用其中的13個（例如，由於工藝產出問題）。這樣，總共有2496個CUDA核心，每一時鐘周期2GFLOP，最大運行頻率是706MHz。這樣，峰值單精度浮點性能達到了3520GFLOP。

Altera等FPGA供應商在其FPGA中提供硬核浮點引擎。在整個可程式邏輯結構中，嵌入的硬核DSP模組含有一個單精度浮點乘法器和加法器。Altera中端Arria10FPGA系列的中等規模FPGA有一款10AX066。這一器件有1678個dsp模組，每個都能夠在每一時鐘周期中執行並沒有使用可程式邏輯，而是設計的其他部分使用了可程式邏輯，例如，數據控制和調度電路、I/O接口、內部和外部存儲器接口，以及其他面的功能。

每秒浮點運算次數

基本介紹

介紹

例子

相關詞條

熱門詞條