每秒浮點運算次數

每秒浮點運算次數(FLOP),按照IEEE 754標,FLOP被定義為單精度(32位)或者雙精度(64位)數加法或者乘法.

基本介紹

  • 中文名:每秒浮點運算次數
  • 外文名:FLOP
  • 領域:計算機
介紹,例子,

介紹

讓我們看一下怎樣基於其峰值FLOPS來對比DSP、GPU和FPGA體系結構的性能。在最大工作頻率下,通過加法器和乘法器求和積來確定峰值FLOPS比。這代表了計算的理論極限,實際中很難獲得,因為一般不可能實現所有時間、所有計算單元上都保持運行的算法。但確實有實用的對比指標。
首先,我們考慮DSP GFLOPS性能。對此,我們選擇德州儀器公司的TMS320C667xDSP作為實例器件。這一DSP包括了8個DSP核心,每一核心含有兩個處理子系統。每一子系統包括4個單精度浮點加法器和4個單精度浮點乘法器。總共有64個加法器和64個乘法器。最快的能夠運行在1.25GHz,峰值性能達到160Giga FLOPS(GFLOPS)。

例子

GPU是非常流行的器件,特別是圖像處理套用。功能最強大的一種GPU是NVIDATeslaK20。這一GPU基於CUDA核心,每一個都有一個浮點乘法加法單元,在單精度浮點配置時,每個時鐘周期能夠執行一次。毎個流多處理器(SMX)處理引擎中有192個CUDA核心。K20實際上含有15個SMX,能夠使用其中的13個(例如,由於工藝產出問題)。這樣,總共有2496個CUDA核心,每一時鐘周期2GFLOP,最大運行頻率是706MHz。這樣,峰值單精度浮點性能達到了3520GFLOP。
Altera等FPGA供應商在其FPGA中提供硬核浮點引擎。在整個可程式邏輯結構中,嵌入的硬核DSP模組含有一個單精度浮點乘法器和加法器。Altera中端Arria10FPGA系列的中等規模FPGA有一款10AX066。這一器件有1678個dsp模組,每個都能夠在每一時鐘周期中執行並沒有使用可程式邏輯,而是設計的其他部分使用了可程式邏輯,例如,數據控制和調度電路、I/O接口、內部和外部存儲器接口,以及其他面的功能。

相關詞條

熱門詞條

聯絡我們