相關事件
在上海英偉達遊戲群英匯現場一位戴眼鏡的現場觀眾獲得了世界第一塊由影馳公司出品的公版GTX690,該現場觀眾是影馳7級會員。
英偉達CEO黃仁勛先生親自為該現場觀眾簽名顯示卡,觀眾們激動萬分。
由於2013年12月甘肅衛視的電視節目《揭秘真相》錯誤引用資料,導致主持人說出“……特別是搭載690戰術核顯示卡的……”,事後甘肅衛視做出道歉,但該事件也導致戰術核顯示卡在網路上流傳開來。
規格參數
附註:以下規格為該 GPU 納入 NVIDIA 參考繪圖卡設計中的規格。繪圖卡規格可能會因為附加卡製造商而有所不同。請參考附加卡製造商的網站,以取得實際出貨規格資訊。
GPU引擎規格
CUDA 核心數量:3072
基礎頻率(MHz):915
提升頻率(MHz):1019
紋理填充速率(billion/sec):234
顯存規格
顯存頻率 (Gbps):6.0
GDDR5標準顯存組態:4096 MB (2048 MB per GPU)
顯存介面寬度:512-bit (256-bit per GPU)
顯存位寬(GB/sec):384
特性支持
OpenGL:4.2
匯流排支持:PCI Express 3.0
Windows 7 認證:支持
支持的技術:3D Vision, 3D Vision Surround, CUDA, DirectX 11, PhysX, SLI, TXAA, Adaptive VSync, GPU Boost, FXAA
SLI選項:Quad
顯示器支持
Multi Monitor:4 displays
最大數字解析度:4096x2160
高位寬數字內容保護(HDCP):支持
(轉接器)高清多媒體介面(HDMI):支持
Standard Display Connectors:兩個雙鏈路 DVI-I,一個雙鏈路 DVI-D ,一個Mini-Displayport 1.2
針對HDMI的音訊輸出:內部
標準繪圖卡尺寸
長度:11.0 英寸
高度:4.376 英寸
寬度:雙槽
散熱和功率規格
GPU最高溫度(攝氏):98 C
供電接口:兩個 8 針連線器
(3D Vision) Ready:3D 立體幻境
3D 遊戲:支持
3D Vision Live (照片與視頻):支持
散熱方式:水冷或風冷
價格
Nvidia承諾GTX 690將開始小範圍供應,之後將由各核心合作夥伴將開始進行更廣泛的銷售,該產品售價為999美元。
在市場方面,GTX690將會把AMD給甩下一大截。據說,兩塊GTX680雙SLI的效果就和GTX690一樣。由此可見,這塊顯示卡的性能比AMD顯示卡——HD7970超越了許多。
詳細信息
架構
流處理器暴增之謎
基於效能和計算能力方面的考慮,NVIDIA與AMD不約而同的改變了架構,NVIDIA雖然還是採用SIMT架構,但也借鑑了AMD“較老”的SIMD架構之作法,降低控制邏輯單元和指令發射器的比例,用較少的邏輯單元去控制更多的CUDA核心。於是一組SM當中容納了192個核心的壯舉就變成了現實!
通過右面這個示意圖就看的很清楚了,CUDA核心的縮小主要歸功於28nm工藝的使用,而如此之多的CUDA核心,與之搭配的控制邏輯單元面積反而縮小了,NVIDIA強化運算單元削減控制單元的意圖就很明顯了。
此時相信有人會問,降低控制單元的比例那是不是意味著NVIDIA賴以成名的高效率架構將會一去不復返了?理論上來說效率肯定會有損失,但實際上並沒有想像中的那么嚴重。NVIDIA發現執行緒的調度有一定的規律性,編譯器所發出的條件指令可以被預測到,此前這部分工作是由專門的硬體單元來完成的,如今可以用簡單的程式來取代,這樣就能節約不少的電晶體。
所以在克卜勒中NVIDIA將一大部分指令派發和控制的操作交給了軟體(驅動)來處理。而且GPU的架構並沒有本質上的改變,只是結構和規模以及控制方式發生了變化,只要驅動支持到位,與遊戲開發商保持緊密的合作,效率損失必然會降到最低——事實上NVIDIA著名的The Way策略就是幹這一行的!
這方面NVIDIA與AMD的思路和目的是相同的,但最終架構上還是有所區別。NVIDIA的架構被稱為SIMT(Single Instruction Multiple Threads,單指令多執行緒),NVIDIA並不像AMD那樣把多少個運算單元捆綁為一組,而是以執行緒為單位自由分配,控制邏輯單元會根據執行緒的任務量和SM內部CUDA運算單元的負載來決定調動多少個CUDA核心進行計算,這一過程完全是動態的。
但不可忽視的是,軟體預解碼雖然大大節約了GPU的電晶體開銷,讓流處理器數量和運算能力大增,但對驅動和遊戲最佳化提出了更高的要求,這種情況伴隨著AMD度過了好多年,NVIDIA也要面對相同的問題了,希望他能做得更好一些,否則散熱量還將繼續增加。
核心
SMX與SM的改動細節
全新的Kepler相比上代的Fermi架構改變了什麼,看架構圖就很清楚了:
GK104相比GF110,整體架構沒有大的改變,GPU(圖形處理器集群)維持4個,顯存控制器從6個64bit(384bit)減至4個64bit(256bit),匯流排接口升級至PCIE 3.0。剩下的就是SM方面的改變了
NVIDIA把GK104的SM(不可分割的流
處理器集群)稱為SMX,原因就是暴增的CUDA核心數量。但實際上其結構與上代的SM沒有本質區別,不同的只是各部分單元的數量和比例而已。具體的區別逐個列出來進行對比:
Kepler與Fermi架構SM參數對比 |
---|
單元 | GF100 | GF104 | GK104 | GK104/GF104 |
CUDA | 32 | 48 | 192 | 4:1 |
SFU | 4 | 8 | 32 | 4:1 |
Warp | 2 | 2 | 4 | 2:1 |
Dispatch | 2 | 4 | 8 | 2:1 |
LD/ST | 16 | 16 | 32 | 2:1 |
TMU | 4 | 8 | 32 | 4:1 |
1. NVIDIA把流處理器稱為CUDA核心;
2. SFU(Special Function Units,特殊功能單元)是比CUDA核心更強的額外運算單元,可用於執行抽象的指令,例如正弦、餘弦、倒數和平方根,圖形插值指令也在SFU上執行;
3. Warp是並行執行緒調度器,每一個Warp都可以調度SM內部的所有CUDA核心或者SFU;
4. Dispatch Unit是指令分派單元,分則將Warp執行緒中的指令按照順序和相關性分配給不同的CUDA核心或SFU處理;
5. LD/ST就是載入/存儲單元,可以為每個執行緒存儲運算源地址與路徑,方便隨時隨地的從快取或顯存中存取數據;
6. TMU是紋理單元,用來處理紋理和陰影貼圖、螢幕空間環境光遮蔽等圖形後期處理;
通過以上數據對比不難看出,GK104暴力增加CUDA核心數量的同時,SFU和TMU這兩個與圖形或計算息息相關處理單元也同比增加,但是指令分配單元和執行緒調度器還有載入/存儲單元的占比都減半了。這也就是前文中提到過的削減邏輯控制單元的策略,此時如何保證把指令和執行緒填滿一個CUDA核心,將是一個難題。據知名評測網站卡吧基地最新資訊顯示,此難題將在8個月內得到初步解決。