xdr2

XDR2的系統架構源於XDR,而不像XDR相對於RDRAM那樣有著巨大的差異,這從它們之間的系統架構的比較中就可以體現出來。 XDR2與XDR系統整體在架構上的差別並不大,主要的不同體現在相關匯流排的速度設計上。首先,XDR2將系統時鐘的頻率從XDR的400MHz提高到500MHz;其次,在用於傳輸定址與控制命令的RQ匯流排上,傳輸頻率從800MHz提升至2GHz,即XDR2系統時鐘的4倍;最後,數據傳輸頻率由XDR的3.2GHz提高到8GHz,即XDR2系統時鐘頻率的16倍,而XDR則為8倍,因此,Rambus將XDR2的數據傳輸技術稱為16位數據速率(Hex Data Rate,HDR)。

基本介紹

  • 中文名:xdr2
  • 類別:XDR2記憶體晶片
  • 架構:MT架構
  • 數據傳輸率:1.6Gbps
XDR2 DRAM系統架構,XDR2 DRAM的設計精華——MT架構,MT架構的實現,MT架構效能分析,XDR2的其他特點,自適應同步(Adaptive Timing),信號傳送均衡(Transmit Equalization),DRSL發信技術(DRSL Signaling),動態位寬(Dynamic data width),零刷新占用(Zero Overhead Refresh),目標瞄準顯示卡市場,

XDR2 DRAM系統架構

Rambus表示,XDR2記憶體晶片的標準設計位寬為16bit(它可以像XDR那樣動態調整位寬),按每個數據引腳的傳輸率為8GHz,即8Gbps計算,一枚XDR2晶片的數據頻寬就將達到16GB/s,與之相比,目前速度最快的GDDR3-800的晶片位寬為32bit,數據傳輸率為1.6Gbps,單晶片傳輸頻寬為6.4GB/s,只是XDR2的40%,差距十分明顯。

XDR2 DRAM的設計精華——MT架構

XDR2在設計之初就著眼於圖形顯示卡套用領域,而在這一套用領域中,常用到的訪問操作與PC機上的主記憶體有所不同,那就是經常會訪問一些小容量的離散數據集合,因此有必要對這類套用進行最佳化。XDR2架構的一大創新就是針對這一操作進行架構最佳化,Rambus將其稱之為微執行緒架構(Micro-Theaded,MT)。 對此,Rambus用原來的RDRAM架構與XDR2進行了對比。我們知道,RDRAM有兩個數據通道(Data Pins),每個通道位寬為8bit。RDRAM的一個邏輯Bank由兩個子Bank組成,每個子Bank各接有一個數據通道,合計16bit。在工作時,兩個子Bank同時定址並將各自的數據傳向數據通道A與數據通道B。如圖1所示。 假設行定址命令的間隔周期是8ns(指在發出行定址命令8ns後才能向其他邏輯Bank傳送新的行定址命令),列命令間隔周期是4ns(發出列定址命令4ns後才能向其他Bank傳送新的列定址命令),而數據通道中的傳輸周期為0.25ns(4GHz),由此計算出,在一次行訪問間隔內,數據通道共傳輸了32次數據(8ns/0.25ns),數據通道A+B的位寬為16bit,因此總計512bit的數據,即64位元組;而在一次列訪問間隔中,共傳送16次數據(4ns/0.25ns),數據通道A+B的總頻寬為256bit,即32位元組。這就是傳統RDRAM結構所體現的一次行訪問容量與一次列訪問容量(也可稱之為訪問顆粒度),也就是說傳統的RDRAM核心在一次行訪問間隔中至少要傳輸64位元組的數據,而在一次列訪問間隔中,至少要傳輸32位元組的數據。如圖2所示。但是,在顯示卡的套用中,這樣大的顆粒度往往會造成頻寬的浪費,因為在訪問一個圖形對象時,一般用不到如此大的數據量,這與圖形套用的特點有很大的關係。
xdr2
xdr2
當我們把DRAM中的一行拿出來以列訪問容量為單位做成一個二維表格時,我們就能清楚地看到顯示卡在訪問一個三角形的數據時所進行的定址情況,如圖3所示。假設需要訪問的是由6個像素組成的三角形(3D繪圖的基本單元就是不同大小的三角形),每個像素占用4個位元組(典型的RGBA/32bit格式),那么,這6個像素組成的三角形就是24個位元組的容量。 雖然對於一個列訪問容量為32位元組的DRAM架構來說,一個列訪問容量就包括了一個三角形,但是,三角形的數據並不是存放於一個列中的,就像在螢幕中,組成三角形的像素不會是線性排列的一樣,因此,在訪問這些數據時,就需要訪問多個列(因為圖形數據是線性寫入顯存的,這就造成了三角形各像素是分散式存儲的)。從圖3可以看出,對於6像素的三角形來說,至少要訪問2列,最多要訪問4列,而對於4列來講,就相當於讀取128位元組,但這其中只有24位元組是需要的,其他的數據就白白地占用傳輸頻寬與時間。所以,要想提高記憶體在顯示卡套用中的效率,在提升傳輸頻率的同時還要有效降低訪問顆粒度,而這就是MT架構的設計初衷。
xdr2

MT架構的實現

從理論上,我們不難分析出,要減少行與列的訪問顆粒度,首先就要將行與列的訪問間隔縮小,其次就是減少每次列數據輸出的容量。在這方面,XDR2先是在工作頻率上進行了改進,將命令與控制匯流排(RQ)的工作頻率提升至2GHz,是500MHz時鐘頻率的4倍,換句話說,就是在原有一個時鐘周期內,現在理論上可以傳送4個命令。 而最關鍵的改進是DRAM核心的全新設計。簡單說,它是在XDR的外衣下採用了與RDRAM相似的核心設計——再次採用了A+B雙數據通道的設計,A和B通道各8bit,並且將邏輯Bank從XDR的8個增加至16個,不過,A和B數據通道是各自獨立的,各自連線8個邏輯Bank。 如圖4所示,在XDR2核心中,16個邏輯Bank對應A和B通道,分成兩個區,每個區(包含8個邏輯Bank,0到7在A區,8到15在B區)又分成兩組,奇數Bank為一組,偶數Bank為一組。這樣就形成了4個邏輯Bank組。這個架構的目的在於進行交錯定址。它們工作時的狀態如圖5所示。在定址時,XDR2核心中的4個Bank組是跨區交錯/同時工作的,就是在同一時間,A區與B區中各有一個Bank組在工作,而在每個區中的兩個Bank組則是交錯工作的關係。 在定址時,先指定A和B區某一Bank(共兩個Bank),之後同時向這兩個Bank發出列定址命令,這兩個Bank各自將數據傳輸至A區與B區連線的數據通道。這樣做的好處就是將原來大的邏輯Bank細化,並且將A和B數據通道獨立,使Bank的接口位寬按數據通道的位寬等比例縮小,從而有效地控制住了一次訪問時的傳輸容量。比如在上面的XDR結構圖中,數據預取設計是16bit,數據通道的位寬是16bit,這樣邏輯Bank的位寬就是16×16bit=256bit=32位元組,也就是說一次傳輸至少32位元組的數據。而在XDR2中,預取也是16bit,但數據通道A和B各自獨立,也就使XDR2的邏輯Bank的位寬變成了16×8bit=128bit=16位元組,有效地降低了邏輯Bank一次傳輸的數據量,但由於另一個通道也在傳輸另一個Bank的數據,所以總的頻寬並沒有損失,只是訪問精度進一步提高了。 在具體的傳輸中,與RDRAM和XDR一樣,XDR2的A和B通道的每個引腳用16個傳輸周期串列傳輸兩個位元組,而不是在一個周期傳輸一個位元組(8bit),這就是Rambus引以為榮的數據串列多路關聯的設計。
xdr2
xdr2
MT架構帶來什麼樣的好處呢?仍以前面的假設條件為準,我們可以發現,由於同時有兩個Bank在工作,所以行命令間隔與列定址間隔均要減半(R0與R1的命令是一個集合,先後選擇兩個Bank,而對這兩個Bank的列定址命令,如C0x和C1x則是同時發出),而且數據通道的寬度也減半,從而使列訪問顆粒度降至8位元組,而行訪問顆粒度降至16位元組,是傳統DRAM核心的1/4。如圖6所示。
xdr2

MT架構效能分析

XDR2之所以採用MT架構,就在於要減小行與列的顆粒度。在圖形套用中,小的顆粒度有多大的優勢呢?
我們假設訪問一個由6個像素組成的三角形,每個像素4個位元組,計24位元組。從圖7中可以看出,對於MT架構的DRAM核心,由於列訪問容量為8位元組,所以2KB的行容量中就有256列,而對於傳統核心的DRAM,4KB行容量則只需要128列。顯然MT架構更為細化,這樣做的好處就是定址更為精確有效。 對於8位元組的行訪問容量,只有兩種可能的定址情況發生,一種是訪問4列,一種是訪問5列,平均是4.5列。按列容量8位元組計算就是36位元組,而需要位元組為24,有12個字是無效的,訪問效率為24/36=66.67%。而對於傳統的DRAM核心,共有8種可能出現的情況——4種需要訪問2列,3種需要訪問3列,1種需要訪問4列,平均需要訪問2.6525列,按每個列容量為32位元組計算,則為84位元組,其中有60個位元組是無效的,訪問效率為28.5%。從這一點中就可以看出MT架構的優勢。
xdr2
在三角形訪問率的對比中,我們可以發現MT架構在小三角形訪問方面有著顯著的優勢。圖8中的tRR limit是指行訪問容量的限制,一般的行訪問容量是列訪問容量的兩倍,要訪問的數據超過了這一範圍,訪問率就會下降,而在這一範圍之內,效率不變。由於在未來的3D繪圖中,出於對細節表現力的追求,小三角形的套用會越來越普及,因此MT架構的DRAM核心的優勢也就會更加明顯。而這也正是Rambus開發XDR2的緣由。
不過,這裡需要指出的是,上面的分析是基於一種假想的設計,事實上,XDR2的數據傳輸頻率為8GHz,即傳輸周期為0.125ns。而行定址間隔周期為兩個時鐘周期,以500MHz的時鐘頻率計算為4ns,列定址間隔周期為1個時鐘周期,即2ns,因此XDR2的列訪問容量為16位元組,行訪問容量為32位元組。
xdr2
理論上,MT架構可以套用於任何一個需要精確定址的場合,而不僅僅是圖形領域。比如大型的物理形態模擬計算系統(如流體力學仿真計算),在運算過程中會產生大量的小規模數據塊,存儲地點的隨機性很大;在網路交換機等設備中,由於網路數據包體積大多較小,並且是隨機組合,因此也需要記憶體系統給予強大的訪問效率,以節省寶貴的時間。此外,對於很多套用於消費電子產品中的處理器而言,其內部的快取行(Cache Line)容量也較小,而它是快取與記憶體之間交換數據的容量單位,較小的訪問顆粒度可以確保與快取之間的數據交換保持最佳的效率(如Cache Line的容量是16位元組,對於32位元組的顆粒度來說,就要浪費16位元組的傳輸操作)。因此,Rambus也將XDR2的套用領域鎖定在了除顯示卡以外的高性能運算、網路與消費電子設備領域。

XDR2的其他特點

除了最引人關注的MT架構設計之外,為了保證XDR2系統的穩定運行且更有效率,XDR2還繼承了XDR的優點,並加入了新的輔助設計:

自適應同步(Adaptive Timing)

在速度不斷提升的今天,XDR的FlexPhase(彈性相位)同步電路將進行補償處理,實時應對電壓與溫度變化所產生的影響。FlexPhase的本意是使記憶體生產者不再費力地去調校PCB的布線設計,以減少延遲/潛伏期對數據同步的影響。彈性相位技術使信號本身具備了數據/時鐘同步與自校準能力,從而使外圍有關時序跟蹤的設計與布線變得非常簡單,並有助於提高同步性,提高匯流排利用率。在XDR系統中,彈性相位控制這一功能由XIO完成,調校單位為bit,精度可達2.5ps(Pico Second,微微秒)。

信號傳送均衡(Transmit Equalization)

這一技術將來自記憶體系統的電路反射與衰減影響降到最小程度,以穩定達到所需要的速度。

DRSL發信技術(DRSL Signaling)

使用200mV的差分信號傳送技術,以提供較高的信噪比。另外,XDR2還使用晶片內終結與點對點傳輸技術,結合相關的PCB與晶片裝配技術,以最大限度減少信號反射並減少傳輸周期。

動態位寬(Dynamic data width)

與XDR記憶體一樣,XDR2可以動態調整接口的位寬,可以有2bit、4bit、8bit等選擇,這樣就有助於提高系統的設計靈活性,而且位寬改變後,訪問顆粒度也將改變,2bit、4bit、8bit時的列訪問顆粒度分別為2位元組、4位元組和8位元組。頻寬也降至2GB/s、4GB/s和8GB/s。

零刷新占用(Zero Overhead Refresh)

傳統的DRAM在刷新時,是對所有邏輯Bank的相同地址行進行刷新,如果正好趕上某一行處於工作狀態,或要訪問某一行時,就與刷新操作產生了衝突。而XDR2內部獨特的邏輯Bank設計,可以通過交錯控制刷新,避免了刷新操作影響正常定址的情況發生,實現了零刷新系統占用。

目標瞄準顯示卡市場

XDR2的套用領域雖然很廣,但Rambus仍把首要目標瞄準了顯示卡市場。目前,nVIDIA與ATi的高端顯示卡均配備了GDDR3顯存。XDR2在這一領域中的主要競爭對手就是GDDR3,那么與GDDR3相比,XDR2的優勢如何呢? 先看看顆粒度的情況,GDDR3的位寬均為32bit,基於DDR2架構設計,預取4bit,因此,列訪問顆粒度與XDR2一樣,同為16位元組。也就是說,在訪問尺寸相當的三角形時,XDR2與GDDR3的效率是一樣的。所以,XDR2在這方面並不占優勢。但不要忘了兩者的頻寬,就單顆晶片比較的話,現在最高速度的GDDR3的頻寬為6.4GB/s,而XDR2則達到了16GB/s,這樣一來,在保持相同訪問效率的同時,XDR2性能至少是GDDR3的2.5倍,就這一點來說,XDR2就有了很大的優勢。
xdr2
再來比較一下定址效率。在這裡我們進行最常見的定址訪問的比較,即先行定址再列定址。從表1和表2中我們可以看出,讀取時,XDR2的延遲是GDDR3的80%,而在寫入時只有GDDR3 的51.4%,顯然效率更高。即使加上預充電的操作,XDR2仍然占優(XDR2-500預充電用時10ns,GDDR3-800用時12.5ns)。就這點來說,XDR2已經擺脫了Rambus記憶體長久以來在隨機訪問方面的劣勢(第一代XDR相對於DDR2仍有微弱的差距),當然這也與DDR的架構頻率越高所需延遲周期越多有關。
xdr2
在耗電方面,雖然GDDR3的標準設計是1.8V,但最高速的GDDR3-800則為2.0V,而XDR2-500則仍保持在1.8V,與第一代XDR記憶體相同。 未來可能的XDR2系統設計,可以預見的肯定會有64bit的顯示卡接口規格,此時的XDR2系統的頻寬將達到64GB/s,相對於現有的256bit GDDR3架構的51.2GB/s,提高了1.25倍,但位寬只有後者的一半,再加上XDR2晶片的引腳為108pin,而GDDR3-800則為136pin,這對於PCB布線設計來說顯然會輕鬆很多。 總之,XDR2的設計有著明顯的優勢,當並行傳輸方式在高頻率下的劣勢越來越明顯時,XDR的串列傳輸方面的優勢也將得以顯露。因此,我們有理由相信,XDR2在未來的某一天會進入主流顯示卡領域,以滿足未來GPU對高頻寬的強烈需求。

相關詞條

熱門詞條

聯絡我們