計算快取延遲(cache latency)是評估記憶體效能的主要方式,通常這代表由記憶體擷取或傳輸資料到CPU的時間。實際上記憶體的RAM部份只是三個暫存記憶體快取之一,資料訊號會透過RAM在硬碟上的記憶體和CPU間傳遞。說得哲學一點,亞利桑那州Cave Creek Mercury Research的分析師Dean McCarron就提到:「資料從處理器移到記憶體時,總會有些怪事發生。」
在資料傳往L1或L2快取的路上,處理器所需要的訊號,可能會在處理器閒置時從快取回存到主記憶體中,這相對的會對延遲造成影響。簡單的說,處理器等待回應的時間越短,延遲就越低。如果想知道延遲對電腦效能的影響,不妨到您電腦的BIOS裡調一下延遲設定,比較看看兩者性能的差異。
這幾年來,業界對改善快取效能和延遲的努力,大多著眼在處理器和晶片組間的連線,以及記憶體和晶片組間的記憶體匯流排,不過匯流排速度顯然成為瓶頸。舉例來說,Pentium 4的533 MHz外頻和PC-133(133 MHz)的SDRAM之間,外頻和記憶體匯流排的速度就差蠻多的。
雖然可以把系統調整成延遲高,但記憶體匯流排速度快的模式,不過這麼作的話,效能並不會比記憶體匯流排較慢但延遲低的系統好。一般來說,處理器的外頻必須要達到處理器頻率的五分之一,這樣一來快取的效率才不至於飽和。拿Intel(英特爾)的高階晶片組來作例子的話,那麼每當處理器超越5x的門檻時,他們就會推出新規格的外頻速度。不過以時脈為賣點的Celeron而言,外頻和處理器的比例甚至達到13:1。
有些記憶體模組產品的實際表現,也和技術規格不相符。在晶圓廠中無法通過333 MHz測試的記憶體,應該要當作266 MHz的產品來販賣。但有些廠商和經銷商,在標示記憶體規格時並不甚確實。一款266 MHz的記憶體搞不好得用更低的頻率才能正常使用。只要幾個bits傳錯了,穩定性就會打折扣,尤其在超頻等吃重工作當中問題更大。
延遲(Latency)
上面是根據Micron的多重預取輸出資料路徑(multiple prefetch output data path)技術專利說明,所繪製的5種不同延遲下記憶體的運作時程圖。
一個DRAM記憶體陣列,可以看作是由「電池」構成的陣列。這些「電池」由電容組成,並且內含一個Bit或以上的資料(視晶片架構而定)。欄列解碼器會輪流接收時脈產生器傳來的RAS(列位址訊號,Row Address Strobe)和CAS(欄位址訊號,Column Address Strobe),對這個陣列加以定址。為了降低封裝體積,欄列位址會以多路傳輸方式傳到欄列位址緩衝區。比方說要是有11條位址線(address line),那列位址緩衝區和欄位址緩衝區就分別有11個。稱為「感應放大器」(sense amps)的存取電晶體連到各欄上,並提供晶片讀寫功能。由於這些「電池」實際上是在每次讀取後會放電的電容,因此感應放大器必須在存取動作結束前回存資料。
由於用來存放資料的電容會自行放電,因此如果沒有對它作週期性的充電,那資料就會流失。充電控制器(refresh controller)會計算兩次充電間的時間,充電計數器(refresh counter)則會確保整個陣列都有充到電。當然,這代表著部份週期必需用來作充電動作,因此對效能有所影響。
通常記憶體存取的步驟如下:首先列位址位元會傳到位址線(address pin)上。在RAS訊號衰減時,會啟動感應放大器,並把列位址位元擷取到列位址緩衝區中。當RAS訊號穩定時,指定的列資料會傳到感應放大器上。接下來,欄位址位元會在CAS訊號衰減時被擷取到欄位址緩衝區,同時輸出緩衝區會啟動。當CAS訊號穩定時,指定的感應放大器會將資料傳送到輸出緩衝區中。
邁向GDDR2 SDRAM
為什麼顯示晶片大廠ATI和Nvidia都搶先在其他人(包括JEDEC)之前,先採用專屬版本的DDRII呢?因為顯示卡對電腦效能的影響越來越明顯,因此SGRAM等影像記憶體的需求也相對加重。
在這幾年來,顯示晶片技術的確有許多驚人的進展,而ATI與Nvidia之間的龍頭之爭與滿足新遊戲需求的進步,是讓進展如此迅速的主要原因(說到這一點,半夜還跟其他玩家連線對戰,玩到隔天蹺班蹺課的玩家應該最清楚)。從許多方面來看,當時脈達到一個門檻時,產品間的區隔對GPU效能來說變得更重要。而且為了與GPU本身的功能相匹配,超高檔的效能自然也不可少。
Micron也很了解這點,另外像是三星和Hynix等廠商,也都在今年夏天JEDEC發表DDRII顯示記憶體的規格前,就開始研發顯示卡用的DDRII記憶體。這一款稱作GDDR2的記憶體,將提供1 GHz的頻寬,讓ATI最新的Radeon、Nvidia GeForceFX以及其他廠商(像是Trident或S3)的產品發揮更高檔的效能。
DDR的單時脈雙預取(double-fetch-per-cycle)能力對顯示晶片很有幫助,但是在Micron(美光)在最近的專利文件中指出爆衝模式(Micron定義為從記憶體中連續的位址讀取指定數量的資料)是必要的。
而且GDDR2也將包含能以奇數或偶數詞元做定址的記憶體陣列。在爆衝遞增(burst increment)模式下,邏輯電路會從偶數詞元位址開始存取陣列,而在爆衝遞減(burst decrement)模式下則從奇數詞元位址開始。
在Micron提到的爆衝模式中,記憶體從偶數詞元位址開始存取時為爆衝遞增模式,從奇數詞元位址開始時為爆衝遞減模式。位址資料會做計數動作,所以傳遞的第二組資料也會和第一組同位置(經邏輯電路定址後)。當由奇數詞元位址開始存取時,會開始反向計數(遞減),所以傳遞的第二組資料,仍舊跟第一組同位置。
不過就和GDDR2仍舊不足以應付現今GPU能力的現況相同,在2005年以前,DDRII在CPU晶片組上的應用可能有限,因此Micron、英飛凌、Elpida和Hynix也提到今年他們將會有GDDR3的樣本。
如果您還沒注意到的話,Micron倒是已經有不少未來產品的技術細節,包括他們的GDDR3,而且提到在今年上半年之前會有研發樣本。根據Micron表示,和DDR的2n預取功能相比,GDDR3將提供4n預取速率,讓I/O接腳在每兩個時脈單位中能傳輸4個資料位元。GDDR3的單次讀取寫入存取,則包含在內部DRAM核心做單次4n位元寬的資料傳輸。4n預取功能將讓內部資料匯流排比外部寬4倍,外部資料傳輸速率也將會是內部欄循環時間的4倍。
Micron表示GDDR3將會採用「虛擬開汲極邏輯(pseudo open drain logic)」設計的I/O界面,並且透過將所有三相資料訊號(tri-stated data strobes)轉移到本位電路(natural Logic)上,來簡化資料時脈處理。匯流排使用40歐姆阻抗驅動體做雙邊終端,以及60歐姆的晶片目標VDD終端。
和純粹的開汲極方式不同的地方,在於以push driver的PMOS設備低高電壓轉移(LOW-to-HIGH transitions),來實作來源終端(source termination)。另外DC電流也壓到最小,因為只有當邏輯LOW移至匯流排上時才會消費電力。
GDDR3也使用與VSS結合的外部精確電阻(RQ),將驅動體調整至已知值。Micron表示這可以消除在生產時大多數的製程變異。一開始,驅動體的功能相當於具備多接腳的標準push-pull驅動體,用來調整阻抗,並把晶片上終端電阻(RQ)調到所需阻抗的六倍。PMOS設備會先針對接地電阻校準,將其中一隻PMOS接腳調整為240歐姆。在上拉(pull-up)階段,輸出緩衝區包含相當於40歐姆提升驅動體的6隻接腳。在PMOS接腳對外部電阻校準後,NMOS接腳會以相同方式對PMOS校準。
在消除製程變異後,唯一還要考慮的因素,就是隨時間發生的電壓和溫度變異。為了解決這兩個問題,GDDR3驅動體提供了週期更新校準功能,以將因電壓和溫度因素,在上拉或下拉階段產生的變異降到最低。一般更新動作每70ms會藉由AUTO REFRESH指令進行,不過可以根據需求縮短間隔。初期校準需要約350時脈單位,不過重新校準和更新只需1時脈單位。唯一輸出驅動體不能夠重新校準的情況,就是匯流排中有讀取資料。
文章评论(0条评论)
登录后参与讨论