A következő generációs IBM Power8 processzor első részletei

Széll Zoltán, 2013. augusztus 30. 13:01

Az IBM a héten zajló Hot Chips konferencián (08. 25. – 08. 28, Stanford University USA) mutatta be a következő generációs Power8 mikroprocesszor első publikus részleteit, amely a jövő évtől a Power Systems szerverek motorja lesz.

 

Jeff Stuecheli a Power8 vezető architektúra tervezője mutatta be az új processzor prezentációját. A lapka középpontjában helyezkedik el az L3 gyorsítótár, és itt található a belső összeköttetés is. Ezeket veszik körül a CPU magok, míg a lapka szélén találhatók a határfelület vezérlők (pl.: memória- és egyéb vezérlők).

 

 

A Power8 az L3 gyorsítótárral, PCI-Express és DDR memóriavezérlőkkel, valamint a változatos gyorsítókkal és NUMA összeköttetésekkel sokkal nagyobb teljesítményre képes, mint elődje a Power7+ processzor. A NUMA kapcsolat lehetővé teszi az osztott memória hozzáférést több csatlakozóaljzaton keresztül.

 

A Power8 lapkával az IBM két célt szeretett volna elérni. Az első, hogy a vállalat a 32 nm-es technológia helyett (Power7+ lapka) az új lapkát 22 nm-es technológiával készíti. A tranzisztor kapuk méretének csökkentésével lehetővé válik több jellemző elhelyezése a lapkán és a magas órajel használata.

 

A Power8 hasonló órajel sebességgel – 4GHz körül  dolgozik, mint a Power7+ lapkák. Az új processzor PCI-Express 3 vezérlőket tartalmaz. Ezek koherens memória protokollokat biztosítanak a külső gyorsítókhoz, továbbá egy új gyorsítótár hierarchiát, amely utat kínál a külső L4 gyorsító-tárhoz.

 

A Power8 lapkákat az IBM magas-k fémkapus megoldással készíti, amely tartalmaz réz vezetőket és SOI (silicon-on-insulator = szilíciumon szigetelő) technológiákat a 22 nm-es eljárásban. A tranzisztorok pontos száma nincs megadva a prezentációban, de mivel a Power8 lapka területe 650 mm2, egy kicsit nagyobb (567mm2), mint a Power7+, amely 32 nm-es eljárással készül a becslések szerint közel kétszer több tranzisztort tartalmaz. Az 567 mm2-es Power7 lapkára 2,1 milliárd tranzisztort integráltak, a Power8 lapkára közel 4 milliárdot.

 

 

A Power8 mag összesen 16 végrehajtó szállítószalagot foglal magába. Ezek LSU (betöltő tároló egység) egységet, egy CRU (állapot regiszter egység) egységet, egy BRU (elágazás regiszter egység) egységet és két IFU (utasítás hívó egység) egységet, valamint két FXU (fixpontos egység) egységet, két VMX (vektor-matematika egység) egységet, egy DFU (decimális lebegőpontos egység) egységet és egy titkosító egységet tartalmaznak.

 

Valamennyi mag 8 szálat kezel egyidejűleg (az IBM SMT8-nak hívja). A Power7 és Power7+ lapkák csak négy szálat képesek futtatni. A korábbi Power lapkákhoz hasonlóan ez az SMT is dinamikusan hangolható és ezért a mag 1-, 2-, 4- vagy 8 szálat futtat.

 

A Power8 mag – mondta Stuecheli – 64 KB méretével kétszer nagyobb  L1 adat gyorsítótárat tartalmaz, mint elődje, azonban az L1 utasítás gyorsítótár mérete – 32KB – változatlan. Az L1 és L2 gyorsítótár közötti adatút a lapkán most kétszer szélesebb (64 bájt). A mag nagyobb utasítás sorba-állítót és növelt képességű elágazás előrejelzőt tartalmaz, továbbá kétszer több adat gyorsítótár hiányt képes kezelni, és jelentősen kibővített utasítás- és adat elő-behívót tartalmaz. Mindezek és a 4GHz-es órajel sebesség eredménye, hogy a Power8 lapka egyszálú teljesítménye a 2010-es Power7 lapka 1,6-szerese.

 

Valamennyi mag 512 KB SRAM memóriát foglal magába. A Power8 egy szegmentált NUMA szerű L3 gyorsítótárat használ, amelyet az IBM „nem egységes gyorsítótár architektúrának”, (röviden NUCA = non-uniform cache architecture) hív. Az L3 gyorsítótár teljes mennyisége a lapkán 96MB, amely csak 8MB/mag értéknek felel meg. A Power7+ lapka 10MB L3 gyorsít-tárat tartalmaz magonként, de a Power8 sokkal bonyolultabb főmemória alrendszert és L4 gyorsítótárat tartalmaz, amelyre a kisebb L3 gyorsító-tár miatt van szükség. Az IBM az L3 gyorsítótár megvalósításához a Power7 és Power7+ processzorokhoz hasonlóan beágyazott DRAM memóriát használ.

 

A 4GHz-es órajel sebesség az adatokat a külső L4 gyorsítótárból az integrált L3 gyorsítótárba 128MB/sec sebességgel képes mozgatni, míg ellenkező irányba – az L4-ből az L3-ba – „csak” 64GB/sec sebességgel. A L3 gyorsítótárból az L2 gyorsítótárba szintén 128GB/s sebességgel áramlanak az adatok, visszafelé szintén ezzel a sebességgel. A szállítószalagon az L2 gyorsítótárból a magba (L1 gyorsító-tár) 256GB/sec sebességgel, míg a másik irányba csak 64GB/sec sebességgel mozognak az adatok. A 12 magos Power8 lapka teljes L2 gyorsítótár sávszélessége 4TB/s, L3 gyorsító-tár sávszélessége 3TB/s.

 

A Power8 lapkára integrált memóriavezérlők nincsenek sem a jelenleg használt DDR3, sem a következő generációs DDR4 memóriához hangolva. E helyett egy általános célú támogatást kínálnak, amely egy külső, közbenső lapka segítségével illeszthető a memória modulok több generációjához. A nagy sebességű busz egy memória pufferhez csatlakozik (kvázi vezérlő). A lapka neve Centaur. Stuacheli elmondta, hogy ezt a lapkát azért nevezték el így, mert az egyik felét az L4 gyorsítótár, másik felét a memóriavezérlő foglalja el.

 

A Centaur lapka jelenleg a DDR3 memóriát képes kezelni, de lehetőség van a közel jövőben a DDR4 memória támogatására is. Ezért lehetőség lesz a memóriakártyák és a DDR3 memóriához tervezett Centaur lapka – L4 gyorsító-tár és puffer – cseréjével, a processzor cseréje nélkül, a DDR4 lapkák illesztésére is a rendszerhez.

 

A memóriacsatorna a Power8 tok és Centaur memória puffer lapka között a késleltetés 40 ns, a sebesség 9,6 GB/sec. AZ IBM a Centaur lapkát Power8 processzorhoz hasonlóan 22 nm technológiával gyártja, és 16 MB gyorsítótár memóriát tartalmaz, amelyet a processzor L4 gyorsítótárként használ.

 

Minden Power8 lapkához 8 Centaur lapka csatlakoztatható, melyek együtt a 128 MB L4 gyorsító-tárat képezik. Egy processzor 8 memóriacsatornát (230 GB/sec együttes sávszélesség) és 32 memória kaput támogat. Egy 12 magos lapka csúcs-sávszélessége 410 GB/sec DRAM szinten 32GB-os DDR3 memóriamodulokkal minden Power8 csatlakozóaljzat 1TB főmemóriát támogat. Egy 32 csatlakozóaljzatos (32 processzoros) rendszer, hasonlóan Power7 alapú Power 795 szerverhez, 32 TB memóriát, 384 magot és 3072 processzorszálat tartalmaz egyetlen „dobozban”.

 

A Power8 lapkák tartalmaznak integrált PCI-Express 3.0 vezérlőket is, melyek összesen 48 GB/sec I/O sávszélességet biztosítanak. A Power7 és Power7+ processzorok csak 20GB/sec sávszélességet kínálnak, mivel ezek PCI-Express 2.0 határfelületet támogatnak.

 

Az IBM már megkezdte Power9 processzor tervezését.

 

Forrás: theregister.co.uk