PCTuning fórum

to nechápu, vždyt ta základní jendotka CCX má 8MB L3 cache, kterou sdílí mezi 4 jádra...
Obrázek

Logicky asi pod sebou bude druhá CCX identická...Nebo že by ne?

Urcite obe casti jsou identicke. Treba je cast L3 pouzita pro komunikaci (nevim jak to lepsi nazvat) mezi CCX. Podobne to je u G34 Opteronu - 16 MB fyzicky, 12 MB podle cpu-z.

nějak se musí "domluvit" - proto ta cestička.

flanker píše:to nechápu, vždyt ta základní jendotka CCX má 8MB L3 cache, kterou sdílí mezi 4 jádra...

Google: "snoop filter"

btw webinar o Zenu je online

// zabavna otazka v QA na puvod BD L1 WT

havli píše:Urcite obe casti jsou identicke. Treba je cast L3 pouzita pro komunikaci (nevim jak to lepsi nazvat) mezi CCX. Podobne to je u G34 Opteronu - 16 MB fyzicky, 12 MB podle cpu-z.

U G34 jsou cache separované. Jeden G34 jsou jen 2 AM3+ CPU u sebe, cache jsou rozdělené na 2x8MB a komunikujou mezi sebou přes HT, je to klasická numa, defakto jako kdyby v systému byly 2 CPU. Numa = tfuj, tzn AMD to tentokrát musí vymyslet jinak, protože Intel dělá monolytická CPU co těmito problémy netrpí a slepencema jim konkurovat nemůže.

yuri: a jaká byla odpověď na tu WT cache?

http://diit.cz/clanek/zen-architektura- ... prezentace

Jeden se nezbavi ponekud kacirske myslenky, jak mohl treba dopadnout Bulldozer s cache jakou ma ted ZEN....

Architektura jádra Zen podrobně: hledání rovnováhy a přiblížení Intelu
http://www.cnews.cz/clanky/architektura ... eni-intelu

AMD marketing mě pobavil srovnáním s Broadwellem-E... V Blendru nevypadal špatně ani BD

Až takové terno Vishera v Blenderu nebyl. Lépe jí šel jak Cinebench, tak hlavně POV-Ray
http://imgur.com/a/R6AEt

Problém je, že Cinebench je ucelený benchmark, ktorý vždy beží rovnako. Keď sa povie, že sa testuje v Blendery tak to znamená čo? Nevieme aká scéna, s akým nastavením, nič. Dokonca ešte aj render môže byť iný, napr. čo si poslal ty, je renderované s Cycles, nie štandardným renderom v Blendery (teda oni sú tam oba štandardne, ale môžeš si vybrať ktorý použiješ), kde budú tie výsledky pochopitelne trošku iné asi.
A keď si spomeniem na tú prezentačku efektivity Polarisu, tak by ma naozaj neprekvapilo, keby sa AMD s tou scénou, nastavením, výberom renderu atď dosť vyhralo, aby to vyšlo čo najlepšie.

scéna asi nebyla příliš náročná na rozlišení, už díky času, za jak dlouho to oba procesory daly...Takže hrubě bych odhadl rolzišení cca obdobné či jen lehce vyšší než na testu Extrahardware.
Nicméně je jasné, že určitě nevybrali test, který by Zenu nesedl

Minmálně to byl test z lepšího průměru.

rád bych viděl singlethread s a bez "HT"

Nebude prekažkou to prepojenie dvoch Core Complex blokov v 8 jadrovych Zen procesoroch? Predsa len to bude tahať data cez koherentne prepojenie,... mam pocit že by to mohlo byť limitujuce. Vsetkych 8 jadier nebude mat ani pristup do jednej L3 cache.

To zalezi na tom jak to bude propojene a jak rychla bude ta sbernice. Intel taky pouziva QPI sbernici, takze bych zatim zadne zavery nevyvozoval....

Myslim si, ze uvidime HyperTransport 4, lebo su rumours, ze juzny aj severny mostik je integrovany a trojka by to uz nemusela stihat...

del42sa píše:To zalezi na tom jak to bude propojene a jak rychla bude ta sbernice. Intel taky pouziva QPI sbernici, takze bych zatim zadne zavery nevyvozoval....

Ale používá jí jen mezi vícero CPU, a i tak je penalizace výkonu při nutnosti šahání do cache druhého CPU cca 1/4. Numa u SW co s ní nepočítá je prostě problém.

Intel od Haswellu dále vyrábí monolytická velká CPU s nemonolytickou cache, u EP modelů je rozdělená na 2 bloky propojené internim ringbusem aby se chovala jak 1 cache. Trochu to zvedá latenci (některé WS a server desky to dovedou přerušit a ten CPU se pak chová místo jednoho 12 jádra jako dvě 6 jádra třeba), ale kapacita to bohatě vyrovná. Uvidíme jak se s tim AMD popere, ale logika věci je taková že do desktopu se toto řešení nehodí, tam bude max ten 4C 8T model bez jakejchkoliv interconnectů.

mr.qeg píše:yuri: a jaká byla odpověď na tu WT cache?

Asi takhle:

Q: So L1 cache. Why was it WT? The perception is, that the WB is so much better. Is there a trade off between WB and WT?

A: So... ehm... a WT as far as.. ehm... there is definitely a trade of there... I mean, we are supporting ECC or ...ehm.. some sort of means of dealing with errors and the $L1 as WT... has some advantages there (viz RWT clanek o BD march)... But it also has disadvantages of sending that data both to L1 and then sending it again to the L2.

And then our previous generation... ehm... the L2 itself... was not, u know, bi-writable. And so, to merge that data in required a merging function. Which then required also power of having to read another structure to merge in that WT data.

So... ehm... well...ehm...You know, we were... The caching mechanism(?) enabled the previous generation to maintain good performance. It did take a lot of transistors and more power than the WB version of the implementation we have today.

zumpar1234 píše:Nebude prekažkou to prepojenie dvoch Core Complex blokov v 8 jadrovych Zen procesoroch? Predsa len to bude tahať data cez koherentne prepojenie,... mam pocit že by to mohlo byť limitujuce. Vsetkych 8 jadier nebude mat ani pristup do jednej L3 cache.

Intel spojuje sve CCX ringbusem.

CCX u desktop Haswellu ma (jako Zenu...): 4c + L3.
Proto se Haswell-Ex sklada ze 2-4.5 CCXs. Jenom ty sousedici spolu pres L3 jsou naprimo spojene pres ringbus. Zbyle spolu musi komunikovat jeste pres bridge a pak ringbus... Navic nektere konfigurace jsou znacne nesymetricke - 12c nebo 18c.

Obrazek vic nez tisic slov: HSW-EP

=====

CCX Zenu jsou spolu spojene pres jejich zbrusu novy "data fabric" - o nem se mnoho nevi. Typicky by ale mohl parametry odpovidat ringbusu Intelu. Rozhodne nejde o HT - to prijde az pro MCM Zeny.

CageJ píše:
flanker píše:15? Ne spíše 16MB?

JInak tady to je asi v záznamu či jede hotchips (po registraci)
https://pgi.webcasts.com/viewer/event.jsp?ei=1114755
praveze som sa cudoval.. ale vravel 15MB..

Kto tu ma pristup, tak 36:50...

15MB L3 pre 8 jadro..

CageJ píše:15MB L3 pre 8 jadro..

Ne.

sixteen Meg L three in that... in Summit Ridge

Z webcastu:
* AVX2 je opravdu provadeno fast-path double - je mozne FMA provadet jen na FMUL0/1, pokud neni ADD operand cten z PRF
* L3 banks blize k jadru opravdu nedelaji cely trip - maji nizsi latency
* oddelene clock regions/domains pro L3 a jadra; clock-gated jsou nejruznejsi casti
* 1 CCX = 4c + 8MB L3
* cache b/w udaje jsou teoreticka maxima proti XV
* SMT zvoleno z ruznych implementaci MT jako nejlepsi vykonnostni volba
* CCXs jsou spojeny pres "coherent data fabric" (GMI?) - stejne tak je napojen MemCTL a zbytek I/O
* MOESI cohorency model
* skutecne je pro INT cast 6 nezavislych scheduleru
* je mozne clock gatovat schedulery
* 2 branch instrukce/takt je mozne vykonat je teoreticke maximum - vlastni branch jednotky jsou jen na 2 ze 4 IEU
* 1 IEU ma nasobicku, 1 IEU ma delicku... jinak jsou symetricke

PCTuning fórum

AMD K12 AMD ZEN 17h - spekulace a info

Re: AMD K12 AMD ZEN 17h - spekulace a info

Re: AMD K12 AMD ZEN 17h - spekulace a info

Re: AMD K12 AMD ZEN 17h - spekulace a info

Re: AMD K12 AMD ZEN 17h - spekulace a info

Re: AMD K12 AMD ZEN 17h - spekulace a info

Re: AMD K12 AMD ZEN 17h - spekulace a info

Re: AMD K12 AMD ZEN 17h - spekulace a info

Re: AMD K12 AMD ZEN 17h - spekulace a info

Re: AMD K12 AMD ZEN 17h - spekulace a info

Re: AMD K12 AMD ZEN 17h - spekulace a info

Re: AMD K12 AMD ZEN 17h - spekulace a info

Re: AMD K12 AMD ZEN 17h - spekulace a info

Re: AMD K12 AMD ZEN 17h - spekulace a info

Re: AMD K12 AMD ZEN 17h - spekulace a info

Re: AMD K12 AMD ZEN 17h - spekulace a info

Re: AMD K12 AMD ZEN 17h - spekulace a info

Re: AMD K12 AMD ZEN 17h - spekulace a info

Re: AMD K12 AMD ZEN 17h - spekulace a info

Re: AMD K12 AMD ZEN 17h - spekulace a info

Re: AMD K12 AMD ZEN 17h - spekulace a info