Stránka 6 z 28
Re: AMD Steamroller/Excavator (28nm)-informace, spekulace
Napsal: stř 29. srp 2012, 14:00
od del42sa
Mark Papermaster´s PDF :
http://www.hotchips.org/wp-content/uplo ... er-AMD.pdf
\\ bude potřeba počkat na detailnější popis Steamroller jádra. Zatím se jedná o hrubý popis. Podle Ananda by druhá MMX pipene měla být sdílená s 2x 128 bit FMAC. FPU by mělo mít stejný výkon jako u Bulldozeru ale při menší velikosti a menších energetických nárocích .
\\\zajímavé vysvětlení ke dvěma MMX pipelines v BD, MMX pipelines (IMAC) = XOP pipelines :
http://www.amdzone.com/phpbb3/viewtopic ... 52#p187752
XOP se asi stejně většího rozšíření nikdy nedočká, takže menší počet MMX asi ničemu neuškodí

Spíše je škoda , že tam místo toho nejsou 4 x + 128 bit FMAC.
\\\\
The FPU in BD has four execution pipes. Two of them could do SIMD FMAs, the other two could do integer SIMD operations (which for some reason AMD has sometimes labelled "MMX", which is highly misleading, even JF said so) - of course that doesn't cover everything they could do. While JF bragged about this execution width in practice it's pretty useless because little code mixes integer and floating point SIMD. Even when executing from two separate threads, you're not usually going to find a heavy integer SIMD thread running along a heavy floating point thread. So AMD wisely rebalanced it to three execution ports,. That doesn't mean it can't still do two integer SIMD operations per cycle - we don't know what the new execution capabilities are. Just that it can't do two FMA + two integer.
Re: AMD Steamroller/Excavator (28nm)-informace, spekulace
Napsal: stř 29. srp 2012, 15:42
od THANATOS
del42sa 1MMX a 4* 128 bit FMAC by boli urcite lepsie ako toto aj ked neviem ci namiesto FMAC by oddelene ADD a MUL neboli lepsim riesenim, lebo bez podpory FMA4 v programe FPU straca kus vykonu ako sme to videli pri vypnutom a zapnutom FMA4.
Nechapem preco Jaguar bude mat lepsie FPU ale FPU v SR bude v najlepsom pripade rovnako vykonne ako predchadzajuca generacia.
Re: AMD Steamroller/Excavator (28nm)-informace, spekulace
Napsal: stř 29. srp 2012, 17:12
od flanker
možná ten důvod je, že pro servery není FPU majoritní a je důležítý integer. Většina zákazníků/odběratelů v desktopu kupuje nižší segment jako jsou APU (dvou až čtyřjádra bez L3). Výkonný CPU s L3 je serverový derivát a pokud tedy bude i Steamroller pro desktop s L3, bude to znovu jen derivát toho serverového.
Re: AMD Steamroller/Excavator (28nm)-informace, spekulace
Napsal: stř 29. srp 2012, 18:03
od THANATOS
flanker Preto by sa mali v AMD prebrat, ked videli, ze tie predaje BD v serveroch boli slabe a zamerat sa aj na ostatne segmenty trhu kde silna FPU je potrebna. Pri tych zmenach v SR som si isty, ze tie 2 Fmac by v pohode stihli pridat, keby chceli, ale asi sa im nechcelo.
Takto AMD straca % vykonu a musi to riesit nizsou cenou, aby mali dobry pomer cena/vykon. Ak budeme mat stastie, tak to pochopia pri Excavatore, ale mozno chcem od nich vela.
Re: AMD Steamroller/Excavator (28nm)-informace, spekulace
Napsal: stř 29. srp 2012, 20:29
od THANATOS
Zaujimala by ma jedna vec. SR ma 2 dekodery a ak su rovnake s BD, tak SR obsahuje 2*4-way dekodery co je podla mna overkill.
Preco ich potom ma tolko?
Mozno SR nebude mat len 2ALU+2AGLU ale kombinovane a potom mozno uvidime aj implementovane HT.
Toto je len cista spekulacia

Re: AMD Steamroller/Excavator (28nm)-informace, spekulace
Napsal: stř 29. srp 2012, 20:31
od yuri.cs
Problem je, ze BD byl smerovan do HPC. Proc teda ubirat zdroje... sranda. AVX2 (ktere ale u SR chybi...) nejsou potvrzeny, to je spatne. Excavator je zrejme jen BD->PD, takze asi nebude mozne tohle ocekavat.
C't mag mel tedy pravdu s 2*4-way dekodery. 'No compromises two thread perf.' je doceka smesna hlaska, po tom, jak byl prezentovan BD (puste si treba i HotChips 22 s BD). Patenty o Loop detectorech se tedy tez potvrdi.
Dynamicke gatovani cache bude zajimave, hlavne v lowpower. Ne kazda aplikace vyuziva footprint 1MB. Zvetsit cache - proc ne.
Nadavani a brekot nad syntetickym navrhem casti BD se snad nebude uz opakovat.
Vsechny tyhle zmeny maji velky potencial v porovnani s PD. Kazdopadne tohle by mohlo dohnat Nehalem.
//'Greater parallelism' = do domeny dedikovanych prostredku pridan dekoder => zvysen paralelismus
//Pridavanim instrukci pro AGLU se bude jen a jen zvysovat zatez na frontend. Tyhle infa, ktere nejsou na slidech se potvrdi/vyvrati az v dobe, kdy budou zazanamy uploadnuty....
Re: AMD Steamroller/Excavator (28nm)-informace, spekulace
Napsal: stř 29. srp 2012, 20:53
od yuri.cs
Zajimavy je pocet zdroju uvnitr FPU jednotek ve svetle toho, jak AMD proklamovalo, ze cela 256b FMAC je prilis velka.
arch : rozlozeni jednotek : inst na jadro/cyklus pri plnem zatizeni
K10 : FMUL & FADD : 1x 128b FADD a 1x 128b FMUL
BD/SR : FMAC = FMUL i FADD ale FMUL | FADD : 1x 128b FADD nebo 1x 128b FMUL
SB : FMUL & FADD : 1x 256b FADD a 1x 256b FMUL
HW (pri zachovani portu, atd.) : 2x FMAC = FMUL i FADD ale FMUL | FADD : 2x 256b FADD nebo 2x 256b FMUL nebo (1x 256b FADD a 1x 256 FMUL)
HW tedy dle vseho prinese skutecne masivni FPU, ktera dokaze napr. 2x FADD/cyklus/jadro. Bude jadro obrovske? Urcite nebude. AMD v tomhle ohledu se SR hodne preslapuje na miste.
Re: AMD Steamroller/Excavator (28nm)-informace, spekulace
Napsal: stř 29. srp 2012, 21:26
od THANATOS
yuri.cs
Vie 1 FMAC naraz vykonat ADD aj MUL alebo len jednu z nich? Ak sa dobre pamatam tak vie, cize 2 FMAC sa moze rovnat 2 FADD a 2 FMUL ak je tak napisana aplikacia.
P.S. mam chut znova riesit nejake uber jadro

Myslim, ze sa zmestim do 30mm^2 na 32nm procese
edit: ak sa dobre pamatam, zapnute FMA pridalo ~30-40% vykonu co tiez nie je malo, ale ako vravis, ked nie je podpora v aplikaciach, tak je to zbytocne.
Re: AMD Steamroller/Excavator (28nm)-informace, spekulace
Napsal: stř 29. srp 2012, 21:32
od yuri.cs
V FMA4 instrukcich prirozene vykona MUL a zaroven ADD a to jeste s 1 (konecnym) zaokrouhlenim vysledku. Jak tusime, tak drtiva vetsina aplikaci nevyuziva FMA rozsireni a prinos rozhodne neni dvojnasobny. Cili pouziti FADD/FMUL je to, co je kazdodenni realita.
Re: AMD Steamroller/Excavator (28nm)-informace, spekulace
Napsal: čtv 30. srp 2012, 11:29
od THANATOS
Zhrnutie Hot Chips prezentacie od AMD. Ziadne HT pre integer.
http://www.theregister.co.uk/2012/08/29 ... o_opteron/
Re: AMD Steamroller/Excavator (28nm)-informace, spekulace
Napsal: čtv 30. srp 2012, 13:09
od del42sa
proc tam pisou ze Bulldozer nema dve MMX pipeline ale jen Piledriver ?To je prece pekny nesmysl. Skoda ze si AMD mysli,ze FP vykon neni potreba posilovat.....
Re: AMD Steamroller/Excavator (28nm)-informace, spekulace
Napsal: čtv 30. srp 2012, 13:14
od THANATOS
del42sa Tiez nechapem. Mozno preklep, alebo sa nepochopili.
Re: AMD Steamroller/Excavator (28nm)-informace, spekulace
Napsal: pát 31. srp 2012, 12:50
od ttxman
Hmm takze propracovanejsi sdileni FPU zase nic.
Nezaslech nekdo, ze by AMD zkouselo aspon pro int kod "eager execution"? Int jednotek je v modulu vic nez dost a nahradit branch prediction paralelnim vykonanim obou vetvi. Mozna by tak 4 modul sel prepnout na 4 jadro s dokonalym branch prediction

a single thread vykonem, kterej stoji za to.
Re: AMD Steamroller/Excavator (28nm)-informace, spekulace
Napsal: pát 31. srp 2012, 15:52
od yuri.cs
Dalsi porce slidu z HC:
http://pc.watch.impress.co.jp/docs/colu ... 56374.html
Uz Piledriver ma loop detector; plus AMD az ted priznava nefungujici HW int DIV jednotku v BD; usmevne pusobi marketingove upozorneni na frekvenci 30% nad Llanem; 4 jadra + L2 Jaguaru = Compute Unit - stejne oznaceni jako u modulu BD
//meh, asi jsem trefil spatnej thread
Re: AMD Steamroller/Excavator (28nm)-informace, spekulace
Napsal: sob 1. zář 2012, 13:23
od froxic
Re: AMD Steamroller/Excavator (28nm)-informace, spekulace
Napsal: sob 1. zář 2012, 17:40
od yuri.cs
Theo V píše:Excavator, 4th generation design which should increase performance and fight off Haswell-EP/EX in 2014.
SR 45% nad BD... SR nema mit novou platformu, ta ma byt ale az s prichodem XV!? Proc tedy neni SR chip pro AM3+? Znacne podezrely clanek.
Re: AMD Steamroller/Excavator (28nm)-informace, spekulace
Napsal: sob 1. zář 2012, 22:46
od flanker
to je klasické vr-zone

. Pár slidů a pár spekulací. SR je primárně APU a servery, pokud bude odnož do desktopu, pak ale myslím je na čase zabalit AM3+ a přijít s něčím novějším. Nevím, zda už SR a nebo až EXC bude umět DDR3, tak DDR4.
Re: AMD Steamroller/Excavator (28nm)-informace, spekulace
Napsal: ned 2. zář 2012, 21:55
od del42sa
stačí kouknout na autora a hned máš jasno

Typický Theo Valich
Re: AMD Steamroller/Excavator (28nm)-informace, spekulace
Napsal: pát 7. zář 2012, 11:23
od Baneshee
Uz to mame i na diit:
http://diit.cz/clanek/steamroller-neni- ... -bulldozer
Co dodat, 45% ? Kez by. Mysim ze budou radi za 25% v prumeru proti BD a to z casti diky vyssim taktum.
Re: AMD Steamroller/Excavator (28nm)-informace, spekulace
Napsal: ned 9. zář 2012, 21:30
od flanker
ono možná těch 45% může nastat v některých specifických situacích (a multivláknu). Defakto i Vishera bdue občas výkonnější o 25% než Zambezi, protože +400MHz takt, multithread a dobře optimalizovaná aplikace, to pak je celkem znát. Čili 45% vůči Zambezi by byol možný (dejme tomu, že Steamroller může mít +200 MHz navíc takty, mírně zas vyšší IPC a efektivnější multithread. Pak již stačí instrukce a s ním spojený software

. A máme tu možnost
až 45%). Klasika marketing.