Stránka 8 z 31

Re: AMD "Piledriver" refresh Zambezi - info,spekulace atd

Napsal: pát 2. bře 2012, 17:51
od DOC_ZENITH
"padá díky zápisu do L1" je řečeno nepřesně, protože BD je první CPU od dob 486DX2 (DX4 už uměla write-back) co nepodporuje write-back L1, takže on ani nemůže zapsat do L1, vše co se zapisuje do L1 se kvůli write trough zapisuje i do L2, takže rychlost zápisu do L1 = rychlosti zápisu do L2, která je dle testů bohužel také velice latentní....

Re: AMD "Piledriver" refresh Zambezi - info,spekulace atd

Napsal: pát 2. bře 2012, 22:00
od webwalker
richie08 : Sorry chlape, ale takhle obludně interpretovat článek o int výkonu BD, který jsi sám postnul, jsem opravdu ještě neviděl :o
Opravdu jsi ho sám četl?

Re: AMD "Piledriver" refresh Zambezi - info,spekulace atd

Napsal: pon 5. bře 2012, 18:20
od richie08
webwalker píše:richie08 : Sorry chlape, ale takhle obludně interpretovat článek o int výkonu BD, který jsi sám postnul, jsem opravdu ještě neviděl :o
Opravdu jsi ho sám četl?
Dobře, tedy ukaž mi v těch grafech jediný sloupec kde v singlu BD poráží Phenom, protože jinak nejde objektivně srovnávat výkon Bulldozeří 2ALU+2AGU vs. Phenomí 3ALU/LSU (a to ještě má BD výhodu většího front endu).

Re: AMD "Piledriver" refresh Zambezi - info,spekulace atd

Napsal: úte 6. bře 2012, 09:47
od webwalker
richie08: Jak tě mám přesvědčit o něčem, když tě nepřesvědčil ani autor článku.
První graf ukazuje teoretické hodnoty výkonu ALU, Samozřejmě, že kdyby měl BD 3ALU tak v těchto syntetických testech by to byla výhoda, nicméně projeví se snížení počtu ALU také v reálném světě? No asi ne, viz následující graf drystone (drystone sice není reálná aplikace, ale oni ji použili, protože je čistě int).
No a kam se najednou poděl výkon těch třetích ALU pipe v Ph? Připomínám, že je poměřováno Ph6 (18ALU) vs BD (16ALU) na stejných taktech.
BD má "výhodu" většího frontendu, protože ten zásobuje dvě core!

PS: Imho problém výkonu BD je třeba hledat jinde než v nedostatečném počtu int ALU.

Re: AMD "Piledriver" refresh Zambezi - info,spekulace atd

Napsal: úte 6. bře 2012, 11:38
od richie08
webwalker: Autor článku mne sice přesvědčovat o kvalitách BD může jak chce, ale když evidentně dle grafů nedokáže porazit ani Phenoma, tak mám s jeho interpretací dost problém (neřku-li již vyloženě komické stavění na úroveň SB).
webwalker píše:BD má "výhodu" většího frontendu, protože ten zásobuje dvě core!
Ano, pokud testuji v Singlu, tedy jedno vlákno na celý modul, pak opravdu má BD výhodu celého plnotučného front endu, který je dimenzován pro vlákna dvě.
webwalker píše: První graf ukazuje teoretické hodnoty výkonu ALU, Samozřejmě, že kdyby měl BD 3ALU tak v těchto syntetických testech by to byla výhoda, nicméně projeví se snížení počtu ALU také v reálném světě? No asi ne, viz následující graf drystone (drystone sice není reálná aplikace, ale oni ji použili, protože je čistě int).
No a kam se najednou poděl výkon těch třetích ALU pipe v Ph? Připomínám, že je poměřováno Ph6 (18ALU) vs BD (16ALU) na stejných taktech.
Jenže ty nechápeš, že v Phenomu jsou 3ALUs svázány s 3LSU, tedy ve skutečnosti má phenom pouze 3 kombinované jednotky ALU/LSU. Je jasné, že to Phenomu přineslo nějakou výhodu, nejspíše úsporu tranzistorů, při stále slušném vykonu. Oproti tomu má BD 4 plnotučné jednotky 2ALU + 2AGU. Již dlouho před vydáním BD se odhadovalo, že reálný výkon 2ALU+2AGU by měl být i tak vyšší než u známé konfigurace z Phenomu. Jenže ouha - BD je i v tomto pomalejší. Tedy výkon té 3. jednotky se nikam neztratil!!! Naopak, pokud si vezmeme že Phenom většinu času běží v režimu 2ALU+1LSU, občas musí běžet v 1ALU+2LSU nebo se mu někdy podaří vložit cyklus 3ALU+0LSU, tak je jeho výkon kdy překonává papírově o něco silnější BD dost obdivuhodný. Vývojáři co přišli s touhle koncepcí, která započala v K7, si zaslouží hlubokou úctu.

V reálných aplikacích je to ještě mnohem horší. BD je dokonalý propadák mezi procesory a zaslouží si jít do křemíkového pekla za P4 a VIA Centaur (všechny s nízkým IPC).

Re: AMD "Piledriver" refresh Zambezi - info,spekulace atd

Napsal: úte 6. bře 2012, 12:40
od webwalker
richie08: Phenom má vlastně 3 kompletní ALU pipeline - ALU a AGU/LSU jsou svázány (přístupy LS do cache ale jen 2).
U BD jsou AGU/LSU odděleny od ALU ne kvůli nějaké výhodě, ale kvůli nutnosti - oni se totiž musejí také starat o L/S FPU! Výkon samotných int ALU u BD vyšší nebo stejný je (viz Drystone). Tam navíc není započítána vyšší frekvence BD!
Prostě bych problémy BD hledal jinde, nežli v počtu int ALU - stále platí, že další int výpočty můžeš provádět na int SIMD.

Re: AMD "Piledriver" refresh Zambezi - info,spekulace atd

Napsal: úte 6. bře 2012, 15:59
od richie08
webwalker: Výkon v Drystone je nižší o fous než u Phenomu, takže nevím kde vidíš opak. Fakt je, že není schopen takt na takt porazit ani Phenoma, natož SB (u něj je krásně vidět, že 3plnotučné ALU s HTT výborně škálují, dokonce i bez HTT podávají výborný výkon, takže tím bych ukončil polemiku na téma "nevyužitelné třetí ALU" - ta využitelná je a že ji BD nemá je chyba). Ale máš pravdu v tom, že BD má daleko slabší místa než je jeho slabá ALU část.

Re: AMD "Piledriver" refresh Zambezi - info,spekulace atd

Napsal: úte 6. bře 2012, 19:02
od THANATOS
richie08
Výkon v Drystone je nižší o fous než u Phenomu, takže nevím kde vidíš opak. Fakt je, že není schopen takt na takt porazit ani Phenoma,
on to vidi na tom istom obrazku :wink:
ty pozeras perf/thread a to je nepresne, lebo BD score je delene 8 ale Thuban score len 6, pricom Thuban ma 3ALU ale BD len 2 a my chceme vykon na 1 ALU.
Ak si to das dokopy tak
BD ~90 / 4 / 4 (4moduly a 4ALU na modul)=5.625
Thuban ~70 /6/3(6jadier a 3ALU na jadro)=3.9
5.625/3.9=+44%
SB:82/4/3=6.83
SB+HT: 112/4/3(4jadra a 3ALU na jadro)=9.33 Toto je vysledok pri max. vyuziti vsetkych ALU
natož SB (u něj je krásně vidět, že 3plnotučné ALU s HTT výborně škálují, dokonce i bez HTT podávají výborný výkon, takže tím bych ukončil polemiku na téma "nevyužitelné třetí ALU" - ta využitelná je a že ji BD nemá je chyba).
vyuzitelnost 3 ALU bez HT je velmi slaba.
SB+HT: ~112 137%
SB: ~82 100%
pri pouziti HT kde ALU idu naplno mas +37% vykonu.
Ked si to rozdelime rovnomerne medzi 3 ALU: 137/3=46% vykonu na ALU, ale bez HT dosahuje SB 100%, cize 100/46=2.174
Ta 3 ALU je vyuzita len na 17.4%, no fakt nic moc.

Velmi by ma zaujimalo preco nepridali aj 4ALU do SB :? narast vykonu by bol velmi zaujimavy pri HT(mne to vychadza na +84%[4/2.174] vs bez HT v idealnom pripade).

P.S. hadam som to dobre zratal, ak nie tak ma opravte.

Edit:
v skutocnosti nie je BD ALU o 44% vykonnejsia, problem je, ze Thuban nevyuzije 3ALU naplno. Ak ich vyuziva aspon ako SB bez HT, cize 2.174 z 3ALU tak to mame 70/6/2.174=5.37
Potom to je 5.625/5.37= +5% pre BD.
Ale máš pravdu v tom, že BD má daleko slabší místa než je jeho slabá ALU část.
Je fakt, ze BD ALU nie je dokonala a da sa tam este co vylepsovat pri pohlade na SB, ale BD ma daleko slabsie miesta ako ALU a najprv tie nech opravia a potom mozu vylepsovat aj ALU.

Re: AMD "Piledriver" refresh Zambezi - info,spekulace atd

Napsal: stř 7. bře 2012, 13:20
od flanker
richie08 píše:
Celý problém je, že oni dělají závěry z porovnání BD modul vs. Phenom core, což je kravina, protože BD modul i s L2 cache obsahuje téměř 2x víc tranzistorů než Phenom core. Adekvátnější je spíš porovnávat 1modul vs. 2Phenom jádra. Mimochodem tam připouští, že Phenom X8 by byl výkonnější než BD, ale že prý by jej určitě neuchladili a proto je BD mnohem lepší volba - to je další nesmysl, Phenom na 32nm v Llanu ukazuje stejnou spotřebu jako FX-4100, takže Phenom X8 by na tom byl spotřebou stejně při daleko vyšším výkonu. Na BD je dobrá jen FPU a MemCtlrer.

Na grafech je kouzelné to, že si z nich člověk může vyvodit závěry sám, nebo si pomocí nich ověřit závěry pisatele článku. Já nad grafy dokážu zapojit mozek a rozhodně z nich nemůžu učinit tak pozitivní závěry ohledně ALU BD. Nevím, asi hulí kvalitní matroš, jinak si to nedovedu vysvětlit.
Niméně Llano je spíše podobné Regoru, ne Denebu. A ta L3 dělá (teplotně) svoje. Mohu říci, že Thuban určitě jde chladit hůře než obyčejný Deneb, vše odzkoušeno se stejným chladičem. Myslím si, že by spotřeba x8 Phenomu byla cca stejná jak FX 8000, ale byl by větší problém uchladit určitá místa čipu, kdy by docházelo k vypnutí apod.

Re: AMD "Piledriver" refresh Zambezi - info,spekulace atd

Napsal: stř 7. bře 2012, 15:26
od del42sa
http://www.fudzilla.com/home/item/26204 ... k-at-38ghz

100W TDP frekvence 3.8GHz turbo 4.2GHz + DirectX 11 HD 7660D.

ještě k upřesnění té hloubky pipeline v BD:
Bulldozer doesn't have deep pipelines it is 15 for the Integer Portion and 20 for the Floating Point Portion

Re: AMD "Piledriver" refresh Zambezi - info,spekulace atd

Napsal: čtv 15. bře 2012, 18:30
od richie08
THANATOS píše: richie08
Výkon v Drystone je nižší o fous než u Phenomu, takže nevím kde vidíš opak. Fakt je, že není schopen takt na takt porazit ani Phenoma,
on to vidi na tom istom obrazku :wink:
ty pozeras perf/thread a to je nepresne, lebo BD score je delene 8 ale Thuban score len 6, pricom Thuban ma 3ALU ale BD len 2 a my chceme vykon na 1 ALU.
Ak si to das dokopy tak
BD ~90 / 4 / 4 (4moduly a 4ALU na modul)=5.625
Thuban ~70 /6/3(6jadier a 3ALU na jadro)=3.9
5.625/3.9=+44%
SB:82/4/3=6.83
SB+HT: 112/4/3(4jadra a 3ALU na jadro)=9.33 Toto je vysledok pri max. vyuziti vsetkych ALU
Thanatosi, budu reagovat jen na tuhle jakž-takž smysluplnou část kalkulací. Tak prvně bych zcela vynechal K10, protože ta má sdílené ALUs s LSU, takže je defakto neporovnatelná. Naopak BD a SB můžeme porovnat docela dobře a zde nám vychází docela zajímavá čísla.

Nejprve se podívejme jak je u SB ta třetí ALU vytížená v singlu:
(vše vztaženo na jádro, protože porovnáváme jen využitelnost třetí ALU)
BD ~ 11,25
SB ~ 20,50 ..... což je 1,82x víc než BD

Jinými slovy SB dokáže podat o 84% větší výkon při o 50% více ALU jednotek. Je tedy zcela zřejmé, že třetí ALU je nutná a dokonce ty 3ALU v SB jsou více vytížené než 2ALU u BD. Zde končí veškeré povídačky o efektivitě těch dvou ALU a efektivitě BD vůbec, když je jasně vidět, že AMD neumí ani pouhé 2 ALU pořádně využít. Kdyby SB bylo jen o 30% rychlejší, tak by šlo ještě polemizovat zda je lepší mít vyšší absolutní výkon v singlu nebo je lepší mít vyšší efektivitu a ušetřit nějaké ty tranzistory. Ale bohužel, čísla jsou nekompromisní. Ze strany BD je to velká mizérie a SB je nutno pochválit za výborné zásobování svých ALUs.

A nyní se můžeme podívat na maximální vytíženost třetí ALU (multi s HT):
(vše vztaženo na jádro, protože porovnáváme jen využitelnost třetí ALU)
BD ~ 90/8 = 11,25
SB ~ 112/4 = 28..... což je 2,48x víc než BD

Jinými slovy SB dokáže podat o 148% větší výkon při o 50% více ALU jednotek za použití HT (nebo chcete-li 2,5x větší výkon při 1,5x více jednotek ALU). To už vypadá pro BD jako čistá katastrofa. Pokud podělíme výkon počtem ALU tak dostaneme Thanatosova čísla 5,625 / 9,33 = 0,603...což znamená za předpokladu 100% vyloadování ALU v SB, že ty pouhé dvě ALU v BD jsou ještě navíc využity jen z pouhých 60%.


Závěr:
Tedy AMD má pravdu o té třetí zbytečné ALU, protože BD by ji stejně nikdy nevyužilo. Zlí jazykové by při pohledu na výše zmíněná čísla mohli klidně tvrdit, že BD má velké problémy s využitím i té druhé ALU. Kdyby tu nyní s námi byla stále P4 a stála proti BD, pak by bylo možno vést spekulace na téma zda třetí ALU má smysl nebo ne. Bohužel pro AMD tu je hmatatelný důkaz u konkurence, posouvající debaty spíše do úrovně zda by nenašli využití 4ALUs s příslušnou novou technologií (4way HT atd.).
:wink:

Re: AMD "Piledriver" refresh Zambezi - info,spekulace atd

Napsal: pát 16. bře 2012, 17:30
od THANATOS
richie08
Tak prvně bych zcela vynechal K10, protože ta má sdílené ALUs s LSU, takže je defakto neporovnatelná. Naopak BD a SB můžeme porovnat docela dobře a zde nám vychází docela zajímavá čísla.
v tvojich poslednych komentaroch ti porovnanie BD a K10 nerobilo ziadny problem az teraz co sa stalo? :wink:
Nejprve se podívejme jak je u SB ta třetí ALU vytížená v singlu:
(vše vztaženo na jádro, protože porovnáváme jen využitelnost třetí ALU)
BD ~ 11,25
SB ~ 20,50 ..... což je 1,82x víc než BD

Jinými slovy SB dokáže podat o 84% větší výkon při o 50% více ALU jednotek. Je tedy zcela zřejmé, že třetí ALU je nutná a dokonce ty 3ALU v SB jsou více vytížené než 2ALU u BD. Zde končí veškeré povídačky o efektivitě těch dvou ALU a efektivitě BD vůbec, když je jasně vidět, že AMD neumí ani pouhé 2 ALU pořádně využít. Kdyby SB bylo jen o 30% rychlejší, tak by šlo ještě polemizovat zda je lepší mít vyšší absolutní výkon v singlu nebo je lepší mít vyšší efektivitu a ušetřit nějaké ty tranzistory. Ale bohužel, čísla jsou nekompromisní. Ze strany BD je to velká mizérie a SB je nutno pochválit za výborné zásobování svých ALUs.
vyuzitie 3-tej ALU je len 17.4% co som uz raz pisal, tak neviem preco zistujes vyuzitie 3ALU v SB porovanim SB vs BD, ked tam mas SB s HT a bez?
A nyní se můžeme podívat na maximální vytíženost třetí ALU (multi s HT):
(vše vztaženo na jádro, protože porovnáváme jen využitelnost třetí ALU)
BD ~ 90/8 = 11,25
SB ~ 112/4 = 28..... což je 2,48x víc než BD

Jinými slovy SB dokáže podat o 148% větší výkon při o 50% více ALU jednotek za použití HT (nebo chcete-li 2,5x větší výkon při 1,5x více jednotek ALU). To už vypadá pro BD jako čistá katastrofa. Pokud podělíme výkon počtem ALU tak dostaneme Thanatosova čísla 5,625 / 9,33 = 0,603...což znamená za předpokladu 100% vyloadování ALU v SB, že ty pouhé dvě ALU v BD jsou ještě navíc využity jen z pouhých 60%.
nenapadlo ta, ze BD moze byt vyuzita na >90% ale SB ALU je jednoducho o >=50% vykonnejsia?
Vyssi vykon SB ALU je omnoho pravdepodobnejsi ako, ze BD vytazuje svoje 2 ALU len na 60%.
To si myslis, ze pri takto slabom vyuziti ALU by nedali HT aj tam a nie len do FlexFP?
Tedy AMD má pravdu o té třetí zbytečné ALU, protože BD by ji stejně nikdy nevyužilo. Zlí jazykové by při pohledu na výše zmíněná čísla mohli klidně tvrdit, že BD má velké problémy s využitím i té druhé ALU. Kdyby tu nyní s námi byla stále P4 a stála proti BD, pak by bylo možno vést spekulace na téma zda třetí ALU má smysl nebo ne. Bohužel pro AMD tu je hmatatelný důkaz u konkurence, posouvající debaty spíše do úrovně zda by nenašli využití 4ALUs s příslušnou novou technologií (4way HT atd.).
Pre BD by bola zbytocna, ale tak isto aj pre SB ak by tam nemali HT. Slabe vyuzitie druhej ALU v BD som uz komentoval.
Ja si viem predstavit, kombinaciu SMT a CMT v buducnosti. Pri pohlade na vyuzitie 3ALU v SB tam mohli dat aj 4ALU a narast mohol byt daleko lepsi aspon si myslim.

Re: AMD "Piledriver" refresh Zambezi - info,spekulace atd

Napsal: pon 19. bře 2012, 17:48
od richie08
Thanatosi, liskni se za ty tvoje počty a zopakuj si matiku základní školy. SandyBridge je na stejném taktu o 84% rychlejší (bez HTT) oproti BD a ty budeš stále tvrdit že 3ALU neumí využít? Vždyť BD je tak velký zmetek, že by byl neprodejný i kdyby Intel žádné HTT neměl.

Re: AMD "Piledriver" refresh Zambezi - info,spekulace atd

Napsal: pon 19. bře 2012, 18:32
od THANATOS
richie08 ja si nepotrebujem nic zopakovat a mozes do mna rypat kolko len chces, nic to nezmeni na tom, ze podla toho testu 3ALU je vyuzita len na 17.4% pri vypnutom HT a to som porovnaval SB s HT a bez.

Re: AMD "Piledriver" refresh Zambezi - info,spekulace atd

Napsal: pon 19. bře 2012, 18:33
od Maor
richie: ale prodává se, i když je to zmetek, zkrátka ne každý potřebuje silný singlethread za každých okolností

Re: AMD "Piledriver" refresh Zambezi - info,spekulace atd

Napsal: pon 19. bře 2012, 18:55
od Hladis
Maor píše:richie: ale prodává se, i když je to zmetek, zkrátka ne každý potřebuje silný singlethread za každých okolností
Ehm jo prodava se. Obcas si to nejaky neinformovany BFU koupi ,ale vyjadreno cisly je to naprosty propadak. Uz jen kvuli tomu ze to nikdo nestrka do sestav. Stejne jeste urcite % kupcu prijde ze to nefunguje. Nikdo normalni a znaly si to CPU proste nekoupi.

Re: AMD "Piledriver" refresh Zambezi - info,spekulace atd

Napsal: pon 19. bře 2012, 19:18
od flanker
na encoding videí to není špatná volba. Obecně veškerý optimalizovaný multithread (video, render, šifrování, grafika) je na FX hodně dobrý. Nevýhoda je pouze ten singl thread, který mu degraduje celkovou hodnotu. Nicméně, já jsem s FX "spokojen" jako uživatel, mohl být lepší, mohl být i horší (nedej Bůh). Krásně a jednoduše, je třeba zapracovat na "zastaralém" singl thread výkonu, který AMD tak nějak zatracovalo.

Re: AMD "Piledriver" refresh Zambezi - info,spekulace atd

Napsal: úte 20. bře 2012, 19:59
od Maor
ještě abys ho flankere nepochválil, marně čekám na 5modul do desktopu, ten už by byl přesvědčivější. Nebo nějakou kvalitní desku s 4xG34 paticí, to už by byl multithread, ještě k tomu dát opteron s odemčeným násobičem, to by potom mohlo drtit 4x2011 v poměru cena/výkon

Re: AMD "Piledriver" refresh Zambezi - info,spekulace atd

Napsal: úte 20. bře 2012, 22:51
od flanker
ale i tak mi FX Zambezi připomíná něčím AMD Phenom Agenu...Prostě není to ono, něco je opravdu fajn jako např IMC silný, slušný multithread, spousta nových instrukcí, slušný OC. Chybkou je ale nevyrovnaný výkon, slabší v x87, nedoladěná výroba a rozdílnost jednotlivých kusů v topivosti a spotřebě.
VIshera snad leccos napraví, nicméně ten singl nebude o moc lepší to vypadá. Lze již nyní usuzovat, že např superpí 1M vypočítá FX-8150 na defaultu za 20.5s, Vishera na stejném taktu by jej měla vypočítat za 19-19.5s.

Re: AMD "Piledriver" refresh Zambezi - info,spekulace atd

Napsal: stř 21. bře 2012, 09:11
od richie08
Thanatosi, jako počítat takhle divoce procenta z procent, no nevím. Nicméně jsem si to spočítal jinak a dospěl ke stenému číslu, takže OK. Jenže interpretace není tak triviální - instruction flow v CPU neběží s konstantním tokem, tady žádné průměry neplatí. CPU je silně nestacionární systém a jeho ALU jsou vytížené dle toho jak moc dobře zafunguje OoO a scheduler - nejdou navrhnout dle průměrného toku. Proto ikdyž se zdá, že třetí ALU u SB nebo i Phenomu je téměř nevyužitá, tak ve skutečnosti je využívaná dost často, jen CPU musí občas zpracovávat i sekvenci instrukcí, které vytíží jen třeba jednu ALU a tím kazí průměr. Na závěr jedno porovnání: pokud budeme uvažovat výkon SB w/ HT za 100%, pak vytíženost obou BD ALU je 60%...což znamená jednu plně vytíženou a jednu, která je vytížená jen na 20% - a znamená to, že by BD druhou ALU nevyužívalo? Ne.

Flanker: Bulldozer nemá s Agenou nic společného, naopak je to její protiklad. Agena byla založena na velmi dobré architektuře K10 a její neúspěch způsobil opravdu nepovedený 65nm výrobní proces a TLB bug. Nicméně i přesto všechno měla K10 velkou brute force, ve FPU dokázala takt na takt drtit Core2duo, což dávalo tušit, že pokud se podaří zvednout frekvence, tak to bude dobrý CPU. BD je zoufale pomalý ve všem, takt na takt prohrává všechno. Architektura BD nemá budoucnost, neměla ji rok před tím než vyšel, Dirk Meyer to moc dobře věděl. Nezbývá než si počkat 3 roky na architekturu novou.