AMD "Piledriver" Vishera refresh Zambezi -info,spekulace atd

Vše o procesorech Advanced Micro Devices.

Moderátoři: flanker, Eddward, Baneshee

Odpovědět
webwalker
Začátečník
Začátečník
Uživatelský avatar
Registrován: 03. úno 2010
Bydliště: Buranov vedle Prahy

Re: AMD "Piledriver" refresh Zambezi - info,spekulace atd

Příspěvek od webwalker »

del42sa: Spekulativní multithreading, už jsem myslel, že to nikdo nenakousne :)
Mimochodem už jsi četl toho Kantera ohledně transakčních pamětí? Možná to by byla náhražka HTT u nástupce Haswella.

Jinak můj dojem je, že počet int ALU je poněkud přeceňován. ILP v superskalárních jednotkách už zřejmě neporoste, takže dnešní cpu spějí opět k vektorům. Imho
Osobně si myslím, že budoucnost cpu je naplánována již dlouho a to v pořadí:
Skalár - superskalár - multicore - manycore/heterogenita

Yuri: Já jsem se sice k tomu Agnerovi ještě nedostal, ale těch 16B fetch na thread mi nepřijde zas až tak málo. Pokud si dobře vzpomínám, Intel to má stejné. Musím si to ale přečíst pořádně, protože já myslel, že u BD je to 32B, jenom se ten fetch střídá mezi thready podle potřeb (vždy ale 32B).
Chtěl bych se stát profesionálním pískačem. Už teď jsem v tom sice hvězda, ale chtěl bych se ještě zdokonalit a začít se tím živit.
GPUreport.cz
del42sa
Pokročilý
Pokročilý
Uživatelský avatar
Registrován: 18. lis 2009
Bydliště: Omicron Persei 8

Re: AMD "Piledriver" refresh Zambezi - info,spekulace atd

Příspěvek od del42sa »

jak vidíš nakousnul :wink:

32B, ale pro 2 jádra , čili 16B pro dva thready. Zřejmě se nestřídá. Pokud by se střídal, tak by zase při paralelním zpracování dvou threadů jedno jádro v modulu muselo čekat...
"The more you buy, the more you save" AI everywhere - Nvidia CEO at Computex 2023 https://www.youtube.com/watch?v=FhlE3m1trM4
Vega Primitive Shader combines the functions of vertex and geometry shader and with the right knowledge you can discard game based primitives at an incredible rate" https://pcper.com/2017/01/amd-vega-gpu- ... tecture/2/

MSI MPG GUNGNIR 110R White | CPU AMD Ryzen 7 9700X Granite Ridge | DeepCool AK500 White | GPU Sapphire Radeon RX 7600 8GB | MB MSI MAG X670E GAMING PLUS WIFI | 32GB DDR5 Patriot Viper Elite 5 32GB KIT 6600MHz | system HDD SSD M.2 Kingston FURY Renegade NVMe 1TB | Seagate Baracuda HDD 1TB SATA III | data HDD WD RED 1TB SATA III | Quad HD VA monitor 27" MSI Optix G27CQ4 Free Sync 165 Hz 10bit HDR | zdroj Be quiet! SYSTEM POWER 9 CM700W 80 PLUS Bronze | Win 10-64 bit Pro
webwalker
Začátečník
Začátečník
Uživatelský avatar
Registrován: 03. úno 2010
Bydliště: Buranov vedle Prahy

Re: AMD "Piledriver" refresh Zambezi - info,spekulace atd

Příspěvek od webwalker »

del42sa: Jak jsem řekl, k tomu "Žabákovi" jsem se ještě nedostal, ale BD je koncipováno tak, že stejně frontend distribuuje mops do obou klusterů střídavě, jen je všechno bufferováno. Hodně je určitě spoléháno na stally v jednom z threadů, aby frontend mohl buffery naplnit. Teď si nejsem jist (nechci to hledat), ale i branch prediction je pouze jedna pro oba thready, nebo se pletu?
Chtěl bych se stát profesionálním pískačem. Už teď jsem v tom sice hvězda, ale chtěl bych se ještě zdokonalit a začít se tím živit.
GPUreport.cz
del42sa
Pokročilý
Pokročilý
Uživatelský avatar
Registrován: 18. lis 2009
Bydliště: Omicron Persei 8

Re: AMD "Piledriver" refresh Zambezi - info,spekulace atd

Příspěvek od del42sa »

asi máš pravdu :
AMD's Bulldozer Microarchitecture
By: David Kanter | 08-26-2010
Shared Instruction Fetch

Sharing between cores is a key element of Bulldozer’s architecture, and it starts with the front end. The front-end has been entirely overhauled and is now responsible for feeding both cores within a module. Bulldozer’s front end includes branch prediction, instruction fetching, instruction decoding and macro-op dispatch. These stages are effectively multi-threaded with single cycle switching between threads. The arbitration between the two cores is determined by a number of factors including fairness, pipeline occupancy and stalling events. Each of these major stages is decoupled from the next, by an appropriate queue or pair of queues
The branch predictor is shared by the two cores in each module and decoupled from the instruction fetching via a pair of prediction queues (one queue per core). The branch predictor can run-ahead and will continue to predict new relative instruction pointers (RIPs) unless the queues are full.

The first step in branch prediction is determining the direction – whether a branch is taken or not. AMD previously used a local predictor, a global predictor and a selector that would choose which of the two predictors to use. However, they were extremely coy about the predictors used in Bulldozer, other than to indicate that they did not use multi-level predictors. It is possible that AMD included a loop detector, something Intel introduced in the Pentium M.
The branch prediction and the RIP queue can effectively run ahead of the instruction fetch unit in Bulldozer. This helps the two cores smoothly share the branch prediction hardware and tolerate longer latencies in the front-end. Just as importantly, by having multiple RIPs ready at a given point in time, the fetch unit can prefetch the instruction stream for branches in the BTBs and indirect array. This prefetching hides some of the fetch latency and enables greater memory level parallelism for the instruction caches.
http://www.realworldtech.com/page.cfm?A ... 181333&p=4

ale stejně s tím front-endem nebude všechno v pořádku, evidentně tam jsou nějaké nedostatky, viz Agner a předchozí hodnocení BD z Arstechnica...
"The more you buy, the more you save" AI everywhere - Nvidia CEO at Computex 2023 https://www.youtube.com/watch?v=FhlE3m1trM4
Vega Primitive Shader combines the functions of vertex and geometry shader and with the right knowledge you can discard game based primitives at an incredible rate" https://pcper.com/2017/01/amd-vega-gpu- ... tecture/2/

MSI MPG GUNGNIR 110R White | CPU AMD Ryzen 7 9700X Granite Ridge | DeepCool AK500 White | GPU Sapphire Radeon RX 7600 8GB | MB MSI MAG X670E GAMING PLUS WIFI | 32GB DDR5 Patriot Viper Elite 5 32GB KIT 6600MHz | system HDD SSD M.2 Kingston FURY Renegade NVMe 1TB | Seagate Baracuda HDD 1TB SATA III | data HDD WD RED 1TB SATA III | Quad HD VA monitor 27" MSI Optix G27CQ4 Free Sync 165 Hz 10bit HDR | zdroj Be quiet! SYSTEM POWER 9 CM700W 80 PLUS Bronze | Win 10-64 bit Pro
yuri.cs
Mírně pokročilý
Mírně pokročilý
Uživatelský avatar
Registrován: 03. led 2007
Bydliště: hl.m. piva
Kontaktovat uživatele:

Re: AMD "Piledriver" refresh Zambezi - info,spekulace atd

Příspěvek od yuri.cs »

-SB ma tez 16B, ale vychytavku v podobe ucache s loop detektorem,; 1 thread K10 mela navyseno na 32B z K8 16B

-hw dynamic threading vypada jako zajimava vec; da se o ni najit rada materialu k prostudovani
It will be amazing in case after 10GHz we will see 20GHz, 30GHz and so on, just like we witnessed the thorny way from 10MHz to 33MHz in the eighties. -xbitlabs.com
richie08
Začátečník
Začátečník
Uživatelský avatar
Registrován: 15. říj 2006

Re: AMD "Piledriver" refresh Zambezi - info,spekulace atd

Příspěvek od richie08 »

del42sa píše:tohle by nikdy nemohlo dobře fungovat, protože x86 kód nelze paralelizovat, více jak 4 ALU prostě už nedokážeš nevyužít. Už Phenom se svými 3 ALU nedokázal všechny jednotky naplno vytížit. Proto má BD jen 2 ALU.CPU není GPU. Takže 12 ALU na jeden thread je nesmysl, který by akorát žral energii, nehledě k tomu, že nemůžeš mít 12 ALU bez patřičně masivního frontendu/dekodéru. To vše akorát stojí spoustu tranzistorů bez reálného navýšení výkonu !
Podceňuješ využitelnost ALU. Phenom byl limitován svázaností ALU s LSU pokud si dobře vzpomínám, takže nikdy nemohly trvale běžet všechny 3ALU naplno. Proto je SB rychlejší, proto je BD jen se dvěmi 2ALU tak pomalý. Samozřejmě to není jen díky ALU, ale ten krok zpět k dvěma ALU u BD je zcela nepochopitelný.

del42sa píše: Stačilo by úplně, kdyby BD modul uměl pracovat jako jedno jádro s 4 way issue porty a v případě potřeby se rozdělil na současný poměr (2 way issue). A možná by ani tohle nebylo potřeba, stačilo by se zaměřit na slabé stránky BD, které už známe a nový návrh vyrobit třeba 20nm FD-SOI High-K Gate last výrobním procesem :wink:
To samé jsem přece psal yurimu, že nemá cenu posilovat BD zdvojováním kritických míst, ale naopak udělat sdílenou 4ALU pro obě vlákna. A jaký je rozdíl mezi 4ALU+2FPU/2 vlákna ..... a mezi 8ALU+4FPU/8vláken? SUN s Niagarou nám ukázal, že to vpohodě lze, takže zde výmluvy nejsou.

yuri.cs píše:-512kB L1 cache by byla tak silene pomala, ze jenom to by to CPU zabilo
-kdyz by tech 12 jednotek nebylo vytizenych, tak porad by tam byla leakage a tu by tu neodstavil powergatingem jako u jadra
-wiring a scheduling x*12 homogennich jednotek by byl takova nocni mura, ze radsi ani nemyslet
-atd.
Ten wiring a scheduling by nešel s 12 ALUs proč? Když to zvládli u SUNu, tak to půjde ještě o kousek dál. A s vytížeností všech 12 ALUs bych si hlavu nelámal, protože stačí nasadit místo 4 threadů rovnou 8 a jsme na stejném využití jako u Intelu s HTT.

Trošku mi to připomíná odborníky co zaručeně tvrdili, že stroj těžší než vzduch nemůže létat a Zěmě je placatá. Ale možná se pletu a BD je dobrý procesor s ještě lepší architekturou kterou je třeba rozvíjet (vtip).
webwalker
Začátečník
Začátečník
Uživatelský avatar
Registrován: 03. úno 2010
Bydliště: Buranov vedle Prahy

Re: AMD "Piledriver" refresh Zambezi - info,spekulace atd

Příspěvek od webwalker »

Yuri: Imho ucache v SB byla asi ta nejlepší vychytávka, kterou Intel mohl udělat. Je to asi ta část čipu, která SB přinesla největší zisky výkonu a šetří spotřebu. Imho není to variace na netburst s tím rozdílem, že jsou cachovány uops?

richie08: Já stále tvrdím, že superskaláry s OoO jsou dnes na maximu výkonu a kdybys jich tam měl víc jak tři, prostě si nijak nepomůžeš.

PS: SpMT vypadá opravdu zajímavě.
Chtěl bych se stát profesionálním pískačem. Už teď jsem v tom sice hvězda, ale chtěl bych se ještě zdokonalit a začít se tím živit.
GPUreport.cz
del42sa
Pokročilý
Pokročilý
Uživatelský avatar
Registrován: 18. lis 2009
Bydliště: Omicron Persei 8

Re: AMD "Piledriver" refresh Zambezi - info,spekulace atd

Příspěvek od del42sa »

richie08 píše:Podceňuješ využitelnost ALU. Phenom byl limitován svázaností ALU s LSU pokud si dobře vzpomínám, takže nikdy nemohly trvale běžet všechny 3ALU naplno. Proto je SB rychlejší, proto je BD jen se dvěmi 2ALU tak pomalý. Samozřejmě to není jen díky ALU, ale ten krok zpět k dvěma ALU u BD je zcela nepochopitelný.
ne nepodceňuju, u Phenomu to byly ALU napevno svázány s AGU a jednom cyklu si mohl buď použít jedny nebo druhé. U Bulldozeru jsou nezávislé a mohou pracovat v jednom cyklu najednou. Třetí Alu nikdy nebyla využitá naplno, takže 2 ALU u BD jsou logický krok.

richie08 píše:To samé jsem přece psal yurimu, že nemá cenu posilovat BD zdvojováním kritických míst, ale naopak udělat sdílenou 4ALU pro obě vlákna. A jaký je rozdíl mezi 4ALU+2FPU/2 vlákna ..... a mezi 8ALU+4FPU/8vláken? SUN s Niagarou nám ukázal, že to vpohodě lze, takže zde výmluvy nejsou.


Sun/Oracle používá vlastní operační system a jejich CPU jsou stavěny na míru tomuto operačnímu systému.
richie08 píše:Trošku mi to připomíná odborníky co zaručeně tvrdili, že stroj těžší než vzduch nemůže létat a Zěmě je placatá. Ale možná se pletu a BD je dobrý procesor s ještě lepší architekturou kterou je třeba rozvíjet (vtip).
testy ukázaly, že počet ALU není hlavní brzdou Bulldozeru viz: http://pctforum.tyden.cz/viewtopic.php? ... 0#p8268700

\\Webwalker: zdá se že Intel SpMT docela tvrdě pracuje , viz:

http://isca09.cs.columbia.edu/pres/40.pdf

http://arco.e.ac.upc.edu/wiki/images/b/ ... isca09.pdf

Navíc prý Intel maká na vlastní verzi CMT
It will get interesting in a few years. AMD will bring BD 1. BD 2 might be more like Glew's Multi-Star. Intel is also working on clustered processors. AMD has patents covering technologies to create ad hoc threads to parallelize single threaded applications. Some of the simpler methods might find their way into BD 2 (if not BD 1). ASF would give an advantage in multi threaded apps. And future x86 computing will be more adaptable, reconfigurable and heterogeneous - on both (and maybe even three) sides. I don't see any sign of a set future, which would allow me to make decisions about it now.
"The more you buy, the more you save" AI everywhere - Nvidia CEO at Computex 2023 https://www.youtube.com/watch?v=FhlE3m1trM4
Vega Primitive Shader combines the functions of vertex and geometry shader and with the right knowledge you can discard game based primitives at an incredible rate" https://pcper.com/2017/01/amd-vega-gpu- ... tecture/2/

MSI MPG GUNGNIR 110R White | CPU AMD Ryzen 7 9700X Granite Ridge | DeepCool AK500 White | GPU Sapphire Radeon RX 7600 8GB | MB MSI MAG X670E GAMING PLUS WIFI | 32GB DDR5 Patriot Viper Elite 5 32GB KIT 6600MHz | system HDD SSD M.2 Kingston FURY Renegade NVMe 1TB | Seagate Baracuda HDD 1TB SATA III | data HDD WD RED 1TB SATA III | Quad HD VA monitor 27" MSI Optix G27CQ4 Free Sync 165 Hz 10bit HDR | zdroj Be quiet! SYSTEM POWER 9 CM700W 80 PLUS Bronze | Win 10-64 bit Pro
richie08
Začátečník
Začátečník
Uživatelský avatar
Registrován: 15. říj 2006

Re: AMD "Piledriver" refresh Zambezi - info,spekulace atd

Příspěvek od richie08 »

webwalker píše:richie08: Já stále tvrdím, že superskaláry s OoO jsou dnes na maximu výkonu a kdybys jich tam měl víc jak tři, prostě si nijak nepomůžeš.
webwalker: Superskaláry s OoO nejsou na maximu výkonu ani zdaleka. Za dob K8, která měla 3 ALUs si to myslelo hodně lidí, ale pak přišlo Core2Duo a všem spadla brada jak se zvedlo IPC. Opět hlasy že další zvyšování IPC není možné nebo není rentabilní...bla bla bla.... přišel Nehalem a opět lidem spadla brada jak narostlo IPC.... to samé se SB, kolik tu bylo lidí co tvrdilo že SB nebude velký skok, protože to už přece nejde.... a ouvej, zase to byl značný skok v IPC. Stejně tak i Haswel bude výrazný posun v IPC. Různé nové vychytávky jako ucode cache a HT dokáží ždímat i z 3 ALUs maximum, mnohem víc než za dob Pentia3 nebo K8, takže bych se nebál že by 4 ALUs ležely ladem. Spíš bych se bál, že Haswell přijde se 4 ALUs a 4way HTT....to by totiž byl pro AMD velký problém.
yuri.cs
Mírně pokročilý
Mírně pokročilý
Uživatelský avatar
Registrován: 03. led 2007
Bydliště: hl.m. piva
Kontaktovat uživatele:

Re: AMD "Piledriver" refresh Zambezi - info,spekulace atd

Příspěvek od yuri.cs »

richie08 píše:8ALU+4FPU/8vláken? SUN s Niagarou nám ukázal, že to vpohodě lze
Schema T4/S3 jadra: http://www.eetimes.com/ContentEETimes/I ... %20420.jpg

Je dual-issue, ma dve EX sloty, jak je videt na schematu. 2ALU + 1 LSU + 1 FPU + 1 cryptoU/1-8vlaken. Neco mi unika?
It will be amazing in case after 10GHz we will see 20GHz, 30GHz and so on, just like we witnessed the thorny way from 10MHz to 33MHz in the eighties. -xbitlabs.com
webwalker
Začátečník
Začátečník
Uživatelský avatar
Registrován: 03. úno 2010
Bydliště: Buranov vedle Prahy

Re: AMD "Piledriver" refresh Zambezi - info,spekulace atd

Příspěvek od webwalker »

richie08: Tvůj problém je v tom, že si pleteš IPC se šířkou superskaláru. Od Core2 se prakticky nic nezměnilo, všechno to jsou jen hrátky s OoO, buferováním a výkonem samotných ALU. Díky závislostem, i kdybys měl 10 int ALU, tak je prostě nevyužiješ, jenom bys plýtval tranzistory. Dnes se vracejí na výsluní vektorové operace.
Jak to bude u Haswellu nevím, je tam sice náznak přidání dalšího portu, ale dle mého to bude mít souvislost spíše s vektory nežli se skalárními ALU.

PS:
Yuri: Nebyla náhodou Niagara II vzorem pro Fermi?
Chtěl bych se stát profesionálním pískačem. Už teď jsem v tom sice hvězda, ale chtěl bych se ještě zdokonalit a začít se tím živit.
GPUreport.cz
richie08
Začátečník
Začátečník
Uživatelský avatar
Registrován: 15. říj 2006

Re: AMD "Piledriver" refresh Zambezi - info,spekulace atd

Příspěvek od richie08 »

del42sa píše: ne nepodceňuju, u Phenomu to byly ALU napevno svázány s AGU a jednom cyklu si mohl buď použít jedny nebo druhé. U Bulldozeru jsou nezávislé a mohou pracovat v jednom cyklu najednou. Třetí Alu nikdy nebyla využitá naplno, takže 2 ALU u BD jsou logický krok.
2 ALU u BD vůbec nejsou logický krok, když konkurence tě drtí se 3 ALUs + HTT. Kdyby alespoň ten BD paskvil byl efektivní co týče spotřeby když už neobsahuje nevyužívanou třetí ALU, ale bohužel. Ty 3 kombi ALU/LSU v Phenomech jsou velmi elegantní řešení, třeba takový peak v AL instrukcích (3 AL instrukce zasebou) dokázaly zpracovat v jednom taktu (BD potřebuje 2), nebo ten samý peak v Load/Store opět zvládne za jeden takt oproti BD. Dá se říci, že díky tomuhle má menší nároky na scheduler a OoO protože dokáže pracovat s většími výkyvy, zejména na neoptimalizovaném kódu. A to byl i záměr tvůrců, protože K7 i K8 byly navrženy robustně tak, aby nepotřebovali optimalizovaný kód (to si AMD nemohlo dovolit, Intel s P4 však ano, ale stejně pohořel). Velmi mazané řešení IMHO. Možná i tohle je kus tragédie BD, jeho návrh mohl počítat s poněkud učesanějším kódem, protože u kormidla byli megalomani Ruiz s Meyerem, kteří si možná mysleli že protlačí optimalizace pro BD do kompilerů jako jasnou věc. Ať tak či onak, návrh BD je špatný, protože s pouhými dvěma ALU se před SB nikdy nedostanou.



del42sa píše:Sun/Oracle používá vlastní operační system a jejich CPU jsou stavěny na míru tomuto operačnímu systému.
A můžeš zde vyjmenovat konkrétní důvody co brání AMD napsat ovladač, který by pod Linuxem nebo Win se staral o prioritizaci vláken? Chápu že když si SUN vyvýjí vlastní OS tak je to poněkud jednodušší, ale neřekl bych že je to nemožné.
yuri.cs
Mírně pokročilý
Mírně pokročilý
Uživatelský avatar
Registrován: 03. led 2007
Bydliště: hl.m. piva
Kontaktovat uživatele:

Re: AMD "Piledriver" refresh Zambezi - info,spekulace atd

Příspěvek od yuri.cs »

richie08 píše: A můžeš zde vyjmenovat konkrétní důvody co brání AMD napsat ovladač, který by pod Linuxem nebo Win se staral o prioritizaci vláken? Chápu že když si SUN vyvýjí vlastní OS tak je to poněkud jednodušší, ale neřekl bych že je to nemožné.
Barcelona a jeji CnQ s windowsama absolutne nespolupracovalo. Jenom automaticke prirazeni nejake pseudoaffinity do cpu driveru pro BD vyvijeny 5 let melo zpozdeni 2 mesice... Ovladace ATi a jejich featury jsou taky na dlouhy lokte... Tohle uz lepsi nebude.

//Ad profilace kodu pro BD: http://www.hardware.fr/articles/847-1/i ... 6-x64.html
Vysledky GCCcka s flagem bdver1 jsou spis k placi.
It will be amazing in case after 10GHz we will see 20GHz, 30GHz and so on, just like we witnessed the thorny way from 10MHz to 33MHz in the eighties. -xbitlabs.com
del42sa
Pokročilý
Pokročilý
Uživatelský avatar
Registrován: 18. lis 2009
Bydliště: Omicron Persei 8

Re: AMD "Piledriver" refresh Zambezi - info,spekulace atd

Příspěvek od del42sa »

richie08 píše: 2 ALU u BD vůbec nejsou logický krok, když konkurence tě drtí se 3 ALUs + HTT. Kdyby alespoň ten BD paskvil byl efektivní co týče spotřeby když už neobsahuje nevyužívanou třetí ALU, ale bohužel. Ty 3 kombi ALU/LSU v Phenomech jsou velmi elegantní řešení, třeba takový peak v AL instrukcích (3 AL instrukce zasebou) dokázaly zpracovat v jednom taktu (BD potřebuje 2), nebo ten samý peak v Load/Store opět zvládne za jeden takt oproti BD. Dá se říci, že díky tomuhle má menší nároky na scheduler a OoO protože dokáže pracovat s většími výkyvy, zejména na neoptimalizovaném kódu. A to byl i záměr tvůrců, protože K7 i K8 byly navrženy robustně tak, aby nepotřebovali optimalizovaný kód (to si AMD nemohlo dovolit, Intel s P4 však ano, ale stejně pohořel). Velmi mazané řešení IMHO. Možná i tohle je kus tragédie BD, jeho návrh mohl počítat s poněkud učesanějším kódem, protože u kormidla byli megalomani Ruiz s Meyerem, kteří si možná mysleli že protlačí optimalizace pro BD do kompilerů jako jasnou věc. Ať tak či onak, návrh BD je špatný, protože s pouhými dvěma ALU se před SB nikdy nedostanou.
jen pro osvěžení paměti:

Phenom has 3 ALU per core and 3 AGU per core.
Sandy Bridge has 3 ALU per core and 2 AGU per core.
Bulldozer has 2 ALU per core and 2 AGU per core
.

Phenom can issue 3 ALU or AGU / cycle. 3 in total.
Sandy Bridge can issue 3 ALU / 1 AGU or 2 ALU / 2 AGU per cycle. 4 in total.
Bulldozer can issue 2 ALU and 2 AGU per cycle. 4 in total.

So the funny thing is that despite Phenom has the most units of all they can issue the least amount / cycle.

That is all regarding pure integer code only. If FPU/SSE instructions are scheduled as well, the integer throughput for Sandy Bridge drops significantly.

I když má SB více ALU než BD, stejně je nedokáže najednou využít. A ten příklad se týká pouze čistě ALU/AGU. Když přidáš FPU/SSE tak je to ještě horší. SB má jedinou výhodu v tom, že částečně nevyužité porty může využít pro Hyperthreading. Ten za určitých okolnosti (ne stále) zlepšuje ALU ulilization, ovšem někdy je to také s negativním dopadem na výkon.
"The more you buy, the more you save" AI everywhere - Nvidia CEO at Computex 2023 https://www.youtube.com/watch?v=FhlE3m1trM4
Vega Primitive Shader combines the functions of vertex and geometry shader and with the right knowledge you can discard game based primitives at an incredible rate" https://pcper.com/2017/01/amd-vega-gpu- ... tecture/2/

MSI MPG GUNGNIR 110R White | CPU AMD Ryzen 7 9700X Granite Ridge | DeepCool AK500 White | GPU Sapphire Radeon RX 7600 8GB | MB MSI MAG X670E GAMING PLUS WIFI | 32GB DDR5 Patriot Viper Elite 5 32GB KIT 6600MHz | system HDD SSD M.2 Kingston FURY Renegade NVMe 1TB | Seagate Baracuda HDD 1TB SATA III | data HDD WD RED 1TB SATA III | Quad HD VA monitor 27" MSI Optix G27CQ4 Free Sync 165 Hz 10bit HDR | zdroj Be quiet! SYSTEM POWER 9 CM700W 80 PLUS Bronze | Win 10-64 bit Pro
webwalker
Začátečník
Začátečník
Uživatelský avatar
Registrován: 03. úno 2010
Bydliště: Buranov vedle Prahy

Re: AMD "Piledriver" refresh Zambezi - info,spekulace atd

Příspěvek od webwalker »

richie08: Prosím tě, ukaž mi dnes nějaký program, který potřebuje pure int výkon. Nezapomeň také, že BD má sice jen dvě int ALU, nicméně int instrukce můžou být spuštěny také na int vektorech!.
V každém případě si nemyslím, že AMD odstranilo jednu int ALU kvůli úspoře tranzistorů, to je nesmysl.
Bottleneck v BD L/S evidentně existuje a popisuje ho i Fog. Nikdy se mu nepodařilo provést 3 read nebo write operace v jednom cyklu. Dostával se něco kolem 1,5 operace/cyklus. A tohle jsou ty drobnosti, kterých když je jich více, kompletně pohřbí výkon celého cpu.
Chtěl bych se stát profesionálním pískačem. Už teď jsem v tom sice hvězda, ale chtěl bych se ještě zdokonalit a začít se tím živit.
GPUreport.cz
DOC_ZENITH
Středně pokročilý
Středně pokročilý
Uživatelský avatar
Registrován: 08. kvě 2010
Bydliště: Praha

Re: AMD "Piledriver" refresh Zambezi - info,spekulace atd

Příspěvek od DOC_ZENITH »

Já si taky myslim že podle těchto cyklů se vůbec nedá určovat výkon, je tak mnoho dalších prvků. Podle těchto cyklů by ptřeba P4 fungovala, atd.

To jak mam řešenou L1 a L2 třeba dovede ovlivnit výkon mnohem více než jestli mama 2 nebo 3 ALU per core. Taky když u SB zapojim FPU možná mi to padne na 2 ale jeho FPU je zas tak rychlá že jakmile program začne více používat FPU letí výkon Sandybridge oproti konkurenci prudce nahoru ačkoliv podle této vaší teori by měl naopak klesat...
richie08
Začátečník
Začátečník
Uživatelský avatar
Registrován: 15. říj 2006

Re: AMD "Piledriver" refresh Zambezi - info,spekulace atd

Příspěvek od richie08 »

I přestože má BD 4 (2ALU+2AGU )výpočetní jednotky oproti 3 u Phenomu (3 ALU/LSU), stejně je BD v Dhrystones singlu pomalejší. Jak to?
http://www.ilsistemista.net/index.php/h ... ml?start=5

To myslím dostatečně vypovídá o "výhodnosti" pouhých 2 ALU.

Mizérii celého modulu BD (4ALU+4AGU=8) pak lze vidět na porovnání se SB v multi: SB je o 20% rychlejší i přestože má pouhé 3ALU+2AGU=5. To je naprostá tragédie, protože to znamená, že SB je rychlejší 1,92x/na jednotku, téměř dvojnásobně! To je tak mizerná efektivita využití jednotek, že se není čemu divit nízkému výkonu, vysokému počtu tranzistorů a obrovské spotřebě.

Nemůžu si pomoct, ale čím víc se v BD pitvám, tím víc lámu hůl nad jeho architekturou. Výrobní proces za to vůbec nemůže, ten mělo AMD o něco horší vždy, i za K7 a K8. Zlatý starý dobrý Phenom II nebo legendární K8.

PS: Díval jsem na ten Spekulativní Multi Threading od Intelu a musím říct, že 41% nárůst v singlu....Aj jaj.
del42sa
Pokročilý
Pokročilý
Uživatelský avatar
Registrován: 18. lis 2009
Bydliště: Omicron Persei 8

Re: AMD "Piledriver" refresh Zambezi - info,spekulace atd

Příspěvek od del42sa »

chce to číst text a ne jen se dívat na grafy :wink:
From a compute standpoint, Bulldozer's cores are very well balanced: they have a maximum throughput equal to 66% of K10's ones, but remember that AMD 1) was able to integrate 2 integer cores per module and 2) the third ALU/AGU pair is rarely used. This means that a Bulldozer module can provide noticeably better results (in the range of 50-100%) than a Phenom core
závěr z článku zní: "So ALU performance is going to be a strong point of Bulldozer architecture, at least compared to its previous products".

taky je tam jasně napsáno něco o limitovaném L1 write bandwidth.

viz. odkaz který jsi postnul, úplně dole.
"The more you buy, the more you save" AI everywhere - Nvidia CEO at Computex 2023 https://www.youtube.com/watch?v=FhlE3m1trM4
Vega Primitive Shader combines the functions of vertex and geometry shader and with the right knowledge you can discard game based primitives at an incredible rate" https://pcper.com/2017/01/amd-vega-gpu- ... tecture/2/

MSI MPG GUNGNIR 110R White | CPU AMD Ryzen 7 9700X Granite Ridge | DeepCool AK500 White | GPU Sapphire Radeon RX 7600 8GB | MB MSI MAG X670E GAMING PLUS WIFI | 32GB DDR5 Patriot Viper Elite 5 32GB KIT 6600MHz | system HDD SSD M.2 Kingston FURY Renegade NVMe 1TB | Seagate Baracuda HDD 1TB SATA III | data HDD WD RED 1TB SATA III | Quad HD VA monitor 27" MSI Optix G27CQ4 Free Sync 165 Hz 10bit HDR | zdroj Be quiet! SYSTEM POWER 9 CM700W 80 PLUS Bronze | Win 10-64 bit Pro
webwalker
Začátečník
Začátečník
Uživatelský avatar
Registrován: 03. úno 2010
Bydliště: Buranov vedle Prahy

Re: AMD "Piledriver" refresh Zambezi - info,spekulace atd

Příspěvek od webwalker »

DOC_ZENITH: U SB (a nejen SB) imho záleží na tom, jak jsou instrukce mixovány. Tady může hodně udělat samotný kompiler, který může předkládat cpu instrukce v pro něj nejvhodnějším pořadí (optimalizace). U fpu SB také asi hodně dělá nepříliš popsaný a zdokumentovaný "warm-up effect".
Dle mého je ale podstatné, aby ALU byly rychlé - instrukce byly vykonávány bez zbytečných latencí a LS jednotky stíhaly dodávat data. Tady je na tom zřejmě Intel lépe.
Chtěl bych se stát profesionálním pískačem. Už teď jsem v tom sice hvězda, ale chtěl bych se ještě zdokonalit a začít se tím živit.
GPUreport.cz
richie08
Začátečník
Začátečník
Uživatelský avatar
Registrován: 15. říj 2006

Re: AMD "Piledriver" refresh Zambezi - info,spekulace atd

Příspěvek od richie08 »

del42sa píše:chce to číst text a ne jen se dívat na grafy :wink:
From a compute standpoint, Bulldozer's cores are very well balanced: they have a maximum throughput equal to 66% of K10's ones, but remember that AMD 1) was able to integrate 2 integer cores per module and 2) the third ALU/AGU pair is rarely used. This means that a Bulldozer module can provide noticeably better results (in the range of 50-100%) than a Phenom core
závěr z článku zní: "So ALU performance is going to be a strong point of Bulldozer architecture, at least compared to its previous products".

taky je tam jasně napsáno něco o limitovaném L1 write bandwidth.

viz. odkaz který jsi postnul, úplně dole.
Ano, četl jsem, viděl jsem grafy a nechápu odkud berou to pozitivní hodnocení BD ALU. Když se podíváš na ty grafy, tak tam není jediný který by ukazoval že v singlu je BD rychlejší než Phenom. Pouze v jednom grafu (Int32 L1 Store intensiv) je výkon stejný jako má Phenom - a to je ten úspěch? Jinak ve všech případech v single operacích je pomalejší, někdy o fous a někdy jeho výkon dokonce padá na pouhou polovinu Phenomu (Int64 L1 store intensiv) :!: Samozřejmě SB je někde jinde, ten se dotahuje na 8-mi jádrový BD i s pouhými 4-mi jádry (vypnuté HT). A to má SB 3ALUs, z nichž ta třetí je naprosto zbytečná a nevyužitá přece :roll:

Takže si to shrneme: BD je celkově v Int operacích slabší jak Phenom, někdy dokonce jeho výkon padá rapidně dolů díky pomalému zápisu L1. A to má BD výhodu v tom, že pro single má k dispozici mnohem výkonnější front end celého modulu!

Celý problém je, že oni dělají závěry z porovnání BD modul vs. Phenom core, což je kravina, protože BD modul i s L2 cache obsahuje téměř 2x víc tranzistorů než Phenom core. Adekvátnější je spíš porovnávat 1modul vs. 2Phenom jádra. Mimochodem tam připouští, že Phenom X8 by byl výkonnější než BD, ale že prý by jej určitě neuchladili a proto je BD mnohem lepší volba - to je další nesmysl, Phenom na 32nm v Llanu ukazuje stejnou spotřebu jako FX-4100, takže Phenom X8 by na tom byl spotřebou stejně při daleko vyšším výkonu. Na BD je dobrá jen FPU a MemCtlrer.

Na grafech je kouzelné to, že si z nich člověk může vyvodit závěry sám, nebo si pomocí nich ověřit závěry pisatele článku. Já nad grafy dokážu zapojit mozek a rozhodně z nich nemůžu učinit tak pozitivní závěry ohledně ALU BD. Nevím, asi hulí kvalitní matroš, jinak si to nedovedu vysvětlit.
Odpovědět

Zpět na „Procesory AMD“