Napsal: ned 29. dub 2007, 20:11
Mlže někdo vysvětlit tu L2 cache?
Diskuze o hardware, software a overclockingu
https://forum.pctuning.cz/
Pavel.P. píše:Cappy to dělá s radostí a pro zábavu...
Hmmm
http://www.fudzilla.com/index.php?optio ... 3&Itemid=1
Sice už to tu zaznělo asi ale co... (nevím proč ale Fudzilla je divná... ale je... )
No, v první řadě je nesmysl těch 160 SPs G80, jak Fuad píše. Nevím, jestli to má od nVidie, ale tentokrát bych tomu i věřil. Takhle "odborný", ale zavádějící článek by sám dohromady nedal. Už vzhledem k tomu, že nVidia do teoretického výkonu započítává i výkon MUL jednotky, která se na shadingu nepodílí, je určena pro perspective correction a např. u ATI byla součástí pixel pipeline už od R300 (přičemž nikde nebyla uváděna, protože s pixel shadingem přímo nesouvisí a je to v podstatě samozřejmost), tak totéž platí pro SFU. Taky jsou součástí pixel shaderu už několik let a taky se extra nezapočítávají.Lukfi píše:Jo ten článek na fudzille jsem taky právě viděl... přijde mi to nějaký divný, že co podle Fuda zvládne G80 na jeden takt (že to rozhodí do skalárních jednotek), R600 musí dělat na víc taktů. Čet jsem to jenom zběžně ale přišlo mi to že ten příklad počítá s neomezeným počtem SP's na G80 a pouze jedním shaderem na R600.
Ale on tam pak řekne, že je jich vlastně 128, protože těch 160 je to i s SFU, která je v každém shaderbloku.no-X píše:No, v první řadě je nesmysl těch 160 SPs G80, jak Fuad píše.
No to je jedna věc, mě na tom spíš zaráželo, co už jsem sem psal: že ten příklad počítá s neomezeným počtem SP's na G80 a pouze jedním shaderem na R600.no-X píše:
- Fuad nezná detaily o shader core R600
- Ať jsou výpočetní jednotky vec4+scalar nebo nejsou, je pravda, že od Cat.7.1 na R580 není podporován vec3+scalar split a fungují fixně jako vec4. Teoreticky (a podle článku od Fuada) by to mělo znamenat propad ve výkonu, ale praxe - žádný se nekoná
- Ačkoli se to kdosi snaží všemožně protlačit, není pravda, že by shader core svým výkonem limitovalo výkon čipu – alespoň ne v současných hrách. Pro ty jsou limity jinde. Spíš jde tedy o odvedení pozornosti...
To je poměrně dost odvážné tvrzení, na někoho, kdo ani nebyl v Tunisu a více než všechno ostatní to vypadá jako vystřižené z PR letáku nVidie.Fuad píše:R600 Shaders are 60 percent slower than Nvidia's
myslíš tú druhúno-X píše:Už vzhledem k tomu, že nVidia do teoretického výkonu započítává i výkon MUL jednotky, která se na shadingu nepodílí, je určena pro perspective correction a např. u ATI byla součástí pixel pipeline už od R300 (přičemž nikde nebyla uváděna, protože s pixel shadingem přímo nesouvisí a je to v podstatě samozřejmost), tak totéž platí pro SFU.
In the original performance piece we mentioned that the dual-issue MUL instruction issue capability that NVIDIA presented as being part of the shader processor makeup of G80 wasn't present. Rather we concluded that the 2nd 'missing' MUL was actually part of the special function and interpolation ALU, serial to SF/interpolation and thus the general shading ALUs in each cluster.
In short, during general shading on G80 in the beginning, you couldn't push more than 1 MUL per clock per SP through the hardware. However with recent driver builds and a dependant MUL instruction stream, it's possible to see about 1.15x MUL performance per expected SP (tested with HLSL only), indicating that the driver is opening up the use of the MUL unit to general shading, when interpolated attributes aren't needed or special function calculations need not be performed.
Measured performance with the 101.41 driver under Vista x64 with GeForce 8800 GTX is as follows, for some common instuctions (all performed on singles of course, since the shader core is natively FP32). Remember the 2nd MUL ALU is part of SFU, hence the > 1x ratio versus what's available for general shading in the SP:
- • MUL: 199Gflops (~1.15x)
Jawed@B3Df píše:I've been musing over the organisation of R600's ALU pipeline.
The diagram shows a fat yellow unit sitting beside 4 skinnier yellow units. It's worth noting that those skinny units are disjoint, they're not a single ALU.
The implication here is that R600 is capable of issuing five separate scalar instructions per clock, per pixel (or vertex or primitive).
So, I propose that the fatboy slug is a combined special function and MAD ALU and its weedy cousins are boring old MAD/MUL/ADD ALUs.
So, it's time to roll out my super-nasty code fragment, for one last time (?) :
Note, that's the revised version with a DP3 at the end, not a RCP as I did originally.
R600 doesn't get much chance to stretch its legs on this code, because the instruction dependencies are tighter than a slug's arse. But you should be able to see a bit of instruction-component jiggery-pokery going on in cyles 3 and 4.
Note I've clocked the pipeline at 800MHz on the basis that in theory there'll be such a thing (whose peak capability is 512GFLOPs)...
For comparison, R580:
And Xenos:
Even though the FLOPs utilisation of R600 is only marginally higher than R580 (and it's the same as Xenos), you can see that the per-component utilisation is much higher. Summarising utilisation on the basis of components:Jawed
- R600 = 80%
- R580 = 52.5%
- Xenos = 70%
narazel jsem na tohle... spis jsem nepochopil, co tam potom myslel to srovnavani s R580 a xenosemSo, I propose that the fatboy slug is a combined special function and MAD ALU and its weedy cousins are boring old MAD/MUL/ADD ALUs.
lol..no myslim, žes ho akorát ujistil, žes to vůbec nepochopil. Ale nedělej si z toho hlavu, to asi nikdo tadymyom píše:no-X: ehm... chci se ujistit, ze jsem to alespon trochu pochopil... takze Jawed tvrdi, ze R600 nema typiske shadery jako 8800, ale ze to jsou jasne dane, uzkoprse vypocetni jednotky aby byl pouzit na grafiku, tak je doplnen o ALU jednotky?
nj ja jsem ani nepochopil, co jsem napsal . uz nad tim nebudu premyslet, protoze to stejne nepochopim a stejne je to na prdDelarge píše:lol..no myslim, žes ho akorát ujistil, žes to vůbec nepochopil. Ale nedělej si z toho hlavu, to asi nikdo tady
Pokud se podíváš na to schéma R600, které je úplně nahoře na této stránce threadu, uvidíš, že z každé pětice ALUs je vždycky jedna znázorněna jako větší, než zbylé čtyři ostatní. Jawed se domnívá, že je to tím, že tahle jednotka není jen kalsická ADD/MUL (sčítácí a násobící) ALU, ale že se ještě navíc stará o SF (nějaký ty síni, kosíni, a tak). Ostatní čtyři jsou už klasické ALUs určené pouze pro klasické operace.myom píše:narazel jsem na tohle... spis jsem nepochopil, co tam potom myslel to srovnavani s R580 a xenosemSo, I propose that the fatboy slug is a combined special function and MAD ALU and its weedy cousins are boring old MAD/MUL/ADD ALUs.
Já tipuju že no-X myslel texturovací jednotky...Flegy píše:smim se zeptat co j tedy tim limitujicim prvkem? osobne tak hluboce jako ty a jeste par jinych do problematiky nevidim. a cim vic techhle schemat a odbornosti ctu, tim vic se do toho zaplejtam