Stránka 46 z 48

Napsal: ned 29. dub 2007, 20:11
od Smeli
Mlže někdo vysvětlit tu L2 cache?

Napsal: ned 29. dub 2007, 20:14
od no-X
Co na ní chceš vysvětlit? Tady máš obrázek, na kterém je znázorněná :-)

Obrázek

Napsal: ned 29. dub 2007, 21:30
od no-X
Pavel.P. píše:Cappy to dělá s radostí a pro zábavu... :D
Hmmm
http://www.fudzilla.com/index.php?optio ... 3&Itemid=1
:) Sice už to tu zaznělo asi ale co... :) (nevím proč ale Fudzilla je divná... ale je... :D )
Lukfi píše:Jo ten článek na fudzille jsem taky právě viděl... přijde mi to nějaký divný, že co podle Fuda zvládne G80 na jeden takt (že to rozhodí do skalárních jednotek), R600 musí dělat na víc taktů. Čet jsem to jenom zběžně ale přišlo mi to že ten příklad počítá s neomezeným počtem SP's na G80 a pouze jedním shaderem na R600.
No, v první řadě je nesmysl těch 160 SPs G80, jak Fuad píše. Nevím, jestli to má od nVidie, ale tentokrát bych tomu i věřil. Takhle "odborný", ale zavádějící článek by sám dohromady nedal. Už vzhledem k tomu, že nVidia do teoretického výkonu započítává i výkon MUL jednotky, která se na shadingu nepodílí, je určena pro perspective correction a např. u ATI byla součástí pixel pipeline už od R300 (přičemž nikde nebyla uváděna, protože s pixel shadingem přímo nesouvisí a je to v podstatě samozřejmost), tak totéž platí pro SFU. Taky jsou součástí pixel shaderu už několik let a taky se extra nezapočítávají.

Druhý nesmysl je celá ta teorie. Ano, samostatná fakta jsou více-méně pravdivá, ale kdyby se fungování grafického čipu dalo popsat ve třech odstavcích, tak by dnes Matrox mohl být opět králem grafických karet, protože navrhování čipů podle půlstránkovýho návodu by zvládala i uklízečka po pracovní době :-)

Shrnu to tedy do třech bodů:
  • Fuad nezná detaily o shader core R600
  • Ať jsou výpočetní jednotky vec4+scalar nebo nejsou, je pravda, že od Cat.7.1 na R580 není podporován vec3+scalar split a fungují fixně jako vec4. Teoreticky (a podle článku od Fuada) by to mělo znamenat propad ve výkonu, ale praxe - žádný se nekoná :wink:
  • Ačkoli se to kdosi snaží všemožně protlačit, není pravda, že by shader core svým výkonem limitovalo výkon čipu – alespoň ne v současných hrách. Pro ty jsou limity jinde. Spíš jde tedy o odvedení pozornosti...

Napsal: ned 29. dub 2007, 21:36
od sh
novinky od Levi produktaka .)

DD,

do 10 dnu skladem:

ASUS EAH2900XT/G/HTVDI/512M

a

ASUS EN8800ULTRA/HTDP/768M

:)

cena sedi jak jsem psal akorat bude zpetny rabat 30$ cili nakonec se dostaneme s tou cenou na 9k v nakupu

MV

Napsal: ned 29. dub 2007, 21:41
od Lukfi
no-X píše:No, v první řadě je nesmysl těch 160 SPs G80, jak Fuad píše.
Ale on tam pak řekne, že je jich vlastně 128, protože těch 160 je to i s SFU, která je v každém shaderbloku.
no-X píše:
  • Fuad nezná detaily o shader core R600
  • Ať jsou výpočetní jednotky vec4+scalar nebo nejsou, je pravda, že od Cat.7.1 na R580 není podporován vec3+scalar split a fungují fixně jako vec4. Teoreticky (a podle článku od Fuada) by to mělo znamenat propad ve výkonu, ale praxe - žádný se nekoná :wink:
  • Ačkoli se to kdosi snaží všemožně protlačit, není pravda, že by shader core svým výkonem limitovalo výkon čipu – alespoň ne v současných hrách. Pro ty jsou limity jinde. Spíš jde tedy o odvedení pozornosti...
No to je jedna věc, mě na tom spíš zaráželo, co už jsem sem psal: že ten příklad počítá s neomezeným počtem SP's na G80 a pouze jedním shaderem na R600.
A asi nejpodezřelejší bod celého toho článku je tohle:
Fuad píše:R600 Shaders are 60 percent slower than Nvidia's
To je poměrně dost odvážné tvrzení, na někoho, kdo ani nebyl v Tunisu a více než všechno ostatní to vypadá jako vystřižené z PR letáku nVidie.

Napsal: ned 29. dub 2007, 21:41
od crux2005
no-X píše:Už vzhledem k tomu, že nVidia do teoretického výkonu započítává i výkon MUL jednotky, která se na shadingu nepodílí, je určena pro perspective correction a např. u ATI byla součástí pixel pipeline už od R300 (přičemž nikde nebyla uváděna, protože s pixel shadingem přímo nesouvisí a je to v podstatě samozřejmost), tak totéž platí pro SFU.
myslíš tú druhú :)

- http://www.beyond3d.com/content/reviews/7/17
In the original performance piece we mentioned that the dual-issue MUL instruction issue capability that NVIDIA presented as being part of the shader processor makeup of G80 wasn't present. Rather we concluded that the 2nd 'missing' MUL was actually part of the special function and interpolation ALU, serial to SF/interpolation and thus the general shading ALUs in each cluster.

In short, during general shading on G80 in the beginning, you couldn't push more than 1 MUL per clock per SP through the hardware. However with recent driver builds and a dependant MUL instruction stream, it's possible to see about 1.15x MUL performance per expected SP (tested with HLSL only), indicating that the driver is opening up the use of the MUL unit to general shading, when interpolated attributes aren't needed or special function calculations need not be performed.

Measured performance with the 101.41 driver under Vista x64 with GeForce 8800 GTX is as follows, for some common instuctions (all performed on singles of course, since the shader core is natively FP32). Remember the 2nd MUL ALU is part of SFU, hence the > 1x ratio versus what's available for general shading in the SP:
  1. • MUL: 199Gflops (~1.15x)

Napsal: ned 29. dub 2007, 21:56
od no-X
Každopádně lepší než Fuadůvo povídání je toto :twisted:
Jawed@B3Df píše:I've been musing over the organisation of R600's ALU pipeline.

The diagram shows a fat yellow unit sitting beside 4 skinnier yellow units. It's worth noting that those skinny units are disjoint, they're not a single ALU.

The implication here is that R600 is capable of issuing five separate scalar instructions per clock, per pixel (or vertex or primitive).

So, I propose that the fatboy slug is a combined special function and MAD ALU and its weedy cousins are boring old MAD/MUL/ADD ALUs.

So, it's time to roll out my super-nasty code fragment, for one last time (?) :

Obrázek

Note, that's the revised version with a DP3 at the end, not a RCP as I did originally.


Obrázek


R600 doesn't get much chance to stretch its legs on this code, because the instruction dependencies are tighter than a slug's arse. But you should be able to see a bit of instruction-component jiggery-pokery going on in cyles 3 and 4.

Note I've clocked the pipeline at 800MHz on the basis that in theory there'll be such a thing (whose peak capability is 512GFLOPs)...

For comparison, R580:

Obrázek

And Xenos:

Obrázek

Even though the FLOPs utilisation of R600 is only marginally higher than R580 (and it's the same as Xenos), you can see that the per-component utilisation is much higher. Summarising utilisation on the basis of components:
  • R600 = 80%
  • R580 = 52.5%
  • Xenos = 70%
Jawed

Napsal: ned 29. dub 2007, 22:31
od myom
no-X: ehm... chci se ujistit, ze jsem to alespon trochu pochopil... takze Jawed tvrdi, ze R600 nema typiske shadery jako 8800, ale ze to jsou jasne dane, uzkoprse vypocetni jednotky aby byl pouzit na grafiku, tak je doplnen o ALU jednotky? :?

Napsal: ned 29. dub 2007, 22:34
od no-X
Nějak vůbec nechápu, o čem mluvíš :D

Napsal: ned 29. dub 2007, 22:43
od myom
So, I propose that the fatboy slug is a combined special function and MAD ALU and its weedy cousins are boring old MAD/MUL/ADD ALUs.
narazel jsem na tohle... spis jsem nepochopil, co tam potom myslel to srovnavani s R580 a xenosem

Napsal: ned 29. dub 2007, 22:44
od Delarge
myom píše:no-X: ehm... chci se ujistit, ze jsem to alespon trochu pochopil... takze Jawed tvrdi, ze R600 nema typiske shadery jako 8800, ale ze to jsou jasne dane, uzkoprse vypocetni jednotky aby byl pouzit na grafiku, tak je doplnen o ALU jednotky? :?
lol..no myslim, žes ho akorát ujistil, žes to vůbec nepochopil. Ale nedělej si z toho hlavu, to asi nikdo tady :lol:

Napsal: ned 29. dub 2007, 22:48
od myom
Delarge píše:lol..no myslim, žes ho akorát ujistil, žes to vůbec nepochopil. Ale nedělej si z toho hlavu, to asi nikdo tady :lol:
nj ja jsem ani nepochopil, co jsem napsal :lol: . uz nad tim nebudu premyslet, protoze to stejne nepochopim a stejne je to na prd :P

Napsal: ned 29. dub 2007, 22:57
od no-X
myom píše:
So, I propose that the fatboy slug is a combined special function and MAD ALU and its weedy cousins are boring old MAD/MUL/ADD ALUs.
narazel jsem na tohle... spis jsem nepochopil, co tam potom myslel to srovnavani s R580 a xenosem
Pokud se podíváš na to schéma R600, které je úplně nahoře na této stránce threadu, uvidíš, že z každé pětice ALUs je vždycky jedna znázorněna jako větší, než zbylé čtyři ostatní. Jawed se domnívá, že je to tím, že tahle jednotka není jen kalsická ADD/MUL (sčítácí a násobící) ALU, ale že se ještě navíc stará o SF (nějaký ty síni, kosíni, a tak). Ostatní čtyři jsou už klasické ALUs určené pouze pro klasické operace.

Jinak srovnání s Xenosem a R580 je právě to, o čem v celým tom postu jde :-) Jawed rozebírá, jak efektivně jsou výpočetní jednotky těchto tří čipů vytíženy (Xenos a R580 jsou po stránce architektury známé a R600 posuzuje podle své domněnky) a výsledek je ten, že mu R600 vychází o 50% efektivnější na výpočení jendotku.

Ale jak říkám, můj názor je takový, že shader core není pro současné hry limitujícím prvkem výkonu R600, takže i kdyby bylo jen o čtvrtinu efektivnější, než u R580, tak by to s výkonem čipu v DX9 hrách imho nijak nehlo :)

Napsal: ned 29. dub 2007, 23:10
od Flegy
smim se zeptat co j tedy tim limitujicim prvkem? osobne tak hluboce jako ty a jeste par jinych do problematiky nevidim. a cim vic techhle schemat a odbornosti ctu, tim vic se do toho zaplejtam :oops:

Napsal: ned 29. dub 2007, 23:15
od Lukfi
Flegy píše:smim se zeptat co j tedy tim limitujicim prvkem? osobne tak hluboce jako ty a jeste par jinych do problematiky nevidim. a cim vic techhle schemat a odbornosti ctu, tim vic se do toho zaplejtam :oops:
Já tipuju že no-X myslel texturovací jednotky...

Napsal: ned 29. dub 2007, 23:20
od Andre3D
Já zase tipuju ROP jednotky. :roll:

EDIT: Tak o tom přemýšlím:
G80 575Mhz *24 ROP = 13800
R600 800Mhz *16 ROP = 12800
Asi to bude těma TMU.

Napsal: ned 29. dub 2007, 23:22
od MichiGen
Urobte tu z toho hlasovanie ,na co podla vas no-X mysli :razz: ja tipujem ze texturovacie jednotky nemysli, k vysokemu hrubemu fillrate vykonu NV bol vzdy skepticky

Napsal: ned 29. dub 2007, 23:40
od no-X
Andre3D: ROPs jsou myslím v pohodě, měly by být výrazně lepší než na R580

MichiGen: Ano, ovšem to, k čemu se dostáváme s G80 a R600 už jsou dva extrémní případy. G80 má pro shader core vymezenou menší část jádra, která běží na vyšší frekvenci, aby mělo dostatečný výkon. Aby bylo permanentně využité (imho není zas tak výkonné, aby si mohlo dovolit čekat na texturing), tak velkou část jádra vyplňuje 32 "dvojitých" texturovacích jednotek.

Naproti tomu R600 má výkonné shader core, které zabírá většinu plochy čipu a k tomu je přiřazen menší počet texturovacích jednotek (víc by se jich na 80nm čip nevešlo). Takže to podle mě dopadne tak, že DX9 bude shader core R600 čekat na texturovací jednotky a v DX10 budou texturovací jednotky G80 čekat na shader core...

Lukfi: bingo... zatím je to jen můj osobní názor, bude to chtít podrobnější info a několik pořádných recenzí, abych se ujistil nebo změnil názor :-)

Napsal: ned 29. dub 2007, 23:48
od MichiGen
no-X zaujimava teoria :) zial ak by to tak bolo tak by ATI nedodrzala svoje prehlasenia o tom ze R600 bude najrychlejsi DX9 cip , no po tej dobe od kedy nieco take kolovalo nato mnohi mozno aj zabudli

Napsal: pon 30. dub 2007, 00:34
od Andre3D
Teď je otázkou zda není pro 16 TMU zbytečná 512b sběrnice. Nebo bude nejvíce využívána při AA. A nebo při PS operacích (nevím jak jsou náročné na propustnost RAM).

A ještě jedna věc, jestli to dobře chápu G80 na HDR filtrování využívá TMU naopak R600 to provádí přes PS? :roll: