Sobo píše:Ad srovnání: lepší by možná bylo porovnávat HD 2900Pro 512bit s HD 2900Pro 256bit. Mimo sběrnici naprosto identické karty, rozdíl ve výkonu 0,00nic.
Nebo tak

Já jsem tam chtěl zahrnout vliv odlišných ROPs, ale v podstatě je to jedno...
ROPs v současné době vykonávají některé funkce, které provádějí i SPs, takže jde o duplicitu. V některých případech by imho výkon SPs mohl být mnohem větší, v některých trochu nižší... Ale jde hlavně o to, že texturovací jednotky a ROPs jsou obrovské funkční bloky, které konzumují výraznou část jádra.
S texturovacími jednotkami se toho až zas tolik udělat nedá - emulovat filtraci textur by bylo neefektivní (filtrace textur je při emulaci 3D renderingu na CPU vůbec to nejnáročnější; pamětníci si určitě vybaví SW akcelerované hry z 90. let, které tahaly za oči právě těmi nefiltrovanými /při pohybu zrnícími/ texturami), texture addressing ALUs - alespoň v současné podobě - by bylo velmi obtížné a časově náročné navrhovat a optimalizovat ručně, aby mohly běžet na dvojnásobné frekvenci jako současné SPs nVidie a konzumovat tak jen polovinu místa (což byl důvod, proč je nVidia při návrhu G80 vyhodila ze shader core - NV40/G70 totiž pro texture addressing používala pixel shader ALU, G80/GT200 je kvůli zmíněným problémům má opět vydělené mimo unifikované jádro). nVidia sice nějaké 4 roky pracuje na nové architektuře, takže by se na to mohla zaměřit, ale imho je ho zatím zbytečné.
Takže zbývají ROPs. Jsou velké, některé funkce jsou duplicitní a jejich emulace by nebyla tak náročná, jako v případě texturovacích jednotek. Je pravda, že při emulovaném MSAA resolve na R600 byl problém s propady výkonu. Nedávno jsem si ty rozdíly srovnával s R580 a RV770 a je to poměrně zajímavé - propady jsou největší u nejnižšího počtu vzorků. Tím myslím, že propad při FSAA 2x je oproti R580 a RV770 velký, zatímco propad při FSAA 8x je oproti RV770 poměrně nízký. Zřejmě jde o to, že určitá fáze toho zpracování je stejně náročná bez ohledu na počet vzorků. To by imho ale mohlo jít vychytat po stránce HW návrhu - přecijen, i když R600 byla pro emulovaný resolve částečně optimalizovaná, neměl být využíván primárně.
Druhá věc je, že pár týdnů po vydání RV770 vyšly ovladače, které o desítky procent snížily propady výkonu při edge-detect režimu (při kterém se též používá emulovaný resolve). Bohužel to tehdy nikdo pořádně neotestoval, takže víme starou belu, jestli to pomohlo i R6xx, nebo ne, jen že to na RV770 výrazně zvedlo výkon. Věřím, že pokud by emulovaný resolve měl být využívaný primárně (nebo výhradně), určitě by na tom ještě zapracovali.
A poslední věc je, že je vhodnější tohle posuzovat nikoli z hlediska propadu výkonu při jedné konkrétní operaci, ale z hlediska průměrného výkonu na 1 tranzistor (případně na jednotku plochy, pokud jde o stejný výrobní proces). Je pravděpodobné, že některé procesy budou přes shader core zpracované výrazně rychleji, takže jiné, i když budou pomalejší, nezpůsobí v průměru takový propad, aby tahle cesta byla méně výhodná. Navíc tím, že vyhodíme ROPs, můžeme uvolněný prostor využít pro další SPs, případně i TMUs, čímž se celkový výkon zvedne.
Ještě mě napadají dva důvody pro tenhle přístup a imho půjde o dva nejpodstatnější:
1. odstranění limitů - jedna hra může být limitovaná výkonem ALUs a ROPs mohou zahálet, druhá hra může být limitovaná výkonem ROPs a ALUs budou zahálet. V praxi to znamená, že část čipu není využitá. Pokud budou oba typy operací prováděné stejnou výpočetní jednotkou, uzpůsobí se de facto čip na 100% požadavkům hry a bude fungovat efektivněji. To je stejné jako u unifikace shaderů...
2. čipy jsou stále větší a komplexnější a stejně tak i samotné jednotky v nich... jejich návrh je tedy čím dál náročnější a pokud se nějakým způsobem nebude zjednodušovat, budou intervaly mezi vydáváním nových produktů čím dál delší... takže vynechání ROPs (po vynechání VS) může být dalším krokem, jak zvyšující nároky kompenzovat... když v čipu nebudou ROPs, nebude je třeba navrhovat (ony teda budou nahrazeny imho jen po stránce aritmetické části, nějaká silně zjednodušená fixní část napojená na řadič tam zbyde, ale o to teď nejde)...
Je jen otázka času, kdy se oběma výrobcům bude zdát výhodné na tenhle systém přejít.