richie08 píše:1) To vyznívá, že ATi má čipy 4x efektivnější (2x frekvence a 2x plocha čipu). Ale tak to nelze brát, protože tu větší plochu zabírají právě obvody pro dosažení vyšší frekvence.
Ne, to postrádá logiku. Unifikované jádro je zároveň 2x vyšší a zároveň běží na 2x vyšší frekvenci. Ve výsledku přináší 25% výkonu navíc ve hrách. V čistě syntetických aritmetických testech, jako je perlin noise, na tom může být i hůř.
Obvody pro podporu vysokých frekvencí nemůžeš zanedbávat, protože právě ony jsou součástí konceptu unifikovaného jádra a bez nich by nemohlo fungovat tak, jak funguje. Právě ony jsou jedním z důvodů, proč má unifikované jádro při tak velké ploše nepříliš výrazný výkon.
richie08 píše:Podle mne by bylo lepší nechat frekvence stranou a porovnávat efektivitu SPs brát jen jako: (reálný výkon) / plocha. Do té plochy čipu GT200 počítáš i jednotky pro Double precision? Podle mne by se tam počítat neměly, když chceme srovnávat efektivitu SPs.
Srovnáváme tu efektiviu unifikovaného jádra. Nemůžeme porovnávat pouze SPs, protože jednak nevíme, jak velké jsou samotné SPs a především - vše, co SPs vyžadují pro svýj běh, je nutné zohlednit, protože to vše navyšuje plochu čipu. U obou architektur odlišně. A proto je i efektivita obou architektur odlišná.
DP jednotky nVidie jsou právě další z chyb, která srazila efektivitu směrem dolů. ATi zvládá realizovat DP operace setem základních SPs (těmi čtyřmi identickými z každé ALU), žádné speciální jednotky, které jen zabírají místo, nepotřebuje. Stejně tak ATi nepotřebuje žádné mini-SPs pro specifické funkce, vše běží na základních SPs.
Význam slova efektivita nespočívá v dosažení ideje, kdy čip bude složen z 1mm² ALU a 399mm² obvodů, které ho budou udržovat v chodu. Těch 399mm² je taky z křemíku, ze stejně drahého křemíku, taky to konzumuje energii a taky produkuje odpadní teplo.
richie08 píše:2) Efektivita je jedna věc a využitelnost z hlediska architektury druhá. Ne všechny algoritmy lze tak výhodně paralelizovat. Když pominu algoritmy, které vůbec paralelizovat nejdou, tak ty které jdou za to platí za daň ve formě režie (synchronizace vláken atd.). Když to vezmu čistě teoreticky, tak je lepší mít 1 SP který běží na 800x vyšší frekvenci - je to mnohem univerzálnější než mít RV770. Samozřejmě prakticky jsme limitování fyzikálními vlastnostmi čipu (frekvence atd.), ale to bylo jen pro názornost.
Jaká je pointa této názorné ukázky? Z teorie o 800x vyšší frekvence nelze vyvozovat nic - i kdybychom řešili jen 4x vyšší frekvenci, zjistíme, že pro její dosažení by bylo třeba tolik tranzistorů navíc a s o tolik nižší denzitou, že by výkon na jednotku plochy klesl hluboko pod úroveň současných produktů. Podobné příklady jsou silně zavádějící.
richie08 píše:Tedy ve skutečnosti je to nějaký balanc (trade of, optimální stav) pro daný set aplikací, které se budou na danné čipu provozovat. NVidia je tedy zřejmě vybalancovaná víc na univerzální kód (negrafické aplikace) než ATi. S tím se také nV netají.
To tvrdí nVidia. Máme nějaký důkaz pro to, že to tak opravdu funguje? Protože to jediné, z čeho pár lidí (mylně) vycházelo, je F@H. Mylně proto, že pro ATi je od doby R6xx využívána stará Brook+ verze, která z čipu využívá jen 320SPs... z 800SPs RV770 využívá jen 320 (40%), ze 1600SPs RV870 využívá jen 320 (20%)... Proto je v tabulce na webu Stanfordu čím dál větší rozpor mezi teoretickým a reálným výkonem.
richie08 píše:Co se týká nárůstu výkonu, tak to je ještě víc ošemetné srovnání. RV870 narostla v tranzistorech 2.2x a výkon je vyšší o 50%?
Záměrně jsem srovnával 55nm RV770 a 55nm GT200b. Na tom není nic ošemetného, jde o dvě architektury na stejném výrobním procesu, které jsou dobře známé a zdokumentované.
RV870 je nový produkt s nevyladěnými ovladači a s nezdokumentovanou GF100 ho ani není jak srovnávat. Vzhledem k absenci die-shotu RV870 existují názory, že v čipu může být nějaká část deaktivována. Dokud tahle hypotéza není potvrzená nebo vyvrácená, nedá se objektivně efektivita posuzovat. Krom toho nelze srovnávat počet tranzistorů s RV770 - ta není kompatibiliní s DX11, jehož podpora není z hlediska návrhu čipu nic levného.
richie08 píše:Pokud je tím míněn celkový, pak samozřejmě je to také zkreslené protože limitem může být něco jiného než SPs.
Pokud srovnáváme vliv unifikovaného jádra na herní výkon, tak to těžko lze vyjádřit jiným způsobem, než rozdílem parametrů unifikovaných jáder oproti rozdílu v herním výkonu
Nikdo netvrdí, že ostatní aspekty na herní výkon nemají vliv, ale pokud nás zajímá vliv unifikovaného jádra, pak má pramalý smysl tahat do toho texturovací jednotky.