G92 - informace, spekulace...

no-X · Příspěvek od **no-X** » stř 25. črc 2007, 21:04

Jackal: ty specifikace jsou dost dobrý nesmysl, minimálně z části

Lukfi: šířka sběrnice paměťového rozhraní má minimální vliv na počet tranzistorů - je třeba to nezaměňovat s paměťovým řadičem

MichiGen: marketingové sousloví "druhá generace blablabla" výkon nepřináší

G80 by především potřebovala rychlejší triangle-setup

Jinak vyvozovat závěry ze "specifikace", která je minimálně z části uvařená z vody, je ztráta času. Ale co, když už tu je tolik odborníků, mohl by mi někdo z nich vysvětlit, k čemu by hypotetické G92 s 512bit sběrnicí byla třeba ta EDRAM?

Lukfi · Příspěvek od **Lukfi** » stř 25. črc 2007, 21:08

MichiGen píše:mozno bude mat karta nejake kombinovane jednotky

Kombinované jednotky? To si nemyslím. To by to pak dopadlo jako s GF6/7 - v teoretických testech zaměřených na jednu věc dopadaly dobře, v reálu to bylo o poznání horší. G92 má mít dvojnásobný teoretický i reálný výkon, což by tomuhle odporovalo.

podla toho second generation pojde imho urcite o nejaku zmenu v architekture

Může být, ale podle mě je to jen výplod marketingového oddělení nVidie. Změny tam zřejmě budou, ale spíše takové subtilní.

o R600 sa toho tiez vela napisalo a nakoniec sa dost veci zmenilo

To jo, ale ty specifikace, který jsme znaly, do sebe jakž takž zapadaly. Tohle info si protiřečí. Minimálně něco z toho je tam špatně, ale nevíme co. Takže nejjistější bude radši nezveřejnovat nic.

Ještě jsem trochu přemýšlel, kolik tranzistorů by cca bylo potřeba na dvojnásobný výkon. Vzpomněl jsem si na R350 versus R420. R420 je oproti R350 rychlejší přibližně o těch 100%. Specifikace vypadají takhle:
Pixel shadery: +100%
Vertex shadery: +50%
Texturovací jednotky: +100% (myslím)
ROPs: +100%
Frekvence: +30%
Paměťová sběrnice: stejná, ale byla vylepšena komprese

R350 má tranzistorů asi 100M, R420 cca 160M. Ale architektura zůstala stejná, změny byly opravdu minimální, nepřidávaly se žádné technologie. Když se přidávají technologie, tak to pak vypadá tak, že R520 měl 320M tranzistorů, ale rozhodně není 2x rychlejší než R420.

=>no-X: R600 s 512bitovou sběrnicí umí 4xAA bez propadu výkonu jako Xenos?

h4__ · Příspěvek od **h4__** » stř 25. črc 2007, 21:14

no-X píše:...Ale co, když už tu je tolik odborníků, mohl by mi někdo z nich vysvětlit, k čemu by hypotetické G92 s 512bit sběrnicí byla třeba ta EDRAM?

Mno nevím, jestli neřeknu blbost, ale možná pro "bezpropadové" AA? Vycházím z tohoto

// Myslím to tak, jak lukfi, akorát jsem nečetl jeho post.

MichiGen · Příspěvek od **MichiGen** » stř 25. črc 2007, 21:19

Uvidime, urcite je predcasne robit zavery a isteze "second generation..." bude hlavne marketingovy nazov , ibaze pokial bude mat karta udavany vykon a nebude mat dvojnasobny pocet tranzistorov ako 8800GTX nic ine ako nejaka zmena architektury ma nenapadla,Mozno bude shader core bezat na este o dost vyssej frekvencii nez na G80?
Uz u G80 sa spekulovalo o AA for free, s 512bit zbernicou a eDRAM by to mohlo byt docela realne.

Partyman · Příspěvek od **Partyman** » stř 25. črc 2007, 21:20

Otázka spíš je, jestli by ta "cache" byla dost velká na to,aby plnila svůj účel. Navíc by to hodně zvětšilo plochu čipu. Stačí se podívat na procesor kolik plochy zabírá cache...

Lukfi · Příspěvek od **Lukfi** » stř 25. črc 2007, 21:22

Akorát tady zatím nikoho nenapadlo, že v budoucnu bude AA realizováno pomocí shaderů, což je náročnější, tak je otázka, jestli by eDRAM byla takovému čipu vůbec něco platná...

no-X · Příspěvek od **no-X** » stř 25. črc 2007, 21:35

"bezproblémové"?

To je co?

Asi takhle... máme tu nějaká fakta:

1. G80 má 384bit sběrnici + GDDR3
2. ROPs G80 zvládají MSAA 4x v jednom taktu
3. propady výkonu při AA4x + fixed resolve jsou na G80 nízké
4. propady výkonu při AA4x + DX10 resolve jsou vysoké

Tak... tzn. brzdí výkon při AA4x propustnost pamětí, aby se vyplatilo použít EDRAM? Ne. Protože kdyby byla propustnost pamětí významnou brzdou, nebyl by propad (při fixed resolve) tak nízký.

Může pomoci EDRAM snížit propady při DX10 resovle? Ne. Protože ten není limitovaný propustností sběrnice (ta je totiž při fixed resolve i DX10 resolve stále stejná, takže kdyby byla sběrnice limitem, byly by propady výkonu v obou případech stejné a to nejsou. Při DX10 resolve se totiž čeká na transport dat do shader core, jejich zpracování a transport zpět - na úrovni čipu)

Pokud má mít hypotetická G92 512bit sběrnici a GDDR4 (což znamená o 60-70% vyšší propustnost), tak by měl být logicky propad při fixed resovle ještě nižší, než na G80. K čemu by pak EDRAM byla?

Dále. Nové hry nebudou fixed resolve podporovat, ale budou používat DX10 resolve, který ani na R600, ani na G80 není limitová propustností paměti... tak proč by nVidia do G92 cpala drahou EDRAM, když by ve většině nových her nepřinesla ani procento výkonu navíc?

nVidia nikdy neimplemenotvala do čipů nic, co by přímo nepřineslo hrubý výkon - pokud to tedy nebyla naprostá nutnost pro splnění specifikací DX. Proč by to najednou měnila?

Xenos měl 10MB EDRAM, podporoval max. MSAA 4x a progresivní rozlišení 720p. Pokud vezmeme v úvahu, že G92 musí být schopna používat rozlišení 2560x1920 a AA 16x, dovedete si představit, jak OBROVSKÁ by ta EDRAM musela být?

//edit: Lukfi: přesně, aspoň někdo tu přemýšlí...

Lukfi · Příspěvek od **Lukfi** » stř 25. črc 2007, 21:45

Dobrá tedy. Ale je taky možný, že nVidia zatahá za nitky a vývojáře v TWIMTBP programu donutí používat fixní resolve, i když se hra bude tvářit jako "DX10". Pokud je shader-assisted resolve striktním požadavkem DX10, asi by se neprodávaly hry s "DX10 patchem", které to nemají, nebo ano?

// hehe, evidentně nás Vy-víte-kdo sleduje... a opět je to jedna perla vedle druhé

:Mára: · Příspěvek od **:Mára:** » stř 25. črc 2007, 22:16

Lukfi píše:Dobrá tedy. Ale je taky možný, že nVidia zatahá za nitky a vývojáře v TWIMTBP programu donutí používat fixní resolve, i když se hra bude tvářit jako "DX10".

Zase ta zlá nVidia kuje své ďábelské plány proti ATI

:Mára: · Příspěvek od **:Mára:** » stř 25. črc 2007, 22:51

Lukfi píše:Ale lobby nVidie je silné, takže bych se nedivil ničemu.

Lobby nVidie je silné nebo lobby ATI je tak slabé ? toť otázka

ATI má bohužel katastrofální marketing a po sloučení s AMD to je snad ještě horší

no-X · Příspěvek od **no-X** » stř 25. črc 2007, 23:17

Lukfi píše:Dobrá tedy. Ale je taky možný, že nVidia zatahá za nitky a vývojáře v TWIMTBP programu donutí používat fixní resolve, i když se hra bude tvářit jako "DX10". Pokud je shader-assisted resolve striktním požadavkem DX10, asi by se neprodávaly hry s "DX10 patchem", které to nemají, nebo ano?

// hehe, evidentně nás Vy-víte-kdo sleduje... a opět je to jedna perla vedle druhé

DX10 resolve je synonymum pro shader resolve. DX10 čip ho musí podporovat, ale DX10 engine ho nemusí požuívat. DX10 resolve slouží primárně pro případy, kdy buďto nelze použít fixed resolve kvůli tomu, že hra používá specifické postupy při renderingu a MSAA nelze standardně provést (UE3), nebo v případech, kdy fixed resolve není matematicky či vizuálně korektní (viz CoJ, kdy je třeba MSAA provést až po tone-mapping, což s fixed resolve nejde). Nikde není určeno, že ho DX10 hry musejí používat.

Lukfi · Příspěvek od **Lukfi** » stř 25. črc 2007, 23:27

=>no-X: Dík. No tak tím je to daný...

=>Mára: On vás ten smích přejde. Abych ti trochu osvěžil paměť... Techland jako první a jediný implementoval DX10 resolve (do CoJ). Načež nVidia se do vývojářů opřela, že prý úmyslně použili takové techniky, které snižují výkon karet nVidia. Techland to celé zveřejnil i s odpovědí, a nemyslím si, že by vztahy těchto dvou firem teď byly nějaké dobré.
Teď si představ, že jsi vývojář, a chceš z nějakého důvodu použít DX10 resolve, zároveň bys ale taky rád použil výhody TWIMTBP programu, aby ti programátoři z nVidie napsali složitější shadery. A nVidia ti řekne: "Buď použijete fixní resolve, nebo si ty shadery napište sami." Že je nVidia takových věcí schopná, dokázala už tím, že podobným vydíráním výrobců desek, aby nekupovali VIA K8T900. Tohle jim nikdy nezapomenu.

Partyman · Příspěvek od **Partyman** » stř 25. črc 2007, 23:40

Lukfi píše:...

Pěkná konspirační teorie. Zákaznikovi ale může být pozadí celé věci úplně jedno. Prostě karta X je rychlejší jak Y a hotovo. Spíš se bavím tím jak NV je ta podlá a zlá a ATI je ta poctivá a slušná

Lukfi píše:Tohle jim nikdy nezapomenu.

Business je business a protože ho NV dělá líp, tak proto je ATI až č.2.

Lukfi · Příspěvek od **Lukfi** » stř 25. črc 2007, 23:50

Partyman píše:Pěkná konspirační teorie. Zákaznikovi ale může být pozadí celé věci úplně jedno. Prostě karta X je rychlejší jak Y a hotovo. Spíš se bavím tím jak NV je ta podlá a zlá a ATI je ta poctivá a slušná

Ano, zákazníkovi je to jedno. Jak jsme se vůbec dostali k tomuhle? Á, už vím, přes eDRAM a AA zadarmo. No, tak právě jsem chtěl trochu rozvést spekulaci, že kdyby G92 opravdu měla eDRAM, která by jí měla pomoct při AA, tak by nVidia musela nějak přesvědčit vývojáře, aby nepoužívali DX10 resolve. A vtip je v tom, že nVidia na to má svoje páky. I když teda, jak píše no-X, UE3 fixní resolve údajně podporovat nebude a co jsem slyšel, tak UE3 je hodně oblíbeným enginem pro různé vývojáře, kteří si ho licencují. Takže to bude zajímavé.

Partyman píše:Business je business a protože ho NV dělá líp, tak proto je ATI až č.2.

Intel udělal to samé, AMD ho včas zažalovalo a vyhrálo. Nejsem právník, ale tenhle precedens mi stačí k tomu, abych mohl konstatovat, že krom toho, že je to špinavost, je to i nelegální.

no-X · Příspěvek od **no-X** » stř 25. črc 2007, 23:54

Ani s fixed resolve nemá EDRAM smysl. Vždyť 512bit sběrnice s GDDR4 má skoro stejnou propustnost, jakou má EDRAM v Xboxu360...

no-X · Příspěvek od **no-X** » čtv 26. črc 2007, 11:52

Hulán je naivní, že tomu věří (EDRAM, R.I.P.)

nVidia sice přechodem na 65nm získá hodně prostoru na jádře na další výpočetní jednotky a pro frekvence, ale v těch specifikacích je tolik evidentních nesmyslů, že je jisté, že ten, kdo je psal, je prostě zkompiloval z toho, co psaly různé novinkové servery po netu a nikoli že by pocházely z nějakého důvěryhodného zdroje.

Taky si myslím, že nVidia především bude chtít zmenšit velikost jádra (NVIO jsou náklady navíc jak v ceně PCB, tak v podobě nákladů na další čip - samotný NVIO má tolik tranzistorů, jako měly před nedávnem low-end grafiky), takže pochybuju, že by připravovali čip větší , než G80.

Jinak se mi líbí jedna teorie (no, pochází z od velmi dobře informovaného člověka, takže je to možná víc než teorie) vysvětlující 1. proč je NVIO zvlášť, 2. proč je G80 tak velká (mezní velikost 90nm čipu), proč původně mnohé zdroje uváděly horší parametry, než finální G80 měla:

nVidia chystala G80, ATi R600. ATi má ve zvyku navrhnout "kostru" čipu (paměťový řadič, řídící obvody/procesory, fixně přítomné části čipu) ve stylu overkill, tzn. mnohem komplexnější, než první generace čipů na dané architektuře dokáže využít, ale s dalšími refreshi už nemusí dělat na těchto částech žádné úpravy a jen mění množství výpočetních jednotek/quadů atp. Podle všeho R600 měla mít podle původních plánů více výpočetních jednotek, jenže 65nm proces byl daleko, takže kvůli 80nm byly některé vypuštěny. Přesto mnohé parametry byly stále zajímavé (512bit sběrnice, 64 5D ALUs)...

Původní G80 zřejmě nesla 128 ALUs, jako současná, ale 32 klasických texturovacích jednotek (nikoli 32 dvojitých - se dvěma texture filtering units - jako současná). Těžko říct, co zbytek čipu - možná, že i ROPs nebylo 24, ale 16 a sběrnice byla 256bit a nikoli 384bit, ale to už můžeme jen hádat. Každopádně - k nVidii se zřejmě dostaly informace o R600 (a je docela jedno, jestli o původní nebo současné verzi), na což nVidia reagovala úpravou čipu (pamatujete, že se původně mluvilo, že G80 vyjde koncem jara 2006? - tipuju, že tehdy šlo o onu původní verzi. Nakonec se ale vše zrušilo a místo ní se připravila dvoučipová 7950GX2).

Nastala tedy otázka, co v G80 "zlepšit". Streaming units a TMUs jsou spjaty v určitém poměru a přidávání celků (de-facto quadů) by znamenalo příliš velké navýšení plochy jádra. Zvyšování počtu streaming units v quadu zřejmě z nějakého důvodu také nebylo východiskem (jednotky jsou možná seskupovány v určitých celcích, čemuž odpovídá i organizace řídících obvodů a přidání komplet celku (např. čtveřice či osmice) + rozšíření řídících obvodů by taktéž bylo příliš nákladné, tak došlo k přidání jedné texture-filtering unit do každé texturovací jednotky.)

To sice samo o sobě není optimální krok z hlediska poměru navýšení počtu tranzistorů/výkon (protože k využití druhé texture filtering units dojde jen při trilineární či anizotropní filtraci, přičemž při mnoha operacích se požívá bilineární fitlrace a point sampling /DX10/, při kterém druhá jednotka stojí), ale bylo to nejschůdnější řešení, nVidia tím získala trilineární / základní anizotropní (2x) filtraci prakticky bez ztráty výkonu (to jednak zvyšuje výkon při testech s AF a druhak to působí dost "luxusně" či "nadstandardně").

V tomhle odstavci trochu odbočím - toto je moje vlastní hypotéza: Není nelogické se domnívat, že původní G80 mohla nést 16ROPs a 256bit sběrnici (podle jednoho vývojáře, který dostal začátkem loňského roku G80 do rukou, skutečně 256bit sběrnici měla). Počet ROPs těžko odhadneme - mohl být 16, mohl být 24, každopádně pokud jich bylo 16, znamenalo zvýšení výkonu texturovacích jednotek vyšší nasycení ROPs, takže byl jejich počet zvýšen o 50% a analogicky došlo i 50% rozšíření paměťové sběrnice.

Zpět. Výkonnější texturing engine dokázal více vytížit shader core, takže se limitace přesunuly na něj (nebyl to špatný krok - shader core bylo zcela nové, efektivní i v případě, že není po stránce hrubého výkonu nijak extra rychlé, došlo k tomu, že je permanentně využité/vytížené na své maximum, takže předvádí od začátku svůj plný výkon - což je dobré i z hlediska marketingového, protože když jede nadoraz, podává své maximální výkony a k tomu vypadá efektivně a zajímavě i na papíře, je výsledný dojem o dost lepší, než kdyby (kvůli nevytíženosti), podávalo výkony nižší - tedy v rozporu s "papírovými" specifikacemi.

Jenže - tyto změny navýšily rozměry čipu nad hranici únosnou pro 90nm proces, takže "něco" bylo z čipu vyhozeno ven a konkrétně to odnesl display engine (NVIO, jako externí čip).

Tahle teorie dává smysl, alespoň na mě působí celistvým dojmem, takže pokud budeme předpokládat, že je pravdivá (což potvrzují i parametry mainstream/low-end G8x čipů, které na rozdíl od G80 nesou jen jednoduché texturovací jednotky), můžeme na ní stavět dál.

Víme, že grafické čipy bývají navrženy dost dlouho předtím, než jsou vydány (pak se čeká na výrobní proces, ladí výroba, odstraňují bugy, připravují drivery...), takže nástupce G80 mohl být navržen již v době, kdy byla připravena původní (pomalejší) G80. Takže ten "nástupce" nemusí být o tolik rychlejší, než současná G80. Tzn. máme tu dvě možnosti:

1. nástupce současné G80 byl též přepracován, z důvodu odkladu místo něj byla vydána G80 Ultra a onen nástupce vyjde jako mnohem výkonnější karta koncem roku

2. nástupce přepracován nebyl (nVidia cítí, že to není potřeba), jen čeká na 65nm proces, kvůli jehož zpoždění byla vydána G80 Ultra, která tak jako tak požadavkům trhu více než dostačuje (ATi nevydala XTX atd.)

Osobně považuju za pravděpodobnější druhou variantu. Takže bych mezi G80 a novým high-endem čekal podobné rozdíly, jako mezi NV40 a G70 nebo G70 a G71 - spíš něco mezi (ne tak velký výkonnostní rozdíl, jaký byl mezi NV40 a G70, ale ani tak malý technologický rozdíl, jaký byl mezi G70 a G71). Každopádně to bude refresh současného čipu – už při vydání nVidia ohlašovala, že minimálně 3 roky ještě na téhle architektuře plánuje stavět, takže prostory pro nesmysly* jako EDRAM jsou opravdu minimální

*aby MichiGen opět netvrdil, že si odporuju – myslím tím EDRAm v souvislosti s touto architekturou. Hypotetický čip s 512bit/GDDR4, který už v konfiguraci 384bit/GDDR3 nabízí s MSAA 4x minimální propady výkonu, skutečně EDRAM pro snížení propadů výkonu při MSAA 4x nepotřebuje

(aneb naco přidávat die 2x2cm, která sníží propady výkonu o 10%, když přidáním výpočetních jednotek do čipu o rozměrech die 2x2 cm by celkový výkon čipu vzrostl na dvojnásobek?)

MichiGen · Příspěvek od **MichiGen** » čtv 26. črc 2007, 12:14

Tiez si myslim ze pri 512bit zbernici + rychle pamate budu prepady vykonu minimalne, ale to som si myslel aj o R600 ale to je zase iny pripad, neviem teda k comu tam ma ta eDRAM byt, ale inzinieri hadam museli mat nejaky dovod.

Lukfi · Příspěvek od **Lukfi** » čtv 26. črc 2007, 12:17

no-X píše:ATi má ve zvyku navrhnout "kostru" čipu (paměťový řadič, řídící obvody/procesory, fixně přítomné části čipu) ve stylu overkill, tzn. mnohem komplexnější, než první generace čipů na dané architektuře dokáže využít, ale s dalšími refreshi už nemusí dělat na těchto částech žádné úpravy a jen mění množství výpočetních jednotek/quadů atp.

Sice to sem nepatří, ale ví se proč R650 nebude a ATi příští rok chce představit novou R700, což je zase nová architektura?

=>MichiGen: možná bys spíš měl připustit možnost, že ty specifikace jsou celé kravina...

MichiGen · Příspěvek od **MichiGen** » čtv 26. črc 2007, 12:39

Lukfi píše:=>MichiGen: možná bys spíš měl připustit možnost, že ty specifikace jsou celé kravina...

Na zaklade coho??Ja netvrdim ze to v cipe bude ani ze to v cipe nebude... iba podla prvych sprav a spekulacii uvazujem preco by to tam byt mohlo alebo nemuselo byt co ale no-X uz rozobral vyssie.

Lukfi · Příspěvek od **Lukfi** » čtv 26. črc 2007, 12:48

MichiGen píše:Ja netvrdim ze to v cipe bude ani ze to v cipe nebude...

MichiGen píše:neviem teda k comu tam ma ta eDRAM byt, ale inzinieri hadam museli mat nejaky dovod.

mně tahle věta vyzněla tak, jako že o pravdivosti specifikací není pochyb a teď už jen musíme nějak vysvětlit, proč to tam všechno je...