Hulán je naivní, že tomu věří (EDRAM, R.I.P.)

nVidia sice přechodem na 65nm získá hodně prostoru na jádře na další výpočetní jednotky a pro frekvence, ale v těch specifikacích je tolik evidentních nesmyslů, že je jisté, že ten, kdo je psal, je prostě zkompiloval z toho, co psaly různé novinkové servery po netu a nikoli že by pocházely z nějakého důvěryhodného zdroje.
Taky si myslím, že nVidia především bude chtít zmenšit velikost jádra (NVIO jsou náklady navíc jak v ceně PCB, tak v podobě nákladů na další čip - samotný NVIO má tolik tranzistorů, jako měly před nedávnem low-end grafiky), takže pochybuju, že by připravovali čip větší , než G80.
Jinak se mi líbí jedna teorie (no, pochází z od velmi dobře informovaného člověka, takže je to možná víc než teorie) vysvětlující 1. proč je NVIO zvlášť, 2. proč je G80 tak velká (mezní velikost 90nm čipu), proč původně mnohé zdroje uváděly horší parametry, než finální G80 měla:
nVidia chystala G80, ATi R600. ATi má ve zvyku navrhnout "kostru" čipu (paměťový řadič, řídící obvody/procesory, fixně přítomné části čipu) ve stylu overkill, tzn. mnohem komplexnější, než první generace čipů na dané architektuře dokáže využít, ale s dalšími refreshi už nemusí dělat na těchto částech žádné úpravy a jen mění množství výpočetních jednotek/quadů atp. Podle všeho R600 měla mít podle původních plánů více výpočetních jednotek, jenže 65nm proces byl daleko, takže kvůli 80nm byly některé vypuštěny. Přesto mnohé parametry byly stále zajímavé (512bit sběrnice, 64 5D ALUs)...
Původní G80 zřejmě nesla 128 ALUs, jako současná, ale 32 klasických texturovacích jednotek (nikoli 32 dvojitých - se dvěma texture filtering units - jako současná). Těžko říct, co zbytek čipu - možná, že i ROPs nebylo 24, ale 16 a sběrnice byla 256bit a nikoli 384bit, ale to už můžeme jen hádat. Každopádně - k nVidii se zřejmě dostaly informace o R600 (a je docela jedno, jestli o původní nebo současné verzi), na což nVidia reagovala úpravou čipu (pamatujete, že se původně mluvilo, že G80 vyjde koncem jara 2006? - tipuju, že tehdy šlo o onu původní verzi. Nakonec se ale vše zrušilo a místo ní se připravila dvoučipová 7950GX2).
Nastala tedy otázka, co v G80 "zlepšit". Streaming units a TMUs jsou spjaty v určitém poměru a přidávání celků (de-facto quadů) by znamenalo příliš velké navýšení plochy jádra. Zvyšování počtu streaming units v quadu zřejmě z nějakého důvodu také nebylo východiskem (jednotky jsou možná seskupovány v určitých celcích, čemuž odpovídá i organizace řídících obvodů a přidání komplet celku (např. čtveřice či osmice) + rozšíření řídících obvodů by taktéž bylo příliš nákladné, tak došlo k přidání jedné texture-filtering unit do každé texturovací jednotky.)
To sice samo o sobě není optimální krok z hlediska poměru navýšení počtu tranzistorů/výkon (protože k využití druhé texture filtering units dojde jen při trilineární či anizotropní filtraci, přičemž při mnoha operacích se požívá bilineární fitlrace a point sampling /DX10/, při kterém druhá jednotka stojí), ale bylo to nejschůdnější řešení, nVidia tím získala trilineární / základní anizotropní (2x) filtraci prakticky bez ztráty výkonu (to jednak zvyšuje výkon při testech s AF a druhak to působí dost "luxusně" či "nadstandardně").
V tomhle odstavci trochu odbočím - toto je moje vlastní hypotéza: Není nelogické se domnívat, že původní G80 mohla nést 16ROPs a 256bit sběrnici (podle jednoho vývojáře, který dostal začátkem loňského roku G80 do rukou, skutečně 256bit sběrnici měla). Počet ROPs těžko odhadneme - mohl být 16, mohl být 24, každopádně pokud jich bylo 16, znamenalo zvýšení výkonu texturovacích jednotek vyšší nasycení ROPs, takže byl jejich počet zvýšen o 50% a analogicky došlo i 50% rozšíření paměťové sběrnice.
Zpět. Výkonnější texturing engine dokázal více vytížit shader core, takže se limitace přesunuly na něj (nebyl to špatný krok - shader core bylo zcela nové, efektivní i v případě, že není po stránce hrubého výkonu nijak extra rychlé, došlo k tomu, že je permanentně využité/vytížené na své maximum, takže předvádí od začátku svůj plný výkon - což je dobré i z hlediska marketingového, protože když jede nadoraz, podává své maximální výkony a k tomu vypadá efektivně a zajímavě i na papíře, je výsledný dojem o dost lepší, než kdyby (kvůli nevytíženosti), podávalo výkony nižší - tedy v rozporu s "papírovými" specifikacemi.
Jenže - tyto změny navýšily rozměry čipu nad hranici únosnou pro 90nm proces, takže "něco" bylo z čipu vyhozeno ven a konkrétně to odnesl display engine (NVIO, jako externí čip).
Tahle teorie dává smysl, alespoň na mě působí celistvým dojmem, takže pokud budeme předpokládat, že je pravdivá (což potvrzují i parametry mainstream/low-end G8x čipů, které na rozdíl od G80 nesou jen jednoduché texturovací jednotky), můžeme na ní stavět dál.
Víme, že grafické čipy bývají navrženy dost dlouho předtím, než jsou vydány (pak se čeká na výrobní proces, ladí výroba, odstraňují bugy, připravují drivery...), takže nástupce G80 mohl být navržen již v době, kdy byla připravena původní (pomalejší) G80. Takže ten "nástupce" nemusí být o tolik rychlejší, než současná G80. Tzn. máme tu dvě možnosti:
1. nástupce současné G80 byl též přepracován, z důvodu odkladu místo něj byla vydána G80 Ultra a onen nástupce vyjde jako mnohem výkonnější karta koncem roku
2. nástupce přepracován nebyl (nVidia cítí, že to není potřeba), jen čeká na 65nm proces, kvůli jehož zpoždění byla vydána G80 Ultra, která tak jako tak požadavkům trhu více než dostačuje (ATi nevydala XTX atd.)
Osobně považuju za pravděpodobnější druhou variantu. Takže bych mezi G80 a novým high-endem čekal podobné rozdíly, jako mezi NV40 a G70 nebo G70 a G71 - spíš něco mezi (ne tak velký výkonnostní rozdíl, jaký byl mezi NV40 a G70, ale ani tak malý technologický rozdíl, jaký byl mezi G70 a G71). Každopádně to bude refresh současného čipu – už při vydání nVidia ohlašovala, že minimálně 3 roky ještě na téhle architektuře plánuje stavět, takže prostory pro nesmysly* jako EDRAM jsou opravdu minimální
*aby MichiGen opět netvrdil, že si odporuju – myslím tím EDRAm v souvislosti s touto architekturou. Hypotetický čip s 512bit/GDDR4, který už v konfiguraci 384bit/GDDR3 nabízí s MSAA 4x minimální propady výkonu, skutečně EDRAM pro snížení propadů výkonu při MSAA 4x nepotřebuje

(aneb naco přidávat die 2x2cm, která sníží propady výkonu o 10%, když přidáním výpočetních jednotek do čipu o rozměrech die 2x2 cm by celkový výkon čipu vzrostl na dvojnásobek?)