Stránka 76 z 123

Re: ATI/AMD R9xx informace, spekulace, novinky

Napsal: stř 24. lis 2010, 11:46
od del42sa
já jsem si to celé prošel, ale o tom že je potřeba k tomu použít ještě třetí unit jsem tam nic nenašel...

None of that really has anything to do with the difference between the VLIW5 shaders (everything since R600) and VLIW4 shaders (new to cayman). Essentially, each vector unit contains 4 (or 5) aritmetic logic units (ALU), which as their name implies can perform math on an input. With the older VLIW5 (also commonly called 4+1) there were 4 "simple" ALUs only capable of performing regular math and one considerably fatter ALU for transcendentals. As you can imagine the fifth big only needed to be used for complex programs, and sits idle a lot of the time. With VLIW4 these transcendentals get performed on the slightly-more-complex-than-before ALUs and take more time... but VLIW4 takes up slightly less space.

VLIW4's advantage is better utilization of the available ALUs, at a performance cost for certain kinds of math that isn't terribly common anyway. Because of the roughly 80% utilization, Cypress's 1600 (320x5) ALUs can be imagined as roughly equivalent to 1280 (320x4) ALUs. By this logic, Cayman could be about 1.5 faster (per clock) on certain shader programs.

Re: ATI/AMD R9xx informace, spekulace, novinky

Napsal: stř 24. lis 2010, 11:57
od no-X
protože má ten komentář blbě... on nepochopil obrázek :-)

Na tom obrázku je přes SPs vypsáno, co všechno (a s jakou rychlostí) dokážou SPs zpracovávat... protože se to ale celé nevešlo do sloupečku, tak je ten výčet zalomený a autor se na základě toho (chybně) domnívá, že ten popis vlevo platí pro první dvě SPs a popis vpravo platí pro druhé dvě SPs. Samozřejmě to tak není, byla by úplná blbost, aby polovina SPs uměla jen FP a druhá polovina jen Int.

Obzvlášť když je vedle obrázku v textu výslovně uvedeno, že všechny jednotky mají tytéž schopnosti + že pro účel, jaký plnila T unit, je třeba zapřahnout 3 ze 4 zbývajících SPs :-)

Re: ATI/AMD R9xx informace, spekulace, novinky

Napsal: stř 24. lis 2010, 12:15
od del42sa
no ono se to dá vykládat různě, já osobně to vidím tak, že ze slajdů na které poukazuješ, jde především o to, že nyní speciální funkce umí zaměstnat tři jednotky ze čtyřech u VLIW4 (to je 3x více instrukcí), oproti 4+1 (VLIW5) kdy byla zaměstnaná jedna speciální, zatímco čtyři se "flákaly".

Jinak by to přece nedávalo smysl a těžko by to bylo prezentováno jako přednost nové architektury nemyslíš ? :wink:

To vysvětluje i to slovo better utilization than previous VLIW5 design.

Re: ATI/AMD R9xx informace, spekulace, novinky

Napsal: stř 24. lis 2010, 13:40
od no-X
už jsem se dočkal odpovědi... :-)

Ty plusy jsou v naprosté většině případů skutečně na straně HPC, čehož se týká i případ, kdy XYZW čekaly na T. Při renderingu se tohle nedělo, takže výhody z téhle změny (s ohledem na 3D) budou výrazně menší (a teoreticky by mohly být i negativní). Detaily zatím rozepisovat nebudu...

Re: ATI/AMD R9xx informace, spekulace, novinky

Napsal: stř 24. lis 2010, 14:00
od richie08
no-x: Nikdy jsem netvrdil, že 4D SPs jsou všechny full-complex jako T-unit u 5D. To tady tvrdil spammer del42. Podle infa co jsem měl k dispozici, jsem si udělal závěr, že 4D ALU složená ze 4x medium-complex SP by mohla umět zpracovat 2 komplexní instrukce za takt. Proti tomu stojí ten slajd s výčtem proveditelných instrukcí, kde je uvedena pouze 1x SF za takt. No uvidíme.

No-xi, jak probíhá zpracování DP SF?

Edit: A vědma už opět ví :) No já jsem si myslel, že T-unit bude mít i delší pipeline(tedy bude potřebovat víc taktů na zpracování), takže pokud se provádí víc matematických operací na jedné proměnné, tak to bude zpětně zdržovat celou ALU.

Re: ATI/AMD R9xx informace, spekulace, novinky

Napsal: stř 24. lis 2010, 14:15
od del42sa
spammer ??? tohle si vyprošuji. Zřejmě si pleteš pojmy s dojmy !

Nakonec ony všechny 4 komplexní jsou jen tak pro tvé info :wink:

Re: ATI/AMD R9xx informace, spekulace, novinky

Napsal: stř 24. lis 2010, 14:33
od no-X
Klid. Se svými deseti tisíci posty tu můžu být za spammera považován jedině já :)

richie08: Je možné, že T-unit má delší pipeline, ale jelikož transc. zvládá v jednom cyklu, chápu to tak, že při každém dalším taktu může začít další výpočet, takže v průměru zvládá vyhodit 1 výsledek za 1 takt. Pokud se na výpočtu podílejí XYZ, funguje to jako při skalárním součinu (dot-product), takže jsou zapojené všechny tři, přičemž výsledek vždycky vypadne z X. Spolupracující jednotky (YZ) pošlou svá data do X, která z nich vytvoří výsledek. Pokud si to představuju dobře, tak díky tomuhle mechanismu vlastně v okamžiku, kdy s daty pracuje X, jsou Y a Z volné a mohou pracovat na dalším výpočtu, takže taky v každém taktu může z X vypadnout jeden výsledek (kdybys zapřahnul jen Y a Z, bylo by třeba o takt víc a jedna z nich by ještě v druhém taktu zůstala nevyužitá). Pokud si myslíš, že to funguje jinak, tak si klidně rád vyslechnu jiný názor, je možné, že jsem něco nevzal v potaz (nicméně ten způsob zpracování, kde Y a Z počítají a X z jejich mezikroku vytváří finální výsledek, by měl být fakt).

Re: ATI/AMD R9xx informace, spekulace, novinky

Napsal: stř 24. lis 2010, 15:30
od webwalker
Opravené (prý rozbité CPU) a rozšířené (další VGA) výsledky v 3DMark 11 RC
http://www.chiphell.com/thread-141469-1-1.html

Re: ATI/AMD R9xx informace, spekulace, novinky

Napsal: stř 24. lis 2010, 15:39
od del42sa
GTX580 : X1748
GTX 460 : X923

HD5830 : X845
HD5870:X1234
HD5870CF:X2350
HD6850:X899
HD6870:X1120

Re: ATI/AMD R9xx informace, spekulace, novinky

Napsal: stř 24. lis 2010, 15:51
od richie08
Myslím no-xi, že to chápeš stejně jako já. V podstatě je to stejný princip jako u CPU kde je zvlášť integer a floating point jednotka. U AMD K10 je integer pipeline tvořena z 12-stage, FP je tvořena tuším z 27-stage. Průšvih nastává pokud jedna potřebuje výsledek z té druhé, pak nutně dochází k čekání. CPU to řeší Out of order zpracováním a spekulativními výpočty. GPU to řeší zase VLIW architektura.

Ale jaká je detailní konstrukce 5D jednotek u Radeonů netuším. Přičemž tyto detaily (jako třeba délka pipelines a způsob zpracování instrukcí), mají dost podstatný vliv právě na vytížení/zaseknutí výpočetních jednotek v určitých situacích. Můžu jen teoreticky odhadovat, že vytížit jednotky s rozdílnou délkou pipeline je obecně obtížnější. Možná proto zvolili právě equal medium-complex 4D ALU.

Re: ATI/AMD R9xx informace, spekulace, novinky

Napsal: čtv 25. lis 2010, 09:56
od webwalker
Vylepšení ROP jednotek, má někdo bližší info nebo spekulaci?

Re: ATI/AMD R9xx informace, spekulace, novinky

Napsal: čtv 25. lis 2010, 10:09
od Krteq
Něco o vylepšeních je ve slidu co postnul Jirka Souček
no-X píše:...
Obrázek
...

Re: ATI/AMD R9xx informace, spekulace, novinky

Napsal: čtv 25. lis 2010, 10:45
od webwalker
To: Krteq
Díky, o tom vím, mě šlo spíš o to, jak by se toto zrychlení mohlo projevit na celkovém výkonu karty.

Re: ATI/AMD R9xx informace, spekulace, novinky

Napsal: čtv 25. lis 2010, 10:56
od Krteq
Např. AA s menšími propady výkonu, zvýšení fillrate atd.

Re: ATI/AMD R9xx informace, spekulace, novinky

Napsal: čtv 25. lis 2010, 10:58
od no-X
novinky jsou v podstatě (jednoduše řečeno) rychlejší zpracování jedno a dvoukanálových formátů - nejde o nic světoborného, je to po HW stránce do jisté míry obdoba fetch4 pro textury, tzn. že hardware, který je stavěný pro práci s jedním pixelem o 4 kanálech (typicky RGBA) je mírně upraven tak, aby mohl být použit i pro práci se 4 pixely o 1 kanálu (nebo 2 pixely o 2 kanálech) - cache a datové cesty tam na to v podstatě už jsou, takže jde o poměrně malou změnu.

Výhodu rychlejšího zpracování single-channel formátů nVidia využila už s Fermi (GF100, 104, 110...), takže je na tom vidět, že v praxi to žádný extrémní přínos po stránce výkonu nemá, spíš je to fíčura, která se dá implementovat prakticky zadarmo a vede maximálně k pár procentům výkonu navíc (v reálných aplikacích). V teoretických testech je to zachycené na hardware.fr:

http://www.hardware.fr/articles/795-4/d ... x-460.html

...druhý graf "fillrate", položka 1x FP32 - je tam vidět, že jednokanálový 32bit formát je na Fermi zpracován stejně rychle, jako čtyřkanálový 8bit (32bit celkem), zatímco u HD5 a GTX200 je výkon nižší. Případně že 1x FP32 je u Fermi cca 4x rychlejší než 4x FP32. Podobné by to tedy mělo být i u Caymanu.

další změna je podpora obdoby CSAA (s pár drobnými rozdíly)... ostatní změny se asi týkají spíš spolupráce s řadičem a HPC(?)

Re: ATI/AMD R9xx informace, spekulace, novinky

Napsal: čtv 25. lis 2010, 14:10
od webwalker
Jen tak pro zajímavost - CHD po delším čase promluvil:
http://www.semiaccurate.com/forums/show ... tcount=250

Re: ATI/AMD R9xx informace, spekulace, novinky

Napsal: čtv 25. lis 2010, 17:51
od svicko
takze jestli jsem pochopil zdeleni tak to mluvilo o tom ze NV se chvasta tim ze bude mit nejsilnejsi GPU ale az prijde cayman tak jim zmehne...
a dalsi vec co mi z toho vyplinulo byla ta ze posunuti vydani bylo kvuli tomu aby bylo GPU dost u vyrobcu a tak aby bylo mnozstvi karet na trhu? tim myslim vic nez ma ted NV 580 14dni (nebo jak dlouho) po vydani? chapu to spravne?

Re: ATI/AMD R9xx informace, spekulace, novinky

Napsal: čtv 25. lis 2010, 19:11
od Krteq
Nějak mi to celé zase začíná připomínat situaci před vydáním RV770. Jsem vážně zvědav, co z toho vzejde.

Re: ATI/AMD R9xx informace, spekulace, novinky

Napsal: čtv 25. lis 2010, 19:44
od no-X
Myslíš, že z očekávaných 1920 SPs se vyklube 3200? :)

Re: ATI/AMD R9xx informace, spekulace, novinky

Napsal: čtv 25. lis 2010, 21:40
od Krteq
To zase ne... i když... :mrgreen: