Procesory AMD 15h "Bulldozer&Bobcat"- info, testy, spekulace

ttxman · Příspěvek od **ttxman** » čtv 2. zář 2010, 17:07

Nejsem odbornik, ale ponekud mi unika co by se dalo z takoveho dieshotu vycist. I kdyby byl ten dieshot v rozliseni s desitkami megapixelu tak diky velikosti tranzistoru a propojovacich drah proste nemuze ukazat o moc vic detailu nez dieshot tehle velikosti. Takze pokud retusuji tak to nebude pouze o rozmazani detailu.

Ja kdyz se na nej podivam tak vidim vetsi mnozstvi obdelnikovyh bloku. Podle popsanych dieshotu co uz sem videl dokazu odhadnout co bude cache, jadra, radice pameti atd. Odbornik urcite odhadne i nektere soucasti drive jmenovanych bloku, ale o tom jak funguje nova FPU nebo komunikace mezi jadry v modulu to stejne nerika nic. (stejne ty jadra jsou urcite praplacly nejakou K8 nebo K10)

Pokud AMD neco schovava tak to nebude proti Intelu jelikoz ten stejne nema jak u SB reagovat a pravdepodobne ani u dalsi generace. Takze premyslim co muze AMD schovavat. Bud je to neco s power managmentem i kdyz pochybuju, ze sebelepsi power gating by byl nejak vic videt, nebo nejaky blok dostatecne velikosti, ktery v CPU driv nebyl (decap ring, neco pro pripojeni stream processoru?). Pripadne je to proste reklama, ktera provokuje presne k takovymhle prizpevkum.

Ja se priklanim k tomu, ze to proste ma udrzet pozornost u Bulldozeru a zpusobit spousty nicnerikajicich spekulaci abysme se meli na forech cim bavit

nou · Příspěvek od **nou** » čtv 2. zář 2010, 22:07

ako keby to bol problem pre intel skocit do obchodu jeden taky CPU kupit a spravit si ten die-shot sam.

yuri.cs · Příspěvek od **yuri.cs** » pát 3. zář 2010, 10:10

nou píše:ako keby to bol problem pre intel skocit do obchodu jeden taky CPU kupit a spravit si ten die-shot sam.

Jenze tenhle CPU se v obchodech objevic nejdriv za rok. Pri oficialnim launchi se objevi klasicky neretusovany dieshot.

Federmann · Příspěvek od **Federmann** » ned 5. zář 2010, 08:28

Kousek citace z jiného vlákna

Federmann píše:
no-X píše:Srovnání Fusion (Ontario) a Atomu...

http://www.chip-architect.com/

Intel má procesor s integrovanou grafikou, AMD má grafiku s integrovaným procesorem

Hlavní rozdíl bude někde jinde. Intel má dvakráte větší plochu CPU, dalo by se usuzovat, že bude výrazně výkonnější. AMD má výrazně větší plochu GPU a dalo by se usuzovat o tom, že bude právě GPU výkonnější, ale CPU ji pak nedokáže daty nakrmit na bude ji výrazně brzdit.

To vše platí za současného stavu uvažování o spojení GPU a CPU na jednom kusu křemíku, ale takto to možná platí u Intelu, ale AMD šlo jinou cestou, GPU se přímo podílí na práci CPU a tím mu výrazně navyšuje výkon. Jak tomu bude v konečném počítání výkonu GPU a CPU se nakonec uvidí, ale pro AMD neplatí striktní hranice, kdy si GPU a CPU kope samo za sebe, ale jde o týmovou práci.

Pokud jsou obecně současné GPU až 100x výkonnější jak současné CPU, je otázkou jak se takový nový hybrid bude chovat, kolik přebere CPU výkonu od GPU.

ttxman · Příspěvek od **ttxman** » ned 5. zář 2010, 14:19

Federmann píše:to nahore o vykonu

No uz z toho obrazku:
Intel 176M tranzistoru -> 87mm2
AMD 380M tranzistoru -> 74mm2
To je 2.5* vetsi hustota tranzistoru na mm2. To vypada na rozdil procesu 28nm vs 40 nebo tak neco.

Kdyz se podivas na L2 cache tak ta u Intelu je plochou vetsi 1.5. Pokud bude poctem tranzistoru obdobna, tak to jeste zmensuje prumernou hustotu zbytku cipu (ma vic tranzitoru nez by v prumeru mela mit).

Pak se muzes podivat na jadro atomu uvidis spousty "mezer" (plochy pravdepodobne bez tranzistoru). Podle me je tam Intel puvodne dal, aby dodrzel nejakou velikost jadra ATOMU. (marze na tom stejne mat ak velky, ze ho par mm2 nevytrhne).

Takze hustota tranzitoru v jadre AMD by mela byt minimalne 2.5* vetsi mozna i vic. A pri trose matematiky 2.5* 4,6 = 11.5mm2 s hustotou podobnou ty intelu. A to mame tedy minimalne 18.5% tranzistoru navic v CPU AMD.

Takty i u novejch atomu budou celkem nizko, takze i s podstatne vetsi hustotou je asi nebude problem vyrovnat. A pokud se jedna (a s vic jak dvojnasobnou hustotou je to takrka na 100%) o mensi vyrobni proces tak i podstatne prekonat pri zachovani slusny spotreby.

Takze mi netvrd, ze AMD s o 20% vic tranzistory a vyssim taktem bude zaostavat ve vykonu CPU za intelem.

Federmann píše:to dole o GPU

Core i7 920 .. 70GFLOS (4 jadra .. HT pri 100% vytizeni akorat brzdi)
Radeon 5870 .. 2.72 TFLOPS(1600SP)

At koukam jak koukam tak tu mam vykon pouze 40* (38*) vetsi. (2 jadrova grafika poradne neskaluje ani v grafice, natoztak v normalnich vypoctech, nemluve o tom, ze jsou i vykonejsi CPU a taky jich muzes pouzit vic)

Aby mohly SP efektivne zastoupit ALU/FPU museli by byt podstatne jine nez ty dnesni, coz tady nehrozi. Pokud vezmu ze, GPU je 40* rychlejsi (jako, ze teoretickej vykon), ale ma 400* vic jader, tak 1SP ma ve matematickejch vypoctech vykon celejch 10% maximalne (synchonizace, priprava dat pro GPU...). Uz vidim jak tady vsichni placou nadsenim, ze jim 1 vlaknovy programy behaj jak na CPU s 350MHz... (a koho zajima, ze jde o i7)

Federmann píše:to dole o hranicich

U amd neplati striktni hranice kdy si co kope za sebe pravdepodobne jenom v pristupu k pameti, ktery ma asi tak jedinou sanci pouzivat spolecne. ATI SP nejsou schopne vykonavat x86 instrukce ani mikrokod, natoztak nejak efektivne sdilet data. A uz vidim tu efektivitu prekladu instrukci z x86 do HD6000. Pokud by to v AMD umeli (a efektivne), opravdu myslis, ze by nevydali neco jako Larabee nebo se s tim aspon nevytahovali?

Edit: Jeste to muzu vzit z druhy strany: umis si predstavit ty latence kdy se od dekodovani instrukce maji data dostat z Bobcat jadra rovnomerne do vsech SP? To by krasne srazilo takty, kdyby to melo fungovat jako homogenni jadro.

Edit2: prehlid jsem, ze tam ty procesy jsou napsany. U AMD jadra je pocet tranzistoru odhadnutej podle SP se 40nm od TSMC. Proti 45nm u Intelu.

Příspěvek od **flanker** » ned 5. zář 2010, 15:11

samply Bulldozerů (pro info) se již pomalu začínají "skladovat" k zaslání partnerům, tak třeba něco unikne (4Q 2010 je shiping ES)...

fobos · Příspěvek od **fobos** » pon 6. zář 2010, 07:54

veľmi pekný článok o Bulldozer na PCT, keď sa chce dá sa to písať aj bez emócií.

http://pctuning.tyden.cz/hardware/proce ... cpu-od-amd

Inak stále mi nie je jasné, prečo to AMD vydalo rok pred vydaním samotných CPU..

Federmann · Příspěvek od **Federmann** » pon 6. zář 2010, 09:08

foboss píše:veľmi pekný článok o Bulldozer na PCT, keď sa chce dá sa to písať aj bez emócií.

http://pctuning.tyden.cz/hardware/proce ... cpu-od-amd

Inak stále mi nie je jasné, prečo to AMD vydalo rok pred vydaním samotných CPU..

je zřetelně vidět, že AMD se naopak inspirovalo u úspěšné architektury dnešních Core i7

...???... AMD na tom začala makat před koupi ATI.

AMD již několik let připravuje partnery na příchod zcela nového přístupu k CPU a jeho programování, proto musí vše dělat s obrovským předstihem, aby SW byl připravený na nové funkce a dokázal využít nabízený potenciál HW.

yuri.cs · Příspěvek od **yuri.cs** » pon 6. zář 2010, 09:38

No vida, Obr se snazil. Jeho averze vuci AMD/ATi se neprojevila, stejne jako u review HD5970, zajimave

ad Fusion: Nikdo netusi, co AMD mysli pod fuzi CPU a GPU jineho, nez obe dve jednotky na stejnem die. Vyuzivat soucasna GPU od ATi ani poradne nelze, protoze pro INT nemaji ALU - tu ma zatim jen Fermi. Jak bylo receno preklad nebo emulace x86 kodu pro vyuziti v GPU je sci-fi.

Na propagacnich materialech jsou pouze: ATi Stream, MS Direct Compute, SigGraph OpenCL, ...

Cili asi nic jineho, nez OpenCL, ktere muze bezet na CPU i GPU. Zrejme je k dispozici i nejaka rutina, ktera umi rozhodut, zda je efektivnejsi dany kod pustit na CPU, ci GPU.

Krome nizsich latenci netusim, proc se trapit s integrovanym GPU se 80 resp. 480SPs, kdyz muzu mit dedikovanou kartu s 1600SPs uz ted. Snad jen nahrada PCIe sbernice sdilenym pristupem do RAM...

fobos · Příspěvek od **fobos** » pon 6. zář 2010, 09:54

yuri.cs píše:No vida, Obr se snazil. Jeho averze vuci AMD/ATi se neprojevila, stejne jako u review HD5970, zajimave

OBR sa snaží prilákať čitateľov len na novinky jeho bulvárnym štýlom písania (ako tradične je nad vecou, to len ostatní zapálení fanúškovia to nevedia pochopiť...)

Federmann · Příspěvek od **Federmann** » pon 6. zář 2010, 10:46

yuri.cs píše: Krome nizsich latenci netusim, proc se trapit s integrovanym GPU se 80 resp. 480SPs, kdyz muzu mit dedikovanou kartu s 1600SPs uz ted. Snad jen nahrada PCIe sbernice sdilenym pristupem do RAM...

Když přišly první procesory DX, taky moc nefungovaly a hned z nich byly SX a dnes je to naprostou samozřejmostí a mnozí ani neví, co to vlastně bylo.

richie08 · Příspěvek od **richie08** » pon 6. zář 2010, 11:29

2ttxman: To přepočítávání na 1SP je dost zavádějící, protože ta 1SP samotná není schopná bez zbytku 5D jádra udělat nic. Je to stejné jako když K8 jádro obsahuje 3x ALU, 3x LSU, FPU (ta by šla taky ještě rozdělit), takže nakonec by Thuban nebyl šestijádro, ale jako např. CPU se 42 jednotkami. Je třeba odlišit marketing ATi, kdy se jim hodí velký počet SPs pro zblbnutí masy laiků, a reálný počet jednotek vykonávající samostatné vlákna (těch je u RV870 320, přestože celkem má 1600SPs).

ad Fusion: Je jasné, že současná implementace Fusion žádnou kooperaci FPU výpočtů přes GPU mít nebude (tedy vše poběží přes SW ala OpenCL). Nemožné to ovšem podle mne není a u budoucích generací to jednou přijde a obě strany se na příchod heterogeních systémů připravují. Jedna věc je samozřejmě technické provedení jež nebude zrovna jednoduché, připojovat za dekoder crossbar na frontend GPU, velké latence díky překladu na VLIW kód, pak zpět zápis do L2 cache či rovnou do L3. Nicméně bych řekl, že tohle ještě není ta hlavní překážka. Skutečný Fusion přijde tehdy až s novou instrukční sadou kdy se jej vyplatí implementovat, protože na současné FPU výpočty AVX by byl GPU jako kanón na vrabce. Tady vidím pro AMD zcela jedinečnou šanci jak přijít na trh znovu s vlastní instrukční sadou a znovu vypálit Intelu rybník. Nová sada využívající masivní paralelní GPU výkon, který by byl na FPU jádře neimplementovatelný a zároveň tedy dosavadní nevýhody a latence by byli akceptovatelné.

ad) Bulldozer: Jakkoliv jsem příjemně překvapen novou marchitekturou, stále jsem skeptik ohledně výkonu na takt. Nadruhou stranu budu mít o to větší radost, když mé očekávání budou překonána

Příspěvek od **flanker** » pon 6. zář 2010, 13:19

dočkáme se možná brzy, sampyl se budou již brzy zasílat a třeba někdo NDA neuhlídá

. Myslím, že předpoklad pro launch Květen-červen 2010 je docela reálný.

ttxman · Příspěvek od **ttxman** » pon 6. zář 2010, 14:35

richie08 píše:2ttxman: To přepočítávání na 1SP je dost zavádějící, protože ta 1SP samotná není schopná bez zbytku 5D jádra udělat nic)...

Zavádějící to sice je, ale pokud se jedná o čistě 1 vláknovou aplikaci je to celkem presny. V pripade jednovlaknove aplikace, by stejne musela bezet na 1SP a neexistuje zpusob jak to nejak optimalizovat krome optimalizace pri kompilace. (GPU AMD nema out of order zpracovani, predikcni jednotky, proste nic co by mohlo pomoct nejak tu zatez rozdelit jako se prace rozdeluje u dnesnich CPU na vice ALU). A pokud se pri zpracovani vyuziva jenom 1 SP, tak to deleni snad bylo v pohode.

Jak rikas SP potrebuje zbytek 5D jednotky, to meni jenom jedinou vec a to pocet vlaken ktery by mohli jet ve skutecnosti najednou je 320 a vyssi jenom v pripade, ze by ten slo na 5D ALU nejak nacpat vice nezavislejch vlaken.

flanker píše:dočkáme se možná brzy, sampyl se budou již brzy zasílat a třeba někdo NDA neuhlídá . Myslím, že předpoklad pro launch Květen-červen 2010 je docela reálný.

To zase bude podvrhu. Jen by me zajimalo kolik jich podstrci AMD, kolik si jich nekdo vycuca z prstu. A hlavne jakej bude pomer podvrh:realne hodnoty.

richie08 · Příspěvek od **richie08** » pon 6. zář 2010, 17:12

ttxman píše:
richie08 píše:2ttxman: To přepočítávání na 1SP je dost zavádějící, protože ta 1SP samotná není schopná bez zbytku 5D jádra udělat nic)...
Zavádějící to sice je, ale pokud se jedná o čistě 1 vláknovou aplikaci je to celkem presny. V pripade jednovlaknove aplikace, by stejne musela bezet na 1SP a neexistuje zpusob jak to nejak optimalizovat krome optimalizace pri kompilace. (GPU AMD nema out of order zpracovani, predikcni jednotky, proste nic co by mohlo pomoct nejak tu zatez rozdelit jako se prace rozdeluje u dnesnich CPU na vice ALU). A pokud se pri zpracovani vyuziva jenom 1 SP, tak to deleni snad bylo v pohode.

Jak rikas SP potrebuje zbytek 5D jednotky, to meni jenom jedinou vec a to pocet vlaken ktery by mohli jet ve skutecnosti najednou je 320 a vyssi jenom v pripade, ze by ten slo na 5D ALU nejak nacpat vice nezavislejch vlaken.

Pleteš se v tom, že GPU Radeon nemá nic čím by mohlo rozdělit zpracování mezi více SPs. Má a jmenuje se to architektura VLIW. Je to daleko efektivnější způsob než zpracování Out-of-order u dnešních CPU. Mimochodem Itanium je postavené také na VLIW, proto má brutální IPC a dodnes jsou oblasti ve kterých je nepřekonané. Díky dlouhé VLIW instrukci se dokáží vytížit efektivně výpočetní jednotky na dlouhou dobu a vykonat kombinaci sčítání, násobení, dělení, goniometrické funkce v jediné instrukci (ale za mnoho taktů). Tedy jedna 5D jednotka může vykonávat pouze jedno vlákno s jednou VLIW instrukcí, která se interně rozloží na elementární operace. Tedy porovnávat výkon 1SP u GPU je stejné jako porovnávat výkon 1 ALU u CPU - obé je IMHO nesmysl.

yuri.cs · Příspěvek od **yuri.cs** » pon 6. zář 2010, 17:28

Ad Fusion: Uplne od zakladu nova instrukcni sada vyrobena na miru pro FPU slozenou z N SIMD/MIMD jednotek by byla resenim. Otazkou je, kdy neco podobneho ocekavat.

AMD a asi ani Intel zatim ani neoznamili vyvoj neceho tak ambiciozniho a revolucniho, jako by byl zmineny ins set.

Takze pro prichod do praxe to vypada jako beh na skutecne dlouhou trat...

richie08 · Příspěvek od **richie08** » pon 6. zář 2010, 17:52

Podle mne byl mnohem ambicioznější set AMD64. Tím šli vyloženě proti Intelu v serverech a jeho Itaniu. Nebýt mega-úspěšné architektury K8, tak možná skončila v propadlišti dějin, aby ji za pár let nahradil Intel se svým klonem - stejně jako nyní děje s AVX vs. SSE 5.

Instrukční sada pro Fusion/GPU by bylo jenom pouhé rošíření pro masivní výpočty a revoluce jenom trošku. Když nyní mají AVX 256bit, dnešní VLIW v Radeonech 512bit, pak rozšířit také na těch 512bit (možná i na 1024 kvůli kompenzaci latencí) a je vyřešeno. Výzva by to byla hlavně z hlediska HW, hlavně Intel by měl dost neklidné spaní

ttxman · Příspěvek od **ttxman** » pon 6. zář 2010, 19:20

richie08: Very Long Instruction Word je jenom typ architektury, neni to architektura a pouziva se uz desitky let v DPS procesorech. Na jednu stranu je vykonejsi a snizuje slozitost procesoru (muzes odstranit vsechny ty planovaci a odhadovaci casti), ale ztraci na flexibilite. Vykon stoji a pada na kompilatoru (pozdravuj PS3) a psat pro to neco v ASM je peklo (treba ARM). Umoznuje ti to jednou instrukci resit nekolik ruznych vypoctu najednou, tedy MIMD zpracovani.

Psal sem, ze neni moznost nijak to optimalizovat krome kompilace a to porad sedi. Moje myslenky se ubiraly smerem kam me nahodil Federmann a to pokud bys chtel SP nejak vyuzivat se stavajicimi x86-64 instrukcemi (treba misto ALU/FPU) kde to proste kompilovany pro VLIW neni a pokud by nedoslo k obrovskymu zesloziteni 5D ALU o predikcni casti tak to vic jak na 1SP nemuze fungovat.

Pokud by se nejak rozsirila instrukcni sada o specialni instrukce a nekdo vydal kompilator, kterej to zvlada tak ten vykon nahoru poleze i s tim vyuzitim 5D ALU. Jenze tady je na tom AMD celkem spatne, Intel si neco prida do CPU, prida si to do vlastnich kompilatoru (a ty maj sakra dobrou povest) a vsechno funguje. AMD vlastni kompilatory ASM/c/c++ nema a pokud nepresvedci Microsoft aby vydal Service Pack s podporou novinky k Visual studiu tak jsou nahrany.

Příspěvek od **flanker** » pon 6. zář 2010, 20:01

avšak spolupráce AMD a Microsoft s win7 docela jde dobe co jsem různě podchytil po webových fórech...

ttxman · Příspěvek od **ttxman** » pon 6. zář 2010, 20:24

Njn otazka je jestli maji dost tesnou spolupraci, aby vytvorily instrukcni sadu dostatecne dobre implementovatelnou do kompilatoru a zaroven dostatecne vykonou. U intelu maji tu spolupraci ponekud jednoduzsi a vyzkousenou (odtud asi ta povestna kvalita Intelackejch kompilatoru). AMD64 docela vyslo, jenze tam asi nebyly zadny zmeny ve strukture nebo optimalizacich (proste vymena instrukce za instrukci). Ale rek bych, ze temahle uvahama o par generaci Bulldozer predbihame

Procesory AMD 15h "Bulldozer&Bobcat"- info, testy, spekulace

Kdy podle vás uvidíme launch FX procesorů (recenze)?

Re: Procesory AMD K11 "Bulldozer&Bobcat"- info, testy, spekulace

Re: Procesory AMD K11 "Bulldozer&Bobcat"- info, testy, spekulace

Re: Procesory AMD K11 "Bulldozer&Bobcat"- info, testy, spekulace

Re: Procesory AMD K11 "Bulldozer&Bobcat"- info, testy, spekulace

Re: Procesory AMD K11 "Bulldozer&Bobcat"- info, testy, spekulace

Re: Procesory AMD K11 "Bulldozer&Bobcat"- info, testy, spekulace

Re: Procesory AMD K11 "Bulldozer&Bobcat"- info, testy, spekulace

Re: Procesory AMD K11 "Bulldozer&Bobcat"- info, testy, spekulace

Re: Procesory AMD K11 "Bulldozer&Bobcat"- info, testy, spekulace

Re: Procesory AMD K11 "Bulldozer&Bobcat"- info, testy, spekulace

Re: Procesory AMD K11 "Bulldozer&Bobcat"- info, testy, spekulace

Re: Procesory AMD K11 "Bulldozer&Bobcat"- info, testy, spekulace

Re: Procesory AMD K11 "Bulldozer&Bobcat"- info, testy, spekulace

Re: Procesory AMD K11 "Bulldozer&Bobcat"- info, testy, spekulace

Re: Procesory AMD K11 "Bulldozer&Bobcat"- info, testy, spekulace

Re: Procesory AMD K11 "Bulldozer&Bobcat"- info, testy, spekulace

Re: Procesory AMD K11 "Bulldozer&Bobcat"- info, testy, spekulace

Re: Procesory AMD K11 "Bulldozer&Bobcat"- info, testy, spekulace

Re: Procesory AMD K11 "Bulldozer&Bobcat"- info, testy, spekulace

Re: Procesory AMD K11 "Bulldozer&Bobcat"- info, testy, spekulace