NVIDIA VOLTA - Info a spekulace

HEAD · Příspěvek od **HEAD** » čtv 11. kvě 2017, 01:40

Btw nv si zaplatila i vlastni proces u TSMC

.Aneb kdyz maj prachy tak si muzou zaplatit i vlastni proces...
TSMC 12nm FFN

the ‘n’ stands for NVIDIA; it’s a customized higher perf version of 12nm for NVIDIA

http://www.anandtech.com/show/11367/nvi ... -announced

del42sa · Příspěvek od **del42sa** » čtv 11. kvě 2017, 07:49

Krteq píše:Ale tohle je jen "reklamština".

GP100 má 3840 CUDA cores, které zvládají FP64:FP32:FP16 v poměru 1:2:4, to samé se opakuje u GV100 (5376 Cc) jen s tím rozdílem, že díky úpravě scheduleru a rozšířeným registrům mohou s CUDA cores spolupracovat SFU jednotky, z čehož vzniknul ten termín "TensorCores".

Nejsou tam žádné speciální INT, FP64, FP16 nebo "TensorCores" jednotky navíc, všechno obstarává frontend, logika v SM atd.

ne to prostě není pravda Krtku, tohle si vyloženě cucáš z prstu

, protože blokové schéma říká něco úplně jiného. Ta tabulka mluví naprosto jasně a říká, kolik je tam jakých jednotek. Bez těch nových Tensor jednotek by nezvládalo jádro počítat FMA výpočty s takovým zrychlením oproti Pascalu. (Tensor Cores provide up to 12x higher peak TFLOPS on Tesla V100 for deep learning training compared to P100 FP32 operations, and for deep learning inference, up to 6x higher peak TFLOPS compared to P100 FP16 operations)

Each Tensor Core performs 64 floating point FMA mixed-precision operations per clock (FP16 multiply and FP32 accumulate) and 8 Tensor Cores in an SM perform a total of 1024 floating point operations per clock

Z toho schématu cos postnul je jasné akorát to, že ty jednotky umí stejně jako u Pascalu GP100 packed math (2x 16FP/32FP)

Recall the GP100 SM is partitioned into two processing blocks, each with 32 FP32 Cores, 16 FP64 Cores, an instruction buffer, one warp scheduler, two dispatch units, and a 128 KB Register File. The GV100 SM is partitioned into four processing blocks, each with 16 FP32 Cores, 8 FP64 Cores, 16 INT32 Cores, two of the new mixed-precision Tensor Cores for deep learning matrix arithmetic, a new L0 instruction cache, one warp scheduler, one dispatch unit, and a 64 KB Register File

Krteq píše:Nejsou tam žádné speciální INT, FP64, FP16 nebo "TensorCores" jednotky navíc, všechno obstarává frontend, logika v SM atd.

Myslím, že je naprosto jasné, že Volta používá separátní INT jednotky a FP32 jednotky, stejně jako už léta u velkých čipů používá separátní FP64 jádra

Unlike Pascal GPUs, which could not execute FP32 and INT32 instructions simultaneously, the Volta GV100 SM includes separate FP32 and INT32 cores, allowing simultaneous execution of FP32 and INT32 operations at full throughput, while also increasing instruction issue throughput

blaho · Příspěvek od **blaho** » čtv 11. kvě 2017, 08:13

no natrepali do toho neskutočne prachy a to este si popri tom stavaju
to riaditelstvo za cca 400 mega , no ide im pekne

*inak urcite nepumpovali do toho taky balik, kvoli hernym grafikam ale inemu odvetviu

Krteq · Příspěvek od **Krteq** » čtv 11. kvě 2017, 09:05

del42sa píše:...

Máš recht, ráno se mi to rozleželo v hlavě a po přečtení pár článků musím smeknout před nV, pořádný kus křemíku.

hnizdo · Příspěvek od **hnizdo** » čtv 11. kvě 2017, 09:33

Horsi jak bolest zubu, co?

Ale vazne, jestli bude "Titan V" GV100+HBM, tak za nej tech 40 dam.

del42sa · Příspěvek od **del42sa** » čtv 11. kvě 2017, 11:45

Jinak ta zázračná spotřeba 300W je dosažena hlavně díky tomu, že na ty Tensor jádra pokud nejsou využívány je aplikován maximální možný gating, takže když si odmyslíme jejich plochu v GV100, tak nám zbyde +- podobně velký čip jako GP100.

Tensor Cores and their associated data paths are custom-crafted to dramatically increase floating-point compute throughput at only modest area and power costs. Clock gating is used extensively to maximize power savings.

Více než na výpočetní variantu jsem ale zvědavý na herní variantu. Mezi nejdůležitější vlastnosti nové architektury které najdou využití i u herní varianty jsou změněný front-end : Independent Thread Scheduling, Starvation-Free Algorithms, zvětšená L1 datová cache a sdílená cache. Ostatní věci, jako počet texturovacích jednotek a uspořádání SM bloků je převzato z předchozích čipů Maxwell/Pascal.

The v100 is 1.42 times bigger (more cores), and delivers a 1.5 times greater speed then the p100. If we extrapolate that out this means an equal chip (same cores) would be ... 5% faster at the same clock speed = 5% improvement in IPC over Pascal

Jinak ten 12nm výrobní proces měla TSMC v plánu od začátku, protože to je jen další varianta 16nm Fin Fet výrobního procesu. Jak velká customizace tam proběhla ví jenom TSMC a Nvidia.

Příspěvek od **Hladis** » čtv 11. kvě 2017, 14:49

Hlavne Volta asi bude ještě tenhle rok.

NV is expecting the first GV100 products to start shipping in Q3 of this year....

To znamena, ze herni verze muze taky byt v nejaky podobe ještě tenhle rok, třeba pro podchyceni vanocnich prodeju.

Dolan · Příspěvek od **Dolan** » čtv 11. kvě 2017, 15:49

Omg tá Volta je beštia.

del42sa píše:@Havli: Je videt ze Nvidia chce uplne roznest na kopytech Intel Knight landing, ktery ma die pres 700mm2 http://pctforum.tyden.cz/viewtopic.php? ... 3#p8806073

KNC malo 720mm2, KNL o niečo menej.

Inak KNL bolo pasé už pred vydaním. Dnes potom už ani pes neštekne pretože aj tí čo to dostali zadarmo zistili že sa im to neoplatí programovať. Volta má za úlohu rozmiesť KNM, zamedziť tomu aby sa v ML presadili FPGA a celkom určite to zmetie aj pripravované ASICy Nervany.

Jinak ten 12nm výrobní proces měla TSMC v plánu od začátku, protože to je jen další varianta 16nm Fin Fet výrobního procesu. Jak velká customizace tam proběhla ví jenom TSMC a Nvidia.

Prebehli tam podobné zmeny ako medzi pôvodným 28nm procesom na ktorom bol Kepler a neskorým 28nm HPC/HPC+, na ktorom bol Maxwel.

del42sa · Příspěvek od **del42sa** » čtv 11. kvě 2017, 16:50

Dolan píše: KNC malo 720mm2, KNL o niečo menej.

až do oznámení GV100 to byl zatím rekord co se velikosti die týče, to byla pointa

DOC_ZENITH · Příspěvek od **DOC_ZENITH** » čtv 11. kvě 2017, 17:41

Intelácky výpočetní čipy moc neslavěj úspěch, jednoduše, prohrávaj co se týče výkonu. Intel se je začal snažit zatraktivnit tou integrovanou PGA, ale moc to nezměnilo. Vždy nakonec v drtivý většině úloh prohrály vůči výpočetním GPU. Už GP100 to spečetil, tenhle gigant bude jen upevnění vedoucí pozice NV.

hnizdo · Příspěvek od **hnizdo** » čtv 11. kvě 2017, 18:22

Hlavne Intel support pro akademickou sferu vypadal takto: koupis si kartu, a pak si koupis sw na kazdy stroj, ktery ho bude vyuzivat. Karta 150, sw 200/ks. Stejne to koupili. Prej to nebyla instalace, ale zasranej development. Sorry za OT.

Příspěvek od **Hladis** » čtv 11. kvě 2017, 19:35

Clanecek v cestine od Olsana https://www.cnews.cz/nvidia-uvadi-voltu ... 6-shaderu/

del42sa · Příspěvek od **del42sa** » pát 12. kvě 2017, 07:38

přestože nárust density u "12nm" bude minimální oproti 16nm FF, Nvidia se má velikostně kam posouvat. Půjde o podobný exodus jako Kepler/Maxwell na 28nm výrobním procesu.

GP104 314mm2 > ~ 400mm2 pro GV104 gtx 2080 + ~27% (~5% IPC) = 30 - 35% výkonu
GP102 471mm2 > až ~ 600mm2 pro GV102 Titan a Ti + ~27% (~5% IPC) = 30 - 35 % výkonu

tentokrát to vychází u obou čipů kupodivu nachlup stejně, u GM204 byl nárust o 37% oproti GK104 při podobné frekvenci , zatímco u velkého Titanu XP o 50% oproti GP104. Nějaké výrazné frekvenční nárusty nelze imho očekávat, jde defakto o stejný mírně vylepšený výrobní proces. Počet SP je u Titanu Volta daný 5376 cuda jader. Malá Volta někde okolo 3072 - 3584 cuda jader. Počet texturovacích jednotek je víceméně také daný, otázkou zůstává počet rasterizačních jednotek.

blaho · Příspěvek od **blaho** » pát 12. kvě 2017, 09:19

Hladis píše:Clanecek v cestine od Olsana https://www.cnews.cz/nvidia-uvadi-voltu ... 6-shaderu/

ano , vcera som mal vela prace, a dneska to čitam skrz webom
ale najlepsie su tie diskusie

mam taky pocit, ze VOLTA TITAN bude monštrum z ktoreho spadneme na prdel

Dufam ze vydaju coskoro aj nieco lacnejsie s 8GB HBM2 a hlavne s nizkou spotrebou , to by mi stačilo

Krteq · Příspěvek od **Krteq** » pát 12. kvě 2017, 09:33

Na GV102 jsem hodně zvědav. GV100 je po výpočetní stránce opravdu monstrum, tak uvidíme kolik FP64 a Tensor cores se dostane do herních čipů.

del42sa · Příspěvek od **del42sa** » pát 12. kvě 2017, 09:55

Krteq píše:Na GV102 jsem hodně zvědav. GV100 je po výpočetní stránce opravdu monstrum, tak uvidíme kolik FP64 a Tensor cores se dostane do herních čipů.

osobně tipuju že žádné

hnizdo · Příspěvek od **hnizdo** » pát 12. kvě 2017, 09:59

Maximalne v titan verzi, takovej cip nebudou zcela urcite davat do tridy "2070/2080", to by imho ani nevyrobili v potrebnem mnozstvi

Krteq · Příspěvek od **Krteq** » pát 12. kvě 2017, 10:34

del42sa píše:
Krteq píše:Na GV102 jsem hodně zvědav. GV100 je po výpočetní stránce opravdu monstrum, tak uvidíme kolik FP64 a Tensor cores se dostane do herních čipů.
osobně tipuju že žádné

Neřekl bych, všechny předchozí čipy vycházející z velkých Tesla čipů měli nějaké ty jednotky kvůli kompatibilitě.

GM200/GM204 - 4 FP64 na SM
GP102/GP104 - 4 FP64 na SM
GV102/GV104 - 4 FP64 na SM + 4 TensorCores na SM?

del42sa · Příspěvek od **del42sa** » pát 12. kvě 2017, 11:05

Krteq píše:Neřekl bych, všechny předchozí čipy vycházející z velkých Tesla čipů měli nějaké ty jednotky kvůli kompatibilitě.

GM200/GM204 - 4 FP64 na SM
GP102/GP104 - 4 FP64 na SM
GV102/GV104 - 4 FP64 na SM + 4 TensorCores na SM?

GM200 a GM204 nachlup stejná konfigurac SM, protože Maxwell Titan oproti předchozím čipům nepodporoval double precision výpočty. Pokud tam jsou FP64 jednotky je to jen kvůli kompatibilitě s CUDA, tak se to na výkonu nijak nemůže projevit, nemá tedy smysl to vůbec zmiňovat Krtqu.

Tensor cores u herní Volty nedávají žádný smysl a bylo by to jenom plýtvání křemíku. Každopádně co se týká FP64 unit, tak tam to bude stejné/podobné jako u předchozích čipů, takže proč to vlastně řešit ? Double precision při hraní nijak nevyužiješ....

\\ Pokud by například vznikla nějaká nová samostatná kategorie karet pro strojové učení do standartního PCIEe slotu postavených na základě GV102 eventuelně úplně nová konfigurace čipu (GV101/GV103 ?) tam by se nějaké ty tensor jádra mohly uplatnit.

DOC_ZENITH · Příspěvek od **DOC_ZENITH** » pát 12. kvě 2017, 12:03

Taky jich v hernim čipu čekam přesně 0. Stejně jako herní Pascall Geforce nedostaly FP16 a INT8 (Titan XP jako jediná vyjímka má INT8 ale 1080ti ne). Leda že by se ony tensor cores daly použít na něco specifického, typu na FP16 akceleraci, AMD plánuje dát u herní vegy k dispozici fast FP16 a prosazovat do budoucna jejich herní využití, takže od NV se dá čekat podobnej tah. Furt je ale reálnější že SP budou fast FP16 capable než že by tam byly tensor cores. Tensro cores by byl extra křemík na nic tam kde by se nepoužívaly a toto plajtvání se už NV dávno odnaučila.

NVIDIA VOLTA - Info a spekulace

Co bude Volta ?

Re: NVIDIA VOLTA - Info a spekulace

Re: NVIDIA VOLTA - Info a spekulace

Re: NVIDIA VOLTA - Info a spekulace

Re: NVIDIA VOLTA - Info a spekulace

Re: NVIDIA VOLTA - Info a spekulace

Re: NVIDIA VOLTA - Info a spekulace

Re: NVIDIA VOLTA - Info a spekulace

Re: NVIDIA VOLTA - Info a spekulace

Re: NVIDIA VOLTA - Info a spekulace

Re: NVIDIA VOLTA - Info a spekulace

Re: NVIDIA VOLTA - Info a spekulace

Re: NVIDIA VOLTA - Info a spekulace

Re: NVIDIA VOLTA - Info a spekulace

Re: NVIDIA VOLTA - Info a spekulace

Re: NVIDIA VOLTA - Info a spekulace

Re: NVIDIA VOLTA - Info a spekulace

Re: NVIDIA VOLTA - Info a spekulace

Re: NVIDIA VOLTA - Info a spekulace

Re: NVIDIA VOLTA - Info a spekulace

Re: NVIDIA VOLTA - Info a spekulace