1) AIDA test too good to be true, so they didn't publish yet. Double throughput of Skylake on some intructions, they think it's a bug in AIDA. Instlatx64 answers that skylake/kabylake have some trouble on port 5 and thus even Bristol Ridge have higher throughput for some instructions (e.g.: VEXTRACTI128)Dolan píše: Teda v AVX2 násobení je Intel 4x rýchlejší, sčítaní 2x rýchlejší, a delenie je celkom vyrovnané.
A teraz pozor: v FMA (teda X=A*B+C) je priepustnosť identická ako Kaby, s tým že to má vyššiu latenciu, keďže to musí prejsť MUL pipelinou a potom sa to vracia do ADD pipeline.
Z toho vyplýva že buď má Intel tak mizernú architektúru, že nedokáže využiť širšiu FPU, alebo má ZEN 2x širšiu FPU, ako sme doteraz predpokladali.
Ďalšia vec je že v ich ES boli celkom zrejmé bugy (dúfajme že odstrániteľné). Predpokladal by som, že MUL a ADD bude mať aspoň tak dobrú priepustnosť ako FMA, respektíve neexistuje aby ste operáciu A*B+C vykonali 4 krát rýchlejšie ako samotné A*B. Podobne SSE delenie, kde má delenie 128b vektora nižšiu priepustnosť ako delenie 256b vektora?
2) Canard PC sampel has problems with SMT and uop cache and then, coupled with semiaccurate infos i would not draw conclusions on Canard PC tests being worse than new horizon event...
http://semiaccurate.com/forums/showpost ... count=4817
yuri.cs píše:Z jineho soudku, latence Zenu:
L1: 4 takty
L2: 12
L3: 35 (avg?)
https://pbs.twimg.com/media/C0pEfFFWQAE3ZVi.jpg
srovnání s BD:
PS: zpětně mě to pořád přivádí k myšlence, jaký by byl výkon stavebních strojů nemít tak zmršený cache system ?