del42sa píše:U BD se diky Flex FPU dvě 128 bit FMAC pipe chovají jako jedna 256 bitová, ale to je jen teorie. Protože ve skutečnosti se 256bit instrukce rozdělí na dvě 128 bitové (2 cykly), které se vykonají naráz. Z toho je zřejmé, že SB dokáže za stejný cyklus vykonat dvojnásobný počet AVX instrukcí per core.
Imho, takhle to u BD nefunguje. BD AVX dekóduje do dvou mops, které stihne vykonat na dvou fmac v
jednom taktu. Při dvou taktech by fpu bylo prakticky nepoužitelné.
Přece jenom Intel CPU zvládají dvojnásobek FPU instrukcí oproti Bulldozeru...
Jak kdy a v čem
1. SSE - 128b (což jsou 2DP nebo 4SP výpočty)
SB zvládne buďto 1xMUL + 1xADD (když se zadaří), nebo pouze 1xMUL nebo 1xADD (tedy 2-4DP nebo 4-8 SP)
BD zvládne jakoukoli kombinaci ADD i MUL (tedy 4DP nebo 8SP)
Teoreticky zde vyhrává BD - max. výkon sice stejný, ale BD je univerzálnější, muže i 2xADD nebo 2xMUL.
2. AVX - 256b (což jsou 4DP nebo 8SP výpočty)
SB zvládne buďto 1xMUL + 1xADD (když se zadaří), nebo pouze 1xMUL nebo 1xADD (tedy 4-8DP nebo 8-16SP)
BD zvládne buďto 1xMUL nebo 1xADD (tedy 4DP nebo 8SP)
Teoreticky zde vyhrává SB, ale pouze v případě, kdy se zadaří a v jednom taktu jsou zpracovávány instrukce jak ADD, tak i MUL na druhém portu.
3. FMA - 128b (což jsou 4DP nebo 8SP výpočty MUL+ADD)
SB nezvládne (nemá FMA)
BD zvládne 2xFMA (tedy 8DP nebo 16SP)
Teoreticky

zde vyhrává BD. Za povšimnutí stojí, že teoretický výpočetní výkon je u BD s FMA stejný nebo vyšší nežli u SB s AVX (pokud jsem se nespletl).
Do příchodu Haswellu s FMA tedy rozložení a počet ALU v FPU pro BD nevypadá zas tak tragicky - tedy vše je jen teorie.