Já ti nevim. Latentní L2 cache je useless. Ten současnej koncept je proti latencím. Proto jsme měli u Intelu tak dlouho (od Nehalemu po Skylake) 64KB L1 (dělenou na 32 instrukční a 32 datovou), 256KB L2 s velice nízkou latencí, a pak latentní ale stále fast a všechna jádra propojující L3. Jedinej důvod rostoucí L2 poslední dobou bylo aby se doní vešly nové AVX512 instrukce.
Pokud by L2 byla velká jak L3, rep se chovala se jako L2 i jako L3 dle potřebny, bylo by to cool ale technicky vzato by to byla L3, jak velikostí tak bohužel latencí.
Ono jaké číslo je za onom L je závislé na tom kolik vrstev cache čip má. Pokud by jsi komplet odstranil L2 ale nechal L3, tak se z ní stane L2. Určitou nadějí by byla vstrvená/dělená cache kde čím blíže k jádru tím menší latence ale stále s potenciálem se podívat do celého prostoru. Ale nevim jaká by byla možná realizace.
Ten koncept IBM je cool, ale defakto je to CPU bez L2 s velkou L3 kde jednotlivá jádra budou mít privátní prostor se kterym si budou hrát jako by to byla jejich L2. Výhoda je že se do toho vejdou opravdu velké bloky dat a stále bude možné systém přepnout do inklusivního a mít tam core to core komunikaci. Nevýhodou bude ta latence. Aspoň tak jsem to teda pochopil.
19 cyků latenci má ta private 32MB část. Jakmile se musí hledat dál latence roste. No, snad vědi co dělaj.
https://www.youtube.com/watch?v=z6u_oNIXFuU