Denver/Tegra 5

Procesory jako Cyrix MII, VIA C3 či Transmeta Crusoe.

Denver/Tegra 5

dnes se na semiaccurate objevily dva velice zajímavé články o připravovaném procesoru od Nvidie s kódovým názvem Denver.

v kostce:

-Nvidia pracuje na projektu už od roku 2006.

-Původně se mělo skutečně jednat o x86 procesor, kombinovaný s architekturou Fermi. Ačkoliv Nvidia prohlašovala , že nepotřebuje licenci na x86, v pozadí probíhala tvrdá jednání s Intelem, která vyústila ve vzájemné žaloby.

-Následně kvůli nalezení způsobu jak obejít x86 licenci došlo na další změnu, řešení měla přinést softwarově emulovaná x86 (software/firmware based ‘code morphing’ CPU like Transmeta)

- Emulovaná x86 se ukazuje jako problémová (rychlost compileru/legalita použití x86) , proto přechází k vlastnímu návrhu na bázi ARM + 64bit ISA

-GPU část se změnila z Fermi architektury na Kepler architekturu.

-další změna plánů ARM64bit + GPU architektura Maxwell

Pokud inženýři Nvidie z neustálého překopávání designu a ne zrovna triviálních změn v architektuře úplně nezešílí a tento revoluční procesor vůbec přijde na trh, nebude to určitě dříve než v roce 2015 přičemž jeho výkon nemusí být uspokojivý. ... -based-on/ ... -t50-core/ ... s-x86-cpu/

nakonec se zřejmě bude jednat o 8 jádrový 64-bitový ARM procesor kombinovaný s 256 CUDA cores na taktu přibližně v rozpětí 2,0 -2,5 GHz ... MugrIejmgQ
Re: Denver/Tegra 5

doplnění k projektu Denver od Nvidie. Na konci svého posledního příspěvku o Denveru jsem zmínil to, že Denver bude nakonec klasické 64-bitové jádro ARM, které bude vycházet z architektury ARMv8, byť v custom úpravě.

Zdá se ale, že věci nejsou tak úplně tím jak se zdají. Denver neopustil myšlenku tzv. "code morphing" to znamená emulace ISA. Denver tedy ve své podstatě není klasická ARM architektura tak jak ji známe ani její custom návrh (jaký dělá například Apple nebo Qualcomm), ale je to unikátní ISA čip emulující architekturu ARM pomocí překladače. Ten umožňuje efektivní nahrazení schedulleru a komplexitu obvodů OoO a tím výrazně šetří energii. Samozřejmě samotný VLIW překladač má určitou režiji, ale Denver je extrémně "wide" čip, který má údajně až 8 fyzických pipelines (Nvidia oficiálně uvádí pro K1 7-issue ) a navíc díky překladači nabízí obrovskou flexibilitu co se týká podpory nových instrukcí, stačí pouhý update a procesor podporuje nové instrukce bez fyzické výměny CPU.
Anand: I believe Denver still works the same way though. My guess is there’s some form of a software abstraction layer that intercepts ARMv8 machine code, translates and optimizes/morphs it into a friendlier format and then dispatches it to the underlying hardware. We’ve seen code morphing + binary translation done in the past, including famously in Transmeta’s offerings in the early 2000s, but it’s never been done all that well at the consumer client level.
If Denver indeed follows this path of binary translation + code optimization/morphing, it offers another option for saving power while increasing performance in mobile. You can build a relatively wide machine (NVIDIA claims Denver is a 7-issue design, though it’s important to note that we’re talking about the CPU’s internal instruction format and it’s not clear what type of instructions can be co-issued) but move a lot of the scheduling/ILP complexities into software. With a good code morphing engine the CPU could regularly receive nice bundles of instructions that are already optimized for peak parallelism. Removing the scheduling/OoO complexities from the CPU could save power.
Anand: I have to say that if this does end up being the case, I’ve got to give Charlie credit. He called it all back in late 2011, a few months after NVIDIA announced Denver.
že by měl Charlie zase pravdu ? ... -based-on/

Kardinální tázka na závěr, nenechává si Nvidia přece jen zadní vrátka pro x86 ? :wink:
Re: Denver/Tegra 5

Ah, pokud je to OoO CPU které ARM defakto emuluje (což nikdy nebude enekregitccky efektivní ať NV říká co chce) může stenym způsobem emulovat x86. Transmetta to tak dělala, a ňákej činskej CPU prý také. Nicméně výkon bude stejně mizernej, katastrofální.

Navíc je to mířeno jako low powert takže to bude ajko ostatní army, pro mě useless pomalé. Navíc protože to nebude full nativn íarm to bude i žrát více, takže v tabletech atd se to asi moc neprosadí, nevim no.

Kde se to prosadí budou ty výpočetní karty co NV oznámila na své GPU konferenci. Ala na jedné kartě mnoh high end GPU a pravděpodobně těchto CPU, navzájem propojené NV-link rozhranim. Přítomost těchto CPU z toho udělá samostatně činnou jednotku, "PC" v PC s možností vlastního prostředim i OS, jako to umí larabe.
Re: Denver/Tegra 5

neco s emulaci (s nejakym mezistupnem, prevodnikem) ,nemuze byt efektivnejsi nez jadro "site na miru" (to by byl vlastne zaklad k perpetuum mobile ,par takovych emulatoru a ani by to nepotrebovalo dalsi prisun energie ,nebo by se vykon brutalne nasobil s minimalnim prirustkem na pozadavek energie ,ber to s nadsazkou )
edit : spise to bude mit vyznam v univerzalnim pouziti k ruznym platformam ,ale jestli to bude az za rok tak kdovi k cemu to bude .....
Re: Denver/Tegra 5

ale tady nejde o efektivitu ve smyslu ultimátního výkonu, ale efektivitu energetickou, respektive perf./watt. Stačí se podívat na testy Transmety Efficeonu. Při dané spotřebě vůbec nebyly špatné a překonávaly VIA C7, která je nativním x86 CPU ! Navíc nejde o emulaci v pravém slova smyslu, výpočetní pipeline v CPU jsou fyzické, stejně tak cache a další části čipu. Instrukce ARM jsou interně překládány při velmi malé režii na instrukce Denveru (VLIW).
The greatest intelligence of Transmeta Crusoe processors plugged into the code morphing software CMS. Thus, the entire code of a computer architecture on the actual hardware is implemented at runtime. Only the code morphing software itself has access to the processor. The CMS optimizes and translates x86 instructions dynamically in native VLIW code. At runtime, the system is always faster because the code-morphing software tried every chain of command only once to translate. The translated VLIW code keeps the CMS then stored in memory.
dobře je to popsáno zde

Efficeon comes in two package types: a 783- and a 592-contact ball grid array. Its power consumption is moderate (with some consuming as little as 3 watts at 1 GHz and 7 watts at 1.5 GHz), so it can be passively cooled.
With a good code morphing engine the CPU could regularly receive nice bundles of instructions that are already optimized for peak parallelism
These two VLIW molecules could potentially execute in fewer cycles than the original instructions could on an x86 processor.[3]

Transmeta claimed several technical benefits to this approach:

1.As the market leaders Intel and/or AMD would extend the core x86 instruction set, Transmeta could quickly upgrade their product with a software upgrade rather than requiring a respin of their hardware. This method just emphasises the compatibility rather than the performance.
2.Performance and power can be tuned in software to meet market needs.
3.It would be relatively simple to fix hardware design or manufacturing flaws in the hardware using software workarounds.
4.More time could be spent concentrating on enhancing the capabilities of the core or reducing its power consumption without worrying about 33 years of backward compatibility to the x86 architecture.
5.The processor could emulate multiple other architectures, possibly even at the same time. (At its initial Crusoe launch, Transmeta demonstrated pico-Java and x86 running intermixed on the native hardware.)
The T50 core is wide, very wide, 8 pipes wide in fact. Once you have picked your jaw up off the floor, let me just start by saying that the width is not equivalent to an 8 wide ARM core, this is 8 ‘Transmeta’ style software instructions, not ARM instructions. In the end, T50 should be about the performance equivalent of a 4-wide ARM core, a sensible target, with a lot lower power use.
Uvidíme, jak Denver dopadne až budou venku nějaké podrobnější testy, ale prvotní benchmark ukazuje, že je Denver rychlejší jak A57. Myslím, že Nvidia má pořád za lubem i emulaci jiného ISA než jen ARM. Díky "code morphing" by Denver mohl stejně dobře emulovat x86 ISA jako ARM a pak by takové rozhodnutí dávalo větší smysl.

Pokud by měl Denver zpracovávat pouze ARM instrukce, přijde mi nesmyslné emulovat ARM ISA pomocí code morphingu, když zde nejsou žádná licenční omezení a v podstatě každý, kdo si zaplatí patřičnou licenci si může navrhnout vlastní ARM jádro... U x86 ISA ale licenční omezení stále existují a tato "vlastnost" Denveru by mohla Nvidii pomoci vyzrát na Intel.

je zde ale jedna věc, která na tuto teorii vrhá poněkud stín. Když před zhruba třemi lety došlo k dohodě mezi Intelem a Nvidií, které vyústilo tučným odškodněním Nvidie ve výši 1 milardy dolarů v dohodě mimo jiné stál tento text:
“Intel Architecture Emulator” shall mean software, firmware, or hardware that, through emulation, simulation or any other process, allows a computer or other device that does not contain an Intel Compatible Processor, or a processor that is not an Intel Compatible Processor, to execute binary code that is capable of being executed on an Intel Compatible Processor.“ ... dacted.pdf

Teoreticky (legálně) tedy Denver může být i "x86" CPU, ale zřejmě by to bylo proti uzavřené dohodě s Intelem.

na druhou stranu:
Nvidia’s stance was that there was no need for any license because the company was not making x86 hardware. Technically, this is true, T50 is a software/firmware based ‘code morphing’ CPU like Transmeta. The ISA that users see is a software layer, not hardware, the underlying ISA can be just about anything that Nvidia’s engineers feel works out best. T50 is not x86 under all the covers, nor is it ARM, it is something else totally that users will never be privy to.
Re: Denver/Tegra 5

Jak to nakonec dopadne s Denverem ? Kde je vlastně pravda ? Ten vývoj trvá už tak dlouhou dobu a bylo v něm tolik změn, že je docela dobře možné, výkon tohoto custom jádra je horší, jak výkon originálního ARM v8-A. Nedávno Nvidia prohlásila, že ruší plány s Denverem pro servery a HPC. ... rvers.html ... er-erista/
The take home message of this whole story is that Nvidia is building an x86 based on the next generation ARM core. There are technical reasons why it’s gestation will be problematic, but the legal roadblocks are more than likely fatal. That won’t stop Nvidia, it’s management is more than happy to waste hundreds of millions of dollars on a futile effort to boost their own egos. At the very least, now you know why their R&D expenses are so high, the bright engineers working on it aren’t cheap ... s-x86-cpu/

potom přišlo na dohodu s Intelem, který zakazuje i emulace x86 kódu, Nv dostala tučné odškodné a z Denveru se stal klasický ARM čip (custom) ... -based-on/
Re: Denver/Tegra 5

Instead of using hardware to extract the instruction-level parallelism (ILP) inherent in the code, Denver extracts the ILP once via software techniques, and then executes those routines repeatedly, thus amortizing the cost of ILP extraction over the many execution instances.
In other words, it is an in-order VLIW core with a dynamic recompiler ARM emulator in firmware. Like the old "x86" chips from Transmeta.
As expected it is an unusual design. Denver is in-order CPU but uses DCO (Dynamic Code Optimization) to simulate OoO logic. The White paper claims a much larger instruction window (up to 10x more than usual OoO hardware).

The 7-wide engine is not for internal VLIW-like microcode as Anand believed, but Nvidia claims that Denver can execute 7+ ARM instructions per clock.
Obrázek ... r-android/

kredit za tohle patří CH.D. který tohle tvrdil už před lety...
Re: Denver/Tegra 5

Prvni, i kdyz zvlastni, benchmarky Denveru. ... c+Volantis
It will be amazing in case after 10GHz we will see 20GHz, 30GHz and so on, just like we witnessed the thorny way from 10MHz to 33MHz in the eighties.
Re: Denver/Tegra 5

Je zvláštní, že Erista obsahuje klasické A57 ARM jádra namísto custom Denver cores :oops: ... s-tegra-x1

že by K1 byla opravdu první a zároveň poslední Denver CPU ?
