Niente più Knights Hill nelle roadmap Intel per i supercomputer

Intel rimuove la futura generazione di acceleratori della famiglia Xeon Phi, in attesa di nuove microarchitettura e piattaforma associate

di Paolo Corsini pubblicata il 14 Novembre 2017, alle 10:41 nel canale Private Cloud
Intel Xeon Phi

SSD da 1TB, smartphone Wiko, portatile con SSD PCIe a basso prezzo e altro: le 5 offerte Amazon imperdibili di oggi

Apple rilascia la Beta 3 di iOS 11.2, tvOS 11.2, watchOS 4.2 e macOS 10.13.2. Ecco le novità

lucusta15 Novembre 2017, 00:39 #11

è un mesh, quindi ha hub dedicati alla memoria e diversi vie sui nodi per arrivarci;
ogni singolo processore ha sufficiente cache per mantenere dati in locale.
il 7290 ha 32MB di L2 ed è comunque un esachannel 2400mhz (115GB/s) per 384GB di ram a CPU, oltre al fatto di essere NUMA e quindi di poter allocare la memoria fisicamente sulla dimm che serve, quindi sull'IMC piu' vicino e idoneo, di poter replicare il dataset su ogni canale etc, etc...

certo, dipende comunque sempre dall'applicazione, ma di solito ci esegui calcoli assai differenti da come, ad esempio, lo sono quelli per le criptovalute a blockchain ricorsivo, quindi con elevato numero di letture in memoria.

ecco, un bel set di HBM2 e si risolverebbero molte cose (soprattutto il consumo) ma, ad oggi, saresti limitato a 48GB (6 chip per 8GB l'uno, e nuovi IMC)...
chissà se vogliono sfruttare la sinergia con AMD in tal senso.

cdimauro15 Novembre 2017, 06:50 #12

Originariamente inviato da: CrapaDiLegno

Si certo, più sforzi ad utilizzare un compilatore piuttosto che un altro. Dal punto di vista di chi scrive il codice non cambia una mazza, sopratutto perché le routine utilizzate sono scritte in ASM e si chiamano quelle, dato che nessun compilatore può astrarre in maniera automatica lo scopo di un calcolo complesso come quello da fare su una SIMD.

Hai idea di quanto siano complicati i calcoli realizzati da applicazioni HPC et similia? Mi pare proprio di no.

Le parti in assembly, se ci sono, sono relative a funzioni di libreria che vengono utilizzate per "comporre"/calcolare ciò che, alla fine, serve realmente.

Tali funzioni di libreria sono scritte per lo più in Fortran (sì, hai letto bene) e soltanto negli ultimi anni ne sono state scritte alcune versioni in C++, oppure vengono utilizzati dei wrapper per poter utilizzare direttamente quelle scritte in Fortran.

Per poter sfruttare meglio che si può le capacità di calcolo di soluzioni HPC come queste vengono sfruttate le funzioni intrinsic, che servono a "segnalare" al compilatore il contesto d'esecuzione (in che modo vengono utilizzati i dati) o direttamente la tipologia di istruzioni da impiegare.

Ovviamente ci sono anche parti in assembly dove serve / è stato fatto, ma impiegare direttamente l'assembly è estremamente costoso.

Quindi al massimo puoi parlare di soluzioni che hanno un diverso supporto, ma non certo che usare un determinato HW piuttosto che un altro diventa complicato per il programmatore.

Parli così perché non hai la minima idea di come funzionino queste cose.

Prendi un algoritmo che si presta per calcoli di questo tipo, riporta il normale codice C/C++/Fortran, e poi quello CUDA (visto che nVidia va forte in questo mercato) e quello Xeon Phi.
A quest'ultimo posso provvedere io, visto che è veramente e te lo posso realizzare in TRE versioni: con #pragma per il compilatore C/C++/Fortran, con le estensioni CILK+, o con MYO. Sì, Intel offre ben TRE (DIVERSI!) modelli/paradigmi per poter sfruttare il suo hardware, e non ho citato nemmeno le OpenCL perché queste sono più generali (tutti i produttori di CPU/GPU possono sfruttarle).

Se prendi i codici finali, noterai delle "LEGGERISSIME" differenze. Eppure il calcolo eseguito, alla fine, è esattamente lo stesso.

Inoltre la suddetta architettura non ha molto di "esoterico", certamente è meno fantasiosa nell'avere un inutile core x86 per pilotare 2 FPU che sono quelle addette a lavorare per davvero.

Ma di quali FPU parli? Come ha detto giustamente lucusta, qui parliamo di unità SIMD. L'FPU x86, da quando è stato introdotta x64 è DEPRECATA.

E a parte questo, continui a non avere la minima idea di come funzionino non sole unità SIMD x86, ma la recentissima AVX-512 (che poi è quella utilizzata in queste soluzioni HPC).

Giusto per essere chiari: c'è PIENA SINERGIA fra l'unità di calcolo "intera" x64 e l'unità SIMD. D'altra parte basta prendere un qualunque pezzo di codice, disassemblarlo, e vedere il mix delle suddette istruzioni che ne viene fuori.

Eh? Scusa ma che specifiche hai letto? Quelle della prima versione vecchia di 2 anni? Per la corrente in produzione e vendita e installate sugli ultimi super computer leggo 8TFLOPS in FP32 e 4TFLOPS in FP64 e 16TFLOPS in FP16.

Dal tuo link:

[I][INDENT]"Operating at 1 GHz, the PEZY-SC2 has a peak performance of 8.192 TFLOPS (single-precision) and 4.1 TFLOPS (double-precision) while consuming around 180 Watts.
[...]
At 1 GHz, the SC2 can peak at 16.4 TFLOPS for half precision."[/INDENT][/I]

Il tutto con consumo di picco di 180W e 130W di media (che la rende la scheda acceleratrice più efficiente finora costruita, persino migliore delle soluzioni nvidia che le stanno poco dietro). Quanti TFLOPS fa una Knight Landing e in quanti W?

Su questo t'ha risposto lucusta.

Ci sarà un motivo per cui la presenza di queste schede acceleratrici siano aumentate nel tempo nella classifica. E infatti stanno prendendo piede proprio nei server HPC, IA e DeepLearning (non so se hai capito che ogni scheda a 16FLOPS in FP16, tutt'altro che "poco" per il DeepLearning).

Tu che dici, ci sarà un motivo anche per l'adozione in crescita di Xeon Phi?

Per quanto riguarda la MICRO-Architettura, è molto ma molto probabile che sarà pensata per fare un die con il core e "incollarlo" (usando la sintassi di Intel) ad un bel die separato creato dal Koduri che eseguirà i calcoli veri. L'MCM di Intel è promettente sotto questo punto di vista, e credo proprio che potrebbe salvargli la vita permettendogli di integrare roba non x86 per progredire.

Per com'è stata scritta la notizia, NON si parla di una nuova ARCHITETTURA, ma di una MICRO-architettura, come avevo già evidenziato. Ergo: Xeon Phi è ancora lì.

Poi POTREBBERO anche aggiungere uncore diversi, ma non è emerso dalla notizia/press release.

cdimauro15 Novembre 2017, 06:55 #13

Originariamente inviato da: Bellaz89

Domanda a chi ne sa di piu' sugli attuali Xeon Phi:

E' possibile per questi processori fare letture della memoria in coalescenza (accessi alla memoria sincroni da parte di tutti i core) come accade per le gpu (AMD/NVIDIA)?

Mi sono sempre chiesto se l'avere N cpu X86 indipendenti non portasse a dei bottleneck sulle letture/scritture della memoria. Probabilmente il fatto di avere cache piu' elevate aiuta, ma mi chiedo se nelle applicazioni memory intensive questo basti (Anche se -ovviamente- l'utilizzatore finale si orienta su un prodotto piuttosto che altro in base alle applicazioni che deve far girare)

Velocemente, perché devo correre a lavoro. Sì, questa funzionalità i core x86 la mettono a disposizione da quando sono nati.

Sono, al contrario, soluzioni come le GPU, che ne erano del tutto sprovviste, che negli ultimi anni hanno integrato funzionalità/istruzioni per gestire questi casi.

Comunque anche a fronte di funzionalità simili, un certo algoritmo andrà meglio o peggio in un'architettura anziché su un'altra. Bisogna provare, e vedere.

Aggiungo che per gestire casi di conflitti & sincronizzazioni per l'accesso alla memoria, Intel ha pure introdotto le transazioni, che mi pare siano ancora non offerte dalle GPU. Dunque i programmatori, sempre a seconda del tipo di calcolo, hanno anche questa possibilità.

cdimauro15 Novembre 2017, 07:14 #14

Ho un minuto, e aggiungo una cosa al volo, importantissima, che m'è venuta in mente sotto la doccia.

I core pezy-sc2 hanno bisogno di core MIPS (prima avevano ARM) per coordinare il lavoro delle "tile" SC2. Questo significa che i programmatori sono costretti a scrivere DUE codici: quello che gira nelle tile SC2, e quello che gira nei MIPS che coordinano tutto il lavoro, e decidono se/come/quando spedire e recuperare poi il lavoro delle SC2.

Quindi, come dicevo prima, c'è molto più lavoro per i programmatori. Similmente a quanto avviene con nVidia / CUDA.

E' roba che si faceva con Xeon Phi (ma MOLTO più semplicemente) con le schede discrete, che però con Knights Landing sono state ormai dismesse. Quest'ultimo consente banalmente di far girare qualunque binario x86/x64 e con AVX-512.

CrapaDiLegno15 Novembre 2017, 13:29 #15