NVLink, Pascal e Power8: la ricetta di E4 per il supercomputing

NVLink, Pascal e Power8: la ricetta di E4 per il supercomputing

Alla GTC Europe l'italiana E4 Computer Engineering mostra un sistema incentrato su processori IBM Power8, che abbina schede Tesla P100 alla tecnologie di interconnessione NVLink per le massime prestazioni nel calcolo parallelo

di Paolo Corsini pubblicata il , alle 16:01 nel canale Server e Workstation
NVIDIAPascalTeslaIBMPower
 

Tra le varie soluzioni tecnologiche mostrate dai partner NVIDIA alla GPU Technology Conference Europe, che si svolge in questi giorni ad Amsterdam, segnaliamo un interessante sistema sviluppato dall'italiana E4 Computer Engineering che è incentrato su due tecnologie alla base dello sviluppo futuro di NVIDIA nel mondo dei supercomputer e del calcolo parallelo. Si tratta di OP206, server rack a 2 unità che integra al proprio interno due processori IBM Power8 in abbinamento sino ad un massimo di 4 schede NVIDIA Tesla P100.

ibm_e4_nvidia_1.jpg (128522 bytes)

Il primo componente tecnologico implementato in questo sistema è ovviamente la GPU GP100, proposta di vertice della gamma Pascal che è stata da NVIDIA annunciata in occasione del GTC di San Jose lo scorso mese di aprile. Questo chip è caratterizzato dall'utilizzo di memoria High Bandwidth Memory di seconda generazione, con i 4 moduli ben visibili ai due lati della GPU GP100; la costruzione è completata dal package su scheda dedicata, che comprende anche la circuiteria di alimentazione.

ibm_e4_nvidia_2.jpg (120376 bytes)

La seconda tecnologia presente è quella NVLink, il sistema di interconnessione proprietario sviluppato da NVIDIA che permette alle GPU di comunicare tra di loro e di interagire da e verso le CPU presenti nel sistema attraverso un canale di comunicazione ad elevata bandwidth. Affinché questo possa avvenire è necessario che anche la componente CPU supporti in modo nativo questa tecnologia, e questo al momento è reso accessibile dalle proposte IBM della famiglia Power 8. Una piattaforma di questo tipo può essere abbinata ad elevati quantitativi di memoria di sistema, sino ad un massimo di 1 Terabyte per ogni server, sfruttando gli 8 memory riser visibili nel lato sinistro del server rack.

Soluzioni di calcolo di questo tipo, secondo quanto anticipato da E4 Computer Engineering, sono sfruttate in modo ottimale in quegli scenari di utilizzo che beneficiano della presenza di GPU per l'elaborazione parallela ma più in generale dipendono fortemente dal quantitativo di memoria di sistema a disposizione. In questo caso l'utilizzo dell'interconnessione NVLink tra i componenti garantisce di sfruttare al meglio l'elevata bandwidth, saturando al meglio tanto CPU Power 8 come GPU NVIDIA durante l'elaborazione.

3 Commenti
Gli autori dei commenti, e non la redazione, sono responsabili dei contenuti da loro inseriti - info
marconi.g29 Settembre 2016, 18:01 #1

Costo? Potenza di calcolo? Software?

Quanto costa?
Quale sarebbe la potenza di calcolo in parallelo di questa configurazione?
Quale software (commerciale e non) riesce a sfruttarla?
benderchetioffender29 Settembre 2016, 21:08 #2
Originariamente inviato da: marconi.g
Quanto costa?
Quale sarebbe la potenza di calcolo in parallelo di questa configurazione?
Quale software (commerciale e non) riesce a sfruttarla?


senza scimmia eh!
lucusta03 Ottobre 2016, 09:59 #3
e' una piattaforma prettamente per il double precision.
ad occhio e corce siamo sui 50.000.
se ben sfruttata fa' 21.8TF DP (dipende pero' dall'overload software).
tutto quello che funziona con l'ultimo CUDA, ma e' fortemente influenzato dall'ambito operativo.

lasciando stare elaborazioni di rending, la doppia precisione è usata in ambito scientifico per ottenere stime accurate in statistica.
le onde le studi per forza di cose in DP (anzi... e' anche doversi accontentare, visto che molte volte si cerca di farle a 512).

quando invece hai un sistema in tempo reale da studiare, e' sufficiente la singola o la mezza precisione, ma solo perche' le informazioni d'input sono elevatissime, e segui la propagazione temporale del sistema.
trovato un andamento tipo dell'evento, lo memorizzi e lo sfrutti per ottenere possibili sviluppi.
questo e' il deep learning, pero', ed hai necessita d'apprendimento per riconoscere schemi complessi non legati (schemi dal comportamento non relazionabile facilmente a leggi fisiche o altro).

Devi effettuare il login per poter commentare
Se non sei ancora registrato, puoi farlo attraverso questo form.
Se sei già registrato e loggato nel sito, puoi inserire il tuo commento.
Si tenga presente quanto letto nel regolamento, nel rispetto del "quieto vivere".

La discussione è consultabile anche qui, sul forum.
 
^