Tesla K80: due GPU e 24 Gbytes di memoria per il calcolo parallelo

Tesla K80: due GPU e 24 Gbytes di memoria per il calcolo parallelo

In occasione di SC14 NVIDIA annuncia la nuova proposta top di gamma della famiglia Tesla, una scheda dotata di due GPU montate sullo stesso PCB in abbinamento ciascuna a 12 Gbytes di memoria video. Ampio spazio anche a NVLink, la connessione tra GPU e CPU in arrivo dal 2016 che dovrebbe permettere di incrementare sensibilmente le prestazioni nei sistemi server per GPU Computing

di Paolo Corsini pubblicato il nel canale Server e Workstation
NVIDIATesla
 

NVLink nel futuro delle GPU NVIDIA

Di NVLink abbiamo avuto modo di parlare lo scorso mese di Marzo, in concomitanza con la GPU Technology Conference organizzata da NVIDIA a San Jose. Si tratta di una nuova tecnologia di interconnessione che promette di superare le limitazioni proprie del collegamento PCI Express con un link proprietario di NVIDIA, che potrà venir utilizzato tanto per collegare le GPU tra di loro come nel collegamento tra CPU e GPU.

L'interesse verso NVLink è notevole in quanto questa tecnologia punta a risolvere il problema della ridotta bandwidth nelle comunicazioni tra le GPU presenti in un sistema e tra queste e la CPU, uno dei principali colli di bottiglia alle prestazioni che sia attualmente presente nei sistemi. Se dal versante GPU l'utilizzo di NVLink è relativamente semplice, in quanto è unicamente necessario che NVIDIA implementi questa tecnologia all'interno delle proprie GPU future, per il collegamento tra GPU e CPU con questa tecnologia è necessario che NVLink sia supportato anche all'interno della CPU.

Per il momento NVIDIA ha stretto un accordo con IBM incentrato sul supporto di NVLink all'interno delle CPU della famiglia Power ma si guarda con attenzione quando un annuncio di tale portata potrà venir ufficializzato anche con riferimento ad architetture di CPU x86, oltre che per quelle basate su architettura ARM64. Pare tuttavia difficile che questo possa accadere, in quanto le due aziende produttrici di CPU x86 (Intel e AMD) sono impegnate anche nel settore del calcolo parallelo con proprie architetture concorrenti a quelle Tesla di NVIDIA.

slide_4.jpg (40825 bytes)

Vedremo la tecnologia NVLink al debutto con le GPU della famiglia Pascal, attese sul mercato a partire dal 2016: con questo nome vengono indicate le GPU che andranno a sostituire quelle Maxwell presentate da NVIDIA nel corso del 2014, architettura che in ogni caso deve ancora fare il proprio debutto nel settore delle proposte per il GPU Computing con specifiche versioni di schede della famiglia Tesla.

Una volta disponibili le prime schede Pascal la tecnologia NVLink potrà venir utilizzata in due forme distinte. Con sistemi basati su CPU Power il collegamento tra GPU e tra queste e il processore vedrà l'utilizzo di link NVLink; adottando soluzioni x86 oppure ARM64 NVLink sarà utilizzato nel collegamento di due GPU tra di loro, ricorrendo al tradizionale bus PCI Express per mettere in collegamento le GPU con il processore.

slide_5.jpg (52422 bytes)

NVLink, quando abbinato a CPU non IBM Power, apre in ogni caso spazio a configurazioni di server particolarmente complesse nelle quali una elevata densità in termini di GPU per ogni processore presente non rappresenta un particolare limite in termini di bandwidth. Con due GPU per ogni nodo di calcolo, quindi per ogni processore collegato, è possibile ottenere una bandwidth massima teorica di 80 GB/s sfruttando sino a 4 collegamenti NVLink e delegando i collegamenti tra CPU e CPU a link PCI Express 16x di tipo Gen 3 capaci di una bandwidth di picco di 16 GB/s. Adottando 3 GPU per nodo passiamo a collegamenti tra ciascuna delle 3 GPU con 2 link NVLink ciascuno per una bandwidth di 40 GB/s tra le 3 GPU presenti nel sistema, mentre con un'architettura di nodo che vede 4 GPU collegate ad una CPU otteniamo una banda di comunicazione tra le GPU che passa da un minimo di 20 GB/s per quelle più lontane tra di loro sino a 40 GB/s per quelle che sono adiacenti.

Per il momento questi sono i dati teorici di quanto la tecnologia NVLink mette a disposizione; in ambito GPU Computing la bandwidth tra le GPU presenti in un nodo è un elemento cruciale per l'ottenimento di adeguate prestazioni velocistiche, in misura ben superiore rispetto a quando accada in ambito desktop quando nel sistema sono presenti due o più GPU che operano in parallelo. In prospettiva è plausibile che NVIDIA possa adottare NVLink anche per le proprie soluzioni desktop, in quanto questa tecnologia può rivelarsi molto utile con configurazioni SLI sino a 4 GPU per rimuovere le comunicazioni tra GPU quale collo di bottiglia alle prestazioni. Ma per questo dovremo in ogni caso attendere più di un anno, sino al debutto ufficiale delle prime soluzioni basate su architettura Pascal.

31 Commenti
Gli autori dei commenti, e non la redazione, sono responsabili dei contenuti da loro inseriti - info
PhoEniX-VooDoo17 Novembre 2014, 16:04 #1
ma al netto delle frequenze e del quantitativo di memoria, cosa cambia tra una Titan-Z ed una K80?
batou8317 Novembre 2014, 17:27 #2
La Titan-Z dovrebbe avere qualche core cuda in più, ma più o meno sono la stessa cosa come specifiche. Sostanzialmente cambia la funzione, la titan la puoi usare per tutto, la tesla va bene solo per il computing (mi pare non abbia nemmeno l'uscita video... ).
bombolo_flint17 Novembre 2014, 18:38 #3
Originariamente inviato da: batou83
La Titan-Z dovrebbe avere qualche core cuda in più, ma più o meno sono la stessa cosa come specifiche. Sostanzialmente cambia la funzione, la titan la puoi usare per tutto, la tesla va bene solo per il computing (mi pare non abbia nemmeno l'uscita video... ).




Esatto non ha nessuna uscita video,ma è solo un'acceleratore grafico per algoritmi più impegnativi,calcoli scientifici.Per chi fa simulazioni numeriche e offrono una potenza necessaria per eseguire simulazioni di dimensioni maggiori ma con una velocità nettamente superiore.


Link ad immagine (click per visualizzarla) Piccolo esempio delle capacità che può svolgere una NVIDIA TESLA.
Dinofly17 Novembre 2014, 20:11 #4
Con un paio di queste in SLI gira pure Unity!
Littlesnitch17 Novembre 2014, 21:22 #5
Quindi nVidia stessa taglia la testa al toro e ci dice che non ci sarà nessuna Titan Maxwell a 28nm per natale... anzi non ci sarà proprio fino al nuovo PP. Altrimenti non avrebbe senso il lancio di questa scheda che ad occhio e croce dovrebbe costare sui 10000€.
PhoEniX-VooDoo17 Novembre 2014, 21:53 #6
Originariamente inviato da: batou83
La Titan-Z dovrebbe avere qualche core cuda in più, ma più o meno sono la stessa cosa come specifiche. Sostanzialmente cambia la funzione, la titan la puoi usare per tutto, la tesla va bene solo per il computing (mi pare non abbia nemmeno l'uscita video... ).


Originariamente inviato da: bombolo_flint
Esatto non ha nessuna uscita video,ma è solo un'acceleratore grafico per algoritmi più impegnativi,calcoli scientifici.Per chi fa simulazioni numeriche e offrono una potenza necessaria per eseguire simulazioni di dimensioni maggiori ma con una velocità nettamente superiore.


Link ad immagine (click per visualizzarla) Piccolo esempio delle capacità che può svolgere una NVIDIA TESLA.


interessante
e se qualcuno vi avesse detto che Titan / Titan-Z hanno prestazioni pessime in double precision rispetto a Tesla K40 / K80 cosa pensereste quindi?

castrazioni a livello driver nvidia?
quel qualcuno è un incapace?
altro?
Littlesnitch17 Novembre 2014, 23:42 #7
Originariamente inviato da: PhoEniX-VooDoo
interessante
e se qualcuno vi avesse detto che Titan / Titan-Z hanno prestazioni pessime in double precision rispetto a Tesla K40 / K80 cosa pensereste quindi?

castrazioni a livello driver nvidia?
quel qualcuno è un incapace?
altro?


Beh ma è ovvio che le Titan sono castrate in DP, altrimenti che senso avrebbero le Quadro e Tesla. Chi necessita del DP svolge lavori molto complessi che richiedono HW e SW certificato che deve macinare calcolo 24 su 24 per mesi se non anni ed ecco che quindi vengono tagliate le freq, i cura core, in modo da avere stabilità assoluta e contenere i consumi entro limiti accettabili.
CrapaDiLegno18 Novembre 2014, 00:58 #8
Originariamente inviato da: Littlesnitch
Beh ma è ovvio che le Titan sono castrate in DP, altrimenti che senso avrebbero le Quadro e Tesla. Chi necessita del DP svolge lavori molto complessi che richiedono HW e SW certificato che deve macinare calcolo 24 su 24 per mesi se non anni ed ecco che quindi vengono tagliate le freq, i cura core, in modo da avere stabilità assoluta e contenere i consumi entro limiti accettabili.


A parte che le Titan hanno il calcolo DP sbloccato. Il loro costo non è perché ai tempi facevano 5 frame in più di una GTX780 in BF4, ma proprio perché è sfruttabile in campo professionale per fare conti complessi ad alta velocità e con tanta memoria (cosa che le GTX non hanno).
Che poi una schiera di bimbimink@ abbia pensato di investirci uno stipendio per giocare a BF4 et Co e poi abbia espresso profonda delusione quando è uscita la 780Ti che andava di più e costava la metà, è una cosa che ancora una volta dimostra come sia giusto che qualcuno strizzi la mammella della mucca sprovveduta ogni tanto.

Cosa cambia da una Titan ad una Tesla?
Sono 2 cose completamente diverse. A parte che le Tesla non sono schede grafiche e al max le Titan si possono paragonare alle Quadro, le Titan non hanno la memoria ECC e non sono pensate per missioni critiche e come le Tesla (o Quadro), così come non hanno i driver e librerie certificate. Le Tesla non costano 4000 euro ciascuna per nulla. Anche se molti pensano che basta mettere mille mila core su un processore per avere il meglio del meglio per il calcolo, quello che conta sono sostanzialmente 2 cose: in primi l'efficienza. Se ho una scheda che va il 10% in meno ma consuma la metà, è molto meglio. Se proprio voglio potenza aggiungo le schede in più che mi servono ma risparmio enormemente sull'energia. Consumo di energia che non è quello di casa vostra: si parla di MW/h ed è il costo preponderante del funzionamento di un server HPC. Il costo di acquisto e installazione dei componenti è secondario.
La seconda cosa importante è il supporto: a chi sta facendo dei calcoli critici che una scheda ci metta la metà del tempo non interessa nulla se non ha la massima garanzia che i conti effettuati siano corretti al 100%. Pensate di fare una settimana di calcolo di fila per scoprire alla fine (o dopo qualche tempo) che le simulazioni sono sbagliate perché un algoritmo di una libreria o un chip di memoria è fallato. O anche il compilatore stesso. Anche loro possono avere bachi, anche seri. E infatti si certificano pure quelli.
Allo stesso tempo uno vuole che il proprio tempo (ed energia) sia usato al meglio, per cui non gliene frega niente di usare una libreria "open" gratuita (che tanto fa moda) ma che gli fa perdere il doppio del tempo di calcolo rispetto ad una certificata ma chiusa e a pagamento.
CUDA vive e sopravvive per questo, per buona pace dei bimbetti nutellosi che credono che far girare 2 filtri di Photoshopp più velocemente in OpenCL sia la summa di tutta la scienza informatica di un pezzo di silicio.

E' chiaro che nvidia e AMD si muovo su due piani differenti per quanto riguarda la questione calcolo tramite GPU. Mentre AMD è più concentrata a fare in modo che tale tecnica diventi più diffusa a livello consumer, usando quindi "tecnologia tradizionale", anche nel tentativo di sopperire al deficit che ha accumulato lato CPU rispetto a Intel, nvidia si è concentrata nel mercato di nicchia del super computer/server di calcolo dove può usare tecnologia diversa (più avanzata) e dove ha la possibilità di guadagnare molto di più.

Il suo accordo con IBM per la tecnologia nvlink sotto questo punto di vista è interessante. Perché se davvero funziona come promesso può davvero permettere a IBM e nvidia di costruire i super computer più efficienti del pianeta mentre Intel è alle prese ancora con i sui 50+ Pentium castrati su un bus non ben definito che a quanto pare non è riuscita a descriverne i vantaggi all'ultima conferenza di presentazione della loro remota nuova incarnazione di Knight Landing e dall'altra parte AMD propone schede (peraltro da gioco) da oltre 600W che non arrivano alla potenza di una Tesla da 300W. Non parliamo delle sue CPU.
Ancora, se davvero una GPU ha una capacità di calcolo parallela che sovrasta una "comune" CPU come ARM/x86 (i Power non sono proprio comuni da questo punti di vista), è possibile ottenere un server efficiente abbinando ad una"semplice" CPU ARM con nvlink una scheda (o più di calcolo dedicata. Altra maniera di creare nuovi prodotti potenzialmente interessanti, mentre Intel si strozza da sola sempre di più con la propria (ormai costosissima) architettura che non va più da nessuna parte, stretta tra l'avanzata dell'armata ARM (che tra un po' sarà anche sui server non necessariamente adibiti al puro calcolo) e da quello che appare essere un grande balzo nel prossimo futuro della concorrenza nel campo HPC, molto prima che possa arrivare a sfruttare i 10nm e ottenere nuovamente un vantaggio dovuto al processo produttivo piuttosto che dalla creazione di una migliore architettura.

Altra cosa interessante è l'impegno che IBM sta mettendo nel creare il vero calcolo ibrido con la sua architettura Power. Dall'esperienza del Cell (e dall'efficienza enorme mostrata dal RoadRunner) deve aver capito che le unità di calcolo dedicate sono molto meglio di unità di elaborazione general purpose quando la CPU è destinata ad un determinato uso (il calcolo, appunto, non a far girare l'interfaccia del SO).
Oltre alla GPU esterna è possibile che IBM abbia intenzione di usare anche altro. Anche qui si gioca su due livelli ben diversi.
PhoEniX-VooDoo18 Novembre 2014, 07:51 #9
grazie, a me interessava solo la conferma che in una sessione di test una Titan ed una K40 ottengono risultati del tutto paragonabili in DP
cdimauro18 Novembre 2014, 08:09 #10
Originariamente inviato da: CrapaDiLegno
Anche se molti pensano che basta mettere mille mila core su un processore per avere il meglio del meglio per il calcolo, quello che conta sono sostanzialmente 2 cose: in primi l'efficienza. Se ho una scheda che va il 10% in meno ma consuma la metà, è molto meglio. Se proprio voglio potenza aggiungo le schede in più che mi servono ma risparmio enormemente sull'energia. Consumo di energia che non è quello di casa vostra: si parla di MW/h ed è il costo preponderante del funzionamento di un server HPC. Il costo di acquisto e installazione dei componenti è secondario.

Falso: dipende tutto dalle esigenze. Se ho bisogno di avere dei dati prima possibile, l'aspetto energetico diventa secondario.
Il suo accordo con IBM per la tecnologia nvlink sotto questo punto di vista è interessante. Perché se davvero funziona come promesso può davvero permettere a IBM e nvidia di costruire i super computer più efficienti del pianeta mentre Intel è alle prese ancora con i sui 50+ Pentium castrati

Quindi? Quale sarebbe il problema? L'importante è quello che riescono a fare.

D'altra parte è bene notare che di Maxwell ancora non si parla, mentre nVidia ha presentato questa scheda basata su due core... Kepler. Magari il perché ce lo potrà spiegare qualche "bambino nutelloso"...
su un bus non ben definito

Come funzionano Knights Corner e Knights Landing è abbastanza chiaro. Ovviamente per chi sa informarsi; persino su Wikipedia si trovano dati in merito...
che a quanto pare non è riuscita a descriverne i vantaggi all'ultima conferenza di presentazione della loro remota nuova incarnazione di Knight Landing

Quale sarebbe questa conferenza?
Ancora, se davvero una GPU ha una capacità di calcolo parallela che sovrasta una "comune" CPU come ARM/x86 (i Power non sono proprio comuni da questo punti di vista), è possibile ottenere un server efficiente abbinando ad una"semplice" CPU ARM con nvlink una scheda (o più di calcolo dedicata. Altra maniera di creare nuovi prodotti potenzialmente interessanti, mentre Intel si strozza da sola sempre di più con la propria (ormai costosissima) architettura che non va più da nessuna parte, stretta tra l'avanzata dell'armata ARM (che tra un po' sarà anche sui server non necessariamente adibiti al puro calcolo) e da quello che appare essere un grande balzo nel prossimo futuro della concorrenza nel campo HPC,

Intel è talmente strozzata che... Amazon: ARM Chipmakers Aren’t Matching Intel’s Innovation.

No, non è un PR di Intel ad aver fatto quella dichiarazione.
molto prima che possa arrivare a sfruttare i 10nm e ottenere nuovamente un vantaggio dovuto al processo produttivo piuttosto che dalla creazione di una migliore architettura.

Al momento i 14nm sono più che sufficienti, considerato che la concorrenza annaspa. Ma in ogni caso i 10nm rimangono in roadmap.
Altra cosa interessante è l'impegno che IBM sta mettendo nel creare il vero calcolo ibrido con la sua architettura Power. Dall'esperienza del Cell (e dall'efficienza enorme mostrata dal RoadRunner) deve aver capito che le unità di calcolo dedicate sono molto meglio di unità di elaborazione general purpose quando la CPU è destinata ad un determinato uso (il calcolo, appunto, non a far girare l'interfaccia del SO).

Infatti l'ha capito così bene che... Cell è morto.

E POWER è messa così bene che... ha dovuto creare un consorzio per cercare aiuto per lo sviluppo. D'altra parte che quest'architettura sia in declino lo hanno detto pure loro, qualche mese fa, indicando in ARM e... proprio Intel quali le cause d'erosione di questo mercato.
Oltre alla GPU esterna è possibile che IBM abbia intenzione di usare anche altro. Anche qui si gioca su due livelli ben diversi.

Già. Aggiungiamo anche un altro livello: quello delle fab che ha venduto, che non le gioverà certo, visto che dovrà affidarsi a terzi, con tutte le problematiche che le altre fab stanno creando a chi si affida loro.

Comunque concordo sui "bambini nutellosi": il web, purtroppo, ne è pieno, e si vede da post come questi, per l'appunto...

Devi effettuare il login per poter commentare
Se non sei ancora registrato, puoi farlo attraverso questo form.
Se sei già registrato e loggato nel sito, puoi inserire il tuo commento.
Si tenga presente quanto letto nel regolamento, nel rispetto del "quieto vivere".

La discussione è consultabile anche qui, sul forum.
 
^