Tesla K80: due GPU e 24 Gbytes di memoria per il calcolo parallelo

Tesla K80: due GPU e 24 Gbytes di memoria per il calcolo parallelo

In occasione di SC14 NVIDIA annuncia la nuova proposta top di gamma della famiglia Tesla, una scheda dotata di due GPU montate sullo stesso PCB in abbinamento ciascuna a 12 Gbytes di memoria video. Ampio spazio anche a NVLink, la connessione tra GPU e CPU in arrivo dal 2016 che dovrebbe permettere di incrementare sensibilmente le prestazioni nei sistemi server per GPU Computing

di Paolo Corsini pubblicato il nel canale Server e Workstation
NVIDIATesla
 

K80: la scheda a due GPU del famiglia Tesla

SC14 è la sede di una serie di importanti annunci per NVIDIA, azienda che con le proprie architetture di GPU è sempre più presente nel mercato dei supercomputer e di tutte quelle installazioni dove le GPU possono venir utilizzate per elaborazioni di tipo parallelo che non riguardino la tradizionale grafica 3D.

Eccoci quindi all'annuncio di Tesla K80, la nuova soluzione per il calcolo parallelo che NVIDIA ufficializza quest'oggi. Una scheda con interfaccia PCI Express e un ingombro di 2 slot sulla scheda madre che vede affiancate due GPU GK110 sullo stesso PCB abbinando una dotazione di memoria di ben 12 Gbytes per ciascun chip video. Tra le caratteristiche tecniche anticipate da NVIDIA per questo prodotto segnaliamo un totale di 4.992 CUDA cores e una bandwidth aggregata della memoria video pari a 480 Gbytes al secondo. Questi dati implicano l'utilizzo di GPU GK210 in versione con 2.496 CUDA cores ciascuna, e una frequenza di clock effettiva della memoria video GDDR5 pari a 5 GHz abbinata a bus da 384bit di ampiezza.

La GPU adottata in Tesla K80 è un modello nuovo sviluppato da NVIDIA, che ha quale base il chip GK110 adottato per la scheda Tesla K40 oltre che in varie proposte per sistemi desktop della famiglia GeForce GTX 700. In questo chip NVIDIA ha introdotto due novità tecniche che dovrebbero permettere di dare benefici soprattutto in ambito GPU Computing: il primo è il raddoppio della dimensione del register file per ogni streaming multiprocessor (SMX) integrato nella GPU, che passa da 256KB a 512 KB. Il secondo è il raddoppio della shader cache per ogni SMX, che passa dai precedenti 64 KB agli attuali 128 KB. In considerazione del consumo massimo dichiarato per la scheda è pressoché scontato considerare come GK210 introduca anche varie migliorie in termini di efficienza energetica rispetto a GK110.

slide_1.jpg (66024 bytes)

Mettiamo a confronto la nuova arrivata con le altre schede della famiglia Tesla, così da avere un quadro completo dell'attuale offerta di NVIDIA nel settore delle GPU professionali per calcolo parallelo.

CPU

Tesla K80 Tesla K40 Tesla K20X Tesla K20 Tesla K10
architettura Kepler Kepler Kepler Kepler Kepler
tipo GPU 2xGK210 GK110B GK110 GK110 2xGK104
CUDA cores 2x2.496 2.880 2.688 2.496 2x1.536
base clock GPU 562 MHz 745 MHz 732 MHz 706 MHz 745 MHz
boost clock GPU 870 MHz 810 MHz
875 MHz
- - -
clock memoria 5 GHz 6 GHz 5,2 GHz 5,2 GHz 5 GHz
dotazione memoria 2x12GB 12GB 6GB 5GB 2x4GB
bus memoria 2x384bit 384bit 384bit 320bit 2x256bit
single precision 8,74 Tflops 4,29 Tflops 3,95 Tflops 3,52 Tflops 4,58 Tflops
double precision 2,91 Tflops 1,43 Tflops 1,31 Tflops 1,17 Tflops 0,19 Tflops

Tesla K80 scende a compromessi in termini di frequenza di clock della memoria video e numero di CUDA cores integrati nei due chip video, così da mantenere un livello di consumo complessivo che sia compatibile con l'installazione in un data center. NVIDIA dichiara un consumo di picco per questa scheda pari a 300 Watt, contro i 235 Watt massimi della proposta Tesla K40, ma specifica come nella maggior parte degli utilizzi pratici questa scheda non raggiunga tale livello di consumo mantenendosi su una soglia ben inferiore.

slide_2.jpg (53189 bytes)

Grazie alla presenza di due GPU in parallelo le prestazioni velocistiche rese disponibili da Tesla K80 rappresentano un netto balzo in avanti rispetto a Tesla K40 nelle elaborazioni di tipo double precision: arriviamo a circa 2,9 TeraFLOPS complessivi, un dato che non è doppio rispetto a quello di Tesla K40 a motivo dell'inferiore numero di CUDA cores integrati per GPU rispetto al modello a singolo chip video. La scelta di dotare questa scheda di 12 Gbytes di memoria video per ognuna delle due GPU permette inoltre di non incorrere in limitazioni rispetto a quanto accessibile con Tesla K40; la bandwidth della memoria video registra anche in questo caso un sensibile incremento grazie all'utilizzo di due bus affiancati, uno per ogni GPU.

slide_3.jpg (61065 bytes)

Nel corso dei prossimi giorni vedremo al debutto varie nuove soluzioni server dedicate al GPU computing in grado di utilizzare le schede Tesla K80. Significativo vedere proposte rack a 1 unità dotate di 4 schede Tesla K80, come i modelli Dell e Quanta, in grado in questo modo di mettere a disposizione ben 8 GPU per singola unità rack ottenendo una densità di elaborazione estremamente elevata e prestazioni velocistiche in double precision superiore a quanto accessibile con 4 schede Tesla K40.

 
^