Tesla K20X e K20: le schede NVIDIA con GPU GK110
K20X e K20: questi i nomi scelti per identificare le due nuove schede video NVIDIA della famiglia Tesla destinate agli ambiti di GPU Computing. Nuova GPU GK110 alla base di queste soluzioni, con una potenza di elaborazione in double precision che è nettamente più elevata di quanto disponibile con le schede Fermi oltre che con quelle Tesla K10 in commercio
di Paolo Corsini pubblicato il 12 Novembre 2012 nel canale Server e WorkstationNVIDIATesla
Due nuove schede Tesla K20
Lo scorso mese di Agosto, in occasione del Siggraph 2012, NVIDIA aveva anticipato alcune delle caratteristiche tecniche delle proprie schede della serie K20, appartenenti alla famiglia Kepler. Si tratta di prodotti basati su GPU meglio nota con il nome in codice di GK110, la proposta più complessa tra quelle della famiglia Kepler sviluppate da NVIDIA. Di questa architettura NVIDIA aveva anticipato le prime informazioni alla metà del mese di Maggio 2012, in concomitanza con il proprio evento GPU Technology Conference. Di K20 abbiamo recentemente parlato con riferimento al supercomputer Titan, che abbina processori AMD della famiglia Opteron con architettura a 16 core proprio a queste schede video Tesla così da raggiungere una potenza di elaborazione complessiva di vertice.
Quest'oggi, in concomitanza con SC12, NVIDIA svela quale sia la gamma di schede Tesla basate su architettura GK110 presentando due schede. La prima, K20, è il modello già anticipato negli scorsi mesi mentre K20X è la proposta top di gamma con specifiche tecniche ulteriormente evolute. Riassumiamo nella tabella seguente le specifiche tecniche delle due schede accanto alle altre proposte Tesla a listino, oltre che a quelle FirePro S di AMD.
Tesla K20X | Tesla K20 | AMD FirePro S10000 |
AMD FirePro S9000 |
AMD FirePro S7000 |
NVIDIA Tesla K10 |
NVIDIA Tesla M2090 |
|
GPU | GK110 | GK110 | Tahiti | Tahiti | Pitcairn | GK104 | GF110 |
n° GPU | 1 | 1 | 2 | 1 | 1 | 2 | 1 |
Clock | 732 MHz | 706 MHz | 825 MHz | 900 MHz | 950 MHz | 745 MHz | 650 MHz |
Cores | 2.688 | 2.496 | 3.584 | 1.792 | 1.280 | 3.072 | 512 |
Peak single precision | 3,95 TFlops | 3,52 TFlops | 5,91 TFlops | 3,23 TFlops | 2,4 TFlops | 4,58 TFlops | 1,33 TFlops |
Peak double precision | 1,31 TFlops | 1,17 TFlops | 1,48 TFlops | 0,806 TFlops | 0,152 TFlops | 0,19 TFlops | 0,67 TFlops |
TDP | 235W | 225W | 375W | 225W | 150W | 300W | 225W |
Memoria | 6GB | 5GB | 2x3GB | 6GB | 4GB | 2x4GB | 6GB |
bus memoria | 384 bit | 320bit | 2x384bit | 384bit | 256bit | 2x256bit | 384bit |
chip memoria | GDDR5 | GDDR5 | GDDR5 | GDDR5 | GDDR5 | GDDR5 | GDDR5 |
bandwidth memoria | 250 GB/s | 208 GB/s | 480 GB/s | 264 GB/s | 154 GB/s | 320 GB/s | 177 GB/s |
supporto ECC | si | si | si | si | si | si | si |
Nel confronto tra Tesla K20X e AMD FirePro S9000, entrambe schede a singola GPU caratterizzate da un TDP massimo molto simile (235 Watt per Tesla K20X e 225 Watt per AMD FirePro S9000), notiamo come la nuova scheda NVIDIA possa vantare specifiche superiori in termini di pura potenza di calcolo tanto in single precision come in double precision. Interessante anche il confronto con la scheda Tesla K10, altra proposta professionale basata su architettura Kepler: in questo caso K10 è preferibile in single precision per via della presenza di due GPU in parallelo sullo stesso PCB ma in double precision la particolare architettura della GPU GK104 fa crollare le prestazioni velocistiche su valori che non sono interessanti, anche nel confronto con la precedente Tesla M2090 basata su architettura Fermi.
Rispetto a GF110, GPU top di gamma della famiglia Fermi, la nuova arrivata GK110 permette di ottenere un sensibile incremento prestazionale tanto in single come in double precision: i valori massimi teorici triplicano nel primo caso e raddoppiano nel secondo, fermo restando il consumo complessivo che è entro i 225 Watt di TDP di soglia massima. I dati sulla carta migliori sono quelli della scheda AMD FirePro S10000 presentata dall'azienda americana proprio questa mattina, con 5,91 TFlops in single precision e 1,48 TFlops in double precision; tali risultati sono però stati ottenuti utilizzando due GPU montate sullo stesso PCB, con un TDP che è dichiarato pari a 375 Watt.
Il clock della memoria video integrata nelle due schede è pari a 5.200 MHz effettivi mentre cambia quantitativo e bus abbinato. In K20X sono integrati 6 Gbytes con bus a 384bit di ampiezza, per una bandwidth massima teorica che raggiunge i circa 250 Gbytes al secondo; in K20 troviamo invece 5 Gbytes con bus a 320bit di ampiezza, per una bandwidth massima teorica che raggiunge i 208 Gbytes al secondo
Nel confronto tra le soluzioni della famiglia Tesla basate su architetture Fermi e Kepler NVIDIA evidenzia come con le seconde sia nettamente incrementata l'efficienza complessiva, cioè la capacità di raggiungere valori effettivi di potenza di calcolo con applicazioni in ambito server che si avvicinino il più possibile a quanto messo a disposizione a livello teorico. Nel grafico sono illustrati i risultati ottenuti con due sistemi server identici fatta solo eccezione per la coppia di schede video: i valori ottenuti con Linpack, classico benchmark che misura la potenza di calcolo di CPU e GPU utilizzate in ambito di High Performance Computing, mostrano come le schede Kepler K20X siano più efficienti nel complesso, raggiungendo un valore che è pari al 76% di quello massimo teorico deducibile dalle sole specifiche tecniche.