Piz Daint, supercomputer europeo che lotta contro il cancro e i terremoti (e non solo)

Piz Daint, supercomputer europeo che lotta contro il cancro e i terremoti (e non solo)

Il termine supercomputer porta ad immaginare, nell'immaginario collettivo, un sistema di calcolo dalle dimensioni estremamente imponenti in grado di dare risposte a domande molto complesse. Abbiamo visto di persona il n° 3 al mondo per potenza, costruito abbinando processori e GPU e raffreddato sfruttando le acque del lago di Lugano

di Paolo Corsini pubblicato il nel canale Scienza e tecnologia
CrayXeonIntelTeslaNVIDIA
 

Due volte all'anno, nei mesi di giugno e novembre, è tradizione per il mondo dei supercomputer la pubblicazione della classifica aggiornata dei top 500 sistemi al mondo. Si tratta di installazioni di notevole complessità, nelle quali diversi computer singoli identificati come nodi sono collegati tra di loro così da mettere a disposizione una potenza di calcolo cumulata molto elevata.

Quanti siano i nodi, quale architettura sia utilizzata per ciascuno di essi e come siano collegati tra di loro decreta quanto potente sia un supercomputer. Parliamo in ogni caso di installazioni molto grandi, che vanno ad occupare svariate file di armadi all'interno di un datacenter molte volte dedicato solo a loro e che per questo motivo hanno particolari requisiti in termini di sistemi di raffreddamento e di alimentazione.

Supercomputer: danno risposte a domande complesse usando un quantitativo di dati crescente nel corso del tempo

Gli ambiti di utilizzo di questi supercomputer sono i più vari, ma in generale potremmo sintetizzare affermando che il loro utilizzo mira a dare risposte a domande sempre più complesse analizzando un quantitativo di dati e informazioni che è crescente nel corso del tempo. Da questo una vera e propria gara tra università, enti di ricerca, consorzi privati e in alcuni casi enti nazionali che punta a sviluppare supercomputer che siano sempre più veloci e, da qualche anno a questa parte, anche efficienti. Ottenere una soluzione potente in assoluto, vista l'attuale evoluzione delle tecnologie, non è una cosa difficile da realizzare: molto di più lo è bilanciare potenza e consumi, in un contesto che non può per ovvie ragioni basarsi su requisiti di alimentazione senza limiti di alcun tipo.

cscs.jpg

Due volte all'anno la classifica dei top 500 supercomputer al mondo permette di capire quali siano le evoluzioni portate avanti nel settore del supercalcolo. I dati forniti riguardano sia la potenza di elaborazione massima assoluta, indicata tipicamente in TeraFLOPS, sia l'efficienza energetica complessiva specificata come GigaFLOPS per ogni Watt consumato. Nel primo caso i dati sono pubblicati nella lista Top 500 a questo indirizzo; nel secondo invece parliamo di Green 500, accessibile a questa pagina.

L'ultimo aggiornamento della Top 500, rilasciato in occasione della ISC di Francoforte, ha visto alcune importanti novità tra i più veloci supercomputer al mondo. La più interessante è il netto balzo in avanti, dalla ottava alla terza posizione, del supercomputer più potente installato in Europa. Parliamo di Piz Daint, sistema sviluppato con soluzioni Cray che è installato all'interno del CSCS, il Centro Svizzero di Calcolo Scientifico di Lugano nel canton Ticino. Per la cronaca, a circa 20 km dalla redazione di Hardware Upgrade.

Nel corso del mese di Maggio, prima della pubblicazione dell'aggiornamento della classifica Top 500, abbiamo avuto la possibilità di trascorrere una giornata all'interno del CSCS e vedere di persona Piz Daint all'opera, con l'aggiornamento hardware che ha portato la potenza complessiva sino al terzo posto della classifica mondiale che era stato completato e il sistema operativo al pieno delle proprie capacità. Ma più di tutto questa è stata occasione per meglio capire a quali domande un sistema così complesso provi a dare risposta.

Piz Daint: il terzo supercomputer al mondo

E' Piz Daint il nome del più potente supercomputer presente in Europa, ospitato nel Centro Svizzero di Calcolo Scientifico. E' costituito da ben 5.320 nodi di tipo ibrido sviluppati da Cray, azienda americana ben nota nel mondo dei supercomputer, affiancati da 1.431 nodi di tipo multicore. I primi abbinano processori Intel Xeon E5-2690 v3 a GPU NVIDIA Tesla P100, mentre nei secondi troviamo solo componente CPU nella forma dei processori Intel Xeon E5-2695 v4.

sala_1.jpg (73561 bytes)

Ogni nodo ibrido è dotato di 64 Gbytes di memoria di sistema, che si affianca ai 16 Gbytes di memoria HBM2 installata per ogni GPU NVIDIA Tesla P100. I nodi multicore sono dotati alcuni di 64 Gbytes di memoria, altri di 128 Gbytes. In totale il sistema mette a disposizione 437,9 Terabytes di memoria di sistema, mentre la memoria video dedicata alle GPU ammonta a 83,1 Terabytes. Il collegamento tra i vari nodi avviene attraverso il protocollo di interconnessione Cray Dragonfly, utilizzando ASIC Aries sempre sviluppati da Cray. E' proprio questo sistema di interconnessione a permettere di ottenere una elevata efficienza complessiva con Piz Daint: nel confronto con i due supercomputer più veloci della lista Top 500 si evidenzia come il dato massimo sia superiore ma questo è stato ottenuto con un numero di core estremamente più elevato rispetto a quelli messi a disposizione in Piz Daint.

Piz Daint in sintesi: 5.320 nodi ibridi con CPU e GPU, oltre 400 TB di memoria e una potenza di 19,59 PetaFLOPS

A completare il quadro lo storage locale, formato da un sistema Sonexion 3000 e da uno Sonexion 1600: il primo ha capacità di 6,2 Petabytes e il secondo di 2,5 Petabytes, con picco massimo di velocità di trasmissione che è pari a 112 GB/s nel primo caso e 138GB/s nel secondo.

Si può immaginare il terzo supercomputer più veloce al mondo come una costruzione mastodontica, e per certi versi lo è: visto dal vivo, però, l'impressione è di un qualcosa che è molto più compatto. Merito di questo è nelle GPU, capaci di offrire una elevata potenza di elaborazione massima teorica in contesti di calcolo parallelo e che tendono ad occupare, a parità di potenza di calcolo, un'area ben più contenuta di quanto venga richiesto utilizzando tradizionali processori. Chi opera in ambito datacenter conosce bene la differenza, in termini di elaborazione, tra CPU e GPU per calcoli paralleli e che un confronto diretto non sia corretto dal punto di vista teorico in quanto si tratta di strumenti differenti per logica e modalità di utilizzo.

sala_2.jpg (57832 bytes)

Nel corso della primavera Piz Daint è stato oggetto di un importante aggiornamento, che in una prima fase iniziale era già stato completato nel corso dell'autunno 2016 e quindi rientrato in termini di potenza di calcolo addizionale all'interno della classifica di novembre 2016. Le GPU sono state sostituite rimuovendo le precedenti soluzioni NVIDIA Tesla K20X in favore dei modelli Tesla P100 basati sulla più recente architettura Pascal.

E' evidente il coinvolgimento di NVIDIA all'interno di questo progetto, in quanto Piz Daint è uno dei supercomputer nei quali l'azienda ha proposto per la prima volta proprie soluzioni della famiglia Tesla su scala così ampia. Al momento attuale, inoltre, Piz Daint è il supercomputer più veloce al mondo tra quelli basati su GPU NVIDIA: solo Tianhe-2, il secondo supercomputer più veloce al mondo installato a Guangzhou in Cina ha un'architettura ibrida con GPU e CPU, basata però su soluzioni Intel Xeon Phi e caratterizzata da un numero di core estremamente più elevato rispetto a quello di Piz Daint

L'acqua del lago per raffreddare

L'edificio che ospita il Centro Svizzero di Calcolo Scientifico è stato costruito a partire dal 2010 in un'area nella periferia nord di Lugano, seguendo criteri che sono funzionali sia alla qualità del tempo che i dipendenti e i collaboratori della struttura vi trascorrono, sia delle esigenze legate ai sistemi di calcolo presenti. Oltre a Piz Daint il centro ospita altri sistemi dalla potenza inferiore, tra i quali segnaliamo quello adottato dal Centro Meteo Svizzero per elaborare le proprie previsioni del tempo. La superficie complessiva è pari a 2.600 metri quadri e la struttura è stata pensata per poter rispondere alle esigenze di attività dei prossimi 40 anni.

L'acqua del lago di Lugano raffredda i server ospitati dal CSCS, scorrendo 3km in una tubatura sotterranea

La struttura si compone di una palazzina destinata agli uffici, dietro la quale sorge il datacenter collegato con un corridoio diretto così da facilitare l'ingresso in sala da parte dei tecnici. Il centro di calcolo vero e proprio è su 3 livelli, con i sistemi posizionati nel piano più alto; quello centrale è dedicato alla circuiteria di alimentazione che quindi non è allo stesso livello dei server mentre il piano base è dedicato a tutta la struttura di raffreddamento a liquido. E' ben evidente come la separazione in 3 aree sovrapposte e indipendenti permetta di ottenere una più facile scalabilità futura in presenza di upgrade, oltre che della progressiva occupazione dell'area a disposizione per i server nel terzo piano.

piano_2.jpg (100890 bytes)

Il Centro Svizzero di Calcolo Scientifico è stato sviluppato partendo da un approccio molto interessante: quello di sfruttare l'acqua del lago di Lugano, situato a circa 3km di distanza, quale fonte di freddo naturale. L'acqua viene prelevata da 3 pompe alla profondità di 45 metri, ai quali si mantiene una temperatura costante di 6 gradi centigradi per tutto l'anno. L'acqua viene trasportata attraverso specifiche condutture all'interno del CSCS, con una portata che raggiunge i 420 metri cubi al minuto, superando un dislivello di circa 30 metri.

piano_3.jpg (82392 bytes)

Giunta al CSCS l'acqua viene veicolata all'interno di scambiatori di calore, nei quali circola il liquido di raffreddamento destinato ai supercomputer e alla struttura interna. L'acqua del lago non viene quindi utilizzata direttamente per raffreddare i supercomputer, anche perché questo implicherebbe doverne controllare la purezza, ma viene veicolata come elemento di interscambio termico per il circuito interno. Quest'ultimo è a sua volta utilizzato in differenti fasi: la prima è dedicata al raffreddamento dell'aria posta accanto ai sistemi di calcolo dalla potenza più elevata, con una potenza sino a 14 Megawatt, per un aumento della temperatura dell'acqua che la porta sino a 16-17°. La seconda fase vede l'acqua utilizzata per il raffreddamento di armadi che contengono altre unità di calcolo e gli hard disk, sino a un valore di potenza di 7 Megawatt. Arrivata a termine del suo ciclo l'acqua riscaldata viene rimessa nel lago ad una profondità ben più contenuta rispetto a quella del punto di prelievo iniziale, ad una temperatura che non è mai superiore a 25 gradi anche grazie all'intervento di un miscelatore che combina acqua fredda prelevata dal lago con quella calda proveniente dal CSCS: il controllo della temperatura dell'acqua di ritorno mira a non rovinare l'ecosistema del lago e c'è pertanto grande attenzione nel reimmettere acqua alla stessa temperatura di quella presente nel bacino.

Il sistema di raffreddamento adottato, e in generale le scelte di design fatte in fase di costruzione per la sede del CSCS, hanno permesso di ottenere una elevata efficienza complessiva. Tutto è pensato nell'ottica di utilizzare al massimo le risorse a disposizione e contestualmente evitare di metterne a disposizione alcune che vengano sfruttate solo parzialmente. Un esempio di questo è l'assenza di un sistema di antincendio strutturato centralizzato all'interno del CSCS: la sede è infatti stata costruita a 50 metri di distanza dalla sede dei pompieri di Lugano, che possono quindi intervenire direttamente in pochi istanti al primo segnale di allarme.

Tantissime GPU, sempre più potenti

E' evidente come il trend di evoluzione dei sistemi destinati al supercalcolo veda un utilizzo sempre più ampio delle GPU, capaci di assicurare una potenza di elaborazione massima teorica ben superiore a quella delle CPU Multicore a parità di numero di dispositivi. L'evoluzione tecnologica implementata nelle GPU ad ogni passaggio generazionale è al momento attuale in grado di offrire balzi in avanti delle prestazioni che sono ben superiori rispetto a quanto accessibile dal versante CPU: in chiave di evoluzione futura pertanto dobbiamo attenderci supercomputer ibridi sempre più dotati al proprio interno di GPU.

L'ultimo aggiornamento delle GPU in Piz Daint ne ha triplicato la potenza di elaborazione

Se i processori sono unità di elaborazione general purpose nel significato più ampio del termine, le GPU sono di fatto configurabili in ambito datacenter come acceleratori specialistici in grado di elaborare molto velocemente e con alta efficienza codice che sia stato scritto per questo scopo. Piz Daint ha visto triplicare la propria potenza di elaborazione massima con Linpack grazie principalmente ad un aggiornamento della componente GPU: il passaggio da Tesla K20X a Tesla P100 avvenuto tra 2016 e 2017 è responsabile di questo. In precedenza l'aggiornamento del 2013 di Piz Daint ha portato ad incrementare la potenza di calcolo teorica di circa 10 volte semplicemente grazie all'adozione di GPU Tesla K20X che hanno affiancato le CPU Xeon che hanno costituito la base iniziale di questo sistema.

sala_3.jpg (97767 bytes)

Ogni nodo presente in Piz Daint abbina, su una scheda madre custom appositamente sviluppata, tanto le CPU Intel Xeon come 4 GPU NVIDIA Tesla P100 su scheda PCI Express. Questo tipo di design permette di intervenire con relativa facilità nell'aggiornamento dei componenti hardware, offrendo maggiore potenza di elaborazione in futuro. Gli step di aggiornamento proposti da Cray e adottati dal CSCS per Piz Daint prima nel 2013 e poi negli ultimi mesi sono stati implementati mantenendo l'architettura alla base dei cabinet e senza ripercussioni in termini di infrastruttura di alimentazione e di raffreddamento.

sala_4.jpg (105000 bytes)

Che il supercalcolo sia sempre più dipendente dalle GPU è ben evidente non solo dalla classifica Top 500, ma soprattutto dialogando con coloro che quotidianamente utilizzano una risorsa di elaborazione come Piz Daint per dare una risposta a domande che, come abbiamo detto in precedenza, sono tutt'altro che semplici. Si scopre in questo modo come quello che può sembrare un mero esercizio di stile, l'elaborare dati scientifici più o meno complessi, abbia in realtà forti ricadute nella vita di tutti i giorni.

Andreas Fichtner, Assistant Professor for Computational Seismology presso l'ETH di Zurigo, è impegnato nell'analisi delle onde generate sulla crosta terrestre dai terremoti, oltre che dai microspostamenti che la terra genera costantemente e che di fatto rappresentano un rumore di fondo costante nello sciame sismico. Moltissimi sensori sparsi sulla superficie terreste raccolgono dati che vengono elaborati da Piz Daint, così da ricavare informazioni sulla conformazione della crosta terreste e di come gli strati sotterranei tendano a cambiare nel corso del tempo. Questi dati possono aiutare non a stimare quando e dove un terremoto possa generarsi, ma a capire come questi si propagano in funzione dell'ambiente e quali conseguenze possano generare.

Equazioni complesse che studiano i terremoti, e che servono anche per scovare un tumore al seno

Indagine interessante, ma che difficilmente entusiasma colui che non è impegnato nell'ambito della ricerca scientifica. Le equazioni matematiche adottate in queste ricerche, alla base del codice eseguito da Piz Daint, sono però utili anche per dare risposte a problemi molto più pratici come la verifica della formazione di un cancro al seno. Grazie ad una serie di rilevazioni ad onde, effettuate in poco tempo e senza nessun tipo di problema per la paziente, permettono di verificare dall'esterno la eventuale formazione di un tumore nonché la sua tipologia.

I grandi numeri diventano in questo caso uno strumento di ricerca che possa portare ad una ricaduta pratica che migliori la qualità della vita di molte persone. Fichtner, con il proprio team di ricerca, ha l'obiettivo di estendere questo tipo di utilizzo anche ad altre tipologie di patologie, migliorando la diagnosi senza che questa sia di tipo invasivo per il paziente.

Peter Vincent, Reader e EPSRC Fellow nel dipartimento di Aeronautics presso l'Imperial College di Londra, studia aerodinamica con particolare interesse nell'analisi di come sia possibile ottenere un miglioramento dell'efficienza di funzionamento dei motori dei jet. Anche in questo caso la mole di dati sui quali è basata l'elaborazione richiede necessariamente l'utilizzo di un sistema come Piz Daint per ottenere risposte in tempi accettabili, senza limitazioni in termini di complessità dei dati e dell'analisi. Un supercomputer di questo tipo permette di non dover ricorrere ad approssimazioni nelle elaborazioni, indispensabili in genere per poter ottenere risultati con tempi di elaborazione accettabili: a parità di tempo Piz Daint fornisce risposte alle analisi che sono per loro natura più precise.

Volare di più consumando e inquinando di meno

Volare di più consumando e inquinando di meno: questo l'obiettivo della ricerca di Peter Vincent che grazie a sistemi di supercalcolo e a codice Phython alla base del pacchetto PyFR può portare a risposte destinate a cambiare il modo con il quale i motori degli aerei vengono costruiti.

L'accessibilità di sistemi come Piz Daint al mondo della ricerca universitaria è una delle linee guide che dettano l'operatività giornaliera all'interno del Centro Svizzero di Calcolo Scientifico di Lugano. Tanto Vincent come Fichtner hanno rimarcato come l'accesso a questa risorsa di calcolo, soprattutto a seguito dell'ultimo aggiornamento hardware con il passaggio ad architetture di GPU Tesla P100, permetta loro di elaborare dati dalla complessità ancora più elevata di quanto non avvenisse in passato.

Parlando di codice e di limitazioni hardware è però evidente per entrambi come nel corso degli anni si è assistito nell'ambito dei supercomputer ad una crescita della potenza di elaborazione che non è stata seguita da un aumento proporzionale della bandwidth della memoria abbinata. L'avvento delle GPU ha in parte permesso di ovviare a questo tipo di problema: basti ad esempio vedere come la memoria HBM2 adottata da NVIDIA in abbinamento alle GPU Tesla P100 offra livelli di bandwidth che non sono comparabili a quello che le CPU x86 mettono a disposizione.

finale.jpg

Gli americani direbbero "you've to feed the beast" e questa espressione calza molto bene: c'è la necessità di mantenere livelli di bandwidth della memoria che siano sempre molto elevati e possano sostenere la capacità di elaborazione propria degli strumenti di elaborazione, GPU e CPU. In ambito supercomputing vedremo ogni anno sistemi sempre più potenti, oltre che altri che non spiccheranno per potenza assoluta ma saranno in grado di offrire un'efficienza energetica sempre più spinta. Affinché questa evoluzione tecnologica possa continuare sarà però indispensabile intervenire con hardware sempre più ottimizzato per questo scopo, così come del resto NVIDIA ha fatto sin dal debutto delle prime soluzioni Tesla che risale ormai a più di 10 anni fa.

Per un appassionato di tecnologia il sistema Piz Daint, unito all'intera infrastruttura del CSCS che lo ospita e che è stata sviluppata secondo criteri avveniristici, è affascinante e per certi versi sorprendente pensando alla potenza di elaborazione che offre e alla sua efficienza. Ma più di tutto fa riflettere quello che è il fine ultimo di sistemi come Piz Daint: cercare di dare in tempi rapidi risposte a domande sempre più complesse, e che possono avere una ricaduta pratica sulla vita di tutti i giorni di un numero sempre più ampio di persone. 

13 Commenti
Gli autori dei commenti, e non la redazione, sono responsabili dei contenuti da loro inseriti - info
demon7706 Luglio 2017, 16:28 #1
Che spettacolo!
boboviz06 Luglio 2017, 18:40 #2
Due volte l'anno è visitabile gratuitamente e io ne ho approfittato alcune settimane fa (facendo una valanga di foto!).
Ci diceva la guida che, al CSCS, i server durano circa 3 anni per poi essere sostituiti: nel 2019 metteranno in piedi un nuovo superserver che andrà a sostituire questo.
Spettacolo.
eureka8506 Luglio 2017, 21:15 #3
Il cervello umano è molto + potente di questa stupida macchina che divora energia preziosa.
Il problema è che non si vuole/non si sa programmare il cervello in quanto alcune entità sovranazionali vi distraggono e frammentano magistralmente.
ScaNicky06 Luglio 2017, 23:35 #4
Ne esistono alcuni dedicati alla simulazione di guerre?
keroro.9007 Luglio 2017, 00:59 #5
Originariamente inviato da: ScaNicky
Ne esistono alcuni dedicati alla simulazione di guerre?


In generale non esistono supercomputer dedicati a......ogni sistema HPC fa delle call a cui i vari gruppi di ricerca applicano e vengono assegnate sulla base delle richieste/valutazioni ricevute delle ore calcolo....generalmente i progetti sono i più disparati (ovviamente scientifici e con dimostrata possibilità di scalabilità del codice/programma che si andrà a girare)....
s-y07 Luglio 2017, 06:48 #6
bello, ma la cosa più interessante è il sistema di raffreddamento
immagino sia pensato per ammortizzare nel tempo, lato costi...
Cappej07 Luglio 2017, 07:11 #7
si ma, alla fine ... " ma quanto fa con Crysis"!

Ovviamente stiamo parlando di un "sistema" di eccellenza che solamente un Paese di "eccellenza organizzativa" poteva strutturare in modo così geniale!

Tangenti, anni di aste sul Consip (per poi scoprire di aver acquistato un "super rottame", totale incompetenza di personaggi messi (dagli AMICI politici) ad organizzare qualcosa a loro incomprensibile, scontri fra partiti per prendersi il merito, eccc. FORSE, ad oggi, avremmo avuto un Super-Computer fatto di Pentium 4 (Prescott, per altro!), mai accesso!

Va detto, hanno una marcia in più.

(Il CERN è un puro caso che sia in Svizzera..)

IMHO
elgardo9407 Luglio 2017, 08:19 #8

Uffa

La battuta si Crysis l'hanno già fatta
boboviz07 Luglio 2017, 09:44 #9
Originariamente inviato da: s-y
bello, ma la cosa più interessante è il sistema di raffreddamento immagino sia pensato per ammortizzare nel tempo, lato costi...


Esattamente. Ci hanno spiegato che pescano l'acqua (circa 500 litri al secondo) dal fondo del lago a 5° centigradi tutto l'anno e la reimmettono in superficie a 20°. La temperatura di emissione è costantemente controllata per non andare ad intaccare l'ecosistema del lago stesso.
Uh, mi sono accorto adesso che era scritto anche nell'articolo.
Comunque il rumore che c'è nella sala turbine è un qualcosa di veramente intenso :-P
boboviz07 Luglio 2017, 09:45 #10
Originariamente inviato da: eureka85
Il cervello umano è molto + potente di questa stupida macchina che divora energia preziosa.
Il problema è che non si vuole/non si sa programmare il cervello in quanto alcune entità sovranazionali vi distraggono e frammentano magistralmente.


Pure qui arrivano i complottisti d'accatto. A meno che tu non sia un stupido troll e che io abbia sbagliato a risponderti.

Devi effettuare il login per poter commentare
Se non sei ancora registrato, puoi farlo attraverso questo form.
Se sei già registrato e loggato nel sito, puoi inserire il tuo commento.
Si tenga presente quanto letto nel regolamento, nel rispetto del "quieto vivere".

La discussione è consultabile anche qui, sul forum.
 
^