Knights Landing è la futura GPU Intel per il calcolo parallelo

Knights Landing è la futura GPU Intel per il calcolo parallelo

Anticipate alcune delle caratteristiche tecniche delle soluzioni Xeon Phi della famiglia Knights Landing: oltre 60 core della famiglia Silvermont, la nuova interconnessione Omni Scale Fabric e memorie on package

di pubblicata il , alle 16:03 nel canale Private Cloud
Intel
 
70 Commenti
Gli autori dei commenti, e non la redazione, sono responsabili dei contenuti da loro inseriti - info
cdimauro25 Giugno 2014, 09:14 #11
Il risultato di Xeon Phi è decisamente scadente. Evidentemente c'è qualcosa che non consente di sfruttare la potenza di calcolo a disposizione, che specialmente in doppia precisione è molto elevata.
Bisognerebbe analizzare il test e profilare l'applicazione per rilevare i colli di bottiglia, anche perché il calcolo matriciale si presta bene per quest'archutettura.
Comunque non userei Intel Cluster Studio, visto che non c'è un cluster. Intel Conposer XE è lo strumento più adatto allo scenario esposto, che è pure quello più comune.
Al momento non posso aggiungere altro perché sono con lo smartphone e sto andando a lavoro.
AceGranger25 Giugno 2014, 09:49 #12
Originariamente inviato da: cdimauro
Per quanto riguarda il fatto che vadano in protezione termica, è strano, perché non m'è mai capitato. Bisognerebbe vedere che tipo di Xeon Phi hanno (è disponibile in alcune versioni che variano per numero di core e clock).

Comunque potrebbero selettivamente scegliere quanti core utilizzare, in modo da trovare il giusto bilanciamento che eviti di far andare in protezione termina la scheda. Se utilizzano MPI per distribuire il carico di lavoro sui core & thread è molto semplice specificare quanti core usare, e in generale come distribuire l'esecuzione nei vari core e thread.


non è sceso piu di tanto nei particolari ma credo che il loro scopo fosse/sia quello di farla lavorare al 100%, ora non so quanto sia efficiente o meno rispetto alle CPU in questi ambiti, ma visto il costo elevato se vogliono renderla un'opzione percorribile credo che debbano trovare il modo di sfruttarla al 100%, seno tanto vale rimanere su CPU.

Originariamente inviato da: cdimauro
Credo di aver capito. Xeon Phi ovviamente lavora esclusivamente con sua memoria locale, per cui tutto ciò che gli serve (codice, dati) deve risiedere o nella GDDR5 o nella cache L2 o nella cache L1; non si scappa. Ovviamente può anche prelevare dati dalla memoria centrale, ma usando il protocollo PCI-Express, con tutti i limiti del caso (banda e latenza).

Knights Landing non fa eccezione, anche se non credo non ci siano problemi in tal senso, visto che integra moltissima memoria di per sé.

Con le architetture precedenti, però, il problema si pone, perché 8GB di RAM possono essere troppo pochi se c'è da manipolare grosse quantità di dati. In questo caso le applicazioni devono essere sviluppate in modo da cercare di massimizzare l'uso della memoria locale della GPU, suddividendo l'elaborazione in parti che girino interamente in Xeon Phi.

Credo che sia stato questo il problema che hanno avuto con Vray.


mmm e no allora parziali brutte notizie :/ perchè es. io attualmente lavoro con 32 Gb di ram, non le uso per tutti i render, pero il fatto di avere un qualcosa che non posso usare sempre non mi piace molto...

pero secondo te, immaginando questo sistema, quale situazione si verifichera:

scheda madre bi-socket, socket 1 Xeon con 32 Gb di ram, socket 2 con Xeon PHI con 16 Gb on-board e 32 Gb di ram come banchi

premessa ( attualmente con le GPU e l'attuale PHI la scena di render deve essere caricata totalmente in ram texture comprese, seno non parte il render )

1- avremo 64 Gb di ram di sistema e separati 16 Gb on-board, quindi la scena di render dovra essere inferiore ai 16 Gb

2- avremo 80 GB di ram+on-board che saranno un tutt'uno quindi scena di render senza limiti

3- avremo 32 Gb di ram dello Xeon CPU classico e poi separati i 48 Gb PHI ( i suoi 16 on-board + i 32 collegati al suo socket ) quindi il limite di 32 Gb


se non ho capito male quello che hai scritto che il limite rimane ci troveremo nella situazione 1 ( brutta ) o potrebbe essere anche al situazione 3 ( bella
pierpox25 Giugno 2014, 09:53 #13
Si,avevo citato il Cluster Studio perchè raccoglie un po tutto il necessario(librerie incluse) per scrivere diverso codice ottimizzato anche in distribuito.La cosa mi ha lasciato parecchio perplesso...anche per il fatto che è documentazione ufficiale intel,quindi presumo che abbiano fatto di tutto per esprimere il massimo!Il pc di prova è questo:

"This article was created based on MATLAB R2014a and Intel MKL for Windows* 11.1 update1 and update 2 on the system
Host machine: Intel Xeon CPU E5-2697 v2, 2 Twelve-Core CPUs (30MB LLC, 2.7GHz), 128GB of RAM; OS: Windows Server 2008 R2 Enterprise
Coprocessors: 2 Intel® Xeon Phi™ Coprocessors 7120A, each with 61 cores (30.5MB total cache, 1.2GHz), 16GB GDDR5 Memory
Software: Intel® Math Kernel Library (Intel® MKL) 11.1 update 1 and update 2, Intel Manycore Platform Software Stack (MPSS) 3.2.27270.1".

Per una configurazione così ci vuole una vagonata di euro e poi dopo le opportune mdificazioni suggerite ecco il risultato (un po deludente):

"If you start a MATLAB session after setting MKL_MIC_ENABLE, the MATLAB command window displays:
>> TestBlas
Elapsed time is 1.869576 seconds"

TestBlas crea le due matrici ma calcola il tempo solo per il prodotto delle stesse.Dunque sarà più un cattivo supporto o una deficenza dell'architettura?
devil_mcry25 Giugno 2014, 10:07 #14
Originariamente inviato da: cdimauro
Infatti non lo sono.

A livello di API credo che non dovrebbe cambiare molto rispetto agli attuali Knights Corner, dunque tutto il software già scritto dovrebbe girare tranquillamente.

Comunque per prendere confidenza con lo sviluppo di software per Xeon Phi non ti serve necessariamente avere la scheda o il computer: puoi scrivere codice che gira automaticamente sulla CPU nel caso in cui non venga trovato alcun sistema Xeon Phi. In questo modo puoi già lavorare al codice vero e proprio, e sfruttare le schede o il computer non appena le avrai, senza dover toccare più niente.

Con Xeon Phi può già mappare in maniera trasparente la memoria di CPU e Xeon Phi in modo che siano condivise. Per essere chiari, puoi, ad esempio, dichiarare un vettore e mapparlo in memoria allo stesso indirizzo sia sulla CPU sia su Xeon Phi. Si occuperà poi il runtime di Xeon Phi a sincronizzare opportunamente le rispettive memoria locali.

Se la CPU scrive qualcosa nel vettore, ad esempio, le modifiche verranno ricopiate nella scheda (o nelle, se le schede/sistemi sono più d'una) memoria di Xeon Phi, in modo che sia CPU sia Xeon Phi abbiano sempre dei dati coerenti.

Questo particolare modello di sviluppo per Xeon Phi (ce ne sono diversi, a seconda del linguaggio e degli obiettivi) si chiama MYO. Qui trovi informazioni sulle diverse possibilità di sviluppo.

La cosa interessante di MYO è che consente di scambiare velocemente strutture dati anche molto complesse (es: grafi) senza che sia necessaria alcun marshalling per lo scambio di dati (come avviene, invece, per altre modalità di sviluppo / funzionamento, o normalmente con altre architetture GPGPU o GPU).

Comunque se hai già del codice esistente lo puoi convertire velocemente e in maniera molto semplice per sfruttare Xeon Phi, usando delle apposite direttive (#pragma). Oppure Intel mette a disposizione una libreria di funzioni matematiche (MKL) molto usate in ambito scientifico, e che sono già ottimizzate per sfruttare automaticamente Xeon Phi.

Questo è tutto, se il discorso che facevi sulla memoria integrata in Xeon Phi riguardava la condivisione di dati fra CPU e Xeon Phi. Altrimenti dovresti chiarire meglio lo scenario di cui parlavi.


Rispondo a entrambi. A differenza di Knights Corner, Knights Landing mette a disposizione dei core perfettamente compatibili con IA-32, per cui possono far girare qualunque codice per IA-32 o Intel64/x64 senza alcuna modifica.

Quindi è possibile installare qualunque s.o. e utilizzare qualunque software già esistente, e se questo supporta già adeguatamente la programmazione parallela (multicore/thread) trarrà automaticamente beneficio della moltitudine di core / thread hardware a disposizione (con 72 core fisici ci sono 288 thread hardware).

Questo, però, non consente di sfruttare pienamente la potenza di calcolo che Knights Landing mette a disposizione (in particolare il set d'istruzioni AVX512). Per fare, però, è sufficiente una ricompilazione con un compilatore che generi codice apposito per questa ISA.

Sì, e quindi dovrebbe esserci un notevole aumento prestazionale, similmente a quello ottenuto passando dalla vecchia architettura Atom in-order a quella out-of-order. Anzi, considerato che Xeon Phi utilizzava la vecchia architettura Pentium (adattata), e quindi non erano presenti i diversi miglioramenti presenti in quella Atom in-order, il guadagno a livello prestazionale dovrebbe essere decisamente maggiore.

Comunque aspettiamo i primi benchmark per avere qualche dato concreto.

Davvero notevole, mi piacerebbe un casino provarne uno in futuro ma credo non sarà compatibile con le mie tasche. :P Però grande Intel, via di sto passo probabilmente il futuro sarà in questo senso
Ares1725 Giugno 2014, 11:17 #15
Originariamente inviato da: devil_mcry
Davvero notevole, mi piacerebbe un casino provarne uno in futuro ma credo non sarà compatibile con le mie tasche. :P Però grande Intel, via di sto passo probabilmente il futuro sarà in questo senso

3 TF in Db vuol dire tutto e niente.
Essendo comunque un ia32 si porterà dietro tutti i limiti x86 dietro, mitigati da accorgimenti vari certamente, ma la prova sul campo metterà in luce l'esatto valore di queste soluzioni.
Troppe volte ho visto specifiche sulla carta mirabolanti e poi prestazioni deludenti in pratica.
L'unica cosa che posso però dire è che vedo sempre più nvidia tagliata fuori dal settore HPC.
Questa soluzione elimina praticamente il bisogno di riscrivere il codice da zero, mentre in situazioni particolari potrebbe essere addirittura consigliabile l'apu AMD per abbattere i costi.
AceGranger25 Giugno 2014, 11:23 #16
Originariamente inviato da: Ares17
3 TF in Db vuol dire tutto e niente.
Essendo comunque un ia32 si porterà dietro tutti i limiti x86 dietro, mitigati da accorgimenti vari certamente, ma la prova sul campo metterà in luce l'esatto valore di queste soluzioni.
Troppe volte ho visto specifiche sulla carta mirabolanti e poi prestazioni deludenti in pratica.
L'unica cosa che posso però dire è che vedo sempre più nvidia tagliata fuori dal settore HPC.
Questa soluzione elimina praticamente il bisogno di riscrivere il codice da zero, mentre in situazioni particolari potrebbe essere addirittura consigliabile l'apu AMD per abbattere i costi.


bha a me le APU paiono senza senso, sono limitate dalla GPU entry lvl e sono malamente scalabili; con Intel o nVidia ti fai un singolo sistema da 1 a 4 CPU e da 1 a 8 GPU e passi da sistemi entry lvl a Top gamma.

al contrario nVidia si sta ritagliando tutto un suo mercato offrendo soluzioni complete fatte e finite di hardware + software.
pierpox25 Giugno 2014, 11:35 #17
Originariamente inviato da: AceGranger
bha a me le APU paiono senza senso, sono limitate dalla GPU entry lvl e sono malamente scalabili; con Intel o nVidia ti fai un singolo sistema da 1 a 4 CPU e da 1 a 8 GPU e passi da sistemi entry lvl a Top gamma.

al contrario nVidia si sta ritagliando tutto un suo mercato offrendo soluzioni complete fatte e finite di hardware + software.


Si,credo che lo scenarieo futuro sarà una piattaforma hardware solo INTEL con Xeon classici più PHI e solo NVIDIA cpu ARM e schede TESLA .Sarà interessante questa "battaglia" anche perchè con Maxwell e architetture future Nvidia sta spingendo molto anche sull'efficenza enegetica oltre che sulle prestazioni pure!
Vash_8525 Giugno 2014, 14:09 #18
Pensare che poco meno di un mese fa mi ero fatto aggiornare la ws con due phi è due xeon 2880....
Però le prove di impatto ringraziano....
AceGranger25 Giugno 2014, 14:28 #19
Originariamente inviato da: Vash_85
Pensare che poco meno di un mese fa mi ero fatto aggiornare la ws con due phi è due xeon 2880....
Però le prove di impatto ringraziano....


bè dai queste usciranno fra un anno, hai tutto il tempo di fargliele ricomprare
Vash_8525 Giugno 2014, 14:33 #20
Originariamente inviato da: AceGranger
bè dai queste usciranno fra un anno, hai tutto il tempo di fargliele ricomprare


Anno prossimo schermo 4k

Visto che tu te ne intendi di "robe da disegno" , hai qualche dritta per 16:10 4k?

Devi effettuare il login per poter commentare
Se non sei ancora registrato, puoi farlo attraverso questo form.
Se sei già registrato e loggato nel sito, puoi inserire il tuo commento.
Si tenga presente quanto letto nel regolamento, nel rispetto del "quieto vivere".

La discussione è consultabile anche qui, sul forum.
 
^