Un cluster Tesla per le elaborazioni finanziare di Bloomberg

Un cluster Tesla per le elaborazioni finanziare di Bloomberg

Nuovo caso studio per le elaborazioni GPU Computing con soluzioni Tesla di NVIDIA: Bloomberg ottiene un incremento dell'800% nei tempi di elaborazione

di pubblicata il , alle 08:50 nel canale Device
NVIDIATesla
 
18 Commenti
Gli autori dei commenti, e non la redazione, sono responsabili dei contenuti da loro inseriti - info
ndrmcchtt49130 Settembre 2009, 15:53 #11
Originariamente inviato da: homero
credete a queste cose? ma siete impazziti?

1. hanno dovuto acquistare i server tesla che non costano 2 soldi.
2. hanno dovuto riscrivere il codice
3. cambiando sistema di calcolo la fase di test e di affidabilità del sistema non è ancora collaudata
4. 800% rispetto a cosa? quando sento queste percentuali comincio a dubitare in tutti i test si è dimostrato un miglioramento del 50% di cuda rispetto alla CPU ad ogni modo...a me sembra tutta pubblicità come sempre...

...nvidia paga per farsi pubblicità...



Certo che credo a ste cose d' altronde si parla di elaborazioni finanziare, i vari server che hanno comprato non costano 2 soldi, peccato si parli di un' azienda che lavora(presumibilmente) in quel settore e non di un comune privato, se un sisteva lavora al 100% l' incremento prestazionale è di 8 volte cosa credibile, quanto al marcheting tanto meglio per Nvidia che è arrivata prima di altre aziende nell' elaborazione gpgpu
eltalpa30 Settembre 2009, 15:55 #12
Originariamente inviato da: homero
credete a queste cose? ma siete impazziti?

Non e' che ci crediamo, le abbiamo comprate.
Dove lavoro abbiamo speso circa 6000euro per comprare una workstation con 2 Quardo il SLI per usare CUDA. E visti i risultati stiamo seriamente pensando di comprare un rack tesla.

Originariamente inviato da: homero
1. hanno dovuto acquistare i server tesla che non costano 2 soldi.
2. hanno dovuto riscrivere il codice
3. cambiando sistema di calcolo la fase di test e di affidabilità del sistema non è ancora collaudata
4. 800% rispetto a cosa? quando sento queste percentuali comincio a dubitare in tutti i test si è dimostrato un miglioramento del 50% di cuda rispetto alla CPU ad ogni modo...a me sembra tutta pubblicità come sempre...

No, e' tutta verita'. Alcuni tipi di algoritmi, come le simulazioni fisiche, algoritmi di montecarlo, e in generale tutto cio' che e' facilemente parallelizzabile puo' ricevere boost fino a quasi due ordini di grandezza se calcolato su GPU.
Noi abbiamo implementato la DTW e il boost e' stato di 10x su cuda rispetto ad uno Xeon quad core (In percentuale si tratta di un boost del 1000% ). Abbiamo inoltre in mente di re-implementare alcuni algoritmi di calcolo di un famoso GIS opensource (GRASS) per velocizzare i calcoli sui file raster, un beneficio per tutti. Gia' altre societa' commerciali si sono attivate in questo senso e i miglioramenti prestazionali arrivano a 40x per alcuni calcoli, il che ci fa ben sperare: http://www.nvidia.com/object/io_1218623142100.html

Ne vale la pena? Se il miglioramento prestazionale e' dell'ordine di almeno un ordine di grandezza (10x) la risposta e' decisamente SI.


Originariamente inviato da: homero
...nvidia paga per farsi pubblicità...

Balle. Nvidia fornisce un toolkit che funziona perfettamente e alla stessa maniera su tutti e tre i maggiori sistemi operativi (MAC, Win, Linux): CUDA.
Se fossero disponibili driver opencl per ATI/NVIDIA avremmo sicuramente utilizzato OpenCL, non piace nemmeno a noi il vendor lock-in. Ma il dato di fatto e' che i driver ancora non ci sono (Se non per MacOS e SOLO su snow leopard), toolkit neanche l'ombra e passera' ancora del tempo prima di avere altre soluzioni.
Appena ci saranno passeremo a openCL, sempre usando le quadro.

Devi riflettere anche sul fatto che Nvidia e' l'unica azienda che, tramite le soluzioni Tesla, fornisce una soluzione certificata (hardware, driver e toolkit) su rack per il GPU computing. Non vedo l'ora che lo faccia anche ati, cosi' magari i prezzi calano.
homero30 Settembre 2009, 18:18 #13
allora parliamoci chiaro, io ho provato a utilizzare CUDA un po' di tempo fa giusto per fare qualche test su alcuni algoritmi per il calcolo matriciale compiti gravosi per la risoluzione di una marea di problemi computazionali, ovviamente soltanto alcune funzioni come il calcolo matriciale era dirottato sulla GPU tutto il resto dell'algoritmo era rimasto sulla CPU questo per accellerare lo sviluppo e perche' i tempi di calcolo di quella parte sono circa il 90% del tempo macchina dell'algoritmo.
Bene lo sviluppo delle funzioni su CUDA è stato un vero incubo! crash continui! il sistema spesso girava semplicemente a vuoto!!! dopo un po' di smanettamento e riscritture delle funzioni che gestivano le funzioni su CUDA e configurazioni varie del sistema operativo siamo arrivati ad un pezzo di codice funzionante.
felicità direte voi! manco per niente i vantaggi rispetto al sistema esistente erano inferiori al 50% usando una quadroFX4600 su un sistema opteron quad dual processor 2,2mhz, in pratica nulli in quanto quando si scala in genere si parte minimo da un fattore 2.

questo dopo aver fatto diverse prove con altre schede nvidia non quadro siamo riusciti a trovare una quadro FX4600 presa da un sistema workstation Dell che ha dato i migliori risultati prestazionali

inoltre ho notato un cosa: la enorme disparita' tra singola precisione e doppia precisione, quasi del 200% ossia i calcoli in singola precisione sono in realtà veloci e sopratutto costanti, purtroppo non si puo' dire lo stesso nei calcoli in doppia precisione, per ragioni oscure i calcoli in doppia precisioni hanno tempi drammaticamente superiori a quelli in singola precisione e sopratutto c'e' una sorta di variabilità nei tempi di calcolo di circa 15% a parità di struttura di funzionamento sia hardware che software. ossia a seconda dei numeri che si trova a computare i driver cuda in doppia precisione svolgono i calcoli piu' o meno velocemente.

insomma una tecnologia totalmente immatura che non solo non soppianta quelle attuali ma sopratutto non ha senso utilizzare per calcoli in doppia precisione.

ci tengo a precisare che per calcoli di precisione superiore come quelli a 128bit la tecnologia CUDA è del tutto fuori luogo in quanto piu' lenta dell'equivalente cpu.

pertanto ad oggi i sistemi di calcolo coerenti sono solo quelli basati su cpu che scalano con sistemi cluster, ricordo a tutti che esistono diverse versioni del kernel linux che funzionano da anni egregiamente su sistemi cluster con centinaia di CPU.

quindi mi farebbe piacere che hwupgrade scrivesse la realtà dei fatti cioe'
che GPGPU è una tecnologia immatura ed adatta a sistemi in singola precisione on desk per chi' non puo' permettersi un sistema cluster e deve far girare algoritmi estremamente semplici. per tutto il resto questa tecnologia è semplicemente inutilizzabile.
eltalpa30 Settembre 2009, 18:54 #14
Originariamente inviato da: homero
allora parliamoci chiaro, io ho provato a utilizzare CUDA un po' di tempo fa giusto per fare qualche test su alcuni algoritmi per il calcolo matriciale compiti gravosi per la risoluzione di una marea di problemi computazionali, ovviamente soltanto alcune funzioni come il calcolo matriciale era dirottato sulla GPU tutto il resto dell'algoritmo era rimasto sulla CPU questo per accellerare lo sviluppo e perche' i tempi di calcolo di quella parte sono circa il 90% del tempo macchina dell'algoritmo.
Bene lo sviluppo delle funzioni su CUDA è stato un vero incubo! crash continui! il sistema spesso girava semplicemente a vuoto!!! dopo un po' di smanettamento e riscritture delle funzioni che gestivano le funzioni su CUDA e configurazioni varie del sistema operativo siamo arrivati ad un pezzo di codice funzionante.
felicità direte voi! manco per niente i vantaggi rispetto al sistema esistente erano inferiori al 50% usando una quadroFX4600 su un sistema opteron quad dual processor 2,2mhz, in pratica nulli in quanto quando si scala in genere si parte minimo da un fattore 2.

questo dopo aver fatto diverse prove con altre schede nvidia non quadro siamo riusciti a trovare una quadro FX4600 presa da un sistema workstation Dell che ha dato i migliori risultati prestazionali

Noi non abbiamo mai avuto problemi di questo genere. Ma forse proprio perche' tutto il nostro hardware e' DELL e le schede sono delle quadro.
Le soluzioni professionali avranno anche i loro costi, ma spesso evitano tante rogne.

Originariamente inviato da: homero
inoltre ho notato un cosa: la enorme disparita' tra singola precisione e doppia precisione, quasi del 200% ossia i calcoli in singola precisione sono in realtà veloci e sopratutto costanti, purtroppo non si puo' dire lo stesso nei calcoli in doppia precisione, per ragioni oscure i calcoli in doppia precisioni hanno tempi drammaticamente superiori a quelli in singola precisione e sopratutto c'e' una sorta di variabilità nei tempi di calcolo di circa 15% a parità di struttura di funzionamento sia hardware che software. ossia a seconda dei numeri che si trova a computare i driver cuda in doppia precisione svolgono i calcoli piu' o meno velocemente.

Che le prestazioni sulle GPU attuali calino di molto in doppia precisione e' risaupto. Uno dei compiti dell'architettura GT300 sara' proprio quello di risolvere il gap prestazione a doppia precisione.
E' per questo che stiamo aspettando le soluzioni tesla basate su GT300 prima di fare ulteriori acquisti.
Ma i campi appicativi per i calcoli in singola precisione sono molteplici.

Originariamente inviato da: homero
insomma una tecnologia totalmente immatura che non solo non soppianta quelle attuali ma sopratutto non ha senso utilizzare per calcoli in doppia precisione.

Che la generazione attuale di schede abbia molti meno vantaggi in doppia precisione e' vero. Che sia una tecnologia immatura dissento. A noi non ha mai dato problemi.

Originariamente inviato da: homero
ci tengo a precisare che per calcoli di precisione superiore come quelli a 128bit la tecnologia CUDA è del tutto fuori luogo in quanto piu' lenta dell'equivalente cpu.

Se devi piantare dei chiodi usi un martello. Se devi elaborare dati a 128bit usi una CPU. Se devi elaborare dati parallelizzabili in fp sigle precision o interi usi una GPU. Ogni hardware ha il suo scopo.

Originariamente inviato da: homero
pertanto ad oggi i sistemi di calcolo coerenti sono solo quelli basati su cpu che scalano con sistemi cluster, ricordo a tutti che esistono diverse versioni del kernel linux che funzionano da anni egregiamente su sistemi cluster con centinaia di CPU.

Si, abbiamo anche quello, circa una cinquantina di blade con dual xeon quad core e qualche centinaio di GB di ram. Cio' non toglie che CUDA si sia rivelato utile.

Originariamente inviato da: homero
quindi mi farebbe piacere che hwupgrade scrivesse la realtà dei fatti cioe'
che GPGPU è una tecnologia immatura ed adatta a sistemi in singola precisione on desk per chi' non puo' permettersi un sistema cluster e deve far girare algoritmi estremamente semplici. per tutto il resto questa tecnologia è semplicemente inutilizzabile.

Falso. E' una tecnologia molto utile per l'implementazione di svariati algoritmi parallelizzabili. L'attuale generazione hardware fornisce prestazioni massime a singola precisione, ma nel caso dei nostri algoritmi superava la CPU di un bel po' (2x circa) anche in double precision. Con la prossima generazione di hardware anche questo limite cadra'.
Il vantaggio fondamentale e' che arriveremo con gli algoritmi gia' pronti.
ndrmcchtt49101 Ottobre 2009, 10:55 #15
Originariamente inviato da: homero
allora parliamoci chiaro, io ho provato a utilizzare CUDA un po' di tempo fa giusto per fare qualche test su alcuni algoritmi per il calcolo matriciale compiti gravosi per la risoluzione di una marea di problemi computazionali, ovviamente soltanto alcune funzioni come il calcolo matriciale era dirottato sulla GPU tutto il resto dell'algoritmo era rimasto sulla CPU questo per accellerare lo sviluppo e perche' i tempi di calcolo di quella parte sono circa il 90% del tempo macchina dell'algoritmo.
Bene lo sviluppo delle funzioni su CUDA è stato un vero incubo! crash continui! il sistema spesso girava semplicemente a vuoto!!! dopo un po' di smanettamento e riscritture delle funzioni che gestivano le funzioni su CUDA e configurazioni varie del sistema operativo siamo arrivati ad un pezzo di codice funzionante.
felicità direte voi! manco per niente i vantaggi rispetto al sistema esistente erano inferiori al 50% usando una quadroFX4600 su un sistema opteron quad dual processor 2,2mhz, in pratica nulli in quanto quando si scala in genere si parte minimo da un fattore 2.

questo dopo aver fatto diverse prove con altre schede nvidia non quadro siamo riusciti a trovare una quadro FX4600 presa da un sistema workstation Dell che ha dato i migliori risultati prestazionali

inoltre ho notato un cosa: la enorme disparita' tra singola precisione e doppia precisione, quasi del 200% ossia i calcoli in singola precisione sono in realtà veloci e sopratutto costanti, purtroppo non si puo' dire lo stesso nei calcoli in doppia precisione, per ragioni oscure i calcoli in doppia precisioni hanno tempi drammaticamente superiori a quelli in singola precisione e sopratutto c'e' una sorta di variabilità nei tempi di calcolo di circa 15% a parità di struttura di funzionamento sia hardware che software. ossia a seconda dei numeri che si trova a computare i driver cuda in doppia precisione svolgono i calcoli piu' o meno velocemente.

insomma una tecnologia totalmente immatura che non solo non soppianta quelle attuali ma sopratutto non ha senso utilizzare per calcoli in doppia precisione.

ci tengo a precisare che per calcoli di precisione superiore come quelli a 128bit la tecnologia CUDA è del tutto fuori luogo in quanto piu' lenta dell'equivalente cpu.

pertanto ad oggi i sistemi di calcolo coerenti sono solo quelli basati su cpu che scalano con sistemi cluster, ricordo a tutti che esistono diverse versioni del kernel linux che funzionano da anni egregiamente su sistemi cluster con centinaia di CPU.

quindi mi farebbe piacere che hwupgrade scrivesse la realtà dei fatti cioe'
che GPGPU è una tecnologia immatura ed adatta a sistemi in singola precisione on desk per chi' non puo' permettersi un sistema cluster e deve far girare algoritmi estremamente semplici. per tutto il resto questa tecnologia è semplicemente inutilizzabile.



Dico subito che non sono un informatico, ma quando sono andato a un congresso a Milano su calcoli paralleli su gpu tramite CUDA si parlava chiaramente dei benefici di tale soluzione.
Poi, come tu affermi perchè non avete usato subito le quadrofx???
Forse se lo facevate da subito vi risparmiavate un sacco di rogne...
indio6801 Ottobre 2009, 17:11 #16
altra mazzetta di nvidia....non basta il logo maledetto TWIMTBP?? arriveranno le multe milionarie spero..e anche rpesto mi auguro
ndrmcchtt49102 Ottobre 2009, 12:04 #17
Originariamente inviato da: indio68
altra mazzetta di nvidia....non basta il logo maledetto TWIMTBP?? arriveranno le multe milionarie spero..e anche rpesto mi auguro


non ho capito l' ultima frase
Poi, perchè multare???Nvidia HA SIGLATO CON UNA azienda(amerigana) neanche europea.Quindi se non vado errato l' antitrust non ha voce visto che in questo caso ci troviamo fuori dai confini territoriali.

E poi scusate ma è colpa di Nvidia se AMD si stà ammuffendo???

E poi scusate un po: ma saranno cavoli loro a quello che gli succederà???
tony66617 Dicembre 2009, 00:41 #18
Ciao raga, forse sono un pò off topic ma non trovo altre discussioni a riguardo.

Qualcuno mi sa spiegare cos'è questo tesla? Ho visto che esiste una specie di scheda video (la tesla c1060 4gb) che però non ha uscite video.
A quanto ho capito è una specie di gtx280 che però non viene usata come scheda video ma come vero e proprio calcolatore per fare altre cose.

Quello che mi chiedevo è a cosa servono effettivamente? Servono solo per i grossi server e roba del genere o possono essere sfruttate anche con Avid, after effect, Cad, 3d Opengl e quant'altro?

Grazie e scusate l'OT

Devi effettuare il login per poter commentare
Se non sei ancora registrato, puoi farlo attraverso questo form.
Se sei già registrato e loggato nel sito, puoi inserire il tuo commento.
Si tenga presente quanto letto nel regolamento, nel rispetto del "quieto vivere".

La discussione è consultabile anche qui, sul forum.
 
^