Big Data Analytics, arriva lo scienziato dei dati

Big Data Analytics, arriva lo scienziato dei dati

La gestione e l'analisi dei Big Data implica la creazione di nuove figure professionali, che siano dotate non solo di capacità analitiche ma anche di una buona dose di conoscenze sia generali, sia specifiche in determinate discipline

di Andrea Bai pubblicato il nel canale Scienza e tecnologia
 

Big Data, le cinque V

Il concetto d Big Data porta con sé una serie di caratteristiche, tutte correlate tra loro in varie maniere, e che sono riassumibili nel paradigma delle cinque V: Volume, Velocità, Varietà, Viralità e Variabilità. Analizziamole meglio di seguito.


I Big Data, infografica di Asigra

-Volume: forse la caratteristica più immediata, dal momento che si tratta di grandi quantità di dati. Per offrire un quadro di contesto basti pensare che ogni minuto vengono trasmessi 100 mila tweet nel mondo, vengono effettuati 35 mila "Like" a siti ufficiali di organizzazioni, vengono inviati 200 milioni di email ed effettuati 2mila check-in su 4square. Tutto ciò, aggiunto alle restanti attività "digitali", danno luogo ad una spaventosa quantità di dati che permette, almeno potenzialmente, di disporre di moltissime informazioni le quali a loro volta possono essere incrociate tra loro. Scontato sottolineare che i martketeers sono le figure più ingolosite dalle potenzialità di tutto ciò, ma anche la politica.

-Velocità: riguarda i Big Data da differenti punti di vista. Anzitutto la velocità con cui i dati vengono generati (che va ovviamente di pari passo con la loro quantità), in secondo luogo la velocità con cui le nuove tecnologie consentono di accedere a questi dati, pur con architetture distribuite e strutture complesse di dati, che talvolta sfiora l'accesso in tempo reale. La velocità di accesso ai dati e alle informazioni comporta poi un miglioramento nella velocità del processo decisionale, uno degli elementi più critici per poter mantenere un elevato livello di competitività negli attuali panorami del mercato. Si pensi, ad esempio, al monitoraggio del sentimento del pubblico: un'azienda avrà la possibilità di adottare nel più breve tempo possibile misure correttive o preventive per ridimensionare o evitare un episodio di crisi.

-Varietà: come già osservato in precedenza, i dati sono in larga prevalenza non strutturati e quindi non affrontabili con le tradizionali tecniche proprie dei database relazionali. In altri termini: i dati non possono più essere collocati in tabella poiché sono in forma non strutturata (email, immagini, audio video). Gli algoritmi più avanzati hanno la capacità di analizzare i dati non strutturati, con in media una accuratezza del 93%-97% nell'analisi di dati di varia provenienza.

-Viralità: la grande quantità di dati generati e la velocità con cui essi vengono generati, fa sì che le conseguenze o le reazioni ad un evento o ad una dichiarazione si ripercuotano rapidamente e a distanza in maniera, appunto, virale. Ma virale è anche la crescita del volume dei dati generati dalle attività digitali dell'uomo: nel 2010 è stata stimata una produzione di 1,2 zettabyte di dati (1ZB corrisponde a mille miliardi di GB), nel 2011 è cresciuta a 1,8ZB, per passare a 2,7ZB nel corso dell'anno passato. La proiezione per il 2015 parla di 8ZB.

-Variabilità: il significato o l'interpretazione di uno stesso dato può variare a seconda del contesto in cui il dato stesso viene raccolto ed analizzato. Pensiamo ad esempio ad una semplice asserzione quale può essere "leggete il libro". Nel caso venga espressa su un blog di appassionati di letteratura la frase può significare che il libro in oggetto abbia riscosso il mio gradimento. Nel caso in cui la stessa identica frase venga espressa invece su un blog di cinefili, il suo significato può cambiare completamente ed indicare, ad esempio, che il film tratto dal libro a cui mi riferisco non è stato di mio gradimento. Il valore del dato, quindi, non risiede solamente nel dato in sè ma è strettamente collegato al contesto in cui si ricava il dato.

Un "quintetto base" di caratteristiche che in realtà è riassumibile in una sola altra "V": il Valore. E' infatti la capacità di comprendere e gestire adeguatamente tutti questi aspetti dei Big Data che consente di estrarne il loro valore.

 
^