Big Data Analytics, arriva lo scienziato dei dati

Big Data Analytics, arriva lo scienziato dei dati

La gestione e l'analisi dei Big Data implica la creazione di nuove figure professionali, che siano dotate non solo di capacità analitiche ma anche di una buona dose di conoscenze sia generali, sia specifiche in determinate discipline

di Andrea Bai pubblicato il nel canale Scienza e tecnologia
 

Le fonti dei Big Data

Sebbene l'esplosione dell'informazione digitale sia un episodio abbastanza recente, è comunque opportuno considerare che allo sterminato volume dei Big Data concorrono anche tutta una serie di dati ed informazioni accumulati nel corso del tempo, talvolta per propositi completamente differenti dalla mera analisi. Le fonti di origine dei Big Data sono dunque varie, ma comunque riconducibili ad alcune grandi macro-categorie:

Informazioni people to machine: si tratta ad ora della fonte d'origine della maggior parte dei dati accumulati, originati anche molto tempo prima della formulazione del concetto di Big Data. Si tratta prevalentemente (soprattutto per le informazioni già accumulate) di dati di tipo transazionale, cioè dei dati associati ad una transazione (come ad esempio l'acquisto di un bene o servizio) e che in origine sono stati conservati solamente a fini contabili e non a scopi analitici. Tuttavia questo genere e mole di informazioni ha catturato l'attenzione delle funzioni di marketing delle aziende, le quali per prime hanno iniziato a pensare all'impiego di questi dati per eseguire la profilazione dei propri clienti e del loro comportamento con l'obiettivo di comporre un'offerta che sia allineata in maniera sempre più precisa con le esigenze del cliente.

Informazioni people to people: si tratta di informazioni che nascono dalle interazioni umane, le quali avvengono sempre di più in forma digitale tramite le reti sociali. L'informazione che viaggia sul mezzo digitale lascia di fatto una traccia, dando così vita alle pratiche di "social listening" ovvero l'ascoltare le reti sociali (si possono immaginare i social network come grosse piazze virtuali, dove però il vociare della folla non si disperde nell'aria ma resta disponibile a chiunque). Il social listening ha permesso di raccogliere - anche con maggior attendibilità - una serie di informazioni che precedentemente non era possibile, o molto difficile, recuperare in maniera tradizionale con questionari o interviste. La possibilità di incrociare ed integrare queste informazioni con quelle accumulate dai sistemi transazionali precedentemente citati permette alle aziende di arricchire ancor di più la consapevolezza del cosiddetto "sentiment" del pubblico. Ma le evoluzioni non riguardano solamente il campo commerciale: recenti ricerche hanno infatti mostrato come una opportuna analisi dei tweet che circolano in rete possa consentire di elaborare una previsione sull'evoluzione di un'infezione virale in maniera molto più accurata di quanto sarebbe possibile fare basandosi sui dati normalmente a disposizione delle aziende sanitarie locali e dai medici di base.

Informazioni machine to machine: si tratta dei dati raccolti da sensori e trasmessi ad altri dispositivi a vari scopi, per informare l'utente o per automatizzare determinati processi. Moltissimi oggetti di uso comune, come ad esempio elettrodomestici, calzature, automobili, integrano al loro interno un qualche sistema per la registrazione di determinati eventi da inviare ad altri dispositivi. Uno degli esempi più rappresentativi è il sensore presente all'interno delle calzature sportive di una nota azienda del settore che permette di inviare al nostro smartphone tutta una serie di informazioni le quali opportunamente analizzate ed elaborate permettono di pianificare un programma di allenamento calibrato sulle caratteristiche individuali di ciascun utilizzatore.

A ciò vanno poi aggiunti tutti i dati raccolti ed accumulati nelle maniere più tradizionali, fondamentalmente rappresentati dai dati enterprise (memorizzati cioè negli archivi delle organizzazioni) e dai dati della pubblica amministrazione.


Le fonti Big Data, da un'infografica IBM

Ma quando si può parlare opportunamente di Big Data? Il concetto non è, diversamente da quanto si possa pensare, determinato esclusivamente dalle dimensioni dei dati stessi. Big Data è tutto ciò che non può essere trattato ed analizzato con i tradizionali paradigmi dei database relazionali, in quanto si tratta per lo più di dati non strutturati (cioè che, semplificando, non possono risiedere in tabelle) e che sono solitamente conservati mediante un'architettura di tipo distribuito.

Come già osservato in apertura il limite nell'impiego e nell'analisi dei Big Data non è però rappresentato dalla tecnologia. Anzi, sono propri i progressi in campo tecnologico che hanno offerto la possibilità di sbloccare il "tesoro" occultato e sepolto sotto questa mole di informazioni. Sono invece necessari algoritmi sofisticati in grado di estrarre dai Big Data regolarità ricorrenti, correlazioni nascoste che a prima vista possono sfuggire. Servono, in altri termini, figure professionali con competenze a metà strada tra quelle matematiche, quelle di analisi di intelligenza artificiale e con buone conoscenze nel contesto in cui si effettua l'analisi dei dati, vedremo meglio il perché poco oltre.

 
^