C’è una incredibile quantità di dati che galleggia nella nostra società. Ogni sensore che ci circonda, dispositivi  e applicazioni che utilizziamo creano dati che vanno raccolti per essere analizzati. In qualsiasi campo in cui c’è la tecnologia.

La raccolte di dati così estese in termini di volumi, velocità e varietà da richiedere tecnologie e metodici specifici per l’estrazione di valore da esse sono dette Big data.

Il progressivo aumento della dimensione dei Big data è legato alla necessità di analisi su un unico insieme di dati, con l’obiettivo di estrarre informazioni aggiuntive rispetto a quelle che si potrebbero ottenere analizzando piccole serie, con la stessa quantità totale di dati. Ad esempio, l’analisi per sondare gli “umori” dei mercati e del commercio, e quindi del trend complessivo della società e del fiume di informazioni che viaggiano e transitano attraverso Internet.

Big data rappresenta anche l’interrelazione di dati provenienti potenzialmente da fonti eterogenee, quindi non soltanto i dati strutturati, come i database, ma anche non strutturati, come immagini, email, dati GPS, informazioni prese dai social network.

Se si vuole quantitificare in termini di memoria occupata, con i big data la mole dei dati è dell’ordine degli Zettabyte, ovvero miliardi di Terabyte. Quindi si richiede una potenza di calcolo parallelo e massivo con strumenti dedicati eseguiti su decine, centinaia o anche migliaia di server.

I Big data nascono nei primi laboratori del CERN ed i loro problemi di comunicazione fra i vari laboratori è stato uno dei principali stimoli di espansione e globalizzazione di internet negli anni ’90.

Vediamo in questo video il coinvolgimento del CERN nella gestione dei big data da cinquanta anni a questa parte e come si sono diffusi negli ultimi tempi.