Piccoli mondi e grandi dati

Ogni volta che apriamo il browser per navigare nel web spalanchiamo una finestra sul mondo, e abbiamo a disposizione una quantità impressionante di informazioni, di notizie, di opzioni. Ciò che forse manchiamo di prendere in debita considerazione è che anche dall’altra parte della finestra non solo ci osservano, ma tutto ciò che facciamo viene memorizzato e analizzato per i fini più diversi.

Provate a ricercare un prodotto su Amazon. Da quel momento quasi ogni volta che accedete a una nuova pagina web apparirà un banner che reclamizza tale prodotto. Ma soprattutto la nostra presenza in rete genera un flusso imponente di informazioni, che costituisce il “nocciolo duro” dei Big Data, trasmesse tramite reti sempre più sofisticate, estese e complesse. Si tratta di informazioni singolarmente irrilevanti ma nel loro complesso preziose tanto che la gara per l’acquisizione, l’interpretazione e l’uso dei Big Data può essere considerata il moderno equivalente della “corsa all’oro” che ha caratterizzato, in particolare, la California alla metà dell’Ottocento. D’altra parte, come l’oro, i Big Data sono “estratti” grezzi, sono pieni di “rumore”, e devono quindi essere adeguatamente raffinati per poter essere utilizzati. Il volume e la varietà di dati prodotti (cfr. fig. 1) aumentano a velocità crescente, e richiedono nuove tecnologie per l’archiviazione, la sicurezza, l’analisi, la visualizzazione dei dati stessi.

Fig. 1 – Crescita esponenziale dell’informazione archiviata (Fonte: S. Castellan, Tesi di Dottorato, 2015).

I Big Data comprendono non solo i dati prodotti dalle comunicazioni e transazioni effettuate in rete, ma anche tutta la mole di informazioni generata dalle ricerche scientifiche, dai media di qualunque tipo, dai processi di produzione, commercializzazione e fruizione di beni e servizi, oltre che dalla recente esplosione dell’Internet of Things, ovvero dalla crescita esponenziale del numero di “oggetti” collegati a Internet. Come si vede dalla figura 2, nel 2008 è avvenuto il sorpasso: il numero di oggetti interconnessi ha superato la popolazione mondiale. La figura mostra anche l’andamento esponenziale delle previsioni di crescita, secondo cui nel 2020 ci saranno circa 50 miliardi di oggetti connessi contro una popolazione di circa 9 miliardi; mediamente quasi sei oggetti a testa, quindi nei paesi sviluppati molti di più (già oggi la maggior parte di noi ha 3-4 oggetti collegati a Internet, tra smartphone, tablet, pc … e magari anche automobile, frigorifero, lavatrice e sistema di allarme).

Fig. 2 – Crescita del numero di oggetti collegati a Internet: dati e previsioni

La crescita dopo il 2020 procede a velocità esponenziale, ma le previsioni si fermano qui, anche perché avvicinandosi ai 100 miliardi di oggetti interconnessi la rete comincerà ad approssimare la complessità del cervello umano … e a questo punto la scienza lascia il posto alla fantascienza.

E mentre le reti crescono, nuovi algoritmi si affermano, le potenze di calcolo aumentano continuamente, il mondo diventa sempre più interconnesso e quindi sempre più piccolo. In effetti è proprio la possibilità di superare facilmente, a livello di interconnessioni anche deboli, i confini del proprio gruppo, della propria comunità, del proprio territorio che genera il fenomeno dei “piccoli mondi”.

La prima idea di “piccolo mondo” si deve a Frigyes Karinthy, un popolare scrittore ungherese che, nel 1929, in un breve racconto intitolato “Catene”, ipotizzò che due persone sconosciute potessero essere collegate tra loro tramite non più di cinque passaggi intermedi. Un’intuizione sorprendente, se si considera che circa quaranta anni dopo Stanley Milgram, professore di psicologia ad Harvard, fornì la prima prova sperimentale di come tutti al mondo fossero raggiungibili da chiunque altro attraverso un numero sorprendentemente piccolo di intermediari.

Milgram è rimasto famoso per molti suoi esperimenti nel campo della psicologia sociale, alcuni dei quali sarebbero oggi certamente giudicati poco etici. Il suo esperimento più famoso, condotto nel 1961, aveva lo scopo di studiare il comportamento di alcuni soggetti di fronte a una autorità che impartisce ordini in conflitto con valori etici e morali. L’esperimento venne condotto nei mesi successivi all’inizio del processo contro il criminale nazista Adolf Eichmann. Un gruppo di volontari fu reclutato, tramite inserzioni ed estrazioni casuali dall’elenco telefonico, con il finto proposito di partecipare a una ricerca sulla memoria e sugli effetti delle punizioni sull’apprendimento. Vennero quindi condotti, uno per volta, in una stanza ove un altro soggetto (in realtà un attore) era legato a una specie di sedia elettrica ed era sottoposto a una serie di domande da parte dello stesso Milgram; ogni volta che la risposta non era considerata soddisfacente, il volontario di turno doveva, tramite un apposito quadro elettrico, somministrare una scossa di intensità crescente: gli interruttori da azionare erano 30, ciascuno con una targhetta in cui era riportata la tensione corrispondente, dai 15 V del primo, indicati come “scossa leggera”, ai 450 V dell’ultimo, indicati come “scossa estremamente pericolosa”. Al volontario veniva fatta percepire, affinché si rendesse conto di cosa stava facendo, l’intensità della scossa relativa alla terza leva (45 V). Milgram, con la complicità dell’attore che sbagliava le risposte e in realtà fingeva solo di percepire la corrente lanciando grida strazianti e implorazioni d’aiuto, chiese a tutti di somministrare le scosse fino ad arrivare ai (finti) 450 V. Nel corso dell’esperimento molti volontari protestarono chiedendo di interrompere la prova data l’evidente sofferenza del soggetto interrogato; tuttavia ben 26 su 40 continuarono a somministrare le scosse su richiesta di Milgram, fino ad arrivare ai 450 V. I risultati ottenuti sono stati confermati da altri ricercatori, e sono stati interpretati in vario modo dal punto di vista della psicologia sociale. È divertente ricordare come nel famoso film Ghostbusters (1984) l’attore Bill Murray interpreti il personaggio di un assistente universitario che effettua su uno studente e una studentessa un esperimento ironicamente simile a quello di Milgram. I due giovani devono “leggere il pensiero” del professore indovinando quale carta egli stia guardando, e ogni volta che uno di loro sbaglia riceve una scossa. Per interessare la studentessa il professore finge che le sue risposte siano tutte corrette, mentre il ragazzo riceve sempre una scossa, anche quando indovina.

L’esperimento che qui ci interessa è del 1967. Milgram selezionò circa 300 persone nel midwest americano e chiese loro di far pervenire una lettera a un’altra persona a loro sconosciuta residente a Boston, di cui venne fornito solo il nome e l’occupazione. Le istruzioni stabilivano che ciascuno dovesse inviare la lettera a colui che, tra tutte le persone direttamente conosciute, potesse a suo giudizio avere la maggiore probabilità di conoscere personalmente il destinatario finale. A tale intermediario veniva ovviamente richiesto di comportarsi allo stesso modo, procedendo così fino alla consegna finale. L’aspettativa era che la catena comprendesse diverse decine di passaggi. Invece le lettere furono consegnate con un numero medio di intermediari pari a 5.

Quando Milgram pubblicò i suoi risultati (Stanley Milgram, The Small World Problem, Psychology Today, 1967, Vol. 2, 60–67) questi fecero grande scalpore e ispirarono il famoso concetto dei “sei gradi di separazione”. In realtà si scoprì presto che delle circa 300 persone iniziali 96 erano residenti anch’essi a Boston e solo due terzi vivevano effettivamente nel Nebraska; inoltre, solo metà di questi ultimi erano stati effettivamente scelti a caso, mentre gli altri erano azionisti delle maggiori aziende americane, e il target era un agente di borsa. Di fatto solo i 96 residenti del Nebraska costituivano una popolazione compatibile con le ipotesi dell’esperimento: purtroppo però solo diciotto delle 96 lettere originate da tale popolazione arrivarono a destinazione.

Nonostante la scarsa attendibilità statistica dell’esperimento di Milgram, il concetto dei sei gradi di separazione si diffuse in modo virale. Ha ispirato un film del 1993, una famosa serie televisiva americana e diversi giochi, tra cui il popolarissimo “Oracolo di Kevin Bacon”, creato nel 1994 da tre allievi dell’Albright College, in Pennsylvania: il numero di Bacon di un attore/attrice, come definito nel gioco, è il numero di gradi di separazione tra l’attrice/attore in questione e lo stesso Bacon, calcolato secondo la seguente regola:

  • Kevin Bacon ha un numero di Bacon pari a 0;
  • Gli attori che hanno lavorato direttamente con lui hanno un numero di Bacon pari a 1;
  • Chi ha non ha lavorato con Bacon, ma con un attore avente numero di Bacon pari a N acquisisce a sua volta un numero di Bacon pari a N+1.

Dal sito www.oracleofbacon.com si può calcolare facilmente il numero di Bacon di qualunque attore al mondo. Ad esempio, Roberto Benigni ha un numero di Bacon pari a 2, avendo lavorato nel film “Il piccolo diavolo” (1988) con Walter Matthau, che ha un numero di Bacon pari a 1 essendo comparso con quest’ultimo nel film JFK (1991). Beppe Grillo ha un numero di Bacon pari a 3 avendo recitato nel film “Scemo di guerra” (1985) con Alessandra Vazzoler, che a sua volta è apparsa nel film “Le grand bleu” (1988) con Paul Herman, il quale ha lavorato nel film “Sleepers” (1996) con lo stesso Bacon. La media tra tutti gli attori degli ultimi 100 anni è pari a 2,984, il che significa che meno di tre link separano Bacon da chiunque altro abbia recitato nel cinema (per la cronaca, il vero centro della cinematografia mondiale è l’attore Dennis Hopper: infatti la media dei numeri di Hopper è solo 2,776). Insomma, l’insieme degli attori cinematografici degli ultimi cento anni, pur molto numeroso, è un “piccolo mondo”!

Nel 2001 Duncan Watts, professore alla Columbia University, ha ricreato l’esperimento di Milgram su Internet, utilizzando un messaggio e-mail invece di una lettera. In questo caso le mail, indirizzate a 19 destinatari finali, sono state fatte partire da 48.000 persone in 157 paesi. Analizzando i risultati Watts trovò una media di sei intermediari. Nel 2011 uno studio analogo è stato riproposto su vasta scala da un gruppo di ricercatori dell’Università degli studi di Milano in collaborazione con Facebook, calcolando il grado di separazione tra tutte le coppie di individui allora presenti su tale SNS (721 milioni, con 69 miliardi di connessioni). I risultati sono stati sorprendenti, con una media di 4.74 gradi di separazione e con il 92% delle coppie separato da non più di 4 gradi. Ovviamente quest’ultimo esperimento non è perfettamente equivalente a quello di Milgram: infatti nel caso specifico lo studio è consistito nel calcolare i percorsi minimi tra tutte le coppie di nodi all’interno di un grafo di grandi dimensioni, percorsi che non sono necessariamente a conoscenza dei singoli individui; a ciò si aggiunge che molti utenti annoverano tra gli amici nella loro pagina Facebook persone che non conoscono affatto.

Ci si potrebbe anche chiedere, al di là delle medie, quale sia il “diametro” del web, ovvero la lunghezza del massimo percorso geodetico che è possibile individuare. Una risposta, anche se un po’ datata, ci è stata fornita nel 1999 da Albert Laslo Barabasi, il quale ha determinato che il web è un “piccolo mondo”, in cui non più di 18 “clic” separano qualunque coppia di nodi. Dal 1999 il Web è cresciuto in modo esponenziale, e il diametro potrebbe essere cambiato: ma è anche possibile che, nonostante la crescita del numero di nodi e delle loro interconnessioni, o meglio proprio per questo, il diametro stesso si sia addirittura ridotto. Non c’è dubbio sul fatto che la straordinaria crescita delle possibilità di connettersi e comunicare, oltre a generare una buona parte dei big data, determini anche la riduzione del diametro della rete. Un semplice esempio: immaginiamo che un nostro amico abbia una cinquantina di “contatti” tra amici, colleghi, ex compagni di scuola, vicini di casa e semplici conoscenze. Cinquanta non è un numero altissimo per una persona normale: secondo la legge di Dunbar, di cui abbiamo parlato nel precedente editoriale, le possibilità cognitive degli esseri umani permettono di gestire tranquillamente fino a 150 relazioni sociali.

Comunque, se ciascuno dei 50 contatti del nostro amico ha a sua volta una sfera dimensionale paragonabile, quest’ultimo sarà collegato indirettamente, a due gradi di separazione, con 2.500 persone. Ogni successivo grado di separazione aumenta questo numero di un multiplo di 50. A sei gradi arriviamo così a 15.625.000.000 potenziali contatti indiretti, oltre il doppio della attuale popolazione mondiale. Il problema però è che abbiamo ignorato completamente le sovrapposizioni: in altri termini, è probabile che le sfere relazionali di due amici non siano casuali, ma si sovrappongano in buona parte, rendendo questo calcolo poco realistico. Ma è proprio la dematerializzazione delle interconnessioni generata da Internet e dai SNS ad aggiungere elevate componenti di causalità ai sistemi relazionali, generando contemporaneamente gran parte del flusso dei Big Data e l’effetto “small word”.

I fenomeni che abbiamo appena descritto stanno aprendo nuovi straordinari filoni di ricerca nel campo della teoria delle reti, con interessanti e diversificate applicazioni che si estendono, tra l’altro, al trasporto dell’energia, alla trasmissione delle malattie infettive, alla progettazione dei motori di ricerca, alle comunicazioni e alla componentistica elettronica, oltre che allo studio e alla previsione dei comportamenti sociali.