La correlazione è la misura della relazione fra due o più variabili. Un esempio immediato è quello offerto fra altezza e peso di una persona; senza fare rilevazioni o analizzare campioni di soggetti ecc., ognuno di noi è in grado di dire che esiste un legame fra il peso e l’altezza di una persona. Ovviamente la relazione funzionale che lega le due variabili è cosa ben più difficile da scoprire. Non a caso, una correlazione si dice perfetta se tutti i valori delle variabili soddisfano esattamente a un’equazione (per esempio, fra il lato di un quadrato e la sua area esiste una correlazione perfetta) mentre si dice parziale quando questa condizione non è soddisfatta. Quella fra altezza e peso è appunto parziale.
La rappresentazione
Limitandoci a correlazioni fra due variabili, i dati misurati delle variabili X e Y possono essere rappresentati in un sistema di coordinate cartesiane tramite un diagramma di dispersione.
Nel nostro esempio altezza-peso (campione di 20 maschi) non è che si osserva una grande correlazione, se non che, genericamente, all’aumentare dell’altezza “tende” ad aumentare anche il peso. Se consideriamo un campione di 20 maratoneti le cose cambiano in meglio poiché tutti i soggetti sono normalizzati rispetto alla variabile che prima “sporcava” la correlazione (il sovrappeso).
I punti sono distribuiti secondo una relazione quadratica (cioè il peso va circa come l’altezza in metri al quadrato P=20xA2). La correlazione è positiva (o diretta) perché al crescere di X anche Y cresce; è invece detta negativa (o inversa; il termine indiretta è scorretto perché, come vedremo, si deve riservare per un tipo particolare di correlazione) se al crescere di X la variabile Y decresce; è detta poi lineare se l’equazione che la descrive (perfettamente o in maniera sufficientemente approssimata) è una retta, mentre si dice non lineare se è una curva (come nel caso altezza-peso dei maratoneti dove c’è una relazione quadratica).
L’indice di correlazione
In statistica, con opportuni strumenti, si usa definire il grado di correlazione fra due variabili attraverso un indice di correlazione che può andare da –1 a 1. Un valore di –1 indica una correlazione perfetta negativa mentre un valore di 1 ne indica una perfetta positiva.
Correlazioni spurie e indirette
Una correlazione si dice spuria se lega due fenomeni che non hanno alcun nesso causale, che non hanno nulla in comune (un esempio nell’articolo sull’errore di correlazione). Si dice invece indiretta quando due variabili X e Y sono correlate perché in realtà correlate entrambe a una variabile Z.
Ecco un esempio di correlazione indiretta che risale a F. Mosteller e J. Tukey (1977). Durante la Seconda guerra mondiale si notò che i bombardamenti alleati in Europa risultavano tanto più precisi quanto maggiore era il numero di caccia nemici decollati per intercettarli e quanto più intensa era la reazione della contraerea. Tutto ciò sembrava molto assurdo perché in teoria doveva avvenire il contrario.
Tutto si spiega perché esiste correlazione (più contraerea, più precisione!), ma non nesso causale (la maggior precisione non è dovuta alla contraerea!). Infatti quando il cielo era nuvoloso, i bombardieri avevano scarsa visibilità e per la stessa ragione la contraerea era minore. Le nuvole (la variabile Z!) penalizzavano maggiormente i bombardieri rispetto alla contraerea, da qui la comunque maggior precisione con maggiore contraerea.
Un altro esempio è quello classico che lega la variabile X=numero di vittime in un incendio alla variabile Y=numero pompieri impiegati per spegnerlo. Si riscontra facilmente una correlazione positiva: più pompieri, più vittime; sarebbe pertanto “logico”, ma completamente assurdo, pensare che impiegando meno pompieri si avrebbero meno vittime. Ovviamente X e Y dipendono dalla terza variabile Z=dimensione dell’incendio.
La riflessione sulle correlazioni spurie e indirette consente di evitare errori nati dal ritenere una correlazione “garanzia” di un nesso causale.
Un’interessante e divertente carrellata di correlazioni spurie

La correlazione serve a individuare relazioni tra variabili
Significatività statistica
La significatività statistica di un risultato è la probabilità che la relazione osservata fra le variabili in un campione sia avvenuta per puro caso (fortuna del sorteggio) e che nella popolazione in cui tale campione è stato definito tale relazione in realtà non esista. Praticamente, si potrebbe dire che la significatività statistica di un risultato ci dice qualcosa circa il grado in cui il risultato è “rappresentativo della popolazione”. Si noti come “essere significativo” indichi spesso una condizione in cui la probabilità che il tutto sia casuale sia bassa.
Correlazione e causalità
Il paragrafo precedente rischia di essere frainteso se non si ha ben chiara la relazione che esiste fra la correlazione di due variabili e il nesso causale fra le stesse. Ci si riferisca al paragrafo sull’errore di correlazione per comprendere come correlazione, significatività e causalità possano essere legate. Qui ci limitiamo a osservare che il passaggio da una correlazione a un nesso causale non può essere effettuato con metodi statistici, ma necessita di una comprensione dei fenomeni in gioco.