L’errore di correlazione consiste nello scambiare una correlazione per una relazione di causa-effetto. Nell’articolo sulla correlazione abbiamo definito come spuria una correlazione che lega due fenomeni che non hanno nessun nesso causale, che non hanno nulla in comune. Una correlazione è indiretta quando due variabili X e Y sono correlate perché in realtà correlate entrambe a una variabile Z.
Correlazioni spurie – Le correlazioni spurie sono facilmente distinguibili con un po’ di buon senso. Vediamone una molto curiosa, la correlazione fra numero di pirati e riscaldamento terrestre trovata nel sito http://www.venganza.org/ (è satirico ed è nato per contestare la proposta di insegnare il creazionismo nelle scuole del Kansas). Vi si desume un’ironica correlazione tra numero di pirati e riscaldamento terrestre (vedi grafico). In parole povere, il riscaldamento terrestre aumenta al diminuire del numero dei pirati, quindi per salvare la Terra dobbiamo far tornare in auge la pirateria!
D. Bressanini (Le scienzeBlog, 2/2013) indica altre spassose correlazioni spurie:
- la vendite di cibo biologico in USA e casi di autismo (r=0.9971): aumentano le vendite di cibo biologico e aumentano i casi di autismo;
- le vendite online e gli omicidi negli USA: aumentano le vendite online e aumentano i casi di omicidio negli USA.
Correlazioni indirette – Ecco un esempio di correlazione indiretta. Una “ricerca” ha mostrato che chi si lava i denti almeno tre volte al giorno ha una vita media più lunga. È evidente a tutti che il semplice lavarsi i denti non allunga la vita. In altri termini, se un soggetto che beve, fuma, è in sovrappeso ecc. si forza a lavarsi i denti tre volte al giorno non può sperare di vivere più a lungo solo con quel rito staccato da un buon stile di vita.
Quello che succede è che lavarsi i denti tre volte al giorno e vivere di più sono correlati indirettamente, ma non esiste un nesso causale diretto. Consideriamo infatti le tre variabili:
- X= longevità
- Y= lavaggio dei denti 3 volte al giorno
- Z= buon stile di vita.
X è correlato a Z e c’è un nesso di causalità (chi ha un buon stile di vita probabilmente vive più a lungo); anche Y è correlato a Z (chi ha un buon stile di vita probabilmente si lava i denti spesso). Come risultato X e Y sono correlati indirettamente.
Se la correlazione spuria è facilmente riconoscibile, quella indiretta è fonte di notevole confusione a livello decisionale. Si pensi all’esempio appena fatto e a tutte le ottimistiche scelte di vita che si possono effettuare in base a un errore di correlazione: di variabili Y ce ne sono migliaia (tutte quelle correlate a un buon stile di vita) e potremmo credere che una di queste sia in grado di assicurarci la longevità. Per esempio, per vivere a lungo basta dormire otto ore al giorno oppure non essere molto stressati. Si noti come in questo caso l’errore di correlazione trasformi condizioni più o meno facilitanti in condizioni sufficienti, equivalendo a un errore di condizione.
Vediamo un esempio di correlazione indiretta che origina un comportamento un po’ buffo.
- X= vendite di cioccolato
- Y= vendite di gelati.
Nel mio negozio di alimentari noto che X e Y sono legati da una correlazione inversa: quando si vende molto cioccolato si vendono pochi gelati. Con un errore di correlazione stabilisco che per vendere più gelati (sui quali magari ho un ricarico maggiore) non devo vendere cioccolato, in modo che la gente si orienti verso i gelati! Ovviamente l’assurdità della scelta nasce dal fatto che non mi sono accorto che X e Y sono legati da una correlazione indiretta con la variabile Z (la stagione): d’estate il cioccolato si vende di meno, mentre i gelati di più!
Correlazioni miste – Le cose si complicano quando una correlazione è in parte spuria e in parte indiretta.
Sulla rivista New England Journal of Medicine (NEJM) (ottobre 2012) è apparso un articolo di F. Messerli (Chocolate consumption, cognitive function, and Nobel laureates) sulla correlazione tra il consumo di cioccolato di una nazione e il numero di premi Nobel vinti da cittadini di quella nazione. Ecco il grafico con una correlazione lineare (r = 0.791) significativa tra il numero di premi Nobel ogni 10 milioni di abitanti e il consumo pro capite di cioccolato.
Solo che chi è dotato di uno spirito critico nullo può pensare veramente che il cioccolato faccia diventare più intelligenti (ed è pazzesco che la rivista abbia accettato il lavoro); è evidente dal grafico che la correlazione è mista: nei Paesi più avanzati si vincono più premi Nobel e si “tende” a mangiare più cioccolato. Gli esempi di Svezia e Germania indicano che non è proprio vero (ecco la parte spuria), ma gli altri Paesi concorrono a creare una suggestione di “scientificità”.
Vari tipi d’errore
La correlazione non è che il primo passo verso la ricerca di un nesso causa/effetto. Vediamo i passi:
- Ricerca di una correlazione
- Studio della sua significatività
- Verifica che non sia spuria e che non sia indiretta
- Definizione della vera relazione causale fra le variabili (studio effettuato al di fuori della statistica).
I primi due punti sono trattati nell’articolo generale sulla correlazione. Il terzo e il quarto riguardano l’errore di correlazione.
A seconda di come sono gestiti i quattro punti si possono avere vari errori.
Significatività – Per esempio, chi non ha presente il concetto di significatività può incorrere in questo errore: verificando i dati di un anno (12 mesi), vedo una correlazione fra un aumento della borsa e il giorno 18 del mese; sembra che il giorno 18, la borsa mediamente salga. Una persona razionale sa che i dati non sono certo significativi, ma io “ci credo”, investo tutto e mi rovino.
Deduzione – L’errore 3 è tipico di soggetti nei quali l’illusione della certezza spinge a fraintendere il concetto di correlazione perché sono abituati a muoversi fra i due valori 0 (falso) e 1 (vero). Quando si scopre la correlazione si è naturalmente portati a identificarla con una deduzione, commettendo un classico errore di correlazione. Occorre cioè comprendere che
la correlazione fra due variabili è condizione necessaria, ma non sufficiente al nesso causale.
Probabilità – Le correlazioni “utili” sono quelle che poi, una volta approfondite, mi permettono di scoprire il nesso causale. Vedo che fra una malattia e la condizione Z c’è una correlazione. Approfondisco (passi 2, 3 e 4) e scopro che c’è nesso causale. Aver visto la correlazione è stato utile.
Chi ha una mentalità sufficientemente logica, ma non statistica, commette spesso l’errore di non vedere il corretto nesso causale. Chi ragiona solo a due valori spesso non accetta un nesso causale in cui una variabile è una probabilità poiché non sa legare che eventi certi (fumo, cancro al polmone). Per esempio, dopo aver studiato la correlazione fra fumo e cancro al polmone, si incaponisce nel cercare di legare la variabile fumo alla variabile cancro al polmone, cioè di esprimere un nesso causale fra a (fumo) e b (cancro al polmone) arrivando alla frase razionalmente scorretta “il fumo provoca il cancro al polmone”. Non comprende che l’espressione scientificamente corretta è “il fumo aumenta il rischio del cancro polmonare”, espressione che si traduce in un rapporto causale del tipo: causa (fumo) -> effetto (aumento della probabilità del cancro al polmone).
Decisione – Curiosa infine la confusione fra il concetto di decisione e quello di deduzione, confusione secondo la quale, visto che non posso usare correlazioni per dedurre, non posso usarle nemmeno per decidere! In molte circostanze invece posso decidere in base a una correlazione anche se non posso dedurre che esiste un nesso causale fra A e B. In quelle situazioni in cui non decidere è peggio, decido egualmente, assumendomi dei rischi (quelli collegati al mio eventuale errore di correlazione).
Morale – Cerchiamo sempre di andare al di là delle correlazioni e scoprire le vere cause dei fenomeni. Non fermiamoci ai primi indizi, cerchiamo di scoprire il vero colpevole!