Caccia all’intruso: gli outliers.

Oggi andremo a caccia di intrusi, o meglio di outliers! Questa bella parola inglese – come se ne usano tante in statistica – rappresenta una fonte di domande per gli studenti più attenti. Per quelli più pratici e sbrigativi si concretizza in un click sul tasto “Cancella”!

In quest’articolo, scopriremo insieme cosa sono gli outliers, quando devono essere considerati e quando si possono ignorare (ho detto ignorare, non cancellare!). 🙂

Outliers: come sarà la media?

Il termine inglese “outlier” sta ad indicare un valore estremo! Secondo alcuni si tratta di un valore che è molto distante dalla media, secondo altri è un valore anomalo rispetto a quelli tipici della variabile considerata. Entrambi i punti di vista sono validi, o meglio esprimono lo stesso concetto. Un valore che è distante della media, molto probabilmente sarà un valore anomalo rispetto a quelli che hanno generato quella specifica media. E viceversa, un valore anomalo, sarà collocato molto distante dalla media degli altri valori.

Dunque, a prima vista, determinare un outlier è una procedura molto semplice. Individuo la media e decido chi è troppo distante. Ma aspetta, troppo distante? Distante da cosa? Dalla Luna? Da casa mia al Duomo di Milano? Come si determina la distanza?

E poi, se ho un dataset di 100 osservazioni o di 1000, cosa facciamo? Misuriamo ogni osservazione ad una ad una? Considerando che per gli outliers (salvo casi eccezionali) si può applicare un noto proverbio (le disgrazie non vengono mai da sole), come comportarsi?

Giochiamo a trovare l’intruso.

Diamo un’occhiata alle seguenti osservazioni e giochiamo a chi è l’intruso.

53562423
897238109
212926169
85825675
234860581

Sicuramente il numero 60 è un intruso. Ed il 12? Oppure il 10? Di loro che ne facciamo? Sono outliers o meno?

Per cominciare a risolvere il dubbio, dobbiamo attenerci a tre regole fondamentali:

  1. Controlla di aver scritto correttamente i dati. Osservando ad esempio, il numero 60 e i valori delle altre osservazioni, è facile immaginare che chi ha riportato il dato volesse scrivere 6, ma ha aggiunto inavvertitamente uno zero. Sembra una considerazione banale, ma nei dataset che analizzo ogni giorno, errori di compilazione del dataset avvengono di continuo.
  2. Escludi il valore dalle statistiche descrittive. Escludere il valore dal conteggio della media può essere una buona soluzione. Ricordati di inserire comunque la sua esclusione nelle note a fine pagina, in modo che chi dovesse replicare il tuo lavoro, magari anche con il tuo stesso dataset, possa ottenere gli stessi risultati. Nel caso delle nostre osservazioni, la media è di 6.75 se consideriamo i numeri sospetti (60, 12 e 10). Se li escludiamo tutti e tre, la media è 5.08. Infine, se escludiamo solo il 60, la media è 5.39. Come vedi la scelta di tenere un valore o di escluderlo, modifica (e non di poco) il valore della media.
  3. Se la media non funziona, calcola la mediana. Se sulla media c’è tanta incertezza, calcola la mediana. Nel nostro caso è 5 se consideri tutti i numeri e, resta sempre 5, se provi ad escluderli.

Esiste un metodo statisticamente valido per individuarli?

Ora che conosciamo come trattare gli outliers, resta però un problema: ma quali sono i valori estremi? Ad esempio il 12 è un outlier?

Torniamo dunque al problema della distanza: quando un numero è distante dalla media dei valori? La statistica ci fornisce uno strumento fantastico per decidere se un valore è estremo o meno: il calcolo dei valori standardizzati. Tanto più un valore standardizzato è elevato, tanto più elevata è la distanza del valore originale dalla media. Per calcolare il valore standardizzato, utilizzo la seguente formula:

[latex]Z=\frac{X-\bar{X}}{S}[/latex]

in cui X è il valore, [latex]\bar{X}[/latex] è la media delle osservazioni ed S è lo scarto quadratico medio (o deviazione standard). Ogni valore standardizzato minore di -3 e maggiore di +3 è da considerarsi un outlier. Proviamo con le nostre osservazioni. Nella seguente tabella ho riportato le osservazioni ed i rispettivi valori standardizzati, calcolati utilizzando la precedente formula.

Oss.Valore Stand.Oss.Valore Stand.Oss.Valore Stand.
5-0,1926088052-0,52279532980,137577718
80,1375777183-0,4127331544-0,30267098
2-0,5227953296-0,0825466316-0,082546631
80,1375777185-0,1926088052-0,522795329
2-0,522795329605,860810792-0,522795329
3-0,4127331544-0,302670982-0,522795329
90,24763989380,13757771880,137577718
120,5778264161-0,63285750370,027515544
5-0,1926088056-0,08254663180,137577718
3-0,4127331545-0,1926088053-0,412733154
5-0,1926088052-0,52279532990,247639893
70,027515544100,35770206790,247639893
90,2476398936-0,0825466315-0,192608805

L’unico valore che supera l’intervallo -3 e +3, è proprio il numero 60. Gli altri due numeri 10 e 12 non sono outliers.

Conclusione

Sicuramente, per poter decidere su quale sia il miglior trattamento degli outliers, occorre innanzitutto capire perché ci sono. A volte esistono delle circostanze particolari che spiegano la presenza di un outlier. In statistica medica ad esempio un valore anomalo può indicare una situazione anomala del paziente. In questo caso è conveniente valutare il valore anomalo in riferimento allo studio e alla letteratura medica.

Come hai visto, riconoscere gli outliers è molto semplice, anche quando ve ne sono più di uno o quando non siamo sicuri di come individuarli. Una semplice formula ci permette di dissolvere ogni dubbio! Quindi, per quando lavorerai al tuo prossimo dataset: buona caccia all’intruso!

Related Posts