Indice Show
La varianza, insieme alla media e alla deviazione standard, è uno dei capisaldi della statistica. Inserita nel calcolo di molteplici strumenti di statistica inferenziale, la varianza è la compagna di viaggio di molte analisi statistiche.
In questo articolo, ti mostrerò in pochi e semplicissimi step come calcolare la varianza imparando anche il metodo logico-statistico che ne sta alla base.
La strada logico-statistica verso la varianza
Per poter comprendere qual è la logica che porta alla definizione di varianza, è necessario innanzitutto sapere che la varianza è un indice di dispersione. In termini molto immediati, la varianza è una misura che spiega come si distribuiscono i dati.
Se la media aritmetica è la misura di tendenza centrale per eccellenza, la varianza è per importanza, l’equivalente della media nel calcolo della dispersione. Sebbene nascosta da una formula matematica che coinvolge sommatorie e quadrati, la varianza è una sorta di media. Un pò speciale, ma pur sempre media.
Somma delle deviazioni dalla media
Immaginiamo di dover calcolare la dispersione dei dati di una variabile X per la quale conosciamo il numero totale di osservazioni (n) e la sua media.
Per calcolare la dispersione, il passaggio più semplice è calcolare la deviazione di ognuna delle n-osservazioni (xi) dalla media, sommare tali deviazioni e dividere tutto per il numero n di osservazioni. In formule, quanto ho appena descritto si traduce in:
\[d=\frac{\sum_{i=1}^{n}\left ( x_i-\bar{x} \right )}{n}\]La formula è molto semplice e come puoi notare è una sorta di media.
Ciononostante, tale formula nasconde un enorme problema: la somma presente al numeratore è sempre zero. Non ci credi? Ti invito a fare la prova con qualsiasi dataset tu abbia. Sono sicurissima che la somma delle differenze fa sempre zero!
La mia previsione non è frutto di magia, ma è solo la conoscenza di uno dei fondamenti della statistica. Chiedere il risultato della somma delle deviazioni dalla media diviso il numero di osservazioni è una delle migliori domande a trabocchetto per studenti distratti.
Detto ciò, comprendi che il fatto che il numeratore si annulli sempre e comunque è bel problema per un indice statistico che serve per descrivere. Qualsiasi variabile ha dispersione zero; quindi, aiuto ci siamo persi qualcosa!
Deviazione media
Per ovviare a questo grave inconveniente, l’alternativa è calcolare la deviazione media, ossia di sommare il valore assoluto delle differenze così da eliminare i valori negativi che combinati con i positivi producono lo zero e dividere tutto per n. In formule, il risultato è il seguente:
\[\sum_{i=1}^{n} \frac{\left | x_i-\bar{x} \right |}{n}\]Questa misura di dispersione è sicuramente migliore della precedente: il numeratore non si annulla. Ma non funziona un granché. Essa è sì una misura ragionevole, ma non è perfetta. Soffre molto la forma della distribuzione della variabile.
Varianza
Dopo due tentativi falliti, sul terzo aggiustiamo il tiro, prendendo il meglio della prima forma. Per evitare inconvenienti al numeratore, eleviamo al quadrato le deviazioni dalla media, dividiamo tutto per (n-1) ed otteniamo così “Sua Maestà” la varianza:
\[s^2=\frac{\sum_{i=1}^{n}\left ( x_i-\bar{x} \right )^2}{n-1}\]La formula appena esposta è semplicissima: consideriamo la differenza tra l’i-esima osservazione xi e la media della variabile, eleviamo tutto al quadrato, sommiamo le differenze e dividiamo per (n-1).
Piccole curiosità sulla varianza
Ho scritto “Sua Maestà” perché in effetti in statistica la varianza ricopre molteplici ruoli e, come si dice, “è come il prezzemolo”: gira gira la nomini sempre.
Se la statistica è la scienza che studia i dati e la loro variabilità, la varianza – indice di variabilità – ricopre un ruolo speciale.
Calcolata per la prima volta dal Karl Pearson (il quale la chiamò deviazione standard quadratica) e successivamente battezzata “varianza” da Ronald Fisher nel 1918, questo indice di dispersione ha molteplici applicazioni in ambito di statistica inferenziale e di calcolo delle probabilità. La sua applicazione più nota è quella relativa all’ANOVA, acronimo appunto di ANalysis Of Variance.
Calcolare la varianza
Consideriamo il dataset riportato nella seguente tabella e calcoliamo la varianza della variabile X (colonna 2), che contiene una misurazione espressa in metri (m).
(1) | (2) |
---|---|
id | X (metri) |
1 | 5 |
2 | 2 |
3 | 4 |
4 | 8 |
5 | 7 |
6 | 6 |
7 | 3 |
8 | 9 |
9 | 3 |
Procedura
Tempo richiesto: 5 minuti
- Determinare la media della variabile
Media(X) = 5.22 m
- Eseguire le differenze tra ciascun osservazione e la media
Vedi Tabella 2 sotto. Ad esempio il primo valore della colonna (2) è dato dalla differenza tra 5 m e 5.22 m, ossia -0.22 m. Il secondo valore della colonna (2) è dato dalla differenza tra 2 e 5.22 m, ossia -3.22 m.
- Quadrato delle differenze
Dopo aver calcolato le differenze, eleva ogni singolo valore al quadrato. Ad esempio, nella Tabella 2 colonna 4, il risultato è ottenuto come elevamento al quadrato del valore di colonna 3, ossia: (-0.22 m)2 = 0.05 m2.
- Sommare i valori delle osservazioni
Sommare i valori delle singole osservazioni della colonna (4). Il risultato è 47.56 m2.
- Applicare la formula della varianza
Usando la formula precedente, dividi la somma delle osservazioni della colonna (4) per il numero delle n-osservazioni meno 1. Nell’esempio si ha: 47.56 m2/(9-1) = 47.56 m2 – 8 =5.94 m2.
- Varianza
E voilà la varianza nel nostro esempio ha valore 5.94 m2. Procedura terminata!
(1) | (2) | (3) | (4) |
---|---|---|---|
id | X (metri) | X-media(X) | [X-media(X)]2 |
1 | 5 | -0.22 | 0.05 |
2 | 2 | -3.22 | 10.38 |
3 | 4 | -1.22 | 1.49 |
4 | 8 | 2.78 | 7.72 |
5 | 7 | 1.78 | 3.16 |
6 | 6 | 0.78 | 0.60 |
7 | 3 | -2.22 | 4.94 |
8 | 9 | 3.78 | 14.27 |
9 | 3 | -2.22 | 4.94 |
Somma delle osservazioni | 47.56 |
Come leggere il valore della varianza
Come hai tu stesso notato, il calcolo della varianza è molto semplice ed immediato. La lettura del suo valore nel contesto di uno studio statistico è un pò meno immediata.
Nell’esempio precedente la variabile X è espressa in metri. La media ottenuta mantiene la stessa unità di misura (metri appunto). Ma, in seguito all’elevamento al quadrato delle differenze, la varianza è espressa non più in metri, bensì in metri quadrati. Questo complica la lettura del valore, in quanto la media segue l’unità di misura della variabile originaria, mentre la dispersione viene espressa in modo differente.
Per farti comprendere meglio il problema, immagina di dover spiegare la variabile età dei pazienti. Cosa ne dici se ti dicessi che i pazienti hanno età media di 30 anni con varianza 4.5 anni al quadrato? Sono sicura che hai compreso alla perfezione!
Rapporto tra varianza e deviazione standard
Per ovviare al quadrato dell’unità di misura originaria, è sufficiente eseguire la radice quadrata (operazione inversa dell’elevamento a potenza, giusto per ripetere un pò di matematica). In questo modo la varianza si trasforma in deviazione standard e il problema del quadrato dell’unità di misura della variabile originaria è scomparso. In formule si ha:
\[s=\sqrt{\frac{\sum_{i=1}^{n}\left ( x_i-\bar{x} \right )^2}{n-1}}\]Conclusione
Per le statistiche descrittive, la varianza serve principalmente per giungere al calcolo della deviazione standard, indice quest’ultimo idoneo per esprimere la variabilità dei dati. Conoscere la modalità di calcolo, la procedura logico-statistica che ne porta alla formula e la formula stessa, permette di utilizzare la varianza in modo appropriato anche in statistica inferenziale, in quanto consente di comprendere in modo approfondito i meccanismi dell’inferenza eseguita.