11 Novembre 2020

5 minute read

Capire la variabilità: come calcolare la varianza

Marilù Garo

11 Novembre 2020

Indice Show

La varianza, insieme alla media e alla deviazione standard, è uno dei capisaldi della statistica. Inserita nel calcolo di molteplici strumenti di statistica inferenziale, la varianza è la compagna di viaggio di molte analisi statistiche.

In questo articolo, ti mostrerò in pochi e semplicissimi step come calcolare la varianza imparando anche il metodo logico-statistico che ne sta alla base.

La strada logico-statistica verso la varianza

Per poter comprendere qual è la logica che porta alla definizione di varianza, è necessario innanzitutto sapere che la varianza è un indice di dispersione. In termini molto immediati, la varianza è una misura che spiega come si distribuiscono i dati.

Se la media aritmetica è la misura di tendenza centrale per eccellenza, la varianza è per importanza, l’equivalente della media nel calcolo della dispersione. Sebbene nascosta da una formula matematica che coinvolge sommatorie e quadrati, la varianza è una sorta di media. Un pò speciale, ma pur sempre media.

Somma delle deviazioni dalla media

Immaginiamo di dover calcolare la dispersione dei dati di una variabile X per la quale conosciamo il numero totale di osservazioni (n) e la sua media.

Per calcolare la dispersione, il passaggio più semplice è calcolare la deviazione di ognuna delle n-osservazioni (x_i) dalla media, sommare tali deviazioni e dividere tutto per il numero n di osservazioni. In formule, quanto ho appena descritto si traduce in:

\[d=\frac{\sum_{i=1}^{n}\left ( x_i-\bar{x} \right )}{n}\]

La formula è molto semplice e come puoi notare è una sorta di media.

Ciononostante, tale formula nasconde un enorme problema: la somma presente al numeratore è sempre zero. Non ci credi? Ti invito a fare la prova con qualsiasi dataset tu abbia. Sono sicurissima che la somma delle differenze fa sempre zero!

La mia previsione non è frutto di magia, ma è solo la conoscenza di uno dei fondamenti della statistica. Chiedere il risultato della somma delle deviazioni dalla media diviso il numero di osservazioni è una delle migliori domande a trabocchetto per studenti distratti.

Detto ciò, comprendi che il fatto che il numeratore si annulli sempre e comunque è bel problema per un indice statistico che serve per descrivere. Qualsiasi variabile ha dispersione zero; quindi, aiuto ci siamo persi qualcosa!

Deviazione media

Per ovviare a questo grave inconveniente, l’alternativa è calcolare la deviazione media, ossia di sommare il valore assoluto delle differenze così da eliminare i valori negativi che combinati con i positivi producono lo zero e dividere tutto per n. In formule, il risultato è il seguente:

\[\sum_{i=1}^{n} \frac{\left | x_i-\bar{x} \right |}{n}\]

Questa misura di dispersione è sicuramente migliore della precedente: il numeratore non si annulla. Ma non funziona un granché. Essa è sì una misura ragionevole, ma non è perfetta. Soffre molto la forma della distribuzione della variabile.

Varianza

Dopo due tentativi falliti, sul terzo aggiustiamo il tiro, prendendo il meglio della prima forma. Per evitare inconvenienti al numeratore, eleviamo al quadrato le deviazioni dalla media, dividiamo tutto per (n-1) ed otteniamo così “Sua Maestà” la varianza:

\[s^2=\frac{\sum_{i=1}^{n}\left ( x_i-\bar{x} \right )^2}{n-1}\]

La formula appena esposta è semplicissima: consideriamo la differenza tra l’i-esima osservazione x_i e la media della variabile, eleviamo tutto al quadrato, sommiamo le differenze e dividiamo per (n-1).

Piccole curiosità sulla varianza

Ho scritto “Sua Maestà” perché in effetti in statistica la varianza ricopre molteplici ruoli e, come si dice, “è come il prezzemolo”: gira gira la nomini sempre.

Se la statistica è la scienza che studia i dati e la loro variabilità, la varianza – indice di variabilità – ricopre un ruolo speciale.

Calcolata per la prima volta dal Karl Pearson (il quale la chiamò deviazione standard quadratica) e successivamente battezzata “varianza” da Ronald Fisher nel 1918, questo indice di dispersione ha molteplici applicazioni in ambito di statistica inferenziale e di calcolo delle probabilità. La sua applicazione più nota è quella relativa all’ANOVA, acronimo appunto di ANalysis Of Variance.

Calcolare la varianza

Consideriamo il dataset riportato nella seguente tabella e calcoliamo la varianza della variabile X (colonna 2), che contiene una misurazione espressa in metri (m).

(1)	(2)
id	X (metri)
1	5
2	2
3	4
4	8
5	7
6	6
7	3
8	9
9	3

Tabella 1 – Dataset

Procedura

Tempo richiesto: 5 minuti

Determinare la media della variabile
Media(X) = 5.22 m
Eseguire le differenze tra ciascun osservazione e la media
Vedi Tabella 2 sotto. Ad esempio il primo valore della colonna (2) è dato dalla differenza tra 5 m e 5.22 m, ossia -0.22 m. Il secondo valore della colonna (2) è dato dalla differenza tra 2 e 5.22 m, ossia -3.22 m.
Quadrato delle differenze
Dopo aver calcolato le differenze, eleva ogni singolo valore al quadrato. Ad esempio, nella Tabella 2 colonna 4, il risultato è ottenuto come elevamento al quadrato del valore di colonna 3, ossia: (-0.22 m)² = 0.05 m².
Sommare i valori delle osservazioni
Sommare i valori delle singole osservazioni della colonna (4). Il risultato è 47.56 m².
Applicare la formula della varianza
Usando la formula precedente, dividi la somma delle osservazioni della colonna (4) per il numero delle n-osservazioni meno 1. Nell’esempio si ha: 47.56 m²/(9-1) = 47.56 m² – 8 =5.94 m².
Varianza
E voilà la varianza nel nostro esempio ha valore 5.94 m². Procedura terminata!

(1)	(2)	(3)	(4)
id	X (metri)	X-media(X)	[X-media(X)]²
1	5	-0.22	0.05
2	2	-3.22	10.38
3	4	-1.22	1.49
4	8	2.78	7.72
5	7	1.78	3.16
6	6	0.78	0.60
7	3	-2.22	4.94
8	9	3.78	14.27
9	3	-2.22	4.94
Somma delle osservazioni			47.56

Tabella 2 – Dataset per calcolo Varianza

Come leggere il valore della varianza

Come hai tu stesso notato, il calcolo della varianza è molto semplice ed immediato. La lettura del suo valore nel contesto di uno studio statistico è un pò meno immediata.

Nell’esempio precedente la variabile X è espressa in metri. La media ottenuta mantiene la stessa unità di misura (metri appunto). Ma, in seguito all’elevamento al quadrato delle differenze, la varianza è espressa non più in metri, bensì in metri quadrati. Questo complica la lettura del valore, in quanto la media segue l’unità di misura della variabile originaria, mentre la dispersione viene espressa in modo differente.

Per farti comprendere meglio il problema, immagina di dover spiegare la variabile età dei pazienti. Cosa ne dici se ti dicessi che i pazienti hanno età media di 30 anni con varianza 4.5 anni al quadrato? Sono sicura che hai compreso alla perfezione!

Rapporto tra varianza e deviazione standard

Per ovviare al quadrato dell’unità di misura originaria, è sufficiente eseguire la radice quadrata (operazione inversa dell’elevamento a potenza, giusto per ripetere un pò di matematica). In questo modo la varianza si trasforma in deviazione standard e il problema del quadrato dell’unità di misura della variabile originaria è scomparso. In formule si ha:

\[s=\sqrt{\frac{\sum_{i=1}^{n}\left ( x_i-\bar{x} \right )^2}{n-1}}\]

Conclusione

Per le statistiche descrittive, la varianza serve principalmente per giungere al calcolo della deviazione standard, indice quest’ultimo idoneo per esprimere la variabilità dei dati. Conoscere la modalità di calcolo, la procedura logico-statistica che ne porta alla formula e la formula stessa, permette di utilizzare la varianza in modo appropriato anche in statistica inferenziale, in quanto consente di comprendere in modo approfondito i meccanismi dell’inferenza eseguita.

Hai bisogno di una consulenza per il tuo studio di ricerca?

Scopri i nostri servizi di consulenza per studi di ricerca

Marilù Garo

Ciao, sono Marilù Garo. Mathsly è uno studio di consulenza statistica e matematica, il cui scopo è elaborare analisi statistiche e fornire assistenza e supporto statistico per gli studi di ricerca e pubblicazioni scientifiche. Periodicamente il sito pubblica guide e articoli per spiegare gli aspetti più interessanti della statistica medica, della ricerca medica, dell'econometria ed in generale della ricerca scientifica. Puoi trovare informazioni sui principali indici statistici (e.g. media, mediana, deviazione standard, ...) e sugli strumenti più idonei a dimostrare le ipotesi di ricerca e a capire molti concetti statistici (e.g. p-value, regressioni, sensibilità, specificità, ...). Pubblico regolarmente articoli in biostatistica, econometria, statistica medica, ed in molti altri settori di applicazione della matematica e della statistica e, più in generale, nella ricerca scientifica. Se preferisci "far fare" ad uno professionista, sono la persona giusta per te. Posso aiutarti ad elaborare i dati e la tua analisi statistica, anche nel caso ti servisse per pubblicazione scientifica sulle riviste più importanti del tuo settore di ricerca. Le mie conoscenze nell'ambito statistico e matematico mi permettono di portare avanti collaborazioni continuative con università e centri ricerca, italiani ed internazionali. Puoi visionare alcune delle pubblicazioni scientifiche quale co-autore nella pagina "Le mie pubblicazioni" o scorrere le recensioni dei clienti con i quali ho collaborato. Inoltre, grazie all'esperienza acquisita nel campo della ricerca, posso aiutarti nellastesura e/o correzione del tuo testo scientifico, anche in inglese, o a scrivere il protocollo di ricerca per il tuo studio. Ti invito ad esplorare il mio sito e a scoprire in quanti modi posso aiutarti nel tuo lavoro di ricerca.

Coefficiente di variazione: come comparare le variabilità

10 Novembre 2020

Come validare un questionario di nuova ideazione

14 Novembre 2020

Cookie	Durata	Descrizione
cookielawinfo-checkbox-analytics	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Analytics".
cookielawinfo-checkbox-functional	11 months	The cookie is set by GDPR cookie consent to record the user consent for the cookies in the category "Functional".
cookielawinfo-checkbox-necessary	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookies is used to store the user consent for the cookies in the category "Necessary".
cookielawinfo-checkbox-others	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Other.
cookielawinfo-checkbox-performance	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Performance".
viewed_cookie_policy	11 months	The cookie is set by the GDPR Cookie Consent plugin and is used to store whether or not user has consented to the use of cookies. It does not store any personal data.

The Latest

Controllo statistico della qualità e breve intro su Six Sigma

Henrietta Lacks: etica e scienza

Interrupted Time Series: un approccio per quasi-experimental studies

Paradosso di Simpson: scambiare lucciole per lanterne

Capire la variabilità: come calcolare la varianza

Indice Show

La strada logico-statistica verso la varianza

Somma delle deviazioni dalla media

Deviazione media

Varianza

Piccole curiosità sulla varianza

Calcolare la varianza

Procedura

Come leggere il valore della varianza

Rapporto tra varianza e deviazione standard

Conclusione

Hai bisogno di una consulenza per il tuo studio di ricerca?

Coefficiente di variazione: come comparare le variabilità

Come validare un questionario di nuova ideazione

Controllo statistico della qualità e breve intro su Six Sigma

Henrietta Lacks: etica e scienza

Capire la variabilità: come calcolare la varianza

Indice Show

La strada logico-statistica verso la varianza

Somma delle deviazioni dalla media

Deviazione media

Varianza

Piccole curiosità sulla varianza

Calcolare la varianza

Procedura

Come leggere il valore della varianza

Rapporto tra varianza e deviazione standard

Conclusione

Hai bisogno di una consulenza per il tuo studio di ricerca?

Coefficiente di variazione: come comparare le variabilità

Come validare un questionario di nuova ideazione

Related Posts

Cookies Policy