28 Novembre 2020

5 minute read

ANOVA: significato e assunzioni preliminari

28 Novembre 2020

Indice Show

In molti studi di ricerca, l’ANOVA – acronimo di Analysis of Variance – rappresenta un utilissimo strumento statistico per la comparazione di tre o più gruppi.

In questo articolo ti spiegherò cos’è l’ANOVA, soffermandomi in particolare sull’ANOVA ad una via (one way ANOVA), su quali sono le assunzioni preliminari per poter implementare tale test e su quali sono i pericoli di un uso approssimativo. Buona lettura!

ANOVA: tra semplicità di idea e complessità di calcolo

Parente stretto del test t sui campioni indipendenti, il test ANOVA ha come obiettivo primario e più noto quello di valutare la significatività della differenza nelle medie di tre o più gruppi.

L’idea di base è molto semplice. Dato un dataset composto da una variabile quantitativa X (cosiddetta variabile risposta) e da una variabile qualitativa gruppo con almeno tre classificazioni, il test ANOVA si occupa di capire se vi è differenza statistica tra le medie dei gruppi osservati.

L’ANOVA segue in modo similare ciò che fa il test t su due campioni indipendenti: confronta le medie dei gruppi consentendo di determinare la significatività.

In termini di formule, il calcolo è complesso, benché rimanga un calcolo di natura prettamente aritmetica. Sfruttando la varianza tra gruppi e all’interno di ciascuno dei singoli gruppi, questo potentissimo strumento statistico identifica il valore della statistica test F, che serve quale elemento determinante tra differenza significativa o meno delle medie tra gruppi.

ANOVA ad una via: cosa significa

La forma più nota e anche più semplice di analisi della varianza è quella ad una via, molto conosciuta nella sua versione inglese one way ANOVA. Lo scopo della ANOVA one-way è esattamente quello ho sopra descritto, ossia valutare la differenza delle medie tra tre o più gruppi tenendo unicamente conto dei gruppi e di nessun altro fattore.

Immaginiamo ad esempio di avere una variabile numerica X e di voler determinare la differenza in media di X rispetto a tre gruppi A, B e C (vedi dataset sotto). Lo strumento statistico di cui ci serviamo è esattamente l’ANOVA ad una via, il cui nome “ad una via” deriva dal fatto che osserviamo la variabile X rispetto ad un solo unico fattore, ossia il gruppo.

Se volessimo osservare anche la differenza tra medie sulla stessa variabile X rispetto ai sottogruppi A₁, A₂, B₁, B₂, C₁, C₂, parleremo allora di ANOVA a due fattori.

L’ANOVA ad una via rappresenta il primo e più immediato approccio al mondo dell’analisi della varianza.

gruppo	X
A	9
A	7
A	9
A	6
A	8
A	7
A	9
A	6
B	5
B	9
B	6
B	3
B	1
B	5
B	9
B	4
C	7
C	8
C	6
C	7
C	8
C	6
C	7
C	8

Perché analisi della varianza?

Prima di affrontare il problema del calcolo dell’ANOVA, è necessario risolvere un dubbio: “Perché si parla di analisi della varianza se di fatto analizziamo le differenze tra medie?”

La risposta è da rintracciarsi nella parola “differenze”. Quando si osservano dei gruppi, i gruppi si differenziano tra di loro per due componenti: la media e la varianza. La media è un valore numerico ben determinato con pochi margini di spostamento, salvo presenza di outlier. La varianza totale della variabile può essere determinata da due sottotipi di varianza: quella dovuta alle differenze all’interno del singolo gruppo (cosiddetta within-group) e quella dovuta alle differenze tra gruppi (cosiddetta between-group).

La prima varianza (within) è generata dalle differenze tra i valori individuali e le loro rispettive medie all’interno dei singoli gruppi. La seconda varianza (between) è dovuta alle differenze tra le medie dei gruppi e la media totale ed è quella oggetto di indagine del test ANOVA.

Questa scissione della varianza in due componenti fa sì che sia possibile determinare se la differenza tra le medie dei gruppi sia effetto della variazione tra gruppi oppure sia effetto delle differenze tra valori singoli e medie di ciascun gruppo. Sono proprio le varianze between, within e totale al centro del calcolo del test F.

Il test F

Il test F è ricavato dal rapporto tra la media dei quadrati tra gruppi e la media dei quadrati totali (somma della media dei quadrati tra gruppi e della media dei quadrati all’interno dei gruppi).

Se il valore di F ≤ 1, allora le medie dei gruppi possono essere uguali. Se F >> 1 (ossia sostanzialmente maggiore di 1), allora le medie dei gruppi sono differenti.

Applicare l’ANOVA senza alcun test ulteriore di comparazione, ci permette unicamente di affermare se le medie dei gruppi sono statisticamente differenti. Per capire quale gruppo genera la differenza, è necessario procedere con ulteriori test di comparazione, quali ad esempio il test di Bonferroni o di Tukey.

Quando applicare l’ANOVA

Nell’usare l’ANOVA il primo passo è il controllo delle assunzioni. L’ANOVA infatti è un potentissimo strumento statistico, ma come tutti gli strumenti statistici più forti, soffre enormemente se le assunzioni preliminari sono violate.

Se applichi l’ANOVA quando vi è violazione delle assunzioni preliminari, ottieni una sovrastima dell’effetto e dunque del p-value, invalidando completamente i tuoi risultati.

L’ANOVA (inclusa la one way anova) si basa su tre assunzioni:

distribuzione normale della variabile nei gruppi (specialmente per campioni di dimensioni ridotte)
omoschedasticità (ossia provare che la varianza nei differenti gruppi è similare)
indipendenza delle osservazioni (le osservazioni ripetute o influenzate da fattori non considerati, genera bias).

Provare l’assunzioni non significa dare per scontato su parametri empirici che essi sono rispettati, ma significa dimostrare numericamente e/o graficamente che le assunzioni sono vere.

Come calcolare l’ANOVA

Come detto all’inizio di questo breve articolo, la procedura di calcolo dell’ANOVA è matematicamente complessa in quanto presenta una serie di passaggi che rendono il calcolo poco adatto a chi non è pratico con i numeri, benché il calcolo richieda unicamente applicazioni aritmetiche.

Quando non si è sicuri delle proprie capacità di comprensione e riproduzione della formula matematica, il mio consiglio è sempre quello di far calcolare il valore del test F e del relativo p-value ad un qualunque software statistico (tutti i software producono lo stesso numero se gli fornisci lo stesso dataset!).

Attenzione però ai risultati del calcolo. La semplice lettura del p-value e l’eccessiva sovrastima delle sue potenzialità possono comportare una lettura distorta dell’output.

Quando si utilizza l’ANOVA, l‘identificazione del fattore è un punto di cruciale importanza. Attribuire una differenza tra gruppi ad un determinato fattore (ad esempio l’età) e non tener conto ad esempio del sesso o di altri elementi, quali la professione, il livello educativo, il dosaggio di un farmaco (dipende ovviamente dallo studio che stai conducendo), significa dare un’immagine distorta della realtà osservata, con tutte le conseguenze del caso: analisi errata e studio da buttar via.

Conclusioni

L’ANOVA è uno strumento popolare tra esperti e non-esperti di statistica. Lo si trova dappertutto grazie alla sua estrema semplicità concettuale. A fronte di tanta fama, il suo calcolo non è immediato e la sua comprensione ed applicazione non sempre accessibile.

Il test ANOVA è forse l’applicazione statistica che più produce bias. Alcuni ritengono che la sola menzione del test ANOVA in materiali e metodi sia sufficiente per rendere il lavoro credibile. Purtroppo, non è così. Il lavoro statistico è credibile solo quando assunzioni, strumenti e risultati sono validati da procedure formali e trasparenti e sono tra loro in perfetta armonia ed accordo.

Se vuoi implementare un’analisi statistica utilizzando l’ANOVA e far sì che essa sia a prova di reviewer, ti consiglio di evitare l’approssimazione e, se non sei esperto di statistica, anche il fai-da-te.

Se ben usato, l’ANOVA aiuta nel dimostrare la validità del proprio lavoro, ma se usato in modo inappropriato, sarà il primo campanello di allarme di riviste e revisori circa le reali conclusioni del tuo studio.

Servizi di Consulenza Statistica

Richiedi Preventivo

Marilù Garo

Ciao, sono Marilù Garo. Mathsly è uno studio di consulenza statistica e matematica, il cui scopo è elaborare analisi statistiche e fornire assistenza e supporto statistico per gli studi di ricerca e pubblicazioni scientifiche. Periodicamente il sito pubblica guide e articoli per spiegare gli aspetti più interessanti della statistica medica, della ricerca medica, dell'econometria ed in generale della ricerca scientifica. Puoi trovare informazioni sui principali indici statistici (e.g. media, mediana, deviazione standard, ...) e sugli strumenti più idonei a dimostrare le ipotesi di ricerca e a capire molti concetti statistici (e.g. p-value, regressioni, sensibilità, specificità, ...). Pubblico regolarmente articoli in biostatistica, econometria, statistica medica, ed in molti altri settori di applicazione della matematica e della statistica e, più in generale, nella ricerca scientifica. Se preferisci "far fare" ad uno professionista, sono la persona giusta per te. Posso aiutarti ad elaborare i dati e la tua analisi statistica, anche nel caso ti servisse per pubblicazione scientifica sulle riviste più importanti del tuo settore di ricerca. Le mie conoscenze nell'ambito statistico e matematico mi permettono di portare avanti collaborazioni continuative con università e centri ricerca, italiani ed internazionali. Puoi visionare alcune delle pubblicazioni scientifiche quale co-autore nella pagina "Le mie pubblicazioni" o scorrere le recensioni dei clienti con i quali ho collaborato. Inoltre, grazie all'esperienza acquisita nel campo della ricerca, posso aiutarti nellastesura e/o correzione del tuo testo scientifico, anche in inglese, o a scrivere il protocollo di ricerca per il tuo studio. Ti invito ad esplorare il mio sito e a scoprire in quanti modi posso aiutarti nel tuo lavoro di ricerca.

Come validare un questionario di nuova ideazione

14 Novembre 2020

Funnel plot: un albero di natale per publication bias

12 Dicembre 2020

Cookie	Durata	Descrizione
cookielawinfo-checkbox-analytics	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Analytics".
cookielawinfo-checkbox-functional	11 months	The cookie is set by GDPR cookie consent to record the user consent for the cookies in the category "Functional".
cookielawinfo-checkbox-necessary	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookies is used to store the user consent for the cookies in the category "Necessary".
cookielawinfo-checkbox-others	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Other.
cookielawinfo-checkbox-performance	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Performance".
viewed_cookie_policy	11 months	The cookie is set by the GDPR Cookie Consent plugin and is used to store whether or not user has consented to the use of cookies. It does not store any personal data.

The Latest

Controllo statistico della qualità e breve intro su Six Sigma

Henrietta Lacks: etica e scienza

Interrupted Time Series: un approccio per quasi-experimental studies

Paradosso di Simpson: scambiare lucciole per lanterne

ANOVA: significato e assunzioni preliminari

Indice Show

ANOVA: tra semplicità di idea e complessità di calcolo

ANOVA ad una via: cosa significa

Perché analisi della varianza?

Il test F

Quando applicare l’ANOVA

Come calcolare l’ANOVA

Conclusioni

Come validare un questionario di nuova ideazione

Funnel plot: un albero di natale per publication bias

Controllo statistico della qualità e breve intro su Six Sigma

Henrietta Lacks: etica e scienza

ANOVA: significato e assunzioni preliminari

Indice Show

ANOVA: tra semplicità di idea e complessità di calcolo

ANOVA ad una via: cosa significa

Perché analisi della varianza?

Il test F

Quando applicare l’ANOVA

Come calcolare l’ANOVA

Conclusioni

Come validare un questionario di nuova ideazione

Funnel plot: un albero di natale per publication bias

Related Posts

Cookies Policy