Indice Show
La dimensione del campione rappresenta una delle più “annose” vicende dell’analisi statistica. Chiunque si accinga ad eseguire una qualsiasi forma di elaborazione dati, si pone la domanda: “Quanto deve essere ampio il mio campione?”. I non addetti ai lavori rispondono in modo molto semplicistico: “Chiedo ad uno statistico e lui mi dirà!”. La risposta, apparentemente logica, presuppone però che lo statistico sappia, conosca l’ambito di indagine in cui il ricercatore si sta muovendo e soprattutto disponga delle informazioni per poter tracciare la dimensione del campione. Lo statistico non è un mago, non è alchimista e non è neanche un indovino numerico: egli si muove su basi numeriche per arrivare a conclusioni numeriche. E come sempre dico nel mio blog: “No dati, no party!”, ossia senza informazioni non c’è dimensione del campione.
Premessa
Partiamo dalla base, ossia decidiamo con quale strumento statistico vogliamo approcciare lo studio. Perché, diciamolo subito, la dimensione del campione è il risultato di un calcolo molto accurato che dipende dell’analisi statistica che si vuole eseguire. Pertanto, a seconda che si calcoli una media o una percentuale, o che si utilizzi un test t sui campioni indipendenti o un ANOVA su campioni ripetuti, la formula che ci conduce alla dimensione del campione varia.
Per dare un’idea della vastità dell’argomento, basti pensare che qualche autore si è preso la briga di scrivere interi manuali sulla dimensione del campione e molti altri autori della ricerca scientifica hanno presentato papers su papers raccontando come determinare la dimensione del campione in base allo specifico ambito di ricerca o alle caratteristiche peculiari dello studio. Ti invio ad andare su PubMed e cercare due parole “Sample Size Calculation”; ad oggi 20 luglio 2020, la risposta è di 16,330 articoli!
Dimensione del campione: mettiamo ordine
Sono abbastanza sicura che 16,330 articoli ti abbiano un attimo sconfortato. Ma si dice anche che “il diavolo non è mai brutto come lo si dipinge”, per cui una soluzione più immediata e soprattutto meno a rischio esaurimento nervoso, esiste.
Il primo passo per portare avanti in maniera ottimale la tua analisi statistica è quello di definire qual è il tuo ambito di indagine e quali sono le principali pubblicazioni di base del tuo studio. Alcuni settori richiedono campioni molto ampi a causa dell’enorme variabilità dei dati, mentre altri settori richiedono campioni molto più piccoli a seguito della ridotta variabilità e della mancanza di vaste informazioni. Questo non è un principio rigoroso di definizione del campione, ma è una buona regola preliminare per sapere in che ambito ci stiamo muovendo.
Dimensione del campione per un questionario
Per poter identificare la dimensione del campione per un questionario, è necessario conoscere tre parametri chiave: la numerosità della popolazione di riferimento (N), il livello di confidenza (generalmente 95% o 99%) e l’errore che si è disposti ad accettare, anche noto come intervallo di confidenza (e). E poi il gioco è fatto, basta applicare la seguente formula, suggerita da Cochran per grandi campioni:
n = (z2 x pq)/e2
in cui “z2” è il valore di “z” (1.96 per 95%, 2.58 per 99%), “p” è la proporzione stima di popolazione con quel determinato attributo (ad esempio 50% della popolazione risponde “sì” ad una specifica domanda) ed infine “e” è l’intervallo di confidenza.
Nel caso in cui la popolazione di riferimento è di per sé già ridotta, il valore del campione deve essere rivisto, applicando un’ulteriore formula, che indico con nsmall:
nsmall = n/(1+((n-1)/N))
Dimensione del campione per la stima
Obiettivo primario di molti studi osservazionali è quello di stimare un parametro, come una media o una proporzione. Poiché i parametri che possono essere stimati sono molteplici, ogni parametro ha una sua formula. Tuttavia, le singole formule rispondono tutte ad una serie di regole che trovi riassunte nella seguente check-list.
Controlli preliminare per determinare la dimensione del campione
- Individuare la variabile di interesse
Nel caso di studio con antecedente ed outcome, l’outcome sarà la tua variabile di interesse. Se vi sono più variabili di interesse il sample size è il valore massimo tra tutte le valutazioni
- Identificare il parametro di interesse.
Il tuo parametro è una media, una proporzione, un odds ratio, un coefficiente di correlazione?
- Determinare la variabilità tra i soggetti all’interno della popolazione.
Più variazione nella popolazione di riferimento, più alto sarà il campione.
- Indicare il minimo valore di precisione richiesto.
In un questionario il 5% è un buon compromesso, il 10% può essere anche tollerato. Ma in ambito medico una precisione di tale ampiezza è inaccettabile.
- Determinare il livello di confidenza tollerato
Nessun’analisi statistica è attendibile al 100%, purtroppo l’errore fa parte dell’analisi. Generalmente un errore del 5% è accettato.
- Identificare il numero dei sottogruppi
Più sottogruppi, più grande deve essere il campione
- Prevedere, per quanto possibile, il livello di “non risposta”
La non risposta oltre ad alterare la validità dello studio, riduce il campione.
- Identificare il numero di variabili da calcolare simultaneamente.
Più variabili inseriamo, maggiore è la dimensione del campione.
Dimensione del campione per la verifica di ipotesi
Molti studi, specialmente in ambito medico, sono concentrati sulla verifica di ipotesi sperimentali attraverso la comparazione (solitamente) di due o più gruppi. In questo caso è fondamentale ricorrere alla letteratura di riferimento o agli studi pilota. Inoltre, la check-list precedente si amplia di qualche punto. In particolare, dopo aver risposto ai punti 1, 2 e 3 della lista, è necessario capire il minimo effetto (solitamente indicato con d) che è importante da trovare. Si tratta di un’amplificazione del concetto di precisione introdotto al punto 4. Per identificare una piccola differenza, è necessario un campione ampio. Viceversa, se la differenza è grande, un campione anche di piccole dimensioni è adeguato.
Dopo si passa alla potenza del campione, ossia alla probabilità di identificare un determinato effetto e trovare che esso sia statisticamente significativo. La potenza dipende dall’effetto e generalmente il minimo di potenza richiesta è l’80%.
Il punto 5 nel caso della verifica di test di ipotesi diviene il seguente: definire il livello di significatività richiesto, il famoso alfa. Se alfa è piccolo (e.g. 0.001), il campione deve essere ampio. Viceversa se alfa è grande (e.g. 0.05), il campione può essere relativamente piccolo.
Sui piccoli campioni
Prima di concludere, voglio tornare sui piccoli campioni. Nella ricerca scientifica i piccoli campioni sono “criticati” perché producono delle stime distorte. Ciononostante, i grandi campioni non sono la panacea. Usare un campione di 1000 pazienti in un clinical trial, quando invece ne basta uno di 300 pazienti per stimare la differenza tra due gruppi è eticamente errato. Si sono consumate risorse economiche, finanziarie, ma soprattutto umane.