20 Luglio 2020

5 minute read

Dimensione del campione: informazioni preliminari

20 Luglio 2020

Indice Show

La dimensione del campione rappresenta una delle più “annose” vicende dell’analisi statistica. Chiunque si accinga ad eseguire una qualsiasi forma di elaborazione dati, si pone la domanda: “Quanto deve essere ampio il mio campione?”. I non addetti ai lavori rispondono in modo molto semplicistico: “Chiedo ad uno statistico e lui mi dirà!”. La risposta, apparentemente logica, presuppone però che lo statistico sappia, conosca l’ambito di indagine in cui il ricercatore si sta muovendo e soprattutto disponga delle informazioni per poter tracciare la dimensione del campione. Lo statistico non è un mago, non è alchimista e non è neanche un indovino numerico: egli si muove su basi numeriche per arrivare a conclusioni numeriche. E come sempre dico nel mio blog: “No dati, no party!”, ossia senza informazioni non c’è dimensione del campione.

Premessa

Partiamo dalla base, ossia decidiamo con quale strumento statistico vogliamo approcciare lo studio. Perché, diciamolo subito, la dimensione del campione è il risultato di un calcolo molto accurato che dipende dell’analisi statistica che si vuole eseguire. Pertanto, a seconda che si calcoli una media o una percentuale, o che si utilizzi un test t sui campioni indipendenti o un ANOVA su campioni ripetuti, la formula che ci conduce alla dimensione del campione varia.

Per dare un’idea della vastità dell’argomento, basti pensare che qualche autore si è preso la briga di scrivere interi manuali sulla dimensione del campione e molti altri autori della ricerca scientifica hanno presentato papers su papers raccontando come determinare la dimensione del campione in base allo specifico ambito di ricerca o alle caratteristiche peculiari dello studio. Ti invio ad andare su PubMed e cercare due parole “Sample Size Calculation”; ad oggi 20 luglio 2020, la risposta è di 16,330 articoli!

Dimensione del campione: mettiamo ordine

Sono abbastanza sicura che 16,330 articoli ti abbiano un attimo sconfortato. Ma si dice anche che “il diavolo non è mai brutto come lo si dipinge”, per cui una soluzione più immediata e soprattutto meno a rischio esaurimento nervoso, esiste.

Il primo passo per portare avanti in maniera ottimale la tua analisi statistica è quello di definire qual è il tuo ambito di indagine e quali sono le principali pubblicazioni di base del tuo studio. Alcuni settori richiedono campioni molto ampi a causa dell’enorme variabilità dei dati, mentre altri settori richiedono campioni molto più piccoli a seguito della ridotta variabilità e della mancanza di vaste informazioni. Questo non è un principio rigoroso di definizione del campione, ma è una buona regola preliminare per sapere in che ambito ci stiamo muovendo.

Dimensione del campione per un questionario

Per poter identificare la dimensione del campione per un questionario, è necessario conoscere tre parametri chiave: la numerosità della popolazione di riferimento (N), il livello di confidenza (generalmente 95% o 99%) e l’errore che si è disposti ad accettare, anche noto come intervallo di confidenza (e). E poi il gioco è fatto, basta applicare la seguente formula, suggerita da Cochran per grandi campioni:

n = (z² x pq)/e²

in cui “z²” è il valore di “z” (1.96 per 95%, 2.58 per 99%), “p” è la proporzione stima di popolazione con quel determinato attributo (ad esempio 50% della popolazione risponde “sì” ad una specifica domanda) ed infine “e” è l’intervallo di confidenza.

Nel caso in cui la popolazione di riferimento è di per sé già ridotta, il valore del campione deve essere rivisto, applicando un’ulteriore formula, che indico con n_small:

n_small = n/(1+((n-1)/N))

Dimensione del campione per la stima

Obiettivo primario di molti studi osservazionali è quello di stimare un parametro, come una media o una proporzione. Poiché i parametri che possono essere stimati sono molteplici, ogni parametro ha una sua formula. Tuttavia, le singole formule rispondono tutte ad una serie di regole che trovi riassunte nella seguente check-list.

Controlli preliminare per determinare la dimensione del campione

Individuare la variabile di interesse
Nel caso di studio con antecedente ed outcome, l’outcome sarà la tua variabile di interesse. Se vi sono più variabili di interesse il sample size è il valore massimo tra tutte le valutazioni
Identificare il parametro di interesse.
Il tuo parametro è una media, una proporzione, un odds ratio, un coefficiente di correlazione?
Determinare la variabilità tra i soggetti all’interno della popolazione.
Più variazione nella popolazione di riferimento, più alto sarà il campione.
Indicare il minimo valore di precisione richiesto.
In un questionario il 5% è un buon compromesso, il 10% può essere anche tollerato. Ma in ambito medico una precisione di tale ampiezza è inaccettabile.
Determinare il livello di confidenza tollerato
Nessun’analisi statistica è attendibile al 100%, purtroppo l’errore fa parte dell’analisi. Generalmente un errore del 5% è accettato.
Identificare il numero dei sottogruppi
Più sottogruppi, più grande deve essere il campione
Prevedere, per quanto possibile, il livello di “non risposta”
La non risposta oltre ad alterare la validità dello studio, riduce il campione.
Identificare il numero di variabili da calcolare simultaneamente.
Più variabili inseriamo, maggiore è la dimensione del campione.

Dimensione del campione per la verifica di ipotesi

Molti studi, specialmente in ambito medico, sono concentrati sulla verifica di ipotesi sperimentali attraverso la comparazione (solitamente) di due o più gruppi. In questo caso è fondamentale ricorrere alla letteratura di riferimento o agli studi pilota. Inoltre, la check-list precedente si amplia di qualche punto. In particolare, dopo aver risposto ai punti 1, 2 e 3 della lista, è necessario capire il minimo effetto (solitamente indicato con d) che è importante da trovare. Si tratta di un’amplificazione del concetto di precisione introdotto al punto 4. Per identificare una piccola differenza, è necessario un campione ampio. Viceversa, se la differenza è grande, un campione anche di piccole dimensioni è adeguato.

Dopo si passa alla potenza del campione, ossia alla probabilità di identificare un determinato effetto e trovare che esso sia statisticamente significativo. La potenza dipende dall’effetto e generalmente il minimo di potenza richiesta è l’80%.

Il punto 5 nel caso della verifica di test di ipotesi diviene il seguente: definire il livello di significatività richiesto, il famoso alfa. Se alfa è piccolo (e.g. 0.001), il campione deve essere ampio. Viceversa se alfa è grande (e.g. 0.05), il campione può essere relativamente piccolo.

Sui piccoli campioni

Prima di concludere, voglio tornare sui piccoli campioni. Nella ricerca scientifica i piccoli campioni sono “criticati” perché producono delle stime distorte. Ciononostante, i grandi campioni non sono la panacea. Usare un campione di 1000 pazienti in un clinical trial, quando invece ne basta uno di 300 pazienti per stimare la differenza tra due gruppi è eticamente errato. Si sono consumate risorse economiche, finanziarie, ma soprattutto umane.

Marilù Garo

Ciao, sono Marilù Garo. Mathsly è uno studio di consulenza statistica e matematica, il cui scopo è elaborare analisi statistiche e fornire assistenza e supporto statistico per gli studi di ricerca e pubblicazioni scientifiche. Periodicamente il sito pubblica guide e articoli per spiegare gli aspetti più interessanti della statistica medica, della ricerca medica, dell'econometria ed in generale della ricerca scientifica. Puoi trovare informazioni sui principali indici statistici (e.g. media, mediana, deviazione standard, ...) e sugli strumenti più idonei a dimostrare le ipotesi di ricerca e a capire molti concetti statistici (e.g. p-value, regressioni, sensibilità, specificità, ...). Pubblico regolarmente articoli in biostatistica, econometria, statistica medica, ed in molti altri settori di applicazione della matematica e della statistica e, più in generale, nella ricerca scientifica. Se preferisci "far fare" ad uno professionista, sono la persona giusta per te. Posso aiutarti ad elaborare i dati e la tua analisi statistica, anche nel caso ti servisse per pubblicazione scientifica sulle riviste più importanti del tuo settore di ricerca. Le mie conoscenze nell'ambito statistico e matematico mi permettono di portare avanti collaborazioni continuative con università e centri ricerca, italiani ed internazionali. Puoi visionare alcune delle pubblicazioni scientifiche quale co-autore nella pagina "Le mie pubblicazioni" o scorrere le recensioni dei clienti con i quali ho collaborato. Inoltre, grazie all'esperienza acquisita nel campo della ricerca, posso aiutarti nellastesura e/o correzione del tuo testo scientifico, anche in inglese, o a scrivere il protocollo di ricerca per il tuo studio. Ti invito ad esplorare il mio sito e a scoprire in quanti modi posso aiutarti nel tuo lavoro di ricerca.

Il modello di Cox: come interpretarlo correttamente

18 Luglio 2020

Come eseguire la randomizzazione per un RCT

31 Luglio 2020

Cookie	Durata	Descrizione
cookielawinfo-checkbox-analytics	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Analytics".
cookielawinfo-checkbox-functional	11 months	The cookie is set by GDPR cookie consent to record the user consent for the cookies in the category "Functional".
cookielawinfo-checkbox-necessary	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookies is used to store the user consent for the cookies in the category "Necessary".
cookielawinfo-checkbox-others	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Other.
cookielawinfo-checkbox-performance	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Performance".
viewed_cookie_policy	11 months	The cookie is set by the GDPR Cookie Consent plugin and is used to store whether or not user has consented to the use of cookies. It does not store any personal data.

The Latest

Controllo statistico della qualità e breve intro su Six Sigma

Henrietta Lacks: etica e scienza

Interrupted Time Series: un approccio per quasi-experimental studies

Paradosso di Simpson: scambiare lucciole per lanterne

Dimensione del campione: informazioni preliminari

Indice Show

Premessa

Dimensione del campione: mettiamo ordine

Dimensione del campione per un questionario

Dimensione del campione per la stima

Dimensione del campione per la verifica di ipotesi

Sui piccoli campioni

Il modello di Cox: come interpretarlo correttamente

Come eseguire la randomizzazione per un RCT

Controllo statistico della qualità e breve intro su Six Sigma

Henrietta Lacks: etica e scienza

Dimensione del campione: informazioni preliminari

Indice Show

Premessa

Dimensione del campione: mettiamo ordine

Dimensione del campione per un questionario

Dimensione del campione per la stima

Dimensione del campione per la verifica di ipotesi

Sui piccoli campioni

Il modello di Cox: come interpretarlo correttamente

Come eseguire la randomizzazione per un RCT

Related Posts

Cookies Policy