5 Agosto 2020

4 minute read

Survival Analysis e Kaplan-Meier: la curva di sopravvivenza

5 Agosto 2020

Indice Show

Alcuni strumenti statistici risultano, per chi ci lavora ogni giorno, più affascinanti di altri. La curva di sopravvivenza Kaplan-Meier è, per me, uno di questi. Mi piace tracciare, anche con semplici programmi di calcolo, gli “scalini” di questa curva. Alcuni ricercatori con cui lavoro, parlando della Kaplan-Meier la definiscono la “curva della speranza”. In effetti, il suo grandissimo uso in ambito medico specialmente per le patologie più gravi, consente di dare speranza a molti pazienti che hanno appena ricevuto una pesante diagnosi. Essa riceve inoltre un notevole applicazione nell’ambito epidemiologico lavorando in modo più performante delle tavole di mortalità… e non solo.

Un pensiero preliminare

Prima di affrontare l’argomento della Kaplan-Meier voglio fare una premessa. Lavorando spesso con questo strumento, sento il peso dei suoi protagonisti. Molte volte la curva Kaplan-Meier viene usata per tracciare la curva di sopravvivenza generale (tecnicamente indicata come overall survival) all’interno di studi clinici e l’outcome osservato è la morte del paziente. Perciò, quando tocca a me dare un parere statistico, molti pazienti coinvolti nel dataset non ci sono più. Questo articolo vuole essere una guida per chi si approccia a questo strumento, ma anche vuole essere un “grazie” a quei pazienti che con i loro dati contribuiscono al mondo della scienza.

Kaplan-Meier

La Kaplan-Meier è il metodo più famoso per analizzare dati “time-to-event“, ossia che considerano il tempo affinché un dato evento si verifichi. L’epidemiologia e la clinica ne fanno un grande uso, in quanto essa rientra all’interno dei metodi statistici per lo studio della sopravvivenza. Conoscere la curva di sopravvivenza Kaplan-Meier ed il modello di Cox significa disporre di buoni strumenti per trattare i dati “time-to-event”.

Informazioni Preliminari

Partiamo da una buona notizia: la curva Kaplan-Meier non teme i dati censored. La curva di sopravvivenza considera questa tipologia di dati fintanto che essi fanno parte del dataset, ossia fino all’ultima osservazione disponibile. Da quel momento in poi, i segmenti incompleti vengono ignorati, salvo collaborare nell’abbassare il numero dei soggetti a rischio allo tempo successivamente monitorato.

Il concetto alla base della Kaplan-Meier è la probabilità condizionata (vedi il riquadro sotto per la modalità di calcolo), cioè la probabilità di sopravvivere fino ad uno specifico momento condizionata alla probabilità di essere vivo nei precedenti periodi temporali.

Probabilità Condizionata: come si determina

Supponiamo di lanciare un dado per tre volte consecutive. La probabilità di avere “testa” è dello 0.50 (ossia 50%) nel primo lancio, dello 0.50 nel secondo e di 0.50 nel terzo. La probabilità cumulata di avere “testa” in tutti e tre i lanci è data dal prodotto delle probabilità, ossia:

0.50 ∙ 0.50 ∙ 0.50 = 0.125

Dunque la probabilità che lanciando un lancio tre volte esca “testa” è del 12.5%.

Assunzioni Necessarie

Come tutti gli strumenti statistici che si rispettano, anche questa curva di sopravvivenza ha le sue necessarie assunzioni affinché possa correttamente spiegare i dati.

La prima assunzione prevede che quando si usa il metodo Kaplan-Meier, i pazienti censored abbiano, in ogni intervallo temporale, la stessa prospettiva di sopravvivenza dei pazienti che continuano ad essere eseguiti nello studio. Non è un’assunzione semplice da controllare. Sul punto ti consiglio di valutare le motivazioni di fuoriuscita dei pazienti dello studio e di effettuare delle osservazioni di tipo clinico. Tralasciare una disamina di questo aspetto significa che eventuali bias possono condurre ad una sottostima della sopravvivenza.

La seconda assunzione prevede che la probabilità di sopravvivenza deve essere uguale per tutti i pazienti senza alcuna distinzione rispetto al loro momento di ingresso nello studio (prima fase o ultima fase). Questa assunzione deve essere necessariamente provata in fase di analisi.

Infine la terza assunzione comporta che l’evento osservato in uno specifico momento temporale sia accaduto esattamente in quel momento. Questo è semplice in alcuni casi (e.g. determinazione della morte), ma complesso in molti altri (si pensi a tutti quei casi in cui una recidiva è scoperta solo al momento del follow-up programmato). Ciò può portare ad una sovrastima della sopravvivenza.

La curva Kaplan-Meier

La curva Kaplan-Meier è una curva a gradini, una sorta di scala in cui ogni step rappresenta il verificarsi dell’outcome. Dunque, il numero di step rappresenta il numero di eventi di interesse che si sono verificati durante il follow-up. Sull’asse delle x viene indicato il tempo e sull’asse delle y è riportata la probabilità di sopravvivenza (probabilità condizionata).

Curva di sopravvivenza Kaplan-Meier — Curva di sopravvivenza – Kaplan-Meier

La lettura del plot è immediata: individuato un tempo, si va ad identificare la corrispondente probabilità di sopravvivenza. Tale lettura può essere anche invertita per la determinazione la sopravvivenza media: considera la probabilità al 50% ed identifica il tempo corrispondente. Quello ti darà la mediana del tempo osservato (ovviamente questa modalità di calcolo vale solo ed esclusivamente in questo caso, per il calcolo della mediana, vedi articolo).

Anche nel tracciare il plot vi sono delle accortezze da rispettare. Il plot deve essere esteso fino a quando vi è un ragionevole numero di pazienti che raggiunge l’ultimo follow-up riportato (proporzione del 10-20%). Nel caso di comparazioni tra diverse curve di sopravvivenza (e.g. pazienti con diverse caratteristiche), è necessario riportare le misure di incertezza, dunque errore standard o intervallo di confidenza al 95%.

Test di significatività: il Log-Rank

È possibile anche nel caso della Kaplan-Meier eseguire una comparazione tra due gruppi accompagnata da un test di significatività (famoso p-value). I due gruppi possono essere definiti genericamente come pazienti esposti e non-esposti con riferimento alla presenza o meno di una specifica problematica, e.g. si pensi alla severità della malattia o alla presenza di una data comorbidità.

Per determinare la significatività si ricorrere al log-rank test: l’ipotesi nulla prevede che la proporzione di individui per i quali l’evento si verifica dipende solo dalla dimensione dei gruppi (esposti vs non-esposti) e si assume che essa sia la stessa dell’intero campione (esposti + non-esposti). Un p-value minore di 0.05 comporta il rifiuto della precedente ipotesi nulla e dunque una differenza tra gruppi.

Conclusione

La curva Kaplan-Meier rappresenta un’importante tecnica statistica per la determinazione della sopravvivenza. Consente infatti di eseguire delle ipotesi eziologiche e prognostiche in campo della ricerca clinica ed epidemiologica, fornendo risposte accurate e precise sugli andamenti nel tempo e sulla probabilità di verifica di un determinato evento.

Marilù Garo

Ciao, sono Marilù Garo. Mathsly è uno studio di consulenza statistica e matematica, il cui scopo è elaborare analisi statistiche e fornire assistenza e supporto statistico per gli studi di ricerca e pubblicazioni scientifiche. Periodicamente il sito pubblica guide e articoli per spiegare gli aspetti più interessanti della statistica medica, della ricerca medica, dell'econometria ed in generale della ricerca scientifica. Puoi trovare informazioni sui principali indici statistici (e.g. media, mediana, deviazione standard, ...) e sugli strumenti più idonei a dimostrare le ipotesi di ricerca e a capire molti concetti statistici (e.g. p-value, regressioni, sensibilità, specificità, ...). Pubblico regolarmente articoli in biostatistica, econometria, statistica medica, ed in molti altri settori di applicazione della matematica e della statistica e, più in generale, nella ricerca scientifica. Se preferisci "far fare" ad uno professionista, sono la persona giusta per te. Posso aiutarti ad elaborare i dati e la tua analisi statistica, anche nel caso ti servisse per pubblicazione scientifica sulle riviste più importanti del tuo settore di ricerca. Le mie conoscenze nell'ambito statistico e matematico mi permettono di portare avanti collaborazioni continuative con università e centri ricerca, italiani ed internazionali. Puoi visionare alcune delle pubblicazioni scientifiche quale co-autore nella pagina "Le mie pubblicazioni" o scorrere le recensioni dei clienti con i quali ho collaborato. Inoltre, grazie all'esperienza acquisita nel campo della ricerca, posso aiutarti nellastesura e/o correzione del tuo testo scientifico, anche in inglese, o a scrivere il protocollo di ricerca per il tuo studio. Ti invito ad esplorare il mio sito e a scoprire in quanti modi posso aiutarti nel tuo lavoro di ricerca.

Analisi di sopravvivenza: tipologia di dati e metodi di raccolta

2 Agosto 2020

Alfa di Cronbach? Informazioni per non sbagliare

11 Agosto 2020

Statistica

73 Posts

View Posts

Statistica medica

40 Posts

View Posts

Ricerca Scientifica

37 Posts

View Posts

Econometria

17 Posts

View Posts

Cookie	Durata	Descrizione
cookielawinfo-checkbox-analytics	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Analytics".
cookielawinfo-checkbox-functional	11 months	The cookie is set by GDPR cookie consent to record the user consent for the cookies in the category "Functional".
cookielawinfo-checkbox-necessary	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookies is used to store the user consent for the cookies in the category "Necessary".
cookielawinfo-checkbox-others	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Other.
cookielawinfo-checkbox-performance	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Performance".
viewed_cookie_policy	11 months	The cookie is set by the GDPR Cookie Consent plugin and is used to store whether or not user has consented to the use of cookies. It does not store any personal data.

The Latest

Controllo statistico della qualità e breve intro su Six Sigma

Henrietta Lacks: etica e scienza

Interrupted Time Series: un approccio per quasi-experimental studies

Paradosso di Simpson: scambiare lucciole per lanterne

Survival Analysis e Kaplan-Meier: la curva di sopravvivenza

Indice Show

Un pensiero preliminare

Kaplan-Meier

Informazioni Preliminari

Probabilità Condizionata: come si determina

Assunzioni Necessarie

La curva Kaplan-Meier

Test di significatività: il Log-Rank

Conclusione

Analisi di sopravvivenza: tipologia di dati e metodi di raccolta

Alfa di Cronbach? Informazioni per non sbagliare

Controllo statistico della qualità e breve intro su Six Sigma

Henrietta Lacks: etica e scienza

Survival Analysis e Kaplan-Meier: la curva di sopravvivenza

Indice Show

Un pensiero preliminare

Kaplan-Meier

Informazioni Preliminari

Probabilità Condizionata: come si determina

Assunzioni Necessarie

La curva Kaplan-Meier

Test di significatività: il Log-Rank

Conclusione

Analisi di sopravvivenza: tipologia di dati e metodi di raccolta

Alfa di Cronbach? Informazioni per non sbagliare

Related Posts

Cookies Policy