2 Agosto 2020

7 minute read

Analisi di sopravvivenza: tipologia di dati e metodi di raccolta

2 Agosto 2020

Indice Show

L’analisi di sopravvivenza (meglio nota nella sua forma inglese di survival analysis) è la grande protagonista di molte pubblicazioni in ambito medico. L’oncologia e l’ematologia ne fanno un uso quasi costante, ma non sicuramente esclusivo. Analisi di sopravvivenza compaiono in molti ambiti medici ed al di fuori del contesto più facilmente intuibili dell’evento “morte”. In generale, possiamo dire che sia la medicina quanto l’epidemiologia non potrebbero essere così accurate e precise senza l’analisi di sopravvivenza. Si tratta infatti di un’analisi che ricorre spessissimo nelle pubblicazioni scientifiche e, se ben eseguita, non è soggetta a notevoli fonti di bias, primi fra tutti i dati censored.

Concetto di sopravvivenza in statistica

Infatti, sebbene la parola “sopravvivenza” richiami i concetti di vita e di morte, tale definizione è non sufficiente per l’ambito statistico e di converso per quello medico. In statistica, la locuzione “analisi di sopravvivenza” indica lo studio del tempo intercorso tra uno specifico evento di inizio (cd. starting point) e il verificarsi di uno specifico outcome (cd. ending point). Obiettivo dunque di ogni survival analysis è investigare i fattori che influenzano la durata e di stimare la sopravvivenza di individui o gruppi di soggetti con particolari caratteristiche. I suoi dati tipo sono i dati “time-to-event”, ossia quelle informazioni che prevedono un collegamento tra tempo e verifica di un evento.

Definire la durata nell’analisi di sopravvivenza

Da quanto appena descritto, ne deriva che, ai fini di qualsiasi analisi di sopravvivenza, sono necessari due elementi chiave: la data di inizio di una determinata condizione e la data di verifica dell’outcome. Tutto ciò consente di calcolare la durata, ossia il tempo di sopravvivenza. La particolarità dell’analisi di sopravvivenza è che essa non tratta solo dello studio della variabile durata, ma dello studio del contesto in cui la durata ha avuto inizio, si è sviluppata ed ha avuto termine.

Starting point: l’inizio del conteggio

Il momento di inizio dell’analisi di sopravvivenza ed il momento di inizio del conteggio della durata non sono sovrapponibili. Si pensi ad esempio ad uno studio osservazionale su un campione di pazienti con cancro al seno. Il momento di calcolo della durata non coincide con il momento in cui il ricercatore inizio lo studio. Il calcolo del tempo parte dal momento della diagnosi della malattia, ossia la data di esecuzione della biopsia e di risposta positiva.

Lo starting point più diffuso è quello relativo all’insorgenza della malattia o all’esecuzione di uno specifico intervento chirurgico, ma non sono esclusi altre tipologie di eventi iniziali, quali il momento di insorgenza di effetti collaterali, la comparsa di uno specifico dolore, l’alterazione di un parametro ematochimico, etc.

Outcome: l’evento determinante

Definito quindi il momento iniziale si passa alla definizione dell’outcome. Attenzione: un solo outcome per ogni durata. Uno studio può prevedere più analisi di sopravvivenza, ma si analizza un outcome alla volta. Questo accade per esempio negli studi dell’ambito oncologico: la data della biopsia è utilizzata come starting point e poi le date di verifica di metastasi, di recidiva o della morte sono tre outcome diversi e quindi definiscono tre differenti durate (metastasis o disease free-survival e overall survival).

Per poter identificare l’outcome (o gli outcome), la domanda a cui rispondere è: Quali eventi sono da osservare? Ritorno ancora una volta sulla parola “sopravvivenza”. Se pensi al termine “sopravvivenza”, il primo evento riscontrabile che mina la vita, è il verificarsi della morte, outcome più noto. Ma, non è il solo.

In ricerca medica, l’evento è inteso come qualsiasi fenomeno che può cadere sotto la lente di ingrandimento del ricercatore, che interrompe un certo andamento ritenuto “normale” o “tipico” e, caratteristica molto più importante, che abbia un legame con la malattia indagata.

Dunque, fanno parte dei possibili outcome di un’analisi di sopravvivenza le cattive notizie – la morte, l’insorgenza di metastasi o di effetti collaterali, le recidive, etc. -, ma anche le buone notizie, come la guarigione, le dimissioni dall’ospedale, la scomparsa di un sintomo, etc.

I dati per l’analisi di sopravvivenza

Identificati quindi starting e ending points, passiamo alla definizione del tipo di dato. In questo caso, ciò che è importante non è se il dato è qualitativo o quantitativo (ovviamente la durata è un dato quantitativo); il punto fondamentale è il concetto di “dato mancante” che qui prende un’accezione speciale.

Supponiamo di voler stimare la sopravvivenza di un campione di pazienti affetti da tumore al polmone in un periodo di 5 anni. Al termine dello studio possiamo trovarci di fronte a due diversi “dati mancanti”: pazienti che hanno abbandonato lo studio prima del termine non presentandosi ai follow-up e pazienti che sono (e siamo contenti!) vivi al termine dello studio.

Queste due situazioni danno origine ad osservazioni incomplete (chiamate formalmente segmenti incompleti o dati censored, ossia troncati) che non ci consentirebbero di misurare con esattezza il tasso di sopravvivenza dei pazienti affetti da cancro al polmone.

Lo so, ho appena usato il condizionale “consentirebbero”. Come avrai modo di vedere nei post relativi al modello di Cox e alla curva Kaplan-Meier anche per i dati censored la statistica ci da opportuni strumenti per il controllo dei bias.

Tipologia di dati censored

Parlando di dati censored, nella survival analysis si distingue tra dati troncati a destra, a sinistra e ad intervalli.

Sempre usando come esempio il campione di pazienti con tumore al polmone, i dati troncati a destra sono dati relativi a pazienti per i quali non si conosce il tempo esatto di sopravvivenza in quanto o sono usciti nel corso dello studio per cause non relative alla malattia (e.g. rifiuto a cooperare, morte per causa non relativa alla malattia, …) o al momento dello studio sono vivi, dunque non si è verificato l’outcome di interesse. Si tratta dei dati più frequenti nelle survival analysis.

I dati troncati a sinistra sono meno comuni e sono relativi a quei pazienti che per i quali non è noto il tempo di inizio. Si pensi ad esempio il caso di insorgenza del diabete: il paziente potrebbe non ricordare la data esatta di quando la malattia è stata diagnosticata per la prima volta ed il dato non essere presente nella sua cartella clinica.

Infine i dati troncati ad intervalli si verificano quando il tempo dell’evento ricade all’interno di un intervallo di tempo senza specificazione del momento esatto. Si pensi ad esempio alle patologie con follow-up periodici: l’insorgenza di effetti collaterali viene riferita all’intervallo tra due follow-up consecutivi, ma senza specificazione del momento esatto.

Raccolta dati per l’analisi di sopravvivenza

Definiti i dati con i quali confrontarci, è giunta l’ora di iniziare a determinare la durata. Ebbene sì, anche qui i modi di reperimento dei dati incidono sulla tipologia di dati censored. A seconda di come selezioniamo il campione e determiniamo la variabile durata, l’analisi di sopravvivenza risente in termini di durata dello studio, di capacità predittiva e di accuratezza.

Metodo 1: aspettando la verifica dell’outcome

Il metodo più conveniente e anche più diffuso è quello che considera un campione randomizzato di pazienti con una specifica condizione (e.g. malattia tumorale). Da qui si procede all’identificazione della data di insorgenza della malattia (e.g. data biopsia) e si osserva in un determinato arco temporale (relativo allo studio) il verificarsi dell’outcome.

Si potrebbe anche condurre uno studio arruolando i pazienti al momento dell’inizio della malattia e seguirli fino alla verifica dell’outcome. Si tratta di una procedura sicuramente soddisfacente e completa, ma non sempre attuabile. In generale, la data di chiusura dello studio corrisponde con il momento di ultima informazione per tutti quei pazienti per i quali la condizione non si è verificata; in questo caso, la durata è calcolata dall’inizio della condizione fino alla fine dello studio. Per i pazienti che si “perdono” durante il follow-up, la data di ultimo follow-up eseguito rappresenta il termine ultimo. Nel caso di studio senza follow-up, l’ending point corrisponde al momento di chiusura dello studio.

Metodo 2: conoscere data di inizio e di verifica dell’outcome

Il secondo metodo è quello di raccogliere i dati di sopravvivenza relativi ad un campione (anche non random) per il quale si conoscono le date di inizio e fine. Metodo apparentemente semplice, ma … provate a metterlo in atto su un vostro campione. Scoprirete che non è così immediato disporre di questi dati per un campione statisticamente significativo.

Metodo 3: conoscere data outcome e procedere a ritroso

Un’ulteriore metodologia è data dalla possibilità di considerare un campione randomizzato per il quale si conosce la data di verifica dell’outcome; procedendo a ritroso, si va a determinare quando si è verificata la condizione (e.g. data di inizio malattia). Questa è una procedura utile in caso di studi quali l’Alzheimer. Il grande vantaggio è la mancanza di dati censored.

Metodi di statistica descrittiva

Raccolti i dati, è giunta l’ora di presentare le statistiche descrittive. Partiamo subito da un’informazione: i dati sopravvivenza non amano la distribuzione normale, per cui la media è altamente sconsigliata.

Il problema di calcolo delle principali statistiche descrittive aumenta in modo significativo se consideriamo i dati censored. Se ignorassimo le informazioni per quei pazienti con segmenti incompleti, la media sarebbe inesatta e distorta. I casi censored potrebbero essere dovuti ad una precisa causa o ad una specifica differenza rispetto agli altri. Nel caso in cui questi dati fossero inclusi considerando come ending point il momento di troncamento, la media sarebbe sottostimata.

Dunque, meglio e più opportuno ricorrere alla mediana: non è esente da bias, ma sicuramente è migliore della media in quanto non risente delle asimmetrie.

Metodo molto appropriato è quello di accompagnare la statistica descrittiva con dati relativi al tasso di sopravvivenza entro un certo periodo, ad esempio cinque anni. Questo valore può essere aggiustato in presenza di dati censored e, aggiungo, è il parametro più usato per gli studi di sopravvivenza. Per la sua determinazione vedi Kaplan-Meier.

Conclusione

La sopravvivenza rappresenta uno degli argomenti più importanti della statistica medica. Occupandosi del tempo tra due eventi importanti, serve per indagare la probabilità di verifica di un evento nel tempo (time-to-event). In analisi di questo tipo, la sopravvivenza non è una variabile dicotomica, ma è una variabile continua che, a differenza di tante altre comuni variabili della statistica medica, non si distribuisce normalmente nella maggior parte dei casi. Sebbene questo possa apparire la problematica più significativa, essa è però la minore. La presenza di dati censored è sicuramente di maggior importanza. Non è possibili eliminarli e non è possibile non tenerne conto in quanto modifiche in tal senso producono bias si dalla principali statistiche descrittive.

Marilù Garo

Ciao, sono Marilù Garo. Mathsly è uno studio di consulenza statistica e matematica, il cui scopo è elaborare analisi statistiche e fornire assistenza e supporto statistico per gli studi di ricerca e pubblicazioni scientifiche. Periodicamente il sito pubblica guide e articoli per spiegare gli aspetti più interessanti della statistica medica, della ricerca medica, dell'econometria ed in generale della ricerca scientifica. Puoi trovare informazioni sui principali indici statistici (e.g. media, mediana, deviazione standard, ...) e sugli strumenti più idonei a dimostrare le ipotesi di ricerca e a capire molti concetti statistici (e.g. p-value, regressioni, sensibilità, specificità, ...). Pubblico regolarmente articoli in biostatistica, econometria, statistica medica, ed in molti altri settori di applicazione della matematica e della statistica e, più in generale, nella ricerca scientifica. Se preferisci "far fare" ad uno professionista, sono la persona giusta per te. Posso aiutarti ad elaborare i dati e la tua analisi statistica, anche nel caso ti servisse per pubblicazione scientifica sulle riviste più importanti del tuo settore di ricerca. Le mie conoscenze nell'ambito statistico e matematico mi permettono di portare avanti collaborazioni continuative con università e centri ricerca, italiani ed internazionali. Puoi visionare alcune delle pubblicazioni scientifiche quale co-autore nella pagina "Le mie pubblicazioni" o scorrere le recensioni dei clienti con i quali ho collaborato. Inoltre, grazie all'esperienza acquisita nel campo della ricerca, posso aiutarti nellastesura e/o correzione del tuo testo scientifico, anche in inglese, o a scrivere il protocollo di ricerca per il tuo studio. Ti invito ad esplorare il mio sito e a scoprire in quanti modi posso aiutarti nel tuo lavoro di ricerca.

Come eseguire la randomizzazione per un RCT

31 Luglio 2020

Survival Analysis e Kaplan-Meier: la curva di sopravvivenza

5 Agosto 2020

Cookie	Durata	Descrizione
cookielawinfo-checkbox-analytics	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Analytics".
cookielawinfo-checkbox-functional	11 months	The cookie is set by GDPR cookie consent to record the user consent for the cookies in the category "Functional".
cookielawinfo-checkbox-necessary	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookies is used to store the user consent for the cookies in the category "Necessary".
cookielawinfo-checkbox-others	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Other.
cookielawinfo-checkbox-performance	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Performance".
viewed_cookie_policy	11 months	The cookie is set by the GDPR Cookie Consent plugin and is used to store whether or not user has consented to the use of cookies. It does not store any personal data.

The Latest

Controllo statistico della qualità e breve intro su Six Sigma

Henrietta Lacks: etica e scienza

Interrupted Time Series: un approccio per quasi-experimental studies

Paradosso di Simpson: scambiare lucciole per lanterne

Analisi di sopravvivenza: tipologia di dati e metodi di raccolta

Indice Show

Concetto di sopravvivenza in statistica

Definire la durata nell’analisi di sopravvivenza

Starting point: l’inizio del conteggio

Outcome: l’evento determinante

I dati per l’analisi di sopravvivenza

Tipologia di dati censored

Raccolta dati per l’analisi di sopravvivenza

Metodo 1: aspettando la verifica dell’outcome

Metodo 2: conoscere data di inizio e di verifica dell’outcome

Metodo 3: conoscere data outcome e procedere a ritroso

Metodi di statistica descrittiva

Conclusione

Come eseguire la randomizzazione per un RCT

Survival Analysis e Kaplan-Meier: la curva di sopravvivenza

Controllo statistico della qualità e breve intro su Six Sigma

Henrietta Lacks: etica e scienza

Analisi di sopravvivenza: tipologia di dati e metodi di raccolta

Indice Show

Concetto di sopravvivenza in statistica

Definire la durata nell’analisi di sopravvivenza

Starting point: l’inizio del conteggio

Outcome: l’evento determinante

I dati per l’analisi di sopravvivenza

Tipologia di dati censored

Raccolta dati per l’analisi di sopravvivenza

Metodo 1: aspettando la verifica dell’outcome

Metodo 2: conoscere data di inizio e di verifica dell’outcome

Metodo 3: conoscere data outcome e procedere a ritroso

Metodi di statistica descrittiva

Conclusione

Come eseguire la randomizzazione per un RCT

Survival Analysis e Kaplan-Meier: la curva di sopravvivenza

Related Posts

Cookies Policy