5 Maggio 2019

3 minute read

Come calcolare il coefficiente di correlazione

5 Maggio 2019

Indice Show

Uno degli argomenti maggiormente affrontati in statistica è la correlazione. In molti studi, specialmente quelli nel campo medico, la correlazione ricorre come il punto di arrivo delle ipotesi di ricerca. Quando si dimostra che c’è una correlazione tra due variabili, l’ipotesi di ricerca è spesso già dimostrata. Nel campo economico, la correlazione è al contrario, il punto di partenza dell’analisi, in quanto serve per comprendere la forza tra due variabili e per identificare possibili origini di collinearità tra le stesse. Prima di effettuare una regressione multilineare è sempre buona pratica osservare le correlazioni. Ma cos’è una correlazione? In questo articolo, ti illustrerò in modo molto semplice ed immediato, tutto ciò che può esserti utile per comprendere il significato della correlazione.

Definizione di correlazione

Tecnicamente la correlazione è definita come quello strumento statistico che permette di identificare il tipo di relazione intercorrente tra due variabili, x e y, indipendentemente dal verso della relazione stessa. Più specificatamente, essa ci permette di capire se un’associazione tra variabili è positiva, negativa o nulla. Il termine correlazione è spesso confuso con relazione, ma ciò è errato (vedi articolo dedicato alla Differenza tra regressione/relazione e correlazione, spiegata mediante un paragone).

Affermare che due variabili c’è una correlazione significa che tra di esse, al variare dell’una si osserva una variazione dell’altra. Questo comporta che se una correlazione è positiva, osserveremo come al crescere (o al diminuire) dei valori di una variabile, si osserverà una crescita (o una diminuzione) dei valori dell’altra. In maniera similare, quando una correlazione è negativa, allora al crescere (o al diminuire) di una variabile, si osserverà una diminuzione (o una crescita) dell’altra. Esiste un terzo caso di correlazione, ossia quello relativo alla correlazione nulla; esso si verifica quando non vi è alcun tipo di relazione tra le due variabili e dunque non è possibile osservare alcuna reciproca influenza tra di esse.

Come capire il tipo di correlazione esistente tra due variabili?

Per rispondere a questa domanda, è possibile ricorrere a due metodologie: una prettamente matematica e l’altra grafica. Quella matematica, prende il nome di correlazione di Pearson (esistono delle varianti a seconda del tipo di dati), è si calcola con la seguente formula:

[latex]r=\frac{SP_{xy}}{\sqrt{SS_{x}\cdot SS_{y}}}[/latex]

Al denominatore troviamo la radice quadrata delle due somme dei termini quadratici:

[latex]SS_{x}=\sum \left ( x-x^{2} \right )=\sum x^{2}-\frac{\left ( \sum x \right )^{2}}{n}[/latex]

[latex]SS_{y}=\sum \left ( y-y^{2} \right )=\sum y^{2}-\frac{\left ( \sum y \right )^{2}}{n}[/latex]

Al numeratore è invece presente la somma dei prodotti, la cui formula è:

[latex]SP_{xy}=\sum \left ( x-\bar{x} \right )\left ( y-\bar{y} \right )=\sum xy-\frac{\left ( \sum x \right )\left ( \sum y \right )}{n}[/latex]

Scatterplot

Il metodo grafico fa uso dello scatterplot, strumento statistico maggiormente adatto a rappresentare l’associazione tra due variabili e consistente in un grafico contenente un gruppo di punti, che rappresentano le coppie ordinate di dati. Date due variabili, x e y, lo scatterplot è l’insieme dei punti del piano identificati utilizzando quale prima coordinata i valori di x e quale seconda coordinata i valori di y, così che, all’aumentare delle osservazioni, venga a comporsi una “nuvola” di punti che si orienta nel piano cartesiano seguendo una certa linea di tendenza.

Nella Figura 1 puoi notare come i punti dello scatterplot – costruito utilizzando i valori di due generiche variabili, x ed y – tendono a disporsi lungo una linea retta che si muove da sinistra verso destro e dal basso verso l’alto. Questa tendenza significa che al crescere dei valori di x si ha una crescita dei valori di y, così che possiamo affermare che a valori relativamente bassi di x corrispondano valori relativamente bassi di y e che a valori relativamente alti di x corrispondano valori relativamente alti di y.

Analogamente, osservando la Figura 2 si osserva che i punti si distribuiscono in modo inversamente proporzionale (ossia secondo una linea di tendenza che va dall’alto verso il basso); ciò significa che a valori relativamente bassi di x corrispondano valori relativamente alti di y e che a valori relativamente alti di x corrispondano valori relativamente bassi di y.

L’assenza di associazione – Figura 3 – mostra come i punti dello scatterplot si distribuiscano in modo omogeneo in tutto il grafico senza evidenziare alcun tipo di tendenza.

Conclusioni

La correlazione è un meraviglioso strumento statistico per rispondere a tante domande di ricerca. Quando correttamente utilizzato è in grado di dare informazioni dettagliate ed utili per indirizzare il lavoro di ricerca. Deve essere utilizzata in modo opportuno e non deve essere sopravvalutata nelle sue capacità predittive. Sebbene esprima un’associazione tra variabili, essa resta tuttavia un strumento non indicativo della causa-effetto tra esse.

Marilù Garo

Ciao, sono Marilù Garo. Mathsly è uno studio di consulenza statistica e matematica, il cui scopo è elaborare analisi statistiche e fornire assistenza e supporto statistico per gli studi di ricerca e pubblicazioni scientifiche. Periodicamente il sito pubblica guide e articoli per spiegare gli aspetti più interessanti della statistica medica, della ricerca medica, dell'econometria ed in generale della ricerca scientifica. Puoi trovare informazioni sui principali indici statistici (e.g. media, mediana, deviazione standard, ...) e sugli strumenti più idonei a dimostrare le ipotesi di ricerca e a capire molti concetti statistici (e.g. p-value, regressioni, sensibilità, specificità, ...). Pubblico regolarmente articoli in biostatistica, econometria, statistica medica, ed in molti altri settori di applicazione della matematica e della statistica e, più in generale, nella ricerca scientifica. Se preferisci "far fare" ad uno professionista, sono la persona giusta per te. Posso aiutarti ad elaborare i dati e la tua analisi statistica, anche nel caso ti servisse per pubblicazione scientifica sulle riviste più importanti del tuo settore di ricerca. Le mie conoscenze nell'ambito statistico e matematico mi permettono di portare avanti collaborazioni continuative con università e centri ricerca, italiani ed internazionali. Puoi visionare alcune delle pubblicazioni scientifiche quale co-autore nella pagina "Le mie pubblicazioni" o scorrere le recensioni dei clienti con i quali ho collaborato. Inoltre, grazie all'esperienza acquisita nel campo della ricerca, posso aiutarti nellastesura e/o correzione del tuo testo scientifico, anche in inglese, o a scrivere il protocollo di ricerca per il tuo studio. Ti invito ad esplorare il mio sito e a scoprire in quanti modi posso aiutarti nel tuo lavoro di ricerca.

L'evento raro diventa certo: in volo con Sully e Jeffrey.

21 Gennaio 2019

Come si calcola il coefficiente di determinazione: R quadro (R2)

16 Maggio 2019

Statistica

73 Posts

View Posts

Statistica medica

40 Posts

View Posts

Ricerca Scientifica

37 Posts

View Posts

Econometria

17 Posts

View Posts

Cookie	Durata	Descrizione
cookielawinfo-checkbox-analytics	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Analytics".
cookielawinfo-checkbox-functional	11 months	The cookie is set by GDPR cookie consent to record the user consent for the cookies in the category "Functional".
cookielawinfo-checkbox-necessary	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookies is used to store the user consent for the cookies in the category "Necessary".
cookielawinfo-checkbox-others	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Other.
cookielawinfo-checkbox-performance	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Performance".
viewed_cookie_policy	11 months	The cookie is set by the GDPR Cookie Consent plugin and is used to store whether or not user has consented to the use of cookies. It does not store any personal data.

The Latest

Controllo statistico della qualità e breve intro su Six Sigma

Henrietta Lacks: etica e scienza

Interrupted Time Series: un approccio per quasi-experimental studies

Paradosso di Simpson: scambiare lucciole per lanterne

Come calcolare il coefficiente di correlazione

Indice Show

Definizione di correlazione

Come capire il tipo di correlazione esistente tra due variabili?

Scatterplot

Conclusioni

L'evento raro diventa certo: in volo con Sully e Jeffrey.

Come si calcola il coefficiente di determinazione: R quadro (R2)

Controllo statistico della qualità e breve intro su Six Sigma

Henrietta Lacks: etica e scienza

Come calcolare il coefficiente di correlazione

Indice Show

Definizione di correlazione

Come capire il tipo di correlazione esistente tra due variabili?

Scatterplot

Conclusioni

L'evento raro diventa certo: in volo con Sully e Jeffrey.

Come si calcola il coefficiente di determinazione: R quadro (R2)

Related Posts

Cookies Policy