Come calcolare il coefficiente di correlazione

Uno degli argomenti maggiormente affrontati in statistica è la correlazione. In molti studi, specialmente quelli nel campo medico, la correlazione ricorre come il punto di arrivo delle ipotesi di ricerca. Quando si dimostra che c’è una correlazione tra due variabili, l’ipotesi di ricerca è spesso già dimostrata. Nel campo economico, la correlazione è al contrario, il punto di partenza dell’analisi, in quanto serve per comprendere la forza tra due variabili e per identificare possibili origini di collinearità tra le stesse. Prima di effettuare una regressione multilineare è sempre buona pratica osservare le correlazioni. Ma cos’è una correlazione? In questo articolo, ti illustrerò in modo molto semplice ed immediato, tutto ciò che può esserti utile per comprendere il significato della correlazione.

Definizione di correlazione

Tecnicamente la correlazione è definita come quello strumento statistico che permette di identificare il tipo di relazione intercorrente tra due variabili, x e y, indipendentemente dal verso della relazione stessa. Più specificatamente, essa ci permette di capire se un’associazione tra variabili è positiva, negativa o nulla. Il termine correlazione è spesso confuso con relazione, ma ciò è errato (vedi articolo dedicato alla Differenza tra regressione/relazione e correlazione, spiegata mediante un paragone).

Affermare che due variabili c’è una correlazione significa che tra di esse, al variare dell’una si osserva una variazione dell’altra. Questo comporta che se una correlazione è positiva, osserveremo come al crescere (o al diminuire) dei valori di una variabile, si osserverà una crescita (o una diminuzione) dei valori dell’altra. In maniera similare, quando una correlazione è negativa, allora al crescere (o al diminuire) di una variabile, si osserverà una diminuzione (o una crescita) dell’altra. Esiste un terzo caso di correlazione, ossia quello relativo alla correlazione nulla; esso  si verifica quando non vi è alcun tipo di relazione tra le due variabili e dunque non è possibile osservare alcuna reciproca influenza tra di esse.

Come capire il tipo di correlazione esistente tra due variabili?

Per rispondere a questa domanda, è possibile ricorrere a due metodologie: una prettamente matematica e l’altra grafica. Quella matematica, prende il nome di correlazione di Pearson (esistono delle varianti a seconda del tipo di dati), è si calcola con la seguente formula:

[latex]r=\frac{SP_{xy}}{\sqrt{SS_{x}\cdot SS_{y}}}[/latex]

Al denominatore troviamo la radice quadrata delle due somme dei termini quadratici:

[latex]SS_{x}=\sum \left ( x-x^{2} \right )=\sum x^{2}-\frac{\left ( \sum x \right )^{2}}{n}[/latex]

[latex]SS_{y}=\sum \left ( y-y^{2} \right )=\sum y^{2}-\frac{\left ( \sum y \right )^{2}}{n}[/latex]

Al numeratore è invece presente la somma dei prodotti, la cui formula è:

[latex]SP_{xy}=\sum \left ( x-\bar{x} \right )\left ( y-\bar{y} \right )=\sum xy-\frac{\left ( \sum x \right )\left ( \sum y \right )}{n}[/latex]

Scatterplot

Il metodo grafico fa uso dello scatterplot, strumento statistico maggiormente adatto a rappresentare l’associazione tra due variabili e consistente in un grafico contenente un gruppo di punti, che rappresentano le coppie ordinate di dati. Date due variabili, x e y, lo scatterplot è l’insieme dei punti del piano identificati utilizzando quale prima coordinata i valori di x e quale seconda coordinata i valori di y, così che, all’aumentare delle osservazioni, venga a comporsi una “nuvola” di punti che si orienta nel piano cartesiano seguendo una certa linea di tendenza.

Nella Figura 1 puoi notare come i punti dello scatterplot – costruito utilizzando i valori di due generiche variabili, x ed y – tendono a disporsi lungo una linea retta che si muove da sinistra verso destro e dal basso verso l’alto. Questa tendenza significa che al crescere dei valori di x si ha una crescita dei valori di y, così che possiamo affermare che a valori relativamente bassi di x corrispondano valori relativamente bassi di y e che a valori relativamente alti di x corrispondano valori relativamente alti di y.

Analogamente, osservando la Figura 2 si osserva che i punti si distribuiscono in modo inversamente proporzionale (ossia secondo una linea di tendenza che va dall’alto verso il basso); ciò significa che a valori relativamente bassi di x corrispondano valori relativamente alti di y e che a valori relativamente alti di x corrispondano valori relativamente bassi di y.

L’assenza di associazione – Figura 3 – mostra come i punti dello scatterplot si distribuiscano in modo omogeneo in tutto il grafico senza evidenziare alcun tipo di tendenza.

Conclusioni

La correlazione è un meraviglioso strumento statistico per rispondere a tante domande di ricerca. Quando correttamente utilizzato è in grado di dare informazioni dettagliate ed utili per indirizzare il lavoro di ricerca. Deve essere utilizzata in modo opportuno e non deve essere sopravvalutata nelle sue capacità predittive. Sebbene esprima un’associazione tra variabili, essa resta tuttavia un strumento non indicativo della causa-effetto tra esse.

Torna in alto