Come determinare la significatività della correlazione di Pearson

Il coefficiente di correlazione è uno degli strumenti statistici maggiormente usati in studi di ricerca nel campo medico ed economico. L’immediatezza della sua lettura e la possibilità di calcolo automatico in molti software (Excel incluso) lo rendono un grande protagonista delle analisi statistiche. In questo breve articolo, ripasserai velocemente i punti essenziali della correlazione di Pearson ed imparerai a calcolare la significatività statistica del coefficiente.

Definizione di coefficiente di correlazione

Il coefficiente di correlazione è un numero il quale descrive la relazione lineare tra una coppia di variabili. Il coefficiente di correlazione utilizzato normalmente e quello più noto, è il coefficiente di correlazione di Pearson, dal nome dello scienziato inglese Karl Pearson. Esso si indica di norma con la lettera “r” e può assumere valori compresi nell’intervallo -1.00 e +1.00. 

Come si legge il coefficiente di correlazione di Pearson

Il segno è una parte fondamentale del coefficiente in quanto descrive il tipo di relazione tra le due variabili:

  1. se il segno è “-“ significa che vi è una relazione negativa, ossia al crescere di una variabile si ha una diminuzione dell’altra;
  2. se il segno è “+” significa che vi è una relazione positiva, ossia al crescere di una variabile si ha un aumento dell’altra.

Il numero che caratterizza il coefficiente di correlazione indica la forza della relazione lineare. La relazione è debole quando il valore del coefficiente è prossimo a zero, mentre è forte quando esso supera in valore assoluto lo 0.70. I valori intermedi tra 0.20 e 0.70 indicano una correlazione moderata. 

Come si calcola il coefficiente di correlazione di Pearson

Per calcolare il coefficiente di correlazione tra X e Y è sufficiente applicare una semplicissima formula, eccola di seguito:

\[r=\frac{SP_{xy}}{\sqrt{SS_x\cdot SS_y}}\]

in cui:

\[SS_x=\sum=X^2-\frac{( \sum X)^2}{n}\] \[SS_y=\sum=Y^2-\frac{( \sum Y)^2}{n}\] \[SP_{xy}=\sum XY – \frac{( \sum X)( \sum Y)}{n}\]

Per ulteriori approfondimenti anche sugli scatterplot, vedi l’articolo dedicato.

Come si interpreta il coefficiente di correlazione di Pearson

Da definizione sappiamo che il coefficiente di correlazione di Pearson è un numero che esprime la relazione lineare tra due variabili. Ciò significa che la relazione che il coefficiente può esprimere è solo di tipo lineare. Ma vi è di più. Tale relazione è una relazione di tipo numerico, una tendenza che non definisce la causa-effetto tra due variabili. Dunque non è possibile leggere la correlazione “dato X allora Y”. Per giungere a tale conclusione anche in presenza di un coefficiente di correlazione lineare elevato è necessario effettuare delle analisi di approfondimento per capire se l’ipotesi di causa-effetto è concreta nel campo di indagine o meno.

Test statistico per il coefficiente di correlazione

Anche per il coefficiente “r” è possibile eseguire un test statistico per capire se la relazione lineare è significativa. In questo caso l’ipotesi nulla afferma che non c’è relazione lineare (ρ, coefficiente di correlazione della popolazione pari a 0). Il test per la verifica usa la seguente formulazione:

\[t=\frac{r-\rho}{\sqrt{\frac{1-r^2}{n-2}}}\]

Ad un livello di significatività di 0.05 (p < 0.05), il valore critico di t è 2.1788. Se t è maggiore di 2.1788 allora l’ipotesi nulla va rifiutata e si può affermare che c’è evidenza statistica di una relazione lineare tra la variabile X e Y.

La correlazione nel mondo reale

Il coefficiente di correlazione è un componente essenziale per spiegare la realtà che ci circonda. Attraverso di esso si definiscono le relazioni primarie tra variabili, una sorta di legante tra stelle dello stesso universo. Permette di comprendere come l’andamento di una variabile possa essere “disturbato” dalla presenza di un’altra variabile, seppur non definendo relazioni di causa-effetto. 

Torna in alto