Come si calcola il coefficiente di determinazione: R quadro (R2)

Riprendiamo in questo articolo il concetto di coefficiente di determinazione (vedi precedente post) imparando come si calcola l’R2. Innanzitutto precisiamo che il coefficiente è una delle due misure di bontà di adattamento dello stimatore OLS. Esso ha il compito di calcolare quanto la stima OLS della retta di regressione multipla è in grado di descrivere i dati. Nell’analisi di regressione esistono due forme di R2: quello classico e quello cd. “corretto”.

Definizione e calcolo R2

In termini statistici esso è dato dalla frazione della varianza campionari di yi predetta dai regressori xi. In formule matematiche esso è dato dal rapporto tra due somme di quadrati:

R2 = ESS/TSS

in cui ESS è la somma spiegata dei quadrati e TSS è la somma totale dei quadrati.

La somma spiegata dei quadrati (ESS) è data dalla somma delle differenze tra  i valori predetti di y e la media della stessa variabile dipendente.

La somma totale dei quadrati (TSS) è invece data dalla somma delle differenze tra i valori originari di y e la media della stessa variabile.


Hai notato la differenza tra le due somme? Rivedi le due definizioni ponendo attenzione alla due parti in grassetto.


La formula può essere migliorata prendendo in considerazione la somma dei quadrati dei residui SSR, per cui si ha che:

R2 = 1 – (SSR/TSS)

in cui SSR è la somma dei quadrati dei residui.

Definizione e calcolo R2 corretto

L’R2 corretto è una versione modificata dell’R2 classico ed è utilizzato per deflazionare l’R2 così che aggiungendo una variabile l’aumento del valore del coefficiente di determinazione sia realmente un miglioramento del modello di regressione e non un mero effetto numerico che sovrastima la bontà di adattamento. Il vantaggio dell’R2 corretto è che risente positivamente dell’aggiunta di un nuovo regressore solo quando questo consente un effettivo miglioramento del modello. Ciò è possibile grazie alla sua formulazione matematica:

R2 adj = 1 – ((n-1/n-k-1) · (SSR/TSS))

in cui n è la numerosità campionaria e k è il numero dei regressori.

Perché utilizzare la forma corretta (nota come adjusted?

Abbiamo detto che il coefficiente di determinazione nella forma “corretta” consente di avere una bontà di adattamento del modello che sia non inflazionata dal numero dei regressori utilizzati. Tale evidenza discende dalla stessa formulazione matematica:

  • il rapporto (n-1)/(n-k-1) è sempre maggiore di 1 e questo fa sì che l’R2 corretto sia sempre minore dell’R2 classico;
  • aggiungendo un regressore vie è una diminuzione di SSR ed un aumento del rapporto (n-1)/(n-k-1).
Previous Article

Come calcolare il coefficiente di correlazione

Next Article

Biostatistica e medicina

Related Posts