Il coefficiente di determinazione: quando l’R2 non basta

L’R2 è uno dei grandi protagonisti dell’analisi di regressione. Insieme all’errore standard descrive la capacità dello stimatore OLS di “adattarsi” ai dati. L’R2, o coefficiente di determinazione è sicuramente l’indicatore più apprezzato dai neofiti della statistica. Infatti si crede che più il suo valore è vicino ad 1, migliore è la nostra analisi di regressione. Ma è sempre vero? Scopriamolo insieme!

R2 perché è così importante?

grado di spiegare la variabilità della dipendente nei dati che stiamo analizzando.

Non esiste una definizione univoca di R2. Puoi infatti trovare diverse definizioni. Tutte però concordano sull’affermare che questo indicatore di bontà spiega quanto la regressione sia un buon modello per spiegare la variabilità dei dati.

Esso è dunque definibile come una proporzione (quindi con valori compresi tra 0 e 1) idonea a spiegare la variabilità di y – variabile dipendente – alla luce della variabilità di x – variabile indipendente – quando la relazione tra indipendente e dipendente è analizzata con un modello di regressione.

L’ultimo aspetto relativo al modello di regressione è particolarmente importante. Infatti, il coefficiente R2 ha senso unicamente all’interno di uno stimatore OLS (Ordinary Least Squares), anche noto come metodo dei minimi quadrati.

Ricordo che l’OLS è un metodo di stima in grado di individuare quella funzione che meglio descrive i nostri dati. In altre parole, lo stimatore OLS traccia una curva di regressione che passa il più vicino possibile a tutti i dati (rappresentati da punti nel piano cartesiano).

La funzione, che dà origine a tale curva, ha la caratteristica di ridurre (tecnicamente “minimizzare”) la somma dei quadrati delle distanze tra i dati osservati e quelli della curva che rappresenta la funzione stessa.

Quindi, più il valore di R2 si avvicina ad 1, migliore è la funzione stimata per rappresentare i dati.

L’R2 è sempre valido?

Alla luce di quanto detto sopra potrebbe sembrare che l’R2 sia uno stimatore idoneo a valutare la bontà del modello di regressione. Insomma, se trovo un R2 alto, significa che ho un buon modello? Purtroppo no!

Vi sono una serie di problematiche che impediscono di considerare il valore dell’R2 in modo assoluto. Alcuni di questi problemi sono superati con piccole correzioni, ma altri non sono superabili e possono rendere la regressione uno strumento distorto.

Più variabili esplicative, migliore R2?

Il primo fra tutti è quello relativo al numero di variabili esplicative. Se ad un modello si aggiungono più variabili esplicative, il valore del coefficiente di determinazione aumenta.

Ciò non significa che l’aggiunta di variabili migliora il modello, ma può significare che l’aumento di variabili ha diminuito le distanze tra dati osservati e retta di regressione, producendo un incremento dell’R2. In altre parole, l’aggiunta di variabili esplicative non ha migliorato la spiegazione della variabilità della y, ma ha semplice “nascosto” lo scostamento che c’è tra retta di regressione e dati osservati.

Per ovviare a tale problematica, si considera l’R2 aggiustato, ossia un coefficiente che tiene conto del numero di regressori del modello, ma questo ancora, non elimina i dubbi sulla validità della regressione.

Ma vi è di più. Un valore di R2 alto non significa che le variabili indipendenti siano le vere cause della variazione della variabile dipendente. Stock and Watson fanno un esempio molto calzante e divertente. In uno studio condotto nel loro testo, è emerso che l’area riservata agli studenti è correlata con il rapporto studenti/insegnanti, con la posizione della scuola (periferia o città) e con il reddito del distretto, tutti elementi correlati con il punteggio raggiunto nei test dai ragazzi.

Aumentando il numero di variabili indipendenti, il valore di R2 (o R2 aggiustato) aumenta, ma, come affermano gli autori, “Provate ad andare a dire al provveditore che per migliorare i punteggi bisogna ingrandire i parcheggi!”.

Meno variabili, migliore R2?

Dunque, sembrerebbe che un minor numero di variabili esplicative sia la soluzione ideale. Magari!

Anche avere troppe poche variabili aumenta il valore di R2. Ricordando quanto detto sopra, ossia che le variabili indipendenti possono non essere le vere cause, vale anche la regola contraria. Possiamo avere un problema da variabili omesse, ossia da variabili che influiscono sulla dipendente, ma che non sono state considerate nello studio, anche per la semplice difficoltà di misurarle!

Conclusione

Come hai visto, il tema del coefficiente di determinazione è molto scottante. Considerare questo indicatore in termini assoluti e dunque come il grande decisore della validità di un modello, è errato. La sua validità deve essere sempre comprovata da test che dimostrano che tutte le problematiche dette sopra, sono state esaminate e si è risposto in modo efficiente, così da escludere una loro influenza sulla validità del nostro modello.

Related Posts