5.3 Medidas de ajuste

Después de ajustar un modelo de regresión lineal, una pregunta natural es qué tan bien describe el modelo los datos. Visualmente, esto equivale a evaluar si las observaciones están estrechamente agrupadas alrededor de la línea de regresión. Tanto el coeficiente de determinación como el error estándar de la regresión miden qué tan bien se ajusta la línea de regresión MCO a los datos.

El coeficiente de determinación

R2, el coeficiente de determinación, es la fracción de la varianza muestral de Yi que se explica por Xi. Matemáticamente, R2 se puede escribir como la razón entre la suma de cuadrados explicada y la suma total de cuadrados. La suma de cuadrados explicada (SCE) es la suma de las desviaciones cuadradas de los valores predichos Yi^, del promedio de Yi. La suma total de cuadrados (STC) es la suma de las desviaciones cuadradas de Yi de su promedio. Así se tiene:

SCE=i=1n(Yi^Y¯)2,STC=i=1n(YiY¯)2,R2=SCESTC.

Como STC=SCE+SRC también se puede escribir como:

R2=1SRCSTC

donde SRC es la suma de los residuos al cuadrado, una medida de los errores cometidos al predecir Y por X. La SRC se define como

SRC=i=1nu^i2.

R2 se encuentra entre 0 y 1. Es fácil ver que un ajuste perfecto; es decir, que no se cometan errores al ajustar la línea de regresión, implica R2=1 ya que entonces se tiene SRC=0. Por el contrario, si nuestra línea de regresión estimada no explica ninguna variación en Yi, se tiene SCE=0 y, en consecuencia, R2=0.

El error estándar de la regresión

El error estándar de la regresión (EER) es un estimador de la desviación estándar de los residuos u^i. Como tal, mide la magnitud de una desviación típica de la línea de regresión; es decir, la magnitud de un residuo típico.

SER=su^=su^2   donde   su^2=1n2i=1nu^i2=SSRn2

Se debe recordar que los ui son no observados. Es por eso que se usan sus contrapartes estimadas, los residuos u^i, en su lugar. El error estándar de la regresión EER es el valor que muestra la diferencia entre los valores reales y los estimados de una regresión. Es utilizado para valorar si existe una correlación entre la regresión y los valores medidos. Muchos autores prefieren este dato a otros como el coeficiente de correlación lineal, ya que el error estándar se mide en las mismas unidades que los valores que se estudian.

Aplicación a los datos de la prueba de puntuación

Ambas medidas de ajuste se pueden obtener utilizando la función summary() con un objeto lm proporcionado como único argumento. Mientras que la función lm() solo imprime los coeficientes estimados en la consola, summary() proporciona información adicional predefinida como R2 y EER de la regresión.

mod_summary <- summary(linear_model)
mod_summary
#> 
#> Call:
#> lm(formula = score ~ STR, data = CASchools)
#> 
#> Residuals:
#>     Min      1Q  Median      3Q     Max 
#> -47.727 -14.251   0.483  12.822  48.540 
#> 
#> Coefficients:
#>             Estimate Std. Error t value Pr(>|t|)    
#> (Intercept) 698.9329     9.4675  73.825  < 2e-16 ***
#> STR          -2.2798     0.4798  -4.751 2.78e-06 ***
#> ---
#> Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
#> 
#> Residual standard error: 18.58 on 418 degrees of freedom
#> Multiple R-squared:  0.05124,    Adjusted R-squared:  0.04897 
#> F-statistic: 22.58 on 1 and 418 DF,  p-value: 2.783e-06

El R2 en la salida llama R cuadrada múltiple y tiene un valor de 0.051. Por tanto, 5.1% de la varianza de la variable dependiente score se explica por la variable explicativa STR. Es decir, la regresión explica poco de la varianza en score, y gran parte de la variación en los puntajes de las pruebas permanece sin explicación.

El EER se llama error estándar residual y equivale a 18.58. La unidad del EER es la misma que la unidad de la variable dependiente. Es decir, en promedio, la desviación del puntaje de prueba alcanzado real y la línea de regresión es de 18.58 puntos.

Ahora, se verifica si summary() usa las mismas definiciones para R2 y EER que se usan cuando se calculan manualmente.

# calcular R^2 manualmente
SSR <- sum(mod_summary$residuals^2)
STC <- sum((score - mean(score))^2)
R2 <- 1 - SSR/STC

# imprimir el valor en la consola
R2
#> [1] 0.05124009

# calcular EER manualmente
n <- nrow(CASchools)
EER <- sqrt(SSR / (n-2))

# imprimir el valor en la consola
EER
#> [1] 18.58097

Se encuentra que los resultados coinciden. Se debe tener en cuenta que los valores proporcionados por summary() se redondean a dos lugares decimales.