5.3 Medidas de ajuste
Después de ajustar un modelo de regresión lineal, una pregunta natural es qué tan bien describe el modelo los datos. Visualmente, esto equivale a evaluar si las observaciones están estrechamente agrupadas alrededor de la línea de regresión. Tanto el coeficiente de determinación como el error estándar de la regresión miden qué tan bien se ajusta la línea de regresión MCO a los datos.
El coeficiente de determinación
\(R^2\), el coeficiente de determinación, es la fracción de la varianza muestral de \(Y_i\) que se explica por \(X_i\). Matemáticamente, \(R^2\) se puede escribir como la razón entre la suma de cuadrados explicada y la suma total de cuadrados. La suma de cuadrados explicada (\(SCE\)) es la suma de las desviaciones cuadradas de los valores predichos \(\hat{Y_i}\), del promedio de \(Y_i\). La suma total de cuadrados (\(STC\)) es la suma de las desviaciones cuadradas de \(Y_i\) de su promedio. Así se tiene:
\[\begin{align} SCE & = \sum_{i = 1}^n \left( \hat{Y_i} - \overline{Y} \right)^2, \\ STC & = \sum_{i = 1}^n \left( Y_i - \overline{Y} \right)^2, \\ R^2 & = \frac{SCE}{STC}. \end{align}\]
Como \(STC = SCE + SRC\) también se puede escribir como:
\[ R^2 = 1- \frac{SRC}{STC} \]
donde \(SRC\) es la suma de los residuos al cuadrado, una medida de los errores cometidos al predecir \(Y\) por \(X\). La \(SRC\) se define como
\[ SRC = \sum_{i=1}^n \hat{u}_i^2. \]
\(R^2\) se encuentra entre \(0\) y \(1\). Es fácil ver que un ajuste perfecto; es decir, que no se cometan errores al ajustar la línea de regresión, implica \(R^2 = 1\) ya que entonces se tiene \(SRC = 0\). Por el contrario, si nuestra línea de regresión estimada no explica ninguna variación en \(Y_i\), se tiene \(SCE = 0\) y, en consecuencia, \(R^2 = 0\).
El error estándar de la regresión
El error estándar de la regresión (\(EER\)) es un estimador de la desviación estándar de los residuos \(\hat{u}_i\). Como tal, mide la magnitud de una desviación típica de la línea de regresión; es decir, la magnitud de un residuo típico.
\[ SER = s_{\hat{u}} = \sqrt{s_{\hat{u}}^2} \ \ \ \text{donde} \ \ \ s_{\hat{u} }^2 = \frac{1}{n-2} \sum_{i = 1}^n \hat{u}^2_i = \frac{SSR}{n - 2} \]
Se debe recordar que los \(u_i\) son no observados. Es por eso que se usan sus contrapartes estimadas, los residuos \(\hat{u}_i\), en su lugar. El error estándar de la regresión \(EER\) es el valor que muestra la diferencia entre los valores reales y los estimados de una regresión. Es utilizado para valorar si existe una correlación entre la regresión y los valores medidos. Muchos autores prefieren este dato a otros como el coeficiente de correlación lineal, ya que el error estándar se mide en las mismas unidades que los valores que se estudian.
Aplicación a los datos de la prueba de puntuación
Ambas medidas de ajuste se pueden obtener utilizando la función summary() con un objeto lm proporcionado como único argumento. Mientras que la función lm() solo imprime los coeficientes estimados en la consola, summary() proporciona información adicional predefinida como \(R^2\) y \(EER\) de la regresión.
<- summary(linear_model)
mod_summary
mod_summary#>
#> Call:
#> lm(formula = score ~ STR, data = CASchools)
#>
#> Residuals:
#> Min 1Q Median 3Q Max
#> -47.727 -14.251 0.483 12.822 48.540
#>
#> Coefficients:
#> Estimate Std. Error t value Pr(>|t|)
#> (Intercept) 698.9329 9.4675 73.825 < 2e-16 ***
#> STR -2.2798 0.4798 -4.751 2.78e-06 ***
#> ---
#> Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
#>
#> Residual standard error: 18.58 on 418 degrees of freedom
#> Multiple R-squared: 0.05124, Adjusted R-squared: 0.04897
#> F-statistic: 22.58 on 1 and 418 DF, p-value: 2.783e-06
El \(R^2\) en la salida llama R cuadrada múltiple y tiene un valor de \(0.051\). Por tanto, \(5.1\%\) de la varianza de la variable dependiente \(score\) se explica por la variable explicativa \(STR\). Es decir, la regresión explica poco de la varianza en \(score\), y gran parte de la variación en los puntajes de las pruebas permanece sin explicación.
El \(EER\) se llama error estándar residual y equivale a \(18.58\). La unidad del \(EER\) es la misma que la unidad de la variable dependiente. Es decir, en promedio, la desviación del puntaje de prueba alcanzado real y la línea de regresión es de \(18.58\) puntos.
Ahora, se verifica si summary() usa las mismas definiciones para \(R^2\) y \(EER\) que se usan cuando se calculan manualmente.
# calcular R^2 manualmente
<- sum(mod_summary$residuals^2)
SSR <- sum((score - mean(score))^2)
STC <- 1 - SSR/STC
R2
# imprimir el valor en la consola
R2#> [1] 0.05124009
# calcular EER manualmente
<- nrow(CASchools)
n <- sqrt(SSR / (n-2))
EER
# imprimir el valor en la consola
EER#> [1] 18.58097
Se encuentra que los resultados coinciden. Se debe tener en cuenta que los valores proporcionados por summary() se redondean a dos lugares decimales.