7.3 Medidas de ajuste en regresión múltiple
En la regresión múltiple, las estadísticas de resumen comunes son \(SER\), \(R^2\) y el \(R^2\) ajustado.
Tomando el código de la Sección 7.2, simplemente se debe usar summary(mult.mod) para obtener \(SER\), \(R^2\) y ajustado \(R^2\). Para modelos de regresión múltiple, \(SER\) se calcula como
\[ SER = s_{\hat u} = \sqrt{s_{\hat u}^2} \]
donde modificar el denominador del factor premultiplicado en \(s_{\hat u}^2\) para acomodar regresores adicionales. Por lo tanto,
\[ s_{\hat u}^2 = \frac{1}{n-k-1} \, SSR \]
donde \(k\) denota el número de regresores excluyendo la intersección.
Si bien summary() calcula \(R^2\) como en el caso de un solo regresor, no es una medida confiable para modelos de regresión múltiple. Esto se debe a que \(R^2\) aumenta cada vez que se agrega un regresor adicional al modelo. Agregar un regresor disminuye el \(SSR\) — lo reduce a menos que el coeficiente estimado respectivo sea exactamente cero, lo que prácticamente nunca sucede. El \(R^2\) ajustado toma esto en consideración al “castigar” la adición de regresores usando un factor de corrección. Entonces, el \(R^2\) ajustado, o simplemente \(\bar{R}^2\), es una versión modificada de \(R^2\). Se define como
\[ \bar{R}^2 = 1-\frac{n-1}{n-k-1} \, \frac{SSR}{TSS}. \]
Como ya se habrá sospechado, summary() ajusta la fórmula para \(SER\) y calcular \(\bar{R}^2\) y, por supuesto, \(R^2\) por defecto, dejando así la decisión de qué medida confiar en el usuario.
Puede encontrar ambas medidas en la parte inferior de la salida generada llamando a summary(mult.mod).
summary(mult.mod)
#>
#> Call:
#> lm(formula = score ~ STR + english, data = CASchools)
#>
#> Residuals:
#> Min 1Q Median 3Q Max
#> -48.845 -10.240 -0.308 9.815 43.461
#>
#> Coefficients:
#> Estimate Std. Error t value Pr(>|t|)
#> (Intercept) 686.03224 7.41131 92.566 < 2e-16 ***
#> STR -1.10130 0.38028 -2.896 0.00398 **
#> english -0.64978 0.03934 -16.516 < 2e-16 ***
#> ---
#> Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
#>
#> Residual standard error: 14.46 on 417 degrees of freedom
#> Multiple R-squared: 0.4264, Adjusted R-squared: 0.4237
#> F-statistic: 155 on 2 and 417 DF, p-value: < 2.2e-16
También se pueden calcular las medidas a mano usando las fórmulas anteriores. Comprobando que los resultados coinciden con los valores proporcionados por summary().
# definir los componentes
<- nrow(CASchools) # número de observaciones (filas)
n <- 2 # número de regresores
k
<- mean(CASchools$score) # medida de la media de los resultados de las pruebas
y_mean
<- sum(residuals(mult.mod)^2) # suma de residuos cuadrados
SSR <- sum((CASchools$score - y_mean )^2) # suma total de cuadrados
TSS <- sum((fitted(mult.mod) - y_mean)^2) # suma explicada de cuadrados
ESS
# calcular las medidas
<- sqrt(1/(n-k-1) * SSR) # error estándar de la regresión
SER <- 1 - (SSR / TSS) # R^2
Rsq <- 1 - (n-1)/(n-k-1) * SSR/TSS # R^2 ajustada
adj_Rsq
# imprimir las medidas en la consola
c("SER" = SER, "R2" = Rsq, "Adj.R2" = adj_Rsq)
#> SER R2 Adj.R2
#> 14.4644831 0.4264315 0.4236805
Ahora, ¿qué se puede decir sobre el ajuste del modelo de regresión múltiple para los puntajes de las pruebas con el porcentaje de estudiantes de inglés como regresor adicional? ¿Mejora el modelo simple que incluye solo una intersección y una medida del tamaño de la clase? La respuesta es sí: Compare \(\bar{R}^2\) con el obtenido para el modelo de regresión simple mod.
Incluir \(PctEL\) como regresor mejora \(\bar{R}^2\), que se considera más confiable en vista de la discusión anterior. Se puede observar que la diferencia entre \(R^2\) y \(\bar{R}^2\) es pequeña ya que \(k = 2\) y \(n\) es grande. En resumen, el ajuste de (6.6) mejora enormemente el ajuste del modelo de regresión simple con \(STR\) como único regresor.
Al comparar los errores de regresión, se encuentra que la precisión del modelo de regresión múltiple (6.6) mejora el modelo simple, ya que agregar \(PctEL\) reduce el \(SER\) de \(18.6\) a \(14.5\) unidades de puntaje de prueba.
Como ya se mencionó, \(\bar{R}^2\) puede usarse para cuantificar qué tan bien un modelo se ajusta a los datos. Sin embargo, rara vez es una buena idea maximizar estas medidas llenando el modelo con regresores. No encontrará ningún estudio serio que lo haga. En cambio, es más útil incluir regresores que mejoren la estimación del efecto causal de interés que no se evalúa mediante los \(R^2\) del modelo. El tema de la selección de variables se trata en el Capítulo 9.