7.3 Medidas de ajuste en regresión múltiple

En la regresión múltiple, las estadísticas de resumen comunes son \(SER\), \(R^2\) y el \(R^2\) ajustado.

Tomando el código de la Sección 7.2, simplemente se debe usar summary(mult.mod) para obtener \(SER\), \(R^2\) y ajustado \(R^2\). Para modelos de regresión múltiple, \(SER\) se calcula como

\[ SER = s_{\hat u} = \sqrt{s_{\hat u}^2} \]

donde modificar el denominador del factor premultiplicado en \(s_{\hat u}^2\) para acomodar regresores adicionales. Por lo tanto,

\[ s_{\hat u}^2 = \frac{1}{n-k-1} \, SSR \]

donde \(k\) denota el número de regresores excluyendo la intersección.

Si bien summary() calcula \(R^2\) como en el caso de un solo regresor, no es una medida confiable para modelos de regresión múltiple. Esto se debe a que \(R^2\) aumenta cada vez que se agrega un regresor adicional al modelo. Agregar un regresor disminuye el \(SSR\) — lo reduce a menos que el coeficiente estimado respectivo sea exactamente cero, lo que prácticamente nunca sucede. El \(R^2\) ajustado toma esto en consideración al “castigar” la adición de regresores usando un factor de corrección. Entonces, el \(R^2\) ajustado, o simplemente \(\bar{R}^2\), es una versión modificada de \(R^2\). Se define como

\[ \bar{R}^2 = 1-\frac{n-1}{n-k-1} \, \frac{SSR}{TSS}. \]

Como ya se habrá sospechado, summary() ajusta la fórmula para \(SER\) y calcular \(\bar{R}^2\) y, por supuesto, \(R^2\) por defecto, dejando así la decisión de qué medida confiar en el usuario.

Puede encontrar ambas medidas en la parte inferior de la salida generada llamando a summary(mult.mod).

summary(mult.mod)
#> 
#> Call:
#> lm(formula = score ~ STR + english, data = CASchools)
#> 
#> Residuals:
#>     Min      1Q  Median      3Q     Max 
#> -48.845 -10.240  -0.308   9.815  43.461 
#> 
#> Coefficients:
#>              Estimate Std. Error t value Pr(>|t|)    
#> (Intercept) 686.03224    7.41131  92.566  < 2e-16 ***
#> STR          -1.10130    0.38028  -2.896  0.00398 ** 
#> english      -0.64978    0.03934 -16.516  < 2e-16 ***
#> ---
#> Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
#> 
#> Residual standard error: 14.46 on 417 degrees of freedom
#> Multiple R-squared:  0.4264, Adjusted R-squared:  0.4237 
#> F-statistic:   155 on 2 and 417 DF,  p-value: < 2.2e-16

También se pueden calcular las medidas a mano usando las fórmulas anteriores. Comprobando que los resultados coinciden con los valores proporcionados por summary().

# definir los componentes
n <- nrow(CASchools)                            # número de observaciones (filas)
k <- 2                                          # número de regresores

y_mean <- mean(CASchools$score)                 # medida de la media de los resultados de las pruebas

SSR <- sum(residuals(mult.mod)^2)               # suma de residuos cuadrados
TSS <- sum((CASchools$score - y_mean )^2)       # suma total de cuadrados
ESS <- sum((fitted(mult.mod) - y_mean)^2)       # suma explicada de cuadrados

# calcular las medidas

SER <- sqrt(1/(n-k-1) * SSR)                    # error estándar de la regresión
Rsq <- 1 - (SSR / TSS)                          # R^2
adj_Rsq <- 1 - (n-1)/(n-k-1) * SSR/TSS          # R^2 ajustada

# imprimir las medidas en la consola
c("SER" = SER, "R2" = Rsq, "Adj.R2" = adj_Rsq)
#>        SER         R2     Adj.R2 
#> 14.4644831  0.4264315  0.4236805

Ahora, ¿qué se puede decir sobre el ajuste del modelo de regresión múltiple para los puntajes de las pruebas con el porcentaje de estudiantes de inglés como regresor adicional? ¿Mejora el modelo simple que incluye solo una intersección y una medida del tamaño de la clase? La respuesta es sí: Compare \(\bar{R}^2\) con el obtenido para el modelo de regresión simple mod.

Incluir \(PctEL\) como regresor mejora \(\bar{R}^2\), que se considera más confiable en vista de la discusión anterior. Se puede observar que la diferencia entre \(R^2\) y \(\bar{R}^2\) es pequeña ya que \(k = 2\) y \(n\) es grande. En resumen, el ajuste de (6.6) mejora enormemente el ajuste del modelo de regresión simple con \(STR\) como único regresor.

Al comparar los errores de regresión, se encuentra que la precisión del modelo de regresión múltiple (6.6) mejora el modelo simple, ya que agregar \(PctEL\) reduce el \(SER\) de \(18.6\) a \(14.5\) unidades de puntaje de prueba.

Como ya se mencionó, \(\bar{R}^2\) puede usarse para cuantificar qué tan bien un modelo se ajusta a los datos. Sin embargo, rara vez es una buena idea maximizar estas medidas llenando el modelo con regresores. No encontrará ningún estudio serio que lo haga. En cambio, es más útil incluir regresores que mejoren la estimación del efecto causal de interés que no se evalúa mediante los \(R^2\) del modelo. El tema de la selección de variables se trata en el Capítulo 9.