8.2 Una aplicación para evaluar los puntajes y la proporción de alumnos por maestro
Echando un vistazo a la regresión de la Sección 7.3 nuevamente.
El cálculo de intervalos de confianza para coeficientes individuales en el modelo de regresión múltiple procede como en el modelo de regresión simple usando la función confint().
<- lm(score ~ size + english, data = CASchools)
model confint(model)
#> 2.5 % 97.5 %
#> (Intercept) 671.4640580 700.6004311
#> size -1.8487969 -0.3537944
#> english -0.7271113 -0.5724424
Para obtener intervalos de confianza en otro nivel, suponiendo \(90\%\), simplemente se debe configurar el argumento level en la llamada de confint(); en consecuencia:
confint(model, level = 0.9)
#> 5 % 95 %
#> (Intercept) 673.8145793 698.2499098
#> size -1.7281904 -0.4744009
#> english -0.7146336 -0.5849200
La salida ahora informa los intervalos de confianza de \(90\%\) deseados para todos los coeficientes.
Una desventaja de confint() es que no usa errores estándar robustos para calcular el intervalo de confianza. Para intervalos de confianza de muestras grandes, esto se hace rápidamente de forma manual de la siguiente manera:
# calcular errores estándar robustos
<- diag(vcovHC(model, type = "HC1"))^0.5
rob_se
# calcular intervalos de confianza robustos del 95%
rbind("lower" = coef(model) - qnorm(0.975) * rob_se,
"upper" = coef(model) + qnorm(0.975) * rob_se)
#> (Intercept) size english
#> lower 668.9252 -1.9496606 -0.7105980
#> upper 703.1393 -0.2529307 -0.5889557
# calcular intervalos de confianza robustos del 90%
rbind("lower" = coef(model) - qnorm(0.95) * rob_se,
"upper" = coef(model) + qnorm(0.95) * rob_se)
#> (Intercept) size english
#> lower 671.6756 -1.8132659 -0.7008195
#> upper 700.3889 -0.3893254 -0.5987341
Sabiendo cómo usar R para hacer inferencias sobre los coeficientes en modelos de regresión múltiple, ahora se puede responder la siguiente pregunta:
¿Puede la hipótesis nula de que un cambio en la proporción de estudiantes por maestro, size, no tiene una influencia significativa en los puntajes de las pruebas, scores, — si se controla el porcentaje de estudiantes que aprenden inglés en el distrito, inglés, — ser rechazada en el nivel de significancia de \(10\%\) y \(5\%\)?
El resultado anterior muestra que cero no es un elemento del intervalo de confianza para el coeficiente de size de modo que se puede rechazar la hipótesis nula en niveles de significancia de \(5\%\) y \(10\%\). Se puede llegar a la misma conclusión a través del valor \(p\) para size: \(0.00398 < 0.05 = \alpha\).
Se debe tener en cuenta que el rechazo en el nivel de \(5\%\) implica un rechazo en el nivel de \(10\%\) (¿por qué?).
Recordando el Capítulo 6.2 el intervalo de confianza de \(95\%\) calculado anteriormente no indica que una disminución de una unidad en la proporción alumno-maestro tenga un efecto en los puntajes de las pruebas que se encuentran en el intervalo con un límite menor de \(-1.9497\) y un límite superior de \(-0.2529\). Una vez que se ha calculado un intervalo de confianza, una declaración probabilística como esta es incorrecta: El intervalo contiene el parámetro verdadero o no lo contiene. No se sabe cuál es la verdad.
Otro aumento del modelo
¿Cuál es el efecto promedio en los puntajes de las pruebas de reducir la proporción de alumnos por maestro cuando los gastos por alumno y el porcentaje de alumnos que aprenden inglés se mantienen constantes?
Aumentnado el modelo con un regresor adicional, que representa una medida del gasto por alumno. Usando ?CASchools se puede encontrar que CASchools contiene la variable expenditure, que proporciona el gasto por estudiante.
El modelo ahora es
\[ TestScore = \beta_0 + \beta_1 \times size + \beta_2 \times english + \beta_3 \times expenditure + u \]
con \(expenditure\) la cantidad total de gastos por alumno en el distrito (miles de dólares).
Calculando ahora el modelo:
# escalar el gasto a miles de dólares
$expenditure <- CASchools$expenditure/1000
CASchools
# estimar el modelo
<- lm(score ~ size + english + expenditure, data = CASchools)
model coeftest(model, vcov. = vcovHC, type = "HC1")
#>
#> t test of coefficients:
#>
#> Estimate Std. Error t value Pr(>|t|)
#> (Intercept) 649.577947 15.458344 42.0212 < 2e-16 ***
#> size -0.286399 0.482073 -0.5941 0.55277
#> english -0.656023 0.031784 -20.6398 < 2e-16 ***
#> expenditure 3.867901 1.580722 2.4469 0.01482 *
#> ---
#> Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
El efecto estimado de un cambio de una unidad en la proporción de estudiantes por maestro en los puntajes de las pruebas con el gasto y la proporción de alumnos que aprenden inglés manteniéndose constantes es de \(-0.29\), que es bastante pequeño. Es más, el coeficiente de \(size\) ya no es significativamente diferente de cero incluso a \(10\%\) desde \(p\text{-value}=0.55\). ¿Se le ocurre una interpretación de estos hallazgos? La insignificancia de \(\hat\beta_1\) podría deberse a un error estándar mayor de \(\hat{\beta}_1\) resultante de agregar \(expenditure\) al modelo de modo que se estima el coeficiente de \(size\) con menos precisión. Esto ilustra el problema de los regresores fuertemente correlacionados (multicolinealidad imperfecta). La correlación entre \(size\) y \(expenditure\) se puede calcular usando cor().
# calcular la correlación de la muestra entre tamaño y gasto: 'size' y 'expenditure'
cor(CASchools$size, CASchools$expenditure)
#> [1] -0.6199822
En conjunto, se llega a la conclusión de que el nuevo modelo no proporciona evidencia de que cambiar la proporción de estudiantes por maestro; por ejemplo, al contratar nuevos maestros, tenga algún efecto en los puntajes de las pruebas mientras se mantienen constantes los gastos por estudiante y la proporción de estudiantes de inglés.