8.2 Una aplicación para evaluar los puntajes y la proporción de alumnos por maestro

Echando un vistazo a la regresión de la Sección 7.3 nuevamente.

El cálculo de intervalos de confianza para coeficientes individuales en el modelo de regresión múltiple procede como en el modelo de regresión simple usando la función confint().

model <- lm(score ~ size + english, data = CASchools)
confint(model)
#>                   2.5 %      97.5 %
#> (Intercept) 671.4640580 700.6004311
#> size         -1.8487969  -0.3537944
#> english      -0.7271113  -0.5724424

Para obtener intervalos de confianza en otro nivel, suponiendo \(90\%\), simplemente se debe configurar el argumento level en la llamada de confint(); en consecuencia:

confint(model, level = 0.9)
#>                     5 %        95 %
#> (Intercept) 673.8145793 698.2499098
#> size         -1.7281904  -0.4744009
#> english      -0.7146336  -0.5849200

La salida ahora informa los intervalos de confianza de \(90\%\) deseados para todos los coeficientes.

Una desventaja de confint() es que no usa errores estándar robustos para calcular el intervalo de confianza. Para intervalos de confianza de muestras grandes, esto se hace rápidamente de forma manual de la siguiente manera:

# calcular errores estándar robustos
rob_se <- diag(vcovHC(model, type = "HC1"))^0.5

# calcular intervalos de confianza robustos del 95%
rbind("lower" = coef(model) - qnorm(0.975) * rob_se,
      "upper" = coef(model) + qnorm(0.975) * rob_se)
#>       (Intercept)       size    english
#> lower    668.9252 -1.9496606 -0.7105980
#> upper    703.1393 -0.2529307 -0.5889557

# calcular intervalos de confianza robustos del 90%
rbind("lower" = coef(model) - qnorm(0.95) * rob_se,
      "upper" = coef(model) + qnorm(0.95) * rob_se)
#>       (Intercept)       size    english
#> lower    671.6756 -1.8132659 -0.7008195
#> upper    700.3889 -0.3893254 -0.5987341

Sabiendo cómo usar R para hacer inferencias sobre los coeficientes en modelos de regresión múltiple, ahora se puede responder la siguiente pregunta:

¿Puede la hipótesis nula de que un cambio en la proporción de estudiantes por maestro, size, no tiene una influencia significativa en los puntajes de las pruebas, scores, — si se controla el porcentaje de estudiantes que aprenden inglés en el distrito, inglés, — ser rechazada en el nivel de significancia de \(10\%\) y \(5\%\)?

El resultado anterior muestra que cero no es un elemento del intervalo de confianza para el coeficiente de size de modo que se puede rechazar la hipótesis nula en niveles de significancia de \(5\%\) y \(10\%\). Se puede llegar a la misma conclusión a través del valor \(p\) para size: \(0.00398 < 0.05 = \alpha\).

Se debe tener en cuenta que el rechazo en el nivel de \(5\%\) implica un rechazo en el nivel de \(10\%\) (¿por qué?).

Recordando el Capítulo 6.2 el intervalo de confianza de \(95\%\) calculado anteriormente no indica que una disminución de una unidad en la proporción alumno-maestro tenga un efecto en los puntajes de las pruebas que se encuentran en el intervalo con un límite menor de \(-1.9497\) y un límite superior de \(-0.2529\). Una vez que se ha calculado un intervalo de confianza, una declaración probabilística como esta es incorrecta: El intervalo contiene el parámetro verdadero o no lo contiene. No se sabe cuál es la verdad.

Otro aumento del modelo

¿Cuál es el efecto promedio en los puntajes de las pruebas de reducir la proporción de alumnos por maestro cuando los gastos por alumno y el porcentaje de alumnos que aprenden inglés se mantienen constantes?

Aumentnado el modelo con un regresor adicional, que representa una medida del gasto por alumno. Usando ?CASchools se puede encontrar que CASchools contiene la variable expenditure, que proporciona el gasto por estudiante.

El modelo ahora es

\[ TestScore = \beta_0 + \beta_1 \times size + \beta_2 \times english + \beta_3 \times expenditure + u \]

con \(expenditure\) la cantidad total de gastos por alumno en el distrito (miles de dólares).

Calculando ahora el modelo:

# escalar el gasto a miles de dólares
CASchools$expenditure <- CASchools$expenditure/1000

# estimar el modelo
model <- lm(score ~ size + english + expenditure, data = CASchools)
coeftest(model, vcov. = vcovHC, type = "HC1")
#> 
#> t test of coefficients:
#> 
#>               Estimate Std. Error  t value Pr(>|t|)    
#> (Intercept) 649.577947  15.458344  42.0212  < 2e-16 ***
#> size         -0.286399   0.482073  -0.5941  0.55277    
#> english      -0.656023   0.031784 -20.6398  < 2e-16 ***
#> expenditure   3.867901   1.580722   2.4469  0.01482 *  
#> ---
#> Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

El efecto estimado de un cambio de una unidad en la proporción de estudiantes por maestro en los puntajes de las pruebas con el gasto y la proporción de alumnos que aprenden inglés manteniéndose constantes es de \(-0.29\), que es bastante pequeño. Es más, el coeficiente de \(size\) ya no es significativamente diferente de cero incluso a \(10\%\) desde \(p\text{-value}=0.55\). ¿Se le ocurre una interpretación de estos hallazgos? La insignificancia de \(\hat\beta_1\) podría deberse a un error estándar mayor de \(\hat{\beta}_1\) resultante de agregar \(expenditure\) al modelo de modo que se estima el coeficiente de \(size\) con menos precisión. Esto ilustra el problema de los regresores fuertemente correlacionados (multicolinealidad imperfecta). La correlación entre \(size\) y \(expenditure\) se puede calcular usando cor().

# calcular la correlación de la muestra entre tamaño y gasto: 'size' y 'expenditure'
cor(CASchools$size, CASchools$expenditure)
#> [1] -0.6199822

En conjunto, se llega a la conclusión de que el nuevo modelo no proporciona evidencia de que cambiar la proporción de estudiantes por maestro; por ejemplo, al contratar nuevos maestros, tenga algún efecto en los puntajes de las pruebas mientras se mantienen constantes los gastos por estudiante y la proporción de estudiantes de inglés.