10.3 Validez interna y externa cuando la regresión se usa para pronosticar
Recuerde la regresión de los puntajes de las pruebas en la proporción alumno-maestro (\(STR\)) realizada en el Capítulo 5:
<- lm(score ~ STR, data = CASchools)
linear_model
linear_model#>
#> Call:
#> lm(formula = score ~ STR, data = CASchools)
#>
#> Coefficients:
#> (Intercept) STR
#> 698.93 -2.28
La función de regresión estimada fue
\[ \widehat{TestScore} = 698.9 - 2.28 \times STR.\]
Se analiza el ejemplo de un padre que se muda a un área metropolitana y planea elegir dónde vivir en función de la calidad de las escuelas locales: El puntaje promedio de las pruebas de un distrito escolar es una medida adecuada de la calidad. Sin embargo, el padre solo tiene información sobre la proporción de alumnos por maestro, de modo que es necesario predecir los puntajes de las pruebas. Aunque se ha establecido que existe un sesgo de variable omitida en este modelo debido a la omisión de variables como las oportunidades de aprendizaje de los estudiantes fuera de la escuela, la proporción de estudiantes de inglés, entre otros, modelo_lineal puede, de hecho, ser útil para los padres:
Al padre no le importa si el coeficiente de \(STR\) tiene una interpretación causal, quiere que \(STR\) explique la mayor variación posible en los puntajes de las pruebas. Por lo tanto, a pesar del hecho de que linear_model no se puede usar para estimar el efecto causal de un cambio en \(STR\) en los puntajes de las pruebas, se puede considerar un predictor confiable de los puntajes de las pruebas en general.
Por lo tanto, las amenazas a la validez interna resumidas en el Concepto clave 9.7 son insignificantes para el padre. Esto es diferente para un superintendente al que se le ha encomendado tomar medidas que aumenten los puntajes de las pruebas: Necesita un modelo más confiable que no sufra las amenazas enumeradas en el Concepto clave 9.7.