7.1 Sesgo variable omitido

El análisis anterior de la relación entre la puntuación de la prueba y el tamaño de la clase discutido en los Capítulos 5 y 6 tiene un defecto importante: Se ignoran otros determinantes de la variable dependiente (puntuación de la prueba) que se correlacionan con el regresor (tamaño de la clase). Se debe recordar que las influencias sobre la variable dependiente que no son capturadas por el modelo se recogen en el término de error, que hasta ahora se ha supuesto que no está correlacionado con el regresor. Sin embargo, este supuesto se viola si se excluyen los determinantes de la variable dependiente que varían con el regresor. Esto podría inducir un sesgo de estimación; es decir, la media de la distribución muestral del estimador de MCO ya no es igual a la media verdadera. En el ejemplo, por lo tanto, se estima erróneamente el efecto causal en los puntajes de las pruebas de un cambio de unidad en la proporción alumno-maestro, en promedio. Este problema se denomina sesgo de variable omitida (SVO) y se resume en el Concepto clave 6.1.

Concepto clave 6.1

Sesgo de variable omitida en regresión con un regresor único

El sesgo de variable omitida es el sesgo en el estimador de MCO que surge cuando el regresor, \(X\), se correlaciona con una variable omitida. Para que ocurra el sesgo de la variable omitida, se deben cumplir dos condiciones:

  1. \(X\) está correlacionado con la variable omitida.
  2. La variable omitida es un determinante de la variable dependiente \(Y\).

Juntos, 1. y 2. dan como resultado una violación del primer supuesto de MCO \(E(u_i\vert X_i) = 0\). Formalmente, el sesgo resultante se puede expresar como

\[ \hat\beta_1 \xrightarrow[]{p} \beta_1 + \rho_{Xu} \frac{\sigma_u}{\sigma_X}. \tag{6.1} \]

El SVO es un problema que no se puede resolver aumentando el número de observaciones utilizadas para estimar \(\beta_1\), como \(\hat\beta_1\) es inconsistente (6.1) : SVO evita que el estimador converja en probabilidad con el valor verdadero del parámetro. La fuerza y la dirección del sesgo están determinadas por \(\rho_{Xu}\), la correlación entre el término de error y el regresor.

En el ejemplo del puntaje de la prueba y el tamaño de la clase, es fácil encontrar variables que puedan causar tal sesgo, si se omiten del modelo. Una variable muy relevante podría ser el porcentaje de estudiantes de inglés en el distrito escolar: es plausible que la capacidad de hablar, leer y escribir en inglés sea un factor importante para un aprendizaje exitoso. Por lo tanto, es probable que los estudiantes que todavía están aprendiendo inglés obtengan peores resultados en las pruebas que los hablantes nativos. Además, es concebible que la proporción de estudiantes que aprenden inglés sea mayor en los distritos escolares donde el tamaño de las clases es relativamente grande: piense en los distritos urbanos pobres donde viven muchos inmigrantes.

Si se piensa en un posible sesgo inducido al omitir la proporción de estudiantes que aprenden inglés (\(PctEL\)) en vista de (6.1). Cuando el modelo de regresión estimado no incluye \(PctEL\) como regresor aunque el verdadero proceso de generación de datos (DGP) es

\[ TestScore = \beta_0 + \beta_1 \times STR + \beta_2 \times PctEL \tag{6.2}\]

donde \(STR\) y \(PctEL\) están correlacionados, se tiene

\[\rho_{STR,PctEL}\neq0.\]

Se puede investigar esto usando R. Después de definir las variables, se puede calcular la correlación entre \(STR\) y \(PctEL\), así como la correlación entre \(STR\) y \(TestScore\).

# cargar el paquete AER
library(AER)

# cargar el conjunto de datos
data(CASchools)   

# definir variables
CASchools$STR <- CASchools$students/CASchools$teachers       
CASchools$score <- (CASchools$read + CASchools$math)/2

# calcular correlaciones
cor(CASchools$STR, CASchools$score)
#> [1] -0.2263627
cor(CASchools$STR, CASchools$english)
#> [1] 0.1876424

El hecho de que \(\widehat{\rho}_{STR, Testscore} = -0.2264\) es motivo de preocupación de que omitir \(PctEL\) conduce a una estimación con sesgo negativo \(\hat\beta_1\), ya que esto indica que \(\rho_{Xu} < 0\). Como consecuencia, se espera que \(\hat\beta_1\), el coeficiente de \(STR\), sea demasiado grande en valor absoluto. Dicho de otra manera, la estimación de MCO de \(\hat\beta_1\) sugiere que las clases pequeñas mejoran los puntajes de las pruebas, pero que el efecto de las clases pequeñas se sobrestima, ya que captura el efecto de tener menos estudiantes de inglés también.

¿Qué pasa con la magnitud de \(\hat\beta_1\) si se suma la variable \(PctEL\) a la regresión? En otras palabras, si se estima el siguiente modelo

\[ TestScore = \beta_0 + \beta_1 \times STR + \beta_2 \times PctEL + u \]

¿Qué se espera del signo de \(\hat\beta_2\), el coeficiente estimado en \(PctEL\)? Siguiendo el razonamiento anterior, se debría terminar con una estimación de coeficiente negativa pero mayor a \(\hat\beta_1\) que antes y una estimación negativa \(\hat\beta_2\).

Se necesita estimar ambos modelos de regresión y compararlos. Reealizar una regresión múltiple en R es sencillo. Uno puede simplemente agregar variables adicionales al lado derecho del argumento formula de la función lm() usando sus nombres y el operador +.

# estimar ambos modelos de regresión
mod <- lm(score ~ STR, data = CASchools) 
mult.mod <- lm(score ~ STR + english, data = CASchools)

# imprimir los resultados en la consola
mod
#> 
#> Call:
#> lm(formula = score ~ STR, data = CASchools)
#> 
#> Coefficients:
#> (Intercept)          STR  
#>      698.93        -2.28
mult.mod
#> 
#> Call:
#> lm(formula = score ~ STR + english, data = CASchools)
#> 
#> Coefficients:
#> (Intercept)          STR      english  
#>    686.0322      -1.1013      -0.6498

Se encontró que los resultados son consistentes con las expectativas.

La siguiente sección analiza algunas teorías sobre modelos de regresión múltiple.