13.1 El estimador de VI con un solo regresor y un solo instrumento
Considere el modelo de regresión simple
\[\begin{align} Y_i = \beta_0 + \beta_1 X_i + u_i \ \ , \ \ i=1,\dots,n \tag{13.1} \end{align}\]
donde el término de error \(u_i\) se correlaciona con el regresor \(X_i\) (\(X\) es endógeno) de modo que MCO es inconsistente para el verdadero \(\beta_1\). En el caso más simple, la regresión VI usa una sola variable instrumental \(Z\) para obtener un estimador consistente para \(\beta_1\).
\(Z\) debe cumplir dos condiciones para ser un instrumento válido:
1. Condición de relevancia del instrumento:
2. Condición de exogeneidad del instrumento:
El estimador de mínimos cuadrados en dos etapas
Como se puede adivinar por su nombre, MC2E procede en dos etapas. En la primera etapa, la variación en el regresor endógeno \(X\) se descompone en un componente libre de problemas que se explica por el instrumento \(Z\) y un componente problemático que se correlaciona con el error \(u_i\). La segunda etapa usa el componente libre de problemas de la variación en \(X\) para estimar \(\beta_1\).
El modelo de regresión de la primera etapa es \[X_i = \pi_0 + \pi_1 Z_i + \nu_i,\] donde \(\pi_0 + \pi_1 Z_i\) es el componente de \(X_i\) que se explica por \(Z_i\), mientras que \(\nu_i\) es el componente que no puede ser explicado por \(Z_i\) y exhibe correlación con \(u_i\).
Usando las estimaciones de MCO\(\widehat{\pi}_0\) y \(\widehat{\pi}_1\) se obtienen los valores predichos \(\widehat{X}_i, \ \ i=1,\dots,n\). Si \(Z\) es un instrumento válido, los \(\widehat{X}_i\) están libres de problemas en el sentido de que \(\widehat{X}\) es exógeno en una regresión de \(Y\) en \(\widehat{X}\) que se realiza en la regresión de la segunda etapa. La segunda etapa produce \(\widehat{\beta}_0^{MC2E}\) y \(\widehat{\beta}_1^{MC2E}\), las estimaciones de MC2E de \(\beta_0\) y \(\beta_1\).
Para el caso de un solo instrumento, se puede demostrar que el estimador MC2E de \(\beta_1\) es:
\[\begin{align} \widehat{\beta}_1^{MC2E} = \frac{s_{ZY}}{s_{ZX}} = \frac{\frac{1}{n-1}\sum_{i=1}^n(Y_i - \overline{Y})(Z_i - \overline{Z})}{\frac{1}{n-1}\sum_{i=1}^n(X_i - \overline{X})(Z_i - \overline{Z})}, \tag{13.2} \end{align}\]
que no es más que la relación de la covarianza muestral entre \(Z\) y \(Y\) y la covarianza muestral entre \(Z\) y \(X\).
Como se muestra, (13.2) es un estimador consistente para \(\beta_1\) en (13.1) bajo el supuesto de que \(Z\) es un instrumento válido. Al igual que para todos los demás estimadores MCO que se han considerado hasta ahora, el TLC implica que la distribución de \(\widehat{\beta}_1^{MC2E}\) puede aproximarse mediante una distribución normal si el tamaño de la muestra es grande. Esto permite usar estadísticos \(t\) e intervalos de confianza que también se calculan mediante ciertas funciones R.
Aplicación a la demanda de cigarrillos
La relación entre la demanda y el precio de los productos básicos es un problema simple pero generalizado en economía. La economía de la salud se ocupa del estudio de cómo el sistema de atención de la salud y la política de regulación influyen en el comportamiento que afecta la salud de los individuos. Probablemente el ejemplo más destacado en los debates sobre políticas públicas sea el tabaquismo, ya que está relacionado con muchas enfermedades y externalidades negativas.
Es plausible que se pueda reducir el consumo de cigarrillos gravando más los cigarrillos. La pregunta es por cuánto deben aumentarse los impuestos para lograr una cierta reducción en el consumo de cigarrillos. Los economistas utilizan elasticidades para responder a este tipo de preguntas. Dado que se desconoce la elasticidad precio para la demanda de cigarrillos, debe estimarse. Como se discutió en otros capítulos, una regresión MCO de la cantidad logarítmica sobre el precio logarítmico no puede usarse para estimar el efecto de interés, ya que existe causalidad simultánea entre la oferta y la demanda. En su lugar, se puede utilizar la regresión VI.
Usando el conjunto de datos CigarettesSW que viene con el paquete AER. Es un conjunto de datos de panel que contiene observaciones sobre el consumo de cigarrillos y varios indicadores económicos para los 48 estados federales continentales de los EE. UU. desde 1985 a 1995. En este sentido, solo se consideran datos para la sección transversal de los estados en 1995.
Se comienza cargando el paquete, adjuntando el conjunto de datos y obteniendo una descripción general.
# cargar el conjunto de datos y obtener una descripción general
library(AER)
data("CigarettesSW")
summary(CigarettesSW)
#> state year cpi population packs
#> AL : 2 1985:48 Min. :1.076 Min. : 478447 Min. : 49.27
#> AR : 2 1995:48 1st Qu.:1.076 1st Qu.: 1622606 1st Qu.: 92.45
#> AZ : 2 Median :1.300 Median : 3697472 Median :110.16
#> CA : 2 Mean :1.300 Mean : 5168866 Mean :109.18
#> CO : 2 3rd Qu.:1.524 3rd Qu.: 5901500 3rd Qu.:123.52
#> CT : 2 Max. :1.524 Max. :31493524 Max. :197.99
#> (Other):84
#> income tax price taxs
#> Min. : 6887097 Min. :18.00 Min. : 84.97 Min. : 21.27
#> 1st Qu.: 25520384 1st Qu.:31.00 1st Qu.:102.71 1st Qu.: 34.77
#> Median : 61661644 Median :37.00 Median :137.72 Median : 41.05
#> Mean : 99878736 Mean :42.68 Mean :143.45 Mean : 48.33
#> 3rd Qu.:127313964 3rd Qu.:50.88 3rd Qu.:176.15 3rd Qu.: 59.48
#> Max. :771470144 Max. :99.00 Max. :240.85 Max. :112.63
#>
Utilizar ?CigarettesSW
para obtener una descripción detallada de las variables.
Se está interesado en estimar \(\beta_1\) en
\[\begin{align} \log(Q_i^{cigarettes}) = \beta_0 + \beta_1 \log(P_i^{cigarettes}) + u_i, \tag{13.3} \end{align}\]
donde \(Q_i^{cigarrillos}\) es el número de paquetes de cigarrillos per cápita vendidos y \(P_i^{cigarrillos}\) es el precio real promedio después de impuestos por paquete de cigarrillos en el estado \(i\).
La variable instrumental que se va a utilizar para instrumentar el regresor endógeno \(\log(P_i^{cigarrillos})\) es \(\text{Impuesto sobre las ventas}\), la parte de los impuestos sobre los cigarrillos que se deriva del impuesto general sobre las ventas. \(\text{Impuesto sobre las ventas}\) se mide en dólares por paquete. La idea es que \(\text{Impuesto sobre las ventas}\) es un instrumento relevante, ya que está incluido en el precio promedio por paquete después de impuestos. Además, es plausible que \(\text{Impuesto sobre las ventas}\) sea exógeno, ya que el impuesto a las ventas no influye en la cantidad vendida directamente, sino indirectamente a través del precio.
Se realizan algunas transformaciones con el fin de obtener datos de sección transversal deflactados para el año 1995.
También se calcula la correlación muestral entre el impuesto sobre las ventas y el precio por paquete. La correlación muestral es un estimador consistente de la correlación poblacional. La estimación de aproximadamente \(0.614\) indica que \(\text{Impuesto sobre las ventas}\) y \(P_i^{cigarrillos}\) exhiben una correlación positiva que cumple con las expectativas: Mayores impuestos a las ventas conducen a precios más altos. Sin embargo, un análisis de correlación como este no es suficiente para comprobar si el instrumento es relevante. Más adelante se volverá al tema de verificar si un instrumento es relevante y exógeno.
# calcular precios reales per cápita
$rprice <- with(CigarettesSW, price / cpi)
CigarettesSW
# calcular el impuesto sobre las ventas
$salestax <- with(CigarettesSW, (taxs - tax) / cpi)
CigarettesSW
# comprobar la correlación entre el impuesto sobre las ventas y el precio
cor(CigarettesSW$salestax, CigarettesSW$price)
#> [1] 0.6141228
# generar un subconjunto para el año 1995
<- subset(CigarettesSW, year == "1995") c1995
La regresión de la primera etapa es \[\log(P_i^{cigarrillos}) = \pi_0 + \pi_1 \text{Impuesto de venta}_i + \nu_i.\]
Se estima este modelo en R usando lm(). En la segunda etapa, se ejecuta una regresión de \(\log(Q_i^{cigarrillos})\) en \(\widehat{\log(P_i^{cigarrillos})}\) para obtener \(\widehat{\beta}_0^{MC2E}\) y \(\widehat{\beta}_1^{MC2E}\).
# realizar la regresión de la primera etapa
<- lm(log(rprice) ~ salestax, data = c1995)
cig_s1
coeftest(cig_s1, vcov = vcovHC, type = "HC1")
#>
#> t test of coefficients:
#>
#> Estimate Std. Error t value Pr(>|t|)
#> (Intercept) 4.6165463 0.0289177 159.6444 < 2.2e-16 ***
#> salestax 0.0307289 0.0048354 6.3549 8.489e-08 ***
#> ---
#> Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
La regresión de la primera etapa es \[\widehat{\log(P_i^{cigarrillos})} = \underset{(0.03)}{4.62} + \underset{(0.005)}{0.031} \text{Impuesto de venta}_i\] que predice la relación entre el precio del impuesto sobre las ventas por cigarrillos sea positivo. ¿Qué parte de la variación observada en \(\log(P^{cigarrillos})\) se explica por el instrumento \(\text{Impuesto de venta}\)? Esto se puede responder observando los \(R^2\) de la regresión, que establece que aproximadamente \(47\%\) de la variación en los precios después de impuestos se explica por la variación del impuesto sobre las ventas entre los estados.
# inspeccionar el R^2 de la regresión de la primera etapa
summary(cig_s1)$r.squared
#> [1] 0.4709961
A continuación, se almacena \(\widehat{\log(P_i^{cigarrillos})}\), los valores ajustados obtenidos por la regresión de la primera etapa cig_s1, en la variable lcigp_pred.
# almacenar los valores predichos
<- cig_s1$fitted.values lcigp_pred
A continuación, se ejecuta la regresión de la segunda etapa que da las estimaciones de MC2E que se buscan.
# ejecutar la regresión de la etapa 2
<- lm(log(c1995$packs) ~ lcigp_pred)
cig_s2 coeftest(cig_s2, vcov = vcovHC)
#>
#> t test of coefficients:
#>
#> Estimate Std. Error t value Pr(>|t|)
#> (Intercept) 9.71988 1.70304 5.7074 7.932e-07 ***
#> lcigp_pred -1.08359 0.35563 -3.0469 0.003822 **
#> ---
#> Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Estimando así el modelo (13.3) usando rendimientos de MC2E
\[\begin{align} \widehat{\log(Q_i^{cigarettes})} = \underset{(1.70)}{9.72} + \underset{(0.36)}{1.08} \log(P_i^{cigarettes}), \tag{13.4} \end{align}\]
donde se escribió \(\log(P_i^{cigarettes})\) en lugar de \(\widehat{\log(P_i^{cigarettes})}\) para mantener la coherencia.
La función ivreg() del paquete AER realiza el procedimiento MC2E automáticamente. Se usa de manera similar a lm(). Los instrumentos se pueden agregar a la especificación habitual de la fórmula de regresión utilizando una barra vertical que separa la ecuación del modelo de los instrumentos. Por lo tanto, para la regresión en cuestión, la fórmula correcta es log(packs) ~ log (rprice)|salestax.
# realizar MC2E usando 'ivreg()'
<- ivreg(log(packs) ~ log(rprice) | salestax, data = c1995)
cig_ivreg
coeftest(cig_ivreg, vcov = vcovHC, type = "HC1")
#>
#> t test of coefficients:
#>
#> Estimate Std. Error t value Pr(>|t|)
#> (Intercept) 9.71988 1.52832 6.3598 8.346e-08 ***
#> log(rprice) -1.08359 0.31892 -3.3977 0.001411 **
#> ---
#> Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Se ha encontrado que las estimaciones de los coeficientes coinciden para ambos enfoques.
Dos notas sobre el cálculo de errores estándar de MC2E
Se ha demostrado que ejecutar las regresiones individuales para cada etapa de MC2E usando lm() conduce a las mismas estimaciones de coeficientes que cuando se usa ivreg(). Sin embargo, los errores estándar informados para la regresión de la segunda etapa, por ejemplo, mediante coeftest() o summary(), son inválidos: Ninguno se ajusta para usar predicciones de la regresión de la primera etapa como regresores en la regresión de la segunda etapa. Afortunadamente, ivreg() realiza el ajuste necesario automáticamente. Esta es otra ventaja sobre la estimación manual paso a paso que se ha realizado anteriormente para demostrar la mecánica del procedimiento.
Al igual que en la regresión múltiple, es importante calcular los errores estándar robustos a la heterocedasticidad como lo se hizo anteriormente usando vcovHC().
La estimación de MC2E para \(\beta1\) en (13.4) sugiere que un aumento en los precios de los cigarrillos en un uno por ciento reduce el consumo de cigarrillos en aproximadamente \(1.08\) puntos porcentuales, lo cual es bastante elástico. Sin embargo, se debe tener en cuenta que esta estimación podría no ser confiable a pesar de que se usó la estimación de VI: Aún puede haber un sesgo debido a las variables omitidas. Por lo tanto, se necesita un enfoque de regresión de VI múltiple.