13.2 El modelo de regresión VI general
El modelo de regresión VI simple se extiende fácilmente a un modelo de regresión múltiple al que se debe referir como modelo de regresión VI general. En este modelo se distingue entre cuatro tipos de variables: La variable dependiente, incluidas las variables exógenas, incluidas las endógenas y las instrumentales. El Concepto clave 12.1 resume el modelo y la terminología común.
Concepto clave 12.1
Terminología y modelo de regresión de variables instrumentales generales
\[\begin{align} Y_i = \beta_0 + \beta_1 X_{1i} + \dots + \beta_k X_{ki} + \beta_{k+1} W_{1i} + \dots + \beta_{k+r} W_{ri} + u_i, \tag{13.5} \end{align}\]
con \(i=1,\dots,n\) es el modelo de regresión de variables instrumentales generales donde:
\(Y_i\) es la variable dependiente.
\(\beta_0,\dots,\beta_{k+1}\) son \(1+k+r\) coeficientes de regresión desconocidos.
\(X_{1i},\dots,X_{ki}\) son \(k\) regresores endógenos.
\(W_{1i},\dots,W_{ri}\) son \(r\) regresores exógenos que no están correlacionados con \(u_i\).
\(u_i\) es el término de error.
\(Z_{1i},\dots,Z_{mi}\) son \(m\) variables instrumentales.
Los coeficientes están sobreidentificados si \(m>k\). Si \(m<k\), los coeficientes están subidentificados y cuando \(m=k\) están exactamente identificados. Para la estimación del modelo de regresión VI, se requiere una identificación exacta o una sobreidentificación.
Si bien calcular ambas etapas de MC2E individualmente no es un gran problema en (13.1), el modelo de regresión simple con un solo regresor endógeno, el Concepto clave 12.2, aclara por qué recurrir a funciones de MC2E como ivreg() son más conveniente cuando el conjunto de regresores (e instrumentos) potencialmente endógenos es grande.
La estimación de modelos de regresión con MC2E utilizando múltiples instrumentos mediante ivreg() es sencilla. Sin embargo, existen algunas sutilezas al especificar correctamente la fórmula de regresión.
Suponga que desea estimar el modelo \[Y_i = \beta_0 + \beta_1 X_{1i} + \beta_2 X_{2i} + W_{1i} + u_i\] donde \(X_{1i}\) y \(X_{2i}\) son regresores endógenos que serán instrumentados por \(Z_{1i}\), \(Z_{2i}\) y \(Z_{3i}\) y \(W_{1i}\) es un regresor exógeno. Los datos correspondientes están disponibles en un data.frame con nombres de columna y, x1, x1, w1, z1, z2 y z3. Puede ser tentador especificar el argumento formula en la llamada de ivreg() como y ~ x1 + x2 + w1 | z1 + z2 + z3 lo cual es incorrecto. Como se explica en la documentación de ivreg() (ver ?Ivreg
), también es necesario enumerar todas las variables exógenas como instrumentos; es decir, unirlas con + a la derecha de la barra vertical: y ~ x1 + x2 + w1 | w1 + z1 + z2 + z3 donde w1 se “instrumenta a sí misma.”
Si existe una gran cantidad de variables exógenas, puede ser conveniente proporcionar una fórmula de actualización con . (esto incluye todas las variables excepto la variable dependiente) justo después de | y excluir todas las variables endógenas usando un -. Por ejemplo, si existe un regresor exógeno w1 y un regresor endógeno x1 con el instrumento z1, la fórmula apropiada sería y ~ w1 + x1 | w1 + z1 que es equivalente a y ~ w1 + x1 |. - x1 + z1.
Concepto clave 12.2
Mínimos cuadrados de dos etapas
De manera similar al modelo de regresión VI simple, el modelo general VI (13.5) se puede estimar usando el estimador de mínimos cuadrados de dos etapas:
Regresión(es) de primera etapa
Ejecutar una regresión MCO para cada una de las variables endógenas (\(X_{1i},\dots,X_{ki}\)) en todas las variables instrumentales (\(Z_{1i},\dots,Z_{mi}\)), todas variables exógenas (\(W_{1i},\dots,W_{ri}\)) y una intersección. Calcular los valores ajustados (\(\widehat{X}_{1i},\dots,\widehat{X}_{ki}\)).
Regresión de segunda etapa
Regresar la variable dependiente en los valores predichos de todos los regresores endógenos, todas las variables exógenas y una intersección usando MCO. Esto da \(\widehat{\beta}_{0}^{MC2E},\dots,\widehat{\beta}_{k+r}^{MC2E}\), las estimaciones de MC2E de los coeficientes del modelo.
En el modelo de regresión general VI, los supuestos de relevancia y exogeneidad del instrumento son los mismos que en el modelo de regresión simple con un solo regresor endógeno y un solo instrumento. Consular el Concepto clave 12.3 para obtener un resumen utilizando la terminología de regresión general VI.
Concepto clave 12.3
Dos condiciones para instrumentos válidos
Para que \(Z_{1i},\dots,Z_{mi}\) sea un conjunto de instrumentos válidos, se deben cumplir las dos condiciones siguientes:
Relevancia del instrumento:
Si existen \(k\) variables endógenas, \(r\) variables exógenas y \(m\geq k\) instrumentos \(Z\) y \(\widehat{X}_{1i}^*,\dots,\widehat{X}_{ki}^*\) son los valores predichos de las regresiones de la primera etapa de la población \(k\), debe sostenerse que \[(\widehat{X}_{1i}^*,\dots,\widehat{X}_{ki}^*, W_{1i}, \dots, W_{ri},1)\] no son perfectamente multicolineales. \(1\) denota el regresor constante que es igual a \(1\) para todas las observaciones.
Nota: Si solo hay un regresor endógeno \(X_i\), debe haber al menos un coeficiente distinto de cero en el \(Z\) y el \(W\) en la regresión poblacional para que esta condición sea válida: Si todos los los coeficientes son cero, todos los \(\widehat{X}^*_i\) son solo la media de \(X\), de modo que existe una multicolinealidad perfecta.
Exogeneidad del instrumento:
Todos los instrumentos de \(m\) no deben estar correlacionados con el término de error, \[\rho_{Z_{1i},u_i} = 0,\dots,\rho_{Z_{mi},u_i} = 0.\]
Se puede demostrar que si se cumplen los supuestos de regresión VI presentados en el Concepto clave 12.4, el estimador MC2E en (13.5) es consistente y se distribuye normalmente cuando el tamaño de la muestra es grande. El razonamiento detrás de esto se traslada al modelo VI general.
Para el propósito actual, es suficiente tener en cuenta que la validez de los supuestos establecidos en el Concepto clave 12.4 permiten obtener inferencias estadísticas válidas utilizando funciones R que calculan las pruebas \(t\) y \(F\), así como los intervalos de confianza para los coeficientes del modelo.
Concepto clave 12.4
Los supuestos de regresión VI
Para el modelo de regresión general VI en el Concepto clave 12.1 se asumió lo siguiente:
\(E(u_i\vert W_{1i}, \dots, W_{ri}) = 0.\)
\((X_{1i},\dots,X_{ki},W_{1i},\dots,W_{ri},Z_{1i},\dots,Z_{mi})\) son i.i.d. a partir de su distribución conjunta.
Todas las variables tienen cuartos momentos finitos distintos de cero; es decir, es poco probable que existan valores atípicos.
Los \(Z\) son instrumentos válidos (ver Concepto clave 12.3).
Aplicación a la demanda de cigarrillos
La elasticidad estimada de la demanda de cigarrillos en (13.1) es \(1.08\). Aunque (13.1) se estimó mediante la regresión VI, es plausible que la estimación VI esté sesgada: En este modelo, el estimador MC2E es inconsistente para el verdadero \(\beta_1\) si el instrumento (el impuesto real sobre las ventas por paquete) se correlaciona con el término de error. Es probable que este sea el caso, ya que existen factores económicos, como los ingresos estatales, que afectan la demanda de cigarrillos y se correlacionan con el impuesto a las ventas. Los estados con altos ingresos personales tienden a generar ingresos fiscales mediante impuestos sobre la renta y menos mediante impuestos sobre las ventas. En consecuencia, los ingresos estatales deben incluirse en el modelo de regresión.
\[\begin{align} \log(Q_i^{cigarettes}) = \beta_0 + \beta_1 \log(P_i^{cigarettes}) + \beta_2 \log(income_i) + u_i \tag{13.6} \end{align}\]
Antes de estimar (13.6) usando ivreg(), se define \(income\) como ingresos reales per cápita rincome y los se agrega al conjunto de datos CigarettesSW.
# agregar rincome al conjunto de datos
$rincome <- with(CigarettesSW, income / population / cpi)
CigarettesSW
<- subset(CigarettesSW, year == "1995") c1995
# estimar el modelo
<- ivreg(log(packs) ~ log(rprice) + log(rincome) | log(rincome) +
cig_ivreg2 data = c1995)
salestax,
coeftest(cig_ivreg2, vcov = vcovHC, type = "HC1")
#>
#> t test of coefficients:
#>
#> Estimate Std. Error t value Pr(>|t|)
#> (Intercept) 9.43066 1.25939 7.4883 1.935e-09 ***
#> log(rprice) -1.14338 0.37230 -3.0711 0.003611 **
#> log(rincome) 0.21452 0.31175 0.6881 0.494917
#> ---
#> Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Se obtiene:
\[\begin{align} \widehat{\log(Q_i^{cigarettes})} = \underset{(1.26)}{9.42} - \underset{(0.37)}{1.14} \log(P_i^{cigarettes}) + \underset{(0.31)}{0.21} \log(income_i). \tag{13.7} \end{align}\]
Se agregan los impuestos específicos a los cigarrillos (\(cigtax_i\)) como una variable instrumental adicional y se estima nuevamente usando MC2E.
# agregar cigtax al conjunto de datos
$cigtax <- with(CigarettesSW, tax/cpi)
CigarettesSW
<- subset(CigarettesSW, year == "1995") c1995
# estimar el modelo
<- ivreg(log(packs) ~ log(rprice) + log(rincome) |
cig_ivreg3 log(rincome) + salestax + cigtax, data = c1995)
coeftest(cig_ivreg3, vcov = vcovHC, type = "HC1")
#>
#> t test of coefficients:
#>
#> Estimate Std. Error t value Pr(>|t|)
#> (Intercept) 9.89496 0.95922 10.3157 1.947e-13 ***
#> log(rprice) -1.27742 0.24961 -5.1177 6.211e-06 ***
#> log(rincome) 0.28040 0.25389 1.1044 0.2753
#> ---
#> Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Usando los dos instrumentos \(salestax_i\) y \(cigtax_i\) se tiene que \(m = 2\) y \(k = 1\), por lo que el coeficiente del regresor endógeno \(\log(P_i^{cigarettes})\) es sobreidentificado. La estimación de MC2E de (13.6) es
\[\begin{align} \widehat{\log(Q_i^{cigarettes})} = \underset{(0.96)}{9.89} - \underset{(0.25)}{1.28} \log(P_i^{cigarettes}) + \underset{(0.25)}{0.28} \log(income_i). \tag{13.8} \end{align}\]
¿Debería confiar en las estimaciones presentadas en (13.7) o más bien confiar en (13.8)? Las estimaciones obtenidas con ambos instrumentos son más precisas ya que en (13.8) todos los errores estándar reportados son menores que en (13.7). De hecho, el error estándar para la estimación de la elasticidad de la demanda es solo dos tercios del error estándar cuando el impuesto a las ventas es el único instrumento utilizado. Esto se debe a que se está utilizando más información en la estimación (13.8). Si los instrumentos son válidos, (13.8) puede considerarse más confiable.
Sin embargo, sin conocimientos sobre la validez de los instrumentos, no es sensato hacer tal afirmación. Esto enfatiza por qué es esencial verificar la validez del instrumento. El capítulo 13.3 analiza brevemente las pautas para verificar la validez de un instrumento y presenta enfoques que permiten probar la relevancia y exogeneidad del instrumento bajo ciertas condiciones. Luego se utilizan en una aplicación a la demanda de cigarrillos en el Capítulo 13.4.