14.5 Ejercicios
Los siguientes ejercicios guiarán en la reproducción de algunos de los resultados presentados en uno de los estudios DID más famosos de Card and Krueger (1994). Los autores utilizan la geografía como la asignación de tratamiento aleatorio “como si” para estudiar el efecto sobre el empleo en los restaurantes de comida rápida causado por un aumento en el salario mínimo estatal en Nueva Jersey en el año de 1992, ver Capítulo 14.4.
El estudio se basa en datos de encuestas recopilados en febrero de 1992 y en noviembre de 1992, después de que el salario mínimo de Nueva Jersey aumentara \(\$0.80\) de \(\$4.25\) a \(\$5.05\) en abril de 1992.
Estimar el efecto del aumento salarial simplemente calculando el cambio en el empleo en Nueva Jersey (como se pide que haga en el ejercicio 3) fallaría en controlar las variables omitidas. Al usar Pensilvania como control en un modelo de diferencias en diferencias (DID), se pueden controlar las variables con una influencia común en Nueva Jersey (grupo de tratamiento) y Pensilvania (grupo de control). Esto reduce enormemente el riesgo de sesgo de variables omitidas e incluso funciona cuando estas variables no se observan.
Para que el enfoque DID funcione, se debe asumir que Nueva Jersey y Pensilvania tienen tendencias paralelas a lo largo del tiempo; es decir, se asume que los factores (no observados) influyen en el empleo en Pensilvania y Nueva Jersey de la misma manera. Esto permite interpretar un cambio observado en el empleo en Pensilvania como el cambio que habría experimentado Nueva Jersey si no hubiera un aumento en el salario mínimo (y viceversa).
En contra de lo que sugeriría la teoría económica estándar, los autores no encontraron evidencia de que el aumento del salario mínimo indujera un aumento del desempleo en Nueva Jersey utilizando el enfoque DID: Todo lo contrario, sus resultados sugieren que el aumento del salario mínimo de \(\$0.80\) en Nueva Jersey dio lugar a un aumento de \(2.75\) equivalente a tiempo completo (FTE) en el empleo.
1. Los datos de Card y Krueger (1994)
fastfood.dat, el conjunto de datos utilizado por Card & Krueger (1994) se puede descargar aquí. Consulte este enlace para obtener una explicación detallada de las variables.
Este ejercicio pide que importe el conjunto de datos en R y que realice algunos formatos necesarios para el análisis posterior. Esto puede ser tedioso usando las funciones base R, pero se hace fácilmente usando el paquete dplyr presentado en el Capítulo 4.6.
La URL del conjunto de datos se guarda en data_URL.
Instrucciones:
Adjunte los paquetes dplyr y foreign.
Lea el conjunto de datos fastfood.dta usando data_URL y asignarlo a un data.frame llamado dat.
En su estudio, Card y Krueger (1994) miden el empleo en equivalentes de tiempo completo que definen como el número de empleados a tiempo completo (empft y empft2) más el número de gerentes (nmgrs y nmgrs2) más 0.5 veces el número de empleados a tiempo parcial (emppt / emppt2).
- Definir el empleo a tiempo completo antes (FTE) y después del aumento salarial (FTE2) y agregar ambas variables a dat.
Sugerencias:
read.dta() del paquete foreign para leer archivos .dta, un formato utilizado por el paquete de software estadístico STATA.
mutate() genera nuevas columnas usando las existentes.
2. Estimaciones estatales específicas de empleo a tiempo completo — I
Este ejercicio pide realizar un cálculo rápido de las medias muestrales específicas del estado para verificar si los datos sobre el empleo a tiempo completo están alineados con los datos utilizados por Card y Krueger (1994).
Instrucciones:
Generar subconjuntos de dat para separar las observaciones de Nueva Jersey y Pensilvania. Guárdarlos como dat_NJ y dat_PA.
Calcular las medias muestrales de los equivalentes de empleo a tiempo completo para Nueva Jersey y Pensilvania, tanto antes como después del aumento del salario mínimo en Nueva Jersey. Es suficiente si el código imprime los valores correctos en la consola.
Sugerencias:
- Se puede usar group_by() junto con summary() para calcular las medias grupales. Ambas funciones vienen con el paquete dplyr.
3. Estimaciones estatales específicas de empleo a tiempo completo — II
Un enfoque ingenuo para investigar el impacto del aumento del salario mínimo en el empleo es utilizar la diferencia estimada en el empleo medio antes y después del aumento salarial para los restaurantes de comida rápida de Nueva Jersey.
Este ejercicio le pide que haga lo antes mencionado y además pruebe si la diferencia estimada es significativamente diferente de cero usando una prueba robusta \(t\).
Los subconjuntos dat_NJ y dat_PA del ejercicio anterior están disponibles en el entorno de trabajo.
Instrucciones:
- Usar dat_NJ para una prueba sólida de la hipótesis de que no existe diferencia en el empleo a tiempo completo antes y después del aumento salarial en Nueva Jersey al nivel de \(5\%\).
Sugerencias:
- El problema de prueba equivale a una prueba \(t\) de dos muestras que se realiza convenientemente usando t.test().
4. Preparación de los datos para la regresión
Se puede demostrar que las estimaciones realizadas en el Ejercicio 3 y el enfoque de diferencias en diferencias con el que se está trabajando producen los mismos resultados MCO aplicados a modelos de regresión específicos, ver Capítulos 14.1 y 4.6.
Este ejercicio le pide que construya un conjunto de datos que sea más conveniente para este propósito que el conjunto de datos dat.
Instrucciones:
Generar el conjunto de datos reg_dat a partir de dat en formato largo; es decir, asegúrese de que para cada restaurante (identificado por sheet) una observación antes y una después del aumento del salario mínimo (identificado por D) se incluyen.
Solo considere las siguientes variables:
id: Número de sheet (id único de tienda)
chain: Cadena 1 = Burger King; 2 = KFC; 3 = Roy Rogers; 4 = Wendys
state: 1 si es Nueva Jersey; 0 si Pensilvania
empl: Medida del empleo a tiempo completo (FTE/FTE2)
D: Variable ficticia que indica si la observación se realizó antes o después del aumento del salario mínimo en Nueva Jersey.
Sugerencias:
El conjunto de datos original dat tiene 410 observaciones de 48 variables (verificar esto usando dim(dat)). El conjunto de datos reg_dat que se le pide generar debe constar de 820 observaciones de las variables enumeradas anteriormente.
Es sencillo generar un data.frame a partir de las columnas de otro data.frame usando data.frame(…).
Utilizar rbind() para combinar dos objetos de tipo data.frame por fila.
5. Una estimación de la diferencia utilizando datos de Card & Krueger (1994) — II
reg_dat del ejercicio 4 es un conjunto de datos de panel, ya que tiene dos observaciones para cada restaurante de comida rápida \(i=1,\dots,410\), en períodos de tiempo \(t=0,1\).
Por tanto, se puede escribir el modelo de regresión simple
\[employment_{i,t} = \beta_0 + \beta_1 D_t + \varepsilon_{i,t},\]
donde \(D_t\) es una variable ficticia que es igual a \(0\) si la observación se realizó antes del cambio de salario mínimo (\(t = 0\)) y \(1\) después del cambio de salario mínimo (\(t = 1\)); es decir,
\[\begin{align*} D_t = \begin{cases} 0, & \, \text{if $t=0$ (antes del cambio de salario),} \\ 1, & \, \text{if $t=1$ (después del cambio de salario)} \end{cases} \end{align*}\]
y suponga que las observaciones de restaurantes de Nueva Jersey solamente se utilizan para calcular \(\hat\beta_1\), el estimador MCO de \(\beta_1\), que también se denomina estimador de diferencias.
El conjunto de datos reg_dat del ejercicio 4 y el subconjunto de Nueva Jersey dat_NJ están disponibles en el entorno de trabajo.
Instrucciones:
Estimar \(\beta_1\) en el modelo anterior usando MCO. Guardar el modelo estimado en emp_mod.
Obtener un resumen sólido de los resultados e interprete los hallazgos.
Sugerencias:
Recuerde que las dependencias del paquete AER incluyen funciones para una inferencia robusta en modelos de regresión.
El argumento subset en lm() toma un vector lógico que identifica las observaciones utilizadas para la estimación.
6. Una estimación de la diferencia utilizando datos de Card & Krueger (1994) — II
La estimación obtenida usando t.test() en el subconjunto de Nueva Jersey en el ejercicio 3 y la estimación de MCO de \(\hat\beta_1\) en el ejercicio 5 son numéricamente iguales. Esto también es válido para las estadísticas de \(t\) informadas si se utilizan las mismas fórmulas de error estándar (t.test(…, var.equal = T) y coeftest(… , vcov. = vcovHC, type = “HC1”)).
Este ejercicio le pide que compruebe que la afirmación anterior sea cierta.
Los datos de los ejercicios anteriores, el resultado de t.test(…) del Ejercicio 3 así como el objeto del modelo de regresión emp_mod del Ejercicio 5 están disponibles en su ambiente de trabajo. Se ha adjuntado el paquete AER.
No se realizan pruebas de corrección de envío.
Instrucciones:
Verificar que la estimación de \(\beta_1\) en el ejercicio 5 sea igual a la diferencia estimada en el empleo medio de los restaurantes de comida rápida de Nueva Jersey antes y después del aumento del salario mínimo del ejercicio 3.
Convénzase de que las estadísticas \(t\) reportadas por coeftest(…) en el ejercicio 5 y t.test(…) en el ejercicio 3 coinciden.
7. Una estimación de diferencias en diferencias — II
Como se mencionó en el Capítulo 4.6, el enfoque discutido en los Ejercicios 5 y 6 es ingenuo: \(\hat\beta_1\) es una estimación sesgada del efecto promedio del aumento del salario mínimo sobre el empleo porque no se puede controlar para otros determinantes del empleo que se correlacionan con \(D_t\). Como ejemplo, piense en los desarrollos macroeconómicos que tienen un impacto positivo en el mercado laboral, de manera que el empleo es mayor en el período posterior al aumento del salario mínimo. Es probable que \(D_t\) se correlacione positivamente con el término de error de manera que \(\hat\beta_1\) sobreestime el efecto del aumento salarial en el empleo.
Esto motiva el uso del estimador de diferencias en diferencias (DID) descrito en el Capítulo 4.6.
Considere el modelo de regresión lineal:
\[employment_{i,t} = \beta_0 + \beta_1 D_t + \beta_2 state_i + \beta_3 (D_t \times state_i) + \varepsilon_{i,t},\]
donde se usan índices \(i\) y \(t\), tal como en el modelo de regresión simple del ejercicio 5.
En este modelo, \(\beta_3\) es el coeficiente que interesa, ya que se interpreta como la diferencia promedio en el empleo de los restaurantes de comida rápida de Nueva Jersey antes y después del aumento salarial después de controlar los elementos inobservables que son comunes en Nueva Jersey y Pensilvania, el grupo de control. El estimador MCO de \(\beta_3\) se llama estimador DID.
Instrucciones:
Estime el modelo anterior utilizando MCO y obtenga un resumen sólido.
Interprete los hallazgos.