7.6 Ejercicios
1. Conjunto de datos de vivienda de Boston
En el transcurso de esta sección, trabajará con Boston, el conjunto de datos de Boston Housing que contiene 506 observaciones sobre el valor de las viviendas en los suburbios de Boston. Boston viene con el paquete MASS que ya está instalado para los ejercicios interactivos R a continuación.
Instrucciones:
Cargar tanto el paquete como el conjunto de datos.
Obtener una descripción general de los datos utilizando funciones conocidas de los capítulos anteriores.
Estimar un modelo de regresión lineal simple que explique el valor medio de la vivienda de los distritos (medv) por el porcentaje de hogares con un nivel socioeconómico bajo, lstat, y una constante. Guardar el modelo en bh_mod.
Imprimir un resumen de coeficientes en la consola que informe de errores estándar robustos.
Sugerencia:
- Aquí solo se necesitan funciones R básicas: library(), data(), lm() y coeftest().
2. Un modelo de regresión múltiple de los precios de la vivienda I
Ahora, se amplía el enfoque del ejercicio anterior agregando regresores adicionales al modelo y estimándolo nuevamente.
Como se discutió en el Capítulo 7.3, agregar regresores al modelo mejora el ajuste, por lo que \(SER\) disminuye y \(R^2\) aumenta.
Se han cargado los paquetes AER y MASS. El objeto modelo bh_mod está disponible en el entorno.
Instrucciones:
Hacer una regresión del valor medio de la vivienda en un distrito, medv, sobre la edad promedio de los edificios, age, la tasa de delincuencia per cápita, crim, el porcentaje de personas con un nivel socioeconómico bajo, lstat, y una constante. Dicho de otra manera, estime el modelo \[medv_i = \beta_0 + \beta_1 lstat_i + \beta_2 age_i + \beta_3 crim_i + u_i.\]
Imprimir un resumen de coeficientes en la consola que informe de errores estándar robustos para el modelo aumentado.
El \(R^2\) del modelo de regresión simple se almacena en R2_res. Guardar los modelos de regresión múltiple \(R^2\) en R2_unres y comprobar si el modelo aumentado produce un \(R^2\) más alto. Utilizar < o > para la comparación.
3. Un modelo de regresión múltiple de precios de la vivienda II
La siguiente ecuación describe el modelo estimado del Ejercicio 2 (errores estándar robustos a la heterocedasticidad entre paréntesis).
\[ \widehat{medv}_i = \underset{(0.74)}{32.828} \underset{(0.08)}{-0.994} \times lstat_i \underset{(0.03)}{-0.083} \times crim_i + \underset{(0.02)}{0.038} \times age_i\]
Este modelo se guarda en bh_mult_mod que está disponible en el entorno de trabajo.
Instrucciones:
Como se enfatizó en el Capítulo 7.3, no tiene sentido usar \(R^2\) cuando se comparan modelos de regresión con un número diferente de regresores. En su lugar, se debe usar \(\bar{R}^2\). \(\bar{R}^2\) se ajusta a la circunstancia de que \(SSR\) se reduce cuando se agrega un regresor al modelo.
Utilizar el objeto modelo para calcular el factor de corrección \(CF = \frac{n-1}{n-k-1}\) donde \(n\) es el número de observaciones y \(k\) es el número de regresores, excluyendo la intersección. Guardarlo en CF.
Utilizar summary() para obtener \(R^2\) y \(\bar{R}^2\) para bh_mult_mod. Es suficiente si se imprimen ambos valores en la consola.
Comprobar que \[\bar{R}^2 = 1 - (1-R^2) \cdot CF.\] Usar el operador ==.
4. ¿Un modelo completo para los valores de la vivienda?
Echar un vistazo a la descripción de las variables contenidas en el conjunto de datos de Boston. ¿Qué variable esperaría tener el valor \(p\) más alto en un modelo de regresión múltiple que usa todas las variables restantes como regresores para explicar medv?
Instrucciones:
Hacer una regresión de medv en todas las variables restantes que se encuentran en el conjunto de datos de Boston.
Obtener un resumen robusto de heterocedasticidad de los coeficientes.
La ${R}^2 para el modelo del ejercicio 3 es \(0.5533\). ¿Qué puedes decir acerca de \(\bar{R}^2\) del modelo de regresión grande? ¿Este modelo mejora el anterior (no es necesario enviar el código)?
Los paquetes AER y MASS así como el conjunto de datos Boston se cargan en el entorno de trabajo.
Sugerencias:
Para abreviar, usar la fórmula de regresión medv ~. en su llamada de lm(). Este es un atajo que especifica una regresión de medv en todas las variables restantes en el conjunto de datos proporcionado al argumento data.
Usar summary en ambos modelos para comparar ambos \(\bar{R}^2\)s.
5. Selección de modelo
¿Quizás se pueda mejorar el modelo eliminando una variable?
En este ejercicio, se deben estimar varios modelos, descartando cada vez una de las variables explicativas utilizadas en el modelo de regresión grande del Ejercicio 4 y comparar \(\bar{R}^2\).
El modelo de regresión completo del ejercicio anterior, full_mod, está disponible en el entorno.
Instrucciones:
Eres completamente libre para resolver este ejercicio. Se recomienda el siguiente enfoque:
Empezar por estimar un modelo mod_new, donde, por ejemplo, lstat se excluye de las variables explicativas. A continuación, acceder a la barra \(\bar{R}^2\) de este modelo.
Comparar la \(\bar{R}^2\) de este modelo con la \(\bar{R}^2\) del modelo completo (esto fue aproximadamente \(0.7338\)).
Repetir los pasos 1 y 2 para todas las variables explicativas utilizadas en el modelo de regresión completo. Guardar el modelo con la mayor mejora en \(\bar{R}^2\) en better_mod.