8.7 Ejercicios
1. Prueba de hipótesis en un modelo de regresión múltiple — estadísticos \(t\) y valores \(p\)
Reconsidere el conjunto de datos de Boston y el siguiente modelo estimado (errores estándar de solo homocedasticidad entre paréntesis) del capítulo anterior:
\[\widehat{medv}_i = \underset{(0.75)}{32.828} -\underset{(0.05)}{0.994} \times lstat_i -\underset{(0.04)}{0.083} \times crim_i + \underset{(0.01)}{0.038} \times age_i.\]
Al igual que en el marco de regresión lineal simple, se pueden realizar pruebas de hipótesis sobre los coeficientes en modelos de regresión múltiples. La hipótesis más común es \(H_0:\beta_j=0\) contra la alternativa \(H_1:\beta_j\ne 0\) para unos \(j\) en \(0,1,\dots,k\).
Se han cargado los paquetes AER y MASS. Las estimaciones de los coeficientes, así como los errores estándar correspondientes, están disponibles en coefs y SEs, respectivamente.
Instrucciones:
Utilizar aritmética vectorial para resolver las siguientes tareas:
Calcular los estadísticos \(t\) para cada coeficiente utilizando los objetos predefinidos coefs y SEs. Asignar el resultado a tstats.
Calcular los valores de \(p\) para cada coeficiente y asignar el resultado a pval.
Verificar, con la ayuda de operadores lógicos, si las hipótesis se rechazan en el nivel de significancia de \(1\%\).
Sugerencias:
El estadístico \(t\) para cada coeficiente se define como \(t=\frac{\widehat{\beta}_j-\beta_{j,0}}{SE(\widehat{\beta}_j)}\).
El valor \(p\) para una prueba de los dos lados usados se calcula como \(2\cdot\Phi(-|t^{act}|)\) donde \(t^{act}\) denota el estadístico \(t\) calculado.
2. Prueba de hipótesis en un modelo de regresión múltiple: Intervalos de confianza
Considerar nuevamente el modelo estimado
\[\widehat{medv}_i = \underset{(0.75)}{32.828} -\underset{(0.05)}{0.994} \times lstat_i -\underset{(0.04)}{0.083} \times crim_i + \underset{(0.01)}{0.038} \times age_i.\]
que está disponible como objeto mod en el entorno de trabajo. Se han cargado los paquetes AER y MASS.
Instrucciones:
- Construir intervalos de confianza de \(99\%\) para todos los coeficientes del modelo. Utilizar los intervalos para decidir si las hipótesis nulas individuales \(H_0:\beta_j=0\), \(j=0,1,2,3,4\) se rechazan en el nivel de \(1\%\).
Sugerencia:
- Se puede usar confint() para construir intervalos de confianza. El nivel de confianza se puede establecer mediante el argumento level.
3. Prueba de hipótesis sólida en varios modelos de regresión
De lm el objeto mod de los ejercicios anteriores está disponible en el entorno de trabajo. Se han cargado los paquetes AER y MASS.
Instrucciones:
Imprimir un resumen de coeficientes que informen sobre los errores estándar robustos a la heterocedasticidad.
Acceder a las entradas de la matriz generada por coeftest() para comprobar si las hipótesis se rechazan a un nivel de significancia del 1%. Utilizar operadores lógicos < y >.
Sugerencias:
El uso del argumento vcov. en coeftest() fuerza a la función a utilizar errores estándar robustos.
Los valores de \(p\) están contenidos en la cuarta columna de la salida generada por coeftest(). Utilizar corchetes para crear subconjuntos de la matriz en consecuencia.
4. Prueba de hipótesis conjunta — Prueba \(F\) I
A veces interesa probar hipótesis conjuntas que imponen restricciones sobre coeficientes de regresión múltiples. Por ejemplo, en el modelo
\[medv_i = \beta_0 + \beta_1\times lstat_i + \beta_2\times crim_i + \beta_3\times age_i + u_i\]
se puede probar la hipótesis nula \(H_0: \beta_2=\beta_3\) frente a la alternativa \(H_1: \beta_2\ne\beta_3\) (que es una hipótesis conjunta, ya que se impone una restricción en dos coeficientes de regresión ).
La idea básica detrás de probar una hipótesis de este tipo es realizar dos regresiones y comparar los resultados: Para una de las regresiones, se imponen las restricciones formalizadas por la hipótesis nula (lo se llama modelo de regresión restringida), mientras que para la otra regresión la restricción se deja fuera (a esto lo se le llama el modelo irrestricto). A partir de este punto de partida, se constuye un estadístico de prueba que, bajo el valor nulo, sigue una distribución bien conocida, una distribución \(F\) (ver el siguiente ejercicio).
Sin embargo, en este ejercicio se comienza con los cálculos iniciales necesarios para construir el estadístico de prueba.
Se han cargado los paquetes AER y MASS.
Instrucciones:
Estimar el modelo restringido; es decir, el modelo donde se asume que la restricción formalizada por \(H_0: \beta_2=\beta_3\) es verdadera. Guardar el modelo en model_res.
Calcular el \(SSR\) del modelo restringido y asignar el resultado a RSSR.
Estimar el modelo sin restricciones; es decir, el modelo donde se supone que la restricción es falsa. Guardar en model_unres.
Calcular el \(SSR\) del modelo no restringido y asignar el resultado a USSR.
Sugerencias:
El modelo restringido se puede escribir como \[medv_i = \beta_0 + \beta_1\times lstat_i + \beta_2\times crim_i + \beta_2\times age_i + u_i\] que, después de reorganizar, puede ser expresado como \[medv_i = \beta_0 + \beta_1\times lstat_i + \beta_2\times(crim_i+age_i) + u_i.\]
El \(SSR\) se define como la suma de los residuos al cuadrado.
Se debe tener en cuenta que los residuos de un modelo de regresión están disponibles como residuals en el objeto lm correspondiente. Por lo tanto, se puede acceder a ellos como de costumbre a través del operador $.
5. Prueba de hipótesis conjunta — Prueba F II
Después de estimar los modelos y calcular los \(SSR\), ahora se tiene que calcular la estadística de prueba y realizar la prueba \(F\). Como se mencionó en el último ejercicio, la estadística de prueba sigue una distribución de \(F\). Más precisamente, se trata con la distribución \(F_{q,n-k-1}\) donde \(q\) denota el número de restricciones bajo la hipótesis nula y \(k\) es el de regresores en el modelo no restringido, excluyendo la intersección.
Se han cargado los paquetes AER y MASS. Ambos modelos (model_res y model_unres) así como su SSR (RSSR y USSR) están disponibles en el entorno de trabajo.
Instrucciones:
Calcular el estadístico \(F\) y asignar el resultado a Fstat.
Calcular el valor \(p\) y asignar el resultado a pval.
Comprobar si la hipótesis nula se rechaza en el nivel del \(1\%\) utilizando operadores lógicos.
Verificar el resultado usando linearHypothesis() e imprimir los resultados.
Sugerencias:
El estadístico \(F\) se define como \(\frac{RSSR-USSR/q}{USSR/(n-k-1)}\).
El valor \(p\) se puede calcular como \(1-F_{q,n-k-1}(F^{act})\) donde \(F_{q,n-k-1}\) denota el CDF de la distribución \(F\) (pf()) con grados de libertad \(q\) y \(nk-1\) y \(F^{act}\) del estadístico \(F\) calculado.
linearHypothesis() espera el modelo sin restricciones así como la hipótesis nula como argumentos.
6. Prueba de hipótesis conjunta: Conjunto de confianza
Como sabrá por los capítulos anteriores, la construcción de un conjunto de confianza para un único coeficiente de regresión da como resultado un intervalo de confianza simple en la línea real. Sin embargo, si se consideran los coeficientes de regresión de \(n\) conjuntamente (como lo se hace en un entorno de prueba de hipótesis conjunta), se mueve de \(\mathbb{R}\) a \(\mathbb{R}^n\), lo que da como resultado un conjunto de confianza de n-dimensiones. En aras de la ilustración, a menudo se elige \(n = 2\), de modo que se termina con un plano bidimensional representable.
Recuerde el modelo estimado
\[\widehat{medv}_i = \underset{(0.75)}{32.828} -\underset{(0.05)}{0.994} \times lstat_i -\underset{(0.04)}{0.083} \times crim_i + \underset{(0.01)}{0.038} \times age_i.\]
que está disponible como mod en el entorno de trabajo. Suponga que desea probar la hipótesis nula \(H_0: \beta_2=\beta_3=0\) frente a \(H_1: \beta_2\ne 0\) o \(\beta_3\ne 0\).
Se han cargado los paquetes AER y MASS.
Instrucciones:
Construir un conjunto de confianza de \(99\%\) para los coeficientes de crim y lstat, que es un conjunto de confianza bidimensional. ¿Se puede rechazar la hipótesis nula mencionada anteriormente?
Verificar su inspección visual realizando una prueba \(F\) correspondiente.
Sugerencias:
Utilizar trustEllipse() para construir un conjunto de confianza bidimensional. Además de los coeficientes para los que se construirá el conjunto de confianza (which.coef), se debe especificar el nivel de confianza (levels).
Como de costumbre, se puede usar linearHypothesis() para realizar la prueba \(F\). Se debe tener en cuenta que ahora existen dos restricciones; por lo tanto, se debe pasar un vector que contenga ambas restricciones.