4.8 Ejercicios
1. Sesgado …
Considere el siguiente estimador alternativo para \(\mu_Y\), la media de \(Y_i\)
\[\widetilde{Y}=\frac{1}{n-1}\sum\limits_{i=1}^n Y_i\]
En este ejercicio se ilustrara que este estimador es un estimador sesgado para \(\mu_Y\).
Instrucciones:
Definir una función Y_tilde que implemente el estimador anterior.
Dibujar al azar 5 observaciones de la distribución \(\mathcal{N}(10, 25)\) y calcular una estimación usando Y_tilde(). Repetir este procedimiento 10000 veces y almacenar los resultados en est_biased.
Graficar un histograma de est_biased.
Agregar una línea vertical roja en \(\mu = 10\) usando la función abline().
Sugerencias:
Para calcular la suma de un vector se puede usar sum(), para obtener la longitud de un vector puede usar length().
Utilizar la función replicate() para calcular repetidamente estimaciones de muestras aleatorias. Con los argumentos expr y n se puede especificar la operación y la frecuencia con la que debe replicarse.
Se puede trazar un histograma con la función hist().
El punto en el eje x así como el color de la línea vertical se pueden especificar mediante los argumentos v y col.
2. … pero estimador consistente
Considere nuevamente el estimador del ejercicio anterior. Está disponible en su entorno como la función Y_tilde(). Se le solicita que realice el mismo procedimiento que en el ejercicio anterior. Sin embargo, esta vez, aumente el número de observaciones para extraer de 5 a 1000.
¿Que se puede notar? ¿Qué se puede decir sobre este estimador?
Instrucciones:
Dibujar al azar 1000 observaciones de la distribución \(\mathcal{N}(10, 25)\) y calcular una estimación de la media usando Y_tilde(). Repetir este procedimiento 10000 veces y almacenar los resultados en est_consistent.
Graficar un histograma de est_consistent.
Agregar una línea vertical roja en \(\mu = 10\) usando la función abline().
Sugerencias:
Utilizar la función replicate() para calcular estimaciones de muestras aleatorias extraídas repetidamente. Usando los argumentos expr y n especificar la operación y con qué frecuencia se replicará.
Se puede graficar un histograma con la función hist().
La posición en el eje x así como el color de la línea vertical se pueden especificar mediante los argumentos v y col.
3. Eficiencia de un estimador
En este ejercicio se quiere ilustrar el resultado de que la media muestral:
\[\hat{\mu}_Y=\sum\limits_{i=1}^{n}a_iY_i\]
con el esquema de ponderación igual \(a_i=\frac{1}{n}\) por \(i=1,...,n\) es el mejor estimador lineal insesgado (AZUL) de \(\mu_Y\).
Como alternativa, considere el estimador:
\[\tilde{\mu}_Y=\sum\limits_{i=1}^{n}b_iY_i\]
donde \(b_i\) da a las primeras \(\frac{n}{2}\) observaciones una ponderación más alta que las segundas \(\frac{n}{2}\) observaciones (asumiendo que \(n\) es par por simplicidad).
El vector de pesos w ya se ha definido y está disponible en su entorno de trabajo.
Instrucciones:
Verificar que \(\tilde{\mu}\) sea un estimador imparcial de \(\mu_Y\), la media de \(Y_i\).
Implementar el estimador alternativo de \(\mu_Y\) como una función mu_tilde().
Extraer al azar 100 observaciones de la distribución \(\mathcal{N}(5, 10)\) y calcular estimaciones con ambos estimadores. Repetir este procedimiento 10000 veces y almacenar los resultados en est_bar y est_tilde.
Calcular las varianzas muestrales de est_bar y est_tilde. ¿Qué puedes decir sobre ambos estimadores?
Sugerencias:
Para que \(\tilde{\mu}\) sea un estimador imparcial, todos los pesos deben sumar 1.
Utilizar la función replicate() para calcular estimaciones de muestras extraídas repetidamente. Con los argumentos expr y n se puede especificar la operación y con qué frecuencia se replica.
Se puede usar var() para calcular la varianza de la muestra.
4. Prueba de hipótesis — estadístico \(t\)
Considere nuevamente el conjunto de datos de (CPS) 4.6. El conjunto de datos cps está disponible en su entorno de trabajo.
Suponga que las ganancias medias por hora (en precios de 2012) ahe12 superan los 23.50 \(\$/h\) y se desea probar esta hipótesis a un nivel de significancia de \(\alpha = 0.05\). Por favor haga lo siguiente:
Instrucciones:
Calcular la estadística de prueba a mano y asígnarla a tstat.
Utilizar tstat para aceptar o rechazar la hipótesis nula. Hacerlo utilizando la aproximación normal.
Sugerencias:
Probar \(H_0:\mu_{Y_{ahe}}\leq 23.5\) frente a \(H_1:\mu_{Y_{ahe}}>23.5\). Es decir, realizar una prueba del lado derecho.
La estadística \(t\) se define como \(\frac{\bar{Y}-\mu_{Y,0}}{s_{Y}/\sqrt{n}}\) donde \(s_Y\) denota la varianza de la muestra.
Para decidir si la hipótesis nula es aceptada o rechazada, puede comparar la estadística \(t\) con el respectivo cuantil de la distribución normal estándar. Utilice operadores lógicos.
5. Prueba de hipótesis — valor \(p\)
Reconsiderar la situación de prueba del ejercicio anterior. El conjunto de datos cps y el vector tstat están disponibles en su entorno de trabajo.
En lugar de usar el estadístico \(t\) como criterio de decisión, también se puede usar el valor \(p\). Ahora hacer lo siguiente:
Instrucciones:
Calcular el valor \(p\) a mano y asignarlo a pval.
Utilizar pval para aceptar o rechazar la hipótesis nula.
Sugerencias:
El valor \(p\) para una prueba del lado derecho se puede calcular como \(p=P(t>t^{act}|H_0)\).
Se rechaza la hipótesis nula si \(p<\alpha\). Se usan operadores lógicos para verificar esto.
6. Prueba de hipótesis — Una muestra prueba \(t\)
En los dos últimos ejercicios se discutieron dos formas de realizar una prueba de hipótesis. Estos enfoques son algo engorrosos de aplicar a mano, por lo que R proporciona la función t.test(). Hace la mayor parte del trabajo automáticamente. t.test() proporciona el estadístico \(t\), valor \(p\) e incluso intervalos de confianza (más sobre esto último en ejercicios posteriores). Se debe tener en cuenta que t.test() usa la distribución \(t\) en lugar de la distribución normal, que se vuelve importante cuando el tamaño de la muestra es pequeño.
El conjunto de datos cps y la variable pval del ejercicio 3.4 están disponibles en su entorno de trabajo.
Instrucciones:
Realizar la prueba de hipótesis de ejercicios anteriores usando la función t.test().
Extraer es estadístico \(t\) y el valor \(p\) de la lista creada por t.test(). Asígnarlos a las variables tstat y pvalue.
Verificar que el uso de la aproximación normal sea válido calculando la diferencia entre ambos valores de \(p\).
Sugerencias:
El tipo de prueba así como la hipótesis nula se pueden especificar mediante los argumentos alternative y mu.
La estadística \(t\) y el valor \(p\) se pueden obtener mediante $statistic y $p.value, respectivamente.
7. Prueba de hipótesis — Dos muestras prueba \(t\)
Considere los niveles máximos anuales del mar en Port Pirie (Australia Meridional) y Fremantle (Australia Occidental) durante los últimos 30 años.
Las observaciones están disponibles como vectores portpirie y fremantle en su entorno de trabajo.
Instrucciones:
- Pruebe si existe una diferencia significativa en los niveles máximos anuales del mar a un nivel de significancia de \(\alpha = 0.05\).
Sugerencias:
Probar \(H_0:\mu_{P}-\mu_{F}=0\) frente a \(H_1:\mu_{P}-\mu_{F}\ne 0\). Es decir, realizar una prueba \(t\) de dos muestras.
Para una prueba \(t\) de dos muestras, la función t.test() espera dos vectores que contengan los datos.
8. Intervalo de confianza
Reconsidar la situación de prueba con respecto a los niveles máximos anuales del mar en Port Pirie y Fremantle.
Las variables portpirie y fremantle vuelven a estar disponibles en su entorno de trabajo.
Instrucciones:
- Construir un intervalo de confianza de \(95\%\) - para la diferencia en los niveles del mar usando t.test().
Sugerencia:
- La función t.test() calcula un intervalo de confianza de \(95\%\) por defecto. Esto es accesible a través de $conf.int.
9. (Co)varianza y correlación I
Considerar una muestra aleatoria \((X_i, Y_i)\) para \(i = 1, ..., 100\).
Los vectores respectivos X e Y están disponibles en su entorno de trabajo.
Instrucciones:
Calcular la varianza de \(X\) usando la función cov().
Calcular la covarianza de \(X\) y \(Y\).
Calcular la correlación entre \(X\) y \(Y\).
Sugerencias:
La varianza es un caso especial de covarianza.
cov() y cor() esperan un vector para cada variable.
10. (Co)varianza y correlación II
En este ejercicio se quieren examinar las limitaciones de la correlación como medida de dependencia.
Una vez que se haya inicializado la sesión, verá la gráfica de 100 realizaciones de dos variables aleatorias \(X\) y \(Y\).
Las observaciones respectivas están disponibles en los vectores X e Y en su entorno de trabajo.
Instrucciones:
- Calcular la correlación entre \(X\) y \(Y\). Interpretar su resultado de manera crítica.
Sugerencia:
- cor() espera un vector para cada variable.