4.4 Intervalos de confianza para la media de la población
Como se enfatizó anteriormente, nunca se calcula el valor exacto de la media poblacional de usando una muestra aleatoria. Sin embargo, se pueden calcular los intervalos de confianza para la media de la población. En general, un intervalo de confianza para un parámetro desconocido es una receta que, en muestras repetidas, produce intervalos que contienen el parámetro verdadero con una probabilidad preespecificada, el nivel de confianza. Los intervalos de confianza se calculan utilizando la información disponible en la muestra. Dado que esta información es el resultado de un proceso aleatorio, los intervalos de confianza son variables aleatorias en sí mismas.
El Concepto clave 3.7 muestra cómo calcular los intervalos de confianza para la media poblacional desconocida .
Concepto clave 3.7
Intervalos de confianza para la media poblacional
Un intervalo de confianza de para es una variable aleatoria que contiene el verdadero en de todas las muestras aleatorias posibles. Cuando es grande, se puede usar la aproximación normal. Entonces, , , los intervalos de confianza son:
Estos intervalos de confianza son conjuntos de hipótesis nulas que no se pueden rechazar en una prueba de hipótesis bilateral con el nivel de confianza dado.
Ahora considerar las siguientes declaraciones.
- En muestreo repetido, el intervalo
cubre el valor real de con una probabilidad de .
- Se ha calculado y por lo que el intervalo
cubre el valor real de con una probabilidad de .
Si bien 1. es correcto (esto está en línea con la definición anterior), 2. está incorrecto y ninguno de profesionista quiere leer una oración de este tipo en un trabajo final, examen escrito o similar, creealo.
La diferencia es que, mientras que 1. es la definición de una variable aleatoria, 2. es un posible resultado de dicha variable aleatoria, por lo que no tiene sentido hacer ninguna afirmación probabilística al respecto. ¡O el intervalo calculado cubre o no!
En R, probar hipótesis sobre la media de una población sobre la base de una muestra aleatoria es muy fácil debido a funciones como t.test() del paquete stats. Produce un objeto del tipo list. Afortunadamente, una de las formas más sencillas de usar t.test() es cuando se desea obtener un intervalo de confianza de para alguna media poblacional. Comenzando por generar algunos datos aleatorios y llamando a t.test() junto con ls() para obtener un desglose de los componentes de salida.
# sembrar semilla
set.seed(1)
# generar algunos datos de muestra
<- rnorm(100, 10, 10)
sampledata
# comprobar el tipo de resultado producido por t.test
typeof(t.test(sampledata))
#> [1] "list"
# mostrar los elementos de la lista producidos por t.test
ls(t.test(sampledata))
#> [1] "alternative" "conf.int" "data.name" "estimate" "method"
#> [6] "null.value" "p.value" "parameter" "statistic" "stderr"
Aunque se seinforman muchos elementos, por el momento solo interesa calcular un conjunto de confianza de para la media.
t.test(sampledata)$"conf.int"
#> [1] 9.306651 12.871096
#> attr(,"conf.level")
#> [1] 0.95
Esto indica que el intervalo de confianza de es
En este ejemplo, el intervalo calculado obviamente cubre el verdadero que se sabe que es .
Resulta importante echar un vistazo a toda la salida estándar producida por t.test().
t.test(sampledata)
#>
#> One Sample t-test
#>
#> data: sampledata
#> t = 12.346, df = 99, p-value < 2.2e-16
#> alternative hypothesis: true mean is not equal to 0
#> 95 percent confidence interval:
#> 9.306651 12.871096
#> sample estimates:
#> mean of x
#> 11.08887
Se puede ver que t.test() no solo calcula un intervalo de confianza de sino que automáticamente realiza una prueba de significancia bilateral de la hipótesis al nivel de e informa los parámetros relevantes de la misma: la hipótesis alternativa, la media estimada, el estadístico resultante, los grados de libertad de la distribución subyacente (t.test() utiliza realizar la aproximación normal) y el valor correspondiente. ¡Esto es muy conveniente!
En este ejemplo, se llegó a la conclusión de que la media poblacional es significativamente diferente de (lo cual es correcto) al nivel de , ya que no es un elemento del intervalo de confianza
Se llega a un resultado equivalente cuando se usa la regla de rechazo del valor , ya que