4.4 Intervalos de confianza para la media de la población

Como se enfatizó anteriormente, nunca se calcula el valor exacto de la media poblacional de Y usando una muestra aleatoria. Sin embargo, se pueden calcular los intervalos de confianza para la media de la población. En general, un intervalo de confianza para un parámetro desconocido es una receta que, en muestras repetidas, produce intervalos que contienen el parámetro verdadero con una probabilidad preespecificada, el nivel de confianza. Los intervalos de confianza se calculan utilizando la información disponible en la muestra. Dado que esta información es el resultado de un proceso aleatorio, los intervalos de confianza son variables aleatorias en sí mismas.

El Concepto clave 3.7 muestra cómo calcular los intervalos de confianza para la media poblacional desconocida E(Y).

Concepto clave 3.7

Intervalos de confianza para la media poblacional

Un intervalo de confianza de 95% para μY es una variable aleatoria que contiene el verdadero μY en 95% de todas las muestras aleatorias posibles. Cuando n es grande, se puede usar la aproximación normal. Entonces, 99%, 95%, 90% los intervalos de confianza son:

99% intervalo de confianza para μY=[Y¯±2.58×SE(Y¯)],95% intervalo de confianza para μY=[Y¯±1.96×SE(Y¯)],90% intervalo de confianza para μY=[Y¯±1.64×SE(Y¯)].

Estos intervalos de confianza son conjuntos de hipótesis nulas que no se pueden rechazar en una prueba de hipótesis bilateral con el nivel de confianza dado.

Ahora considerar las siguientes declaraciones.

  1. En muestreo repetido, el intervalo

[Y¯±1.96×SE(Y¯)]

cubre el valor real de μY con una probabilidad de 95%.

  1. Se ha calculado Y¯=5.1 y SE(Y¯)=2.5 por lo que el intervalo

[5.1±1.96×2.5]=[0.2,10]

cubre el valor real de μY con una probabilidad de 95%.

Si bien 1. es correcto (esto está en línea con la definición anterior), 2. está incorrecto y ninguno de profesionista quiere leer una oración de este tipo en un trabajo final, examen escrito o similar, creealo.

La diferencia es que, mientras que 1. es la definición de una variable aleatoria, 2. es un posible resultado de dicha variable aleatoria, por lo que no tiene sentido hacer ninguna afirmación probabilística al respecto. ¡O el intervalo calculado cubre μY o no!

En R, probar hipótesis sobre la media de una población sobre la base de una muestra aleatoria es muy fácil debido a funciones como t.test() del paquete stats. Produce un objeto del tipo list. Afortunadamente, una de las formas más sencillas de usar t.test() es cuando se desea obtener un intervalo de confianza de 95% para alguna media poblacional. Comenzando por generar algunos datos aleatorios y llamando a t.test() junto con ls() para obtener un desglose de los componentes de salida.

# sembrar semilla
set.seed(1)

# generar algunos datos de muestra
sampledata <- rnorm(100, 10, 10)

# comprobar el tipo de resultado producido por t.test
typeof(t.test(sampledata))
#> [1] "list"

# mostrar los elementos de la lista producidos por t.test
ls(t.test(sampledata))
#>  [1] "alternative" "conf.int"    "data.name"   "estimate"    "method"     
#>  [6] "null.value"  "p.value"     "parameter"   "statistic"   "stderr"

Aunque se seinforman muchos elementos, por el momento solo interesa calcular un conjunto de confianza de 95% para la media.

t.test(sampledata)$"conf.int"
#> [1]  9.306651 12.871096
#> attr(,"conf.level")
#> [1] 0.95

Esto indica que el intervalo de confianza de 95% es

[9.31,12.87].

En este ejemplo, el intervalo calculado obviamente cubre el verdadero μY que se sabe que es 10.

Resulta importante echar un vistazo a toda la salida estándar producida por t.test().

t.test(sampledata)
#> 
#>  One Sample t-test
#> 
#> data:  sampledata
#> t = 12.346, df = 99, p-value < 2.2e-16
#> alternative hypothesis: true mean is not equal to 0
#> 95 percent confidence interval:
#>   9.306651 12.871096
#> sample estimates:
#> mean of x 
#>  11.08887

Se puede ver que t.test() no solo calcula un intervalo de confianza de 95% sino que automáticamente realiza una prueba de significancia bilateral de la hipótesis H0:μY=0 al nivel de 5% e informa los parámetros relevantes de la misma: la hipótesis alternativa, la media estimada, el estadístico t resultante, los grados de libertad de la distribución t subyacente (t.test() utiliza realizar la aproximación normal) y el valor p correspondiente. ¡Esto es muy conveniente!

En este ejemplo, se llegó a la conclusión de que la media poblacional es significativamente diferente de 0 (lo cual es correcto) al nivel de 5%, ya que μY=0 no es un elemento del 95% intervalo de confianza

0[9.31,12.87].

Se llega a un resultado equivalente cuando se usa la regla de rechazo del valor p, ya que

p-value=2.210160.05.