4.4 Intervalos de confianza para la media de la población

Como se enfatizó anteriormente, nunca se calcula el valor exacto de la media poblacional de \(Y\) usando una muestra aleatoria. Sin embargo, se pueden calcular los intervalos de confianza para la media de la población. En general, un intervalo de confianza para un parámetro desconocido es una receta que, en muestras repetidas, produce intervalos que contienen el parámetro verdadero con una probabilidad preespecificada, el nivel de confianza. Los intervalos de confianza se calculan utilizando la información disponible en la muestra. Dado que esta información es el resultado de un proceso aleatorio, los intervalos de confianza son variables aleatorias en sí mismas.

El Concepto clave 3.7 muestra cómo calcular los intervalos de confianza para la media poblacional desconocida \(E(Y)\).

Concepto clave 3.7

Intervalos de confianza para la media poblacional

Un intervalo de confianza de \(95\%\) para \(\mu_Y\) es una variable aleatoria que contiene el verdadero \(\mu_Y\) en \(95\%\) de todas las muestras aleatorias posibles. Cuando \(n\) es grande, se puede usar la aproximación normal. Entonces, \(99\%\), \(95\%\), \(90\%\) los intervalos de confianza son:

\[\begin{align} &99\%\text{ intervalo de confianza para } \mu_Y = \left[ \overline{Y} \pm 2.58 \times SE(\overline{Y}) \right], \\ &95\%\text{ intervalo de confianza para } \mu_Y = \left[\overline{Y} \pm 1.96 \times SE(\overline{Y}) \right], \\ &90\%\text{ intervalo de confianza para } \mu_Y = \left[ \overline{Y} \pm 1.64 \times SE(\overline{Y}) \right]. \end{align}\]

Estos intervalos de confianza son conjuntos de hipótesis nulas que no se pueden rechazar en una prueba de hipótesis bilateral con el nivel de confianza dado.

Ahora considerar las siguientes declaraciones.

En muestreo repetido, el intervalo

\[ \left[ \overline{Y} \pm 1.96 \times SE(\overline{Y}) \right] \]

cubre el valor real de \(\mu_Y\) con una probabilidad de \(95\%\).

Se ha calculado \(\overline{Y} = 5.1\) y \(SE(\overline{Y})=2.5\) por lo que el intervalo

\[ \left[ 5.1 \pm 1.96 \times 2.5 \right] = \left[0.2,10\right] \]

cubre el valor real de \(\mu_Y\) con una probabilidad de \(95\%\).

Si bien 1. es correcto (esto está en línea con la definición anterior), 2. está incorrecto y ninguno de profesionista quiere leer una oración de este tipo en un trabajo final, examen escrito o similar, creealo.

La diferencia es que, mientras que 1. es la definición de una variable aleatoria, 2. es un posible resultado de dicha variable aleatoria, por lo que no tiene sentido hacer ninguna afirmación probabilística al respecto. ¡O el intervalo calculado cubre \(\mu_Y\) o no!

En R, probar hipótesis sobre la media de una población sobre la base de una muestra aleatoria es muy fácil debido a funciones como t.test() del paquete stats. Produce un objeto del tipo list. Afortunadamente, una de las formas más sencillas de usar t.test() es cuando se desea obtener un intervalo de confianza de \(95\%\) para alguna media poblacional. Comenzando por generar algunos datos aleatorios y llamando a t.test() junto con ls() para obtener un desglose de los componentes de salida.

# sembrar semilla
set.seed(1)

# generar algunos datos de muestra
sampledata <- rnorm(100, 10, 10)

# comprobar el tipo de resultado producido por t.test
typeof(t.test(sampledata))
#> [1] "list"

# mostrar los elementos de la lista producidos por t.test
ls(t.test(sampledata))
#>  [1] "alternative" "conf.int"    "data.name"   "estimate"    "method"     
#>  [6] "null.value"  "p.value"     "parameter"   "statistic"   "stderr"

Aunque se seinforman muchos elementos, por el momento solo interesa calcular un conjunto de confianza de \(95\%\) para la media.

t.test(sampledata)$"conf.int"
#> [1]  9.306651 12.871096
#> attr(,"conf.level")
#> [1] 0.95

Esto indica que el intervalo de confianza de \(95\%\) es

\[ \left[9.31, 12.87\right]. \]

En este ejemplo, el intervalo calculado obviamente cubre el verdadero \(\mu_Y\) que se sabe que es \(10\).

Resulta importante echar un vistazo a toda la salida estándar producida por t.test().

t.test(sampledata)
#> 
#>  One Sample t-test
#> 
#> data:  sampledata
#> t = 12.346, df = 99, p-value < 2.2e-16
#> alternative hypothesis: true mean is not equal to 0
#> 95 percent confidence interval:
#>   9.306651 12.871096
#> sample estimates:
#> mean of x 
#>  11.08887

Se puede ver que t.test() no solo calcula un intervalo de confianza de \(95\%\) sino que automáticamente realiza una prueba de significancia bilateral de la hipótesis \(H_0: \mu_Y = 0\) al nivel de \(5\%\) e informa los parámetros relevantes de la misma: la hipótesis alternativa, la media estimada, el estadístico \(t\) resultante, los grados de libertad de la distribución \(t\) subyacente (t.test() utiliza realizar la aproximación normal) y el valor \(p\) correspondiente. ¡Esto es muy conveniente!

En este ejemplo, se llegó a la conclusión de que la media poblacional es significativamente diferente de \(0\) (lo cual es correcto) al nivel de \(5\%\), ya que \(\mu_Y = 0\) no es un elemento del \(95\%\) intervalo de confianza

\[ 0 \not\in \left[9.31,12.87\right]. \]

Se llega a un resultado equivalente cuando se usa la regla de rechazo del valor \(p\), ya que

\[ p\text{-value} = 2.2\cdot 10^{-16} \ll 0.05. \]