4.5 Comparación de medias de diferentes poblaciones
Suponga que está interesado en las medias de dos poblaciones diferentes, denotadas como \(\mu_1\) y \(\mu_2\). Más específicamente, interesa si estas medias poblacionales son diferentes entre sí y planear usar una prueba de hipótesis para verificar esto sobre la base de datos de muestra independientes de ambas poblaciones. Un par de hipótesis adecuadas es
\[\begin{equation} H_0: \mu_1 - \mu_2 = d_0 \ \ \text{vs.} \ \ H_1: \mu_1 - \mu_2 \neq d_0 \tag{4.6} \end{equation}\]
donde \(d_0\) denota la diferencia hipotética de medias (entonces \(d_0 = 0\) cuando las medias son iguales, bajo la hipótesis nula). En el curso se enseña que \(H_0\) se puede probar con el estadístico \(t\)
\[\begin{equation} t=\frac{(\overline{Y}_1 - \overline{Y}_2) - d_0}{SE(\overline{Y}_1 - \overline{Y}_2)} \tag{4.7} \end{equation}\]
donde
\[\begin{equation} SE(\overline{Y}_1 - \overline{Y}_2) = \sqrt{\frac{s_1^2}{n_1} + \frac{s_2^2}{n_2}}. \end{equation}\]
Esto se denomina prueba \(t\) de dos muestras. Para \(n_1\) y \(n_2\) grandes, (4.7) es normal estándar bajo la hipótesis nula. De manera análoga a la prueba simple \(t\), se pueden calcular intervalos de confianza para la verdadera diferencia en las medias poblacionales:
\[ (\overline{Y}_1 - \overline{Y}_2) \pm 1.96 \times SE(\overline{Y}_1 - \overline{Y}_2) \]
es un intervalo de confianza de \(95\%\) para \(d\).
En R, las hipótesis como en (4.6) también se pueden probar con t.test(). Se debe tener en cuenta que t.test() elige \(d_0 = 0\) de forma predeterminada. En consecuenci, esto se puede cambiar configurando el argumento mu.
El siguiente fragmento de código demuestra cómo realizar una prueba \(t\) de dos muestras en R utilizando datos simulados.
# establecer semilla aleatoria
set.seed(1)
# extraer datos de dos poblaciones diferentes con la misma media
<- rnorm(100, 10, 10)
sample_pop1 <- rnorm(100, 10, 20)
sample_pop2
# realizar una prueba t de dos muestras
t.test(sample_pop1, sample_pop2)
#>
#> Welch Two Sample t-test
#>
#> data: sample_pop1 and sample_pop2
#> t = 0.872, df = 140.52, p-value = 0.3847
#> alternative hypothesis: true difference in means is not equal to 0
#> 95 percent confidence interval:
#> -2.338012 6.028083
#> sample estimates:
#> mean of x mean of y
#> 11.088874 9.243838
Se ha encontrado que la prueba \(t\) de dos muestras no rechaza la hipótesis nula (verdadera) de que \(d_0 = 0\).