2.3 Fórmulas

Las fórmulas son construcciones que se utilizan en varios programas estadísticos para especificar modelos. En R, Los objetos de la clase fórmula se pueden usar para almacenar descripciones simbólicas de relaciones entre variables, como el operador ~ en la formación de una fórmula:

f <- y ~ x
class(f)
#> [1] "formula"

Hasta ahora, esta es solo una descripción sin ningún significado concreto. El resultado depende completamente de la función que evalúa esta fórmula. En R, la expresión anterior normalmente significa “Y es explicado por X.” Dichas interfaces de fórmulas son convenientes para especificar, entre otras cosas, gráficos o relaciones de regresión. Por ejemplo, en el siguiente código primero se crean las variables Y y X, posteriormente se genera un diagrama de dispersión de Y contra X y finalmente se ajusta el correspondiente modelo de regresión lineal simple con pendiente \(3.01\) e intersección \(2.00\).

# crear las variables
x <- seq(from = 0, to = 10, by = 0.5)
y <- 2 + 3 * x + rnorm(21)
# diagrama de dispersión simple de Y vs. X
plot(y ~ x)


# modelo de regresión
lm(y ~ x)
#> 
#> Call:
#> lm(formula = y ~ x)
#> 
#> Coefficients:
#> (Intercept)            x  
#>       2.004        3.006

Para especificar modelos de regresión, el lenguaje de fórmulas es mucho más rico que el descrito anteriormente y se basa en una notación simbólica sugerida por Wilkinson y Rogers (1973) en la literatura estadística. Por ejemplo, al usar lm(), log(y) ~ x1 + x2 especifica una regresión lineal de log(y) con dos regresores, x1 y x2. y una constante implícitamente definida.