7.2 El modelo de regresión múltiple
El modelo de regresión múltiple extiende el concepto básico del modelo de regresión simple discutido en los Capítulos 5 y 6. Un modelo de regresión múltiple permite estimar el efecto en \(Y_i\) de cambiar un regresor \(X_{1i}\) si los regresores restantes \(X_{2i},X_{3i}\dots,X_{ki}\) no varían. De hecho, ya se ha realizado la estimación del modelo de regresión múltiple (6.2) usando R en la sección anterior. La interpretación del coeficiente de la proporción de estudiantes por maestro es el efecto en los puntajes de las pruebas de un cambio de una unidad de la proporción de estudiantes por maestro si el porcentaje de estudiantes de inglés se mantiene constante.
Al igual que en el modelo de regresión simple, se asume que la verdadera relación entre \(Y\) y \(X_{1i},X_{2i}\dots\dots,X_{ki}\) es lineal. En promedio, esta relación viene dada por la función de regresión poblacional
\[ E(Y_i\vert X_{1i}=x_1, X_{2i}=x_2, X_{3i}=x_3,\dots, X_{ki}=x_k) = \beta_0 + \beta_1 x_1 + \beta_2 x_2 + \beta_3 x_3 + \dots + \beta_k x_k. \tag{6.3} \]
Como en el modelo de regresión simple, la relación
\[Y_i = \beta_0 + \beta_1 X_{1i} + \beta_2 X_{2i} + \beta_3 X_{3i} + \dots + \beta_k X_{ki}\]
no se mantienen exactamente, ya que existen influencias perturbadoras en la variable dependiente \(Y\) que no se puede observar como variables explicativas. Por lo tanto, se agrega un término de error \(u\) que representa las desviaciones de las observaciones de la línea de regresión de la población a (6.3). Esto produce el modelo de regresión múltiple de población
\[ Y_i = \beta_0 + \beta_1 X_{1i} + \beta_2 X_{2i} + \beta_3 X_{3i} + \dots + \beta_k X_{ki} + u_i, \ i=1,\dots,n. \tag{6.4} \]
El Concepto clave 6.2 resume los conceptos centrales del modelo de regresión múltiple.
Concepto clave 6.2
El modelo de regresión múltiple
El modelo de regresión múltiple es
\[ Y_i = \beta_0 + \beta_1 X_{1i} + \beta_2 X_{2i} + \beta_3 X_{3i} + \dots + \beta_k X_{ki} + u_i \ \ , \ \ i=1,\dots,n. \]
Las designaciones son similares a las del modelo de regresión simple:
- \(Y_i\) es la observación \(i^{th}\) en la variable dependiente. Las observaciones sobre los regresores \(k\) se indican mediante \(X_{1i},X_{2i},\dots,X_{ki}\) y \(u_i\) es el término de error.
- La relación promedio entre \(Y\) y los regresores está dada por la línea de regresión poblacional
\[ E(Y_i\vert X_{1i}=x_1, X_{2i}=x_2, X_{3i}=x_3,\dots, X_{ki}=x_k) = \beta_0 + \beta_1 x_1 + \beta_2 x_2 + \beta_3 x_3 + \dots + \beta_k x_k. \]
- \(\beta_0\) es la intersección; es el valor esperado de \(Y\) cuando todos los \(X\) son iguales a \(0\). \(\beta_j \ , \ j=1,\dots,k\) son los coeficientes en \(X_j \ , \ j=1,\dots,k\). \(\beta_1\) mide el cambio esperado en \(Y_i\) que resulta de un cambio de una unidad en \(X_{1i}\) mientras se mantienen constantes todos los demás regresores.
¿Cómo se pueden estimar los coeficientes del modelo de regresión múltiple (6.4)? No se entrará demasiado en detalles sobre este tema, ya que el enfoque está en el uso de R. Sin embargo, cabe señalar que, al igual que en el modelo de regresión simple, los coeficientes del modelo de regresión múltiple se pueden estimar mediante MCO. Como en el modelo simple, se busca minimizar la suma de errores al cuadrado eligiendo estimaciones \(b_0,b_1,\dots,b_k\) para los coeficientes \(\beta_0,\beta_1,\dots,\beta_k\) tales que
\[\sum_{i=1}^n (Y_i - b_0 - b_1 X_{1i} - b_2 X_{2i} - \dots - b_k X_{ki})^2 \tag{6.5}\]
se minimiza. Se debe tener en cuenta que (6.5) es simplemente una extensión de \(SSR\) en el caso de un solo regresor y una constante. Por tanto, los estimadores que minimizan (6.5) se denominan \(\hat\beta_0,\hat\beta_1,\dots,\hat\beta_k\) y, como en el modelo de regresión simple, se llaman estimadores de mínimos cuadrados ordinarios de \(\beta_0,\beta_1,\dots,\beta_k\). Para el valor predicho de \(Y_i\) dados los regresores y las estimaciones \(\hat\beta_0,\hat\beta_1,\dots,\hat\beta_k\) se tiene:
\[ \hat{Y}_i = \hat\beta_0 + \hat\beta_1 X_{1i} + \dots +\hat\beta_k X_{ki}. \]
La diferencia entre \(Y_i\) y su valor predicho \(\hat{Y}_i\) se denomina MCO residual de la observación \(i\): \(\hat{u} = Y_i - \hat{Y}_i\).
Para obtener más información sobre la teoría detrás de la regresión múltiple, se presenta una derivación del estimador MCO en el modelo de regresión múltiple utilizando notación matricial.
Volviendo al ejemplo de los resultados de las pruebas y el tamaño de las clases. El objeto de modelo estimado es mult.mod. En cuanto a los modelos de regresión simple, se puede usar summary() para obtener información sobre los coeficientes estimados y las estadísticas del modelo.
summary(mult.mod)$coef
#> Estimate Std. Error t value Pr(>|t|)
#> (Intercept) 686.0322445 7.41131160 92.565565 3.871327e-280
#> STR -1.1012956 0.38027827 -2.896026 3.978059e-03
#> english -0.6497768 0.03934254 -16.515882 1.657448e-47
Entonces, el modelo de regresión múltiple estimado es
\[ \widehat{TestScore} = 686.03 - 1.10 \times STR - 0.65 \times PctEL \tag{6.6}. \]
A diferencia del modelo de regresión simple donde los datos se pueden representar por puntos en el sistema de coordenadas bidimensionales, ahora se tienen tres dimensiones. Por tanto, las observaciones se pueden representar mediante puntos en el espacio tridimensional. Por lo tanto (6.6) ahora ya no es más una línea de regresión sino un plano de regresión. Esta idea se extiende a dimensiones superiores cuando se amplian aún más el número de regresores \(k\). Luego, se dice que el modelo de regresión se puede representar mediante un hiperplano en el espacio dimensional \(k+1\). Ya es difícil imaginar un espacio así con \(k = 3\) y lo mejor es seguir con la idea general de que, en el modelo de regresión múltiple, la variable dependiente se explica por una combinación lineal de regresores. Sin embargo, en el presente caso se puede visualizar la situación. La siguiente figura es una visualización 3D interactiva de los datos y el plano de regresión estimado (6.6).
Se puede observar que el plano de regresión estimado se ajusta razonablemente bien a los datos, al menos respecto a la forma y posición espacial de los puntos. El color de los marcadores es un indicador de la desviación absoluta del plano de regresión predicho. Las observaciones que tienen un color más rojizo se encuentran cerca del plano de regresión, mientras que el color cambia a azul con la distancia creciente. Una anomalía que se puede ver en el gráfico es que podría haber heterocedasticidad: Se puede ver que la dispersión de los errores de regresión cometidos; es decir, la distancia de las observaciones al plano de regresión tiende a disminuir a medida que aumenta la proporción de estudiantes que aprenden inglés.