12.4 Aplicación a los datos de la HMDA de Boston
Los modelos (12.6) y (12.7) indican que las tasas de denegación son más altas para los solicitantes afroamericanos que mantienen constante la relación pago-ingreso. Ambos resultados podrían estar sujetos a sesgo de variable omitida. Para obtener una estimación más confiable del efecto de ser negro sobre la probabilidad de denegación de una solicitud de hipoteca, se estima un modelo de probabilidad lineal, así como varios modelos Logit y Probit. Por lo tanto, se controlan las variables financieras y las características adicionales del solicitante que probablemente influyan en la probabilidad de denegación y difieran entre los solicitantes blancos y negros.
Los promedios de la muestra se pueden reproducir fácilmente usando las funciones mean() (como es habitual para las variables numéricas) y prop.table() (para las variables factoriales).
# media de la relación P/I
mean(HMDA$pirat)
#> [1] 0.3308136
# relación entre gastos e ingresos totales de la vivienda
mean(HMDA$hirat)
#> [1] 0.2553461
# relación valor del préstamo
mean(HMDA$lvrat)
#> [1] 0.7377759
# puntaje de crédito del consumidor
mean(as.numeric(HMDA$chist))
#> [1] 2.116387
# puntaje de crédito hipotecario
mean(as.numeric(HMDA$mhist))
#> [1] 1.721008
# historial de crédito público malo
mean(as.numeric(HMDA$phist)-1)
#> [1] 0.07352941
# seguro hipotecario denegado
prop.table(table(HMDA$insurance))
#>
#> no yes
#> 0.97983193 0.02016807
# trabajadores por cuenta propia
prop.table(table(HMDA$selfemp))
#>
#> no yes
#> 0.8836134 0.1163866
# soltero
prop.table(table(HMDA$single))
#>
#> no yes
#> 0.6067227 0.3932773
# diploma de escuela secundaria
prop.table(table(HMDA$hschool))
#>
#> no yes
#> 0.01638655 0.98361345
# tasa de desempleo
mean(HMDA$unemp)
#> [1] 3.774496
# condominio
prop.table(table(HMDA$condomin))
#>
#> no yes
#> 0.7117647 0.2882353
# negro
prop.table(table(HMDA$black))
#>
#> no yes
#> 0.857563 0.142437
# denegar
prop.table(table(HMDA$deny))
#>
#> 0 1
#> 0.8802521 0.1197479
Se recomienda usar la función de ayuda de R para obtener más información sobre las variables contenidas en el conjunto de datos HMDA.
Antes de estimar los modelos, se debe transformar la relación préstamo-valor (lvrat) en una variable factorial, donde
\[\begin{align*} lvrat = \begin{cases} \text{low} & \text{if} \ \ lvrat < 0.8, \\ \text{medium} & \text{if} \ \ 0.8 \leq lvrat \leq 0.95, \\ \text{high} & \text{if} \ \ lvrat > 0.95 \end{cases} \end{align*}\]
y convertir ambos puntajes de crédito en variables numéricas.
# definir una relación préstamo-valor baja, media y alta
$lvrat <- factor(
HMDAifelse(HMDA$lvrat < 0.8, "low",
ifelse(HMDA$lvrat >= 0.8 & HMDA$lvrat <= 0.95, "medium", "high")),
levels = c("low", "medium", "high"))
# convertir puntajes de crédito a numéricos
$mhist <- as.numeric(HMDA$mhist)
HMDA$chist <- as.numeric(HMDA$chist) HMDA
A continuación, se construyen los resultados de las estimaciones.
# estimar los 6 modelos para la probabilidad de negación
<- lm(deny ~ black + pirat + hirat + lvrat + chist + mhist + phist
lpm_HMDA + insurance + selfemp, data = HMDA)
<- glm(deny ~ black + pirat + hirat + lvrat + chist + mhist + phist
logit_HMDA + insurance + selfemp,
family = binomial(link = "logit"),
data = HMDA)
<- glm(deny ~ black + pirat + hirat + lvrat + chist + mhist + phist
probit_HMDA_1 + insurance + selfemp,
family = binomial(link = "probit"),
data = HMDA)
<- glm(deny ~ black + pirat + hirat + lvrat + chist + mhist + phist
probit_HMDA_2 + insurance + selfemp + single + hschool + unemp,
family = binomial(link = "probit"),
data = HMDA)
<- glm(deny ~ black + pirat + hirat + lvrat + chist + mhist
probit_HMDA_3 + phist + insurance + selfemp + single + hschool + unemp + condomin
+ I(mhist==3) + I(mhist==4) + I(chist==3) + I(chist==4) + I(chist==5)
+ I(chist==6),
family = binomial(link = "probit"),
data = HMDA)
<- glm(deny ~ black * (pirat + hirat) + lvrat + chist + mhist + phist
probit_HMDA_4 + insurance + selfemp + single + hschool + unemp,
family = binomial(link = "probit"),
data = HMDA)
Al igual que en los capítulos anteriores, se almacenan los errores estándar robustos a la heterocedasticidad de los estimadores de coeficientes en un objeto list que luego se utiliza como argumento se en stargazer().
<- list(sqrt(diag(vcovHC(lpm_HMDA, type = "HC1"))),
rob_se sqrt(diag(vcovHC(logit_HMDA, type = "HC1"))),
sqrt(diag(vcovHC(probit_HMDA_1, type = "HC1"))),
sqrt(diag(vcovHC(probit_HMDA_2, type = "HC1"))),
sqrt(diag(vcovHC(probit_HMDA_3, type = "HC1"))),
sqrt(diag(vcovHC(probit_HMDA_4, type = "HC1"))))
stargazer(lpm_HMDA, logit_HMDA, probit_HMDA_1,
probit_HMDA_2, probit_HMDA_3, probit_HMDA_4, digits = 3,
type = "latex",
header = FALSE,
se = rob_se,
model.numbers = FALSE,
column.labels = c("(1)", "(2)", "(3)", "(4)", "(5)", "(6)"))
Variable dependiente: Denegación de solicitud de hipoteca | ||||||
deny | ||||||
OLS | logistic | probit | ||||
(1) | (2) | (3) | (4) | (5) | (6) | |
blackyes | 0.084*** | 0.688*** | 0.389*** | 0.371*** | 0.363*** | 0.246 |
(0.023) | (0.183) | (0.099) | (0.100) | (0.101) | (0.479) | |
pirat | 0.449*** | 4.764*** | 2.442*** | 2.464*** | 2.622*** | 2.572*** |
(0.114) | (1.332) | (0.673) | (0.654) | (0.665) | (0.728) | |
hirat | -0.048 | -0.109 | -0.185 | -0.302 | -0.502 | -0.538 |
(0.110) | (1.298) | (0.689) | (0.689) | (0.715) | (0.755) | |
lvratmedium | 0.031** | 0.464*** | 0.214*** | 0.216*** | 0.215** | 0.216*** |
(0.013) | (0.160) | (0.082) | (0.082) | (0.084) | (0.083) | |
lvrathigh | 0.189*** | 1.495*** | 0.791*** | 0.795*** | 0.836*** | 0.788*** |
(0.050) | (0.325) | (0.183) | (0.184) | (0.185) | (0.185) | |
chist | 0.031*** | 0.290*** | 0.155*** | 0.158*** | 0.344*** | 0.158*** |
(0.005) | (0.039) | (0.021) | (0.021) | (0.108) | (0.021) | |
mhist | 0.021* | 0.279** | 0.148** | 0.110 | 0.162 | 0.111 |
(0.011) | (0.138) | (0.073) | (0.076) | (0.104) | (0.077) | |
phistyes | 0.197*** | 1.226*** | 0.697*** | 0.702*** | 0.717*** | 0.705*** |
(0.035) | (0.203) | (0.114) | (0.115) | (0.116) | (0.115) | |
insuranceyes | 0.702*** | 4.548*** | 2.557*** | 2.585*** | 2.589*** | 2.590*** |
(0.045) | (0.576) | (0.305) | (0.299) | (0.306) | (0.299) | |
selfempyes | 0.060*** | 0.666*** | 0.359*** | 0.346*** | 0.342*** | 0.348*** |
(0.021) | (0.214) | (0.113) | (0.116) | (0.116) | (0.116) | |
singleyes | 0.229*** | 0.230*** | 0.226*** | |||
(0.080) | (0.086) | (0.081) | ||||
hschoolyes | -0.613*** | -0.604** | -0.620*** | |||
(0.229) | (0.237) | (0.229) | ||||
unemp | 0.030* | 0.028 | 0.030 | |||
(0.018) | (0.018) | (0.018) | ||||
condominyes | -0.055 | |||||
(0.096) | ||||||
I(mhist == 3) | -0.107 | |||||
(0.301) | ||||||
I(mhist == 4) | -0.383 | |||||
(0.427) | ||||||
I(chist == 3) | -0.226 | |||||
(0.248) | ||||||
I(chist == 4) | -0.251 | |||||
(0.338) | ||||||
I(chist == 5) | -0.789* | |||||
(0.412) | ||||||
I(chist == 6) | -0.905* | |||||
(0.515) | ||||||
blackyes:pirat | -0.579 | |||||
(1.550) | ||||||
blackyes:hirat | 1.232 | |||||
(1.709) | ||||||
Constant | -0.183*** | -5.707*** | -3.041*** | -2.575*** | -2.896*** | -2.543*** |
(0.028) | (0.484) | (0.250) | (0.350) | (0.404) | (0.370) | |
Observations | 2,380 | 2,380 | 2,380 | 2,380 | 2,380 | 2,380 |
R2 | 0.266 | |||||
Adjusted R2 | 0.263 | |||||
Log Likelihood | -635.637 | -636.847 | -628.614 | -625.064 | -628.332 | |
Akaike Inf. Crit. | 1,293.273 | 1,295.694 | 1,285.227 | 1,292.129 | 1,288.664 | |
Residual Std. Error | 0.279 (df = 2369) | |||||
F Statistic | 85.974*** (df = 10; 2369) | |||||
Note: | *p<0.1; **p<0.05; ***p<0.01 |
Table 12.1: Datos HMDA: Modelos LPM, Probit y Logit
En la tabla 12.1, los modelos (1), (2) y (3) son especificaciones de referencia que incluyen varias variables de control financiero. Se diferencian solo en la forma en que modelan la probabilidad de negación. El modelo (1) es un modelo de probabilidad lineal, el modelo (2) es una regresión Logit y el modelo (3) utiliza el enfoque Probit.
En el modelo lineal (1), los coeficientes tienen interpretación directa. Por ejemplo, se estima que un aumento en la calificación crediticia del consumidor en \(1\) unidad aumentará la probabilidad de denegación de un préstamo en aproximadamente \(0.031\) puntos porcentuales. Tener una relación préstamo-valor alta es perjudicial para la aprobación del crédito: El coeficiente para una relación préstamo-valor superior a \(0.95\) es \(0.189\), por lo que se estima que los clientes con esta propiedad enfrentan un riesgo de casi \(19\%\) mayor de negación que aquellos con una baja relación préstamo-valor, ceteris paribus. El coeficiente estimado de la variable ficticia de raza es de \(0.084\), lo que indica que la probabilidad de denegación para los afroamericanos es \(8.4\%\) mayor que para los solicitantes blancos con las mismas características, excepto por la raza. Aparte de la relación entre gastos e ingresos de la vivienda y el puntaje de crédito hipotecario, todos los coeficientes son significativos.
Los modelos (2) y (3) proporcionan evidencia similar de que existe discriminación racial en el mercado hipotecario de EE. UU; dado que todos los coeficientes, excepto la relación entre gastos e ingresos de la vivienda (que no es significativamente diferente de cero), son significativos al nivel de \(1\%\). Como se discutió anteriormente, la no linealidad hace que la interpretación de las estimaciones de los coeficientes sea más difícil que para el modelo (1). Para hacer una declaración sobre el efecto de ser negro, se necesita calcular la probabilidad de negación estimada para dos individuos que solo difieren en la raza. Para la comparación, se consideran dos individuos que comparten valores medios para todos los regresores numéricos. Para las variables cualitativas se asigna la propiedad que es más representativa para los datos disponibles. Por ejemplo, considere el trabajo por cuenta propia: Se ha visto que aproximadamente \(88\%\) de todas las personas de la muestra no son trabajadores por cuenta propia, por lo que se establece selfemp = no. Con este enfoque, la estimación del efecto sobre la probabilidad de negación de ser afroamericano del modelo Logit (2) es de aproximadamente \(4\%\). El siguiente fragmento de código muestra cómo aplicar este enfoque para los modelos (1) a (7) usando R.
# calcular valores de regresión para una persona negra promedio
<- data.frame(
new "pirat" = mean(HMDA$pirat),
"hirat" = mean(HMDA$hirat),
"lvrat" = "low",
"chist" = mean(HMDA$chist),
"mhist" = mean(HMDA$mhist),
"phist" = "no",
"insurance" = "no",
"selfemp" = "no",
"black" = c("no", "yes"),
"single" = "no",
"hschool" = "yes",
"unemp" = mean(HMDA$unemp),
"condomin" = "no")
# diferencia predicha por el LPM
<- predict(lpm_HMDA, newdata = new)
predictions diff(predictions)
#> 2
#> 0.08369674
# diferencia predicha por el modelo logit
<- predict(logit_HMDA, newdata = new, type = "response")
predictions diff(predictions)
#> 2
#> 0.04042135
# diferencia predicha por el modelo probit (3)
<- predict(probit_HMDA_1, newdata = new, type = "response")
predictions diff(predictions)
#> 2
#> 0.05049716
# diferencia predicha por el modelo probit (4)
<- predict(probit_HMDA_2, newdata = new, type = "response")
predictions diff(predictions)
#> 2
#> 0.03978918
# diferencia predicha por el modelo probit (5)
<- predict(probit_HMDA_3, newdata = new, type = "response")
predictions diff(predictions)
#> 2
#> 0.04972468
# diferencia predicha por el modelo probit (6)
<- predict(probit_HMDA_4, newdata = new, type = "response")
predictions diff(predictions)
#> 2
#> 0.03955893
Las estimaciones del impacto sobre la probabilidad de negación de ser negro son similares para los modelos (2) y (3). Es interesante que la magnitud de los efectos estimados es mucho menor que para los modelos Probit y Logit que no controlan por características financieras (ver sección 11.2). Esto indica que estos modelos simples producen estimaciones sesgadas debido a variables omitidas.
Las regresiones (4) a (6) utilizan especificaciones de regresión que incluyen diferentes características del solicitante y variables indicadoras de calificación crediticia, así como interacciones. Sin embargo, la mayoría de los coeficientes correspondientes no son significativos y las estimaciones del coeficiente sobre negro obtenidas para estos modelos, así como la diferencia estimada en las probabilidades de negación, no difieren mucho de las obtenidas para especificaciones similares (2) y (3).
Una pregunta interesante relacionada con la discriminación racial se puede investigar utilizando el modelo Probit (6) donde las interacciones blackyes:pirat y blackyes:hirat se agregan al modelo (4). Si el coeficiente de blackyes:pirat fuera diferente de cero, el efecto de la relación pago-ingreso sobre la probabilidad de denegación sería diferente para los solicitantes blancos y negros. De manera similar, un coeficiente distinto de cero en blackyes:hirat indicaría que los oficiales de crédito evalúan el riesgo de quiebra asociado con una alta relación préstamo-valor de manera diferente para los solicitantes de hipotecas blancos y negros. Se puede probar si estos coeficientes son conjuntamente significativos al nivel de \(5\%\) usando una prueba de \(F\).
linearHypothesis(probit_HMDA_4,
test = "F",
c("blackyes:pirat=0", "blackyes:hirat=0"),
vcov = vcovHC, type = "HC1")
#> Linear hypothesis test
#>
#> Hypothesis:
#> blackyes:pirat = 0
#> blackyes:hirat = 0
#>
#> Model 1: restricted model
#> Model 2: deny ~ black * (pirat + hirat) + lvrat + chist + mhist + phist +
#> insurance + selfemp + single + hschool + unemp
#>
#> Note: Coefficient covariance matrix supplied.
#>
#> Res.Df Df F Pr(>F)
#> 1 2366
#> 2 2364 2 0.2473 0.7809
Dado que \(p\text{-value} \approx 0.77\) para esta prueba, el valor nulo no se puede rechazar. No obstante, se puede rechazar la hipótesis de que no existe discriminación racial en absoluto, ya que la prueba \(F\) correspondiente tiene un \(p\text{-value}\) de aproximadamente \(0.002\).
linearHypothesis(probit_HMDA_4,
test = "F",
c("blackyes=0", "blackyes:pirat=0", "blackyes:hirat=0"),
vcov = vcovHC, type = "HC1")
#> Linear hypothesis test
#>
#> Hypothesis:
#> blackyes = 0
#> blackyes:pirat = 0
#> blackyes:hirat = 0
#>
#> Model 1: restricted model
#> Model 2: deny ~ black * (pirat + hirat) + lvrat + chist + mhist + phist +
#> insurance + selfemp + single + hschool + unemp
#>
#> Note: Coefficient covariance matrix supplied.
#>
#> Res.Df Df F Pr(>F)
#> 1 2367
#> 2 2364 3 4.7774 0.002534 **
#> ---
#> Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Resumen
Los modelos (1) a (6) proporcionan evidencia de que existe un efecto de ser afroamericano en la probabilidad de denegación de una solicitud de hipoteca: En todas las especificaciones, se estima que el efecto es positivo (entre \(4\%\) y \(5\%\)) y es significativamente diferente de cero en el nivel de \(1\%\). Si bien el modelo de probabilidad lineal parece sobrestimar ligeramente este efecto, aún puede usarse como una aproximación a una relación intrínsecamente no lineal.