Supuestos del Modelo de Regresión Lineal
Supuestos Básicos
Rango Completo y Ausencia de Multicolinealidad Perfecta
La matriz X de variables independientes debe tener rango completo, lo que significa que no existe una relación lineal perfecta entre los regresores. De lo contrario, los parámetros del modelo no se pueden estimar de manera confiable.
Especificación Correcta del Modelo
El modelo de regresión debe estar correctamente especificado, es decir, debe reflejar la verdadera relación entre las variables dependientes e independientes. Una especificación incorrecta puede llevar a problemas de sesgo e inconsistencia en los estimadores.
Valor Esperado Cero del Error
Dado los valores de X, el error del modelo debe tener un valor esperado de cero para todas las observaciones. Esto implica que el modelo no está sesgado y que, en promedio, las predicciones son precisas.
Exogeneidad Fuerte
Las variables independientes (X) deben ser exógenas, lo que significa que no están correlacionadas con el término de error (u). Si X y u están correlacionados, los estimadores pueden ser sesgados e inconsistentes.
Homocedasticidad y Ausencia de Autocorrelación
Los errores del modelo deben ser homocedásticos, es decir, tener una varianza constante a lo largo de los valores de X. Además, no debe haber autocorrelación entre los errores, lo que significa que los errores de diferentes observaciones no están correlacionados.
Puntos de Apalancamiento y Sesgo de Omisión
Puntos de Apalancamiento
Un punto de apalancamiento es una observación que se encuentra alejada de la media de las variables independientes (X). Estos puntos pueden tener una gran influencia en los resultados de la regresión, especialmente si también son valores atípicos en la variable dependiente (y).
Sesgo de Omisión
El sesgo de omisión ocurre cuando se omite una variable relevante del modelo que está correlacionada con otros regresores. Esto puede llevar a estimaciones sesgadas e inconsistentes de los coeficientes del modelo.
Multicolinealidad y Cambio Estructural
Multicolinealidad Perfecta
La multicolinealidad perfecta ocurre cuando existe una relación lineal perfecta entre dos o más regresores. Esto hace que la matriz X’X sea singular y, por lo tanto, no invertible, lo que impide la estimación de los parámetros del modelo.
Cambio Estructural
El cambio estructural se refiere a una diferencia en los coeficientes del modelo (β) entre diferentes submuestras de la población. Esto puede ser causado por cambios en las relaciones subyacentes entre las variables o por la presencia de diferentes grupos dentro de la población.
Especificaciones del Modelo
Nivel-Nivel | y = β0 + β1x + u | Si x aumenta en una unidad, entonces y aumenta en β1 unidades. |
---|---|---|
Log-Nivel | log(y) = β0 + β1x + u | Si x aumenta en una unidad, entonces y aumenta en 100 * β1%. |
Log-Log | log(y) = β0 + β1log(x) | Si x aumenta en un 1%, entonces y aumenta en β1%. |
Nivel-Log | y = β0 + β1log(x) | Si x aumenta en un 1%, entonces y aumenta en β1/100 unidades. |
Contrastes de Hipótesis
Los contrastes de hipótesis se utilizan para evaluar la significancia estadística de los coeficientes del modelo y la validez de los supuestos del modelo de regresión lineal.
Test t
El test t se utiliza para evaluar si un coeficiente individual es significativamente diferente de cero. La hipótesis nula (H0) es que el coeficiente es igual a cero, lo que significa que el regresor asociado no está relacionado con la variable dependiente.
Test F
El test F se utiliza para evaluar si todos los coeficientes del modelo son conjuntamente iguales a cero. La hipótesis nula (H0) es que el modelo no explica ninguna variación en la variable dependiente.
Supuestos del Modelo
Test de Linealidad
El test de linealidad evalúa si la relación entre las variables independientes y dependientes es lineal. Una relación no lineal puede indicar una especificación incorrecta del modelo.
Test de Normalidad
El test de normalidad evalúa si los errores del modelo siguen una distribución normal. La no normalidad de los errores puede afectar la validez de los contrastes de hipótesis basados en la distribución t.
Test de Homocedasticidad
El test de homocedasticidad evalúa si la varianza de los errores es constante a lo largo de los valores de las variables independientes. La heterocedasticidad puede llevar a estimaciones ineficientes de los coeficientes y a errores estándar incorrectos.
Consideraciones Prácticas
Es importante tener en cuenta la causalidad y la representatividad de la muestra al interpretar los resultados de la regresión. Si no hay una base teórica para la causalidad o si la muestra no es representativa de la población, los resultados pueden ser engañosos.
En presencia de heterocedasticidad, se pueden utilizar errores estándar robustos, como los errores de White, para obtener estimaciones más precisas de los coeficientes.
Variables Dummy
Las variables dummy son variables binarias que se utilizan para representar categorías o grupos dentro de la muestra. Por ejemplo, una variable dummy para el sexo podría tomar el valor 0 para mujeres y 1 para hombres.
Las variables dummy permiten estimar diferencias en la variable dependiente entre diferentes grupos o categorías. También se pueden utilizar para modelar interacciones entre variables, como el efecto de la estatura en el peso que varía según el sexo.
Las variables dummy son una herramienta útil para incorporar información categórica en los modelos de regresión lineal.