Análisis de Supuestos en Modelos de Regresión

Omitir una variable importante: Afecta al sesgo en aquellos casos en los que dicha variable está correlacionada con alguna de las variables independientes incluidas en la especificación y/o en el modelo real su coeficiente efectivamente es distinto de cero.

Heteroscedasticidad

Homoscedasticidad: La varianza del error condicionada a todos los posibles valores de las variables independientes es constante.
var( u|x1, x2, x3, xk ) = σ2. En aquellos casos en los que la varianza del error se ve condicionada por alguna o algunas de las variables independientes incorporadas al modelo → heteroscedasticidad. Por lo tanto, INCUMPLIMIENTO SUPUESTO RLM.5: AFECTA A LA EFICIENCIA DE LOS ESTIMADORES PERO NO A SU INSESGADEZ.

Correlación Muestral

Un coeficiente de correlación muestral de 0,95 entre dos variables independientes incluidas en el modelo: El incumplimiento de este supuesto (RLM.4 no colinealidad perfecta) sí que afecta a la insesgadez de los estimadores MCO. Esto implica que ninguna de las variables independientes es constante y no existen relaciones lineales exactas entre las variables independientes. Permite que las variables independientes estén correlacionadas, lo que NO PERMITE ES LA COLINEALIDAD PERFECTA. Por lo tanto, un coeficiente de correlación muestral de 0,95, si bien implica un nivel de correlación muy alto entre las variables independientes, no supone una violación del supuesto RLM4 (la correlación es alta pero no existe colinealidad perfecta), y no afecta por tanto a la insesgadez de los estimadores.

Correlación Negativa entre Variables

¿Por qué log(nox) – o para ser más precisos, log(nox) – y rooms pueden estar negativamente correlacionados? En ese caso, la regresión simple de log(price) sobre log(nox) ¿produce un estimador de β1 con sesgo al alza o a la baja?

  • Barrios de mejor calidad → mayor superficie de las casas y, por tanto, mayor número de habitaciones.
  • Barrios de peor calidad → mayores niveles de contaminación (menos zonas verdes, peor situación, etc.).

Correlación negativa entre el nº de habitaciones y el nivel de contaminación.
log(price) = B0 + B1 log(nox) + B2 rooms + u
log(price) = B0 + B1 log(nox) →

Corr(x1, x2) = 0Corr(x1, x2) > 0Corr(x1, x2)
β2 = 0Sesgo = 0Sesgo = 0Sesgo = 0
β2 > 0Sesgo = 0Sesgo > 0Sesgo
β2Sesgo = 0SesgoSesgo > 0

Ecuacion

E(B1) = B1 + B2 → sesgo a la baja E(B1) | B1 |

Fórmulas del Modelo de Regresión Simple

FRM

Ecuacion

Ecuacion

Ecuacion

Ecuacion

Modelo de Regresión Múltiple

Varianza de los Estimadores: Sirve para medir la precisión de los estimadores. Cuanto menor sea la varianza, entonces más precisos serán los estimadores.
o2 (varianza del término error): – cuanto mayor sea la variable de los factores desconocidos que afectan a la variable y, mayor será la varianza de los estimadores, entonces menor será la precisión de los estimadores.
STC (suma total cuadrática o la variación muestral de las variables explicativas): – cuanto más variabilidad presenten las variables explicativas, menor será la varianza de los estimadores y, por lo tanto, más precisa será la estimación.
R2 (relaciones lineales entre variables independientes): cuando mayores sean las relaciones lineales entre variables independientes (a mayor correlación), mayores serán las varianzas de los estimadores, y por tanto menos precisa será la estimación.

La varianza de un estimador disminuirá cuando:

  • La varianza del error disminuye.
  • Si la variación muestral de la variable independiente aumenta (STC).
  • Si disminuye el grado de colinealidad entre la variable independiente (Rj2).

Insesgadez

LRM.1: Linealidad en los parámetros: La función de regresión poblacional (FRP) es lineal en los parámetros poblacionales b0, b1, …, bk.
???? = ????0 + ????1????1 + ????2????2 + ⋯ + ???????????????? + ????. Es controlable por el investigador, ya que es quien especifica el modelo. Necesario para la insesgadez.

LRM.2: Muestreo aleatorio: Obtenemos de la población una muestra aleatoria de n observaciones: (x1i, x2i, …, xki, yi): i = 1, 2, …, n. Para una observación extraída aleatoriamente de la población tenemos: ???????? = ????0 + ????1????????1 + ????2????????2 + ⋯ + ???????????????????? + ????i. Los datos se recogen mediante la observación del mundo real de una manera pasiva.

LRM.3: Media condicionada nula: El valor esperado de u no depende del valor que tomen las variables explicativas. ( ????| ????1, ????2, …, ????????) = 0. El investigador tiene poco control sobre este supuesto, el cual puede fallar cuando:

  • La relación funcional entre la variable explicada y las explicativas no se especifica adecuadamente.
  • Omitimos factores explicativos relevantes (incluidos en u) que están correlacionados con cualquiera de las variables explicativas x1, x2, …, xk.

LRM.4: No colinealidad perfecta: En la muestra (y, por tanto, en la población), ninguna de las variables explicativas es constante, y no existen relaciones lineales exactas entre las variables explicativas.

EFICIENTE: LRM.5: Homocedasticidad: la varianza del error condicionada a todos los posibles valores de las variables independientes es constante. Variables explicativas. Var( ????1 + ????2 + ⋯ + ????????????) = σ2 (si se incumple estaríamos ante heterocedasticidad).

→ e(B1) = -B1 – B2 → |e(B1)| >