Criterios de Selección y Supuestos en Modelos de Regresión

Criterios de Selección

Intramuestra: Mejor Ajuste

  • Coeficientes de determinación (R2)
  • Coeficiente de determinación ajustado (R2 ajustado)
  • Criterios de información (AIC, BIC, HQIC)

Fuera de Muestra: Mejor Proyección

  • Media de errores cuadrados de predicción (RMSEP = Ecuacion )
  • Media de errores absolutos (MAEP) Ecuacion

* Para un mejor modelo, R2 mayor y todo lo demás menor.

* Mientras más regresores Ecuacion

* A mayor K, mejor R2.

Violación de Supuestos

Supuestos de Especificación Correcta

Cuando no se omiten variables relevantes y no se incluyen variables irrelevantes, hablamos de sesgo de especificación. Cuando se viola este supuesto, ocurre la omisión de variables relevantes y la inclusión de variables irrelevantes.

Omisión de Variables

Coeficientes sesgados y sus varianzas inválidas.

Cuando se omite una variable relevante, lo más probable es que sea menor la varianza, pero también puede ser mayor debido al efecto de Ecuacion .

Si el coeficiente es positivo, entonces es probable que sea positivo el sesgo solo si la correlación parcial entre mi variable dependiente y el coeficiente es positivo.

Cuando se agrega una variable irrelevante, la varianza es mayor o igual.

El sesgo depende de la covarianza entre las variables incluidas respecto de las excluidas y el signo del parámetro omitido.


Multicolinealidad

Se refiere a la existencia de una relación lineal entre las variables X. Mayores errores estándar llevan a una estimación poco eficiente con valores p elevados (valores no significativos y valores de β (estimados) erróneos).

Perfecta: Multicolinealidad no estocástica.

Inperfecta: Muestreo infinito.

* Habrá existencia de multicolinealidad si incluimos como regresores variables que estén altamente correlacionadas.

Nos llevan a alta multicolinealidad: muestreo reducido (con poco datos los regresores no varían mucho y sus correlaciones no son sistemáticas, sino los errores de muestra).

Exceso de regresores: a mayor K aumenta la probabilidad de existencia de colinealidad entre las variables.

Se ignora una tendencia común: correlación espuria (regresores que dependen de una tercera variable).

Consecuencias:

  • Se mantiene el insesgamiento y consistencia.
  • Aumentan los errores estándar de los estimadores para las variables afectadas por la colinealidad, lo que significa que será más probable obtener coeficientes incorrectos.
  • Aumenta la inestabilidad de los coeficientes.
  • Disminuyen los valores t.
  • Aumentan los p.
  • Disminuye la significancia de los parámetros afectados.

Test: Alfa asterisco.

Heterocedasticidad (White)

H0 = Homocedasticidad (variabilidad constante de los errores).

Si se rechaza, implica que se invalida la desviación estándar y por ende la significancia de los errores.

Corrección de heterocedasticidad:

  • Incluyendo variables que pudiera haber omitido antes.
  • Tomando log de las series para acercar a la media los valores más extremos (puntos de apalancamiento generan heterocedasticidad).

Linealidad

H0 = La relación entre los coeficientes (X e Y) es lineal.

Si se rechaza, implica que los coeficientes se invalidan.

Normalidad

H0 = Errores distribuyen normal.

Si se rechaza, implica que se rechaza la normalidad de los errores, lo que conlleva a una invalidación de la desviación estándar y por ende la significancia de los modelos.

* Si no se presentan valores para White y no linealidad, hay que ver las variables. Si estas son dummies, se debe saber que el cuadrado de estas genera multicolinealidad perfecta, lo que implica en los test la imposibilidad de implementación de regresiones auxiliares.

Valores Influyentes e Inestabilidad (Outliers)

Punto alejado de X o Y.

Valor influyente: Aquel cuya presencia genera un sesgo en la estimación de la pendiente.

Apalancamiento (h): Punto alejado en el eje horizontal.

Un punto sobre la recta y hacia el eje Y quiere decir alto apalancamiento y mala estimación, además afecta a la pendiente.

Un punto bajo la recta y hacia el eje X quiere decir que solo afecta a la constante, no está mal estimado.

Punto de apalancamiento: Observación alejada de la media de X. Para que un outlier tenga impacto sobre las pendientes estimadas, debe cumplirse que es un punto de apalancamiento.

Sesgo de Omisión

Sesgo del vector de coeficientes estimados vía MCO, debido a la omisión de una variable relevante y correlacionada con otros regresores.

Cambio Estructural

Diferencia en Bpoblacional entre distintas submuestras de la población.