Interpretación de modelos de regresión lineal
Ejercicio 1
Modelo de regresión:
Y = β0 + β1X1 + β2X2
(Desviación típica de cada β = errores estándar, segunda columna)
n = número de observaciones
R² = coeficiente de determinación
Modelo de elasticidad constante (logaritmos)
a) Interpretación de β1
Si β1 es positivo:
Al aumentar X1 en un punto porcentual, Y aumenta en β1 puntos porcentuales.
Si β1 es negativo:
Al aumentar X1 en un punto porcentual, Y disminuye en β1 puntos porcentuales.
OJO: Si hay un logaritmo, dividir el valor de β1 por 100.
b) Diferencia estimada entre individuos A y B (X2a > X2b)
CUIDADO: Cambiar unidades si es necesario (hacerlo siempre con el individuo A).
Dos variables:
- Calcular la diferencia entre A y B: A – B = diferencia
- β2 * diferencia = algo
- Ya será mayor que Yb en algo unidades.
(Si fuera A algo unidades)
Tres variables (X1a = 0; X1b = 0; X2a > X2b; X3a > X3b; X2z = X3a; X2b = X3b):
- Calcular la diferencia entre A y B: A – B = diferencia
- (β2 * diferencia) + (β3 * diferencia) = algo
- Ya será mayor que Yb en algo unidades.
(Si fuera A algo unidades)
c) Variación en X2 para que ∆Y = 2, manteniendo X1 (y X3) constante
CUIDADO: Cambiar unidades si es necesario.
(Si hubieran 3 o más variables, se haría igual dejando mínimo 2 variables constantes).
NO TIENE SENTIDO DEJAR FIJAS TODAS LAS Xs PORQUE La suma de las Xs = n
- ∆Y = 2
- 2 = β2 * ∆X2 (∆X2 es la incógnita)
- ∆X2 = 2 / β2 = algo (Si lo que queremos es disminuir Y en lugar de incrementarla, habría que dividir en lugar de multiplicar)
- X2 tendría que aumentar algo para que Y aumente 2.
d) Sustituir/cambiar una variable por otra
Mirar el signo de su β y ver cómo le afecta a la variable que queremos sustituir (positivo/negativo).
e) Cambiar de unidad 2 variables, el R² y errores estándar:
Ejemplo: Y y X1 de minutos a horas:
- Yhoras = Ymin / 60
- X1horas = X1min / 60
- Ymin = β0 + β1Xmin1 + β2X2
- Primero pasar la Y a horas: Dividir todos los β por 60
- Yhoras = β0 + β1X1min + β2X2
- Ahora pasar la X1: Multiplicar β1 por 60
- Yhoras = β0 + β1X1horas + β2X2
- Si pide los errores estándar, son los números de la columna «desv típica» en la tabla.
- Hay que hacer lo mismo que le hemos hecho a su correspondiente β.
- El R² no varía.
f) Correlación entre las variables independientes (Xs)
Analizar si al aumentar X1, cabe esperar que aumente o disminuya X2 (o no) e interpretar. Si aumenta, correlación positiva, si no, negativa.
No implica que se pueda establecer una relación de causalidad.
g) Explicación de la variabilidad de Y por las variables independientes
Las Xs explican R² * 100 = algo% de la variabilidad de Y. Si el porcentaje es bajo, habrá muchos más factores que influyan en Y.
h) Satisfacer el supuesto RLM4 (no colinealidad perfecta)
Comprobar que no se pueda escribir cada una de las Xs como función lineal del resto de las Xs.
Si esto se cumple (por ejemplo, X1 = n – X2 + X3 + X4), hay que eliminar una de las Xs para evitar la colinealidad.
i) Identificar sesgos en β1
Debe cumplir los supuestos RLM del 1 al 4.
Interpretar si β2 > 0 o
Posibles casos de sesgo:
- Si β2 es positivo y la correlación entre X1 y X2 es negativa: Si omitimos X2 y estimamos por MCO la regresión simple de X1, β1 tendrá sesgo negativo.
- Si β2 es negativo y la correlación entre X1 y X2 es negativa: Si omitimos X2 y estimamos por MCO la regresión simple de X1, β1 tendrá sesgo positivo.
- Si β2 es positivo y la correlación entre X1 y X2 es positiva: Si omitimos X2 y estimamos por MCO la regresión simple de X1, β1 tendrá sesgo positivo.
- Si β2 es negativo y la correlación entre X1 y X2 es positiva: Si omitimos X2 y estimamos por MCO la regresión simple de X1, β1 tendrá sesgo negativo.
Interpretación del sesgo:
- Sesgo negativo y signo negativo de β1 = sobreestimar
- Sesgo positivo y signo positivo de β1 = sobreestimar
- Sesgo positivo y signo negativo de β1 o viceversa = infraestimar
Cuanto más aumenta R², más se nota el efecto del sesgo.
j) Logaritmos
MODELO DE ELASTICIDAD CONSTANTE = LOGARITMOS
Una variable de naturaleza positiva no se puede poner en logaritmos.
k) Selección del mejor modelo (SCE)
Comparar los R² de los diferentes modelos.
l) Coeficiente de correlación muestral
El signo del coeficiente de correlación es el mismo que el de la covarianza.
Si la covarianza es nula, no existe correlación.
El coeficiente de correlación lineal es un número comprendido entre -1 y 1. Si se acerca a 1 o -1 es fuerte, si se acerca a 0 es débil.
Teoría
Tipos de datos:
- Datos de selección cruzada (Encuesta)
- Series temporales (PIB)
- Datos de panel (serie temporal para cada selección cruzada; encuesta continua)
Bondad de ajuste:
STC = SEC + SCR
Suma Total de Cuadrados = ∑(yi – media de la Ŷ)²
Suma Explícita de Cuadrados = ∑(Ŷi – media de la Y)²
Suma de Cuadrados Residuales = ∑(ûi²)
R² = (SEC / STC) = 1 – (SCR / STC)
Supuestos del modelo clásico de regresión lineal (MCO):
- RLS.1: Linealidad en parámetros
- RLS.2: Muestreo aleatorio
- RLS.3: E(u | x) = 0
- RLS.4: Las x de la muestra no son todas iguales (no colinealidad perfecta)
- RLS.5: Homoscedasticidad: Var(u | x) = σ²
Errores heteroscedásticos:
Var(u | x) = σ² depende de x
Error estándar de β0:
se(β0) = (σ² √(∑x²)) / √((n-1)S²x)
Teorema de Gauss-Markov:
Si se cumplen los supuestos del RLM.1 al RLM.5, los estimadores MCO son los mejores estimadores lineales insesgados (MELI) de los parámetros.