Conceptos Clave de Estadística: Correlación, Causalidad, Contraste de Hipótesis y Modelos Econométricos
Diferencia entre Correlación y Causalidad
Es fundamental comprender que la correlación (dos variables que se mueven juntas) no implica causalidad (una variable causa un efecto en la otra).
Diseños Experimentales y No Experimentales
- Experimental: Se manipula una variable independiente para observar sus efectos en una variable dependiente. Permite establecer causalidad.
- No experimental: Se observan datos ya existentes. Solo permite identificar correlación, no causalidad.
Pregunta: ¿Existe o no relación entre las variables?
Hipótesis: Plantea una relación testable entre las variables.
Diseño: Define cómo se testará la hipótesis en la práctica.
Requisitos de un Experimento
- Manipulación intencional de la variable independiente.
- Medición de la variable dependiente.
- Control para asegurar la validez interna (evitar variables contaminadoras, mortalidad experimental, desgaste y sesgo).
Tipos de ciego:
- Simple: Los sujetos desconocen a qué grupo pertenecen.
- Doble: Tanto los investigadores como los sujetos desconocen la asignación a los grupos.
- Triple: El análisis y la evaluación se realizan sin conocer la identidad de los grupos.
Placebo: Sustancia o tratamiento inerte utilizado en el grupo control.
Control Experimental y Validez Interna
Requisitos para el control experimental y la validez interna:
- Dos o más grupos de comparación (un grupo control y al menos un grupo experimental).
- Equivalencia entre los grupos (asignación aleatoria o emparejamiento).
Tipos de Diseños Experimentales
- A) Pre-experimentales: No son verdaderos experimentos (una sola medición o pre-retest con un solo grupo).
- B) Experimentos puros:
- Solo retest con grupo control.
- Pre-retest con dos grupos.
- Cuatro grupos de Solomon.
- Factoriales (más de una variable independiente a la vez).
- C) Cuasi-experimentales: Grupos ya formados antes del experimento (experimentos naturales).
Validez Externa
La validez externa se refiere a la posibilidad de generalizar los resultados a:
- Otras situaciones.
- La población en general (generalización de individuos).
Se utiliza el contraste de hipótesis para analizar los datos y obtener conclusiones.
Contraste de Hipótesis
H0 (Hipótesis Nula): Verdad provisional, se asume igualdad (=).
H1 (Hipótesis Alternativa): Lo que se intenta probar con el test (unilateral izquierda <, unilateral derecha >, bilateral <>).
Error Tipo I: Rechazar H0 cuando es cierta (culpar a un inocente). Se considera el error más grave.
Error Tipo II: No rechazar H0 cuando es falsa (declarar inocente a un culpable).
- α (Nivel de significación): Probabilidad de cometer error tipo I. P(Rechazar H0 | H0 cierta). P(Rechazar H0 | H1 falsa).
- β: Probabilidad de cometer error tipo II. P(No rechazar H0 | H0 falsa). P(No rechazar H0 | H1 cierta).
- η (Potencia del contraste): Probabilidad de acierto. P(Rechazar H0 | H0 falsa). Al reducir α, aumenta β.
Estadístico de Contraste
El estadístico de contraste compara lo que dicen los datos sobre un parámetro con lo que afirma la H0, teniendo en cuenta la precisión de la información de la muestra (cuánto podría cambiar con otros datos).
P-valor
El p-valor es la probabilidad de cometer error tipo I si rechazamos H0. Es la probabilidad de que el estadístico de contraste tome su valor o uno más desfavorable a H0, siendo H0 cierta. Representa el grado de compatibilidad de los datos con H0.
Regla de decisión:
- Rechazo H0: Si p-valor < α (las diferencias significativas entre los datos y H0 no se deben al azar, los datos no son compatibles con H0).
- No rechazo H0: Si p-valor > α.
Interpretación del p-valor:
- p-valor < 1% (***): Evidencia fuerte a favor de H1.
- p-valor < 5% (**): Evidencia moderada a favor de H1.
- p-valor < 10% (*): Evidencia débil a favor de H1.
Fórmulas de Contraste
A) Contraste de la media poblacional con desviación típica poblacional conocida:
- Para cualquier tamaño de muestra (n), si la población sigue una distribución normal (N).
- Si n > 30, para cualquier distribución poblacional.
Estadístico de contraste N(0,1): z = (media muestral – µ0) / (σ / √n)
B) Contraste de la media poblacional con desviación típica poblacional desconocida:
- Para cualquier tamaño de muestra (n), si la población sigue una distribución normal (N).
- Si n > 30, para cualquier distribución poblacional.
Estadístico de contraste t(gl=n-1): t = (media muestral – µ0) / (S’ / √n)
C) Contraste del valor de la proporción poblacional:
Para n muy grande.
Estadístico de contraste N(0,1): z = (proporción muestral – P0) / (σ / √n), con σ = √(P0 * (1 – P0))
D) Contraste de igualdad de medias:
- Varianza igual, aunque desconocida.
- n > 30.
H0: medias iguales / H1: medias diferentes.
S combinada = √[(n * s1² + m * s2²) / (n + m – 2)] = √[((n – 1) * S’1² + (m – 1) * S’2²) / (n + m – 2)]
Estadístico de contraste: t = (media muestral experimental – media muestral control – 0) / (S combinada * √(1/n + 1/m))
E) Contraste de igualdad de proporciones:
Para n > 30.
H0: Pe = Pc / H1: Pe <> Pc.
z = (p muestral experimental – p muestral control – 0) / √( (p0 * (1 – p0)) / n + (p0 * (1 – p0)) / m)
p0 estimada = (n * p muestral experimental + m * p muestral control) / (n + m)
Modelos Econométricos
Un modelo es un equilibrio entre manejabilidad y realismo (útil).
Variables
- Endógena (Y): La variable que se quiere explicar.
- Explicativas/Predeterminadas (X): Pueden ser continuas, discretas o dicotómicas (k-1).
- Perturbación aleatoria (u): Diferencia entre la observación y la recta de regresión verdadera. Representa el resto de factores explicativos. No se puede medir.
Residuo: Diferencia entre la observación y la recta de regresión estimada. Sí se mide.
Parámetros
Los parámetros (k βi) representan el impacto de X en Y. Son constantes y desconocidos. β1 es el término independiente, de ajuste, y no se interpreta. Grados de libertad = n – k.
Tipos de Datos
- a) De corte transversal/sección cruzada: Distintos individuos en un momento dado.
- b) Serie temporal: Un individuo a lo largo del tiempo.
- c) Panel: Varios individuos a lo largo del tiempo.
Fases del Trabajo Econométrico
- Especificación: Se propone el modelo.
- Estimación: Se recogen los datos y se estiman los parámetros β.
- Validación: Se comprueba si los datos confirman o no las hipótesis.
- Utilización: Se usa el modelo para predecir (estimar Y para otros casos), simular (qué ocurre al cambiar variables X bajo control) y analizar (valores de β).
Se trata de un modelo uniecuacional, estático (no se considera la variable tiempo) y de regresión lineal (para cada valor de X, se tiene una media condicionada o valor esperado de Y).
Notación Matricial
Y(n x 1) = X(n x k, por columnas, valores de variables explicativas) * β(k x 1) + U(n x 1)
Hipótesis sobre la Perturbación Aleatoria (U)
- HBI: Media nula. Siempre que haya término independiente, se verifica.
- HBII: Homocedasticidad. La varianza de u es constante e igual para todas las observaciones (improbable en datos de corte transversal). Cuando no se cumple, hay heterocedasticidad.
- HBIII: Ausencia de autocorrelación. Las u de distintas observaciones no tienen relación lineal (covarianza = 0) (improbable en datos temporales y geográficos, en los que sí hay correlación). En economía, se observan clústeres de volatilidad (períodos de muchas subidas o bajadas de cotización, varianza no constante).
Hipótesis sobre las Variables Explicativas (X)
- HBIV: Exogeneidad. La covarianza entre X y u es cero (cov(x, u) = 0), lo que significa que X no condiciona el valor de u. Si no se verifica, la estimación es sesgada (centrada en un valor incorrecto) e inconsistente (aumentar las observaciones no corrige el sesgo).
Causas de la falta de exogeneidad:
- Omisión de variables importantes.
- Causalidad inversa (X influye en Y, pero Y también influye en X).
- Errores de medida en las variables.
- Variable endógena retardada en datos temporales.