Conceptos Clave en Estadística y Econometría: Potencia, Validez y Series Temporales
Definiciones de Conceptos Estadísticos y Econométricos
Potencia y Tamaño del Error Tipo 1
Definición 1.15. Función de Potencia y Tamaño del Error Tipo 1. La función de potencia de un contraste es una función que nos proporciona, para cada valor del parámetro, la probabilidad de rechazar la hipótesis nula. El tamaño del error tipo 1 es el valor que toma la función de potencia para el valor del parámetro que especifica la hipótesis nula. Alternativamente, podemos decir que es la probabilidad de rechazar la hipótesis nula cuando es cierta, es decir, es la probabilidad de tomar una decisión incorrecta cuando los datos son generados por la hipótesis nula. Se dice, también, que es el tamaño del contraste.
Definición 1.16. Función de Potencia y Potencia de un Contraste. La función de potencia de un contraste es una función que nos proporciona, para cada valor del parámetro, la probabilidad de rechazar la hipótesis nula. La potencia de un contraste es el valor que toma la función de potencia para valores del parámetro que caen bajo la hipótesis alternativa. Por lo tanto, la potencia es la probabilidad de tomar una decisión correcta cuando los datos son generados bajo la hipótesis alternativa.
Definición 1.17. Contraste Uniformemente más Potente de tamaño ε (UMP). Decimos que un contraste es UMP de tamaño ε si cumple:
- (i) Tener un tamaño igual a ε.
- (ii) Su función de potencia toma siempre un valor superior a la de cualquier otro contraste que tenga el mismo tamaño.
Podemos sintetizar diciendo que el contraste UMP es aquel que entre todos los contrastes que se equivocan de la misma manera bajo la hipótesis nula, es el que acierta más para todos los valores del parámetro bajo la hipótesis alternativa.
Validez, Sesgos y Errores en Modelos de Regresión
Definición 2.6. Sesgo de Variable Omitida en el modelo con un solo regresor El sesgo en el estimador MCO consecuencia de la omisión de un factor o variable, se llama sesgo de variable omitida. Para que se de este sesgo la variable omitida “Z” debe satisfacer dos condiciones:
- Z es un determinante de Y (i.e. Z es parte de u).
- Z está correlacionada con el regresor X (i.e. corr(Z,X)≠ 0).
Ambas condiciones deben de cumplirse para que la omisión de Z produzca el sesgo de variable omitida.
Definición 2.7. Validez Interna y Externa
- Validez Interna: Las inferencias estadísticas sobre los efectos causales son válidas para la población que se está estudiando.
- Validez Externa: Las inferencias estadísticas pueden ser generalizadas de la población y escenarios estudiados a otras poblaciones y escenarios, en donde escenarios se refiere a los entornos legal, histórico y político.
Definición 2.8. Amenazas a la Validez Interna de un estudio de Regresión Múltiple Existen cinco amenazas principales a la validez interna:
- Sesgo de Variable Omitida.
- Forma funcional errónea.
- Sesgo por errores de observación.
- Sesgo por datos ausentes y por selección muestral.
- Sesgo de causalidad simultánea.
Todos estos implican que E(ui|X1i,…,Xki) ≠ 0 (o que no se cumple la hipótesis de la independencia en la media condicional) –en cuyo caso los MCO son sesgados e inconsistentes. Adicionalmente, la presencia de autocorrelación y la heterocedasticidad que llevan a estimaciones incorrectas de los errores estándar constituyen también amenazas a la validez interna. La aplicación de esta línea de amenazas a un estudio de regresión múltiple constituye un método sistemático de evaluar la validez interna del estudio.
Definición 2.9. Error de Especificación de la Forma Funcional Este error aparece cuando la forma funcional de la regresión estimada difiere de la forma funcional de la función de regresión poblacional. Si la especificación es incorrecta entonces el estimador del efecto parcial de un cambio en una de las variables será, en general, sesgado.
Definición 2.10. Sesgo por errores en las variables Este sesgo en los estimadores MCO se produce cuando una variable independiente se mide de forma imprecisa, lo que hace que la variable y el término de error estén correlacionados. Esta correlación hace que el estimador MCO sea sesgado e inconsistente. Este sesgo depende de la naturaleza del error de medida y persiste incluso si el tamaño de la muestra es grande.
Definición 2.11. Sesgo de Selección Muestral Este sesgo se presenta cuando el proceso de selección de los elementos muestrales influye en la disponibilidad de los datos y el proceso está relacionado con la variable dependiente, además de depender de los regresores. Este proceso de selección induce correlación entre uno o más regresores y el término de error lo que da lugar a que los estimadores MCO sean sesgados e inconsistentes en muestras grandes.
Definición 2.12. Sesgo de Simultaneidad Aparece en una regresión de Y sobre X, cuando, además del vínculo causal de interés que va desde X a Y, existe un vínculo causal desde Y hacia X. Esta causalidad inversa provoca que el regresor X de un modelo no sea estrictamente exógeno como consecuencia de que ese regresor depende de un grupo de variables estrictamente exógenas y de otros factores correlacionados con la perturbación del modelo. La consecuencia es que el regresor y la perturbación del modelo están correlacionados por lo que el estimador MCO no es consistente. Hay que utilizar estimadores de variable instrumental o estimadores en dos etapas para lograr estimadores consistentes.
Series Temporales, Estacionariedad y Cointegración
Definición 3.1. Estacionariedad Una serie temporal es estacionaria si su distribución de probabilidad no cambia en el tiempo; es decir, si la distribución conjunta de T elementos del proceso que comienza en el periodo s no depende de s. La definición se extiende a dos o más series temporales diciendo que son conjuntamente estacionarias. La estacionariedad requiere que el futuro sea como el pasado, al menos en probabilidad.
Definición 3.3. Variable Integrada de orden 1 Se dice que una serie es integrada de orden 1, y la denotaremos por yt ~ I(1), cuando no tiene ningún componente determinista y después de ser diferenciada una vez resulta una representación ARMA estacionaria e invertible.
Definición 3.5. Contraste de Dickey y Fuller. Es un procedimiento que se utiliza para rechazar, en su caso, la hipótesis nula de que la serie tiene una raíz unitaria o, equivalentemente, que la serie es integrada de orden 1. El estadístico de contraste es el t-ratio que se define como un cociente entre el estimador MCO del coeficiente de la variable retardada un periodo y la desviación típica de ese estimador. La forma que adoptan estos estimadores depende de la forma que toman los elementos deterministas del modelo. La distribución de probabilidad de ese estadístico no coincide con la t de Student.
Definición 3.9 Cointegración. Se dice que dos variables están cointegradas cuando cumplen las dos condiciones siguientes: Primero, las dos variables tienen el mismo orden de integración; segundo, se puede encontrar una combinación lineal de las dos variables tal que el residuo resultante tenga un orden de integración inferior al de las dos variables. Se dice también que dos variables están cointegradas cuando la tendencia estocástica de una de ellas es explicada por la tendencia estocástica de la otra.
Definición 3.10 Contrastes de cointegración Son procedimientos propuestos para contrastar la hipótesis nula de no cointegración frente a la alternativa de existencia de cointegración. Hay dos grupos de contrastes: uniecuacionales y multiecuacionales. Los primeros se basan en los residuos MCO de la relación de cointegración. Dentro del primer grupo, los más conocidos son el contraste CRDW y el contraste Dickey-Fuller aplicado a los residuos. En el segundo grupo el más conocido es el contraste de Johansen que es el procedimiento de la razón de verosimilitud aplicado al modelo VAR definido para todas las variables.
Conceptos Adicionales
Definición 1.8. La Ley de Esperanzas Iteradas La media de Y es la media ponderada de la esperanza condicional de Y dado X, utilizando como ponderación la distribución marginal de X. Es decir,
La ley de esperanzas iteradas implica que si la media condicional de Y dado X es cero, entonces la media de Y es cero.
Definición 1.9. Muestreo Aleatorio Simple y Variables Aleatorias i.i.d. En un muestreo aleatorio simple se seleccionan aleatoriamente n objetos de una población y cada objeto tiene la misma probabilidad de ser seleccionado. El valor de la variable aleatoria Y para el objeto i-ésimo seleccionado aleatoriamente se expresa mediante Yi
Como cada objeto tiene la misma probabilidad de ser seleccionado y la distribución de es la misma para todo i, las variables aleatorias son independientes e idénticamente distribuidas (i.i.d.); es decir, la distribución de es la misma para todo i=1,2,…n e está independientemente distribuida de .