Introducción a la Inferencia Estadística: Conceptos y Aplicaciones
Bloque I: Probabilidad y Sucesos
Definición de Probabilidad
En un experimento aleatorio, la probabilidad es el número al que tienden las frecuencias relativas cuando el número de repeticiones es muy grande.
Frecuencia Relativa
La frecuencia relativa es la proporción de un resultado con respecto al total de intentos.
Suceso Elemental y Espacio Muestral
Un suceso elemental es cada uno de los posibles resultados, mutuamente excluyentes. El espacio muestral es el conjunto de todos los resultados posibles.
Sucesos Incompatibles
Los sucesos incompatibles son aquellos que son mutuamente excluyentes, por ejemplo, obtener un 3 y un 5 al lanzar un dado.
Sucesos Compuestos
- A o B: Se verifica cuando se produce A, se produce B o se producen ambos.
- A y B: Se verifica solamente si se dan los dos sucesos a la vez.
Bloque II: Distribuciones
Distribución Binomial
La distribución binomial aparece cuando repetimos un experimento aleatorio que cumple 3 características:
- Solo tiene dos opciones mutuamente excluyentes (p y q) y complementarias (Verdadero/Falso, Sí/No). A una la llamamos «éxito» y a la otra «fracaso».
- El resultado de cada intento es independiente del anterior.
- La probabilidad de que ocurra cada uno es constante.
Interpolación
La interpolación es una manera de intentar conocer un dato a partir de otros que sí sabemos, asumiendo una evolución lineal.
Teorema Central del Límite
Los fenómenos complejos con causas independientes tienden a aproximarse a la distribución normal. Por ejemplo, la demanda de productos o las opiniones sociales sobre temas no conflictivos.
Distribución Ji-Cuadrado
- Calculada por Pearson.
- No es simétrica.
- Su media vale k (grados de libertad) y su varianza 2*k.
- Su forma cambia según los grados de libertad.
- A partir de 30 o más grados de libertad, se asemeja a la normal.
- Se usa para medir la asociación.
Distribución t de Student
- «Student» es el pseudónimo que usó Gosset.
- Es una distribución simétrica.
- Está tabulada según grados de libertad (k).
- Su media vale 0 y su varianza es mayor que en la normal estandarizada.
- A partir de 100 o más grados de libertad, se asemeja a la normal.
- Se usa cuando se desconoce la varianza, por ejemplo, para cálculos relacionados con muestras.
Bloque III: Parámetros y Estadísticos
Parámetro
Un parámetro es un valor numérico que describe una característica de la población (ej: media, desviación típica, proporción). Lo habitual es que no conozcamos su valor exacto, salvo que tengamos datos exhaustivos. Es constante y se representa con el alfabeto griego.
Estadístico
Un estadístico es un valor numérico que describe una característica de una muestra (ej: media, desviación típica, proporción). Su valor depende de la muestra que hayamos seleccionado, por lo tanto, es una variable. Hay tantos valores como muestras posibles y se representa con el alfabeto latino.
Estimación Puntual
Es la forma de inferencia más sencilla. Consiste en atribuirle al parámetro el valor de un estadístico, es decir, asumir que la muestra es representativa de la población.
Método de los Momentos (Pearson)
Se utiliza un estadístico (estimador) para asignar un valor (estimación) al parámetro.
Estimadores
Centrado/Insesgado
Se cumple si la media de todos los valores posibles del estadístico coincide con el parámetro. El sesgo es la distancia desde la media de un estadístico al valor del parámetro. Si el sesgo = 0, se dice que el estimador es insesgado.
Eficiencia
El estimador es más eficiente cuanto menor es su varianza, es decir, que su valor cambia menos entre las diferentes muestras posibles. La varianza de la mediana es mayor, cambia más según la composición de la muestra. Por eso la media es más eficiente que la mediana.
Consistencia
Los estimadores consistentes es más probable que se acerquen al parámetro cuanto mayor sea el tamaño de la muestra. Esto lo cumplen casi todos los estimadores. Por eso, aumentar el tamaño de la muestra es siempre estadísticamente conveniente.
Suficiencia
Se considera suficiente a los estimadores que utilizan toda la información muestral relacionada con el parámetro.
Estimadores de Parámetros
- Parámetro: Media poblacional. Su mejor estimador: Media muestral (es centrado, eficiente, consistente y suficiente).
- Parámetro: Proporción poblacional. Su mejor estimador: Proporción muestral (es centrado, eficiente, consistente y suficiente).
- Desviación típica muestral s’: Centrada y no eficiente.
Error Muestral
El error muestral es la diferencia esperable entre el estimador y el parámetro.
Bloque IV: Contraste de Hipótesis
Definición
El contraste de hipótesis es un procedimiento que permite decidir si una afirmación sobre la población puede ser mantenida o no, a la vista de la información obtenida sobre la muestra.
Hipótesis Estadística
Una hipótesis estadística es una afirmación sobre la forma de una distribución o sobre alguno de sus parámetros. Procede de una hipótesis científica, pero la hipótesis estadística habla de una distribución de probabilidad.
Hipótesis Nula (H0)
Es la que va a ser sometida a contraste. Es una afirmación sobre la distribución de probabilidad o un parámetro. Si es sobre un parámetro, decimos que se trata de un contraste paramétrico.
Hipótesis Alternativa (H1)
Es la negación de la hipótesis nula. Son sucesos contrarios: o se cumple uno, o el otro (son exhaustivas y mutuamente excluyentes).
Demostración de Hipótesis
Podemos demostrar que la hipótesis nula es falsa (y que la hipótesis alternativa es por tanto cierta). Pero que la hipótesis alternativa sea falsa no implica que la hipótesis nula sea cierta.
Estadístico de Contraste
Es un estadístico (extraído de una muestra) que:
- Proporciona información relevante sobre la hipótesis.
- Tiene una distribución muestral conocida.
Es imprescindible que cumpla ambas para poder decidir sobre la hipótesis.
Zonas de Aceptación y Rechazo
- Si el valor del estadístico cae en la zona de rechazo, hay dos explicaciones: la hipótesis es falsa.
- Si el valor cae en la zona de aceptación, no podemos afirmar que la hipótesis nula sea verdad, sino que no puede demostrarse su falsedad con los datos de la muestra.
- Si la H0 es cierta, es muy poco probable que el valor del estadístico caiga en la zona de rechazo. Por tanto, si el valor cae en la zona de rechazo, rechazamos H0.
- Si el valor cae en la zona de aceptación, no tenemos motivos para rechazar la hipótesis nula, pero no afirmamos su veracidad.
Errores Tipo I y II
- El error tipo I es fruto de rechazar una H0 que en realidad era cierta. La probabilidad de cometerlo es conocida, α.
- El error tipo II es aceptar una H0 que realmente era falsa. Se suele representar como β (beta) y es desconocida. Depende del nivel de error y la desviación típica del estadístico. A 1-β se le llama potencia del contraste.
Ejemplo de Hipótesis
- Hipótesis nula: No existe asociación entre las variables.
- Hipótesis alternativa: Existe asociación entre las variables.