Guía Completa para el Análisis Estadístico: Desde Conceptos Básicos hasta Pruebas de Hipótesis
Introducción al Análisis Estadístico
Pasos para realizar un estudio estadístico
- Plantear una hipótesis sobre una población.
- Decidir qué datos recoger.
- Recoger los datos.
- Describir los datos obtenidos.
- Realizar una inferencia sobre la población.
- Cuantificar la confianza en la inferencia.
Tipos de variables
Variables Cualitativas (no se pueden medir)
- Nominales
- Binarias
- Ordinales
Variables Cuantitativas o Numéricas (sí se pueden medir)
- Discretas
- Continuas
Valores de una variable
Los posibles valores de una variable suelen denominarse modalidades. Las modalidades pueden agruparse en clases (intervalos). Las modalidades/clases deben formar un sistema:
- Exhaustivo: no podemos olvidar ningún posible valor de la variable.
- Excluyente: nadie puede presentar dos valores simultáneos de la variable.
Tablas de Frecuencia
Resumen la información contenida en los datos de una muestra.
Caso discreto (con pocos valores posibles)
- xi: posibles valores que pueden aparecer en los datos.
- ni: frecuencia absoluta, número de ocurrencias en la muestra de cada posible valor.
- fi: frecuencia relativa.
- Ni: frecuencia absoluta acumulada.
- Fi: frecuencia relativa acumulada.
Caso continuo (o discreto con muchos valores posibles)
Los datos han de agruparse por clases.
- Li-1 – Li: límites de clase.
- xi: marcas de clase.
- ni: frecuencia absoluta.
- fi: frecuencia relativa.
- Ni: frecuencia absoluta acumulada.
- Fi: frecuencia relativa acumulada.
Gráficos
Gráficos para Variables Cualitativas
- Diagrama de barras
- Diagramas de sectores
- Pictogramas
Gráficos para Variables Cuantitativas
- Diagrama de barras para variables discretas (hueco entre barra y barra)
- Histogramas para variables continuas (seguidas)
- Diagramas de caja (resume gráficamente 5 valores)
Parámetros y Estadísticos
- Parámetro: es una cantidad numérica calculada sobre una población.
- Estadístico: es una cantidad numérica calculada sobre una muestra.
Estadísticos de Posición
Se define cuantil de orden α como un valor de la variable por debajo del cual se encuentra una frecuencia acumulada α. Todos ellos tienen las unidades de la variable observada. Casos particulares: percentiles, cuartiles, deciles, quintiles…
Estadísticos de Posición: Percentiles
Percentil de orden k = cuantil de orden k/100. La mediana es el percentil 50; el percentil de orden 15 deja por debajo al 15% de las observaciones, por encima queda el 85%.
Cuartiles
Dividen a la muestra en 4 grupos con frecuencias similares.
- Primer cuartil = percentil 25 = cuantil 0,25
- Segundo cuartil = percentil 50 = cuantil 0,5 = mediana
- Tercer cuartil = percentil 75 = cuantil 0,75
Estadísticos de Tendencia Central
- Media: es la media aritmética (promedio) de los valores de una variable.
- Mediana: es un valor que divide a las observaciones en dos grupos con el mismo número de individuos (percentil 50).
- Moda: es el/los valor(es) donde la distribución de frecuencia alcanza un máximo.
Estadísticos de Dispersión
Miden el grado de dispersión (variabilidad) de los datos independientemente de su causa.
- Amplitud/Rango: diferencia entre observaciones extremas.
- Rango intercuartílico: es la distancia entre el primer y tercer cuartil.
- Varianza: mide el promedio de las desviaciones (al cuadrado) de las observaciones con respecto a la media.
- Desviación Típica: es la raíz cuadrada de la varianza.
- Coeficiente de Variación: es la razón entre la desviación típica y la media.
Estadísticos de Forma
- Asimetría o Sesgo: una distribución es simétrica si la mitad de su distribución es la imagen especular de su mitad derecha.
- Curtosis o Apuntamiento: la curtosis nos indica el grado de apuntamiento (aplastamiento) de una distribución con respecto a la distribución normal o gaussiana.
Variables Bidimensionales
Surgen cuando se estudian dos características asociadas a la observación de un fenómeno. Datos bidimensionales, diagramas de dispersión.
Covarianza de dos variables
La covarianza entre dos variables, Sxy, nos indica si la posible relación entre dos variables es directa o inversa.
Análisis de Correlación
Es un grupo de técnicas estadísticas que se utilizan para medir la fuerza de asociación entre variables mediante el coeficiente de correlación de Pearson (es una medida de la intensidad de la relación lineal de dos variables, nos indican si los puntos tienen una tendencia a disponerse alineadamente).
Coeficiente de Determinación
Es la proporción de la variación total de la variable dependiente (Y) que se explica por la variación en la variable independiente (X).
Análisis de Regresión
Es una técnica estadística que permite construir modelos que representan la dependencia entre variables o hacer predicciones de una variable Y en función de observaciones de otras. En el modelo de regresión lineal simple, dado dos variables Y (dependiente) y X (independiente, explicativa, predictora) buscamos encontrar una función de X muy simple (lineal) que nos permita aproximar Y mediante:
Y = a + bX
- a: (ordenada en el origen, constante).
- b: (pendiente de la recta).
Y e Ŷ rara vez coincidirán por muy bueno que sea el modelo de regresión. e = Y – Ŷ se le denomina residuo o error residual.
Bondad de Ajuste
En un modelo de regresión se mide usando el coeficiente de determinación R2.
Variables Aleatorias
Pueden ser discretas o continuas.
Función de Probabilidad (Variables Discretas)
Asigna a cada posible valor de una variable discreta su probabilidad.
Función de Densidad (Variables Continuas)
Es una función no negativa de integral 1, la integral definida de la función de densidad en dichos intervalos coincide con la probabilidad de los mismos.
Función de Distribución
Es la función que se asocia a cada valor de una variable, la probabilidad acumulada de los valores inferiores o iguales. Contrastar lo anómalo de una observación concreta.
Valor Esperado
E(X) o μ, es equivalente a la media.
Varianza
Se representa mediante VAR(X) o σ2, es equivalente a la varianza, se llama desviación típica a σ.
Distribuciones de Probabilidad
Bernoulli
Si al realizar un experimento solo son posibles dos resultados.
Distribución Binomial
Si se repite un número fijo de veces, n, un experimento de Bernoulli con parámetro p, el número de éxitos sigue una distribución binomial de parámetros (n, p).
Distribución de Poisson
También se denomina de sucesos raros, se obtiene como aproximación de una distribución binomial, con la misma media.
Análisis de Colas
- Cola izquierda: calcular la probabilidad de que X sea menor que A.
- Dos colas: calcular la probabilidad de que X se encuentre entre A y B.
- Cola derecha: calcular la probabilidad de que X sea mayor que A.
Tipificación
Dado una variable de media μ y desviación típica σ se denomina valor tipificado, z, de una observación x, a la distancia (con signo) con respecto a la media.
Distribuciones de Probabilidad Continuas
Chi-cuadrado
Tiene solo un parámetro denominado grados de libertad. La función de densidad es asimétrica positiva. Solo tienen densidad los valores positivos.
T-Student
Tiene un parámetro denominado grados de libertad, cuando aumentan los grados de libertad más se acerca a N(0,1), es simétrica respecto al 0.
F de Fisher-Snedecor
Tiene dos parámetros denominados grados de libertad, solo toma valores positivos, es asimétrica.
Muestreo
Muestreo Aleatorio
Todos los elementos tienen la misma probabilidad de ser incluidos en la muestra.
Muestreo Aleatorio Simple
Se eligen a individuos de la población de estudio, de manera que todos tengan la misma probabilidad de aparecer hasta alcanzar el tamaño muestral deseado.
Muestreo Sistemático
Se tiene una lista de los individuos de la población de estudio.
Muestreo Estratificado
Se aplica cuando sabemos que hay ciertos factores que pueden influir en el estudio y queremos asegurarnos de tener cierta cantidad mínima de individuos de cada tipo.
Muestreo por Grupos
Se aplica cuando es difícil tener una lista de todos los individuos que forman parte de la población de estudio.
Estimación
Un estimador es una cantidad numérica, calculada sobre una muestra y que esperamos que sea una buena aproximación de cierta cantidad con el mismo significado de población (parámetro).
Estimación Puntual
Obtener un pronóstico numérico sobre un parámetro de la distribución.
Estimación por Intervalos de Confianza
Obtener un margen de variación para un parámetro de la distribución.
Estimación Puntual: Características Deseables
- Consistencia
- Carencia de sesgo
- Eficiencia
- Suficiencia
Estimación por Intervalos de Confianza
Para un nivel de confianza de 1-α dado, un intervalo que ha sido construido de tal manera que con frecuencia 1-α realmente contiene el parámetro.
Contraste de Hipótesis
Hipótesis
Una creencia sobre la población, principalmente sus parámetros: media, varianza, porción/tasa.
Identificación de Hipótesis
- Hipótesis Nula (H0): la que contrastamos, los datos pueden refutarla, no debería ser rechazada sin una buena razón.
- Hipótesis Alternativa (H1): niega H0 y creemos que es mejor, los datos pueden mostrar evidencia a favor, no debería ser aceptada sin una gran evidencia a favor.
Significación p
Es la probabilidad que tendría una región crítica que comenzase exactamente en el valor del estadístico obtenido de la muestra.
Definición Ji-Cuadrado
Una medida de discrepancia existente entre las frecuencias observadas y esperadas, puede obtenerse a través de la función de Ji-Cuadrado.
- Si χ2 = 0 las frecuencias observadas y teóricas concuerdan exactamente.
- Si χ2 > 0, las frecuencias observadas y teóricas no concuerdan. A medida que el valor χ2 sea mayor, las discrepancias entre las frecuencias esperadas y observadas serán mayores.
Pruebas de Significación
En la práctica las frecuencias esperadas son calculadas en base a una hipótesis H0.
Bondad de Ajuste
Las distribuciones empíricas de ajuste, las obtenidas de los datos muestrales.