Guía Completa para el Análisis Estadístico: Desde Conceptos Básicos hasta Pruebas de Hipótesis

Introducción al Análisis Estadístico

Pasos para realizar un estudio estadístico

  1. Plantear una hipótesis sobre una población.
  2. Decidir qué datos recoger.
  3. Recoger los datos.
  4. Describir los datos obtenidos.
  5. Realizar una inferencia sobre la población.
  6. Cuantificar la confianza en la inferencia.

Tipos de variables

Variables Cualitativas (no se pueden medir)
  • Nominales
  • Binarias
  • Ordinales
Variables Cuantitativas o Numéricas (sí se pueden medir)
  • Discretas
  • Continuas

Valores de una variable

Los posibles valores de una variable suelen denominarse modalidades. Las modalidades pueden agruparse en clases (intervalos). Las modalidades/clases deben formar un sistema:

  • Exhaustivo: no podemos olvidar ningún posible valor de la variable.
  • Excluyente: nadie puede presentar dos valores simultáneos de la variable.

Tablas de Frecuencia

Resumen la información contenida en los datos de una muestra.

Caso discreto (con pocos valores posibles)
  • xi: posibles valores que pueden aparecer en los datos.
  • ni: frecuencia absoluta, número de ocurrencias en la muestra de cada posible valor.
  • fi: frecuencia relativa.
  • Ni: frecuencia absoluta acumulada.
  • Fi: frecuencia relativa acumulada.
Caso continuo (o discreto con muchos valores posibles)

Los datos han de agruparse por clases.

  • Li-1Li: límites de clase.
  • xi: marcas de clase.
  • ni: frecuencia absoluta.
  • fi: frecuencia relativa.
  • Ni: frecuencia absoluta acumulada.
  • Fi: frecuencia relativa acumulada.

Gráficos

Gráficos para Variables Cualitativas

  • Diagrama de barras
  • Diagramas de sectores
  • Pictogramas

Gráficos para Variables Cuantitativas

  • Diagrama de barras para variables discretas (hueco entre barra y barra)
  • Histogramas para variables continuas (seguidas)
  • Diagramas de caja (resume gráficamente 5 valores)

Parámetros y Estadísticos

  • Parámetro: es una cantidad numérica calculada sobre una población.
  • Estadístico: es una cantidad numérica calculada sobre una muestra.

Estadísticos de Posición

Se define cuantil de orden α como un valor de la variable por debajo del cual se encuentra una frecuencia acumulada α. Todos ellos tienen las unidades de la variable observada. Casos particulares: percentiles, cuartiles, deciles, quintiles…

Estadísticos de Posición: Percentiles

Percentil de orden k = cuantil de orden k/100. La mediana es el percentil 50; el percentil de orden 15 deja por debajo al 15% de las observaciones, por encima queda el 85%.

Cuartiles

Dividen a la muestra en 4 grupos con frecuencias similares.

  • Primer cuartil = percentil 25 = cuantil 0,25
  • Segundo cuartil = percentil 50 = cuantil 0,5 = mediana
  • Tercer cuartil = percentil 75 = cuantil 0,75

Estadísticos de Tendencia Central

  • Media: es la media aritmética (promedio) de los valores de una variable.
  • Mediana: es un valor que divide a las observaciones en dos grupos con el mismo número de individuos (percentil 50).
  • Moda: es el/los valor(es) donde la distribución de frecuencia alcanza un máximo.

Estadísticos de Dispersión

Miden el grado de dispersión (variabilidad) de los datos independientemente de su causa.

  • Amplitud/Rango: diferencia entre observaciones extremas.
  • Rango intercuartílico: es la distancia entre el primer y tercer cuartil.
  • Varianza: mide el promedio de las desviaciones (al cuadrado) de las observaciones con respecto a la media.
  • Desviación Típica: es la raíz cuadrada de la varianza.
  • Coeficiente de Variación: es la razón entre la desviación típica y la media.

Estadísticos de Forma

  • Asimetría o Sesgo: una distribución es simétrica si la mitad de su distribución es la imagen especular de su mitad derecha.
  • Curtosis o Apuntamiento: la curtosis nos indica el grado de apuntamiento (aplastamiento) de una distribución con respecto a la distribución normal o gaussiana.

Variables Bidimensionales

Surgen cuando se estudian dos características asociadas a la observación de un fenómeno. Datos bidimensionales, diagramas de dispersión.

Covarianza de dos variables

La covarianza entre dos variables, Sxy, nos indica si la posible relación entre dos variables es directa o inversa.

Análisis de Correlación

Es un grupo de técnicas estadísticas que se utilizan para medir la fuerza de asociación entre variables mediante el coeficiente de correlación de Pearson (es una medida de la intensidad de la relación lineal de dos variables, nos indican si los puntos tienen una tendencia a disponerse alineadamente).

Coeficiente de Determinación

Es la proporción de la variación total de la variable dependiente (Y) que se explica por la variación en la variable independiente (X).

Análisis de Regresión

Es una técnica estadística que permite construir modelos que representan la dependencia entre variables o hacer predicciones de una variable Y en función de observaciones de otras. En el modelo de regresión lineal simple, dado dos variables Y (dependiente) y X (independiente, explicativa, predictora) buscamos encontrar una función de X muy simple (lineal) que nos permita aproximar Y mediante:

Y = a + bX

  • a: (ordenada en el origen, constante).
  • b: (pendiente de la recta).

Y e Ŷ rara vez coincidirán por muy bueno que sea el modelo de regresión. e = Y – Ŷ se le denomina residuo o error residual.

Bondad de Ajuste

En un modelo de regresión se mide usando el coeficiente de determinación R2.

Variables Aleatorias

Pueden ser discretas o continuas.

Función de Probabilidad (Variables Discretas)

Asigna a cada posible valor de una variable discreta su probabilidad.

Función de Densidad (Variables Continuas)

Es una función no negativa de integral 1, la integral definida de la función de densidad en dichos intervalos coincide con la probabilidad de los mismos.

Función de Distribución

Es la función que se asocia a cada valor de una variable, la probabilidad acumulada de los valores inferiores o iguales. Contrastar lo anómalo de una observación concreta.

Valor Esperado

E(X) o μ, es equivalente a la media.

Varianza

Se representa mediante VAR(X) o σ2, es equivalente a la varianza, se llama desviación típica a σ.

Distribuciones de Probabilidad

Bernoulli

Si al realizar un experimento solo son posibles dos resultados.

Distribución Binomial

Si se repite un número fijo de veces, n, un experimento de Bernoulli con parámetro p, el número de éxitos sigue una distribución binomial de parámetros (n, p).

Distribución de Poisson

También se denomina de sucesos raros, se obtiene como aproximación de una distribución binomial, con la misma media.

Análisis de Colas

  • Cola izquierda: calcular la probabilidad de que X sea menor que A.
  • Dos colas: calcular la probabilidad de que X se encuentre entre A y B.
  • Cola derecha: calcular la probabilidad de que X sea mayor que A.

Tipificación

Dado una variable de media μ y desviación típica σ se denomina valor tipificado, z, de una observación x, a la distancia (con signo) con respecto a la media.

Distribuciones de Probabilidad Continuas

Chi-cuadrado

Tiene solo un parámetro denominado grados de libertad. La función de densidad es asimétrica positiva. Solo tienen densidad los valores positivos.

T-Student

Tiene un parámetro denominado grados de libertad, cuando aumentan los grados de libertad más se acerca a N(0,1), es simétrica respecto al 0.

F de Fisher-Snedecor

Tiene dos parámetros denominados grados de libertad, solo toma valores positivos, es asimétrica.

Muestreo

Muestreo Aleatorio

Todos los elementos tienen la misma probabilidad de ser incluidos en la muestra.

Muestreo Aleatorio Simple

Se eligen a individuos de la población de estudio, de manera que todos tengan la misma probabilidad de aparecer hasta alcanzar el tamaño muestral deseado.

Muestreo Sistemático

Se tiene una lista de los individuos de la población de estudio.

Muestreo Estratificado

Se aplica cuando sabemos que hay ciertos factores que pueden influir en el estudio y queremos asegurarnos de tener cierta cantidad mínima de individuos de cada tipo.

Muestreo por Grupos

Se aplica cuando es difícil tener una lista de todos los individuos que forman parte de la población de estudio.

Estimación

Un estimador es una cantidad numérica, calculada sobre una muestra y que esperamos que sea una buena aproximación de cierta cantidad con el mismo significado de población (parámetro).

Estimación Puntual

Obtener un pronóstico numérico sobre un parámetro de la distribución.

Estimación por Intervalos de Confianza

Obtener un margen de variación para un parámetro de la distribución.

Estimación Puntual: Características Deseables

  • Consistencia
  • Carencia de sesgo
  • Eficiencia
  • Suficiencia

Estimación por Intervalos de Confianza

Para un nivel de confianza de 1-α dado, un intervalo que ha sido construido de tal manera que con frecuencia 1-α realmente contiene el parámetro.

Contraste de Hipótesis

Hipótesis

Una creencia sobre la población, principalmente sus parámetros: media, varianza, porción/tasa.

Identificación de Hipótesis

  • Hipótesis Nula (H0): la que contrastamos, los datos pueden refutarla, no debería ser rechazada sin una buena razón.
  • Hipótesis Alternativa (H1): niega H0 y creemos que es mejor, los datos pueden mostrar evidencia a favor, no debería ser aceptada sin una gran evidencia a favor.

Significación p

Es la probabilidad que tendría una región crítica que comenzase exactamente en el valor del estadístico obtenido de la muestra.

Definición Ji-Cuadrado

Una medida de discrepancia existente entre las frecuencias observadas y esperadas, puede obtenerse a través de la función de Ji-Cuadrado.

  • Si χ2 = 0 las frecuencias observadas y teóricas concuerdan exactamente.
  • Si χ2 > 0, las frecuencias observadas y teóricas no concuerdan. A medida que el valor χ2 sea mayor, las discrepancias entre las frecuencias esperadas y observadas serán mayores.

Pruebas de Significación

En la práctica las frecuencias esperadas son calculadas en base a una hipótesis H0.

Bondad de Ajuste

Las distribuciones empíricas de ajuste, las obtenidas de los datos muestrales.