Conceptos Clave de Estadística Descriptiva e Inferencial: Aplicaciones y Ejercicios
Estadística Descriptiva e Inferencial: Conceptos Fundamentales y Aplicaciones
Diferencias entre Estadística Descriptiva e Inferencial
La estadística se divide en dos ramas principales:
- Estadística Descriptiva: Se centra en la organización, resumen y presentación de datos. Su objetivo es describir las características principales de un conjunto de datos. No realiza generalizaciones más allá de los datos analizados.
- Técnicas comunes: Medidas de tendencia central (media, mediana, moda), medidas de dispersión (desviación estándar, varianza, rango), gráficos (histogramas, diagramas de barras, diagramas circulares) y tablas de frecuencia.
- Estadística Inferencial: Utiliza datos de una muestra para hacer inferencias, predicciones o generalizaciones sobre una población más grande. Su objetivo es extraer conclusiones sobre la población basándose en la información de la muestra.
- Técnicas comunes: Estimación de parámetros (intervalos de confianza), pruebas de hipótesis, análisis de regresión, análisis de varianza (ANOVA).
Cuantiles y su Uso en el Análisis de Datos
Los cuantiles son medidas de posición que dividen un conjunto de datos ordenados en partes iguales. Indican el valor por debajo del cual se encuentra una determinada proporción de los datos.
- Ejemplos comunes: Cuartiles (dividen los datos en cuatro partes iguales), deciles (dividen los datos en diez partes iguales) y percentiles (dividen los datos en cien partes iguales).
- Aplicaciones: Son especialmente útiles en la creación de baremos para pruebas psicológicas, permitiendo ubicar la puntuación de un individuo en relación con el resto del grupo. También se utilizan para identificar valores atípicos y para resumir la distribución de datos.
- Requisito: Para calcular cuantiles, los datos deben estar, al menos, en una escala ordinal (es decir, ordenados).
Ejercicio: Probabilidad en una Distribución Normal
En una residencia de ancianos, la edad media es de 70 años, con una desviación estándar de 14 años. Calcula la probabilidad de encontrar una persona menor de 50 años.
- Datos:
- Media (μ) = 70
- Desviación estándar (σ) = 14
- Valor a evaluar (X) = 50
- Estandarización: Calculamos la puntuación Z correspondiente a X = 50:
- Z = (X – μ) / σ = (50 – 70) / 14 = -1.43
- Consulta en tabla de distribución normal estándar: Buscamos el valor de probabilidad acumulada para Z = -1.43. La probabilidad es aproximadamente 0.0764.
- Resultado: La probabilidad de encontrar una persona menor de 50 años en la residencia es del 7.64%.
Covarianza: Medida de Relación Lineal
La covarianza es una medida que indica el grado de relación lineal entre dos variables. Informa sobre la dirección de la relación:
- Covarianza positiva: Indica que las variables tienden a variar en la misma dirección (si una aumenta, la otra también tiende a aumentar).
- Covarianza negativa: Indica que las variables tienden a variar en direcciones opuestas (si una aumenta, la otra tiende a disminuir).
- Covarianza cercana a cero: Indica que hay poca o ninguna relación lineal entre las variables.
Estadístico χ² (Chi-Cuadrado)
El estadístico χ² (Chi-Cuadrado) se utiliza en el análisis de variables categóricas para evaluar la discrepancia entre las frecuencias observadas y las frecuencias esperadas bajo la hipótesis de independencia.
- Fórmula: χ² = Σ [(O – E)² / E], donde O representa las frecuencias observadas y E las frecuencias esperadas.
- Propósito: Determinar si existe una asociación estadísticamente significativa entre dos variables categóricas. Si las frecuencias observadas difieren significativamente de las esperadas, se rechaza la hipótesis de independencia.
- Aplicación: Se utiliza comúnmente en tablas de contingencia.
Ejercicio: Puntuaciones Típicas y Distribución Normal
La media de un test es 45 y la desviación típica es 10.
a. Calcula la puntuación estándar (Z) que corresponde a la puntuación directa 60.
- Z = (X – μ) / σ = (60 – 45) / 10 = 1.5
- La puntuación estándar es 1.5.
b. ¿Cuál es la probabilidad de obtener una puntuación igual o inferior a 60?
- Consultamos la tabla de distribución normal estándar para Z = 1.5. La probabilidad acumulada es 0.9332.
- La probabilidad de obtener una puntuación igual o inferior a 60 es del 93.32%.
c. ¿Cuál es la probabilidad de obtener una puntuación entre 30 y 40 puntos?
- Calculamos las puntuaciones Z para X = 30 y X = 40:
- Z30 = (30 – 45) / 10 = -1.5
- Z40 = (40 – 45) / 10 = -0.5
- Consultamos la tabla de distribución normal estándar:
- P(Z ≤ -1.5) ≈ 0.0668
- P(Z ≤ -0.5) ≈ 0.3085
- Calculamos la probabilidad entre 30 y 40:
- P(30 < X < 40) = P(-0.5 < Z < -1.5) = P(Z ≤ -0.5) – P(Z ≤ -1.5) = 0.3085 – 0.0668 = 0.2417
- La probabilidad de obtener una puntuación entre 30 y 40 es del 24.17%.
Puntuaciones Típicas (Z)
Las puntuaciones típicas, también conocidas como puntuaciones Z, indican cuántas desviaciones típicas se aleja una puntuación individual de la media de su grupo.
- Cálculo: Z = (X – μ) / σ, donde X es la puntuación individual, μ es la media del grupo y σ es la desviación estándar del grupo.
- Interpretación: Una puntuación Z de 0 indica que la puntuación individual es igual a la media. Una puntuación Z positiva indica que la puntuación está por encima de la media, y una puntuación Z negativa indica que está por debajo de la media.
- Unidad de medida: La desviación estándar se convierte en la unidad de medida.
Propiedades de la Distribución Normal Tipificada
- Simetría: La distribución es simétrica alrededor de la media (μ = 0). La media, la mediana y la moda coinciden.
- Asintoticidad: La curva se acerca al eje X (eje horizontal) a medida que se aleja de la media, pero nunca lo toca. Se extiende desde -∞ hasta +∞.
- Puntos de inflexión: La curva cambia de cóncava a convexa (y viceversa) en los puntos situados a una desviación estándar de la media (Z = ±1).
Contraste de Hipótesis
Hipótesis Estadística vs. Hipótesis Conceptual
- Hipótesis Estadística: Es una afirmación sobre uno o más parámetros de una población. Se expresa en términos matemáticos y es cuantificable. Ejemplo: H0: μ = 100; H1: μ ≠ 100.
- Hipótesis Conceptual: Es una predicción o conjetura sobre la relación entre variables, basada en la teoría o en investigaciones previas. Es una afirmación general, no necesariamente cuantificable. Ejemplo: «El nuevo método de enseñanza mejorará el rendimiento académico de los estudiantes».
Hipótesis Nula (H0)
La hipótesis nula es una afirmación de *no efecto* o *no diferencia*. Es la hipótesis que se somete a prueba. Siempre contiene el signo de igualdad (=, ≤, ≥).
- Ejemplo: Si queremos probar si un nuevo fármaco reduce la presión arterial, la hipótesis nula podría ser: «El fármaco no tiene ningún efecto sobre la presión arterial» (H0: μdespués = μantes).
Hipótesis Alternativa (H1)
La hipótesis alternativa es la negación de la hipótesis nula. Representa la afirmación que el investigador espera demostrar. Nunca contiene el signo de igualdad (≠, <, >).
- Ejemplo (continuación): La hipótesis alternativa podría ser: «El fármaco reduce la presión arterial» (H1: μdespués < μantes).
Tipos de Contrastes de Hipótesis
- Contraste Bilateral (de dos colas): Se utiliza cuando la hipótesis alternativa no especifica la dirección de la diferencia. Se busca si hay una diferencia en *cualquier* dirección.
- H0: μ1 = μ2
- H1: μ1 ≠ μ2
- Contraste Unilateral Izquierdo (de una cola): Se utiliza cuando la hipótesis alternativa especifica que un parámetro es *menor* que otro.
- H0: μ1 ≥ μ2
- H1: μ1 < μ2
- Contraste Unilateral Derecho (de una cola): Se utiliza cuando la hipótesis alternativa especifica que un parámetro es *mayor* que otro.
- H0: μ1 ≤ μ2
- H1: μ1 > μ2
Pruebas Paramétricas y No Paramétricas
Pruebas Paramétricas
Las pruebas paramétricas son pruebas estadísticas que asumen que los datos siguen una distribución específica (generalmente, la distribución normal) y que se cumplen ciertos supuestos sobre los parámetros de la población.
- Supuestos comunes:
- Normalidad: Los datos se distribuyen normalmente en la población.
- Homocedasticidad (igualdad de varianzas): Las varianzas de las poblaciones comparadas son iguales.
- Independencia: Las observaciones son independientes entre sí.
- Ejemplos: Prueba t de Student, ANOVA, correlación de Pearson, regresión lineal.
Pruebas No Paramétricas
Las pruebas no paramétricas no requieren supuestos estrictos sobre la distribución de los datos. Son útiles cuando los datos no cumplen los supuestos de las pruebas paramétricas, cuando la muestra es pequeña o cuando los datos son ordinales o nominales.
- Ejemplos: Prueba U de Mann-Whitney, prueba de Wilcoxon, prueba de Kruskal-Wallis, chi-cuadrado, correlación de Spearman.
ANOVA de un Factor
El ANOVA (Análisis de Varianza) de un factor es una prueba paramétrica que se utiliza para comparar las medias de *tres o más* grupos independientes.
- Variable independiente (factor): Categórica (nominal u ordinal), que define los grupos.
- Variable dependiente: Cuantitativa (intervalo o razón).
- Hipótesis nula (H0): Las medias de todos los grupos son iguales (μ1 = μ2 = … = μk).
- Hipótesis alternativa (H1): Al menos una de las medias es diferente.
- Estadístico de contraste: F de Snedecor.
- Decisión: Si el valor p (probabilidad asociada al estadístico F) es menor o igual que el nivel de significancia (generalmente 0.05), se rechaza H0 y se concluye que hay diferencias significativas entre las medias de los grupos.
- Comparaciones post hoc: Si se rechaza H0, se realizan pruebas post hoc (por ejemplo, Tukey, Bonferroni) para determinar qué pares de medias difieren significativamente.
- Supuestos:
- Normalidad: La variable dependiente se distribuye normalmente en cada grupo.
- Homocedasticidad: Las varianzas de la variable dependiente son iguales en todos los grupos.
- Independencia: Las observaciones son independientes entre sí.
Contraste de Hipótesis sobre la Correlación de Pearson
El coeficiente de correlación de Pearson (r) mide la fuerza y la dirección de la relación *lineal* entre dos variables cuantitativas. El contraste de hipótesis sobre la correlación de Pearson se utiliza para determinar si la correlación observada en una muestra es estadísticamente significativa, es decir, si es probable que exista una correlación real en la población.
- Hipótesis nula (H0): No hay correlación lineal entre las variables en la población (ρ = 0).
- Hipótesis alternativa (H1): Existe una correlación lineal entre las variables en la población (ρ ≠ 0). También puede ser unilateral (ρ > 0 o ρ < 0).
- Estadístico de contraste: Se utiliza un estadístico t basado en el valor de r y el tamaño de la muestra.
- Decisión: Si el valor p es menor o igual que el nivel de significancia, se rechaza H0.
Varianza Residual (Varianza de Error)
En un modelo de regresión, la varianza residual (también llamada varianza de error o varianza no explicada) mide la dispersión de los valores observados alrededor de la línea de regresión (los valores predichos). Representa la parte de la variabilidad total de la variable dependiente que *no* es explicada por el modelo de regresión.
- Cálculo: Sr2 = Σ(Yi – Y’i)2 / (n – k – 1), donde Yi son los valores observados, Y’i son los valores predichos, n es el tamaño de la muestra y k es el número de variables independientes en el modelo. (Para regresión simple, k = 1).
- Interpretación: Una varianza residual alta indica que el modelo no se ajusta bien a los datos. Una varianza residual baja indica un mejor ajuste.
- Error típico de estimación: Es la raíz cuadrada de la varianza residual. Representa la desviación estándar de los errores de predicción.
Coeficientes Estandarizados en Regresión Múltiple
En un modelo de regresión múltiple, los coeficientes estandarizados (también llamados coeficientes beta) permiten comparar la importancia relativa de cada variable independiente en la predicción de la variable dependiente.
- Cálculo: Se obtienen estandarizando tanto la variable dependiente como las variables independientes (convirtiéndolas en puntuaciones Z) antes de realizar la regresión.
- Interpretación: Indican el cambio en la variable dependiente (en desviaciones típicas) por cada aumento de una desviación típica en la variable independiente, manteniendo constantes las demás variables independientes.
- Ventaja: Al estar en la misma escala (desviaciones típicas), los coeficientes estandarizados son directamente comparables. El coeficiente estandarizado con mayor valor absoluto indica la variable independiente con mayor influencia sobre la variable dependiente.