Conceptos Clave de Estadística Inferencial y Muestreo en Sociología
Introducción a la Estadística Inferencial
La estadística inferencial también sirve para caracterizar a un grupo según el «grado de acuerdo» sobre algo y contrastar hipótesis de que la frecuencia de respuestas para cada categoría será diferente. Mide la bondad del ajuste, es decir, la existencia o no de diferencia importante entre el número observado de personas, respuestas, etc. que pertenecen a cada categoría y el número esperado que se basa en H0. Para calcularlo hay que comparar valores observados con valores esperados, entonces es necesario establecer frecuencias esperadas. Se deducen de H0, que es la proporción de personas, respuestas, etc. que pertenecen a cada categoría en la población esperada.
- Distribución de probabilidad:
- Media: Utilizado con más frecuencia porque ofrece mayor información sobre la tendencia central de una distribución de puntuaciones relativamente simétricas.
- Error típico: Mide el error muestral, indica la magnitud de las desviaciones de los datos estadísticos de la muestra.
- Error típico de X: Mide la variabilidad de las X posibles muestras alrededor de la media de una población.
Distribución t de Student: Se utiliza cuando la muestra es bastante grande (más de 100) porque si es pequeña los datos no salen bien.
Probabilidades y Tipos de Muestreo
Teoría del muestreo: Estudio de las relaciones entre una población y las muestras de esta población.
Población: Conjunto de casos que tienen una característica común sobre la que se quiere obtener información.
Valores: No se pueden calcular directamente porque las poblaciones no resultan directamente asequibles.
Muestreo: Procedimiento para inferir los valores verdaderos (parámetros) de una población mediante el análisis de un número menor de casos.
Muestra: Grupo de elementos seleccionados con la intención de estimar los valores verdaderos de la población.
Aspectos Generales del Muestreo
- Población: Conjunto de todos los posibles individuos, objetos o medidas de interés.
- Muestra: Parte de la población de interés con las mismas características que la población.
- Ventajas del uso de muestras:
- Reducción de costes materiales del estudio.
- Mayor rapidez para conseguir información.
- Datos más fáciles de entender.
- Universo:
- Universo general: Población abstracta y teórica de la que hay que generalizar.
- Universo de trabajo: Población muy parecida y muy concreta.
Características de una Buena Muestra
- Representativa: Refleja las características de la población (tipo de muestreo).
- Adecuada: Cuantitativamente tiene que ser suficientemente grande (tamaño de la muestra).
- Unidades de muestreo: Número de elementos de la población que se va a estudiar.
- Unidades de análisis: Objeto o individuo del que hay que obtener información.
- Marco muestral: Lista de elementos o unidades de muestreo.
- Fracción de muestreo: Cociente del tamaño de la muestra (n) por el de la población (N). (n/N=cociente)
- Plan de muestreo: Diseño por el que se toman una o varias muestras para conseguir información.
- Datos: Mediciones de una población o de una muestra y que resultan de la medición de las variables o características estudiadas de una población.
Tipos de Muestreo
- Probabilístico (los resultados se pueden extrapolar o utilizar para otros estudios):
- Muestreo aleatorio simple
- Sistemático
- Estratificado
- Por conglomerados
- Multietápico
- No probabilístico (los resultados no se pueden extrapolar o utilizar en otros estudios):
- Muestreo por conveniencia
- Por juicios
- Por cuotas
- Por bola de nieve
Estadística Inferencial: Probabilidades y Tipos de Muestreo
Estadística inferencial: Obtener generalizaciones sobre una población determinada desde una muestra de dicha población/universo.
Sociología
- Aspira a establecer principios científicos que nos permitan predecir la conducta social.
- Utiliza la inferencia: realiza predicciones del comportamiento de poblaciones desde el estudio directo de las muestras.
Técnicas inferenciales: Estimación por parámetros y pruebas de hipótesis.
El proceso de estimación de parámetros (μ,σ) mediante la utilización de estadísticos (X,s) es el eje (lo más importante) de la estadística inferencial, se basa en: Teoría de la probabilidad y teoría del muestreo.
Fenómeno aleatorio: Es un fenómeno que puede hacer que salgan algunos resultados sin que pueda ser posible decir realmente cuál será el resultado final. Por ejemplo, cuando en condiciones parecidas se repiten los resultados sin parar o varían de una muestra a otra, también cuando es imposible predecir exactamente el resultado de cada experiencia diferente.
- Variable aleatoria:
- Discreta: Puede tomar determinado número de valores que son diferentes unos de otros pero de manera finita. Esto es distribuciones de probabilidad discreta.
- Continua: Es la que puede tomar un conjunto continuo de valores y los resultados son distribuciones de probabilidad continua.
- Probabilidad de un acontecimiento = frecuencia relativa.
Pruebas de Decisión Estadística en Investigación Social: Contraste de Hipótesis
Distribuciones de probabilidad. Objetivo de la inferencia estadística: Obtención de conclusiones en relación con un gran número de sucesos, observación de una muestra obtenida de ellos.
La estadística inferencial estudia 2 grandes temas:
- Estimación de los parámetros de la población.
- Contraste de hipótesis, pruebas de decisión.
Condiciones bajo las que se ha de obtener la evidencia buscada.
- Pruebas estadísticas (contraste de hipótesis):
- Determinar el tamaño de las diferencias observadas para tener la seguridad de que representan diferencias reales.
- Saber si una muestra en la que hemos observado la proporción Pm puede proceder de una población en la que hay una proporción P.
2 Problemas que resuelven las pruebas de contraste de hipótesis:
- Si las diferencias observadas entre 2 muestras significan que las poblaciones de las que se han obtenido son realmente diferentes o es por el azar.
- Si es probable que un valor obtenido en la muestra pertenezca realmente a otra población.
2 grandes grupos de pruebas estadísticas:
- Pruebas paramétricas: Tienen muchas restricciones sobre la naturaleza de la población.
- Población con distribución normal / varianza cumple condiciones / Variables de intervalo.
- Pruebas no paramétricas: No tienen tantas restricciones, puedes conseguir conclusiones con menos condiciones.
- De libre distribución / Variables nominales y ordinales / Gran utilidad en la investigación sociológica.
Procedimiento Estandarizado en Contraste de Hipótesis
- Formular hipótesis: H0 hipótesis nula, H1 hipótesis alternativa.
- Elección de una prueba estadística para contrastar H0.
- Especificar nivel de significación (α) y tamaño de la muestra.
- Distribución muestral de la prueba estadística en el supuesto de H0.
- En base a lo anterior, definir la región de rechazo de H0.
- Cálculo del valor de la prueba estadística, con datos de la muestra:
- Si el valor está dentro de la región de rechazo: Rechazar H0.
- Si el valor está fuera de la región de rechazo: No se puede rechazar H0.
- Hipótesis nula (H0) es la hipótesis a contrastar. Se formula con el propósito de ser rechazada, cuando se rechaza se acepta la hipótesis alternativa.
- Hipótesis alternativa (H1) es la hipótesis real de trabajo o hipótesis de la investigación. Predicción que ha sido deducida de la teoría sometida a la prueba de contrastación.
La teoría sociológica predice que 2 grupos sociales se diferencian en sus preferencias ideológicas. Esta predicción es nuestra hipótesis de trabajo y para contrastarla la llamamos (H1).
Criterios para Elegir entre Pruebas Alternativas
Según la naturaleza de los datos (ordinal, intervalo)
- Paramétrica:
- Prueba para la media de una población.
- Prueba t de Student.
- No paramétrica:
- Prueba binomial.
- Prueba X2.
Ley de los Grandes Números y Teorema del Límite Central
Ley de los grandes números: Al extraer repetidas muestras aleatorias de tamaño N de una población de cualquier forma de media μ y varianza σ2, cuando N es suficientemente grande, la distribución de las medias tiende a distribuirse normalmente.
Teorema del Límite Central:
- Si extraemos repetidas muestras aleatorias de tamaño n de una población distribuida normalmente, las X de esas muestras se distribuyen también normalmente.
- Si además el tamaño n de cada muestra es suficientemente grande se aplica la ley de los grandes números y con independencia de la forma de distribución de la población, las medias de las muestras se distribuirán normalmente.
Estadística Descriptiva Bivariable: Correlación y Regresión
Correlación: En qué medida se relacionan 2 variables de intervalo: coeficiente de correlación de Pearson. La correlación sirve para conocer la fuerza y dirección de una asociación.
Correlación lineal: 2 variables están relacionadas cuando los valores de una varían a la misma vez que los valores de la otra. Se puede comprobar fácilmente con el gráfico de dispersión o con la correlación «r» de Pearson, que es el método más usual para medir la intensidad de la relación lineal de 2 variables. También se llama correlación momento-producto. El coeficiente «r» puede estar entre -1 (correlación perfecta negativa) y +1 (correlación perfecta positiva).
Componentes de la Correlación Lineal
- La fuerza de la relación: Grado en que los pares de observaciones están representados en una línea, si los puntos hacen una línea larga y estrecha la relación es fuerte.
- Sentido de la relación: Quiere decir cómo varían los valores de Y en relación con X. Si los dos aumentan es positiva o directa, si los dos disminuyen es negativa o inversa.
- Forma de relación: Es el tipo de línea para definir el ajuste, puede ser recta o una curva.
Regresión: Predicción de los resultados de una de las 2 variables, si conocemos los resultados de la otra.
Regresión lineal: Calcular/dibujar la recta de mejor ajuste que nos permitirá realizar predicciones a partir de una tabla. Ecuación de regresión lineal. Sirve para predecir cómo se distribuirán los valores en una variable desde lo que sabemos de la distribución de otra variable.