Introducción a la Estadística: Conceptos y Métodos
Estadística: es la ciencia que utiliza como instrumento a la matemática y a los recursos de probabilística para estudiar las leyes del comportamiento de aquellos fenómenos en los que interviene el azar. La estadística generaliza leyes y se basa en ellas para predecir e inferir resultados. Su método sirve para recolectar, analizar y contrastar resultados de las observaciones de los fenómenos. Recopilación: recolección de información mediante entrevistas y encuestas; es una obtención de datos de fuentes primarias y secundarias. Presentación: exposición de la información en forma de gráfico o tabular. Análisis: consiste en el ordenamiento, cálculos, interpretaciones y obtención de indicadores de acuerdo al tipo de datos personales. Interpretación: cada cálculo, indicador o medida resumen de un conjunto de datos debe llevar consigo la interpretación del valor presentado.
Clasificación: estadística probabilística: analiza situaciones en las que interviene el azar y el grado de incertidumbre sobre la ocurrencia de un suceso para crear modelos matemáticos. Ejemplo: modelo matemático de la vida útil de un artefacto. estadística descriptiva: procede a resumir y organizar esos datos para facilitar su análisis e interpretación. Ejemplo: resúmenes, cuadros. estadística inferencial: conjunto de técnicas y métodos que son usados para sacar conclusiones generales acerca de una población usando datos de una muestra tomada de ella. Además, nos ayuda a estudiar las leyes del comportamiento de fenómenos que dependen del azar mediante la teoría de la probabilidad con el fin de inferir leyes generales de comportamiento para una población a partir de una muestra. Ejemplo: estudiar las ganancias en un periodo característico de una población correspondiente.
Conceptos: Población: conjunto de todas las personas, animales o cosas que poseen información sobre el fenómeno que se estudia, tiene características comunes. Las poblaciones deben situarse claramente en torno a sus características de contenido, lugar y tiempo. Ejemplo: alumnos del nivel primario de Río Negro, año 2012. Muestra: es el subconjunto de la población al que tenemos acceso y sobre el que realmente hacemos la investigación. Una muestra representativa debe tener un tamaño mínimo calculado y responder a una selección parametrada. Unidad estadística: es cada uno de los sujetos u objetos de estudio de la población de la que hay que obtener información. Unidad muestral: elementos de la población que van a estudiar cada unidad estadística. Pertenece solo a una unidad de muestreo. Variable: característica que se mide u observa en cada unidad estadística, puede ser cuantitativa (edad) o cualitativa (sexo). Dato: valor que asume la variable en la unidad estadística. Parámetro: valor característico de una población. Estadístico: valor característico de una muestra.
Recopilación de la información: etapas operativas de la investigación estadística. Formulación y definición del problema: en forma precisa y completa de acuerdo al problema. Diseño del experimento: tipos de datos, cómo se obtendrá la información, tamaño de la muestra. Recopilación de la información: fuente directa o indirecta, nos valemos de estudios realizados por otros. Organización de la información: base de datos, matriz de individuos por variable. Presentación de la información: párrafos de texto, cuadros estadísticos, gráficos. Análisis de la información: inferencial o descriptiva. Interpretación de la información: conclusiones desprendidas del análisis.
Tipos de muestreo: Muestreo probabilístico: la forma de selección de los elementos es aleatoria, cada elemento de la muestra tiene una probabilidad conocida de ser seleccionada para formar parte de la misma. Este tipo de muestreo asegura la representatividad de la muestra extraída y permite hacer inferencias a la población. Aleatorio simple: el investigador determina el marco muestral, como nombre técnico de la lista de unidades o elementos a partir del cual se selecciona la muestra, ejemplo: directorio de teléfono, luego se enumera en forma consecutiva el marco y se procede a la selección en forma aleatoria. Conglomerados: consiste en una muestra aleatoria sucesiva de unidades. La primera unidad por muestra está integrada por grupos o grandes conglomerados. Es económico y práctico, ideal para poblaciones grandes y dispersas. Estratos: segmentos excluyentes de una población, establecidos con uno o más atributos; la variable elegida debe permitir que se formen estratos internamente homogéneos a partir de los cuales se selecciona aleatoriamente un número adecuado de elementos. Muestreo no probabilístico: la selección de las unidades de análisis se hace siguiendo determinados criterios del investigador, procurando en la medida de lo posible que la muestra sea representativa. Sin embargo, este tipo de muestra carece de fundamentación probabilística y no corresponde hacer inferencias en la población. Muestreo sistemático: consiste en seleccionar como elemento cada enésimo caso de lista o grupo.
Organización y presentación de datos estadísticos: Párrafos de texto: pocas cifras, expresan en palabras las cantidades. Cuadros estadísticos: arreglo sistemático en matriz de datos. Gráficos estadísticos: destacan hechos esenciales, sirven como medio de control.
Variable: es la característica que se mide u observa en cada unidad estadística. Cualitativas: asumen modalidades, se refieren a cualidades observables. Cuantitativas: se refieren a cantidades. Discretas: provienen de realizar un conteo, asumen una cantidad finita o infinita numerable de valores posibles (n° de hijos por familia). Continuas: provienen de mediciones, asumen infinitos valores posibles en un intervalo real (velocidad de un auto).
Medidas de posición: son los valores medios o de tendencia central, proporcionan la diferencia de localización de la distribución sobre el eje de las abscisas respecto al origen. Promedio X (media): en su cálculo intervienen todos los valores observados. El más importante es el promedio aritmético X. Mediana (mna): es el valor de la variable que supera a no más de la mitad de las observaciones y a la vez es superada por no más de la mitad. Para su cálculo es necesario ordenar la serie de datos. Si «n» es impar, entonces la mediana es el valor que ocupa el valor central. Si «n» es par, entonces existen dos valores centrales y la mediana se calcula como promedio de estos. Cuartiles (Q): Primer cuartil (Q1) supera a no más de la cuarta parte de las observaciones. Cuartil superior (Q3) supera a no más de las tres partes de las observaciones. El segundo cuartil (Q2) coincide con la mediana. Modo (mdo): es el valor de la variable al cual le corresponde la máxima frecuencia.
Medidas de dispersión: son las que indican la diferencia en la intensidad con que se dispersan o concentran los valores con respecto a una medida de tendencia central. Rango (R): es la diferencia entre los valores extremos, el máximo valor observado y el mínimo valor observado. Recorrido intercuartil (RQ): es la diferencia entre los dos cuartiles. Su ventaja frente al rango es que elimina el 50% de los valores extremos. El RQ cubre el 50% de las observaciones centrales. Desviación cuartílica (DQ): es la mitad del recorrido intercuartil. Varianza (V): se la define y calcula como el promedio de los cuadrados de los desvíos respecto de la media aritmética. Desvío estándar (S(x)): en su cálculo intervienen todas las observaciones. Es una medida útil para comparar dos poblaciones en las cuales se está estudiando la misma variable y se la expresa en la misma unidad de medida. Si las unidades de medida no son las mismas, para poder realizar comparaciones nos valdremos de un coeficiente adimensional. Dispersión relativa. Coeficiente de variación (CV): se lo define como el coeficiente entre el desvío estándar y la medida de la variable. De esta manera, se elimina la unidad de medidas resultando un coeficiente adimensional, por lo cual suele ser expresado en porcentajes. Cuando es necesario comparar dos poblaciones en las cuales se estudia la misma variable pero con medidas diferentes, una misma dispersión no significa tanto si la media de la variable es mayor.
Probabilidad: Espacio muestral (Ω): es el conjunto de todos los resultados posibles de un experimento aleatorio. Espacio equiprobable (#): cantidad de resultados posibles del experimento. Cada resultado tiene una probabilidad de 1/# de ocurrir P(W) = . Definición frecuencial de probabilidad: si se repite un experimento una gran cantidad de veces y se observa la aparición de un resultado (suceso A) podrá notarse que la frecuencia relativa del suceso tiende a estabilizarse en un valor a medida que crece el número de repeticiones del experimento. Simbolizando con «f» a la cantidad de veces que apareció el suceso A como resultado del experimento y con «n» a la cantidad de veces que se repitió el experimento.
Sucesos: Suceso elemental: es cada uno de los resultados posibles del experimento aleatorio, es decir, cada elemento del espacio muestral. Suceso aleatorio: es un subconjunto de espacio muestral, un conjunto de resultados posibles del experimento aleatorio. Suceso imposible: suceso que no puede ocurrir. Suceso seguro: que ocurre sí o sí. Suceso de unión: de A y B (A ∪ B) formado por los resultados experimentales que están en A o en B, incluyendo los que están en ambos. Suceso de intersección: de A y B (A ∩ B) o simplemente AB, formado por los resultados experimentales que están simultáneamente en A y B. Sucesos excluyentes: P(A ∩ B) = P(A) + P(B), si A ∩ B = 0. Para tres sucesos mutuamente excluyentes P(A ∪ B ∪ C) = P(A) + P(B) + P(C); si A ∩ B ∩ C = 0. Suceso no excluyente: P(A ∪ B) = P(A) + P(B) – P(A ∩ B) regla de la suma. Para tres sucesos que no son mutuamente excluyentes P(A ∪ B ∪ C) = P(A) + P(B) + P(C) – P(A ∩ B) – P(A ∩ C) – P(C ∩ B) + P(A ∩ B ∩ C). Probabilidad condicionada: es la probabilidad de A condicionada a B, o probabilidad de A sabiendo que pasa por B. P(A/B) = P(A ∩ B) / P(B). Estadística independiente: si la ocurrencia de un suceso A no afecta a la probabilidad de ocurrencia de otro suceso B, decimos que ambos son independientes. Si dos sucesos, A y B son independientes, entonces la probabilidad conjunta es: el producto de las probabilidades de los sucesos y viceversa. A y B son independientes P(A ∩ B) = P(A)P(B).