Introducción a la Estadística y Demografía
Estadística: es la ciencia que utiliza como instrumento a la matemática y a los recursos de probabilística para estudiar las leyes del comportamiento de aquellos fenómenos en los que interviene el azar. La estadística generaliza leyes y se basa en ellas para predecir e inferir resultados. Su método sirve para recolectar, analizar y contrastar resultados de las observaciones de los fenómenos. Recopilación: recolección de información mediante entrevistas y encuestas; es una obtención de datos de fuentes primarias y secundarias. Presentación: exposición de la información en forma de gráfico o tabular. Análisis: consiste en el ordenamiento, cálculos, interpretaciones y obtención de indicadores de acuerdo al tipo de datos personales. Interpretación: cada cálculo, indicador o medida resumen de un conjunto de datos debe llevar consigo la interpretación del valor presentado.
Clasificación: Estadística probabilística: analiza situaciones en las que interviene el azar y el grado de incertidumbre sobre la ocurrencia de un suceso para crear modelos matemáticos. Ejemplo: modelo matemático de la vida útil de un artefacto. Estadística descriptiva: procede a resumir y organizar esos datos para facilitar su análisis e interpretación. Ejemplo: resúmenes, cuadros. Estadística inferencial: conjunto de técnicas y métodos que son usados para sacar conclusiones generales acerca de una población usando datos de una muestra tomada de ella. Además, nos ayuda a estudiar las leyes del comportamiento de fenómenos que dependen del azar mediante la teoría de la probabilidad con el fin de inferir leyes generales de comportamiento para una población a partir de una muestra. Ejemplo: estudiar las ganancias en un periodo característico de una población correspondiente.
Conceptos: Población: conjunto de todas las personas, animales o cosas que poseen información sobre el fenómeno que se estudia, tiene características comunes. Las poblaciones deben situarse claramente en torno a sus características de contenido, lugar y tiempo. Ejemplo: alumnos del nivel primario de Río Negro, año 2012. Muestra: es el subconjunto de la población al que tenemos acceso y sobre el que realmente hacemos la investigación. Una muestra representativa debe tener un tamaño mínimo calculado y responder a una selección parametrada. Unidad estadística: es cada uno de los sujetos u objetos de estudio de la población de la que hay que obtener información. Unidad muestral: elementos de la población que van a estudiar cada unidad estadística. Pertenece solo a una unidad de muestreo. Variable: característica que se mide u observa en cada unidad estadística. Las variables cualitativas asumen modalidades, se refieren a cualidades observables (sexo). Las variables cuantitativas se refieren a cantidades; las discretas provienen de realizar un conteo, asumen una cantidad finita o infinita numerable de valores posibles (número de hijos por familia) y las continuas provienen de mediciones, asumen infinitos valores posibles en un intervalo real (velocidad de un auto). Dato: valor que asume la variable en la unidad estadística. Parámetro: valor característico de una población. Estadístico: valor característico de una muestra.
Recopilación de la información: etapas operativas de la investigación estadística. Formulación y definición del problema: en forma precisa y completa de acuerdo al problema. Diseño del experimento: tipos de datos, cómo se obtendrá la información, tamaño de la muestra. Recopilación de la información: fuente directa o indirecta, nos valemos de estudios realizados por otros. Organización de la información: base de datos, matriz de individuos por variable. Presentación de la información: párrafos de texto, cuadros estadísticos, gráficos. Análisis de la información: inferencial o descriptiva. Interpretación de la información: conclusiones desprendidas del análisis.
Tipos de muestreo: Muestreo probabilístico: la forma de selección de los elementos es aleatoria, cada elemento de la muestra tiene una probabilidad conocida de ser seleccionada para formar parte de la misma. Este tipo de muestreo asegura la representatividad de la muestra extraída y permite hacer inferencias a la población. Aleatorio simple: el investigador determina el marco muestral, como nombre técnico de la lista de unidades o elementos a partir del cual se selecciona la muestra, ejemplo: directorio de teléfono, luego se enumera en forma consecutiva el marco y se procede a la selección en forma aleatoria. Conglomerados: consiste en una muestra aleatoria sucesiva de unidades. La primera unidad por muestra está integrada por grupos o grandes conglomerados. Es económico y práctico, ideal para poblaciones grandes y dispersas. Estratos: segmentos excluyentes de una población, establecidos con uno o más atributos; la variable elegida debe permitir que se formen estratos internamente homogéneos a partir de los cuales se selecciona aleatoriamente un número adecuado de elementos. Muestreo no probabilístico: la selección de las unidades de análisis se hace siguiendo determinados criterios del investigador, procurando en la medida de lo posible que la muestra sea representativa. Sin embargo, este tipo de muestra carece de fundamentación probabilística y no corresponde hacer inferencias en la población. Muestreo sistemático: consiste en seleccionar como elemento cada enésimo caso de lista o grupo.
Organización y presentación de datos estadísticos: Párrafos de texto: pocas cifras, expresan en palabras las cantidades. Cuadros estadísticos: arreglo sistemático en matriz de datos. Gráficos estadísticos: destacan hechos esenciales, sirven como medio de control.
Variable: es la característica que se mide u observa a cada unidad estadística. Cualitativas: asumen modalidades, se refieren a cualidades observables. Cuantitativas: se refieren a cantidades. Discretas: provienen de realizar un conteo, asumen una cantidad finita o infinita numerable de valores posibles (n° de hijos por familia). Continuas: provienen de mediciones, asumen infinitos valores posibles en un intervalo real (velocidad de un auto).
Medidas de posición: son los valores medios o de tendencia central, proporcionan la diferencia de localización de la distribución sobre el eje de las abscisas respecto al origen. Promedio X (media): en su cálculo intervienen todos los valores observados. El más importante es el promedio aritmético X. Mediana (mna): es el valor de la variable que supera a no más de la mitad de las observaciones y a la vez es superada por no más de la mitad. Para su cálculo es necesario ordenar la serie de datos. Si «n» es impar, entonces la mediana es el valor que ocupa el valor central. Si «n» es par, entonces existen dos valores centrales y la mediana se calcula como promedio de estos. Cuartiles (Q): Primer cuartil (Q1) supera a no más de la cuarta parte de las observaciones. Cuartil superior (Q3) supera a no más de las tres partes de las observaciones. El segundo cuartil (Q2) coincide con la mediana. Modo (mdo): es el valor de la variable al cual le corresponde la máxima frecuencia.
Medidas de dispersión: son las que indican la diferencia en la intensidad con que se dispersan o concentran los valores con respecto a una medida de tendencia central. Rango (R): es la diferencia entre los valores extremos, el máximo valor observado y el mínimo valor observado. Recorrido intercuartil (RQ): es la diferencia entre los dos cuartiles. Su ventaja frente al rango es que elimina el 50% de los valores extremos. El RQ cubre el 50% de las observaciones centrales. Desviación cuartílica (DQ): es la mitad del recorrido intercuartil. Varianza (V): se la define y calcula como el promedio de los cuadrados de los desvíos respecto de la media aritmética. Desvío estándar (S(x)): en su cálculo intervienen todas las observaciones. Es una medida útil para comparar dos poblaciones en las cuales se está estudiando la misma variable y se la expresa en la misma unidad de medida. Si las unidades de medida no son las mismas, para poder realizar comparaciones nos valdremos de un coeficiente adimensional. Dispersión relativa. Coeficiente de variación (CV): se lo define como el coeficiente entre el desvío estándar y la medida de la variable. De esta manera, se elimina la unidad de medidas resultando un coeficiente adimensional, por lo cual suele ser expresado en porcentajes. Cuando es necesario comparar dos poblaciones en las cuales se estudia la misma variable pero con medidas diferentes, una misma dispersión no significa tanto si la media de la variable es mayor.
Estadística descriptiva bivariada: Serie simple bidimensional: consideramos la situación en la que los n elementos de la muestra se les observa simultáneamente dos variables, x e y. Realizada la experiencia se obtienen las siguientes observaciones bivariadas: (xi,yi);(x2,y2),…(xn,yn). Diagrama de dispersión: una serie simple bidimensional se puede representar en un diagrama de dispersión, donde xi indica el menor valor que asume la variable x. xm: indica el mayor valor que asume la variable x. m indica la cantidad de valores distintos observados de la variable x. yi indica el menor valor que asume la variable y. yp indica el mayor valor que asume la variable y. p indica la cantidad de valores distintos observados en la variable y. Frecuencias conjuntas (f.j) indican la cantidad de veces que se observó conjuntamente un valor de la variable x con un valor de la variable y. Frecuencias marginales (f.i y f.j) indican la cantidad de veces que se observó un valor de una variable sin interesar cuál es el valor que asume la otra. Covarianza: la variación conjunta de dos variables se mide a través de un coeficiente llamado covarianza. Además, el signo que asume la covarianza indica el tipo de relación entre las variables. Interpretación covarianza: Cov(x,y)>0 relación directa entre las variables. Cov(x,y)
Demografía: es la ciencia que estudia estadísticamente la estructura y dinámica de las poblaciones así como las leyes que rigen estos fenómenos. Su objetivo son las poblaciones humanas que se pueden definir como el conjunto de personas que habitualmente residen en una zona geográfica en un momento determinado. Entre sus fines, se pueden mencionar que analiza la dimensión de las poblaciones; conocer la estructura, cómo se distribuyen en función de variables demográficas de personas, estudia la evolución a lo largo del tiempo del número y estructura de la población, determina los fenómenos demográficos que condicionan el número, estructura y variaciones de la población en una zona geográfica en función del tiempo (natalidad, mortalidad, fenómenos migratorios). Dinamica poblacional: el cambio en una población se relaciona con hechos demográficos: nacimientos, defunciones, migraciones, emigraciones. Varía su número absoluto en un período determinado de tiempo. Crecimiento total: (nacimientos – defunciones) + (inmigrantes – emigrantes). Así, se obtiene la ecuación compensadora de la población que se describe de la siguiente manera: Pt = Po + (B – D)(o,t) + (I – E)(o,t). Donde el efectivo de una población determinada en el año t (Pt) es igual a dicha población en un momento anterior (Po) sumada a la diferencia entre los nacimientos (B) y las defunciones (D) más la diferencia entre los inmigrantes (I) y la emigración (E) ocurridas entre el momento inicial y el momento t. Crecimiento de una población: en base a la ecuación compensadora, obtenemos el crecimiento mediante la siguiente ecuación Cz = (Bz – Dz) + (Iz – Ez) donde Bz – Dz son los nacimientos menos las defunciones ocurridos en el año z (crecimiento vegetativo o natural) Iz – Ez son los inmigrantes menos los emigrantes del año z (saldo migratorio) Cz es el crecimiento demográfico total en el año z. Crecimiento relativo: para eliminar el efecto de la magnitud de la población, puede recurrirse a la proporción del crecimiento o al porcentaje del crecimiento. En este caso, la intensidad del crecimiento se expresa por la relación existente entre la población final y la población inicial. Rc = Pf/Pi. Crecimiento porcentual: (Pf – Pi)/Pi * 100. Ritmo o tasa de crecimiento: rz = Estructura de la población: la demografía estática estudia la estructura de la población, la principal fuente de datos son los censos de población y los padrones municipales. La demografía estática expresa sus resultados en forma de tablas de frecuencias o de forma gráfica mediante pirámides de población. Las tablas de frecuencia muestran las frecuencias de distribución de los efectivos de población en función de determinadas variables. Las pirámides de población son una representación gráfica de la distribución de la población por edad y sexo en un eje de coordenadas; proporcionan información demográfica y sanitaria mediante la observación de su morfología. Existen tres tipos de morfología que nos sirven de referencia: 1. Pagoda: es la que realmente tiene forma de pirámide; refleja una población joven y un bajo nivel sanitario (elevada natalidad y mortalidad). 2. Campana: indica una población madura con baja natalidad y mortalidad, corresponde a poblaciones con buen nivel económico y sanitario. 3. Bulbo: refleja una población con muy poca natalidad; corresponde a poblaciones de un elevado nivel de desarrollo y sanitario. Peso relativo: % Varones0-4: varones0-4 dividido la población total. Composición por sexo: la composición por sexo de una población es la más esencial de todas las características demográficas y le afecta directamente al número de nacimientos, defunciones y uniones conyugales, se describe a través de una serie de índices de masculinidad que pueden expresarse para la población total y para distintas edades: I.M = V/M * 100. Índice de niñez o juventud: Pobl(0-4)/Pobl(15-64) * 100. Índice de adultos mayores o ancianidad: Pobl(65 y más)/Pobl(15-64) * 100. Natalidad: el análisis de la natalidad estudia la incorporación de los individuos a la población y la expresa mediante el cálculo de tasa. Mortalidad: estudia la salida de los individuos de una población debido a la mortalidad, se expresa mediante tasas.