Análisis Estadístico: Variables, Escalas, Tratamiento y Muestreo

Los variables son las carácterísticas que se estudia de la muestra pueden ser: (depende de si son numéricas o no) • Cualitativa:
atributo NO es numérico, sino que lo que se estudia es una palabra. Ej: Qué marca prefieres: Adidas, Nike o Puma • Cuantitativa:
Atributo número, el resultado siempre es en número. Según la posibilidad de fraccionarlo o no: o Discretas: son números enteros no fraccionables. Ej: Nº de hijos o Continuas: son números fraccionables, llevan decimales. Ej: Peso o altura.

Las escalas sirven para medir y analizar datos. Tipos de escalas: • Nominal:
Datos cualitativos, es la más sencilla de ellas y apenas se puede hacer análisis estadísticos. Sirve para identificar, son puramente cualitativo, ya que no se puede medir, solo la moda (lo que aparece con más frecuencia). No hay número y no se puede ordenar.

Ordinal:


datos cualitativos, permite la moda y la mediana (se ordena y se divide entre 2, eligiendo la opción del medio) se puede ordenar las opciones (preferencias). Indican si un objeto tiene más o menos cantidad de cierta carácterística que algún otro, pero no cuánto más o menos. • De intervalo:
Para datos cuantitativos solo se puede calcular la moda, mediana y media. Se mide la distancia entre los intervalos o las diferentes categorías o clases. Ordenan e indican distancias entre los elementos.

Razón:

para datos cuantitativas, se puede calcular todo acerca de la estadística. (pensar en el 0, si existe ausencia de la variable, solo vale 0 matemático) .

La cualitativa no se puede medir, solo se puede a través de la moda (escoger la opción más votada).

TRATAMIENTO ESTADÍSTICO

Disciplina que se ocupa de obtener, ordenar y analizar un conjunto de datos con el fin de lograr explicaciones y predicciones que nos permitan sacar conclusiones y tomar decisiones

2 tipos:

Descriptiva

: Métodos de recolección, organización, resumen y presentación de un conjunto de datos.

Indiferencial

: Métodos para hacer predicciones y generalizaciones para obtener conclusiones con datos personalizados.


ORGANIZACIÓN DE DATOS


Codificación

Se basa en la transformación de las distintas respuestas aportadas encuestionarios en códigos o valores que permiten su tratamiento estadístico.


Tabulación de datos

Representación de estos datos de manera directa, concisa y visualmente atractiva. Esto se hace en estadística mediante la tabulación de la variable estadística.

-Frecuencias:


-Absoluta(ni): Número de veces que aparece la muestra en el valor de la variable.


-Relativa(fi): Cociente entre la frecuencia absoluta y el tamaño de la muestra(ni/N).

En términos de porcentaje se expresa pi


-Absoluta acumulada (NI): Ha de ser una variable cualitativa o cuantitativa. Es el número de veces que ha aparecido en la muestra un valor menor o igual que el de la variable.


-Relativa Acumulada (FI): Frecuencia absoluta acumulada dividido por el tamaño de la muestra.


-Porcentaje acumulado (PI): La frecuencia relativa acumulada por 100.


-Intervalos:

Para tratar estadísticamente los datos, cuando están recogidos en intervalos, nos será útil calcular la marca de clase: hace referencia al punto medio del intervalo.


Análisis DE DATOS

En función de la escala elegida (nominal, ordinal, de intervalo y de razón), podríamos definir su codificación, tratamiento informático y estadístico.

Diagrama  Descripción generada automáticamente Por tanto, la identificación de cada variable y su escala, en un cuestionario, resultará imprescindible para determinar el análisis de datos posible y más adecuado.

Cuando investigamos necesitamos tabular y ordenar los datos obtenidos. Luego interpretamos los resultados utilizando diferentes mediadas que nos ayudan a aprovechar los datos de investigación.

 En estadística, hay muchos tipos de medidas, y podemos clasificarlas según la variable que estemos analizando.


-Univariante

: Técnicas de análisis que se aplican sobre una variable de forma aislada.


-Bivariante

: Técnica que se aplica sobre dos variables de forma conjunta. Su objetivo es la búsqueda de relaciones de asociación, dependencia, causa-efecto.


-Multivariante

: Técnica de análisis de datos que se aplican sobre más de dos variables de forma conjunta. Se busca relación entre ellas.


Estadística permite obtener, organizar y analizar datos para tomar decisiones


Tipos


Estadística descriptiva, para la recolección, organización, resumen y presentación de datos: (más sencilla y común) 

-Se muestra a través de indicadores, gráficos y tablas, se usan para cualquier tipo de variable (cualitativa o cuantitativa).  -Pero para calcular parámetros, depende del tipo de variable y de su escala, se puede calcular la centralización y la dispersión. 

• Estadística inferencial, para hacer predicciones y generalizaciones, para después tener conclusiones (analiza datos) 

-Permite realizar contraste de hipótesis y relaciones causa-efecto.

La encuesta siempre es un dato cuantitativo, pero tiene variables cualitativas o cuantitativas. (Siempre debe tener variables distintas) Siempre, en cualquier tipo de escala, se pueden hacer tablas de frecuentas (no como cálculo sino como representación de datos).

Organización de datos


 • Codificación, asociando y organizando los datos, se decide cómo convertir los datos en Excel (usando códigos o valores que permitan su tratamiento). Ej: masculino =1 y femenino=2 // Muy bueno=1; bueno =2; regular=3; malo=4

 • Tabulación, representación de datos (de manera directa, concisa y visualmente atractiva), se usan tablas de frecuencia.

Tablas de frecuencia:


• Frecuencia absoluta (ni), nº de veces que aparece una variable (=Contar.Si)

 • Frecuencia relativa (fi), (=ni/N)

 • Frecuencia relativa % (pi), (=ni/N) en % 

• Frecuencia absoluta acumulada (NI), para saber la mayoría de los datos (=ni1; =ni1+ni2….) 

• Frecuencia relativa acumulada (FI), para saber la mayoría de los datos (=fi1; =fi1+fi2…) 

• Frecuencia relativa acumulada % (PI), (=fi1; =fi1+fi2…) en %.

Intervalos, para agrupar los datos cuando hay una gran dispersión en los datos (se hace referencia al punto medio del intervalo, ej: 1.63-1.68 =1.66) 


Análisis de datos


Técnicas de análisis de datos, según la cantidad de variables. (cuanto más variable más complejo) 

Univariante:
Conocer una única variable.

Bivariante:
Ver si hay relación entre 2 variables, ej: los gustos de yogurt y la cantidad consumida.

Multivariante:
Intentar relacionar muchas variables a la vez: ej edad, sexo y nivel académico.

Cálculos de medidas: • Medidas de posición y centralización


Permite resumir el comportamiento de todos los elementos con un valor único, pero pierden representatividad cuando aumenta la heterogeneidad de datos (gran dispersión) 


Media, sumatorio de todos los datos dividido sobre el total de observaciones realizadas 


Mediana (Me), valor que ocupa el lugar central, cuando éstos están ordenados de menor a mayor. (Se calcula cuando la variable no es homogénea con gran dispersión) 


Moda (Mo), valor que más se repite, es el valor que tiene mayor frecuencia absoluta (ni).

Medidas de dispersión: soluciona la pérdida de representatividad de información: 


Rango o recorrido (A=XM-Xm), diferencia entre el valor máximo y mínimo dentro de una dispersión. Ej: se toma los valores de individuos que pesan 50- 130kg, el recorrido es 80 (130-50) (está muy condicionada por la presencia de los valores extremos, es meramente aproximativo).


-Varianza, mide la dispersión de los datos a partir de la media, señala que tan cerca o lejos estamos de los datos con respecto a la media. (Cuanto mayor sea la varianza, mayor es la dispersión de los datos).


-Desviación típica, ▪ Desviación estándar bajo, la mayoría de los datos son similares. ▪ -Desviación estándar alto, los datos están más dispersos.

Coeficiente de variación, Mide la variación de los datos respecto a la media ▪ Cuanto mayor C.V. Más heterogéneo (los valores) ▪ Valores entre el 0-1: • Próximos al 0, poca variabilidad en los datos y es una muestra muy compacta • Próximos al 1, es una muestra muy dispersa.


Población(N): conjunto de todos los elementos (individuos/empresas) cuyas propiedades se van a investigar. Se puede considerar-
Infinito (>100000 elementos)-
Finito (<100000 elementos)

Se utilizan técnicas de muestreo para seleccionar a una parte de la muestra de la población para analizar sus carácterísticas.La muestraMuestra: es un subconjunto de la población. –Muestreo: es el proceso mediante el cual se escoge una muestra de la población. –

POBLACIÓN Y MUESTRA

Trabajar con una muestra representativa de la población, para ello debemos trabajar con criterios y técnicas de muestreo.

La representatividad de la muestra depende de dos cosas:

  • Tamaño de la muestra: Parte de la muestra que cumple con las carácterísticas de la investigación reduciendo costes y tiempo.
  • Del mecanismo de selección o tipo de muestreo: Técnicas de selección individuales o en conjunto para hacer inferencias estadísticas y estudiar las carácterísticas de la población.

Muestrear implica aceptar la aparición de un tipo de error, el error de muestreo, que no se da si se recoge la información del total de la población.

Se recoge información de una muestra concreta para no recoger información de la población ya que son demasiado grandes.


Cálculo DEL TAMAÑO DE LA MUESTRA

El tamaño de la muestra depende de:

-Nivel de confianza

Diagrama  Descripción generada automáticamente

-Error muestral permitido

-Varianza promocional

-Tamaño del universo o población

Cálculo

  • Población finita (<100.000) la formula de arriba
  • Imagen que contiene Calendario  Descripción generada automáticamentePoblación infinita (>100.000)la formula de abajo

N:  Tamaño de la población

n: Tamaño de la muestra

e^2: Error muestral. Diferencia que puede haber entre el resultado que obtenemos preguntando a una muestra de la población y el que obtendríamos si preguntáramos al total de ella. No se suele trabajar con errores muéstrales superiores al 5%.

S: Nivel de confianza

Imagen que contiene Texto  Descripción generada automáticamente

p y q: Varianza poblacional. Si una población es más o menos homogénea.

     –p: Proporción de individuos que poseen la carácterística de estudio.

     –q: Proporción de individuos que no poseen esa carácterística. Si no se conoce se toma p=50% y q=50%


EXCEL

Media: =promedio (total x*ni/ total ni)


Varianza: =Total x-media/ total ni

Desviación: =raíz(varianza)

Límite máximo: Media+desviación

Límite mínimo: Media-Desviación

Coeficiente: Media/Desviación


Moda: Moda. Uno(muestra)


Mediana: Mediana(muestra)