Frecuencia relativa porcentual

Estadística: DEFINICIÓN


Definición


“Es el conjunto de métodos y técnicas que permiten determinar, de una muestra debidamente representativa de una población, los valores estadísticos, a fin de poder inferir sobre los parámetros poblacionales con un cierto grado de bondad».

Estadística descriptiva como “El conjunto de métodos que incluyen la recolección, presentación y caracterización de un conjunto de datos con el fin de describir apropiadamente sus carácterística.

Estadística inferencial la definen como “Conjunto de métodos que hacen posible la estimación de una carácterística de la población o la toma de una decisión referente a una población basándose solo en los resultados de una muestra”

POBLACIÓN: Definición


“El conjunto de datos cuantificable pertenecientes al sistema en estudio constituye la población.» Ejemplo: se pretende estudiar la edad promedio de los estudiantes de la Universidad Empresarial Siglo XXXI, la población estará conformada por todos los estudiantes de esa Institución.

MUESTRA:


Definición: “Una muestra estará constituida por un subconjunto de la población.”: El análisis se efectúa por medio de una muestra que esté constituida por una parte de todos los valores poblacionales.

Una muestra se dice que es debidamente representativa de una población cuando presenta sus mismas carácterísticas


Presentar las mismas carácterísticas que la población implica que, si el 20% de la población cumple con una determinada propiedad, se espera que el 20% de la muestra cumpla con esa misma propiedad.

VALORES ESTADÍSTICOS:


El estudio realizado sobre una muestra nos permite determinar valores cuyas carácterísticas nos referiremos más adelante y a los cuales se los denomina estimadores pudiendo también tomar el nombre de valores estadísticos, mediante los cuales se podrá efectuar una correcta estimación sobre los valores de la población.

EJEMPLO


Si se pretendiere determinar el salario de los empleados metalúrgicos del País, tomaríamos una muestra constituida por operarios de distintas empresas y distintas provincias y siempre proporcional al número de operarios de cada lugar, el salario promedio obtenido en la muestra se denomina estadístico, mientras que el salario promedio de toda la población obrera metalúrgica se constituye en parámetro.

PARÁMETROS


Definición: Los valores en estudio, que en la muestra toman el nombre de Estadísticos, en la población se los denominan Parámetros.

Definición


Se define como bondad al margen de seguridad con que se realiza la inferencia de acuerdo a los estudios realizados sobre la o las muestras.

Debemos tener en cuenta que la Estadística basa su aplicación en el estudio y análisis de números los que se denominan Datos. Si dichos datos son obtenidos a través de una muestra, se los llama observaciones, las que deben responder a una determinada carácterística que es la que tenemos en estudio.

El número de alumnos ingresados en cada una de las Universidades de la provincia. De Córdoba en el corriente año, cada una de estas toma el nombre de Variable. En definitiva cada vez que nos aboquemos a un estudio estadístico debemos de tener en cuenta que dicho estudio corresponde a una Variable, y que de ésta se tendrán Datos y los que corresponden a Observaciones realizadas.

Discretos


Se dice que un valor es discreto cuando es el resultado de un conteo. Cantidad de alumnos aprobados o reprobados en una evaluación.

Continuos


Se dice que una variable es del tipo continuo cuando asume valores dentro de un intervalo de números reales. Las alturas de los alumnos de un curso.

Es decir en definitiva, cuando el valor del dato u observación se mide en un intervalo, decimos que es del tipo continuo.

Nominales


Cuando los valores que adopta la variable en estudio puede ser clasificada de acuerdo a categorías. Ejemplo: Soltero casado viudo divorciado, Infantiles cadetes mayores.

Jerarquizados


Este tipo de dato se presenta cuando es necesario otorgarle a la variable una cierta jerarquía de orden. Supongamos tener que estudiar el grado de calidad de las obras expuestas por un cierto número de plásticos de Córdoba a fin de asignar los correspondientes premios, en conclusión entonces no podrá en este tipo de variable asegurar la exactitud del cálculo.

VALORES ESTADÍSTICOS:


Todos los valores que se determinan en la muestra se denominan estadísticos, mientras que los valores propios de la población se denominan parámetros, se clasifican en:

SERIE SIMPLE:


El conjunto de observaciones ordenadas de menor a mayor se denomina Serie Simple: -3 -2 -2 -2 -2 -1 -1 0 0 1 1. La Serie simple se puede expresar como: x1 x2 x3 x4. . . . . . . . . . . . . . . . . . . . . . . . . . .Xn, dónde: x1= -3 y xn = 1.

MEDIA:


Se define como media aritmética o promedio de una distribución al cociente entre la suma de todas las observaciones dividido el número total de ellas:

 Es conveniente aclarar que la media poblacional se define como:  

N tamaño de la población. Cuya denotación general es:

 Mientras que en la muestra el estadístico x(guion arriba) corresponde a la media de la muestra:

MEDIANA:


Se define como Mediana de una distribución, al valor que ocupa el punto medio de la distribución. Ocupar el punto medio de la distribución implica que la mediana deja a la izquierda la misma cantidad de valores que a la derecha.

MODA


 

Se define como Moda de una distribución al valor que más veces se repite. En caso de tener dos modas se la denomina bimodal y en caso de tres trimodal, etc. Así mismo si se presentare el caso en que todos los valores de la distribución tienen el mismo número de repeticiones, diremos que dicha distribución no tiene moda.

FRECUENCIA:


Dada una distribución se define como Frecuencia de un valor, al número de veces que el mismo se repite.

Ejemplo: -2 -2 -4 -1 -1 -1 0 -3 -2 -1. Para -4 su f = 1 //-3 su f = 1// -2 su f = 3// -1 su f = 4 //0 su f = 1. ∑f = 10.


DISTRIBUCIÓN DE FRECUENCIA


En la mayoría de los casos nos encontraremos con una cantidad de observaciones n que superan los 20, por lo tanto pretender operar con una serie simple se tornaría engorroso, en estos casos será conveniente seleccionar los valores de acuerdo a una determinada clase y determinar de cada una de ellas su frecuencia, de allí que es común encontrar a este tipo de distribución como Distribución de intervalos: Por ejemplo:

Definición: Se define como frecuencia relativa de un valor y se expresa como fri , al cociente entre su frecuencia y la suma de todas las frecuencias (la suma de todas las frecuencias es igual al número de elementos de la distribución).

EN EL CASO DEL PRIMERO ES: 2 /50= 0,04


Propiedad


La sumas de todas las frecuencias relativas correspondientes a los valores clases de una distribución es igual a 12 : ∑ fri = fr1 + fr2 + fr3 . . . . . . . . + frn

 Tener en cuenta: El concepto de frecuencia relativa, la media de una distribución poblacional también se puede expresar como:

FRECUENCIA ACUMULADA:


Se define como frecuencia acumulada de una clase (por ejemplo i) y se la denota como fai , a la suma de su frecuencia y la suma de las frecuencias de los valores que le anteceden (PRIMER CUADRO).

FRECUENCIA DESACUMULADA:


Se define como frecuencia desacumulada de un valor, fds de una distribución, a la diferencia entre el número total de observaciones y su frecuencia acumulada(SEGUNDO CUADRO).

DIAGRAMAS


El poder graficar los valores estadísticos nos permite realizar una lectura rápida de la distribución y sacar conclusiones inmediatas de la misma.

Diagrama de bastones


Llevaremos en el eje de las abscisas las calificaciones y en el eje de las ordenadas las frecuencias y representamos mediante un segmento centrado en cada una de las calificaciones su correspondiente frecuencia.

DIAGRAMA DE SECTORES:


Supongamos la calificación de 3 cuya frecuencia es 1 tendremos que:

20 (suma de todas las frecuencias) ———————— 360º

A 1 (frecuencia del 3) ———————– α1 = 360º. 1 / 20 = 18º

Si a 20 ————————— 100%

fi ————————— %i = 100. Fi / 20=

HISTOGRAMA DE FRECUENCIAS:


Representar en el eje de las abscisas las calificaciones y en el de las ordenadas la frecuencia, las clases están dadas por las calificaciones. El intervalo entre dos clases sucesivas se denomina “amplitud de intervalo”, en este caso es la unidad y se la expresa como Δx = 1, nos encontramos con un diagrama de barras sin discontinuidades al que denominaremos Histograma de Frecuencias.

 La superficie encerrada por cada una de las barras está dada por el producto entre la base Δx por la altura que según ya vimos estaba dada por la densidad de frecuencia.

dfi = fi /Δx por lo tanto:

 Si = Δx. Dfi = Δx. Fi / Δx = fi

Cada una de ellas tendrá un valor igual a su frecuencia y el área total del diagrama será entonces la suma de todas las frecuencias e igual a N.

∑Si = ∑ fi = N

POLÍGONO DE FRECUENCIAS:


Si se unen los puntos medios superiores de cada una de las barras del histograma y se considera cero las frecuencias de las clases adyacentes a los extremos de la distribución, se formará con el eje de las abscisas un polígono denominado, en este caso, como Polígono de Frecuencias:

HISTOGRAMA DE FRECUENCIAS RELATIVAS:

Si en el eje de ordenadas se representan a las frecuencia relativas en lugar de las frecuencias, se obtiene el Histograma de Frecuencias Relativas que tendrá las mismas carácterísticas que el diagrama de frecuencias ya que fri = fi / N, es decir que se divide a los valores de la ordenada por un valor constante N y por lo tanto gráficamente representa un cambio de escalas

La altura de cada barra está dada por la densidad de frecuencia relativa dfri = fri / Δx .

La superficie encerrada por cada una de las barras del Histograma será igual a su frecuencia relativa: Si = Δx. Fri / Δx = fri. De tal manera que  el área encerrada por el Histograma de frecuencias relativas será ahora igual a la suma de todas las frecuencias relativas y por tal razón igual a 1:

 ∑ Si = ∑ fri = 1    … (lo del costado corresponde a histograma)


Para el primer valor de la distribución cero, la frecuencia acumulada vale 1, este valor se mantendrá constante hasta 1 en donde la frecuencia acumulada toma el valor de 3, se mantiene constante hasta el valor observado de 2 en donde la fa adopta el valor de 6 y así sucesivamente hasta el valor de 7 en donde fa toma el valor de 20 y se mantiene constante con este valor.
Debe tenerse en cuenta que para cualquier valor observado la suma de la frecuencia acumulada y la desacumulada es igual al número total de observaciones:  fa + fds = n

 La intersección de ambas gráficas debe de verificarse para fa = fds = n/2. En el punto de intersección ambas frecuencias son iguales por lo que podemos decir que:

fa + fds = fa + fa = n

2 fa = n

fa = n / 2

DISTRIBUCIÓN DE INTERVALOS DE CLASE:


3,1 3,4 3,6 3,6 3,6 3,7 3,7 3,8 3,8 3,9 3,9 4 4 4,1 4,2 4,2 4,3 4,3 4, 4,5 4,6

El jefe de pelotón necesita realizar un estudio estadístico sobre estos tiempos a los efectos de determinar:

Qué proporción de hombres tardan menos de 3,5’ en cruzar la pista de combate

B- Qué proporción de los hombres del pelotón tardan menos de 4’ en cruzar la pista

En casos como el presentado, donde el número de observaciones es mayor a 20 y la variable en estudio es del tipo continua, se hace necesario definir como clases a intervalos y determinar cómo frecuencia de cada uno de ellos al número de observaciones que contienen. En este caso la distribución toma el nombre de distribución de intervalos de clase.

Para generar una distribución de intervalos de clase debe tener en cuenta:

 a) La cantidad de intervalos: La determinación del número de intervalos, a los que llamaremos como k está relacionada con el número de observaciones n. Mientras que algunos operadores definen:k =  raíz de n.

También se puede definir como 5 <= k=»»>=><=>=>

B) La amplitud de intervalo Δx para la cual adoptaremos la expresión:

DETERMINACIÓN DE LA MEDIA:


Para determinar la media de la distribución consideramos que todos los valores pertenecientes a cada intervalo están uniformemente distribuidos en dicho intervalo.

    HISTOGRAMA

De frecuencia


DETERMINACIÓN DE LA MEDIANA:


De acuerdo a la tabla, la mediana se ubica en el intervalo [3,69 ; 3,99) al que denominaremos intervalo medial, y para el cuál la frecuencia acumulada es de 11 y por lo tanto contiene a los valores correspondientes a x10 y x11, pero faltaría determinar el valor que más se aproxime al real.

Podemos GRAFICAR CON FRECUENCIA ACUMULADA Y DESACUMULADA. Y También:

 Analizaremos el intervalo medial:

 Al iniciar el intervalo 3,69 su frecuencia acumulada tiene el valor de 5 (que denominaremos frecuencia acumulada inferior y la denotaremos como fai). De la misma manera al finalizar ese intervalo (x = 3,69) su frecuencia acumulada es de 11 (a la denominaremos frecuencia acumulada superior y la denotaremos como fas). Esa variación de frecuencia acumulada de 5 a 11 es justamente la frecuencia correspondiente al intervalo medial (fm = 6). Además como el total de observaciones es de 21, N/2 = 10,5. Consideremos los triángulos 123 y 12’3’ ambos rectángulos en 2 y 2’ respectivamente. Esos triángulos son semejantes y por lo tanto sus lados homólogos son proporcionales.  (REEMPLAZO CON LO DE ARRIBA).

DETERMINACIÓN DE LA MODA


Se define como intervalo modal al intervalo de mayor frecuencia, en este caso corresponderá a [3,69; 3,99) con frecuencia 6, coincide con el medial, pero bien podría no coincidir, para la determinación de la moda, consideremos en el histograma de frecuencia

 Si definimos a d1 = (frecuencia del intervalo modal) – (frecuencia del intervalo que le antecede): di = 6-4 = 2 Y como d2 = (frecuencia del intervalo modal) – (menos la frecuencia del intervalo que le sucede): d2 = 6-5 = 1.

Como li se define al inicio del intervalo modal (3,69):


Mo = Li + Δx. ( d1/(d1+d2) )


Mo = 3,69 + 0,3 (2 / (2+1)) = 3,89’

Media µ = 3,9697’ Mediana Me = 3,965’ Moda Mo = 3,89’ µ > Me > Mo

Es necesario entonces considerar valores que nos determinen cuan dispersos están. Estos valores se denominan valores de dispersión:

Definición


La diferencia entre los valores extremos de una distribución se denomina Alcance o Rango y se lo denota como R: R = xn – x1

(Se resta el último valor menos el primero.)

DESVÍO MEDIO:


Considerando el ejercicio anterior. Esta expresión se define como Desvío medio (Promedio de los desvíos absolutos medios).

VARIANZA


Otra forma de obtener todos los desvíos positivos, sería elevándolos al cuadrado es decir:

Esta expresión que definimos como: el promedio de los desvíos cuadráticos medios y se denomina

Varianza.Var(x) =2,647 / 21 = 0,126 minutos al cuadrado. (Considerar tabla anterior.).

DESVIACIÓN Estándar:


Definimos a la desviación estándar como la raíz cuadrada de la varianza y prácticamente entrega el grado de dispersión de los valores de una distribución con respecto a la media.

COEFICIENTE DE VARIACIÓN


Está dado por el cociente entre el desviación estándar de la distribución y su media, expresada de manera porcentual. Por otra parte el CV entrega la proporción de la desviación estándar respecto de la media. (arriba)

CUARTILES Y PERCENTILES:


En muchas ocasiones es necesario contar con una subdivisión de los datos en determinadas fracciones, llamados en de manera general como fractiles. El alcance interfractil, dada por la diferencia entre dos fractiles constituye una medida de dispersión entre ellos.En general los fractiles más utilizados lo constituyen los cuartiles y percentiles.

La determinación de los cuartiles para datos no agrupados está dada por las expresiones

Se define como Rango Intercuartil o propagación media a la diferencia: R I = Q3 – Q1

Percentiles


De la misma manera en que la distribución en estudio la podemos dividir en cuatro partes, en el caso de hacerlo en 100 cada una de ellos tomará el nombre de percentil, un percentil z cualquiera es un valor tal que z por ciento de las observaciones quedan a su izquierda mientras que (100 – z) porcientos de los valores quedan a su derecha. El percentil 80 está dejando a su izquierda el 80% de los valores de la distribución, es decir todos aquellos menores a él, y por lo tanto el 20% de la distribución lo superan, es decir quedan a su derecha.

REGLA EMPÍRICA


Según vimos en el punto anterior, dada una distribución, el valor de su desviación estándar nos indica el grado de dispersión de sus valores con respecto a la media, pero es en realidad la Regla Empírica, quien relaciona a los dos parámetros : µ y σ con el siguiente enunciado.

En el intervalo centrado en la media y tal que su origen izquierdo esté dado por la media menos un desviación estándar y el derecho por la media más un desviación estándar, se agrupa el 68 % de los valores de la distribución; En el intervalo comprendido por la media menos dos desviaciones estándar y más dos desviaciones se ubica el 95% de los valores de la distribución, por último en el intervalo comprendido por la media menos tres desviaciones estándar y la media más tres desvíos estándar se tendrá el 99,7% de N (suele considerarse en muchas oportunidades en este intervalo el 100% de N). Debe de tener en cuenta que, entre el inicio de la gráfica y su fin, se encuentran ubicados todos los valores de la distribución N.