Conceptos y Aplicaciones de Estadística: Una Introducción Completa
La estadística es la ciencia que presenta un grupo de métodos utilizados para recolectar, analizar, ordenar, presentar e interpretar datos referentes a un fenómeno estudiado o de interés. Es la forma de medición de la certidumbre, asociada a la observación u ocurrencia de un fenómeno, deduce leyes que rigen esos fenómenos. Hay dos grandes campos dentro de la estadística, la podemos dividir en dos tipos:
Estadística Descriptiva
Se compone de un conjunto de técnicas y métodos utilizados para describir, organizar y presentar mediante tabulaciones (hacer tablas), y gráficos, información numérica. Dentro de esta rama también se encuentran el cálculo de las medidas estadísticas de centralidad (media, mediana, moda) y de variabilidad o dispersión (varianza, desvío estándar, coeficiente de variación). Describe las diversas características de un conjunto de datos.
Estadística Inferencial
Trata de averiguar características de una población, a partir de una muestra extraída de la misma, y aplica en ella un conjunto de técnicas y herramientas que son utilizadas para realizar predicciones, sacar conclusiones generales, o tomar decisiones.
A grandes rasgos, la estadística es la ciencia que estudia la variable observada, la clasifica, la ordena, tabula, analiza las características principales de los datos con el objeto de tomar decisiones, formular predicciones y conducir a un resultado.
Población
Es el conjunto sobre el que se está interesado en obtener conclusiones. Normalmente es demasiado grande para poder abarcarlo en su totalidad. Parámetro: es una cantidad numérica calculada sobre una población. Su fin es resumir toda la información que hay en la población en unos pocos números.
Muestra
Es un subconjunto de la población, el cual se selecciona con el objetivo de extraer información, tenemos acceso al mismo y hacemos observaciones o mediciones sobre este. Está formado por miembros seleccionados, extraídos de la población, los cuales son considerados como unidades de análisis o experimentales. Esta debería ser representativa, es decir que abarque las características de la población. Estadístico: es una cantidad numérica calculada sobre la muestra que resume su información sobre algún aspecto. Se usa para aproximar un parámetro, también suele llamarse estimador. Encuesta: es el listado de una o más características de todos los elementos de una muestra.
Muestreo
El muestreo es una herramienta de la investigación científica, cuya función básica es determinar qué parte de una población será examinada, con la finalidad de hacer inferencias sobre dicha población. La muestra debe ser representativa, es decir lograr una representación adecuada de la población, en la que se reproduzca de la mejor manera los rasgos o características esenciales de dicha población, que son importantes para la investigación.
Los métodos de muestreo probabilísticos son aquellos que se basan fundamentalmente en el principio de que todos los individuos tienen la misma probabilidad de ser elegidos para formar parte de una muestra. Solo estos métodos de muestreo probabilísticos nos aseguran la representatividad de la muestra extraída y son, por lo tanto, los más recomendables. Dentro de los métodos de muestreo probabilísticos encontramos los siguientes tipos: Muestreo aleatorio simple: el procedimiento empleado es: 1) se le asigna un número a cada individuo de la población. 2) a través de algún medio mecánico los sujetos elegidos, la cantidad de seleccionados depende del número necesario para completar el tamaño de muestra requerido. Muestreo estratificado: consiste en considerar categorías en las que se puede englobar a los sujetos dependiendo de las cualidades de estos, como por ejemplo, la edad, el sexo, la nacionalidad, etc. Lo que pretende este tipo de muestreo es que se pueda agrupar a los individuos a ciertas categorías y poder seleccionar en base a ellas de manera aleatoria. Muestreo por conglomerados: se elige de manera aleatoria a diversos sujetos que conforman un grupo que pueda dividir a la población, de esta manera todos los integrantes que conforman a la unidad (que es el grupo) son representativos de la población de igual manera que el resto. Esto es lo que se analiza en una muestra al azar; tomando a los sujetos como elementos de una unidad (el grupo). Muestreo sistemático: se usa cuando los datos de la población están ordenados en forma numérica. La primera observación es elegida al azar de entre los primeros elementos de la población y las siguientes observaciones son elegidas guardando la misma distancia entre sí.
Variables
En estadística se denomina variable a las cualidades, propiedades, características observables o rasgos comunes que poseen los elementos de una población. Se estudian 2 tipos de variables: 1. Variables cuantitativas: son aquellas que se pueden describir mediante números, son susceptibles de cuantificación o de medición. *Discretas: toma valores enteros. *Continuas: toma valores con decimales. 2. Variables cualitativas: son aquellas cuyos valores (modalidades) no se pueden asociar naturalmente a un número. *Nominales: sus valores no se pueden ordenar en escalas cualitativas y solo puede agrupar en términos grupales. *Ordinales: sus valores se pueden ordenar en escalas cualitativas.
Medidas de Tendencia Central
Son medidas que buscan posiciones, valores, con respecto a los que los datos muestran tendencia a agruparse.
- Media aritmética: es el promedio de los valores de una muestra. Como es el promedio, es preciso tener en claro que primero se debe sumar todos los valores de la muestra y dividirlo por la cantidad de valores que presenta, en otras palabras, es la suma de todos los valores dividido el tamaño muestral.
- Mediana: es el dato central que se ve en una tabla de datos ordenada, se considera estar en el medio de la cantidad de valores teniendo tanto por encima como por debajo al 50% de los valores.
- Moda: es el valor o los valores que mayor frecuencia tienen dentro de datos ordenados en una tabla (tabulados). El valor que más se repite es la moda; si hay 2 valores que se repiten la misma cantidad de veces se dice que la tabla es bimodal, ambas son modas; y si no hay ningún valor que se repita se dice que es amodal porque no hay moda.
Medidas de Dispersión o Variabilidad
Expresan cuan dispersa es la serie con respecto a una medida de centralización o de posición.
- Varianza: es el promedio cuadrático de los desvíos de la variable con respecto a su media. Mide el agrupamiento de los valores que conforman la variable con respecto a su media. Mientras más cercano el valor sea a 0, va a significar que la media representa correctamente los valores de la variable. Se elevan al cuadrado porque hace que todos los valores sean positivos, hace que las diferencias entre valores se destaquen, y ya que son valores demasiado altos, se corrige con lo que es la desviación estándar o típica.
- Desviación típica o estándar: es la raíz cuadrada de la varianza de la variable. Indica qué tan dispersos están los datos con respecto a la media
- Coeficiente de variación: es la relación que hay entre la desviación típica o estándar de una muestra y su media. Es el cociente entre el desvío estándar multiplicado por 100, y la media. Se presenta en porcentajes. Mientras más pequeño es el coeficiente de variación, más homogéneo es el grupo de datos.
Estadísticos de posición: son valores de la variable que dividen a la muestra en partes de igual porcentaje. Existen otras técnicas con las cuales puede medirse la dispersión de un conjunto de datos. Estas medidas adicionales de dispersión son los percentiles, los cuartiles y los deciles. Percentiles: separan la muestra en grupos de 1% cada uno (son 99). Los percentiles son 99 valores que dividen en 100 partes iguales el conjunto de datos ordenados. El primer percentil es el valor debajo del cual se encuentra el 1% de las observaciones y el resto están encima de este.
Cuartiles: agrupan 25% cada uno. Hay 3 cuartiles: el primer cuartil, es el valor en el cual o por debajo del cual cada un cuarto (25%) de todos los valores de la sucesión (ordenada). En otras palabras, es el valor debajo del cual clasifica el 25% de las observaciones, y sobre el cual puede encontrarse el 75% restante. El segundo cuartil (50%), la mitad de las observaciones están por debajo y la mitad por encima; en este sentido, es lo mismo que la mediana. El tercer cuartil es el valor en el cual o por debajo del cual quedan las 3 cuartas partes (75%) de los datos. O sea, es el valor debajo del cual está el 75% de las observaciones y encima del cual puede encontrarse el 25% restante. Deciles: agrupan el 10% cada uno (son 9), por lo que dividen la sucesión de datos ordenados en 10 partes porcentualmente iguales. A todo esto, hay diferentes formas de ordenar los datos en una tabla (tabular). Se denominan series simples a los datos, los valores, ordenados jerárquicamente sin haber demasiada frecuencia con respecto a estos. Generalmente son ordenados así cuando la cantidad de valores es menor o igual a 20, si es mayor a 20, se los ordena por frecuencia y es donde se expresa la cantidad de veces que se repite un valor. Otra forma de ordenarlos es usando intervalos que es conveniente cuando los datos son demasiados y pueden agrupar a los valores dentro de límites que se diferencia con otros.
Dependiendo del tipo de tabla, se grafica de manera diferente. Si es por frecuencia se utiliza un gráfico de bastones, si es por intervalo, se utiliza un gráfico histograma o un polígono de frecuencias.
Probabilidades
Proponen modelos para los fenómenos aleatorios, es decir, los que se pueden predecir con certeza, y estudia sus consecuencias lógicas ubicando valores de posibilidades comprendido entre 0 y 1. Sirve, entonces, para sacar conclusiones sobre la probabilidad discreta de sucesos potenciales. Estudia, mide o determina los experimentos o fenómenos aleatorios. Por experimento aleatorio se entiende todo aquel experimento que cuando se le repite bajo las mismas condiciones iniciales, el resultado que se obtiene no siempre es el mismo. Implica realizar el experimento para poder examinar los sucesos. Hay 3 principios que el cálculo de probabilidades debe satisfacer: a) La probabilidad de que ocurra cualquier suceso abarca un rango comprendido entre 0 y 1, por ende, no se puede obtener un resultado menor a 0 ni mayor a 1 entendiendo a este como el 100% como la seguridad total de que algo va a suceder, y 0% como la posibilidad nula de que algo suceda. b) Todos los posibles resultados pertenecen al espacio muestral, el cual es el conjunto de todos los posibles resultados del experimento aleatorio. c) Cuando 2 sucesos son incompatibles la probabilidad de que se den simultáneamente es igual a 0, por lo tanto, las probabilidades de cada suceso se suman en conjunto. Los sucesos son compatibles cuando 2 sucesos tienen como mínimo un elemento en común, en cambio son incompatibles cuando no tienen ningún elemento en común. a.a) Se considera como evento o suceso aleatorio a cualquier subconjunto del espacio muestral y representamos a los eventos mediante ciertos símbolos relacionados con el suceso. b.b) En probabilidad se distingue entre experimento determinista y aleatorio. Los deterministas son aquellos que no dependen del azar, es decir que podemos conocer su resultado de antemano, es predecible antes de que se realicen. c.c) Hay sucesos independientes y dependientes. Los primeros son cuando la probabilidad de que suceda A no se ve afectada porque haya sucedido o no B, uno no influye sobre el otro, y pueden suceder de forma simultánea. En cambio, los sucesos dependientes, si se tiene en cuenta la influencia de un evento A en el evento B, o viceversa. Conocido lo siguiente se propone que una probabilidad es el resultado de la división entre número de casos favorables sobre casos totales. Hay casos, que dependiendo del experimento se deban tomar todos los casos favorables más uno, porque habrán veces que se den las probabilidades tanto de que todos los experimentos tengan éxito como que ninguno (1 y 0).
Teorema de la probabilidad
Nos permite calcular la probabilidad de un suceso a partir de probabilidades condicionadas. Este tipo de probabilidad condiciona un evento que ya sucedió o que sucederá en relación con otro tipo de sucesos que sucedieron o sucederán también. Otra forma es a través del teorema de Bayes (el cual se basa en la probabilidad condicionada) este utilizado para calcular la probabilidad de un suceso, teniendo información de antemano sobre ese suceso.
Distribuciones Probabilísticas
Se llama distribución de probabilidad a la expresión de una función aleatoria (discreta o continua) que tiene como dominio un conjunto de eventos mutuamente excluyentes y por completo exhaustivos. Para construir las distribuciones probabilísticas, que son el enlace entre la probabilidad y la estadística, es necesario entender el concepto de variable aleatoria.
La variable aleatoria es la regla bien definida para asignar valores numéricos a todos los resultados probables de un experimento. Por ejemplo, los distintos resultados que se obtienen al lanzar un dado forman una variable, que abarcará de 1 a 6, y que no son predecibles. Y cada valor de una variable aleatoria le corresponderá una probabilidad. Ese conjunto de todos los valores posibles recibe el nombre de función o distribución de probabilidad de la variable aleatoria.
En otras palabras, la variable aleatoria puede definirse como cualquier característica medible que toma diferentes valores con probabilidades determinadas. Toda variable aleatoria posee una distribución de probabilidad que describe su comportamiento.
Existen 2 clases de variables aleatorias, discretas y continuas.
- Una variable aleatoria discreta es una variable aleatoria que tiene valores contables. Con una distribución de probabilidad discreta, cada valor posible de la variable aleatoria discreta puede estar asociado con una probabilidad distinta de cero. Por lo tanto, una distribución de probabilidad discreta suele representarse en forma tabular. Con una distribución discreta, a diferencia de una distribución continua, podemos calcular la probabilidad de que X sea exactamente igual a algún valor. Este tipo de variables son las de Poisson, hipergeométrica y binomial.
- Una variable aleatoria continua es una variable aleatoria con un conjunto de valores posibles (conocido como el rango) que es infinito y no se puede contar. Las probabilidades de las variables aleatorias continuas (X) se definen como el área por debajo de la curva. En otras palabras, debajo de la campana de Gauss es el área de las probabilidades de las variables continuas.
La campana de Gauss es donde se mide una magnitud sometida a pequeñas variaciones aleatorias entorno de la mediana.
Binomial: produce la descripción adecuada a las probabilidades de ocurrencia de los resultados posibles de un experimento. Aparece de forma natural al realizar repeticiones independientes de un experimento que tenga respuesta binaria, clasificada como “éxito” o “fracaso”. Se basa en los supuestos que los produce la descripción adecuada a las probabilidades de ocurrencia de los resultados posibles de un experimento observaciones son independientes entre sí, y de que es un proceso estacionario, por lo que la probabilidad de éxito es constante, y la de fracaso también. En base a esto se puede decir que este tipo de distribución se lo considera dicotómico e independiente. También se trabaja con reposición y son independientes entre sí los sucesos. Toma números enteros y son todos los números de casos posibles + 1. Poisson: es similar a la binomial, comparte las mismas características, exceptuando el hecho de que esta distribución comprende un número muestral demasiado grande y una probabilidad demasiado pequeña. Esta distribución es proporcional al tiempo y al espacio en relación a un suceso.
Hipergeométrica: este tipo de distribución también se entiende en términos de éxito y fracaso, pero este, a diferencia de los anteriores, trabaja sin reposición de las unidades de trabajo. Es aleatorio en la elección de las muestras y son dependientes de los demás sucesos. Trabaja con una esperanza matemática que es igual a la varianza y se calcula como el total de casos por la probabilidad de éxito.
Normal: también conocido como distribución de Gauss. Es capaz de adoptar cualquier valor comprendido en el intervalo de infinitos números, por eso es la más utilizada. Los datos que pueden salir como resultado de una distribución normal están tipificados en tablas universales con el fin de obtener un sencillo modo de observar los datos que permiten responder a las incógnitas acerca del comportamiento de las variables que se saben normales. Trabaja con una media y una desviación típica para explicar los comportamientos comunes de las variables.
Teoría de las Muestras
Se recurre a las muestras porque en algunos casos es la única manera de poder determinar alguna característica relativa a la población. Algunas de las razones por la cual se recurren a la muestra son: 1. La imposibilidad de poder relevar a cada uno de los integrantes de una población. 2. El costo de poder analizar a cada uno de los integrantes de la población y el presupuesto que cueste realizar dicho análisis. 3. El tiempo que se necesita para encuestar a cada uno de los elementos de la población. 4. En ocasiones se puede producir la destrucción de los elementos de la población. 5. La confianza de los resultados de la muestra.
Al hacer estadística inferencial hay que hacer un muestreo (elección de la muestra) y de ahí, luego de las recolecciones, hay que hacer la extrapolación de las conclusiones obtenidas de las muestras al resto de la población, por eso es inferencial.
Los muestreos pueden ser probabilísticos o no probabilísticos: el muestreo probabilístico es aquel en los que se determina a través de un mecanismo de muestreo aleatorio, los individuos que construirán a la muestra. Sirve para cuando se desea generalizar los resultados que se obtiene a partir de la muestra hacia toda la población. El hecho de que sea aleatoria hace que la muestra sea representativa de toda la población. El muestreo no probabilístico es cuando la extracción de la muestra se efectúa usando otros criterios diferentes a la aleatoria. Utiliza de forma empírica la elección de la muestra por lo que interfieren las opiniones, los sesgos, etc. del investigador. Se acude a este tipo de muestreo cuando es difícil enumerar, precisar, el objeto de estudio o cuando no existe registro de los datos.
Existen los muestreos probabilísticos con y sin reemplazo: los muestreos con reemplazo son aquellos en los que una vez que ha sido seleccionado un individuo y se procede a estudiar se le toma en cuenta nuevamente al elegir el siguiente individuo a ser estudiado. En este caso cada uno de los elementos de la población que conforma la muestra permanece independiente de los demás. Los muestreos sin reemplazo son los que una vez que se ha escogido un individuo para formar parte de la muestra, no se loe vuelve a considerar nuevamente. En el caso, de poblaciones pequeñas, las observaciones son dependientes entre sí, pues al no tomar en cuenta nuevamente el individuo se modifica la probabilidad para la selección de otro individuo de la población.
Errores en el Muestreo Cuando se utilizan valores muéstrales, o estadísticos para estimar valores poblacionales, o parámetros, pueden ocurrir 2 tipos generales de errores: el error muestral y el error no muestral. El error muestral se refiere a la variación natural existente entre muestras tomadas de una misma población. Y los errores que surgen al tomar las muestras no pueden clasificarse como errores muéstrales y se denominan errores no muéstrales. El sesgo de las muestras es un tipo de error no muestral. El sesgo muestral se refiere a una tendencia sistemática inherente a un método de muestreo que da estimaciones de un parámetro que son, en promedio, menores (sesgo negativo), o mayores (sesgo positivo) que el parámetro real.
Distribuciones Muéstrales Las muestras aleatorias obtenidas de una población son, por naturaleza propia, impredecibles. No se esperaría que 2 muestras aleatorias del mismo tamaño y tomadas de la misma población tenga la misma media muestral o que sean completamente parecidas; puede esperarse que cualquier estadístico, como la media muestral, calculado a partir de las medias en una muestra aleatoria, cambie su valor de una muestra a otra, por ello, se quiere estudiar la distribución de todos los valores posibles de un estadístico. Tales distribuciones serán muy importantes en el estudio de la estadística inferencial, porque las inferencias sobre las poblaciones se harán usando estadísticas muéstrales. Como el análisis de las distribuciones asociadas con los estadísticos muéstrales, podremos juzgar la confiabilidad de un estadístico muestral como un instrumento para hacer inferencias sobre un parámetro poblacional desconocido.
Estimación
El objetivo principal de la estadística inferencial es la estimación, esto es que mediante el estudio de una muestra de una población se quiere generalizar las conclusiones al total de la misma. Los estimadores varían mucho dentro de sus distribuciones muéstrales, y mientras menor sea el error estándar de un estadístico, más cercanos serán unos de otros sus valores.
Existen dos tipos de estimaciones para parámetros; puntuales y por intervalo. Una estimación puntual es un único valor estadístico y se usa para estimar un parámetro. El estadístico usado se denomina estimador. Una estimación por intervalo es un rango, generalmente de ancho finito, que se espera que contenga el parámetro
Propiedades de un Buen Estimador
Insesgado: un estimador insesgado es aquel para el cual la media de la distribución muestral es el parámetro estimado. Si se usa la media muestral para estimar la media poblacional
Eficiente o con varianza mínima: se refiere al tamaño de error estándar de la estadística. Si comparamos dos estadísticas de una muestra del mismo tamaño y tratamos de decidir cuál de ellas es un estimador más eficiente, escogeríamos la estadística que tuviera el menor error estándar, o la menor desviación estándar de la distribución de muestreo.
Consistencia: Una estadística es un estimador consistente de un parámetro de población, si al aumentar el tamaño de la muestra se tiene casi la certeza de que el valor de la estadística se aproxima bastante al valor del parámetro de la población. Si un estimador es consistente se vuelve más confiable si tenemos tamaños de muestras más grandes
Suficiencia: Un estimador es suficiente si utiliza una cantidad de la información contenida de la muestra que ningún otro estimador podría extraer información adicional de la muestra sobre el parámetro de la población que se está estimando
Cálculo del Tamaño de la Muestra para Estimar una Media
¿Qué tan grande debe ser una muestra si la media muestral se va a usar para estimar la media poblacional? La respuesta depende del error estándar de la media, si este fuera cero, entonces se necesitaría una sola media que será igual necesariamente a la media poblacional desconocida. Este caso extremo no se encuentra en la práctica, pero refuerza el hecho de que mientras menor sea el error estándar de la media, menor es el tamaño de muestra necesario para lograr un cierto grado de precisión. Se sabe que para disminuir el error de estimación es aumentar el tamaño de la muestra
Prueba de hipótesis La hipótesis es uno de los aspectos más útiles de la inferencia estadística, puesto que muchos tipos de problemas de toma de decisiones, pruebas o experimentos en las disciplinas a que hemos hecho referencia, pueden formularse como problemas de prueba de hipótesis. Una hipótesis estadística es una proposición o supuesto sobre los parámetros de una o más poblaciones
Es importante recordar que las hipótesis siempre son proposiciones sobre la población o distribución bajo estudio, no proposiciones sobre la muestra. Por lo general, el valor del parámetro de la población especificado en la hipótesis nula se determina en una de tres maneras diferentes:
1. Puede ser resultado de la experiencia pasada o del conocimiento del proceso, entonces el objetivo de la prueba de hipótesis usualmente es determinar si ha cambiado el valor del parámetro.
2. Puede obtenerse a partir de alguna teoría o modelo que se relaciona con el proceso bajo estudio. En este caso, el objetivo de la prueba de hipótesis es verificar la teoría o modelo.
3. Cuando el valor del parámetro proviene de consideraciones externas, tales como las especificaciones de diseño o ingeniería, o de obligaciones contractuales. En esta situación, el objetivo usual de la prueba de hipótesis es probar el cumplimiento de las especificaciones
Un test de hipótesis, es un conjunto de reglas que en base a la muestra que obra en nuestro poder y la ayuda que nos brinda la teoría de la probabilidad nos permite aceptar o rechazar los supuestos considerados en la hipótesis estadística.
LA HIPÓTESIS NULA, representada por Ho, es la afirmación sobre una o más características de poblaciones que al inicio se supone cierta, es una situación de que no hay cambio. Si la muestra no contradice decididamente a Ho, se continúa creyendo en la validez de la hipótesis nula. Entonces, las dos conclusiones posibles se un análisis prueba de hipótesis son rechazar Ho o no rechazar Ho.
LA HIPÓTESIS ALTERNATIVA, representada por H1 es la afirmación contradictoria a Ho, esta es la hipótesis del investigador. La hipótesis alternativa puede llevar el signo de igual con respecto al valor especificado del parámetro. La hipótesis alternativa nunca puede llevar el signo de igual con respecto al valor especificado del parámetro
Pasos para establecer un ensayo de hipótesis independientemente de la distribución que se esté tratando
1. Interpretar correctamente hacia qué distribución muestral se ajustan los datos del enunciado. 2. Interpretar correctamente los datos del enunciado diferenciando los parámetros de los estadísticos.
3. Establecer simultáneamente el ensayo de hipótesis y el planteamiento gráfico del problema. El ensayo de hipótesis está en función de parámetros ya que se quiere evaluar el universo de donde proviene la muestra. En este punto se determina el tipo de ensayo (unilateral o bilateral). 4. Establecer la regla de decisión. Esta se puede establecer en función del valor crítico, el cual se obtiene dependiendo del valor de (Error tipo I o nivel de significancia) o en función del estadístico límite de la distribución muestral. Cada una de las hipótesis deberá ser argumentada correctamente para tomar la decisión, la cual estará en función de la hipótesis nula u Ho.
5. Calcular el estadístico real, y situarlo para tomar la decisión.
6. Justificar la toma de decisión y concluir
Probabilidad Simple
La posibilidad que hay de que ocurra algún evento determinado, por ejemplo, que de un recipiente con 5 pelotas verdes, 2 azules y 3 rojas obtengamos una roja es de 0.3, siempre debe ser un número menor o igual a uno, excepto cuando lo expresas en porcentaje.
Probabilidad simple es igual a la cantidad de formas en que un resultado específico va a suceder entre la cantidad total de posibles resultados. Una manera, muy usada en la práctica, de denominar la probabilidad un evento simple de un espacio muestral es como probabilidad simple o marginal, la cual hace referencia a la probabilidad de un evento simple, y se denota con P(A), siendo A el evento simple en cuestión. El nombre de probabilidad marginal se debe a que esta medida se puede obtener a partir de los totales marginales de una tabla de contingencia.
Probabilidad Compuesta
La probabilidad compuesta (o regla de multiplicación de probabilidades) se deriva de la probabilidad condicionada: la probabilidad de que se den simultáneamente dos sucesos es igual a la probabilidad a priori del suceso A multiplicada por la probabilidad del suceso B condicionada al cumplimiento del suceso A. La fórmula para calcular esta probabilidad compuesta es:
TEOREMA DE BAYES
El teorema de Bayes es utilizado para calcular la probabilidad de un suceso, teniendo información de antemano sobre ese suceso.
Podemos calcular la probabilidad de un suceso A, sabiendo además que ese A cumple cierta característica que condiciona su probabilidad. El teorema de Bayes entiende la probabilidad de forma inversa al teorema de la probabilidad total. El teorema de la probabilidad total hace inferencia sobre un suceso B, a partir de los resultados de los sucesos A. Por su parte, Bayes calcula la probabilidad de A condicionado a B.
Teorema de la probabilidad Total
El Teorema de la probabilidad total nos permite calcular la probabilidad de un suceso a partir de probabilidades condicionadas.
Es decir, la probabilidad de que ocurra el suceso B (en nuestro ejemplo, que ocurra un accidente) es igual a la suma de multiplicar cada una de las probabilidades condicionadas de este suceso con los diferentes sucesos A (probabilidad de un accidente cuando llueve y cuando hace buen tiempo) por la probabilidad de cada suceso A.
Para que este teorema se pueda aplicar hace falta cumplir un requisito: Los sucesos A tienen que formar un sistema completo, es decir, que contemplen todas las posibilidades (la suma de sus probabilidades debe ser el 100%).