Muestra ponderada en estadística
¿Que es la econometría?
Se basa en métodos estadísticos para estimar las relaciones económicas y evaluar y poner en practica políticas gubernamentales y comerciales.
Aplicaciones de la econometría
Pronostico de variables macroeconómicas.
Función de la econometría:
Probar teorías económicas, dar estimaciones numéricas de los coeficientes de las relaciones económicas y la predicción de sucesos económicos.
Regresión:
está relacionado con el estudio de la dependencia de una variable, variables dependientes, variables explicativas. Se debe tener siempre en mente que el éxito del análisis de regresión depende de la disponibilidad de información adecuada.
Estructura de datos económicos
Las más comunes en la econom. Aplicada son las de datos de corte transversal, de series de tiempo, de combinación de cortes transversales, y de panel.
Datos de corte transversal:
un conjunto de datos de corte transversal consta de una muestra de individuos, hogares, empresas, ciudades, estados, países u otras diversas unidades, tomada en un momento determinado. En los datos de corte transversal se dispone de una observación por individuo y se refieren a un punto determinado en el tiempo.
Datos de series de tiempos:
consta de observaciones de una o más variables hechas en el tiempo. Ej.: PIB, precio de acciones, IPC. En las series temporales, los datos son observaciones de una variable a lo largo del tiempo.
Combinación de cortes transversales
Algunos conjuntos de datos tienen caract. Tanto en el corte transversal como de series temporales.
Datos de panel o longitudinales:
consta de una serie temporal para cada miembro del corte transversal en el conjunto de los datos. Las carácterísticas fundamental de los datos de panel, que los distinguen de las combinaciones de cortes transv. Es el hecho que se da seguimiento a las mismas unidades. Combina 2 periodos distintos.
Relaciones estadísticas vs relaciones determinísticas:
en las relaciones estadísticas entre variables se analizan, en esencia variables aleatorias o estocásticas, es decir, variables con distribuciones de probabilidad. Por otra parte en la dependencia funcional o determinística también se manejan variables , pero no son aleatorias o estocásticas. Ej.: el cultivo depende de la Tº, lluvia, sol y fertilizantes
el cultivo depende de la Tº, lluvia, sol y fertilizantes y dicha dependencia es de naturaleza estadística, porque las variables explicativas, no permiten al agrónomo predecir de forma exacta el rendimiento del cultivo.
Regresión vs causalidad:
a pesar de que el análisis de regresión tiene que ver con la dependencia de una variable respecto a otras variables, esto no implica causalidad necesariamente. Una relación estadística por si misma no puede, por lógica, implicar causalidad. Para aducir causalid se debe acudir a consideraciones teóricas.
Regresión vs correlación:
el análisis de correlación está estrechamente relacionado con el de regresión aunque conceptualmente son muy diferentes. Mide el grado de dependencia.
En el análisis de correlación el objetivo es medir el grado de asociación lineal entre 2 variables. El coeficiente de correlación mide estas 2 variables.
ej.: se pued estar interesado en encontrar la correlación entre el hábito de fumar y el cáncer de pulmón.
Distribución muestral de medias:
es una distrib. De Probabili. Que consta de una lista de todas las medias muéstrales posibles, de un tamaño de muestra dado de una población y la probabilidad de ocurrencia asociada con cada media muestral.
Distribución muetral de poblaciones:
es el conjunto de todas las muestras posibles del mismo tamaño extraídas de una población, junto con el conjunto de todas las proporciones muéstrales.
La distribución de muestreo consiste en la selección y valoración de diferentes muestras muestras aleatorias d una misma población, con el fin de elaborar una distrib. De probabil. Que nos permitan obtener una inferencia exacta del parámetro poblacional de estudio.
¿qué es la varianza?
Es una medida de dispersión, en cuyo cálculo interviene el cuadrado de las desviaciones de cada puntuación. Para obtener su valor calculamos la sumatoria de los cuadrados de las desviaciones y el resultado lo dividimos entre n-1 N.
Desviación estándar:
es una medida de dispersión que es igual a la raíz cuadrada de la varianza. El sentido es poder determinar la dispersión de las puntuaciones conla misma unidad de la variable aleatoria . Es la medida más útil de la variación de datos.
Desviación media:
es la suma de los valores absolutos de todas las desviaciones dividido entre el número de datos.
Distribución de Probabilidad:
Una distribución o densidad de probabilidad de una variable aleatoria x es la función de distribución de la probabilidad de dicha variable. Área de curva entre 2 puntos representa la probabilidad de que ocurra un suceso entre esos dos puntos. Distribuciones probabilidad pueden ser discretas o continuas, de acuerdo al tipo de variable. Hay infinidad distribuciones probabilidad.
Distribución binominal:
Describe la probabilidad de una variable dicotómica independiente.
Utilidad:
Se utiliza en situaciones cuya solución tiene dos posibles resultados. Ej.:Al nacer un/a bebé puede ser varón o hembra.
Usos:
Estimación de proporciones,
Pruebas de hipótesis de proporciones. La distribución binomial se forma de una serie de experimentos de Bernoulli.
La media (ì) en la distribución binomial se obtiene con el producto de n x p.
La varianza (ó2 ) en la distribución binomial se obtiene del producto de n x p x q.
El valor de q es el complemento de p y se obtiene con 1 – p.
Distribución Normal:
Muchos fenómenos distribuidos suficientemente. Normal su distribución es la base de gran parte de la teoría estadística usada por los biólogos.
Cuál es el sentido de la D N:
que tan representativos son los datos respecto de su media.
Se usa cuando hay más de 30 datos.
D. Normal Tipificada (estandarizada):
Distribución especial que representa a todas las variables aleatorias normales y que es la distribución de otra variable normal llamada Z:
Z se la conoce como variable aleatoria estandarizada.
Esta función se caracteriza por tener media igual a cero y desviación tipificada igual a uno Representa a todas las distribuciones Normales.
Distribución t de Student:
se utiliza cuando hay menos de 30 datos. Cuando la población aumenta su varianza disminuye y se aproxima a 1.
Distribución Ji-cuadrado:
es una función de densidad de probabilidad que representa la distribución muestreal de la varianza. Indica que tan representativa es la muestra de la población medido en su varianza.
El nivel de error mide el grado de desacierto que se está dando
¿Qué es el Análisis Multivariable?
puede definirse como el conjunto de métodos o técnicas, diseñados con el fin de maximizar e interpretar la información contenida en un conjunto de variables, sin perder la interacción o grado en que se afectan unas con otras.
Utilidad del Análisis Multivariable
Las necesidades de información de los investigadores y decidores para la planificación, ejecución En el análisis multivariable, se puede encontrar una herramienta práctica, versátil y adaptable a todo tipo de análisis, al permitir extraer información relevante, y eficiente.
Los datos en el Análisis Multivariable
Variables y escalas de medida- Variable: Magnitudes que representan distintos conceptos o atributos de individuos u objetos tipos:
nominal y ordinal: escala no métricas o cualitativas.
Intervalo y razón:
escala métricas o cuatitativas
.Variable no métrica:
puede ser convertida en variable ficticias binarias (dummy).
Variable continua
Es una variable cuantitativa que por su naturaleza puede adoptar cualquier valor numérico (dentro de un intervalo).
Variable discreta
Variable cualitativa o cuantitativa que sólo puede adoptar un número finito de valores distintos.
Variable dicotómica o binaria:
Es aquella que sólo puede tomar dos valores. Por ejemplo Sexo, tener o no una enfermedad. Si a sus valores se les pone 0 y 1 se le llama binaria Variable ficticia (dummy):
Las variables cualitativas (nominales y ordinales) a veces se convierten en numéricas usando variables ficticias. En ellas el 1 indica presencia de una categoría y el 0 ausencia de la misma. Para convertir una variable cualitativa en dummy hacen falta tantas variables como niveles de la variable cualitativa menos uno.Los datos en el Análisis Multivariable
Análisis inicial de datos /Supuestos profundos en métodos multivariables:
Normalidad de las variables, linealidad, homocedasticidas.
De análisis de la dependencia:
Técnicas aplicables cuando una o varias variables dependientes van a ser explicadas por un conjunto de variables independientes que actúan como predictoras De análisis de la interdependencia:
Técnicas que otorgan la misma consideración a todas las variables objeto de estudio, sin distinguir entre dependientes e independientes, y que tienen como fin descubrir las interrelaciones entre ellas.
Otras técnicas:
Técnicas novedosas que permiten un tratamiento más eficaz y eficiente en grandes cantidades de datos, como análisis con redes neuronales,Variable ficticia:
Variable binaria que se suele emplear para representar una categoría de una variable no métrica.
Variable métrica (o cuantitativa):
Variable medida en escala de intervalo o de razón, capaz de reflejar, por tanto, diferencias de grado o cantidad entre sus elementos. La diferencia entre dos elementos consecutivos es constante a lo largo de toda la escala.
Variable no métrica (o cualitativa
: Variable medida en escala nominal u ordinal que identifica categorías o propiedades. Si es ordinal, los números asignados a cada categoría guardan una relación de orden; pero, por lo demás, son simples etiquetas sin ningún otro significado.
ANOVA (o análisis de la varianza): Método para contrastar si diversas muestras proceden de poblaciones con igual media.
ANCOVA (o análisis de la covarianza): Proceso que comienza por emplear la regresión para eliminar la variación experimentada por la variable dependiente producida por una variable independiente no controlada (covariable) cuyos efectos se consideran indeseados, y sigue con un ANOVA sobre la variable dependiente ajustada.
Análisis discriminante:
Técnica de clasificación que permite agrupar a los elementos de una muestra en dos o más categorías diferentes, predefinidas en una variable dependiente no métrica, en función de una serie de variables independientes métricas combinadas linealmente.
Regresión lineal múltiple:
pretende determinar la combinación lineal de variables independientes cuyos cambios son los mejores predictores de los cambios experimentados por la variable dependiente.
Modelo logit
Modelo de elección discreta en el que la función de distribución de probabilidad de la variable perturbación es la función logística.
Modelo logit multinomial:
Modelo logit en el que la variable dependiente es politómica en lugar de dicotómica.
Modelo probit:
Modelo de elección discreta en el que la función de distribución de probabilidad de b, variable perturbación es la función normal.
Análisis con redes neuronales:
Técnica cuya forma de proceder pretende replicar el funcionamiento del cerebro humano, intentando aprender de los errores cometidos en aras de la consecución del mejor resultado posible.
Análisis conjunto:
se emplea para entender cómo conforman los individuos sus preferen hacia los objetos, normalmente marcas o productos.
Segmentación jerárquica:
análisis de la dependendncia que tiene por objeto distinguir grupos de elem. Homogéneos en una población a través de un proceso iterativo descendente de partición de la muestra total en sucesivos grupos en virtud del valor adoptado por la variable dependiente, Análisis con clases latentes:
Técnica que busca distinguir en una muestra grupos de elementos homogéneos en función de los valores que adopta una variable latente no métrica.
Análisis con ecuaciones estructurales (covarianzas):
Técnica que permite analizar varias relaciones de dependencia que se presentan simultáneamente.
Técnicas de análisis de la interd / Análisis factorial:
Técnica de análisis de la interdependencia presentada por un cierto número de variables susceptible de ser sintetizada en un conjunto de factores comunes que subyacen tras ella.
Análisis por componentes principales:
Técnica de análisis de la interdependencia presentada por un cierto número de variables susceptible de ser sintetizada en un conjunto de factores comunes que subyacen tras ella.
Análisis de correspondencias:
estudio entre las categorías de múltiples variables no métricas, que persigue la elaboración de un mapa perceptual que ponga de manifiesto dicha asociación en modo gráfico.
A de conglomerados (o análisis cluster):
Técnica paraclasificar sujetos u objetos en función de ciertas carácterísticas de modo que los elementos de cada grupo sean muy similares entre sí.
Escal multidimen:
repr.Que permita conocer la imagen que los individuos se crean de un conjunto de objetos por posicionamiento de cada uno en relación a los demás.
Análisis con clases latentes:
Técnica que busca distinguir en una muestra grupos de elementos homogéneos en función de los valores que adopta una variable latente no métrica.
Elección multicrit discreta:
Conjunto de métodos de ayuda en la resolución de problemas de decisión en los que se han de tener en cuenta diferentes puntos de vista y en los que se baraja un número finito de alternativas.
D. Miningse explora y analiza un gran volumen de datos con el fin de descubrir relacionesde comportamiento en ellos que sean de utilidad para el usuario en la toma de decisiones.