Regresión con Variables Cualitativas y Logística: Análisis y Modelos
Regresión con Variables Cualitativas
Y var. cuanti xi var. cuali. La solución para introducir el factor cualitativo en el modelo es crear variables ficticias. Por ejemplo, el color de la piel D=1 si es blanco (categoría de referencia) y D=0 si es negro.
1.- Variable cualitativa sin interacción %IMAGE_1%
donde delta es el corte con el eje (término independiente).
Las rectas tienen la misma forma y pendiente, pero se desplazan; delta es la magnitud de la influencia de la variable cualitativa y estas no afectan a la influencia de los demás factores.
2.- Variable cualitativa con más de dos categorías
Variable cualitativa = c1, c2 y c3. Las variables ficticias son VD1 (1 si tiene c1 y 0 si no tiene c1), VD2 (1 si tiene c2 y 0 si no tiene c2). Siempre se crea una variable menos que el número de categorías. Se forma una matriz 1-0 blanco, 0-1 negro y 0-0 hispano. %IMAGE_2%
3.- Dos variables cualitativas sin interacción
Género (hombre=1 y mujer=0) y color (blanco=1 y negro=0). %IMAGE_3%
Se obtiene hombre blanco, hombre negro, mujer blanca y mujer negra. La influencia de la variable cualitativa en el factor hace cambiar la pendiente.
4.- Variable cualitativa con interacción
VD es el factor aislado cualitativo (1 y 0), x es el factor aislado cuantitativo y xVD es la interacción cuantitativa-cualitativa. %IMAGE_4%
Si la interacción es positiva, la distancia aumenta; si es negativa, disminuye y cuando las pendientes son distintas, existe interacción.
5.- Dos variables cualitativas con interacción
VD1 (hombre o mujer) y VD2 (blanco o negro). %IMAGE_5%
Cumple con la 1 (HN), cumple con la 2 (MB), cumple con ambas (HB) y si no cumple ninguna (MN).
Regresión Logística
1.- Contexto: variable dependiente cualitativa y variable independiente cualitativa y cuantitativa. Tiene como objetivo explicar y predecir la variable dependiente (asignadas a un grupo) y encontrar los factores que influyen.
2.- Problema: Y es cualitativa binaria (0 o 1). %IMAGE_6% %IMAGE_7%
3.- Solución: intentar linealizar, transformar a exponencial. %IMAGE_8%
a) Definimos odds como el riesgo. %IMAGE_9%
b) Supuesto de linealidad. %IMAGE_10%
4.- Construcción del modelo.
a) Principio de parsimonia: cuanto más sencillo, mejor. Hay que tratar de maximizar la explicación con el mínimo número de variables (salvo que nuestro objetivo diga lo contrario, ej: explicar influencia de todos los factores).
b) Variable de confusión: la variable no es significativa en el modelo, pero al eliminarla de él cambian los coeficientes de los demás factores.
c) Interacción: centra el resultado de uno de los factores en función de los resultados de otro factor. Los coeficientes de los factores se relacionan.
5.- Evaluación del modelo.
a) Calidad del modelo: R cuadrado en Nagelkerke -> % explicativo.
b) Coeficientes: H0:B0=0 test de Wald.
c) Prueba global: Hosmer-Lemeshow (compara lo esperado con lo real).
6.- Interpretación.
P(y=1|x…) = 0,68, un 68% de los pacientes enfermarán.
Estimamos B0…Bk.
1.- Odd ratio = %IMAGE_13% (2,12 veces más probabilidad de enfermar que no hacerlo).
El odd ratio es la probabilidad de enfermar cuando tiene una condición respecto a no enfermar sin la condición.
%IMAGE_14% Probabilidad de enfermar si fuma.
Aumenta en un 36%, el factor fumador es significativo y aumenta.
Probabilidad de enfermar si no fuma.
CUANDO LAS VARIABLES SON CONTINUAS INDICA CUÁNTO AUMENTA EL RIESGO POR CADA QUE AUMENTA EL FACTOR.
Si el % de acierto es sobre el 70%, es bueno. (VP+VN/total)100.
Sensibilidad: detecta todo, se enfoca en los positivos = (VP/VP+FN). El dividendo son todos los positivos en la realidad. «La prueba es sensible cuando captura el máximo de positivos reales, aunque puedan aparecer falsos positivos».
Especificidad: no detecta falsos positivos = VN/VN+FP. FP penaliza mucho, solución minimizar los FP o maximizar VN. «El modelo es específico cuando no se equivoca con falsos positivos. Todos los positivos son realmente positivos.»
Variación global = Aciertos/Total = VN+VP/VN+VP+FN+FP (debe estar entre 0 y 1).
La curva ROC fabrica criterios de diagnóstico. Variable de contraste = edad. | variable de estado = enfermedad coronaria toma valor 1 porque es la de referencia.
Las coordenadas de la curva ROC (1-especificidad -> mientras más alta, peor). Alta especificidad está en medio de la tabla porque combina ambas.
El objetivo primordial es modelar cómo influye en la probabilidad de aparición de un suceso (dicotómico), la presencia o no de diversos factores y el valor o nivel de los mismos. También es usada para estimar la probabilidad de aparición de cada una de las posibilidades de un suceso con más de dos categorías.
Odds = Riesgo = comparación entre la probabilidad de que ocurra algo frente a que no ocurra.
Odds Ratio = comparación entre el riesgo de un suceso dado que ocurre cierto factor frente al riesgo de ese suceso cuando no ocurre el factor.