Análisis de Ítems en Psicometría: TRI y TCT
Análisis de Ítems
El análisis de ítems estudia las propiedades de los ítems que influyen directamente en las propiedades del test. Las estrategias de análisis se basan en índices que describen la distribución de las respuestas, como medias y varianzas. Si los ítems son dicotómicos, la media del ítem se denomina índice p (proporción de personas que aciertan el ítem). Los índices de discriminación describen la relación entre las respuestas a un ítem y algún criterio, como el índice de dificultad y el índice de validez.
Índice de Dificultad (p)
En ítems dicotómicos, p es igual a la media del ítem: Pj = Aj / N. La dificultad se clasifica en rangos:
- 0.75 a 0.95: Muy fácil
- 0.55 a 0.74: Fácil
- 0.45 a 0.54: Normal
- 0.35 a 0.44: Difícil
- 0.05 a 0.34: Muy difícil
Un ítem ofrece su máxima información cuando su varianza es máxima (p=q).
Criterio Interno
El análisis de la homogeneidad (criterio interno) analiza en qué medida cada ítem mide el mismo atributo psicológico, comparando cada ítem con la puntuación total del test.
Criterio Externo
El análisis de validez (criterio externo) analiza en qué medida cada ítem predice una variable externa, comparando cada ítem con la puntuación en otro test.
Índice de Homogeneidad (D)
Se divide el grupo en dos subgrupos (superior e inferior) en función de la media o mediana. Se calcula la proporción de éxito en cada ítem (media) para cada grupo (Pjs para el superior y Pji para el inferior). El índice D varía de -1 a 1: Dj = Pjs – Pji.
- D ≥ +0.4: Satisfactorio
- 0.3 ≤ D ≤ 0.39: Requiere revisión
- 0.2 ≤ D ≤ 0.29: Necesita revisión
- D < 0.19: Eliminar
Coeficiente de Correlación Biserial Puntual
Se aplica la correlación de Pearson cuando el ítem es dicotómico y el test es cuantitativo.
Coeficiente de Correlación Biserial
Estima la correlación de Pearson cuando el ítem es dicotomizado, asumiendo una variable continua subyacente con distribución normal.
Relación entre Biserial Puntual y Biserial
Se utiliza cuando la distribución normal es dudosa.
Coeficiente Phi (ɸ)
Es el coeficiente de correlación de Pearson para variables dicotómicas.
Correlación Tetracórica
Se utiliza cuando ambas variables son dicotómicas y se distribuyen normalmente.
Criterio Externo: Índice de Homogeneidad (D)
Los grupos superior e inferior se obtienen dividiendo por la mediana de la puntuación en el criterio externo. Se calcula la proporción de éxito para cada grupo (de -1 a 1).
Teoría de la Respuesta al Ítem (TRI)
Modelo Logístico de un Parámetro (Rasch)
La respuesta al ítem depende de la competencia de la persona (ϴ) y la dificultad del ítem (bi). La Curva Característica del Ítem (CCI) se define por la función logística.
Características
El parámetro de dificultad representa la proyección del punto de inflexión de la curva cuando la probabilidad es 0.5. La media es 0 y la desviación típica es 1. Los valores oscilan entre ±3 o ±4.
TRI vs. TCT
La TRI no contradice la TCT, sino que añade supuestos. Se centra en las propiedades de los ítems en lugar de en los test globales. Su objetivo es obtener mediciones invariantes respecto al instrumento y a las personas evaluadas.
Postulados Básicos de la TRI
- Existencia de rasgos latentes que predicen la conducta ante un ítem.
- Relación monótona creciente entre el rendimiento y los rasgos.
Rasgos Comunes de la CCI
- Función no lineal en forma de ojiva.
- La respuesta observable es función de la habilidad latente y de los parámetros del ítem.
- Espacio del rasgo unidimensional.
- Sujetos e ítems se sitúan en un punto del espacio del rasgo.
- Unidades básicas de análisis: los ítems.
Ventajas de la TRI
- Falsabilidad de los modelos.
- Invarianza de los parámetros de los ítems.
- Invarianza de los parámetros de aptitud.
Supuestos de la TRI
- Unidimensionalidad del espacio latente.
- Independencia local de los ítems.
- Probabilidad de un patrón de respuestas como producto de las probabilidades independientes de cada ítem.
Modelo Logístico de 2 Parámetros
La respuesta depende de la dificultad (b) y la discriminación (a). La CCI se define por la función logística.
Parámetro de Dificultad
Proyección del punto de inflexión cuando la probabilidad es 0.5.
Parámetro de Discriminación
Proporcional a la pendiente de P(ϴ) cuando ϴ=b. Representa la tasa de cambio en la probabilidad de acertar en función de la habilidad. Oscila entre 0 y 3.0.
Modelo Logístico de 3 Parámetros
Incluye la dificultad (b), la discriminación (a) y la probabilidad de acertar por azar (c).
Parámetro de Dificultad
Proyección del punto de inflexión cuando la probabilidad es (1+c)/2.
Parámetro de Discriminación
Proporcional a la pendiente de P(ϴ) cuando ϴ=b.
Parámetro de Pseudo-azar
Asíntota menor de la CCI. Representa la adivinación. Se interpreta entre 0 y 1, con valores cercanos a 1/k (número de opciones).
Validez
La validez se refiere a la adecuación, significatividad y utilidad de un test. Es un proceso unitario.
Validez de Criterio
Se basa en la relevancia del constructo, su definición operativa, la prueba empírica y la derivación de indicadores. Se fundamenta en la teoría, juicios de expertos y análisis estadísticos.
Representación
Grado en que los ítems representan el constructo (infra o sobrerrepresentación).
Procesos de Respuesta
Evidencia de las estrategias de respuesta de los sujetos. Se basa en la observación, análisis experimental y juicios de expertos.
Validez de Constructo (Interna)
Estructura
Evalúa si el test mide un constructo coherente. Se utilizan la TRI, correlaciones, análisis factorial (exploratorio y confirmatorio) y el análisis del funcionamiento diferencial de los ítems (DIF).
Relación con Otras Valideces
Convergencia y Discriminación
Mediante la matriz multirrasgo-multimétodo se analiza la convergencia y la discriminación de las mediciones.
Predicción de Criterio
Se utilizan la correlación entre el test y el criterio, el coeficiente de validez (concurrente, predictiva y retrospectiva).
Generalización de la Validez
Se consideran las diferencias en la medición del constructo, el tipo de trabajo, la medida de criterio, las personas evaluadas y el momento temporal.
Cuestiones Importantes sobre la Validez
- Se validan las puntuaciones, no el test en sí.
- Es un proceso continuo y gradual.
- Requiere múltiples estudios.
- Debe revisarse periódicamente.
Validez Externa
Su objetivo es obtener evidencia de la relación entre las puntuaciones del test y una variable externa. La elección del método depende del diseño de recogida de datos y del número de variables.
Tipos de Validez Externa
- Un único test predictor y un solo indicador de criterio: Correlación y modelos de regresión lineal simple.
- Batería de tests y varios indicadores: Regresión lineal múltiple y multivariante, correlación canónica y teoría de la utilidad multiatributo.
Rango de Valores del Coeficiente de Validez
- -1: Relación inversa
- 0: Nula
- 1: Positiva
- 0.1 a 0.3: Pequeña
- 0.31 a 0.49: Moderada
- ≥ 0.50: Alta
Coeficiente de Determinación (CD)
CD = r2xy * 100. Representa la varianza común entre el test y el criterio.
Coeficiente de Alineación (CA)
Representa la inseguridad en los pronósticos. Varía entre 0 y 1.
Coeficiente de Valor Predictivo (CVP)
Proporción de seguridad en los pronósticos. Varía entre 0 y 1.
Factores que Afectan al Coeficiente de Validez
- Fiabilidad del test y del criterio.
- Tamaño del test.
- Restricción de rango.
- Dicotomización.
Validez Interna
Estudia la estructura interna del test y su relación con la estructura externa.
Procedimientos
- TRI
- Análisis del Funcionamiento Diferencial de los Ítems (DIF)
- Análisis Factorial Confirmatorio (AFC)
- Análisis Factorial Exploratorio (AFE)
- Matriz Multimétodo-Multirrasgo
Análisis Factorial
Utiliza la correlación entre variables para identificar variables latentes.
Deducciones
La covarianza entre un factor y una variable observada se representa mediante la saturación factorial (de -1 a 1).
- Alta: ≥ 0.6
- Media: ≥ 0.3
- < 0.29: Ignorar
Análisis Factorial Confirmatorio (AFC)
Prueba hipótesis sobre la estructura y relaciones entre variables latentes y manifiestas.
Análisis Factorial Exploratorio (AFE)
Determina el número de dimensiones utilizando la matriz de correlaciones.
Inconvenientes
- Naturaleza multivariada.
- Álgebra de matrices.
Prueba de Bartlett
Prueba la hipótesis nula de que todos los eigenvalores son iguales.
Regla de Kaiser
Selecciona eigenvalores ≥ 1.
Scree-Test de Cattell
Representa gráficamente los eigenvalores para observar su decrecimiento.
Matriz Multimétodo-Multirrasgo
Analiza la validez convergente y discriminante.
Validez Convergente
Correlaciones entre el mismo rasgo medido con diferentes métodos.
Validez Discriminante
Correlaciones entre diferentes rasgos medidos con el mismo método.
Interpretación de Puntuaciones
Previamente
- Aplicar el test a una muestra representativa.
- Seleccionar el procedimiento de muestreo.
- Obtener las puntuaciones de cada sujeto.
Basadas en la Norma
Puntuaciones Típicas (Zx)
Indican la distancia a la media en desviaciones típicas.
Puntuaciones Típicas Derivadas
Transforman las puntuaciones típicas para evitar signos negativos y decimales.
Percentiles
Porcentaje de sujetos con valores menores o iguales en el rasgo.
Puntuaciones Típicas Normalizadas
Se calculan a partir de los percentiles y la curva normal.
Basadas en el Criterio
Reflejan lo que el sujeto sabe o puede hacer.
Puntuación de Dominio
Proporción de ítems del dominio que el sujeto responde correctamente.
Puntuación de Criterio
Comparación con un punto de corte en la escala.
Mapeo de Ítems (Puntuación de Dominio)
Identifica los ítems que el sujeto responde con mayor probabilidad.
Descripción del Nivel de Desempeño (Puntuación de Dominio)
Describe la competencia del sujeto en función de su puntuación.
Puntuación de Corte (Puntuación de Criterio)
- Métodos empíricos: Se basan en datos del test.
- Métodos valorativos: Se basan en juicios de expertos.
- Métodos mixtos: Combinan datos y juicios.
Consideraciones Éticas y Prácticas
Modelo de Moreland
Define 12 competencias mínimas para el uso de tests.
Normativa
El COP y la International Test Commission establecen normas para el uso de tests.
Responsabilidades en el Uso de Tests
- Evitar errores en la puntuación y registro.
- No etiquetar a los sujetos.
- Mantener la seguridad de las plantillas.
- Seguir las instrucciones de aplicación.
- Aplicar el test en condiciones óptimas.
- No entrenar a los sujetos.
- Interpretar las puntuaciones correctamente.
- No aconsejar basándose únicamente en el test.
- No fotocopiar el material.
- No responder preguntas sobre el contenido.
- No asumir normas propias.
- No generalizar la validez de un test a otras poblaciones.