Análisis de Ítems en Psicometría: TRI y TCT

Análisis de Ítems

El análisis de ítems estudia las propiedades de los ítems que influyen directamente en las propiedades del test. Las estrategias de análisis se basan en índices que describen la distribución de las respuestas, como medias y varianzas. Si los ítems son dicotómicos, la media del ítem se denomina índice p (proporción de personas que aciertan el ítem). Los índices de discriminación describen la relación entre las respuestas a un ítem y algún criterio, como el índice de dificultad y el índice de validez.

Índice de Dificultad (p)

En ítems dicotómicos, p es igual a la media del ítem: P_j = A_j / N. La dificultad se clasifica en rangos:

0.75 a 0.95: Muy fácil
0.55 a 0.74: Fácil
0.45 a 0.54: Normal
0.35 a 0.44: Difícil
0.05 a 0.34: Muy difícil

Un ítem ofrece su máxima información cuando su varianza es máxima (p=q).

Criterio Interno

El análisis de la homogeneidad (criterio interno) analiza en qué medida cada ítem mide el mismo atributo psicológico, comparando cada ítem con la puntuación total del test.

Criterio Externo

El análisis de validez (criterio externo) analiza en qué medida cada ítem predice una variable externa, comparando cada ítem con la puntuación en otro test.

Índice de Homogeneidad (D)

Se divide el grupo en dos subgrupos (superior e inferior) en función de la media o mediana. Se calcula la proporción de éxito en cada ítem (media) para cada grupo (P_js para el superior y P_ji para el inferior). El índice D varía de -1 a 1: D_j = P_js – P_ji.

D ≥ +0.4: Satisfactorio
0.3 ≤ D ≤ 0.39: Requiere revisión
0.2 ≤ D ≤ 0.29: Necesita revisión
D < 0.19: Eliminar

Coeficiente de Correlación Biserial Puntual

Se aplica la correlación de Pearson cuando el ítem es dicotómico y el test es cuantitativo.

Coeficiente de Correlación Biserial

Estima la correlación de Pearson cuando el ítem es dicotomizado, asumiendo una variable continua subyacente con distribución normal.

Relación entre Biserial Puntual y Biserial

Se utiliza cuando la distribución normal es dudosa.

Coeficiente Phi (ɸ)

Es el coeficiente de correlación de Pearson para variables dicotómicas.

Correlación Tetracórica

Se utiliza cuando ambas variables son dicotómicas y se distribuyen normalmente.

Criterio Externo: Índice de Homogeneidad (D)

Los grupos superior e inferior se obtienen dividiendo por la mediana de la puntuación en el criterio externo. Se calcula la proporción de éxito para cada grupo (de -1 a 1).

Teoría de la Respuesta al Ítem (TRI)

Modelo Logístico de un Parámetro (Rasch)

La respuesta al ítem depende de la competencia de la persona (ϴ) y la dificultad del ítem (b_i). La Curva Característica del Ítem (CCI) se define por la función logística.

Características

El parámetro de dificultad representa la proyección del punto de inflexión de la curva cuando la probabilidad es 0.5. La media es 0 y la desviación típica es 1. Los valores oscilan entre ±3 o ±4.

TRI vs. TCT

La TRI no contradice la TCT, sino que añade supuestos. Se centra en las propiedades de los ítems en lugar de en los test globales. Su objetivo es obtener mediciones invariantes respecto al instrumento y a las personas evaluadas.

Postulados Básicos de la TRI

Existencia de rasgos latentes que predicen la conducta ante un ítem.
Relación monótona creciente entre el rendimiento y los rasgos.

Rasgos Comunes de la CCI

Función no lineal en forma de ojiva.
La respuesta observable es función de la habilidad latente y de los parámetros del ítem.
Espacio del rasgo unidimensional.
Sujetos e ítems se sitúan en un punto del espacio del rasgo.
Unidades básicas de análisis: los ítems.

Ventajas de la TRI

Falsabilidad de los modelos.
Invarianza de los parámetros de los ítems.
Invarianza de los parámetros de aptitud.

Supuestos de la TRI

Unidimensionalidad del espacio latente.
Independencia local de los ítems.
Probabilidad de un patrón de respuestas como producto de las probabilidades independientes de cada ítem.

Modelo Logístico de 2 Parámetros

La respuesta depende de la dificultad (b) y la discriminación (a). La CCI se define por la función logística.

Parámetro de Dificultad

Proyección del punto de inflexión cuando la probabilidad es 0.5.

Parámetro de Discriminación

Proporcional a la pendiente de P(ϴ) cuando ϴ=b. Representa la tasa de cambio en la probabilidad de acertar en función de la habilidad. Oscila entre 0 y 3.0.

Modelo Logístico de 3 Parámetros

Incluye la dificultad (b), la discriminación (a) y la probabilidad de acertar por azar (c).

Parámetro de Dificultad

Proyección del punto de inflexión cuando la probabilidad es (1+c)/2.

Parámetro de Discriminación

Proporcional a la pendiente de P(ϴ) cuando ϴ=b.

Parámetro de Pseudo-azar

Asíntota menor de la CCI. Representa la adivinación. Se interpreta entre 0 y 1, con valores cercanos a 1/k (número de opciones).

Validez

La validez se refiere a la adecuación, significatividad y utilidad de un test. Es un proceso unitario.

Validez de Criterio

Se basa en la relevancia del constructo, su definición operativa, la prueba empírica y la derivación de indicadores. Se fundamenta en la teoría, juicios de expertos y análisis estadísticos.

Representación

Grado en que los ítems representan el constructo (infra o sobrerrepresentación).

Procesos de Respuesta

Evidencia de las estrategias de respuesta de los sujetos. Se basa en la observación, análisis experimental y juicios de expertos.

Validez de Constructo (Interna)

Estructura

Evalúa si el test mide un constructo coherente. Se utilizan la TRI, correlaciones, análisis factorial (exploratorio y confirmatorio) y el análisis del funcionamiento diferencial de los ítems (DIF).

Relación con Otras Valideces

Convergencia y Discriminación

Mediante la matriz multirrasgo-multimétodo se analiza la convergencia y la discriminación de las mediciones.

Predicción de Criterio

Se utilizan la correlación entre el test y el criterio, el coeficiente de validez (concurrente, predictiva y retrospectiva).

Generalización de la Validez

Se consideran las diferencias en la medición del constructo, el tipo de trabajo, la medida de criterio, las personas evaluadas y el momento temporal.

Cuestiones Importantes sobre la Validez

Se validan las puntuaciones, no el test en sí.
Es un proceso continuo y gradual.
Requiere múltiples estudios.
Debe revisarse periódicamente.

Validez Externa

Su objetivo es obtener evidencia de la relación entre las puntuaciones del test y una variable externa. La elección del método depende del diseño de recogida de datos y del número de variables.

Tipos de Validez Externa

Un único test predictor y un solo indicador de criterio: Correlación y modelos de regresión lineal simple.
Batería de tests y varios indicadores: Regresión lineal múltiple y multivariante, correlación canónica y teoría de la utilidad multiatributo.

Rango de Valores del Coeficiente de Validez

-1: Relación inversa
0: Nula
1: Positiva
0.1 a 0.3: Pequeña
0.31 a 0.49: Moderada
≥ 0.50: Alta

Coeficiente de Determinación (CD)

CD = r²_xy * 100. Representa la varianza común entre el test y el criterio.

Coeficiente de Alineación (CA)

Representa la inseguridad en los pronósticos. Varía entre 0 y 1.

Coeficiente de Valor Predictivo (CVP)

Proporción de seguridad en los pronósticos. Varía entre 0 y 1.

Factores que Afectan al Coeficiente de Validez

Fiabilidad del test y del criterio.
Tamaño del test.
Restricción de rango.
Dicotomización.

Validez Interna

Estudia la estructura interna del test y su relación con la estructura externa.

Procedimientos

TRI
Análisis del Funcionamiento Diferencial de los Ítems (DIF)
Análisis Factorial Confirmatorio (AFC)
Análisis Factorial Exploratorio (AFE)
Matriz Multimétodo-Multirrasgo

Análisis Factorial

Utiliza la correlación entre variables para identificar variables latentes.

Deducciones

La covarianza entre un factor y una variable observada se representa mediante la saturación factorial (de -1 a 1).

Alta: ≥ 0.6
Media: ≥ 0.3
< 0.29: Ignorar

Análisis Factorial Confirmatorio (AFC)

Prueba hipótesis sobre la estructura y relaciones entre variables latentes y manifiestas.

Análisis Factorial Exploratorio (AFE)

Determina el número de dimensiones utilizando la matriz de correlaciones.

Inconvenientes

Naturaleza multivariada.
Álgebra de matrices.

Prueba de Bartlett

Prueba la hipótesis nula de que todos los eigenvalores son iguales.

Regla de Kaiser

Selecciona eigenvalores ≥ 1.

Scree-Test de Cattell

Representa gráficamente los eigenvalores para observar su decrecimiento.

Matriz Multimétodo-Multirrasgo

Analiza la validez convergente y discriminante.

Validez Convergente

Correlaciones entre el mismo rasgo medido con diferentes métodos.

Validez Discriminante

Correlaciones entre diferentes rasgos medidos con el mismo método.

Interpretación de Puntuaciones

Previamente

Aplicar el test a una muestra representativa.
Seleccionar el procedimiento de muestreo.
Obtener las puntuaciones de cada sujeto.

Basadas en la Norma

Puntuaciones Típicas (Z_x)

Indican la distancia a la media en desviaciones típicas.

Puntuaciones Típicas Derivadas

Transforman las puntuaciones típicas para evitar signos negativos y decimales.

Percentiles

Porcentaje de sujetos con valores menores o iguales en el rasgo.

Puntuaciones Típicas Normalizadas

Se calculan a partir de los percentiles y la curva normal.

Basadas en el Criterio

Reflejan lo que el sujeto sabe o puede hacer.

Puntuación de Dominio

Proporción de ítems del dominio que el sujeto responde correctamente.

Puntuación de Criterio

Comparación con un punto de corte en la escala.

Mapeo de Ítems (Puntuación de Dominio)

Identifica los ítems que el sujeto responde con mayor probabilidad.

Descripción del Nivel de Desempeño (Puntuación de Dominio)

Describe la competencia del sujeto en función de su puntuación.

Puntuación de Corte (Puntuación de Criterio)

Métodos empíricos: Se basan en datos del test.
Métodos valorativos: Se basan en juicios de expertos.
Métodos mixtos: Combinan datos y juicios.

Consideraciones Éticas y Prácticas

Modelo de Moreland

Define 12 competencias mínimas para el uso de tests.

Normativa

El COP y la International Test Commission establecen normas para el uso de tests.

Responsabilidades en el Uso de Tests

Evitar errores en la puntuación y registro.
No etiquetar a los sujetos.
Mantener la seguridad de las plantillas.
Seguir las instrucciones de aplicación.
Aplicar el test en condiciones óptimas.
No entrenar a los sujetos.
Interpretar las puntuaciones correctamente.
No aconsejar basándose únicamente en el test.
No fotocopiar el material.
No responder preguntas sobre el contenido.
No asumir normas propias.
No generalizar la validez de un test a otras poblaciones.