Validez y estructura interna en la evaluación de instrumentos

Interjueces o interobservadores

Grado de acuerdo en las valoraciones de evaluadores sobre los distintos ítems de un instrumento. Se refiere al estudio de la consistencia en la valoración de los distintos jueces. Para ello, un mismo grupo de participantes debe ser evaluado por múltiples evaluadores, con el objetivo de estudiar si realizan valoraciones similares.

Procedimiento

Variables nominales u ordinales: Coeficiente kappa: DOS evaluadores, Índice Kappa de Fleiss: MÁS de DOS evaluadores. Variables cuantitativas: Coeficiente concordancia: WKendall (ordinal Likert) o Coeficiente de correlación intraclase (CCI)

Validez

Capacidad del test para medir el rasgo que pretende medir. La validez de un instrumento depende de la capacidad para relacionar las respuestas a los ítems y las puntuaciones obtenidas con la definición teórica de partida del constructo latente que se está midiendo.

Validez de contenido

Se lleva a cabo antes de la aplicación inicial del instrumento. Pretende averiguar si el conjunto de ítems que componen el instrumento representa el constructo medido. Se lleva a cabo mediante juicio de expertos (estos determinan la representatividad, relevancia y suficiencia del conjunto de ítems). Se comprueba el acuerdo entre jueces en cada una de las rondas mediante el cálculo de estadísticos de acuerdo: Kappa de cohen, correlación interclase, Lawshe (índice propio IVC).

Validez basada en el proceso de respuesta

Ajuste entre el constructo evaluado y el proceso de respuesta realizada por las personas que responden el test. Todas las conductas que se necesitan para poder contestar un ítem (leer preguntas, comprenderlas, decidir la respuesta y responder al ítem). Factores que pueden afectar a la respuesta. Relacionados con los ítems: Contenido de los ítems (adecuado a la población que se quiere evaluar). Redacción de los ítems (lenguaje adecuado a la capacidad de comprensión del público a quien va dirigido el test). Validez aparente del ítem (grado en que un test aparenta valorar un determinado atributo, es decir las personas que responden deben de pensar que el instrumento sirve para evaluar lo que evalúa). Número de alternativas. Instrucciones a la hora de rellenar el cuestionario. Relacionados con las personas: capacidad intelectual, lectura, etc.

Validez de criterio o criterial

Relación entre las puntuaciones del test y las obtenidas con otros test ya validados y que miden el mismo constructo. (correlación entre puntuaciones de los diferentes tests que miden el constructo.

Validez de la estructura interna o constructo

Comprobar de forma empírica si los distintos ítems y las relaciones entre ellos se ajustan a esa definición dimensional del constructo prevista por los creadores del instrumento de medida. Identifica (mediante criterios estadísticos y a partir de respuestas de sujetos a los que se aplica el test) la cantidad de dimensiones que ‘definen’ el constructo, así como los ítems que contribuyen a la medición de cada una de ellas. El elemento clave para agruparlos en dimensiones es la correlación entre ellos. Quien define la estructura interna que subyace al conjunto de ítems del test no es quien lo construye sino la relación existente entre los ítems. Estima la contribución de diferentes ítems que componen un test a un único factor (estructura unidimensional o A varios factores.

Etapas AFE

Preparación de los datos. Estudio de la matriz de correlaciones entre los ítems. Factorización. Rotación: Conocer las relaciones entre los factores. Interpretación: Buscarle sentido teórico, identificar y nombrar los factores.

Pruebas de ejecución máxima y ejecución típica

Pruebas que incluyen preguntas con respuestas correctas o erróneas y pruebas que miden rasgos, opiniones, preferencias, etc. (Distribuciones típicas).

Supuestos

Los instrumentos de medida mejoran si seleccionamos preguntas/ ítems. Buenas preguntas/items hacen buenos tests (lo condicionan, al menos). Es importante conocer las características técnicas de las preguntas/items que son: La dificultad (solo ejecución máxima). La discriminación/ homogeneidad. La validez.

Consejos para elaborar ítems de opción múltiple

Referidas al contenido, Referidas al estilo, Referidas al formato, Redacción del enunciado, Redacción de las opciones

Índice de dificultad

Ejecución máxima (preguntas correctas/incorrectas) Cuantifican el grado de dificultad de cada pregunta. Se estima matemáticamente en función del % de sujetos que contestan correctamente: -1: todos contestan acertadamente (dificultad nula o muy baja, no discrimina). – 0: nadie contesta acertadamente (dificultad máxima, no discrimina). – 0,5