FIABILIDAD DE LOS TESTS REFERIDOS AL CRITERIO (TRC) Más que enfatizar el análisis de las diferencias entre los sujetos, como hacen los tests referidos a la norma (TRN), los tests referidos al criterio (TRC) se centran en averiguar en qué medida cada sujeto domina el criterio de interés previamente definido. Objeto de evaluación Núcleo del análisis de la fiabilidad Ámbito de aplicación tests referidos a la norma (TRN) Una variable psicológica o rasgo Diferencias entre sujetos (discriminación máxima entre sujetos) Posición relativa del sujeto (orden) Personalidad, aptitudes tests referidos al criterio (TRC) Un dominio o criterio Dominio que tiene el sujeto del tema (en qué grado el sujeto domina el criterio) En qué grado conoce los objetivos Rendimiento, educación Los TRC han propiciado el desarrollo de los ámbitos de evaluación Definir con mayor claridad y operatividad los objetivos o criterios de interés Obligan a muestrear exhaustivamente los objetivos a evaluar; tecnología de escritura de ítems Potenciar nuevas formas de evaluar la fiabilidad y validez Desarrollo de una tecnología psicométrica para establecer de modo adecuado puntos de corte Ayudar a los profesores a tomar decisiones sobre la enseñanza Los profesores adquieren conocimientos en el campo de la evaluación de los estudiantes (estándares técnicos) FIABILIDAD En qué medida el % de ítems contestados correctamente por cada sujeto coincide con el porcentaje que éstos obtendrían si se utilizase el dominio completo En la práctica, la mayoría de los TRC tienen como finalidad clasificar a las personas en 2 categorías: las que dominan el criterio y las que no lo dominan Así, la fiabilidad busca evaluar la consistencia o precisión de estas clasificaciones adoptando métodos de la toma de decisiones El modelo de tests paralelos de la fiabilidad clásica tiene su equivalente en la teoría de muestras aleatorias de los contenidos del dominio (TRC) (que así deberían ser paralelos) Técnicas para evaluar la fiabilidad: 1) Dos aplicaciones del test Coeficiente po Refleja en qué medida las clasificaciones hachas a partir de ambos tests coinciden po Fc N Donde Fc es el número de personas (frecuencia) en las que ambos tests coinciden en la clasificación N es en número total de personas El valor máximo de po es 1 (todas las frecuencias en la diagonal principal), y elmínimo el que cabe esperar por mero azar en función de las frecuencias marginales de la tabla Coeficiente kappa K Fc Fa Pc Pa N Fa 1 Pa el valor del coeficiente kappa es muy similar al coeficiente de correlación de Pearson para datos dicotómicos significación estadística de kappa: se usa el error típico de medida (Cohen, 1960): Fa N ( N Fa ) e intervalo confidencial: rxx’ Zc · e (frecuencias de coincidencia frente a frecuencias esperadas por azar) Coeficiente de Livingston K xx' xx' x x ' ( x c)( x ' c) 2 x ( x c) 2 x2' ( x ' c) 2 2) Una sola aplicación del test Método Huynh Permite estimar los coeficientes po y kappa Cálculo laborioso; cálculo aproximativo si: nº ítems > 8 y X / n está entre 0,15 y 0,85 1) se calcula la desviación normal correspondiente al punto de corte (C), según la siguiente expresión: Z C 0,5 X Sx 2) se busca en las tablas de la curva normal la proporción P z correspondiente a Z 3) mediante la tabla 11 del formulario se obtiene la probabilidad P zz de la distribución conjunta de dos variables normales con una corelación KR21 dada, para el valor de Z 4) se procede al cálculo de po y kappa estos coeficientes deben usarse con prudencia y proporcionar no sólo el valor numérico del coeficiente, sino también otros datos para su interpretación precisa, como tabla de frecuencias de la clasificación, distribución de frecuencias, media y DT, punto de corte y errores típicos de medida para distintos niveles de la variable medida; como ocurría con el coeficiente de fiabilidad clásico, tanto el incremento de la longitud del test como la variabilidad de la muestra tienden a incrementar el tamaño de los coeficientes de po y kappa; pero el factor que nmás influye sobre ambos es la ubicación del punto de corte: en general, y asumiendo que la distribución de las puntuaciones del test es unimodal, el valor de po tiende a aumentar si el punto de corte se ubica en las zonas extremas de la distribución; con el coeficiente kappa ocurre lo contrario, su valor aumenta cuando el punto de corte se acerca a la media de la distribución Coeficiente Livingston Coeficiente del tipo de pérdida de error cuadrático: usa la distancia cuadrática de las puntuaciones al punto de corte; cuanto más se alejen las puntuaciones del punto de corte, mayores serán los errores cuadráticos; fórmula: K xv2 x2 ( c) 2 x2 ( c) 2 propiedades: aumenta con el incremento del coeficiente (si éste toma el valor de 1, cuando el punto de corte (c) coincide con la media del test, K xv2 también es 1); K xv2 es igual a ; a medida que el punto de corte se aleja de la media del test, el valor de ( – c)2 aumenta, y así lo hace K xv2 , por lo que K xv2 UBICACIÓN DEL PUNTO DE CORTE Se habla de puntos de corte absolutos (dependen sólo de la materia evaluada) y relativos (se fijan en función del grupo de personas evaluadas) 1) Procedimientos centrados en el test se basan en los juicios de los expertos acerca de los distintos ítms del test requiere seleccionar jueces apropiados i entrenarlos Método Nedelsky Sólo se puede usar cuando los ítems son de elección múltiple Los jueces analizan las alternativas y deciden cuáles consideran que serían detectadas como erróneas por una persona que tuviese los conocimientos mínimos de dominio del criterio Asume que ante un ítem primero se descartan las alternativasclaramente erróneas y luego se elige al azar entre las restantes Bajo esta óptica, la puntuación esperada de un sujetoen un ítem es 1 / nº de alternativas no descartadas Sumando los valores esperados para cada ítem se obtiene el valor esperado del test (en cada juez); luego se suman las puntuaciones de los jueces y se obtiene la media o la mediana (ésta es menos sensible a la variabilidad) (tb se puede eliminar los valores extremos) Corregir los efectos debidos al azar, para ubicar el punto de corte (aciertos menos errores / n-1) Limitaciones: un ítem no puede tomar valores entre 0,50 y 1 (2 y 1 alternativa, respectivamente); este método tiende a dar valores más bajos para el punto de corte que los demás métodos Método de Angoff Se aplica a todo tipo de ítems Aquí los jueces emiten valoraciones globales de cada ítem, ej., probabilidad (%) de que una persona con los conocimientos mínimos exigibles superen el ítem Combinar las puntuaciones de los diversos jueces (media y mediana); corregir los efectos del azar 2. Procedimientos centrados en las personas los jueces no sólo han de ser expertos en la materia a evaluar, sino que también han de conocer perfectamente la competencia de los sujetos en el dominio objeto de evaluación. Método del grupo límite Se pide a los jueces que identifiquen, de entre las personas que han de pasar el test, aquellas que según su opinión estarían en el límite de superarlo (ni inadecuados ni del todo adecuados); a estos se les aplica el test; el punto de corte será la media o la mediana de las puntuaciones de este grupo de personas en el test 3. Procedimientos de compromiso utilizan tanto la información de carácter absoluto como relativa al grupo Comentarios finales Aplicar más de un método de selección del punto de corte, y contrastar resultados Hay que usar todo tipo de información disponible Todo depende de los jueces y hay muchos aspectos de su comportamiento que desconocemos: - consistencia o fiabilidad de sus juicios - número idóneo de jueces en cada caso - procedimiento de selección y entrenamiento que hay que darles - forma ideal de trabajar (individual, en grupo); etc. Todos estos son problemas complejos, no circunscritos a la psicometría La validez de las opiniones de los jueces no se debe dar por supuesta, hay que comprobarla Nuevas orientaciones evaluativas fijan nuevos estándares.