Fiabilidad de los Test Referidos al criterio

Anuncio
FIABILIDAD DE LOS TESTS REFERIDOS AL CRITERIO (TRC)
Más que enfatizar el análisis de las diferencias entre los sujetos, como hacen los tests referidos a la norma
(TRN), los tests referidos al criterio (TRC) se centran en averiguar en qué medida cada sujeto domina el
criterio de interés previamente definido.
Objeto de evaluación
Núcleo del análisis de
la fiabilidad
Ámbito de aplicación
tests referidos a la norma (TRN)
Una variable psicológica o rasgo
Diferencias entre sujetos
(discriminación máxima entre
sujetos)
Posición relativa del sujeto (orden)
Personalidad, aptitudes
tests referidos al criterio (TRC)
Un dominio o criterio
Dominio que tiene el sujeto del tema
(en qué grado el sujeto domina el
criterio)
En qué grado conoce los objetivos
Rendimiento, educación
Los TRC han propiciado el desarrollo de los ámbitos de evaluación






Definir con mayor claridad y operatividad los objetivos o criterios de interés
Obligan a muestrear exhaustivamente los objetivos a evaluar; tecnología de escritura de ítems
Potenciar nuevas formas de evaluar la fiabilidad y validez
Desarrollo de una tecnología psicométrica para establecer de modo adecuado puntos de corte
Ayudar a los profesores a tomar decisiones sobre la enseñanza
Los profesores adquieren conocimientos en el campo de la evaluación de los estudiantes
(estándares técnicos)
FIABILIDAD
En qué medida el % de ítems contestados correctamente por cada sujeto coincide con el porcentaje que
éstos obtendrían si se utilizase el dominio completo
En la práctica, la mayoría de los TRC tienen como finalidad clasificar a las personas en 2 categorías: las
que dominan el criterio y las que no lo dominan
Así, la fiabilidad busca evaluar la consistencia o precisión de estas clasificaciones adoptando métodos de
la toma de decisiones
El modelo de tests paralelos de la fiabilidad clásica tiene su equivalente en la teoría de muestras aleatorias
de los contenidos del dominio (TRC) (que así deberían ser paralelos)
Técnicas para evaluar la fiabilidad:
1) Dos aplicaciones del test
Coeficiente
po
Refleja en qué medida las clasificaciones hachas a partir de ambos tests coinciden
po 
Fc
N
Donde Fc es el número de personas (frecuencia) en las que ambos tests coinciden en la clasificación
N es en número total de personas
El valor máximo de po es 1 (todas las frecuencias en la diagonal principal), y elmínimo el que cabe
esperar por mero azar en función de las frecuencias marginales de la tabla
Coeficiente kappa
K
Fc  Fa Pc  Pa

N  Fa
1  Pa
el valor del coeficiente kappa es muy similar al coeficiente de correlación de Pearson  para datos
dicotómicos
significación estadística de kappa: se usa el error típico de medida (Cohen, 1960):
Fa
N ( N  Fa )
e 
intervalo confidencial: rxx’  Zc · e
(frecuencias de coincidencia frente a frecuencias esperadas por azar)
Coeficiente de Livingston
K xx' 

 xx' x x '  (  x  c)(  x '  c)
2
x
 (  x  c) 2   x2'  (  x '  c) 2

2) Una sola aplicación del test
Método Huynh
Permite estimar los coeficientes
po y kappa

Cálculo laborioso; cálculo aproximativo si: nº ítems > 8 y X / n está entre 0,15 y 0,85
1) se calcula la desviación normal correspondiente al punto de corte (C), según la siguiente
expresión:
Z
C  0,5  X
Sx
2) se busca en las tablas de la curva normal la proporción P z correspondiente a Z
3) mediante la tabla 11 del formulario se obtiene la probabilidad P zz de la distribución conjunta
de dos variables normales con una corelación KR21 dada, para el valor de Z
4) se procede al cálculo de po y kappa
estos coeficientes deben usarse con prudencia y proporcionar no sólo el valor numérico del coeficiente,
sino también otros datos para su interpretación precisa, como tabla de frecuencias de la clasificación,
distribución de frecuencias, media y DT, punto de corte y errores típicos de medida para distintos niveles
de la variable medida;
como ocurría con el coeficiente de fiabilidad clásico, tanto el incremento de la longitud del test como la
variabilidad de la muestra tienden a incrementar el tamaño de los coeficientes de po y kappa;
pero el factor que nmás influye sobre ambos es la ubicación del punto de corte: en general, y asumiendo
que la distribución de las puntuaciones del test es unimodal, el valor de po tiende a aumentar si el punto
de corte se ubica en las zonas extremas de la distribución; con el coeficiente kappa ocurre lo contrario, su
valor aumenta cuando el punto de corte se acerca a la media de la distribución
Coeficiente Livingston
Coeficiente del tipo de pérdida de error cuadrático: usa la distancia cuadrática de las puntuaciones al
punto de corte; cuanto más se alejen las puntuaciones del punto de corte, mayores serán los errores
cuadráticos; fórmula:
K xv2 
 x2  (   c) 2
 x2  (   c)
2
propiedades: aumenta con el incremento del coeficiente  (si éste toma el valor de 1,
cuando el punto de corte (c) coincide con la media del test,
K xv2 también es 1);
K xv2 es igual a ; a medida que el punto de
corte se aleja de la media del test, el valor de ( – c)2 aumenta, y así lo hace
K xv2 , por lo que K xv2  
UBICACIÓN DEL PUNTO DE CORTE
Se habla de puntos de corte absolutos (dependen sólo de la materia evaluada) y relativos (se fijan en
función del grupo de personas evaluadas)
1) Procedimientos centrados en el test
se basan en los juicios de los expertos acerca de los distintos ítms del test
requiere seleccionar jueces apropiados i entrenarlos
Método Nedelsky
Sólo se puede usar cuando los ítems son de elección múltiple
Los jueces analizan las alternativas y deciden cuáles consideran que serían detectadas como erróneas por
una persona que tuviese los conocimientos mínimos de dominio del criterio
Asume que ante un ítem primero se descartan las alternativasclaramente erróneas y luego se elige al azar
entre las restantes
Bajo esta óptica, la puntuación esperada de un sujetoen un ítem es 1 / nº de alternativas no descartadas
Sumando los valores esperados para cada ítem se obtiene el valor esperado del test (en cada juez); luego
se suman las puntuaciones de los jueces y se obtiene la media o la mediana (ésta es menos sensible a la
variabilidad) (tb se puede eliminar los valores extremos)
Corregir los efectos debidos al azar, para ubicar el punto de corte (aciertos menos errores / n-1)
Limitaciones: un ítem no puede tomar valores entre 0,50 y 1 (2 y 1 alternativa, respectivamente); este
método tiende a dar valores más bajos para el punto de corte que los demás métodos
Método de Angoff
Se aplica a todo tipo de ítems
Aquí los jueces emiten valoraciones globales de cada ítem, ej., probabilidad (%) de que una persona con
los conocimientos mínimos exigibles superen el ítem
Combinar las puntuaciones de los diversos jueces (media y mediana); corregir los efectos del azar
2. Procedimientos centrados en las personas
los jueces no sólo han de ser expertos en la materia a evaluar, sino que también han de conocer
perfectamente la competencia de los sujetos en el dominio objeto de evaluación.
Método del grupo límite
Se pide a los jueces que identifiquen, de entre las personas que han de pasar el test, aquellas que según su
opinión estarían en el límite de superarlo (ni inadecuados ni del todo adecuados); a estos se les aplica el
test; el punto de corte será la media o la mediana de las puntuaciones de este grupo de personas en el test
3. Procedimientos de compromiso
utilizan tanto la información de carácter absoluto como relativa al grupo
Comentarios finales
Aplicar más de un método de selección del punto de corte, y contrastar resultados
Hay que usar todo tipo de información disponible
Todo depende de los jueces y hay muchos aspectos de su comportamiento que desconocemos:
- consistencia o fiabilidad de sus juicios
- número idóneo de jueces en cada caso
- procedimiento de selección y entrenamiento que hay que darles
- forma ideal de trabajar (individual, en grupo); etc.
Todos estos son problemas complejos, no circunscritos a la psicometría
La validez de las opiniones de los jueces no se debe dar por supuesta, hay que comprobarla
Nuevas orientaciones evaluativas fijan nuevos estándares.
Descargar