Material de cátedra: Unidad III - TEORIA CLASICA DE LOS TESTS Y FIABILIDAD Prof. María Elena Brenlla Bibliografía utilizada: Anastasi, A.; Urbina, S. (1998): Tests Psicológicos. Cap. 4. México D.F.: Prentice Hall (7ª edic.) Martínez Arias, R. (1996): Psicometría: Teoría de los Tests Psicológicos y Educativos. Caps. 3 y 4. Madrid: Síntesis Cátedra: Técnicas de Evaluación Psicológica I (Cát. B) Facultad de Psicología y Educación UNIVERSIDAD CATOLICA ARGENTINA TEORIA CLÁSICA DE LOS TESTS (TCT) Spearman (1905) 1º formulación de la teoría de las puntuaciones verdadera y error aplicada a los tests La puntuación verdadera de un rasgo o atributo nunca puede medirse con exactitud La puntuación observada refleja la puntuación real más algún tipo de error de medida Las mediciones, entonces, son estimaciones de la puntuación verdadera La TCT o “Teoría débil de la puntuación verdadera” describe la influencia de los errores de medida en las puntuaciones observadas y sus relaciones con las puntuaciones verdaderas La TCT es un modelo de supuestos débiles, ya que éstos se acomodan a la mayoría de las situaciones y no pueden falsearse con los datos (ya que nunca se conoce la punt. verd.) SUPUESTOS DE LA TCT 1) Modelo lineal para las puntuaciones Xi = Vi + Ei, donde Ei = Xi – Vi Xi = Puntuaciones observadas Ei = Error de medida / error aleatorio Vi = Puntuaciones verdaderas Relación aditiva entre X y E (permite referencia al modelo lineal general, análisis de varianza, de regresión y factorial) El Error de medida es una desviación no sistemática o aleatoria de la puntuación verdadera y es el objeto de estudio de la psicometría Los errores sistemáticos también son errores de medida pero no son objeto de estudio de la psicometría 2) El valor esperado del Error de medida es igual a cero E (Ei) = 0 En aplicaciones infinitas del test sobre la misma persona o en una población de personas, con cada aplicación se estaría estimando cada vez mejor la puntuación verdadera. Por lo tanto, en algún momento, el error sería igual a 0 3) Las puntuaciones “verdadera” y “error” de una población no están correlacionadas ρEV = 0 Para una población de examinados, las puntuaciones de error no están correlacionadas con ningún atributo de las personas. Si lo estuviesen, no serían errores aleatorios sino sistemáticos. Entonces, las personas con altas puntuaciones verdaderas no tienen, en forma sistemática, “más” o “menos” puntuaciones de error que los sujetos con bajas puntuaciones verdaderas Por ejemplo, si notamos que a medida que aumenta la inteligencia hay menos puntuaciones de error de medida en el test de Bender, éstas se deberán a variables de la persona (inteligencia) y no al test 4) Las puntuaciones de error de dos tests diferentes no están correlacionadas ρ E1 E2 = 0 Si una persona obtiene una puntuación de error positiva en el test 1, en el test 2 podrá obtener una puntuación de error positiva, negativa o neutra: no se puede predecir el error de medida de un test a partir de otro. Salvo que el test sea susceptible a la fatiga, la práctica, los cambios de humor o efectos del ambiente. Por ejemplo, si se observa que en los dos últimos tests de una larga batería, algunos entrevistados cometen más errores de medida y que otros rinden en forma inusualmente alta, se producirían correlaciones positivas entre los errores. Pero ambos son debidos a fuentes externas al test (fatiga; práctica) Los errores de medida de un test no están correlacionados con las puntuaciones verdaderas de otro test ρ E1 V2 = 0 Por ejemplo, el error de medida de un test 1 de matemáticas no debiera estar correlacionado con la puntuación verdadera de un test 2 de lengua. Si se verificase, ambos compartirían el mismo estimador. Entonces el test 2 estaría midiendo alguna dimensión que influye en los errores del test 1 (por ejemplo, concentración) Criterios de la APA (1985, 1991) para evaluar la calidad de un test Standards for Educational and Psychological Testing Toda medida está sujeta a un error o imperfección que será necesario conocer para saber su precisión (fiabilidad) Análisis del grado en que la evidencia soporta las inferencias realizadas sobre la base de las puntuaciones del test. Implica el estudio de evidencias de contenido, constructo y criterio (validez) Análisis de los sesgos culturales Métodos apropiados para la adaptación lingüística de los tests verbales FIABILIDAD Definición: exactitud, precisión de la medición de la prueba; es decir, con el menor error posible • La puntuación verdadera de un rasgo o atributo nunca puede medirse con exactitud • La puntuación observada refleja la puntuación real más algún tipo de error de la prueba • El “coeficiente de fiabilidad” es un índice de confianza y expresa la razón entre la varianza de la puntuación observada y la puntuación observada Debemos procurar instrumentos de E.P. con alta fiabilidad: alta >90, moderada 75-85, baja <65. Errores de medida y fiabilidad - Consistencia: estabilidad inferida a partir de mediciones repetidas - Errores aleatorios: errores no predecibles (objeto de estudio de la psicometría) - Errores sistemáticos: errores predecibles, controlables y/o explicables (objeto de estudio de la teoría psicológica) Fuentes de variación sistemática: 1) Predecibles por la teoría de la variable medida (por ejemplo, edad en el test de Bender) 2) Por factores del contexto (instrucciones y consignas; tiempo límite) 3) Por variables subjetivas (práctica; fatiga) - - La fiabilidad se refiere a variaciones en las puntuaciones que se producen en ausencia de razones teóricas o empíricas para el cambio, por lo que las diferencias pueden atribuirse a errores aleatorios asociados a la medida. Por ejemplo, en el test de Bender, determinar qué parte de la variación observada se debe a verdaderas diferencias en la madurez visomotora y qué parte se debe a otras fuentes de variación (errores de medida) - - Coeficiente de correlación y fiabilidad El grado de relación entre dos variables X e Y puede ser representado numéricamente por el coeficiente de correlación Coeficiente de correlación perfecta = + 1,00 coeficiente de correlación negativa perfecta = - 1,00 Una relación debida puramente al azar = 0 Significado de los coeficientes de correlación 00 a 0,20 despreciable 0,20 a 0,40 baja o ligera 0,40 a 0,60 moderada 0,60 a 0,80 sustancial o marcada 0,80 a 1,00 alta o muy alta MÉTODOS PARA ESTIMAR LA FIABILIDAD La estimación de la fiabilidad requiere de al menos dos conjuntos conjuntos de medidas paralelas (tiempo/ contenido) de los mismos sujetos para luego calcular la la correlación entre ambas series 1) Método de las formas paralelas, alternas o equivalentes Pasos Construir dos formas alternas del test Aplicar ambas a una muestra amplia y representativa Calcular el coeficiente de correlación de Pearson (Coeficiente de confiabilidad de formas paralelas) Fuente principal de error Contenidos de las dos formas (difieren en dificultad, discriminación, discriminación, etc.) Intervalo temporal entre las administraciones Muestreo de contenidos 2) Método test – retest (con o sin formas paralelas, alternas o equivalentes) Pasos Construir el/ los tests Aplicar el test/ test/ la forma 1 del test Dejar transcurrir un período (determinar según teoría) Aplicar nuevamente el test/ test/ la forma 2 del test Calcular el coeficiente de correlación de Pearson (Coeficiente de confiabilidad de formas paralelas) Fuente principal de error Cambios en los sujetos (práctica; aprendizaje; desarrollo) Contenidos del test o de las fomas del test Muestreo de tiempo Muestreo de contenidos (no aplica a la variable en estudio) 3) Métodos basados en una única aplicación: consistencia interna. 3.a.) División por mitades Se divide el test en dos partes comparables (cantidad y nivel de dificultad de los ítems) y se correlacionan las puntuaciones de ambas mitades. Susceptible al muestreo de contenido 3.b.) Kuder-Richardson (KR) y coeficiente Alfa de Cronbach (A) Analizan la homogeneidad a través del análisis de la consistencia entre ítems o reactivos (por ej. Correlaciones ítem-total) KR se utiliza cuando los ítems se califican como aciertos y errores o sistema de medida de “todo” o “nada” (SI-NO, V-F) Alfa cuando los ítems se califican en escalas tipo Likert 4) Fiabilidad entre calificadores o evaluadores Se analiza la claridad de las pautas para la puntuación del test a través del grado de acuerdo entre evaluadores que califican protocolos a ciegas