Validación de instrumentos para medir conocimientos Lucero, Irene - Meza, Susana Departamento de Física - Facultad de Cs. Exactas y Naturales y Agrimensura - UNNE. Av. Libertad 5450 - (3400) Corrientes - Argentina. Tel./Fax: +54 (03783) 473931 int. 135 E-mail: [email protected] INTRODUCCION Y PLANTEO DEL PROBLEMA En el campo de la enseñanza de la Física, la Teoría Constructivista y el modelo del aprendizaje significativo de Ausubel, constituyen los marcos referenciales de mayor consenso actualmente. Así es, que los educadores buscan estrategias didácticas de enseñanza que pongan al alumno como protagonista, convirtiéndolo en actor de su propia formación. Aprender significados es realizar un proceso de construcción, cambiando las ideas que se tienen, interactuando éstas con la información nueva. Ese proceso de construcción implica ajustes, generalizaciones, discriminaciones y reestructuraciones de los conocimientos anteriores. "En la historia de los aprendizajes personales, como en la de las teorías científicas, se producen cada cierto tiempo revoluciones conceptuales que reorganizan y cambian radicalmente nuestra forma de entender un dominio dado de conocimiento" (Pozo Municio, 1998). Es por ello que una de las condiciones necesarias para que se produzcan aprendizajes significativos es tener en cuenta los conocimientos previos de los alumnos. Todo proceso de enseñanza aprendizaje lleva necesariamente aparejado un proceso de evaluación. Al decir evaluación surgen vocablos ligados a él, tales como apreciar, estimar, atribuir valor o juzgar. Al docente le interesa evaluar, tanto los conocimientos previos, como los conocimientos aprendidos, de los estudiantes. Generalmente, para poner en evidencia esos conocimientos se aplica algún test para indagar las preconcepciones o pruebas de lápiz y papel que contienen situaciones problemáticas, dado que la resolución independiente de problemas es una de las formas de poner en evidencia que los aprendizajes significativos. Es así que se hace necesario diseñar instrumentos adecuados para tal fin. Es sabido que, en cualquier tipo de investigación, la validez y confiabilidad de los instrumentos de recolección de datos son cuestiones fundamentales para la calidad de los resultados obtenidos y, en la mayoría de las veces, en las investigaciones en enseñanza desarrolladas en los propios contextos instruccionales, donde el accionar cotidiano se transforma en la fuente de datos por excelencia, no se hace un análisis tan riguroso de la consistencia interna de los instrumentos utilizados. En este trabajo se muestra un procedimiento de validación para instrumentos utilizados en enseñanza, uno que pretende medir conocimientos previos y otro de evaluación, elaborado como examen parcial de asignatura, destinado a medir el aprendizaje de los estudiantes, a través del rendimiento académico alcanzado. MARCO TEORICO La evaluación de aprendizajes implica reflexión y análisis sobre qué y cómo aprenden los estudiantes. La evaluación tiene distintos momentos, donde hay que tomar decisiones, pero es un proceso permanente de reflexión. Según este momento en el cual la evaluación tiene lugar, dentro de la secuencia didáctica, se puede hablar de evaluación diagnóstica o inicial, evaluación formativa o procesual y evaluación sumativa o final. Los test diagnósticos que se usan al iniciar una asignatura, actúan como instrumentos para realizar evaluación inicial. Los exámenes parciales, tal como están instaurados en la normativa de las instituciones universitarias en general, actúan como instancias de evaluación sumativa que miden el logro de aprendizajes de los alumnos, en un lapso determinado de tiempo, principalmente en el plano cognitivo. Con esta idea, las situaciones problemáticas de un parcial pueden cumplir el papel de instrumento de recolección de datos, si se está interesado en medir el aprendizaje de los estudiantes. Usar un test elaborado para diagnóstico inicial o cuestionario de examen como instrumento de recolección de datos lleva necesariamente a controlar la confiabilidad y validez de los mismos. Estas dos condiciones son cruciales, porque si las herramientas de recolección usadas son defectuosas, hay que olvidarse del éxito de la investigación, dado que el tratamiento estadístico no conseguirá el milagro de transformar datos de mala calidad en buenos resultados. La validez se refiere al grado en que el instrumento mide lo que se pretende medir. La confiabilidad se refiere a la confianza que se concede a los datos. Esta última está relacionada con la estabilidad o constancia, con la coherencia o consistencia interna y la precisión de las medidas que se obtienen con el instrumento. Un referente fundamental en procedimientos de validación de instrumentos para medir aprendizajes es el libro “Instrumento de Pesquisa em Ensino y Aprendizagem” de Moreira y Lang Silveira (l993). De acuerdo con ellos, la consistencia interna del instrumento se obtiene calculando los coeficientes de correlación Pearson ítem - total, para depurar el instrumento y estimando la fiabilidad a través del coeficiente alfa de Cronbach. Para poder validar el cuestionario es necesario aplicar como mínimo a una cantidad de individuos igual a 5 veces el número de ítemes a efectos de evitar obtener correlaciones ítem – total espuriamente altas, que pueden aparecer cuando el número de ítemes y el de individuos que responde la prueba, son semejantes. Los coeficientes de correlación de Pearson ítem- total, entre el puntaje de cada pregunta individual (variable independiente X) y el dado por el puntaje total (variable dependiente Y) indican la magnitud y dirección de la relación entre las variables y proporcionan una medida de la fuerza con que están relacionadas estas dos variables. Su valor puede oscilar entre + 1 y -1. Los ítemes cuyos coeficientes de correlación ítem - total arrojan valores menores a 0,35 deben ser desechados o reformulados (correlaciones a partir de 0,35 son estadísticamente significativas más allá del nivel del 1 %) ( Cohen – Manion, 1990), dado que una baja correlación entre el ítem y el puntaje total puede deberse a diversas causas, ya sea de mala redacción del ítem o que el mismo no sirve para medir lo que se desea medir. La depuración de los ítemes tiene como consecuencia aumentar el coeficiente de fiabilidad del instrumento. La confiabilidad del instrumento se estima a través del coeficiente α de Cronbach. La ventaja de este coeficiente reside en que requiere de una sola administración del instrumento de medición. Puede tomar valores entre 0 y 1, donde 0 significa nula confiabilidad y 1 representa la confiabilidad total. El coeficiente α de Cronbach puede ser calculado sobre la base de: a) la varianza de los ítemes o b) la matriz de correlación de los ítemes (correlación de Pearson entre todos los ítemes, todos contra todos, de a pares), con las siguientes fórmulas: a) α = K ∑ Vi K − 1 Vt donde: K es el número de ítemes, Vi es la varianza de cada ítem y Vt es la varianza del puntaje total. b) α= N pr 1 + pr ( N + 1) donde: N es el número de ítemes y pr es el promedio de las correlaciones entre ítemes, que se calcula incluyendo cada coeficiente de correlación una sola vez y excluyendo los coeficientes entre las mismas puntuaciones. El valor del coeficiente de Cronbach aumenta cuando las correlaciones ítem – total son altas, por ello, mejores correlaciones, dan mayor fiabilidad al instrumento. El coeficiente de fiabilidad es afectado por la heterogeneidad de los individuos que contestan la prueba; cuanto más heterogéneo es el grupo de encuestados, mayor es el coeficiente de fiabilidad. Así entonces, este coeficiente no es una propiedad exclusiva del instrumento en si, sino que es del instrumento para un determinado grupo de personas en una determinada situación (Lang Silveira, 1993). El coeficiente de fiabilidad representa la fracción de variabilidad observada entre los individuos que es verdadera, no atribuible a los errores de medida. El valor mínimo aceptable del coeficiente de fiabilidad depende de la utilización que se hará del instrumento. En los casos de puntajes generados por instrumentos para comparar grupos a través de diferencias de medias, se toma 0,7 como valor mínimo aceptable (Lang Silveira, 1993). METODOLOGIA La validación de los instrumentos se llevó a cabo mediante dos procedimientos complementarios: una evaluación cualitativa, y la determinación de la consistencia interna. La validación cualitativa fue concretada a través de la consulta a expertos: otros docentes especialistas actuaron como jueces externos que juzgaron críticamente los enunciados permitiendo realizar los ajustes necesarios. La consistencia interna se determinó de acuerdo con la bibliografía referenciada en el marco teórico. Se presentan aquí dos tipos de cuestionarios, uno para medir conocimientos previos que consta de ítemes de elección múltiple y de respuestas cortas y otro para medir aprendizajes de determinados contenidos, que consta de situaciones problemáticas con ítemes de resolución cuantitativa y cualitativa de justificación de repuestas, que fueron utilizados en investigaciones referidas al análisis de estrategias didácticas que favorezcan el aprendizaje significativo. Para evaluar cuantitativamente un cuestionario de situaciones problemáticas que involucran respuestas explicativas o diferentes soluciones algebraicas, se hace necesario especificar claramente los criterios para la corrección y asignación de puntajes. El test para determinar conocimientos previos respecto del tema elegido para el estudio: movimiento en un campo homogéneo fue confeccionado tomando como referencia tests tradicionales de indagación de preconcepciones y adaptaciones de los mismos realizadas por otros autores. Clement, (1982, 1983 a) citado en Pozo (1987); Driver y otros (1985) citado en Carretero (1997); McCloskey (1983 a, b) citado en Pozo (op cit)., (Lang Da Silveira y otros (1992). En el test se consideraron tres núcleos temáticos que conformaron tres subtests, cada uno de ellos construido por diversos ítemes, cada uno con su correspondiente puntaje, que genera a su vez un puntaje total particular para cada alumno. La división del test se realizó sobre la base que la respuesta a cada ítem es, desde el punto de vista teórico, el indicador del constructo a ser medido y de esta manera, al considerar en cada subtest un aspecto determinado, los ítemes que lo integran serían homogéneos. Los subtests denominados 1,2 y 3, están destinados respectivamente, a indagar sobre el manejo de magnitudes de uso corriente en Mecánica, establecer el conocimiento que los alumnos poseen sobre las posibles fuerzas en un cuerpo cuando éste se halla en distintas contextos, a indagar sobre los conocimientos respecto de la velocidad y aceleración en las situaciones presentadas en el subtest 2 y la tarea a realizar consiste en respuesta a cuestiones e identificación de distintos fenómenos, movimientos, trayectorias, fuerzas actuantes, velocidad, aceleración, etc. Los criterios empleados para la asignación de puntaje se indican a continuación: Núcleo temático. Criterios de puntuación 1 Magnitudes: se asigna un punto por cada respuesta correcta. 2 Fuerzas : Un punto por cada alternativa elegida que coincida con la concepción científica y un punto por cada fuerza actuante que es explicitada correctamente 3 Velocidad, aceleración: Un punto por cada alternativa elegida que coincida con la concepción científica vigente. TOTAL TEST N° ítemes 5 Puntaje total subtests Mínimo Máximo 0 15 9 0 18 5 0 5 19 0 38 El test fue aplicado a 141 alumnos y se calcularon las correlaciones item-total para cada uno de los subtest y para el total del test (subtest1+subtest2+subtest3), de manera similar se realizó el cálculo del coeficiente de Cronbach, obteniéndose para el total del test un valor de 0,797 considerado aceptable. Para el cuestionario referido a la medición de aprendizajes de los temas interferencia y polarización de la luz, aplicado en el 2° parcial de Física II (Optica y Sonido), los puntajes se asignaron de acuerdo a la lectura de cada una de las variables consideradas en el estudio, en cada uno de los ítemes, de acuerdo al valor nominal que asumían. El cuadro siguiente resume estos conceptos: Variable Valor Variables relevantes: habilidad del alumno para reconocer y seleccionar las Bien magnitudes físicas involucradas en la situación problemática dada Mal Solución: si el alumno da la solución correcta al problema planteado Bien Regular Mal Fundamentación: capacidad del alumno para fundamentar su estrategia de Bien solución o explicar la situación involucrando los conceptos físicos necesarios Regular Mal Puntaje 1 0 2 1 0 2 1 0 Estas variables seleccionadas no son otras que aquellas que dan cuenta de los pasos inelidubles para resolver un problemas y que, si el alumno los hace correctamente, estaría poniendo en evidencia el aprendizaje significativo de los contenidos involucrados en la situación dada. El cuestionario aplicado constaba de problemas que conformaban 7 ítemes y en cado uno de ellos se leyeron las tres variables. Fue necesario especificar claramente, para cada ítem, el criterio para considerar bien, regular o mal. No se dan aquí éstos, por razones de espacio. El "puntaje del ítem" se obtuvo sumando los puntajes de cada variable en el ítem considerado, de acuerdo al valor nominal que asumieron. Así el puntaje de cada ítem puede oscilar entre 0 y 5 puntos. El puntaje total de la prueba es el resultado de la suma de los puntajes totales de cada ítem. Como la prueba consta de 7 ítemes, el puntaje total varía entre 0 y 35 puntos. Este puntaje es la calificación total de la prueba y representa el valor de la variable rendimiento, constituyendo una medida del conocimiento que posee el estudiante, tal como lo expresa Lang Silveira (1993). La prueba fue aplicada a 57 estudiantes y con los puntaje hallados se calcularon, con un programa computacional de estadística bajo entorno Windows, los coeficientes de correlación de Pearson ítem- total y el coeficiente de fiabilidad alfa de Cronbach. Como todas las correlaciones superaron el valor de referencia 0,35, y el coeficiente Cronbach arrojó un valor superior a 0,7, la prueba fue considerada tal como se la construyó. CONSIDERACIONES FINALES De ninguna manera pretendemos reivindicar originalidad en cuanto al procedimiento llevado a cabo en este trabajo. Es nuestra intención contribuir a la literatura especializada presentando ejemplos del uso de instrumentos de recolección de datos y su proceso de validación, poner en evidencia que cuando se utilizan diversos tests o problemas para evaluar aprendizajes no es fácil lograr objetividad en las puntuaciones. Hay que ser conciente que según el ítem que se emplee, el criterio adoptado para la corrección puede ser más o menos riguroso y la claridad en los criterios de corrección es imprescindible. No obstante, si se realiza el análisis de la consistencia interna, se puede dar una confiabilidad mayor a los datos obtenidos. En cuanto al instrumento a emplear para la recolección de datos, cualquier actividad que se realice en el aula puede ser considerada un instrumento de recolección de datos, siempre y cuando haya sido sometida a un proceso de validación. Los problemas planteados como examen podrían funcionar como un instrumento de recolección de datos, sometiéndolo a un análisis de validez y confiabilidad cuidadoso que requiere de criterios claros y precisos para la corrección de las soluciones presentadas por los estudiantes. De acuerdo con la revisión realizada por Doran y otros (1994), se mantienen dos posiciones complementarias en el área de la investigación sobre instrumentos y técnicas para evaluar el aprendizaje de los estudiantes: ″Si un instrumento con aceptable validez existe y es aplicable en el dado contexto de investigación, entonces debería ser usado en preferencia al desarrollo de otro instrumento que debe ser él mismo sometido a un riguroso tratamiento de confiabilidad y validez" (Stever y otros, 1989, citados por Doran y otros, 1994) (p 393). Shymansky y Kyle (1988) (en Doran y otros) sostienen el desarrollo de nuevos instrumentos para responder a nuevos interrogantes. Y entre las dos anteriores posiciones puede considerarse otra alternativa como es la de diseñar un test con ítemes que pertenecen a instrumentos ya validados. Sin embargo, adhiriendo a la posición de Stever o a ésta última, es necesario tener presente que un test ya validado no implica obtener datos confiables en el nuevo contexto en el que se aplica. REFERENCIAS BIBLIOGRAFICAS AUSUBEL- NOVAK- HENNESIAN- 1991- Psicología educativa: un punto de vista cognoscitivo. (Edit. Trillás, México)- , citado en GANGOSO, ZULMA- l999- Resolución de problemas en Física y aprendizaje significativoPrimera parte: revisión de estudios y fundamentos. Revista de Enseñanza de la Física. Vol. 12. N° 2. P- 6 COHEN, L. – MANION, L. – 1990- Métodos de Investigación Educativa- (Edit. La Muralla, España) DORAN, R. L.; LAWRENZ, F. y HELGESON, S. - Reserach on assesment in science. In Gabel, D. L. 1994. Handbook of research on science teaching and learning (Macmillan). USA. HERNANDEZ SAMPIERI, R. - FERNANDEZ COLLADO, C.- BAPTISTA LUCIO, P- 1997- Metodología de la Investigación- (Edit. Mac Graw Hill- Colombia) LANG DA SILVEIRA, F.; MOREIRA, M. A. Y AXT, T1992- Estrutura interna de testes de conhecimento em física: um exemplo em mecanica. Enseñanza de las Ciencias. 10 (2). LUCERO, I. – 2002 - El análisis cualitativo en la resolución de problemas de Física y su influencia en el aprendizaje significativo. Tesis del Magister en Metodología de la Investigación Científica y Técnica. UNER. MEZA, Susana – 2001 – Análisis de actividades evaluativas como instrumento de aprendizaje significativo en Física. Tesis del Magister en Metodología de la Investigación Científica y Técnica. UNER MOREIRA, M.A. - LANG DA SILVEIRA, F. 1993- Instrumento de pesquisa em ensino y aprendizagem(EDIPUCERS- Porto Alegre- Brasil) POZO MUNICIO, JUAN I. 1998- Aprendices y maestros- La nueva cultura del aprendizaje. (Alianza Editorial, Madrid- España) SALKIND, NEIL J. 1997- Métodos de Investigación- (Prentice Hall- México) WAYNE, DANIEL- 1995- Estadística con aplicaciones a las Ciencias Sociales y a la Educación. (Edit. Mc Graw Hill, Colombia)