Evaluación Formativa y el Diseño de Modelos Instruccionales D. Royce Sadler Instructional Science 18: 119-144 (1989) Abstract La teoría de la evaluación formativa es relevante para un gran espectro de resultados de aprendizajes en una amplia variedad de temas. Específicamente, se aplica donde quiera un criterio múltiple se use al hacer juicios sobre la calidad de las respuestas de los estudiantes. La teoría tiene menos relevancia para los alcances en los cuales las respuestas de los estudiantes puedan ser evaluadas simplemente como correctas o incorrectas. La retroalimentación es definida en una manera particular para iluminar su función en la evaluación formativa. Esta definición difiere en varios significados respecto de la tradicional definición que se encuentra en investigación educacional. Tres condiciones para que la retroalimentación sea efectiva son entonces identificadas y sus implicaciones discutidas. Una premisa clave es que para que los estudiantes sean capaces de mejorar, deben desarrollar la capacidad de controlar la calidad de su propio trabajo durante la producción real. Esto a su vez, requiere que los estudiantes posean una apreciación de cuan alta es la calidad de su trabajo, de que tengan la destreza evaluativa necesaria para que comparen con objetividad la calidad de lo que están produciendo en relación con una estándar más alto, y que desarrollen un conjunto de destrezas que pueden conducirles a modificar su propio trabajo. Se argumenta que estas destrezas pueden ser desarrolladas entregándoles experiencias evaluativas auténticas y directas a los estudiantes. Los sistemas de enseñanza que no hacen entrega explícita para la adquisición de experticia evaluativa son deficientes porque establecen para los estudiantes una actuación limite o de techo artificial pero potencialmente removible. Introducción Este artículo trata sobre la naturaleza y función de la evaluación formativa en el desarrollo de la experticia. Es relevante a una amplia variedad de sistemas de enseñanza en la cual el resultado del estudiante es ponderado cualitativamente usando múltiples criterios. El foco está puesto en el juicio sobre la calidad del estudiante, quién hace los juicios, cómo son hechos, cómo tendrían que ser refinados y cómo pueden ser puestos al servicio de la mejoría. El artículo es impulsado por dos intereses sobrepuestos. El primero se relaciona con la falta de una teoría general de retroalimentación y evaluación formativa en contextos de aprendizajes complejos. El segundo interés se deriva de la preocupante observación que aun cuando los profesores entreguen a los estudiantes juicios válidos y seguros sobre la calidad de su trabajo, la mejoría de sus aprendizajes no necesariamente se produce. Los estudiantes a menudo muestran poco o ningún aumento en el desarrollo a pesar de la retroalimentación regular y segura. El interés en sí mismo es si algunos aprendices fracasan al adquirir experticia por las deficiencias específicas en el sistema de enseñanza asociado con la evaluación formativa. La discusión comienza con la definición de retroalimentación, evaluación formativa y juicio cualitativo. Esto es seguido por un análisis de ciertos patrones en las interacciones estudiante-profesor en la evaluación. Un número de relaciones causales y condicionales son entonces identificadas. Estas, a su vez, son presentadas con implicancias para el diseño de sistemas de enseñanza los que son ensayados para desarrollar la habilidad en los estudiantes para ejercer un control evaluativo sobre sus propias efectividades productivas y eventualmente para llegar a ser independientes y completamente autónomos. 2 Evaluación formativa, retroalimentación y autocontrol La etimología y el uso común asocian el adjetivo formativa con formar o moldear algo. En este artículo, la palabra evaluación denota cualquier ponderación (o juicio o evaluación) de un trabajo del estudiante o su desempeño (en algunos contextos a la palabra assessment se le da un significado más delimitado y especializado; algunos lectores norteamericanos en particular pueden preferir sustituir la palabra evaluation por assessment). La evaluación formativa se refiere a cómo se juzga la calidad de las respuestas de los estudiantes (desempeños o trabajos o composiciones) y puede usarse para moldear y mejorar la competencia del estudiante interrumpiendo el azar y la ineficiencia del aprendizaje por ensayo y error. Los contrastes de la evaluación formativa están relacionados con el resumen o suma del estatus de los aprendizajes de un estudiante y están relacionados con el informe final de un curso de estudio especialmente con propósito de certificación. Es esencialmente pasiva o normalmente no tiene inmediato impacto en el aprendizaje, aunque a menudo influencia decisiones que pueden tener profundas consecuencias educacionales y personales para el estudiante. La distinción primaria entre evaluación formativa y sumativa se relaciona con sus propósitos y efectos y no con su adaptación al tiempo. Se argumenta abajo que muchos de los principios apropiados a la evaluación sumativa no son necesariamente transferibles a la evaluación formativa; la última requiere una conceptualización y tecnología distintiva. La retroalimentación es un elemento clave en la evaluación formativa y es usualmente definida en términos de información sobre cuán exitoso algo ha sido o está siendo hecho. Pocas destrezas físicas, intelectuales o sociales pueden ser adquiridas satisfactoriamente simplemente a través de hablarles a los alumnos sobre ellas. La mayoría requiere práctica en torno de un soporte que incorpore lazos de retroalimentacion. Esto usualmente incluye un profesor que sabe cuales destrezas tienen que ser aprendidas y que pueda reconocer y describir un esfuerzo bueno, mostrar un esfuerzo bueno e indicar cuanto puede un esfuerzo pobre haber mejorado. La retroalimentación puede también ser definida en términos de sus efectos más bien que de su contenido informativo: “la retroalimentación es información sobre la brecha entre el nivel actual y el nivel de referencia de un sistema de parámetros que se usa para cerrar la brecha de alguna manera” (Ramaprasad, 1983, p. 4). Esta definición alternativa enfatiza la función del control del sistema. Hablando ampliamente, la retroalimentacion provee a dos audiencias principales: el profesor y el estudiante. Los profesores usan la retroalimentacion para hacer decisiones programáticas con respecto a la prontitud del diagnóstico y remediación. Los estudiantes lo usan para monitorear las fortalezas y debilidades de sus esfuerzos de modo que los aspectos asociados con el éxito o la alta calidad puedan ser reconocidos y reforzados y los aspectos insatisfactorios, modificados o mejorados. Un importante elemento de la definición de Ramaprasad es que la información sobre la brecha entre los niveles reales e ideales de referencia es considerada como retroalimentación solamente cuando esta es usada para alterar la brecha. Si la información es simplemente registrada, pasada a una tercera parte que carece ya sea de conocimiento o de poder para cambiar el resultado, o es demasiado codificada (por ejemplo, un resumen de notas dado por un profesor) para conducir a una acción apropiada, el ciclo de acción no puede ser cerrado y quedan datos sueltos que sustituyen a una retroalimentacion efectiva. En cualquier área del curriculum donde una calificación o un puntaje asignado por un profesor constituye la única vía para los estudiantes, la atención se desvía de los juicios fundamentales y de los criterios para realizarlos. Una nota por lo tanto puede realmente ser contraproducente para propósitos formativos. 3 Al evaluar la calidad del desempeño del trabajo del estudiante, el profesor debe poseer un concepto de calidad apropiada a la tarea y ser capaz de juzgar el trabajo del estudiante en relación a ese concepto, pero aunque los estudiantes pueden aceptar juicios de los profesores sin objeción, necesitan más que resúmenes de notas si van a desarrollar inteligentemente la experticia. Las condiciones indispensables para mejorar son que el estudiante llegue a tener un concepto de calidad más o menos similar a la mantenida por el profesor, sea capaz de monitorear continuamente la calidad de lo que está produciendo durante el acto de producción misma y tenga un repertorio de estrategias o movimientos alternativos con las cuales puede llegar a cualquier punto dado. En otras palabras, los estudiantes tienen que ser capaces de juzgar la calidad de lo que están produciendo y ser capaces de regular lo que están haciendo mientras lo hacen. Como Shenstone dijo (correctamente) hace dos centurias atrás “cada buen poeta incluye una crítica; lo inverso no se puede mantener” (Shenstone, 1768, p. 172). Establecido explícitamente, por lo tanto, el aprendiz tiene que: a) poseer un concepto del estándar (o meta o nivel de referencia) por el cual ser dirigido; b) comparar el nivel real o actual del desempeño con el estándar, y c) comprometerse en una acción apropiada que conduzca a algún cierre de la brecha. Estas tres condiciones forman la red organizativa de este artículo. Tiene que señalarse que son condiciones necesarias que deben ser satisfechas simultáneamente más que en pasos secuenciales. Es sin embargo útil hacer una distinción conceptual entre las condiciones. El (macro) proceso de poner puntajes involucra a los primeros dos en lo que es esencialmente comparar un caso particular ya sea con un estándar o con uno o más otros casos. El control durante la producción involucra las tres condiciones y es, por contraste, un microproceso llevado a cabo en tiempo real. El juicio proveniente de las prácticas de evaluación comunes en muchos sujetos, la información generada sin la participación del aprendiz pero hechas asequibles al aprendiz de tiempo en tiempo (como la inteligencia) es evidentemente asumido para satisfacer estas condiciones: Un examen detallado de las tres condiciones muestra por qué esta función se hace poca para lo que es realmente necesario. Para propósitos de la discusión es conveniente hacer una distinción entre retroalimentación y autocontrol de acuerdo a la fuente de la información evaluativa. Si el aprendiz genera la información relevante, el procedimiento es parte del automonitoreo o el autocontrol. Si la fuente de información es externa al aprendiz, es asociada con retroalimentación. En ambos casos se asume que tiene que haber algún cierre en la brecha de la retroalimentación y el automonitoreo para que sea clasificada como tal. La evaluación formativa incluye ambos, retroalimentación y autocontrol. La meta de muchos sistemas de enseñanza es facilitar la transición desde la retroalimentación al autocontrol. Retroalimentación y evaluación formativa en la literatura Los autores de textos en medición y evaluación publicados durante los últimos 25 años han colocado gran énfasis en alcanzar altos contenidos de validez en las pruebas hechas por los profesores, la producción de notas confiables y la manipulación estadística o interpretación de notas. Solamente se ha puesto una atención superficial en la retroalimentacion y evaluación formativa y, entonces, es por regla general ateórica y una especie de receta. En muchos casos la retroalimentacion y la evaluación formativa (o sus equivalentes) no están mencionadas ni en los libros de texto o en el índice, aunque los libros por Rowntree (1977), Bloom, Madaus y Hastings (1981), Black y Dockrell (1984) y Chater (1984) son notables excepciones. 4 En general, una preocupación respecto de los propósitos de la evaluación sumativa ha dominado el campo en términos tanto de investigación como de guía dada a los profesores. Esta dominación está implícita en el tratamiento dado, por ejemplo, a la confiabilidad y validez. Los textos casi siempre invariablemente describen cómo la validez de las evaluaciones tiene que ser distinguida de la confiabilidad (de las notas o calificaciones). La confiabilidad es usualmente (y correctamente) considerada una condición necesaria pero no suficiente para la validez porque las medidas de juicio pueden ser confiables en el sentido de ser consistentes en el tiempo, o sobre los juicios, y aun estar fuera de la meta (o inválida). La confiabilidad es, por lo tanto, presentada como una precondición para una determinación de validez. Al discutir la evaluación formativa sin embargo la relación entre confiabilidad y validez es más apropiadamente establecida como sigue: la validez es una condición suficiente pero no necesaria para la confiabilidad. La atención a la validez de los juicios sobre trabajos individuales debiera tomar precedencia sobre la atención a la confiabilidad de las notas en cualquier contexto donde el énfasis está en el diagnóstico y en el mejoramiento. La confiabilidad tiene que seguir como corolario. La aceptación de este principio, que es enfatizado solamente por unos pocos escritores (como Nitko, 1983), tiene implicancias para la forma en que el proceso de ponderación es conceptualizado y comprendido el mecanismo del mejoramiento. En la literatura de la investigación sobre el aprendizaje, la retroalimentación es habitualmente identificada con conocimiento de los resultados (a menudo abreviado como K R), un concepto que gana considerable aceptación general a través de Thorndike (1913) por la llamada ley de efecto. Revisando la serie de estudios experimentales de aprendizaje a partir de materiales escritos (textos y programas de instrucción), Kulhavy (1977, p.221) define retroalimentación como “cualquiera de los numerosos procedimientos que son usados para decirle al aprendiz si una respuesta instruccional está bien o equivocada”. Kulik y Kulik (1988) adoptaron una definición similar en su revisión de la investigación sobre control de tiempo de la retroalimentación. Los investigadores del aprendizaje han estado particularmente interesados en el efecto de varias características de la retroalimentación (como la pertinencia, inmediatez, forma de los datos y tipos de recompensa) y en la retención del material aprendido. Las hipótesis de investigación testeadas han sido casi invariablemente la teoría de aprendizaje sobre estímulo-respuesta, siendo la meta descubrir los tipos de estímulos e incentivos que promueven un aprendizaje. Para la mayoría, esta línea de investigación ha sido confinada a los resultados del aprendizaje que pueden ser evaluados por pruebas y test de progresos, consistentes en problemas que deben ser resueltos o ítems objetivos que pueden ser contabilizados correcta o incorrectamente. Los programas de aprendizaje están concebidos como divisibles en unidades lógicas dependientes que pueden ser dominadas más o menos secuencialmente una por una. La resultante tecnología está asociada con puntajes de pruebas, ítem de diagnóstico, referencia a criterios y aprendizajes para la maestría (Mastery Learning) Otras líneas de investigación se producen en áreas específicas. De particular interés es la literatura de la evaluación de la escritura, que contiene descripciones de un número de diferentes aproximaciones, incluyen evaluación por medio de la impresión general, escalas analíticas, trazos básicos, rasgos sintácticos, legibilidad relativa y estrategia intelectual (Gere, 1980). Estos difieren no solo en el detalle procedural, sino también en sus bases teóricas. Mucho de la discusión sobre evaluación de las variadas posibilidades giran alrededor de cuál criterio debería ser usado (y cómo), cuál de las técnicas tiene la fundamentación teórica más valiosa (tal como una teoría de la composición), o cual produce el mejor acuerdo entre jueces competentes (consideraciones de confiabilidad). Un criterio alternativo para la adjudicación entre los acercamientos de evaluación es el grado en el cual la mejoría de los estudiantes mejora, ya sea como consumidores de evaluación por diferentes métodos o a través de haber sido entrenados para el uso de un particular acercamiento de evaluación por ellos mismos. Con respecto a la enseñanza de la escritura estos resultados no han 5 sido cuidadosamente explorados aunque han sido tocados por Cooper (1977), Odell y Cooper (1980) y varios otros. Aunque la línea de desarrollo en este artículo de la literatura en evaluación escrita, comparte un interés en los resultados del aprendizaje que son complejos en el sentido que los juicios cualitativos están invariablemente involucrados en la medición de los trabajos de los estudiantes. En tales aprendizajes, el desarrollo del estudiante es multidimensional más bien que secuencial, y los aprendizajes de prerrequisitos no pueden ser conceptualizados como unidades de destrezas o conocimientos netamente empacadas. El crecimiento toma lugar de muchas maneras, en muchos frentes interrelacionados en el mismo momento y es más bien continuo que un paso de cierre. Los resultados no son fácilmente caracterizados como correctos o incorrectos y es más apropiado pensar en términos de la cualidad de la respuesta del estudiante o del grado de experticia, que en términos de hechos memorizados, conceptos o contenidos adquiridos y dominados. Juicios cualitativos definidos y caracterizados Un juicio cualitativo es definido (Sadler, 1987) como un juicio que se hace directamente por una persona, siendo el cerebro de la persona tanto la fuente como el instrumento para la medición. Tal juicio no es reducible a una fórmula que pueda ser aplicada por un no experto. En general en los juicios cualitativos tienen algo o todo de las siguientes cinco características: 1. Criterios múltiples son usados al medir la calidad de los desempeños. Tanto como las dimensiones individuales representadas por los criterios, el patrón total de relaciones entre estas dimensiones es importante. En este sentido los criterios se entrelazan de modo que toda la configuración suma más que la suma de sus partes. La descomposición de una configuración tiende a reducir la validez de una valoración. 2. Al menos algunos de los criterios usados en la medición son confusos más que claros. Un criterio bien definido contiene una discontinuidad esencial la que es identificable como una transición abrupta de un estado a otro tal como de correcto a incorrecto. Puede haber dos o más estados bien definidos, pero siempre es posible en principio determinar a cuál estado se aplica. Los criterios bien definidos están involucrados en todo test objetivo (incluyendo aquellos en arte y humanidades), y la evaluación de muchos productos en matemáticas y en ciencias que involucran la resolución de problemas y la prueba de teoremas. Por contraste, el criterio confuso se caracteriza por una continua gradación de un estado a otro. La originalidad al aplicarse en un ensayo es un ejemplo de un criterio confuso porque cualquier cosa entre absolutamente no original y absolutamente original es posible. Un criterio confuso es una construcción mental abstracta denotada por un término lingüístico que no tiene un significado independiente, no absoluto y ambiguo de su contexto. Si un estudiante es capaz de, conscientemente, usar un criterio confuso al hacer un juicio, es necesario que él entienda lo que el criterio confuso significa y qué implica en la práctica. Por lo tanto, aprender estos significados contextualizados y las implicancias constituyen una importante tarea para el estudiante. 3. Del largo conjunto de criterios potenciales que podrían legítimamente ser traídos para un tipo de evaluación, solamente un relativo pequeño grupo es típicamente usado al mismo tiempo. El juez competente es capaz no solamente de hacer una valoración sino también de decidir cuáles criterios son relevantes y de sustentar un juicio completo con referencia de ellos. En muchos casos el profesor puede encontrar imposible identificar todos los criterios relevantes por 6 adelantado, puede encontrar que un grupo fijo de criterios no es uniformemente aplicable a diferentes respuestas de los estudiantes, aun cuando estas respuestas pueden ostensiblemente ser de la misma tarea. El juicio profesional cualitativo consiste en conocer las reglas para usar (y ocasionalmente romper) reglas. Los criterios para usar criterios son conocidos como metacriterios. 4. Al evaluar la calidad de las respuestas de los estudiantes a menudo no hay métodos independientes de confirmación, en el momento en que un juicio es hecho ya sea la decisión o conclusión (como distinto de la respuesta de los estudiantes) es correcta. La verdad, puede no tener sentido hablar de corrección. El corte final es otro juicio cualitativo. Para dar un ejemplo de independencia metodológica, suponer que dos ensayos tienen que ser comparados. Un acercamiento es preguntar a una persona competente que juzgue cual es de la más alta calidad con o sin especificación de criterios. Un método diferente para juzgar la calidad podría ser usar un programa de computación para analizar ciertas propiedades del texto, tales como frecuencia de comas y las proporciones de las proposiciones, conjunciones y palabras no comunes. Estos dos métodos son independientes porque usan medios esencialmente diferentes para llegar a una conclusión. Pero teniendo dos personas en vez de una, podrían no constituir métodos independientes aun si ambas personas hacen los juicios sin referencia a la otra persona y en ese sentido trabajar independientemente. 5. Si se usan números (o marcas o cifras), son asignados después que los juicios hayan sido hechos, no al revés. Al hacer juicios cualitativos, la decisión final nunca llega por contar cosas, hacer medidas físicas o componer números o buscar la pura magnitud del resultado. Los alcances de los aprendizajes complejos del tipo que son evaluados haciendo juicios directos cualitativos son comunes en una amplia variedad de temas de la escuela secundaria vocacional, posterior y alta. Estos temas incluyen inglés, lenguas extranjeras, humanidades, artes manuales artes plásticas, ciencias sociales, y artes visuales y de actuación. Ellos también son importantes en formación industrial en muchas áreas de ciencias y matemáticas, particularmente donde los estudiantes son requeridos para diseñar experimentos, formular hipótesis, o conducir investigaciones de laboratorio o involucrarse en la resolución de problemas creativos. La evaluación y el conjunto de tareas en todas estas áreas involucran a los estudiantes en sintetizar en forma activa y con ideas integrantes conceptos, movimientos y destrezas para producir respuestas extensas en algunas formas. En todas las evaluaciones de tales respuestas extensas los juicios cualitativos son de fundamental importancia. A veces la respuesta de los estudiantes, o el producto final, tiene una forma permanente, una existencia separada del estudiante. Esto es, es un artefacto con el cual se puede favorecer o permitir la inspección libremente. Los ejemplos incluyen ensayos, composiciones musicales, trabajos de soldadura, y artículos de alfarería. Si el apoyo usado en la construcción del trabajo es cuidadosamente desmantelado, el producto final puede no retener ninguna evidencia de falsos comienzos, senderos infructuosos seguidos en esta producción o (si no ha sido producido en el tiempo obligado de las condiciones de un test) el tiempo tomado para producirlo. El producto es de hecho infinitamente maleable antes de su entrega y el autor puede modificarlo en la cantidad deseada. Un tipo de contraste con el “producto” final es cuando el trabajo del estudiante es fugaz así como una actuación viva en tiempo real. Los ejemplos son una actuación dramática, un discurso, una 7 entrevista con un paciente o un cliente, una lección en la sala de clases, o un juego de tenis. Notar que al hacer un registro de una actuación viva, produce solamente un artefacto secundario el cual, aunque usado en análisis y revisión es distintivamente diferente del carácter del desempeño mismo y digamos de una película cuidadosamente editada o un álbum de discos producidos durante varios meses. El producto final artefactual y fugaz tiene diferentes demandas en el sistema de enseñanza en términos de retroalimentación evaluativa. Es también útil hacer la distinción entre productos finales de acuerdo al grado de diseño esperado. En algunos campos del aprendizaje, el producto final deseado es estrictamente especificado (por ejemplo, mediante dibujos técnicos) a tal extensión que si las habilidades constructivas de todos los productores fuera perfecta, los resultados podrían ser mas o menos idénticos. Lo que se evalúa en estas situaciones esencialmente de la habilidad productiva del estudiante. El evaluar tales resultados puede o no puede involucrar el hacer juicios cualitativos dependiendo del número y naturaleza de los criterios. En otros campos (como la escritura) el diseño es en sí mismo un componente integral de la tarea de aprendizaje, aunque puede estar tan estrechamente ligada con la producción que no aparece como una fase distinta. Aun en otros campos (como la moda y la arquitectura) el diseño mismo puede ser de consideración primordial. Dondequiera que el aspecto del diseño está presente los juicios cualitativos son necesarios y las respuestas completamente divergentes de los estudiantes podrían en principio y sin compromisos ser juzgados como de calidad equivalente. Comunicación de estándares a los estudiantes Anteriormente en este artículo, se argumentó que la transición desde la retroalimentación por automonitoreo puede ocurrir solamente cuando tres condiciones son satisfechas. La primera de esta es que los estudiantes lleguen a conocer qué es lo que constituye calidad. En un escenario de enseñanza, esto presupone que el profesor ya posee este conocimiento y debe de alguna manera compartirlo con los estudiantes. En un particular contexto, sin embargo, es a menudo difícil para los profesores describir exactamente qué es lo que están esperando o buscando, aunque tienen poca dificultad para reconocer una buen esfuerzo cuando ocurre entre las respuestas de los estudiantes. Las concepciones de los profesores sobre la calidad son típicamente mantenidas principalmente en forma inarticulada adentro de sus cabezas, como un conocimiento tácito. Por definición los profesores experimentados llevan en ellos la historia de juicios previos cualitativos y cuando los profesores intercambian trabajos de los estudiantes entre ellos o colaboran en hacer evaluaciones, la habilidad para hacer un juicio cualitativo cabal constituye una forma de conocimiento grupal. Mientras tales estándares “dentro de la cabeza” perciben un grado de estabilidad, no son inmutables, pero pueden mostrar una adaptación a las circunstancias. En particular, los profesores están a menudo fuertemente influidos por el rango de calidad que existe entre el conjunto de cosas a ser valorizados y típicamente encuentran difícil decir un juicio aislado de calidad (esto es, sin referencia a otros trabajos del estudiante). Los profesores tácitamente conocen la dificultad de descansar solamente en la memoria cuando hacen una revisión de composiciones o trabajos del estudiante antes de asignarles notas o puntajes. Esta revisión genera una base o marco de referencia negligente cuantitativa que debe ser mirada como escasamente satisfactoria y que va a contar como excelente en el contexto. Aun después de que se ha hecho una revisión, sin embargo, efectos en una escala menor de orden (especialmente severidad, dejación y superficialidad) casi invariablemente ocurren. Esto es tema de continua investigación (ver por ejemplo el trabajo de Hales y Tokar, 1975, y Daly y Dickson-Markman, 1982) y puede ser interpretado en términos de la teoría de nivel de adaptación de Helson (1959). Entonces parece que las concepciones del profesor sobre calidad y estándar existen 8 en alguna manera flexible y tranquila, hasta que son reconstituidas por una actividad evaluativa fresca. En un sistema de enseñanza, una exclusiva confianza en el conocimiento de grupo del profesor trabaja contra los intereses de los estudiantes en dos importantes maneras. En primer lugar, aunque la práctica de revisar algún ejemplo o una muestra de esfuerzos es común (y aconsejable cuando la meta es hacer una alineación de los trabajos de un estudiante en contraste con otros estudiantes), es inapropiado para la evaluación formativa porque esto legitima la noción de la base estándar que está sujeto a una determinación existencial. Estrictamente hablando todos los métodos de puntuación con énfasis en las alineaciones o comparaciones entre los estudiantes son irrelevantes para propósitos formativos. Asumiendo que la separación y estratificación de los estudiantes no es el propósito principal de la educación y enseñanza, el objetivo para cada estudiante es adquirir experticia en algún sentido absoluto y no solamente para sobrepasar a otros estudiantes. Segundo, el conocimiento de grupo mantiene el concepto del estándar relativamente inaccesible para el estudiante y tiende a mantener la dependencia del estudiante hacia el profesor para los juicios sobre la calidad de su desempeño. Cómo sacar el concepto de excelencia fuera de la cabeza de los profesores, darle alguna formulación externa y accesible al estudiante es un problema no trivial. Se trata con alguna extensión en todas partes con la rúbrica de “evaluación referida a estándares” (Sadler, 1987). Algo de este tema se resume más abajo. Dos aproximaciones a los estándares especificados son a través de informes descriptivos y modelos. Mientras ninguno de estos es suficiente en sí mismo, una combinación de descripciones verbales y unos modelos asociados, proporcionan un medio práctico y eficiente de externalizar un nivel de referencia. Los resúmenes descriptivos establecen las propiedades características de un desempeño en un nivel de calidad designado. La siguiente descripción genérica de alta calidad en un trabajo particular de escritura es un ejemplo de un informe descriptivo: Hay una lógica progresión de ideas de una hipótesis original hasta la conclusión final. Los hechos son registrados cuidadosamente y las inferencias extraídas son plausibles. El autor mantiene alguna “distancia” del contenido, alcanzando así un grado de objetividad. Todo el trabajo se mantiene bien, el uso de las palabras es apropiado y los aspectos mecánicos de la escritura tienen fallas. Los informes descriptivos pueden ser usados para especificar puntos de sujeción de un continium de calidad, y pueden incluir aspectos específicos que están presentes/ausentes (como una declaración de la hipótesis) o correcto/incorrecto (tales como el deletrear y la puntuación), junto con otros rasgos que están presentes en un mayor o menor grado (tal como “mantenerse bien”). Ellos van en parte hacia externalizar estándares, y pueden ser derivados inductivamente primero clasificando o graduando los desempeños de los estudiantes holísticamente y entonces abstraer y codificar los rasgos que distinguen a las diferentes clases. Los niveles de calidad o de desempeño pueden también ser conducidos en parte por medio de un conjunto de ejemplos clave o modelos escogidos como para ilustrar qué distingue la alta calidad de la baja. La ventaja de los modelos tanto para el profesor como para el alumno es que ellos son concretos. Se puede demostrar que el mínimo número necesario para convenir un nivel de referencia particular exclusivamente con modelos, depende del número de criterios que se usan. Mientras más criterios hay, mayor es el número de maneras en que el trabajo de una calidad determinada puede ser construido. 9 Algunos profesores pueden estar preocupados porque el uso de modelos como indicadores estándar puedan estimular a los estudiantes a copiar servilmente los mismos modelos y así estimular respuestas convergentes o estereotipadas más que originales de los estudiantes. Los estudiantes pueden llegar a estar engañados y a quedar con su creatividad detenida. Mi primer contra argumento a esta visión es que un simple ejemplo es inadecuado para transmitir un estándar de ninguna manera. Los estudiantes necesitan, en muchos contextos educacionales, que se les presenten varios modelos (para un simple estándar) precisamente para aprender que hay diferentes maneras en las cuales el trabajo de una particular calidad puede encontrar expresión. Hay a menudo una amplia variedad de objetos dentro del mismo género que son mirados como excelentes. A menos que los estudiantes lleguen a este entendimiento y aprendan como abstraer las cualidades que corren a través de los casos con diferentes rasgos superficiales pero que son juzgados equivalentes, difícilmente pueden decir que aprecian el concepto de calidad en absoluto. La segunda consideración es que la originalidad y la creatividad no son usualmente, contrario a algunas opiniones, mejor desarrolladas en un entorno completamente libre. Bailin (1987) señaló que no hay conflicto esencial entre procesos creativos y la producción de algo que es generalmente aceptado como de alta calidad. Las producciones creativas son en su mayor parte altamente disciplinadas, y son casi invariablemente producidas no por accidente o a través del riesgo al azar que se toma, sino cuando el productor es cuidadosamente versado en las características de la disciplina o género y entiende cuando y como trascender los normales límites. Conociendo los metacriterios, esto es, conocer cuando la suspensión de algún criterio, aun a veces uno principal, puede ser justificado a favor de otro, es un importante elemento en la creatividad. Pero para volver a la producción de modelos, es la experiencia de muchos profesores que si aun si algunos estudiantes hacen de hecho copias, pueden aprender algo valioso en el proceso. La emulación es un antiguo y aun casi universal método de enseñanza. Cuando los estudiantes han ganado lo que sea que puedan, en el peor de los casos a través de la copia servil, hay tiempo para el profesor de separarlos de ello. Los estudiantes desarrollan el concepto de niveles de referencia más rápidamente en algunos contextos de aprendizaje que otros. En las artes manuales, visuales y actuación, por ejemplo, los estudiantes son usualmente capaces de observar, como materia del curso, los resultados de otros esfuerzos de los estudiantes junto con las evaluaciones de los profesores de esos esfuerzos, simplemente porque el trabajo es producido en talleres, estudios, teatros y otros espacios abiertos. Los mejores ejemplos, o tal vez material ejemplar, desarrollados fuera de la sala de clases sirven naturalmente y sin obstáculo como punto de referencia. En las artes liberales y humanidades, sin embargo, los estudiantes a menudo trabajan privadamente y no llegan a ver o leer lo que otros estudiantes han producido. Lo que constituye trabajo de alta calidad entonces permanece hasta cierto grado desconocido. A un lado casos excepcionales, es irónico que los prototipos de niveles de competencias que Myers (1980) recomendaba como necesarios para los evaluadores usando métodos holísticos para la evaluación de la escritura, no fueran similarmente considerados como un requerimiento general para el aprendizaje de la escritura o la maestría en otras destrezas complejas. Estándares como metas y aspiraciones En sus formas más simples un estándar o nivel de referencia es un grado designado de desempeño o excelencia. Llega a ser meta cuando es deseado, dirigido a o con aspiración a. Algunas metas son externas (asignadas por el profesor) mientras otras se han desarrollado y adaptado por los mismos estudiantes. Un estudiante puede decidir rechazar o ignorar una meta externa, en cuyo caso es probable que tenga muy pequeño o ningún efecto en la ejecución excepto en una situación 10 coercitiva. Solamente cuando el estudiante asume la propiedad de una meta puede desarrollarse como una parte significativa en la regulación voluntaria del desempeño. Los efectos de las metas en el desempeño han sido objeto de una gran cantidad de investigaciones en las últimas décadas. Para una revisión de algunos de estos ver a Loocke, Shaw, Saari, y Latham (1981). En una amplia variedad de campos y de contextos de laboratorios, se ha encontrado que las llamadas metas duras tienen el más grande impacto en los desempeños. Las metas duras son definidas como específicas y claras más que generales o vagas, duras y desafiantes más que simples y fáciles, y más cerca de la capacidad superior de un individuo en el desempeño que en el nivel corriente del desempeño. Las metas duras actúan como foco de atención, movilizan esfuerzos y aumentan la persistencia en un trabajo. Por contraste las mejores metas que hace uno a menudo resultan no ser más efectivas que si no hubiera metas en absoluto. La discusión arriba más o menos implica que un simple estándar opera para un estudiante particular o en una particular etapa del desarrollo. En general, por supuesto, la calidad del trabajo que se espera de un estudiante se levanta seguramente con el progreso del estudiante a través de varios años de escuela o etapas de un programa de formación. Si la tasa en la cual las esperanzas se han levantado es consistentemente más grande que la tasa de mejoría, la inhabilidad del estudiante para mantener el paso, resulta en muy poco o ningún sentido del cumplimiento de éxito, aunque la mejoría puede realmente estar ocurriendo. Esto a su vez puede conducir a una situación cuando sucesivos esfuerzos se toman menos y menos seriamente, la brecha del desempeño se amplía progresivamente y llega a ser autoreforzante y el estudiante pierde valor y la efectividad cae. En algunos temas, el daño en la escala del éxito toma la forma de una graduación tanto en alcance como en complejidad. En otros reflejan diferentes estándares de una acción bien definida de calidad. En la sala de clases los estudiantes pueden necesitar acceso a un rango de estándar (no justamente el último peldaño) que provea para diferentes habilidades (si el rango corresponde a un puntaje o una designación de grado o a un certificado educacional es irrelevante). Sería útil investigar la brecha óptima entre un estado corriente del estudiante individual y la aspiración. Si el estudiante percibe que la brecha es demasiado grande, la meta pude ser mirada como inalcanzable, la misma brecha (en términos absolutos) puede sin embargo proporcionar un poderoso estímulo para otro estudiante altamente motivado y confiado, quien no podría ser eliminado por una secuencia de fallas iniciales. A la inversa, el alumno puede considerar que si la brecha es demasiada pequeña, no vale la pena el esfuerzo adicional por cerrarla. Inicialmente el profesor puede encontrar útil negociar el nivel de aspiración con el estudiante o por lo menos tomar las características individuales del estudiante en cuenta. El objetivo último tendría que ser tener al estudiante resuelto a internalizar y adoptar la meta de modo que haya alguna determinación para alcanzarla. Haciendo juicios en base a multicriterios Sumado al conocimiento de los estándares apropiados, los estudiantes tienen que ser capaces de comparar sus actuales niveles de desempeño con aquellos estándares. Esto requiere que sean capaces no solamente hacer juicios en base a multicriterios sobre su propio trabajo, sino también de hacerlos con el apropiado grado de objetividad y distanciamiento. Para proveer el soporte para la discusión en esta sección, se considera el caso especial de la evaluación en composición escrita. Esta elección ha sido hecha debido al sustancial cuerpo de literatura en el tema y debido a que los trabajos escritos requieren una amplia variedad de temas. 11 Al menos cincuenta criterios han sido identificados para evaluar la calidad de una composición escrita. Todos los criterios de la lista siguiente han sido extraídos de fuentes publicadas, aunque comentarios escritos de algunos examinadores han indicado que aun esta lista no es exhaustiva. Los criterios mismos están escritos en cursiva con los sinónimos colocados al lado. Exactitud (de hechos, evidencias, explicaciones); audiencia (sentido de); autenticidad; claridad; coherencia; cohesión; que algo esté completo; flexibilidad (con convenciones al género); comprensión, concisión (que sea sucinto); consistencia (interna); contenido (substancial); habilidad artesanal; profundidad ( de análisis, de tratamientos); elaboración; compromiso; ejemplificación (uso de ejemplos y de ilustraciones) ; expresión; figuras del discurso; actitud; sabor; flexibilidad; que sea fluido (o suave, liso); focal; global; desarrollo; gramática; la escritura a mano (legibilidad); orden de ideas (o control de ideas) lógico (o cronológico); mecánica; novedad; objetividad (o subjetividad según sea el caso); organización; originalidad (creatividad, imaginación); el hecho de parafrasear; persuasión; presentación; puntuación (incluyendo uso de letras mayúsculas); legibilidad; referencias; registro; relevancia (a la tarea o al tópico); retórica( o efectividad retórica); estructura de la sentencia; deletreo; estilo; soporte para las afirmaciones; sintaxis; tono; transición; uso correcto de palabras o frases; vocabulario; voz; uso de las palabras. Varios de estos aparecen en un número de los más populares listados, de los cuales el de Diederichs (1974) es uno de los más conocidos. Sin embargo la mayoría de los otros (aun aquellos no comúnmente usados por los profesores en general) podrán ser reconocidos como relevantes (al menos para algunos géneros de escritura por profesores de inglés. Algunos de estos criterios son sumamente sutiles (¿qué significa exactamente actitud?). Algunos podrían ser usados tan infrecuentemente que la explicación detallada es difícilmente justificada. En algunos casos se aplican a un todo, pero algunas se aplican a aspectos particulares (exactitud, soporte de afirmaciones). Otros se aplican a trabajos tomados en su totalidad (coherencia, comprehensión). Algunos son agudos (ciertos aspectos de la puntuación por ejemplo). La mayoría son confusos. Algunos se sobreponen conceptualmente con otros, (retórica, estilo, persuasión). Algunos se aplican a géneros particulares de la escritura pero no a otros (referencias). Y algunos lógicamente están incluidos en otros (la mecánica incluida en el deletreo). Muchos están tan correlacionados operacionalmente que, cuando se trata de hacer algún cambio, en algún trabajo de escritura de acuerdo con una dimensión, otras propiedades son inevitablemente afectadas al mismo tiempo. Por ejemplo, puede ser imposible cambiar el vocabulario de un trabajo de escritura sin simultáneamente afectar el tono. En suma este conjunto de criterios es grande e incluye subconjuntos que se sobreponen y se traban. Es por eso obvio que tras las acostumbradas publicadas listas (usualmente consistentes de siete a diez criterios) yace un conjunto mucho más grande de potenciales criterios que podrían ser puestos en uso siempre y cuando la necesidad se produzca. Dados este hecho y las complejas interpelaciones que existen entre los criterios, es claro que el usar todo el conjunto de una particular evaluación podría ser inmanejable. Cómo los jueces pueden lidiar con esta situación, requiere alguna investigación. La literatura en investigación en procesos de juicios humanos en una variedad de escenarios, es tanto instructiva como extensiva y no puede ser adecuadamente resumida aquí. Pero de particular interés para los investigadores ha sido la ineficiencia de los procesos de juicios instintivos y las limitaciones en la capacidad de procesar la información, lo que resulta en decisiones sesgadas o defectuosas. En términos amplios, las muchas técnicas propuestas para hacer juicios complejos caen más o menos en dos campos, cada uno de los cuales tiene sus tradiciones de investigación, sus abogados y sus detractores. Afortunadamente, no es necesario hacer una decisión firme entre uno y otro para el propósito de la evaluación formativa. Ambos pueden ser efectuados porque los trabajos de 12 evaluación pueden tomar cualquier forma apropiada y en cualquier caso están siempre abiertos a discusión, clarificación, y revisión si fuera necesario. La primera línea general de ataque es trazar e implementar un procedimiento que comienza identificando un número de criterios relevantes, medir entonces la cantidad presente en cada criterio y combinarlos en varios niveles o estimados en una medida general de méritos por medio de una fórmula. Los criterios son tratados separadamente de modo que el orden por el cual las características son consideradas es arbitrario y no tiene efecto en el resultado final. La combinación de la fórmula puede ser simple y requiere solamente la suma de componentes de marcas o escalas de componentes ponderados o no ponderados. Por otro lado, la fórmula puede ser complicada (tomando por ejemplo, forma conjuntiva o disyuntiva). Este enfoque, denominado analítico, es común al evaluar productos de consumo. El juicio global es hecho desarmando los multicriterios en criterios separados para después seguir las reglas explícitas. Si es necesario, el juicio puede ser justificado volviendo atrás y examinando la integridad de todos los pasos que condujeron a él. Al evaluar el trabajo del estudiante, el acercamiento analítico típicamente se instala en un conjunto de criterios considerados como los más relevantes del trabajo de la mayoría de los estudiantes en un particular estadio de desarrollo. Los criterios pueden ser seleccionados simplemente por un profesor con base a su relevancia lógica al trabajo, o puede resultar de estudios empíricos (usando factor o análisis de regresión) del juicio de asesores competentes. Diederich (1974) siguió el último acercamiento. Esta manera de ataques de componentes en el problema de hacer juicios basados en multicriterios, es a menudo invocado como el ideal hacia el cual los sistemas impresionísticos, holísticos e informales deberían moverse. Se asume, sin embargo, que el conjunto de criterios nominados es suficiente para todos los casos. Que los criterios no se sobrepongan y que el uso de fórmulas de combinación conduzca a un juicio que no tiene que crear conflictos (excepto, tal vez raramente) con más aproximaciones holísticas. Un argumento sustancial ha sido instalado en otra parte (Sadler, 1985) que para fenómenos complejos usar un conjunto fijo de criterios (y por lo tanto el acercamiento analítico) es potencialmente limitado. El segundo enfoque para hacer juicios complejos es el reaccionar al trabajo como un todo, haciendo un entero, o lo que Kaplan llama una evaluación configuracional (1964, p.211) primero y luego para sustanciarlo (en la medida en que sea necesario) refiriéndose a criterios separados lo que puede ser traído a un lugar preespecificado. En este acercamiento los criterios imperfectamente diferenciados están compuestos como una especie de gestalt y proyectados en una simple escala de calidad, no por medio de regla formal sino o a través de los poderes integrativos del cerebro del evaluador. Para producir una racionalidad para cada juicio holístico o global, el evaluador desenvuelve algo de un concepto unidimensional. Las evaluaciones configuracionales no requieren especificación de todos los criterios por adelantado, tampoco asumen independencia operacional entre los criterios. Al hacer juicios configuracionales, los jueces competentes seleccionan de un largo repertorio de posibles criterios, aquellos que son relevantes a un tipo particular de apreciación. Todas las propiedades de un trabajo de un estudiante que el profesor mira como normal, común o esperado (y el cual, por lo tanto, no necesita ser comentado positiva o negativamente) naturalmente tiene poca notoriedad. Wittgenstein (1967, 1974) señala algo que es obvio una vez que se ha establecido: lo ordinario no llama la atención por sí mismo “Es que todo lo que uno no encuentra conspicuo es expresión de inconspicuidad. ¿Es que lo ordinario siempre hace la impresión de ordinariez?”. Algo ordinario, por lo tanto, no es destacable. Algo fuera de lo ordinario provoca la atención. Una alta notoriedad implica que la cantidad de la propiedad del objeto o desempeño posee, es diferente de la que es considerada normal, y que la evaluación de un objeto tendría que mencionar típicamente esta característica en su explicación. 13 Una vez que un criterio ha sido identificado en una o más evaluaciones, la sensibilidad del juez a tal criterio es temporalmente aumentada y es posible que sea considerado en las subsecuentes evaluaciones. Esto es, la notoriedad potencial aumenta en el sentido descrito arriba, lo notorio de un particular criterio está relacionado con la manera que un trabajo que está siendo evaluado es percibido. Esto es, por tanto, una función de la condición de la mente del que percibe y las propiedades del objeto que está siendo evaluado. Cuál de estos potenciales criterios es aislado para mencionarlo, tiene menos que ver con lo que es detectable a través de los sentidos, que con lo que es juzgado como valioso de ser relevado. Considérense, por ejemplo, los comentarios que un profesor puede hacer en un trabajo escrito de un estudiante, particularmente aquellos que son progresivamente hechos mientras el profesor (más o menos instantáneamente) percibe puntos positivos y negativos dignos de ser destacados. Algunos comentarios (como “sí”, o “estoy de acuerdo”) no son específicos y no están relacionados directamente a la calidad del trabajo escrito. Otros comentarios son evaluativos y claramente implican criterios. Puede ser demostrado que cuando un profesor, en dos o más ocasiones separadas, hace comentarios evaluativos junto con una evaluación general de la calidad de un trabajo de un estudiante, los juicios generales pueden ser idénticos, pero los comentarios pueden diferir de ocasión en ocasión. Los comentarios pueden ser hechos en diferentes lugares en la escritura, o en el mismo punto, y pueden diferir en contenido. Puede también ser demostrado que varios evaluadores pueden estar de acuerdo en un juicio general pero por diferentes razones. Este fenómeno tiene implicancias para la evaluación formativa porque levanta el problema de si puede esperarse que los estudiantes hagan progresos sistemáticos cuando parece que los profesores operaran probabilísticamente. La solución obvia es revertir el enfoque analítico y hacer claro a los estudiantes que ciertos criterios serán usados en la evaluación. Muchos profesores siguen esta práctica distribuyendo hojas de criterios a sus estudiantes como parte de especificaciones de las tareas o (menos útiles si los criterios cambian de tarea en tarea) cuando se devuelven los trabajos evaluados. Los profesores que usan hojas de criterios regularmente, sin embargo, encuentran que mientras tales hojas son útiles, pueden conducir a frustraciones por su inflexibilidad. Las cualidades de un fragmento de trabajo no necesariamente van a ser tratadas adecuadamente usando un conjunto de criterios fijos y los profesores a menudo sienten la necesidad de acudir a criterios no estándares. Una solución más satisfactoria (y menos mecánica) al problema, es considerar el universo de criterios como dividido según noción en dos subconjuntos llamados, por conveniencia, criterios manifiestos y criterios latentes. Los criterios manifiestos son aquellos que son conscientemente esperados, ya sea mientras el trabajo está siendo hecho o mientras está siendo evaluado. Los criterios latentes son aquellos en el fondo gatillados o activados cuando la ocasión lo manda por alguna propiedad (existencial) del trabajo que se desvía de las expectativas. Cada vez que hay una seria violación del criterio latente el profesor lo invoca y es agregado (al menos temporalmente) al conjunto de criterios manifiestos que están en trabajo. Esto es posible porque los profesores competentes tienen un cuidadoso conocimiento de todo el conjunto de criterios y las reglas (no escritas) para usarlos. Pero este es precisamente el tipo de conocimiento que debe ser desarrollado en los estudiantes si van a ser capaces de monitorear sus propios desempeños con un razonable grado de sofisticación. El cambio de un criterio desde latente a manifiesto podría, por lo tanto, no ser interpretado, tanto por el estudiante como por el profesor, como trampa o como alguna suerte de aberración. Debido a la imposibilidad práctica de emplear todos los criterios al mismo tiempo es inevitable y perfectamente normal. Marshall (1958, 1968) se refiere a esto como un principio de flotación y aboga por su uso en la evaluación. En un interesante giro de la metáfora también es formada la base para el llamado enfoque Elbows (1973) centro de gravedad para apreciar los trabajos escritos de los estudiantes para propósitos formativos. 14 El arte de la evaluación formativa es generar una progresión eficiente y parcialmente reversible en la cual los criterios son trasladados para beneficio del estudiante de latentes a manifiestos y de vuelta a latentes. La meta es trabajar hacia el sumergimiento de criterios de rutina una vez que han sido tan obviamente tomados por hecho que ya no necesitan más ser establecidos explícitamente. La necesidad de reciclar el trabajo a través del profesor (para su valoración) puede ser reducida o eliminada solamente hasta el punto en el que los estudiantes desarrollen un concepto de calidad, y la facilidad para hacer juicios en base a multicriterios. Esto a su vez requiere que les sea entregada una experiencia evaluativa adecuada. Experiencia evaluativa directa Cuando los estudiantes tienen que confiar solamente en comentarios escritos de los profesores, no solamente la retroalimentación entregada en forma proposicional sino que el número de comentarios y su contenido depende de la voluntad del profesor (y del tiempo disponible) para realmente hacer los comentarios, la habilidad del profesor para expresar la retroalimentación en palabras y la habilidad del estudiante de interpretar los comentarios. El estudiante puede, por ejemplo, no saber lo que está implicado por referencias a criterios de evaluación particulares. Por ejemplo, se supone que un profesor indica a un estudiante que algo producido no es coherente como tendría que ser. Como criterio, la coherencia implica que el cómo algo se mantiene unido es importante de ser valorizado. La coherencia es claramente relevante al evaluar una variedad de cosas: una pintura, un ensayo, un segmento dramático, etc. La naturaleza de los elementos que tienen que ser coherentes (elementos visuales, conceptos e ideas, movimientos físicos) las conexiones seriales y laterales entre estos elementos y la relación de cada parte con el total, puede no ser necesariamente clara al estudiante a menos que el significado contextual de la coherencia sea explicado. Exactamente lo que implica coherencia en un contexto, no es necesariamente posible de ser transferido a otro contexto aunque la idea básica sea la misma. Debido a que mucho del conocimiento evaluativo que subyace a sus comentarios es tácito, el estudiante también tiene necesidad de desarrollar un cuerpo apropiado de conocimiento tácito para ser capaz de interpretar las explicaciones formales. Los criterios a menudo parecen elusivos parcialmente a causa de lo que un criterio significa y lo que implica para la valoración no implica necesariamente ser definido aisladamente a partir de ejemplos concretos de cosas que poseen la propiedad en cuestión, lo que en cualquier caso es solamente una de muchas propiedades. Llegar a una comprensión de la propiedad es tanto un asunto epistemológico como técnico. Para clarificar el significado y las implicancias de un criterio particular, seria útil tener un conjunto de ejemplos graduados exhibiendo más o menos tal propiedad. Pero para trabajos de arte o trabajos de literatura las variadas propiedades están inevitablemente fijas, juntas, así que uno no puede crear o coleccionar ejemplos para los cuales todas las propiedades, aparte de la una en cuestión, se mantienen constantes. Esto es en contraste con un criterio dicotomizado como la corrección para lo cual ejemplos positivos y negativos pueden ser usualmente producidos a pedido. Un novicio es, por definición, incapaz de invocar los criterios implícitos para hacer juicios refinados sobre la calidad. El conocimiento de los criterios es captado, a través de la experiencia, no definido. Se desarrolla a través de un proceso inductivo, lo que incluye un involucramiento prolongado en la actividad evaluativa compartida con y bajo el tutelaje de una persona que es algo así como un conocedor. Haciendo esto “el aprendiz inconscientemente aprehende las reglas del arte incluyendo aquellas que no son explícitamente conocidas por el profesor… El arte del conocedor puede ser comunicado por el ejemplo no por el precepto” (Polanyi, 1962, p. 53-54). En otras palabras, 15 proporcionar experiencia evaluativa auténtica guiada pero directa para los estudiantes, los capacita para desarrollar sus conocimientos evaluativos, trayéndolos así al grupo de gente capaz de determinar calidad usando múltiples criterios. También los capacita para transferir algo de la responsabilidad haciendo decisiones evaluativas desde el profesor hacia el estudiante. De esta manera los estudiantes son gradualmente expuestos al conjunto completo de criterios y a las reglas para usarlos, y así construir un cuerpo de conocimiento evaluativo. También los hace darse cuenta de dificultades que aun los profesores enfrentan al hacer tales evaluaciones y llegan a ser participantes en lugar de consumidores. Para algunos tipos de aprendizaje hay una razón fundamental de apoyo para desarrollar deliberadamente conocimiento tácito de evaluación (como distinto del explícito o proporcional) a través de la experiencia. Consideremos el caso en el que el trabajo de una estudiante consista en un desempeño musical. Si el ejecutor se enfoca demasiado conscientemente ya sea en la mecánica de la producción o el control de la producción durante el desempeño mismo, la calidad del desempeño frecuentemente sufre. Ocasionalmente la pérdida de calidad es catastrófica. El ejecutor necesita el control de la representación usando lo que Polanyi llama vigilancia subsidiaria (1962, p.55) del estado del trabajo en cualquier instante. La vigilancia subsidiaria se apoya subconscientemente en un cuerpo de conocimiento tácito evaluativo. Por contraste una vigilancia focal puede interferir con y en detrimento del desempeño. Afortunadamente, el contexto de aprendizaje en el cual los desempeños son comunes también proveen, en la mayoría de los casos, una abundancia de desempeños ilustrativos y oportunidades para valorizar. La mayoría de la discusión anterior es válida sin considerar si los criterios son vistos como discretos o entrelazados. Si los criterios son considerados separadamente, las valoraciones conciernen más con las propiedades del individuo o calidades, que con la calidad en un sentido más amplio. Hay sin embargo, dos razones para estimular a los estudiantes a hacer juicios configuracionales de calidad general también haciendo uso de un número de criterios simultáneamente. Primeramente, los estudiantes necesitan ser capaces de apreciar un trabajo como un todo para poder apreciar cuantas diferentes propiedades dentro de una clase o género (como un cuento corto) pueden ser de calidad comparable, aunque el diseño básico o los rasgos estructurales sean diferentes. La consideración separada de los criterios no necesariamente crea la experiencia de cómo ellos pueden ser puestos juntos. Parte de la adquisición de la experticia yace sobre el aprendizaje de los límites permisibles de variación al interior de una clase y diferentes clases son a menudo distinguidas menos por criterios individuales que por configuraciones características. La misma lista de criterios puede ser usada para evaluar varias clases, pero los criterios pueden requerir diferentes interpretaciones o diferir en significados relativos, de clase a clase. La habilidad para hacer valoraciones globales es, sin embargo, por esto fundamental en la comprensión de la naturaleza de diferentes clases y de ahí la producción de algo dentro de una clase particular. En segundo lugar, algo puede aparentemente satisfacer los requerimientos en todos los criterios apropiados tomados individualmente y aun ser insatisfactorio en general. Puede ser difícil explicar esta anomalía a los estudiantes a menos que los estudiantes sean confrontados con el mismo problema evaluativo. En un contexto diferente, Tversky (1969) sugirió una línea de argumento que tal vez sea útil aquí. Sugerir que existe algún déficit máximo que pudiera ser tolerado en un criterio simple o en un solo criterio antes que se note que las expectativas no han sido alcanzadas. Si en cada uno de los conjuntos de criterios el déficit es menos que el límite tolerable, y si hay un número de tales criterios, la evaluación global realmente fracasa en el test de calidad mínima por una cantidad igual a los déficit individuales. El fracaso global puede ser notado pero no los fracasos individuales. 16 La descalificación entonces es debida menos a la causa aislada identificable que a los efectos combinados de los déficit marginales. Experiencia evaluativa y especificaciones de las tareas El concepto de conjunto de conocimientos puede ser extendido mas allá de los confines de la evaluación de un trabajo aislado, al evaluar un trabajo en relación a las especificaciones de la tarea. En situaciones donde los estudiantes construyen asignaciones o papers de acuerdo a las especificaciones entregadas por el profesor, es común (y frustrante para el profesor) que una proporción de estudiantes no se dedican a la tarea entregada. El estudiante, por ejemplo, puede hacer un trabajo bueno al recontar la historia de una novela en vez de identificar el tema. Algunos profesores adoptan una política de aceptar y dar crédito parcial (deliberadamente o por defecto) por una respuesta que está bien hecha pero que está fuera de tema. En lo superficial esta práctica parece hacer una razonable concesión al estudiante trabajador por el tiempo y el esfuerzo que ha gastado. A la larga, sin embargo, destruye el conocimiento que se supone que se ha construido, y reduce el incentivo del estudiante a esforzarse con las tareas del tipo que se ha establecido realmente. Si el aprendizaje de cómo desarrollar una tarea o cómo producir algo dentro de un género establecido es un importante éxito, aferrarse a la tarea tiene que ser un criterio apropiado. Encontrar el requerimiento genérico es una precondición lógica para la valoración al hacerlo en un género particular, pero la significación de esto puede ser comprendida por los estudiantes solamente cuando ellos mismos están enfrentados con la decisión de si varios fragmentos del trabajo coinciden o no con las especificaciones de la tarea original. Además puede demostrárseles cuan común es para los estudiantes no responder a la tarea que realmente se les ha establecido. Algunas de las variaciones en la calidad de las respuestas de diferentes estudiantes a una tarea dada, pueden también deberse a deficiencias en la definición de la tarea. Una valoración de calidad se hace confusa por un factor que no tiene nada que ver con el estudiante. Las especificaciones pueden ser raras, incompletas o ambiguas. Alternativamente, pueden ser técnicamente adecuadas para el experto pero contienen términos y significados cuyas explicaciones no son comprendidas por los estudiantes. Una tarea común al enseñar literatura inglesa por ejemplo, requiere que el estudiante identifique o escriba el tema de una novela. Cualquier estudiante que no sabe lo que significa tema de una novela y cómo el tema se distingue de la historia o de la intriga, no puede abocarse a la tarea tal como está entregada. Si el tema de la novela ha sido incluido como parte del conjunto de temas de estudio en un año previo de la escuela, el profesor podría erradamente asumir que todos los estudiantes saben qué es el tema y que no necesita una atención explícita. La unión estudianteprofesor en la evaluación es, por lo tanto, útil para probar si las especificaciones de la tarea son adecuadas y modificarlas si es necesario para uso futuro. Experticia Evaluativa como contenido del currículo En la discusión de arriba de experiencia evaluativa y conocimiento, la evaluación como contenido del curriculum puede ser claramente distinguida de la evaluación como un agente del aprendizaje. La evaluación y el pensamiento crítico son importantes aspectos de muchos temas y cursos. Es común encontrar referencias a la evaluación en declaraciones de conjunto de temas, listas de objetivos y líneas generales de cursos (relacionando por ejemplo, a trabajos de literatura o artísticos, la significancia de eventos históricos o políticas económicas, o el impacto de la polución en el medio ambiente). En tales casos el estudiante está colocado en el rol de evaluador pero el sujeto de la 17 evaluación es externo a ambos, el profesor y el estudiante. Esto contrasta con el uso instrumental del conocimiento evaluativo discutido arriba, en el cual el sujeto de la evaluación es el trabajo del tipo o género que produce o desempeñan los estudiantes, (pero no es por supuesto limitado al trabajo propio de los estudiantes). La actividad evaluativa en la última situación es absolutamente conectada con la actividad constructiva y es primariamente capacitadora y facilitativa más bien que un fin en sí misma. Estrategias para cerrar la brecha En muchos contextos los estudiantes tradicionalmente han más o menos confiado en sus profesores para decirles como efectuar mejorías. Este aspecto no se trata aquí en detalle, excepto para observar que si el profesor está en posición de sugerir acciones que mejoren, el profesor debería idealmente poseer experticia productiva del tipo que pueda ser desarrollada por el estudiante. Aparte de la producción de credibilidad con los estudiantes, un profesor no tendría que ser solamente un conocedor que nunca se involucra de alguna manera disciplinada en una actividad productiva. Muchos profesores de escritura por ejemplo, no escriben prosa o poesía voluntariamente ya sea por placer o provecho aparte de cartas personales u otras necesidades. Su experiencia de escritura es ajena y limitada al campo de la sala de clases. Consiste en lanzar a los estudiantes tareas escritas de varias clases y más tarde ayudarles a mejorar sus trabajos. Esta situación anómala es paralela a la experiencia de muchos estudiantes cuya única exposición a la actividad evaluativa y editorial es la que ha recibido del profesor. Es por lo tanto también ajena. La tercera condición para automonitorear, es que los estudiantes mismos sean capaces de seleccionar un conjunto de estrategias apropiadas y llevar sus propios desempeños cerca de la meta. Este requerimiento garantiza consideración separada ya que la habilidad de evaluar su propio trabajo o el de otros no está necesariamente emparejada con la habilidad de producir. Esto es también consistente con la tesis de que la posesión de experticia evaluativa es una necesaria (pero no suficiente) condición para la mejoría. Un estudiante de Inglés por ejemplo, puede ser capaz de reconocer el tema en una novela una vez que ha sido identificado por otra persona, de distinguir entre el tema y otras características nombradas de una novela pero ser incapaz de involucrarse en un pensamiento abstracto que es necesario para identificar desde un tema superficial o temas superficiales en una novela no vista o estructurar una respuesta escrita apropiadamente. Esta habilidad para reconocer y evaluar pero no construir no es un fenómeno aislado, tampoco está limitado a la educación. Hay muchos dominios de la actividad humana donde la gente es experta en valorizar objetos existentes algunas veces en una manera altamente sofisticada, pero son por sí mismos incapaces de producir objetos del tipo en cuestión. La crítica de arte es un ejemplo, como si cualquier cosa involucrara el conocimiento como tal. Una importante tarea de la enseñanza, por supuesto, es ayudar a los estudiantes a desarrollar varias clases de experticia, incluyendo aquellas de producción. En muchos sistemas complejos y artificiales, el control es alcanzado teniendo un gran número de retroalimentación consistente en sensores, comparadores y efectores. Típicamente cada acción correctiva singular es ligada en forma determinante a una particular deficiencia. Esto también ocurre con aspectos particulares de la actividad creativa tales como el deletreo, puntuación y la exactitud de hechos al producir una composición. Mientras más compleja es la tarea y más grande la divergencia en éxitos sea aceptable, lo más probable es que la variedad de tareas puedan ser divididas para alterar la brecha entre niveles reales y de referencia y, por lo tanto, lo menos probable es que la información sobre la brecha pueda por sí misma sugerir una acción de mejoría. Los movimientos 18 tienen que ser traídos desde afuera y las elecciones pueden tener un rango de opciones o posibilidades al alcance del estudiante. Proveer al estudiante de apreciar la naturaleza de la tarea, experiencia en producción, evaluación y remediación proporciona los medios para desarrollar y mantener un conjunto de recursos. La complejidad de las tareas de aprendizaje por criterios múltiples sugiere que si el estudiante está preparado para actuar sobre un conjunto de deficiencias identificadas con una visión hacia la mejoría, una lista de debilidades puede ser tan formativamente efectiva como otra si los criterios están altamente correlacionados. Por otro lado, las mejorías hechas en alguna dirección pueden exponer defectos residuales (o aun precipitar nuevos) en otras direcciones. Por estas razones sería difícil, si no imposible, en las situaciones descritas arriba, automatizar o desarrollar un sistema basado en la computación para retroalimentación o evaluación formativa, o para generar movimientos de mejoría y procedimientos correctivos apropiados. Cualquier intento de mecanizar tales actividades educacionales y esfuerzos creativos es improbable que sea exitoso debido a que una gran cantidad de variables están involucradas, las intensas relaciones existen a menudo entre ellas, y sus esenciales borrosidades (Sadler, 1982). Pero la inhabilidad de mecanizar un sistema que ordinariamente depende pesadamente de juicios cualitativos, por supuesto que no significa que estos sistemas no puedan ser puestos a trabajar. La gente frecuentemente no solo hace parte y ampliamente está de acuerdo con juicios cualitativos, sino que también los usa como base para su propia mejoría. Por definición, algo que puede ser demostrado que ocurre es más que solamente una posibilidad teórica, y es de común conocimiento que una actividad compleja pueda ser sujeta a un alto grado de control aun cuando los procesos individuales no hayan sido comprensivamente analizados y no son completamente entendidos. El material más prestamente disponible para el trabajo de los estudiantes en experiencia evaluativa y reparadora es el de sus compañeros estudiantes. Aparte de la disponibilidad, y de proporcionar pasos que sean tomados para asegurar que el mutuo intercambio no cause fricción, resentimiento o haga que los estudiantes más débiles se sientan amenazados, humillados comprometiéndose en actividades evaluativas y correctivas con otros trabajos de otros estudiantes, tiene la ventaja que: a) b) c) d) el trabajo es del mismo tipo y se dirige a la misma tarea que la propia, los estudiantes son colocados frente a frente con un amplio rango de movimientos o soluciones a problemas creativos, de diseño y procedurales, y la exposición a estos incidentalmente expande su propio repertorio de movimientos, otros intentos de los estudiantes normalmente cubren un amplio espectro de imperfecciones incluyendo cosas inadecuadas, globales y particulares, y el uso del trabajo de otros estudiantes en un ambiente cooperativo asiste a alcanzar alguna objetividad en que los estudiantes son menos defensivos y comprometidos emocionalmente al trabajo de otros estudiantes además del suyo propio. Un aspecto práctico del uso de la coevaluación es que reduce el peso del trabajo de evaluación de los profesores. El que los acercamientos tradicionales a la evaluación formativa sean típicamente una labor intensiva, parcialmente explica la reluctancia de los profesores hacia ella. La valoración constructiva del trabajo de los compañeros está ya establecida como parte de la enseñanza normal en algunos temas y campos. Muchos profesores, por ejemplo, estimulan a sus estudiantes a intercambiar trabajos con uno de otra clase. En particular estos principios son fundacionales a ciertos acercamientos a la enseñanza de la escritura, específicamente conferencias lector escritor, revisiones de pares, y procesos de escritura. Los estudiantes desarrollan un conjunto 19 de estrategias aprendiendo a refinar y revisar su propio trabajo en cooperación con el profesor y poniendo en orden y ayudando a otros estudiantes a mejorar los suyos (Beaven, 1977; Pinko y Radzik, 1980; Thompson, 1981; Chater, 1984). “Los estudiantes que llegan a estar conscientes de lo que hacen explicando sus decisiones a otros estudiantes, también aprenden nuevas estrategias para resolver problemas de escritura. Y debido a que los estudiantes llegan a ser progresivamente más independientes y autoconfiados como escritores necesitan evaluar cada trabajo de otros y el suyo frecuentemente, una práctica que enseña crítica constructiva, lectura cuidadosa y reescritura” (Lindemann, 1982, p.234). Boud (1986) reporta similares hallazgos en la educación superior cuando la autoevaluación y coevaluación han sido construidas en procedimientos instruccionales para estudiantes de leyes, ingeniería y arquitectura. Es claro que el construir provisiones explícitas para experiencias evaluativas en un sistema de enseñanza capacita a los estudiantes para desarrollar destrezas de autoevaluación y estrategias de cierre de brechas simultáneamente y, por lo tanto, moverse hacia el autocontrol. Alguna resistencia a esta proposición puede sin embargo ser esperada. Factores que militan contra el autocontrol La falta de oportunidades que se les da típicamente a los estudiantes de hacer juicios cualitativos apropiados, sugiere el supuesto que solamente los profesores tienen las destrezas y experticia para evaluar el trabajo del estudiante y que esta destreza no es transferible a los estudiantes. La taxonomía influyente de Bloom (1956) coloca a la evaluación al tope de la jerarquía de destrezas cognitivas y algunos teoricistas del aprendizaje mantienen que los estudiantes típicamente no (o tal vez no pueden) se comprometen en pensamiento abstracto de alto nivel cuando son jóvenes. Aunque la exacta posición de la evaluación en la jerarquía de Bloom es debatible, casi siempre requiere pensamiento abstracto y está situada sobre el conocimiento, comprensión y la aplicación. Esto puede dar la impresión de que la evaluación es algún tipo de actividad esotérica en el que participan solamente adultos o expertos. Si es así se ignora el hecho de que aun los niños (ciertamente en sus horas fuera de la escuela) continuamente participan en actividad evaluativa y si se les pregunta pueden a menudo producir explicaciones complementarias pero razonablemente correctas para sus juicios. Algunos profesores se sienten amenazados por la idea de que los estudiantes puedan participar abiertamente en hacer juicios evaluativos cooperativamente. Una evaluación que se traduzca a una nota es usada por muchos profesores como herramienta para control o modificación de conducta, para premios o castigos. Para sacar algo de la responsabilidad para evaluar de los profesores y colocarlas en las manos de estudiantes, puede ser un potencial detrimento de la autoridad del profesor. Un interés menos patológico es que muchos profesores vean a la evaluación como la una responsabilidad primaria, porque constituye parte de su conocimiento especializado y la experticia que ellos han adquirido como profesionales. La evaluación es mirada como estrictamente una prerrogativa de los profesores: los coloca aparte de sus estudiantes, y hasta en alguna extensión de los padres y del resto de la sociedad. Parte de la responsabilidad de los profesores es seguramente, sin embargo, descargar este conocimiento evaluativo de modo que los estudiantes eventualmente lleguen a ser independientes del profesor y participen inteligentemente y monitoreen su propio desarrollo. Podría decirse que el conocimiento del grupo de los profesores, podría consistir menos en saber como evaluar el trabajo de los estudiantes y más en conocer maneras de descargar el conocimiento del peso evaluativo en los estudiantes. Aparte de factores personales, la evaluación formativa pueda ser inhibida por ciertas circunstancias fuera del control del profesor. Los exámenes basados en la escuela o internos hacen a menudo uso 20 de la llamada evaluación continua (o progresiva o periódica). Uno de los argumentos a favor de la evaluación continua es que una serie de evaluaciones son hechas en un periodo de tiempo que tiende a reducir los altos niveles de ansiedad experimentados por algunos estudiantes bajo exámenes tipo “hacer o quebrar” de fin de curso (puede, por supuesto, crear una diferente forma de estrés). Otro argumento es que la evaluación continua permite más amplios y variados ejemplos de conocimientos y destrezas de los estudiantes. Un tercer argumento es que la evaluación continua proporciona frecuente retroalimentación sobre el progreso. La evaluación continua no puede, sin embargo, funcionar formativamente cuando es acumulativa, esto es, cuando cada ensayo o trabajo hecho por los estudiantes se valora con nota y las notas son juntadas al final del curso. Esta práctica tiende a producir en los estudiantes la idea que si el trabajo no va a contribuir al total, no vale la pena hacerlo. La meta de más largo alcance por excelencia puede por lo tanto ser falseada a causa de la dirección del acredito acumulativo. La opción de rehacer el trabajo con propósitos de mejoría llega a ser una proposición poco atractiva, y también levanta el asunto de juego limpio a otros estudiantes si un profesor trabaja con algunos de ellos (pero tal vez no con otros) en ayudarlos a levantar su estándar de desempeño. Cualquier trabajo que se forma como base para una nota de curso es normalmente esperado, por supuesto, que sea producido por el estudiante sin ayuda del profesor. Un factor posterior sigue de la política ampliamente extendida de dividir cursos de grado de acuerdo a una distribución estadística predeterminada. Esto es a menudo considerado como el mejor o solamente un método práctico de mantener los estándares. Esta curva de gradación, sin embargo, no permite el reconocimiento de las mejorías en los desempeños en términos absolutos; crea un juego suma cero, estimula la competitividad entre los estudiantes y es contrario a la meta de genuina mejoría para todos los estudiantes. Un factor final esta asociado con la estructura del curriculum. Ha habido la tendencia en décadas recientes a dividir largos cursos en módulos para proporcionar flexibilidad curricular para los estudiantes. Cada unidad es diseñada de modo que pueda permanecer sola hasta una extensión sustancial y cada una es enseñada en un solo periodo, semestre o aun en unas pocas semanas. Los estudiantes compilan el curriculum acostumbrado juntando una colección de unidades. Para propósitos de evaluación formativa, el largo de cada unidad es a menudo no lo suficientemente largo para que los estudiantes entreguen el trabajo, lo tengan evaluado, rehagan el trabajo por un esfuerzo en llegar a ser eficientes, y finalmente entregar un trabajo diferente pero bien producido para una calificación. Simplemente no hay tiempo para hacerlo. Conclusión Para mejorar su desempeño, los estudiantes necesitan saber cuánto están progresando. La retroalimentación es comúnmente definida en términos de información sobre la calidad sobre su desempeño (conocimiento de los resultados). Pero en muchos contextos educacionales, los estudiantes producen trabajos que no pueden ser evaluados simplemente como correctos o incorrectos. La calidad del trabajo está determinada por el juicio humano directo cualitativo. La tradicional definición de retroalimentación es entonces demasiado estrecha para ser de mucha utilidad y en este artículo una concepción más apropiada se presentó. Requiere conocimiento del estándar o meta, destrezas en hacer comparaciones con multicriterios, y el desarrollo de maneras y medios para reducir la discrepancia entre lo que se produce y a lo que se ha tratado de llegar. 21 La mejoría puede por supuesto ocurrir si el profesor proporciona consejo reparador, detallado, y el estudiante lo sigue. Esto sin embargo, mantiene la dependencia del estudiante con respecto al profesor. La aproximación alternativa que está descrita y aconsejada en este artículo es para que los estudiantes desarrollen destrezas en evaluar la calidad de su propio trabajo, especialmente durante el proceso de producción. La transición de la retroalimentación que está siendo entregada por el profesor al estudiante que se autoevalúa no es algo que llegue automáticamente. Para una importante clase de éxito del aprendizaje, el sistema de enseñanza debe hacer provisión explícita para que los mismos estudiantes adquieran experticia evaluativa. Se argumenta que entregar auténtica experiencia evaluativa es una condición necesaria (instrumental) para el desarrollo de la experticia evaluativa y por lo tanto para un inteligente automonitoreo. Es insuficiente para los estudiantes confiar en los juicios evaluativos hechos por el profesor. Las prácticas recomendadas no son radicalmente nuevas, y ya son empleadas en algunos sistemas de enseñanza. Empíricamente se sabe que producen resultados. Lo que este artículo proporciona es una perspectiva teórica de estas prácticas y un argumento para su generalización en cualquier sistema de enseñanza diseñado para producir éxitos al estudiante, los que son juzgados cualitativamente usando múltiples criterios. El corolario es que no diseñar auténticas experiencias evaluativas en el sistema de enseñanza coloca un techo artificial al desempeño a muchos estudiantes o limita su tasa de aprendizaje.
Puede agregar este documento a su colección de estudio (s)
Iniciar sesión Disponible sólo para usuarios autorizadosPuede agregar este documento a su lista guardada
Iniciar sesión Disponible sólo para usuarios autorizados(Para quejas, use otra forma )