COMPARISON OF STUDENT EVALUATIONS OF TEACHING 1 Comparación de las evaluaciones de los estudiantes de la enseñanza con la administración en línea y en papel Claudia J. Stanny1 and James E. Arruda2 1 Center for University Teaching, Learning, and Assessment, University of West Florida 2 Department of Psychology, University of West Florida Nota del autor La recopilación de datos y el análisis preliminar fueron patrocinados por la Oficina del Preboste y el Grupo de Trabajo de Evaluación de la Instrucción de los Estudiantes. Parte de estos resultados se presentaron en forma de póster en el Instituto Nacional de Enseñanza de Psicología 2016, St. Pete Beach, Florida, Estados Unidos. No tenemos ningún conflicto de intereses que revelar. La correspondencia relativa a este artículo debe dirigirse a Claudia J. Stanny, Center for University Teaching, Learning, and Assessment, University of West Florida, Building 53, 11000 University Parkway, Pensacola, FL 32514, United States. Email: [email protected] COMPARISON OF STUDENT EVALUATIONS OF TEACHING 2 Resumen Cuando las instituciones administran las evaluaciones de la enseñanza de los estudiantes (SET) en línea, las tasas de respuesta son más bajas en relación con la administración en papel. Analizamos las puntuaciones promedio de SET de 364 cursos impartidos durante el trimestre de otoño en 3 años consecutivos para determinar si al administrar los formularios de SET en línea para todos los cursos del 3er año se modificaba la tasa de respuesta o la puntuación promedio de SET. Para controlar las características del instructor, basamos el análisis de los datos en los cursos en los que el mismo instructor enseñó el curso en cada uno de los tres trimestres de otoño sucesivos. Las tasas de respuesta de las clases presenciales disminuyeron cuando la administración de SET se realizó sólo en línea. Aunque los puntajes promedio de SET fueron confiablemente más bajos en el tercer año que en los dos años anteriores, la magnitud de este cambio fue mínima (0,11 en una escala de cinco puntos similar a la de Likert). Discutimos las implicaciones prácticas de estos hallazgos para la interpretación de las EEF y el papel de las EEF en la evaluación de la calidad de la enseñanza. Palabras clave: enseñanza universitaria, evaluación de la enseñanza por parte de los estudiantes, administración en línea, tasa de respuesta, evaluación COMPARISON OF STUDENT EVALUATIONS OF TEACHING 3 Comparación de las evaluaciones de los estudiantes de la enseñanza con la administración en línea y en papel Las calificaciones de los estudiantes y las evaluaciones de la instrucción tienen un largo historial como fuentes de información sobre la calidad de la enseñanza (Berk, 2013). Las evaluaciones de la enseñanza por parte de los estudiantes (SET) a menudo juegan un papel importante en las decisiones de alto riesgo sobre la contratación, promoción, titularidad y premios de la enseñanza. En consecuencia, los investigadores han examinado las propiedades psicométricas de las SET y el posible impacto de variables como la raza, el género, la edad, la dificultad del curso y las prácticas de calificación en las calificaciones promedio de los estudiantes (Griffin et al., 2014; Nulty, 2008; Spooren et al., 2013). También han examinado la forma en que los responsables de la adopción de decisiones evalúan las puntuaciones de las pruebas de aptitud física (Boysen, 2015a, 2015b; Boysen et al., 2014; Dewar, 2011). En los últimos 20 años, se ha prestado considerable atención a las consecuencias de la administración de las EEF en línea (Morrison, 2011; Stowell et al., 2012) porque las bajas tasas de respuesta pueden tener implicaciones en la forma en que los responsables de la toma de decisiones deben interpretar las EEF. Administración en línea de las evaluaciones de los estudiantes La administración de SET en línea crea múltiples beneficios. La administración en línea permite a los instructores dedicar más tiempo de clase a la instrucción (frente a la administración de formularios en papel) y puede mejorar la integridad del proceso. Los estudiantes que no están presionados por el tiempo de clase tienen más probabilidades de reflexionar sobre sus respuestas y escribir comentarios más detallados (Morrison, 2011; Stowell et al., 2012; Venette et al., 2010). Dado que la agregación electrónica de las respuestas evita la larga tarea de transcribir los comentarios (a veces escritos con una letra difícil), los instructores pueden recibir datos resumidos y comentarios textuales poco después del cierre del trimestre en lugar de semanas o meses después del trimestre siguiente. COMPARISON OF STUDENT EVALUATIONS OF TEACHING 4 A pesar de los numerosos beneficios de la administración en línea, los instructores y estudiantes han expresado su preocupación por la administración en línea de los SET. Los estudiantes han expresado su preocupación por el hecho de que sus respuestas no sean confidenciales cuando deben utilizar su número de identificación de estudiante para ingresar en el sistema (Dommeyer et al., 2002). Sin embargo, las violaciones de la confidencialidad pueden producirse incluso con la administración en papel. Por ejemplo, un instructor podría reconocer la letra de los estudiantes (una de las razones por las que algunos estudiantes no escriben comentarios en los formularios en papel), o un instructor podría permanecer presente durante la administración del SET (Avery et al., 2006). En clase, la administración basada en papel crea expectativas sociales que pueden motivar a los estudiantes a completar los SET. Por el contrario, los estudiantes que se preocupan por la confidencialidad o no comprenden cómo los instructores y las instituciones utilizan los resultados de la ETA para mejorar la enseñanza podrían ignorar las solicitudes de completar una ETA en línea (Dommeyer et al., 2002). A su vez, a los instructores les preocupa que las bajas tasas de respuesta reduzcan la validez de los hallazgos si los estudiantes que no completan una EET difieren de manera significativa de los estudiantes que sí la completan (Stowell et al., 2012). Por ejemplo, los estudiantes que no asisten a clase con regularidad suelen faltar a clase el día en que se administran las EET. Sin embargo, todos los estudiantes (incluidos los que no asisten) pueden completar los formularios cuando se administran en línea. El profesorado también teme que los resultados de la evaluación SET basada en una muestra de baja respuesta estén dominados por estudiantes de categorías extremas (por ejemplo, estudiantes con rencores, estudiantes con actitudes extremadamente favorables), que pueden estar particularmente motivados para completar las evaluaciones SET en línea y, por lo tanto, que los resultados de la evaluación SET representen inadecuadamente la voz de los estudiantes promedio (Reiner y Arnold, 2010). Efectos del formato en las tasas de respuesta y en los puntajes de evaluación de los estudiantes COMPARISON OF STUDENT EVALUATIONS OF TEACHING 5 En la bibliografía publicada se ha examinado la posibilidad de que los hallazgos de SET sesgados se asocien con bajas tasas de respuesta. En los resultados que van en contra de los temores del profesorado de que las evaluaciones en línea de ETA puedan estar dominadas por estudiantes de bajo rendimiento, Avery y otros (2006) encontraron que los estudiantes con promedios de puntos de grado (GPA) más altos tenían más probabilidades de completar las evaluaciones en línea. Asimismo, Jaquett y otros (2017) informaron de que los estudiantes que tenían experiencias positivas en sus clases (incluida la obtención de la calificación que esperaban obtener) tenían más probabilidades de presentar evaluaciones de cursos. Las instituciones pueden esperar tasas de respuesta más bajas cuando administran las ETA en línea (Avery y otros, 2006; Dommeyer y otros, 2002; Morrison, 2011; Nulty, 2008; Reiner y Arnold, 2010; Stowell y otros, 2012; Venette y otros, 2010). Sin embargo, la mayoría de los investigadores han descubierto que la calificación media de los SET no cambia significativamente cuando comparan los SET administrados en papel con los completados en línea. Estos hallazgos se han replicado en múltiples entornos utilizando diversos métodos de investigación (Avery y otros, 2006; Dommeyer y otros, 2004; Morrison, 2011; Stowell y otros, 2012; Venette y otros, 2010). Las excepciones a este patrón de diferencias mínimas o no significativas en los puntajes promedio de SET aparecieron en Nowell y otros (2010) y Morrison (2011), que examinaron una muestra de 29 cursos de negocios. Ambos estudios informaron de puntuaciones medias más bajas cuando los SET se administraron en línea. Sin embargo, también encontraron que las puntuaciones de SET para los elementos individuales variaban más dentro de un instructor cuando los SET se administraban en línea que en papel. Los estudiantes que completaron los SET en papel tendieron a registrar la misma respuesta para todas las preguntas, mientras que los estudiantes que completaron los formularios en línea tendieron a responder de manera diferente a las diferentes preguntas. Ambos grupos de investigación argumentaron que las puntuaciones obtenidas en línea podrían no ser directamente COMPARISON OF STUDENT EVALUATIONS OF TEACHING 6 comparables a las obtenidas mediante los formularios en papel. Aconsejaron que las instituciones administraran los SET totalmente en línea o totalmente en papel para garantizar evaluaciones coherentes y comparables entre los profesores. Cada universidad presenta un entorno y una cultura únicos que podrían influir en la seriedad con la que los estudiantes se toman las SET y en la forma en que responden a las decisiones de administrarlas en línea. Aunque existen algunos estudios a gran escala sobre el impacto de la administración en línea (Reiner y Arnold, 2010; Risquez et al., 2015), una réplica local responde a las preguntas sobre las características exclusivas de esa institución y genera pruebas sobre la posibilidad de generalizar los hallazgos existentes. Propósito del presente estudio En el presente estudio se examinaron las pautas de respuesta de las puntuaciones de la prueba SET en línea y en papel en una universidad integral de tamaño medio y regional de los Estados Unidos. Hicimos dos preguntas: En primer lugar, ¿cambia la tasa de respuesta o el promedio de la puntuación SET cuando una institución administra los formularios SET en línea en lugar de en papel? En segundo lugar, ¿cuál es la tasa de respuesta mínima necesaria para producir puntuaciones medias estables de SET para un instructor? Mientras que muchas investigaciones anteriores se basaban en pequeñas muestras a menudo limitadas a un solo departamento académico, nosotros reunimos los datos de SET en una gran muestra de cursos (N = 364) que incluía instructores de todas las universidades y todos los niveles de cursos durante 3 años. Controlamos las diferencias individuales en los instructores limitando la muestra a los cursos impartidos por el mismo instructor en los 3 años. La universidad ofrece casi el 30% de las secciones de los cursos en línea en cualquier término dado, y estos cursos siempre han administrado SETs en línea. Esto nos permitió examinar los efectos combinados del cambio del método de administración de SET (en papel a online) para las clases tradicionales y el cambio de un método mixto de administración de SET (en papel para las clases tradicionales y online para las clases online en COMPARISON OF STUDENT EVALUATIONS OF TEACHING 7 los 2 primeros años de recogida de datos) a un uso uniforme de formularios online para todas las clases en el último año de recogida de datos. Método Muestra Las tasas de respuesta y las calificaciones de evaluación se recuperaron a partir de los datos de evaluación de cursos archivados. El archivo de los datos de evaluación de cursos no incluía información sobre las características personales del instructor (sexo, edad o años de experiencia docente) y no se proporcionaba a los estudiantes ningún incentivo sistemático para completar las versiones impresas o en línea de la evaluación de cursos. Se extrajeron datos sobre las tasas de respuesta y las calificaciones de evaluación de 364 cursos que habían sido impartidos por el mismo instructor durante tres trimestres de otoño consecutivos (2012, 2013 y 2014). La muestra incluía profesores que enseñaban en cada uno de los cinco colegios de la universidad: 109 instructores (30%) enseñaban en el Colegio de Ciencias Sociales y Humanidades, 82 (23%) enseñaban en el Colegio de Ciencias e Ingeniería, 75 (21%) enseñaban en el Colegio de Educación y Estudios Profesionales, 58 (16%) enseñaban en el Colegio de Salud y 40 (11%) enseñaban en el Colegio de Negocios. Cada instructor proporcionó datos sobre un curso. Aproximadamente 259 instructores (71%) proporcionaron calificaciones para los cursos presenciales, y 105 (29%) proporcionaron calificaciones para los cursos en línea, lo que refleja con precisión la proporción de cursos presenciales y en línea ofrecidos en la universidad. La muestra incluía 107 cursos (29%) a nivel de licenciatura inicial (estudiantes de 1er y 2º año), 205 cursos (56%) a nivel de licenciatura avanzada (estudiantes de 3º y 4º año) y 52 cursos (14%) a nivel de posgrado. Instrumento El instrumento de evaluación del curso fue un conjunto de 18 elementos desarrollados por el sistema universitario estatal. Los primeros ocho ítems fueron diseñados para medir la calidad del COMPARISON OF STUDENT EVALUATIONS OF TEACHING 8 instructor, concluyendo con una calificación global de la calidad del instructor (Ítem 8: "Evaluación global del instructor"). Los ítems restantes pedían a los estudiantes que evaluaran los componentes del curso, concluyendo con una calificación global de la organización del curso (Ítem 18: "En general, calificaría la organización del curso"). No se dispone de datos formales sobre las propiedades psicométricas de los ítems, aunque todos los ítems tienen una validez facial evidente. Se pidió a los estudiantes que calificaran a cada instructor como pobre (0), regular (1), bueno (2), muy bueno (3) o excelente (4) en respuesta a cada ítem. Posteriormente, se calcularon las calificaciones de evaluación para cada curso e instructor. Se calculó una calificación mediana cuando un instructor enseñó más de una sección de un curso durante un trimestre. La institución limitó nuestro acceso a los datos del SET durante los 3 años de datos solicitados. Obtuvimos puntajes para el ítem 8 ("Evaluación general del instructor") para los 3 años pero pudimos obtener puntajes para el ítem 18 ("En general, calificaría la organización del curso") sólo para el año 3. Calculamos la correlación entre las puntuaciones del ítem 8 y del ítem 18 (a partir de los datos del curso registrados en el 3º año solamente) para estimar la consistencia interna del instrumento de evaluación. Estos dos ítems, que sirven como resúmenes compuestos de los ítems anteriores (Ítem 8 para los Ítems 1-7 y Ítem 18 para los Ítems 9-17), estaban fuertemente relacionados, r(362) = .92. Feistauer y Richter (2016) también informaron de fuertes correlaciones entre los ítems globales en un amplio análisis de las respuestas del SET. Diseño Este estudio aprovechó un experimento natural creado cuando la universidad decidió administrar todas las evaluaciones de los cursos en línea. Se solicitaron los datos del SET para los semestres de otoño de los dos años anteriores al cambio, cuando los estudiantes completaron los formularios SET en papel para los cursos presenciales y los formularios SET en línea para los cursos en línea, y los datos para el semestre de otoño del año de aplicación, cuando los estudiantes completaron COMPARISON OF STUDENT EVALUATIONS OF TEACHING 9 los formularios SET en línea para todos los cursos. Utilizamos un diseño factorial de 2 × 3 × 3 en el que el método de impartición del curso (presencial y en línea) y el nivel del curso (principiante, avanzado y de posgrado) eran factores entre materias y el año de evaluación (Año 1: 2012, Año 2: 2013 y Año 3: 2014) era un factor de medidas repetidas. Las medidas dependientes fueron la tasa de respuesta (medida como porcentaje de la matrícula de la clase) y la calificación del punto 8 ("Evaluación general del instructor"). El análisis de los datos se limitó a las puntuaciones del punto 8 porque la institución aceptó revelar datos sobre este punto solamente. Los datos de las puntuaciones del ítem 18 se pusieron a disposición de los formularios SET administrados en el tercer año para responder a las preguntas sobre la variación de las respuestas entre los ítems. La fuerte correlación entre las puntuaciones del ítem 8 y las puntuaciones del ítem 18 sugería que el ítem 8 podía utilizarse como sustituto de todos los ítems. Estos dos ítems eran de particular interés porque el profesorado, los presidentes de departamento y los comités de revisión frecuentemente se basan en estos dos ítems como indicadores independientes de la calidad de la enseñanza para las evaluaciones anuales y las revisiones de titularidad y promoción. Resultados Tasas de respuesta Las tasas de respuesta se presentan en el cuadro 1. Los resultados indican que las tasas de respuesta de los cursos presenciales fueron mucho más altas que las de los cursos en línea, pero sólo cuando las evaluaciones de los cursos presenciales se administraron en el aula. En la administración del tercer año, cuando todas las evaluaciones de los cursos se administraron en línea, los índices de respuesta de los cursos presenciales disminuyeron (M = 47,18%, SD = 20,11), pero siguieron siendo ligeramente superiores a los de los cursos en línea (M = 41,60%, SD = 18,23). Estos hallazgos produjeron una interacción estadísticamente significativa entre el método de impartición del curso y el año de evaluación, F(1,78, 716) = 101,34, MSE = 210,61, p < 0,001. La fuerza del efecto de la interacción COMPARISON OF STUDENT EVALUATIONS OF TEACHING 10 general fue de .22 (ηp2). Pruebas sencillas de efectos principales revelaron diferencias estadísticamente significativas en las tasas de respuesta de los cursos presenciales y los cursos en línea para cada uno de los 3 años de observación. Las mayores diferencias se produjeron durante el Año 1 (p < .001) y el Año 2 (p < .001), cuando las evaluaciones se administraron en papel en el aula para todos los cursos presenciales y en línea para todos los cursos en línea. Aunque la diferencia en la tasa de respuesta entre los cursos presenciales y en línea durante la administración del tercer año fue estadísticamente fiable (cuando tanto los cursos presenciales como en línea fueron evaluados con encuestas en línea), el efecto fue pequeño (ηp2 = .02). Por lo tanto, hubo una diferencia mínima en la tasa de respuesta entre los cursos presenciales y los cursos en línea cuando las evaluaciones se administraron en línea para todos los cursos. Ningún otro factor o interacción incluido en el análisis fue estadísticamente fiable. Calificaciones de evaluación El mismo análisis 2 × 3 × 3 del modelo de varianza se utilizó para evaluar las calificaciones medias de los SET. Este análisis produjo dos efectos principales estadísticamente significativos. El primer efecto principal implicó el año de evaluación, F(1,86, 716) = 3,44, MSE = 0,18, p = .03 (ηp2 = .01; véase la nota 1). Las calificaciones de evaluación asociadas a la administración del Año 3 (M = 3,26, SD = 0,60) fueron significativamente más bajas que las calificaciones de evaluación asociadas tanto a la administración del Año 1 (M = 3,35, SD = 0,53) como a la del Año 2 (M = 3,38, SD = 0,54). Por lo tanto, todos los cursos recibieron puntuaciones SET más bajas en el Año 3, independientemente del método de impartición del curso y del nivel del mismo. Sin embargo, el tamaño de este efecto fue pequeño (la mayor diferencia en la calificación media fue de 0,11 en una escala de cinco elementos). El segundo efecto principal estadísticamente significativo implicó el modo de entrega, F(1, 358) = 23,51, MSE = 0,52, p = .01 (ηp2 = .06; véase la nota 2). Los cursos presenciales (M = 3,41, SD = 0,50) recibieron calificaciones medias significativamente más altas que los cursos en línea (M = 3,13, SD = COMPARISON OF STUDENT EVALUATIONS OF TEACHING 11 0,63), independientemente del año de evaluación y del nivel del curso. Ningún otro factor o interacción incluido en el análisis fue estadísticamente fiable. Estabilidad de las calificaciones El diagrama de dispersión que se presenta en la figura 1 ilustra la relación entre las puntuaciones de SET y la tasa de respuesta. Aunque la correlación entre las puntuaciones de SET y la tasa de respuesta fue pequeña y no estadísticamente significativa, r(362) = 0,07, la inspección visual de la gráfica de puntuaciones de SET sugiere que las puntuaciones de SET se volvieron menos variables a medida que la tasa de respuesta aumentaba. Realizamos la prueba de Levene para evaluar la variabilidad de las puntuaciones de SET por encima y por debajo de la tasa de respuesta del 60%, que varios investigadores han recomendado como un umbral aceptable para las tasas de respuesta (Berk, 2012, 2013; Nulty, 2008). La variabilidad de las puntuaciones por encima y por debajo del umbral del 60% no era estadísticamente fiable, F(1, 362) = 1,53, p = 0,22. Discusión La administración en línea de los SET en este estudio se asoció con tasas de respuesta más bajas, pero es curioso que los cursos en línea experimentaron un aumento del 10% en la tasa de respuesta cuando todos los cursos fueron evaluados con formularios en línea en el tercer año. Los cursos en línea habían sufrido tasas de respuesta crónicamente bajas en años anteriores, cuando las clases presenciales continuaron utilizando formularios en papel. El beneficio de las tasas de respuesta observadas en los cursos en línea cuando todos los formularios del SET se administraron en línea podría atribuirse al aumento de las comunicaciones que alentaban a los estudiantes a completar las evaluaciones de los cursos en línea. A pesar de esta mejora, las tasas de respuesta de los cursos en línea siguieron siendo inferiores a las de los cursos presenciales. Las diferencias en las tasas de respuesta de los cursos presenciales y en línea podrían atribuirse a las características de los estudiantes que se inscribieron o a las diferencias en la calidad de la participación de los estudiantes creadas en cada modalidad de COMPARISON OF STUDENT EVALUATIONS OF TEACHING 12 aprendizaje. Avery y otros (2006) constataron que los estudiantes de mayor rendimiento (definidos como los estudiantes con un promedio de calificaciones más alto) tenían más probabilidades de completar las clases en línea. Aunque el promedio de la clasificación SET fue significativamente más bajo en el Año 3 que en los dos años anteriores, la magnitud de la diferencia numérica fue pequeña (las diferencias oscilaron entre 0,08 y 0,11, sobre la base de una escala de 0 a 4 de tipo Likert). Esta diferencia es similar a las diferencias que Risquez y otros (2015) informaron para las puntuaciones de SET después de ajustar estadísticamente la influencia de varias variables de confusión potenciales. Una literatura sustancial ha discutido la interpretación apropiada e inapropiada de las puntuaciones SET (Berk, 2013; Boysen, 2015a, 2015b; Boysen et al., 2014; Dewar, 2011; Stark & Freishtat, 2014). Los profesores han planteado a menudo preocupaciones acerca de la posible variabilidad de los resultados de la prueba SET debido a las bajas tasas de respuesta y, por lo tanto, al pequeño tamaño de las muestras. Sin embargo, nuestro análisis indicó que las clases con altas tasas de respuesta producían puntuaciones SET tan variables como las clases con bajas tasas de respuesta. Los revisores deben tener un cuidado extra cuando interpretan las puntuaciones de SET. Los responsables de la toma de decisiones a menudo ignoran las preguntas sobre si las medias derivadas de muestras pequeñas representan con precisión la media de la población (Tversky & Kahneman, 1971). Los revisores frecuentemente tratan todas las diferencias numéricas como si fueran igualmente significativas como medidas de las verdaderas diferencias y les dan credibilidad incluso después de recibir advertencias explícitas de que estas diferencias no son significativas (Boysen, 2015a, 2015b). Dado que las bajas tasas de respuesta producen tamaños de muestra pequeños, esperábamos que las puntuaciones del SET basadas en muestras de clases más pequeñas (es decir, cursos con bajas tasas de respuesta) fueran más variables que las basadas en muestras de clases más grandes (es decir, cursos con altas tasas de respuesta). Aunque los investigadores han recomendado que las tasas de respuesta COMPARISON OF STUDENT EVALUATIONS OF TEACHING 13 alcancen el criterio del 60%-80% cuando se utilicen los datos del SET para las decisiones de alto riesgo (Berk, 2012, 2013; Nulty, 2008), nuestros hallazgos no indicaron una reducción significativa de la variabilidad de la puntuación del SET con tasas de respuesta más altas. Implicaciones para la práctica Mejora de las tasas de respuesta del SET Cuando los encargados de la adopción de decisiones utilizan los datos de las EEF para tomar decisiones de alto nivel (contrataciones de profesores, evaluaciones anuales, titularidad, ascensos, premios de enseñanza), las instituciones harían bien en adoptar medidas para garantizar que las EEF tengan tasas de respuesta aceptables. Los investigadores han examinado estrategias eficaces para mejorar las tasas de respuesta para las EET (Nulty, 2008; véase también Berk, 2013; Dommeyer y otros, 2004; Jaquett y otros, 2016). Estas estrategias incluyen la oferta de incentivos validados empíricamente, la creación de sistemas técnicos de alta calidad con buenas características de factores humanos y la promoción de una cultura institucional que apoye claramente el uso de los datos de las EEF y otra información para mejorar la calidad de la enseñanza y el aprendizaje. Los programas e instructores deben discutir por qué la información de las EEF es importante para la toma de decisiones y proporcionar a los estudiantes pruebas tangibles de cómo la información de las EEF orienta las decisiones sobre el mejoramiento de los planes de estudio. La institución debe proporcionar a los estudiantes pruebas convincentes de que el sistema de administración protege la confidencialidad de sus respuestas. Evaluando las puntuaciones del SET Además de asegurar tasas de respuesta adecuadas en las EEF, los encargados de la adopción de decisiones deberían exigir múltiples fuentes de pruebas sobre la calidad de la enseñanza (Buller, 2012). Las decisiones de alto riesgo nunca deberían basarse exclusivamente en datos numéricos de las EEF. Los revisores suelen tratar las clasificaciones de las EEF como un sustituto de una medida del impacto que tiene un instructor en el aprendizaje de los estudiantes. Sin embargo, un meta-análisis reciente (Uttl et COMPARISON OF STUDENT EVALUATIONS OF TEACHING 14 al., 2017) cuestionó si las puntuaciones de SET tienen alguna relación con el aprendizaje de los estudiantes. Los revisores necesitan pruebas además de las calificaciones SET para evaluar la enseñanza, como pruebas de la experiencia del instructor en el contenido disciplinario, su habilidad en la gestión de la clase, su capacidad para hacer participar a los alumnos en conferencias u otras actividades, el impacto en el aprendizaje de los estudiantes o el éxito en los esfuerzos por modificar y mejorar los cursos y las estrategias de enseñanza (Berk, 2013; Stark & Freishtat, 2014). Al igual que con otras formas de evaluación, cualquier medida puede ser limitada en cuanto a la calidad de la información que proporciona. Por lo tanto, las medidas múltiples son más informativas que una sola medida. Un conjunto de pruebas puede informar mejor las decisiones de alto riesgo (Berk, 2013). Los portafolios pueden incluir resúmenes de las observaciones de la clase por parte del profesorado superior, el presidente y/o los compañeros. Los ejemplos de tareas y exámenes pueden documentar el rigor del aprendizaje, especialmente si van acompañados de muestras redactadas de los trabajos de los estudiantes. Los planes de estudio de los cursos pueden identificar los resultados previstos del aprendizaje; describir estrategias de instrucción que reflejen el rigor del curso (asignaciones obligatorias y prácticas de calificación); y proporcionar otra información sobre el contenido del curso, el diseño, las estrategias de instrucción y las interacciones del instructor con los estudiantes (Palmer et al., 2014; Stanny et al., 2015). Conclusión La psicología tiene una larga historia de diseño de estrategias creativas para medir lo "no medible", ya sea que la variable objetivo sea un proceso mental, una actitud o la calidad de la enseñanza (por ejemplo, Webb et al., 1966). Además, los psicólogos han documentado diversas heurísticas y sesgos que contribuyen a la mala interpretación de los datos cuantitativos (Gilovich et al., 2002), incluidas las puntuaciones SET (Boysen, 2015a, 2015b; Boysen et al., 2014). Estos conocimientos permiten a los COMPARISON OF STUDENT EVALUATIONS OF TEACHING 15 psicólogos ofrecer múltiples soluciones al reto que plantea la necesidad de evaluar objetivamente la calidad de la enseñanza y el impacto de la enseñanza en el aprendizaje de los estudiantes. La administración en línea de los formularios de SET presenta múltiples características deseables, entre ellas la rápida retroalimentación a los instructores, la economía y el apoyo a la sostenibilidad ambiental. Sin embargo, las instituciones deberían adoptar procedimientos de aplicación que no menoscaben la utilidad de los datos reunidos. Además, las instituciones deberían tener cuidado de no hacer hincapié en procedimientos que producen altas tasas de respuesta sólo para adormecer a los profesores en la creencia de que los datos de la ETA pueden ser la principal (o única) medida utilizada para las decisiones de alto riesgo sobre la calidad de la enseñanza del profesorado. En cambio, los encargados de adoptar decisiones deberían esperar utilizar múltiples medidas para evaluar la calidad de la enseñanza del profesorado. COMPARISON OF STUDENT EVALUATIONS OF TEACHING 16 Referencias Avery, R. J., Bryant, W. K., Mathios, A., Kang, H., & Bell, D. (2006). Electronic course evaluations: Does an online delivery system influence student evaluations? The Journal of Economic Education, 37(1), 21–37. https://doi.org/10.3200/JECE.37.1.21-37 Berk, R. A. (2012). Top 20 strategies to increase the online response rates of student rating scales. International Journal of Technology in Teaching and Learning, 8(2), 98–107. Berk, R. A. (2013). Top 10 flashpoints in student ratings and the evaluation of teaching. Stylus. Boysen, G. A. (2015a). Preventing the overinterpretation of small mean differences in student evaluations of teaching: An evaluation of warning effectiveness. Scholarship of Teaching and Learning in Psychology, 1(4), 269–282. https://doi.org/10.1037/stl0000042 Boysen, G. A. (2015b). Significant interpretation of small mean differences in student evaluations of teaching despite explicit warning to avoid overinterpretation. Scholarship of Teaching and Learning in Psychology, 1(2), 150–162. https://doi.org/10.1037/stl0000017 Boysen, G. A., Kelly, T. J., Raesly, H. N., & Casner, R. W. (2014). The (mis)interpretation of teaching evaluations by college faculty and administrators. Assessment & Evaluation in Higher Education, 39(6), 641–656. https://doi.org/10.1080/02602938.2013.860950 Buller, J. L. (2012). Best practices in faculty evaluation: A practical guide for academic leaders. JosseyBass. Dewar, J. M. (2011). Helping stakeholders understand the limitations of SRT data: Are we doing enough? Journal of Faculty Development, 25(3), 40–44. Dommeyer, C. J., Baum, P., & Hanna, R. W. (2002). College students’ attitudes toward methods of collecting teaching evaluations: In-class versus on-line. Journal of Education for Business, 78(1), 11–15. https://doi.org/10.1080/08832320209599691 COMPARISON OF STUDENT EVALUATIONS OF TEACHING 17 Dommeyer, C. J., Baum, P., Hanna, R. W., & Chapman, K. S. (2004). Gathering faculty teaching evaluations by in-class and online surveys: Their effects on response rates and evaluations. Assessment & Evaluation in Higher Education, 29(5), 611–623. https://doi.org/10.1080/02602930410001689171 Feistauer, D., & Richter, T. (2016). How reliable are students’ evaluations of teaching quality? A variance components approach. Assessment & Evaluation in Higher Education, 42(8), 1263–1279. https://doi.org/10.1080/02602938.2016.1261083 Gilovich, T., Griffin, D., & Kahneman, D. (Eds.). (2002). Heuristics and biases: The psychology of intuitive judgment. Cambridge University Press. https://doi.org/10.1017/CBO9780511808098 Griffin, T. J., Hilton, J., III, Plummer, K., & Barret, D. (2014). Correlation between grade point averages and student evaluation of teaching scores: Taking a closer look. Assessment & Evaluation in Higher Education, 39(3), 339–348. https://doi.org/10.1080/02602938.2013.831809 Jaquett, C. M., VanMaaren, V. G., & Williams, R. L. (2016). The effect of extra-credit incentives on student submission of end-of-course evaluations. Scholarship of Teaching and Learning in Psychology, 2(1), 49–61. https://doi.org/10.1037/stl0000052 Jaquett, C. M., VanMaaren, V. G., & Williams, R. L. (2017). Course factors that motivate students to submit end-of-course evaluations. Innovative Higher Education, 42(1), 19–31. https://doi.org/10.1007/s10755-016-9368-5 Morrison, R. (2011). A comparison of online versus traditional student end-of-course critiques in resident courses. Assessment & Evaluation in Higher Education, 36(6), 627–641. https://doi.org/10.1080/02602931003632399 Nowell, C., Gale, L. R., & Handley, B. (2010). Assessing faculty performance using student evaluations of teaching in an uncontrolled setting. Assessment & Evaluation in Higher Education, 35(4), 463– 475. https://doi.org/10.1080/02602930902862875 COMPARISON OF STUDENT EVALUATIONS OF TEACHING 18 Nulty, D. D. (2008). The adequacy of response rates to online and paper surveys: What can be done? Assessment & Evaluation in Higher Education, 33(3), 301–314. https://doi.org/10.1080/02602930701293231 Palmer, M. S., Bach, D. J., & Streifer, A. C. (2014). Measuring the promise: A learning-focused syllabus rubric. To Improve the Academy: A Journal of Educational Development, 33(1), 14–36. https://doi.org/10.1002/tia2.20004 Reiner, C. M., & Arnold, K. E. (2010). Online course evaluation: Student and instructor perspectives and assessment potential. Assessment Update, 22(2), 8–10. https://doi.org/10.1002/au.222 Risquez, A., Vaughan, E., & Murphy, M. (2015). Online student evaluations of teaching: What are we sacrificing for the affordances of technology? Assessment & Evaluation in Higher Education, 40(1), 210–234. https://doi.org/10.1080/02602938.2014.890695 Spooren, P., Brockx, B., & Mortelmans, D. (2013). On the validity of student evaluation of teaching: The state of the art. Review of Educational Research, 83(4), 598–642. https://doi.org/10.3102/0034654313496870 Stanny, C. J., Gonzalez, M., & McGowan, B. (2015). Assessing the culture of teaching and learning through a syllabus review. Assessment & Evaluation in Higher Education, 40(7), 898–913. https://doi.org/10.1080/02602938.2014.956684 Stark, P. B., & Freishtat, R. (2014). An evaluation of course evaluations. ScienceOpen Research. https://doi.org/10.14293/S2199-1006.1.SOR-EDU.AOFRQA.v1 Stowell, J. R., Addison, W. E., & Smith, J. L. (2012). Comparison of online and classroom-based student evaluations of instruction. Assessment & Evaluation in Higher Education, 37(4), 465–473. https://doi.org/10.1080/02602938.2010.545869 Tversky, A., & Kahneman, D. (1971). Belief in the law of small numbers. Psychological Bulletin, 76(2), 105–110. https://doi.org/10.1037/h0031322 COMPARISON OF STUDENT EVALUATIONS OF TEACHING 19 Uttl, B., White, C. A., & Gonzalez, D. W. (2017). Meta-analysis of faculty’s teaching effectiveness: Student evaluation of teaching ratings and student learning are not related. Studies in Educational Evaluation, 54, 22–42. https://doi.org/10.1016/j.stueduc.2016.08.007 Venette, S., Sellnow, D., & McIntyre, K. (2010). Charting new territory: Assessing the online frontier of student ratings of instruction. Assessment & Evaluation in Higher Education, 35(1), 101–115. https://doi.org/10.1080/02602930802618336 Webb, E. J., Campbell, D. T., Schwartz, R. D., & Sechrest, L. (1966). Unobtrusive measures: Nonreactive research in the social sciences. Rand McNally. COMPARISON OF STUDENT EVALUATIONS OF TEACHING 20 Tabla 1 Medios y desviaciones estándar de las tasas de respuesta (Método de entrega del curso por año de evaluación) Año de administración Curso presencial Curso online M SD M SD Año 1: 2012 71.72 16.42 32.93 15.73 Año 2: 2013 72.31 14.93 32.55 15.96 Año 3: 2014 47.18 20.11 41.60 18.23 Nota. Las evaluaciones de la enseñanza de los estudiantes (SET) se administraron en dos modalidades en los años 1 y 2: en papel para los cursos presenciales y en línea para los cursos en línea. Las SET se administraron en línea para todos los cursos en el tercer año. COMPARISON OF STUDENT EVALUATIONS OF TEACHING Figura 1 Diagrama de dispersión que muestra la correlación entre los índices de respuesta y los índices de evaluación Nota. Las calificaciones de las evaluaciones se hicieron durante el curso académico de otoño de 2014. 21