ITESM – Campus Monterrey XXII Reunión de Intercambio de Experiencias en Estudios sobre Educación, año 2004 Un análisis estadístico de los factores que afectan la evaluación del profesor en grupos múltiples del Departamento de Sistemas de Información del ITESM, Campus Monterrey Martín González Martínez Departamento de Sistemas de Información Andreas Hartmann Ehlich Departamento de Lenguas Modernas Diciembre 2004 Resumen Este trabajo consiste en una investigación sobre los factores que influencian la opinión de los estudiantes sobre la labor del profesor universitario. Como muestra se usan datos sobre varios cursos del área de computación, negocios electrónicos y comercio electrónico ofrecidos a lo largo de un año en el ITESM, Campus Monterrey, por el departamento de Sistemas de Información. Se usó un procedimiento de regresión lineal múltiple para analizar 9 factores que afectan la Opinión Global del Profesor (OGP). Se comprobó la hipótesis de que las calificaciones otorgadas por el Profesor están relacionadas directamente con su evaluación, indicando que en principio, los profesores que desean recibir una mejor evaluación deberían evaluar también mejor a sus alumnos. Además se estableció una fuerte relación entre la OGP y la Opinión Global del Curso (OGC), de lo que se puede inferir que la OGP no depende sólo del profesor si no también de la calidad percibida de la materia que imparte. Por lo tanto, el uso de la OGP como criterio de evaluación de la labor docente debería tomar en cuenta otros factores, como la naturaleza de la materia impartida. 1. Introducción Dentro del ITESM existe la práctica sistemática de aplicar encuestas a los estudiantes, donde éstos evalúan el desempeño de sus profesores. La finalidad de las encuestas es doble: Por una parte, están destinadas a proporcionar una retroalimentación al profesor particular, para que éste tenga información fidedigna de cómo mejorar continuamente su trabajo. Por otra parte, el Instituto usa las encuestas como herramienta administrativa y disciplinaria, es decir para determinar aumentos de sueldos, condicionar promociones y justificar eventuales despidos de los maestros mal evaluados. Sobre todo a raíz de la segunda finalidad, existe una constante crítica de la encuesta, misma que ha sufrido varias modificaciones en su formato durante los últimos años. Sin embargo, nunca quedó totalmente claro si la encuesta en verdad mide lo que pretende medir, o si sus resultados dependen más de otros factores, sobre todo la naturaleza del curso mismo y el nivel de calificaciones que cada profesor otorga a sus alumnos. Existe, pues, una gran incertidumbre acerca de la validez de ese instrumento. En este trabajo se aplica un procedimiento de regresión múltiple a una muestra bastante homogénea de cursos para establecer si es posible resolver algunos de los cuestionamientos mencionados anteriormente aplicando métodos estadísticos. González y Hartmann, p. 1 2. Revisión de la literatura En nuestras investigaciones bibliográficas, no pudimos encontrar ningún trabajo riguroso aplicado a los resultados de las encuestas en el ITESM. Por ende, revisamos algunos artículos de la literatura internacional que describe diferentes aspectos de las encuestas contestadas por estudiantes universitarios acerca del desempeño de sus docentes. Según algunos autores que han revisado la literatura al respecto (Langbein, 1994; Wachtel, 1998), sigue en disputa el meollo de la cuestión, a saber, si las encuestas miden la calidad de la enseñanza o el grado de popularidad del profesor. En general, la extensa literatura sobre las evaluaciones contestadas por estudiantes demuestra un consenso en que hay varios factores que pueden introducir un sesgo sobre la medición del desempeño del profesor. Cheung (1998) percibió que “la efectividad de la enseñanza es un constructo multidimensional”, para el que no existe un criterio universalmente aceptado. Glass, McGaw y Smith (1981), por ejemplo, demostraron que los estudiantes evalúan mejor a los profesores cuando los grupos tienen un número más reducido de estudiantes. Greenwald y Gillmore (1997) llegaron a resultados similares, aunque McKeachie (1997) encontró que los docentes ineficientes no pueden comprar una buena evaluación positiva otorgando calificaciones altas. Esto sugiere que la relación entre evaluaciones y calificaciones podría ser no lineal sobre todo el espectro de calificaciones. A nivel de los estudiantes individuales, Langbein (1994) encontró que la calificación esperada tenía un efecto negativo sobre el resultado de la encuesta, lo que la autora interpretó en el sentido de que los estudiantes con mejores calificaciones adoptan una actitud más crítica frente a sus profesores. De manera paralela, Marks (2000) sugiere la aparente paradoja de que el aprendizaje es más profundo precisamente cuando el profesor no expone bien el material, dejándoles a los estudiantes la tarea de descubrir por sí mismos muchos aspectos del material. En los estudios sobre encuestas aplicadas en universidades estadounidenses, el efecto del sexo del profesor sobre la evaluación obtenida no presenta un comportamiento constante, a pesar de que existe cierta tendencia hacia resultados más desfavorables en el caso de las profesoras (Langbein, 1994). En su propio estudio, la misma autora encontró efectos de interacción del profesor con factores como el tiempo de asesoría ofrecida o las calificaciones esperadas por los propios estudiantes (Langbein, 1994). Existe otro enfoque de investigación que intenta relacionar los rasgos psicológicos de profesores y estudiantes con los resultados de las encuestas. En esta vena, Radmacher y Martin (2001) encontraron que el mejor predictor para una evaluación favorable era la extroversión del profesor, lo que confirma los resultados de otros investigadores, como por ejemplo el artículo muchas veces citado de Marsh (1984). Marks (2000) realizó un análisis factorial donde encontró que los estudiantes evaluaban en base a cinco dimensiones perceptivas: simpatía/preocupación, carga de trabajo/dificultad, expectativas sobre calificación/justicia y organización del curso. Sin embargo, el autor afirmó que las encuestas a estudiantes no reflejaban el nivel de enseñanza-aprendizaje, ya que los encuestados no estaban en condiciones de evaluar su propio aprendizaje, por lo que evaluaban en base a sustitutos como los indicados arriba. Esta apreciación parece ser compartida por un gran número de profesores, que sienten que las evaluaciones con frecuencia no le hacen justicia a su trabajo y que pueden inducir a conductas éticamente cuestionables (Simpson y Siguaw, 2000). González y Hartmann, p. 2 En la literatura también se encuentra la postura contraria, como por ejemplo en el estudio de Tang (1997), cuyos datos indicaron que los estudiantes son “razonablemente justos” cuando la encuesta porta sobre aspectos individuales de las actividades magisteriales. 3. Propósito del presente trabajo El propósito general de este trabajo es indagar si la encuesta a los estudiantes, en la forma particular como se aplica en el ITESM, permite hacer predicciones acerca de su resultado en base a los datos disponibles. Específicamente, se trata de establecer si existen factores que están fuera del control del profesor y que influencian sistemáticamente los resultados de las encuestas. Para ello aplicamos un procedimiento de regresión múltiple a una muestra bastante homogénea de cursos para establecer si es posible resolver algunos de los cuestionamientos mencionados anteriormente aplicando métodos estadísticos. Específicamente, trataremos de contestar la pregunta de si la opinión de los alumnos sobre su profesor depende de los siguientes factores: - la materia impartida en sí la opinión general sobre la materia impartida las calificaciones promedio de cada grupo el porcentaje de alumnos aprobados el tamaño del grupo el porcentaje de los alumnos encuestados el horario de los cursos el ciclo semestral cuando se imparte del curso el sexo del profesor que imparte el curso 4. Método de investigación 4.1. Participantes Las encuestas fueron contestadas por estudiantes de las siguientes materias: Computación para las Ciencias Sociales, Comercio Electrónico, Administración de Negocios Electrónicos y Administración de Proyectos de Informática. Los estudiantes pertenecen a los planes de estudio de las carreras profesionales de: LAE, LIN, LRI, LCC y LEM. Los profesores están asignados al Departamento de Sistemas de Información. Para cada una de las cuatro materias, existe un sistema estandarizado en cuanto a planes de estudio y libros de texto. Todos los cursos fueron impartidos de forma presencial con apoyo en una plataforma tecnológica. 4.2 Materiales Los datos provienen de dos tipos de fuentes: • Resúmenes de una encuesta anónima aplicada por internet con clave personalizada para cada estudiante, • Listas finales de cada curso con nombre del profesor, promedio general del grupo y porcentaje de alumnos aprobados. 4.3 Variable dependiente Se usa como variable dependiente el valor OGP (opinión global del profesor), el que supuestamente resume la impresión que tiene el estudiante del desempeño general de su profesor. En la encuesta, se trata de una escala Likert que va de 1 (excelente) a 7 (pésimo). Por el formato anónimo de la encuesta, sólo se tienen los resúmenes de cada grupo. González y Hartmann, p. 3 4.4 Variables independientes Inicialmente, disponíamos de 9 variables independientes, las que se resumen en la siguiente tabla: 1 MAT Materia impartida (variable cuaternaria) 2 OGC Opinión general del curso 3 CAL Promedio de las calificaciones finales de cada grupo (que se usó en forma logarítmica por el comportamiento mostrado en estudios previos) 4 APR Porcentaje de alumnos aprobados (que se usó en forma logarítmica por el comportamiento mostrado en estudios previos) 5 ENC Porcentaje de alumnos encuestados 6 HOR Horario de los cursos (mañana/tarde/noche) 7 SEM Ciclo semestral (semestre normal/verano) 8 SEX Sexo del profesor (variable binaria) 9 TAM Tamaño del grupo 5. Procedimiento estadístico Se plantea un modelo de regresión lineal múltiple (con 2 de las variables logaritmizadas). Para que el modelo resultara más manejable y significativo, se aplicó un procedimiento de análisis factorial para reducir las 10 variables iniciales. Esto también ayuda con el problema sospechado de endogeneidad entre la variable OGP (dependiente) y OGC, CAL y APR (independientes). De hecho, en una prueba exploratoria sin agrupación en factores se detectó endogeneidad entre OGP, OGC y CAL. 6. Resultados 6.1 Análisis factorial Para reducir el número de variables, hacer el modelo más claro y tener una mayor significancia estadística, mediante el análisis de factores, obtuvimos la siguiente gráfica de eigenvalues: González y Hartmann, p. 4 Gráfico de sedimentación 4 3 2 Autovalor 1 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 Número de componente La gráfica indica que podemos usar entre 5 y 9 componentes. Cuando se hizo la prueba para 6, 7, 8 y 9 componentes se observaba que los últimos factores siempre quedaban sin utilizar. Cuando se hizo para 5 componentes y con rotación Varimax (se probó con varios tipos de rotación) obtuvimos la mejor, y además fue lógicamente agrupable: Matriz de componentes rotados Componente 1 2 3 5 6 HOR2 -0.889 0.029 -0.022 -0.038 0.091 HOR1 0.874 0.167 -0.072 -0.136 -0.064 SEX 0.617 0.349 -0.059 -0.147 0.341 REP -0.099 -0.942 0.056 0.006 0.152 CAL 0.167 0.922 -0.101 0.167 -0.058 OGC -0.294 -0.154 0.682 0.031 0.225 MAT1 0.053 0.010 -0.001 0.913 -0.159 MAT2 0.057 -0.041 -0.257 -0.933 0.001 MAT3 -0.164 0.147 -0.485 0.741 0.131 SEM -0.052 -0.127 0.018 -0.027 0.862 ENC -0.035 0.057 -0.296 0.472 0.684 TAM 0.082 -0.202 0.402 0.010 0.492 Método de extracción: Análisis de componentes principales. Método de rotación: Normalización Varimax con Kaiser. La rotación ha convergido en 8 iteraciones. Por lo tanto, reducimos a sólo 5 variables que son: González y Hartmann, p. 5 Nombre Variables Comentario GRADOS APR, CAL Se unen las variables que indican promedio de calificaciones y porcentaje de alumnos aprobados OGC OGC Opinión Global del curso queda sola HORARIO HOR1, HOR2, SEX Horario se unió con sexo muy posiblemente por que la mayoría de los profesores que imparten las clases por la mañana son mujeres, en la tarde y noche se tiene predominancia de hombres MATERIA MAT1, MAT2, MAT3 Se unieron las diferentes materias a impartir ALUMNOS SEM, ENC, TAM El tamaño del grupo va relacionado con el semestre, ya que se tienen ciclos de mayor o menor cantidad de alumnos por semestre, la cantidad de alumnos que llena la encuesta también va en ese orden 6.2. Resultados de la regresión La regresión usando los seis factores indexados queda: OGP = 0.538 - 0.298*GRADOS + 0.789*OGC + 0.682*HORARIO - 0.103*MATERIA 0.189*ALUMNOS Regression Equation Section Independent Regression Standard T-Value Variable Coefficient Error Prob Decision (Ho: B=0) Level -0.1000 Power -0.1000 Intercept 0.5381 0.2844 1.8917 0.0634Reject Ho 0.5894 GRADOS -0.2977 0.1296 -2.2974 0.0251Reject Ho 0.7346 OGC 0.7893 0.4517 1.7475 0.0857Reject Ho 0.5334 HORARIO 0.6824 0.0995 6.8617 0.0000Reject Ho 1.0000 MATERIA -0.1032 0.1202 -0.8581 0.3943Accept Ho 0.2192 ALUMNOS -0.1891 0.1116 -1.6942 0.0954Reject Ho 0.5125 R-Squared 0.6583 De esto se desprende que la variable HORARIO no tiene significancia dentro del modelo. 6.3. Pruebas de endogeneidad A las variables GRADOS y OGC se les hizo una prueba de Hausman aumentada (versión propuesta por Davidson y MacKinnon (1989, 1993)), donde se utilizó como variable instrumental una variable nueva ANT que es un proxy de antigüedad para encontrar los residuales de GRADOS y OGC. ANT está definido por el número progresivo de nómina (dividido entre 100,000), el cual es asignado a todos los profesores del ITESM al momento de firmar su primer contrato. Se trata pues de una aproximación a la antigüedad del profesor en el Instituto. La prueba de Hausman aumentada nos dice que hay endogeneidad si en una regresión 2SLS el coeficiente del residual es estadísticamente diferente de cero (H0: β=0 por tanto existe endogeneidad). González y Hartmann, p. 6 Prueba para OGC Variable Coefficient Std. Error t-Statistic Prob. RES_OGC -0.752862 2.205774 -0.341314 0.7341 Variable Coefficient Std. Error t-Statistic Prob. RES_GRADOS -0.565564 1.657017 -0.341314 0.7341 Prueba para Grados Por lo que, para ambos factores, aceptamos la consistencia de la regresión OLS y la no endogeneidad del modelo. 6.4. Pruebas de normalidad de los datos Normality Tests Section Assumption Value Skewness Probability Decision (10%) -1.4580 0.1448 Accepted Kurtosis 1.5465 0.1220 Accepted Omnibus 4.5174 0.1045 Accepted Entonces, los datos pasan las pruebas de normalidad. 6.5 Prueba de autocorrelación Durbin-Watson Value 2.0833 El valor Durbin Watson cae en zona de NO-autocorrelación (1.404 – 1.805) al darnos un resultado de 2.0833. 6.6 Prueba de multicolinealidad Los eigenvalues no indican multicolinealidad. Eigenvalues of Centered Correlations No. Eigenvalue Incremental Cumulative Condition Percent Percent Number 1.0000 4.7538 79.2300 79.2300 1.0000 2.0000 0.8446 14.0800 93.3100 5.6300 3.0000 0.2006 3.3400 96.6500 23.6900 4.0000 0.1316 2.1900 98.8400 36.1100 5.0000 0.0693 1.1600 100.0000 94.7200 6.7 Prueba de heteroskedasticidad González y Hartmann, p. 7 Dispersión de errores 1 Residuales 0.5 0 1 1.5 2 2.5 3 3.5 4 -0.5 -1 -1.5 OGP estimada Por el método gráfico, se determinó que no existe heteroskedasticidad. 7. Discusión de los Resultados Los componentes utilizados para la regresión nos dan una buena explicación de la variable dependiente OGP, pues nos da un 0.6241, lo que significa que el modelo explica un 62.41% de la variación total en la muestra. Esto significa que el desempeño del profesor sólo puede afectar un 38% de su evaluación, sujeto a que los estudiantes tengan el discernimiento de separar los conceptos de OGP y OGC. Ninguno de los factores es mayor (en valor absoluto) a uno, por lo que podemos afirmar que OGP es un indicador compuesto de múltiples dimensiones, y ninguna de ellas es lo suficientemente grande como para poder mover la OGP por sí sola. El coeficiente de GRADOS nos muestra que a mayor promedio de calificaciones y de alumnos aprobados, mejor será el OGP del profesor. Esto apoya la teoría de que las evaluaciones de los profesores están directamente relacionadas con la laxitud en las calificaciones que otorgan (McKeachee, 1997). El sistema de evaluación interna podría entonces inducir a algunos profesores a una conducta no ética, en el sentido de que asignarían a sus alumnos, mejores calificaciones para obtener una mejor evaluación de parte de sus alumnos. El coeficiente de OGC está positivamente correlacionado que la OGP y muestra que los alumnos califican mejor a los profesores que a los cursos que se les imparten, esto se puede comprobar comparando las medias de cada variable, para OGC es 2.27 y para OGP es 1.86. Estas variables se pueden comparar directamente, ya que tienen una escala idéntica (de 1 a 7). La González y Hartmann, p. 8 OGC tiene un mayor peso que los demás factores en la determinación de la OGP, pues el factor de 0.789 implica que por cada unidad que se mueva OGC, OGP se moverá 0.789. Por lo tanto, para mejorar la encuesta del profesor es necesario mejorar el diseño curricular del curso, o mejorar la apreciación que los alumnos tengan del mismo. El coeficiente de Horario nos indica que la hora a la que se imparte el curso afecta negativamente la opinión de los alumnos hacia su profesor (OGP). Esto puede ser debido al cansancio que tengan los alumnos, el profesor o ambos. Podemos concluir que en horarios vespertinos o nocturnos la OGP empeora. Los datos disponibles no permiten discernir si el sexo del profesor afecta o no en este coeficiente, ya que solamente un profesor de género masculino imparte su clase por la mañana. Pero no podemos cuantificar en qué grado las variaciones en la OGP son debido al horario o al género en este factor. El factor MATERIA no afecta significativamente el valor de la OGP, por lo que podemos decir que los alumnos tienen opiniones similares de sus profesores sin importar qué materia estén cursando. El coeficiente de ALUMNOS nos indica que a mayor cantidad de alumnos en el grupo o a mayor cantidad de alumnos que llenen la encuesta de evaluación del profesor, ésta mejorará, lo que contradice la teoría en el sentido de que la OGP dependería de la cantidad de tiempo promedio de atención que el profesor dedica a sus alumnos (Glass, McGaw y Smith, 1981). Se podría interpretar en el sentido de que para las materias que entraron en este estudio, los alumnos no aprecian el contacto personal con el profesor. 8. Limitaciones del presente estudio La primera observación que debe hacerse frente a este estudio es que la muestra tomada en los cursos de un solo departamento académico no puede ser representativa de todas las materias impartidas en el ITESM, aunque es indicativa de algunas tendencias generales. Por ejemplo, ha de suponerse que en las materias que requieran de más retroalimentación e interacción entre el alumno y el profesor, el tamaño del grupo se convierte en un factor de mayor importancia. Luego existen muchos factores que también podrían influir en los resultados y que no fueron tomados en cuenta en esta investigación: Por una parte, son los rasgos individuales del profesor como edad, procedencia, estudios previos y experiencia docente fuera del ITESM. Para tomar en cuenta esos factores, habría que considerar una muestra más grande con mayor grado de heterogeneidad. Por otra parte, son los rasgos individuales de los estudiantes, tales como carrera, edad, sexo, experiencia académica, interés previo por el curso, entre otros. Si se quisieran tomar en cuenta esos aspectos, habría que renunciar al anonimato de la encuesta, lo que podría introducir otro sesgo. 9. Conclusiones Los resultados del presente estudio tienen implicaciones tanto para la administración del Instituto como para los profesores. Los administradores y directivos deberían estar conscientes de que la OGP que recibe cada profesor está en gran medida afectada por factores fuera del control de ése, por lo que no constituye un indicador muy adecuado para medir el desempeño del profesor. Siempre habrá que tomar en cuenta otros criterios. Especialmente, habría que ver por una unificación de criterios en cuanto a los exámenes aplicados a los estudiantes para evitar que los promedios introduzcan un sesgo demasiado fuerte. Por otra parte, el hecho de que alguna materia fuera evaluada consistentemente más baja que otra indica que habría que trabajar su contenido y didáctica. González y Hartmann, p. 9 El resultado más contundente para el profesor es probablemente el hecho de que el factor que más toman en cuenta los estudiantes a la hora de evaluar su labor es la calidad de la materia enseñada. Por lo tanto, valdrá la pena invertir tiempo y esfuerzo en el desarrollo del contenido y la didáctica de las materias. Sin embargo, para medir este efecto habría que diseñar encuestas más detalladas que se refirieran a los contenidos y métodos específicos. Tales encuestas podrían usarse para medir el efecto de la mejora continua sobre los cursos rediseñados. Sugerimos que se haga un estudio similar con la OGC ya que también es una variable compuesta (que incluye factores como: diseño curricular, metodologías, formato, antecedentes de los alumnos, ponderaciones, entre otras) y es la que en mayor medida afecta la evaluación del profesor. González y Hartmann, p. 10 8. Referencias Cheung, D. (1998). Developing a student evaluation instrument for distance learning. Distance Education, 19(1), 23-42. Davidson, Russell and James G. MacKinnon (1989) “Testing for Consistency using Artificial Regressions,” Econometric Theory, 5, 363–384. Davidson, Russell and James G. MacKinnon (1993) Estimation and Inference in Econometrics, Oxford University Press. Glass, G. V., McGaw, B. y Smith, M. L. (1981). Meta-analysis in social research. Beverly Hills, CA: Sage. Greenwald, A. G. y Gillmore, G. M. (1997). Grading leniency is a removable contamination of student ratings. American Psychologist, 52, 1209-1217. Langbein, L. (1994). The validity of student evaluations of teaching. Political Science and Politics, Sept. 1994, 545-558. Marks, R. B. (2000). Determinants of student evaluation of global measures of instructor and course value. Journal of Marketing Education, Aug. 2000, 108-119. Marsh, H. W. (1984). Students’ evaluation of university teaching: Dimensionality, reliability, validity, potential biases, and utility. Journal of Educational Psychology, 76, 707-754. McKeachie, W. J. (1997). Student ratings: The validity of use. American Psychologist, 52, 1218-1225. Radmacher, S. A. y Martin, D. J. (2001). Identifying significant predictors of student evaluation of faculty through hierarchical regression analysis. The Journal of Psychology, 135(3), 259-268. Simpson, P. M. y Siguaw, J. A. (2000) Student evaluation of teaching: An exploratory study of the faculty response. Journal of Marketing Education, Dec. 2000, 199-213 Tang, T. L. P. (1997). Teaching evaluation at a public institution of higher education: Factors related to the overall teaching effectiveness. Public Personnel Management, 26(3), 379389. Wachtel, H. K. (1998). Student evaluation of college teaching effectiveness: a brief review. Assessment & Evaluation in Higher Education, 23(2), 191-211. González y Hartmann, p. 11