Un análisis estadístico de los factores que afectan la evaluación del

Anuncio
ITESM – Campus Monterrey
XXII Reunión de Intercambio de Experiencias en Estudios sobre Educación, año 2004
Un análisis estadístico de los factores que afectan la evaluación del profesor en grupos
múltiples del Departamento de Sistemas de Información del ITESM, Campus Monterrey
Martín González Martínez
Departamento de Sistemas de Información
Andreas Hartmann Ehlich
Departamento de Lenguas Modernas
Diciembre 2004
Resumen
Este trabajo consiste en una investigación sobre los factores que influencian la opinión de
los estudiantes sobre la labor del profesor universitario. Como muestra se usan datos sobre varios
cursos del área de computación, negocios electrónicos y comercio electrónico ofrecidos a lo
largo de un año en el ITESM, Campus Monterrey, por el departamento de Sistemas de
Información. Se usó un procedimiento de regresión lineal múltiple para analizar 9 factores que
afectan la Opinión Global del Profesor (OGP). Se comprobó la hipótesis de que las calificaciones
otorgadas por el Profesor están relacionadas directamente con su evaluación, indicando que en
principio, los profesores que desean recibir una mejor evaluación deberían evaluar también
mejor a sus alumnos. Además se estableció una fuerte relación entre la OGP y la Opinión Global
del Curso (OGC), de lo que se puede inferir que la OGP no depende sólo del profesor si no
también de la calidad percibida de la materia que imparte. Por lo tanto, el uso de la OGP como
criterio de evaluación de la labor docente debería tomar en cuenta otros factores, como la
naturaleza de la materia impartida.
1. Introducción
Dentro del ITESM existe la práctica sistemática de aplicar encuestas a los estudiantes,
donde éstos evalúan el desempeño de sus profesores. La finalidad de las encuestas es doble: Por
una parte, están destinadas a proporcionar una retroalimentación al profesor particular, para que
éste tenga información fidedigna de cómo mejorar continuamente su trabajo. Por otra parte, el
Instituto usa las encuestas como herramienta administrativa y disciplinaria, es decir para
determinar aumentos de sueldos, condicionar promociones y justificar eventuales despidos de los
maestros mal evaluados.
Sobre todo a raíz de la segunda finalidad, existe una constante crítica de la encuesta,
misma que ha sufrido varias modificaciones en su formato durante los últimos años. Sin
embargo, nunca quedó totalmente claro si la encuesta en verdad mide lo que pretende medir, o si
sus resultados dependen más de otros factores, sobre todo la naturaleza del curso mismo y el
nivel de calificaciones que cada profesor otorga a sus alumnos. Existe, pues, una gran
incertidumbre acerca de la validez de ese instrumento.
En este trabajo se aplica un procedimiento de regresión múltiple a una muestra bastante
homogénea de cursos para establecer si es posible resolver algunos de los cuestionamientos
mencionados anteriormente aplicando métodos estadísticos.
González y Hartmann, p. 1
2. Revisión de la literatura
En nuestras investigaciones bibliográficas, no pudimos encontrar ningún trabajo riguroso
aplicado a los resultados de las encuestas en el ITESM. Por ende, revisamos algunos artículos de
la literatura internacional que describe diferentes aspectos de las encuestas contestadas por
estudiantes universitarios acerca del desempeño de sus docentes. Según algunos autores que han
revisado la literatura al respecto (Langbein, 1994; Wachtel, 1998), sigue en disputa el meollo de
la cuestión, a saber, si las encuestas miden la calidad de la enseñanza o el grado de popularidad
del profesor.
En general, la extensa literatura sobre las evaluaciones contestadas por estudiantes
demuestra un consenso en que hay varios factores que pueden introducir un sesgo sobre la
medición del desempeño del profesor. Cheung (1998) percibió que “la efectividad de la
enseñanza es un constructo multidimensional”, para el que no existe un criterio universalmente
aceptado.
Glass, McGaw y Smith (1981), por ejemplo, demostraron que los estudiantes evalúan
mejor a los profesores cuando los grupos tienen un número más reducido de estudiantes.
Greenwald y Gillmore (1997) llegaron a resultados similares, aunque McKeachie (1997)
encontró que los docentes ineficientes no pueden comprar una buena evaluación positiva
otorgando calificaciones altas. Esto sugiere que la relación entre evaluaciones y calificaciones
podría ser no lineal sobre todo el espectro de calificaciones.
A nivel de los estudiantes individuales, Langbein (1994) encontró que la calificación
esperada tenía un efecto negativo sobre el resultado de la encuesta, lo que la autora interpretó en
el sentido de que los estudiantes con mejores calificaciones adoptan una actitud más crítica frente
a sus profesores. De manera paralela, Marks (2000) sugiere la aparente paradoja de que el
aprendizaje es más profundo precisamente cuando el profesor no expone bien el material,
dejándoles a los estudiantes la tarea de descubrir por sí mismos muchos aspectos del material.
En los estudios sobre encuestas aplicadas en universidades estadounidenses, el efecto del
sexo del profesor sobre la evaluación obtenida no presenta un comportamiento constante, a pesar
de que existe cierta tendencia hacia resultados más desfavorables en el caso de las profesoras
(Langbein, 1994). En su propio estudio, la misma autora encontró efectos de interacción del
profesor con factores como el tiempo de asesoría ofrecida o las calificaciones esperadas por los
propios estudiantes (Langbein, 1994).
Existe otro enfoque de investigación que intenta relacionar los rasgos psicológicos de
profesores y estudiantes con los resultados de las encuestas. En esta vena, Radmacher y Martin
(2001) encontraron que el mejor predictor para una evaluación favorable era la extroversión del
profesor, lo que confirma los resultados de otros investigadores, como por ejemplo el artículo
muchas veces citado de Marsh (1984).
Marks (2000) realizó un análisis factorial donde encontró que los estudiantes evaluaban
en base a cinco dimensiones perceptivas: simpatía/preocupación, carga de trabajo/dificultad,
expectativas sobre calificación/justicia y organización del curso. Sin embargo, el autor afirmó
que las encuestas a estudiantes no reflejaban el nivel de enseñanza-aprendizaje, ya que los
encuestados no estaban en condiciones de evaluar su propio aprendizaje, por lo que evaluaban en
base a sustitutos como los indicados arriba. Esta apreciación parece ser compartida por un gran
número de profesores, que sienten que las evaluaciones con frecuencia no le hacen justicia a su
trabajo y que pueden inducir a conductas éticamente cuestionables (Simpson y Siguaw, 2000).
González y Hartmann, p. 2
En la literatura también se encuentra la postura contraria, como por ejemplo en el estudio
de Tang (1997), cuyos datos indicaron que los estudiantes son “razonablemente justos” cuando la
encuesta porta sobre aspectos individuales de las actividades magisteriales.
3. Propósito del presente trabajo
El propósito general de este trabajo es indagar si la encuesta a los estudiantes, en la forma
particular como se aplica en el ITESM, permite hacer predicciones acerca de su resultado en base
a los datos disponibles. Específicamente, se trata de establecer si existen factores que están fuera
del control del profesor y que influencian sistemáticamente los resultados de las encuestas. Para
ello aplicamos un procedimiento de regresión múltiple a una muestra bastante homogénea de
cursos para establecer si es posible resolver algunos de los cuestionamientos mencionados
anteriormente aplicando métodos estadísticos. Específicamente, trataremos de contestar la
pregunta de si la opinión de los alumnos sobre su profesor depende de los siguientes factores:
-
la materia impartida en sí
la opinión general sobre la materia impartida
las calificaciones promedio de cada grupo
el porcentaje de alumnos aprobados
el tamaño del grupo
el porcentaje de los alumnos encuestados
el horario de los cursos
el ciclo semestral cuando se imparte del curso
el sexo del profesor que imparte el curso
4. Método de investigación
4.1. Participantes
Las encuestas fueron contestadas por estudiantes de las siguientes materias: Computación
para las Ciencias Sociales, Comercio Electrónico, Administración de Negocios Electrónicos y
Administración de Proyectos de Informática. Los estudiantes pertenecen a los planes de estudio
de las carreras profesionales de: LAE, LIN, LRI, LCC y LEM.
Los profesores están asignados al Departamento de Sistemas de Información. Para cada
una de las cuatro materias, existe un sistema estandarizado en cuanto a planes de estudio y libros
de texto.
Todos los cursos fueron impartidos de forma presencial con apoyo en una plataforma
tecnológica.
4.2 Materiales
Los datos provienen de dos tipos de fuentes:
• Resúmenes de una encuesta anónima aplicada por internet con clave personalizada para
cada estudiante,
• Listas finales de cada curso con nombre del profesor, promedio general del grupo y
porcentaje de alumnos aprobados.
4.3 Variable dependiente
Se usa como variable dependiente el valor OGP (opinión global del profesor), el que
supuestamente resume la impresión que tiene el estudiante del desempeño general de su profesor.
En la encuesta, se trata de una escala Likert que va de 1 (excelente) a 7 (pésimo). Por el formato
anónimo de la encuesta, sólo se tienen los resúmenes de cada grupo.
González y Hartmann, p. 3
4.4 Variables independientes
Inicialmente, disponíamos de 9 variables independientes, las que se resumen en la
siguiente tabla:
1
MAT
Materia impartida (variable cuaternaria)
2
OGC
Opinión general del curso
3
CAL
Promedio de las calificaciones finales de cada grupo (que se usó en forma logarítmica por el
comportamiento mostrado en estudios previos)
4
APR
Porcentaje de alumnos aprobados (que se usó en forma logarítmica por el comportamiento
mostrado en estudios previos)
5
ENC
Porcentaje de alumnos encuestados
6
HOR
Horario de los cursos (mañana/tarde/noche)
7
SEM
Ciclo semestral (semestre normal/verano)
8
SEX
Sexo del profesor (variable binaria)
9
TAM
Tamaño del grupo
5. Procedimiento estadístico
Se plantea un modelo de regresión lineal múltiple (con 2 de las variables logaritmizadas).
Para que el modelo resultara más manejable y significativo, se aplicó un procedimiento de
análisis factorial para reducir las 10 variables iniciales. Esto también ayuda con el problema
sospechado de endogeneidad entre la variable OGP (dependiente) y OGC, CAL y APR
(independientes). De hecho, en una prueba exploratoria sin agrupación en factores se detectó
endogeneidad entre OGP, OGC y CAL.
6. Resultados
6.1 Análisis factorial
Para reducir el número de variables, hacer el modelo más claro y tener una mayor
significancia estadística, mediante el análisis de factores, obtuvimos la siguiente gráfica de
eigenvalues:
González y Hartmann, p. 4
Gráfico de sedimentación
4
3
2
Autovalor
1
0
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
Número de componente
La gráfica indica que podemos usar entre 5 y 9 componentes.
Cuando se hizo la prueba para 6, 7, 8 y 9 componentes se observaba que los últimos
factores siempre quedaban sin utilizar. Cuando se hizo para 5 componentes y con rotación
Varimax (se probó con varios tipos de rotación) obtuvimos la mejor, y además fue lógicamente
agrupable:
Matriz de componentes rotados
Componente
1
2
3
5
6
HOR2
-0.889
0.029
-0.022
-0.038
0.091
HOR1
0.874
0.167
-0.072
-0.136
-0.064
SEX
0.617
0.349
-0.059
-0.147
0.341
REP
-0.099
-0.942
0.056
0.006
0.152
CAL
0.167
0.922
-0.101
0.167
-0.058
OGC
-0.294
-0.154
0.682
0.031
0.225
MAT1
0.053
0.010
-0.001
0.913
-0.159
MAT2
0.057
-0.041
-0.257
-0.933
0.001
MAT3
-0.164
0.147
-0.485
0.741
0.131
SEM
-0.052
-0.127
0.018
-0.027
0.862
ENC
-0.035
0.057
-0.296
0.472
0.684
TAM
0.082
-0.202
0.402
0.010
0.492
Método de
extracción:
Análisis de componentes principales.
Método de rotación: Normalización Varimax
con Kaiser.
La rotación ha convergido en 8 iteraciones.
Por lo tanto, reducimos a sólo 5 variables que son:
González y Hartmann, p. 5
Nombre
Variables
Comentario
GRADOS
APR, CAL
Se unen las variables que indican promedio de calificaciones y porcentaje de
alumnos aprobados
OGC
OGC
Opinión Global del curso queda sola
HORARIO
HOR1, HOR2,
SEX
Horario se unió con sexo muy posiblemente por que la mayoría de los profesores
que imparten las clases por la mañana son mujeres, en la tarde y noche se tiene
predominancia de hombres
MATERIA
MAT1, MAT2,
MAT3
Se unieron las diferentes materias a impartir
ALUMNOS
SEM, ENC,
TAM
El tamaño del grupo va relacionado con el semestre, ya que se tienen ciclos de
mayor o menor cantidad de alumnos por semestre, la cantidad de alumnos que
llena la encuesta también va en ese orden
6.2. Resultados de la regresión
La regresión usando los seis factores indexados queda:
OGP = 0.538 - 0.298*GRADOS + 0.789*OGC + 0.682*HORARIO - 0.103*MATERIA 0.189*ALUMNOS
Regression Equation Section
Independent
Regression
Standard T-Value
Variable
Coefficient
Error
Prob
Decision
(Ho: B=0) Level
-0.1000
Power
-0.1000
Intercept
0.5381
0.2844
1.8917
0.0634Reject Ho
0.5894
GRADOS
-0.2977
0.1296
-2.2974
0.0251Reject Ho
0.7346
OGC
0.7893
0.4517
1.7475
0.0857Reject Ho
0.5334
HORARIO
0.6824
0.0995
6.8617
0.0000Reject Ho
1.0000
MATERIA
-0.1032
0.1202
-0.8581
0.3943Accept Ho
0.2192
ALUMNOS
-0.1891
0.1116
-1.6942
0.0954Reject Ho
0.5125
R-Squared
0.6583
De esto se desprende que la variable HORARIO no tiene significancia dentro del modelo.
6.3. Pruebas de endogeneidad
A las variables GRADOS y OGC se les hizo una prueba de Hausman aumentada (versión
propuesta por Davidson y MacKinnon (1989, 1993)), donde se utilizó como variable
instrumental una variable nueva ANT que es un proxy de antigüedad para encontrar los
residuales de GRADOS y OGC. ANT está definido por el número progresivo de nómina
(dividido entre 100,000), el cual es asignado a todos los profesores del ITESM al momento de
firmar su primer contrato. Se trata pues de una aproximación a la antigüedad del profesor en el
Instituto. La prueba de Hausman aumentada nos dice que hay endogeneidad si en una regresión
2SLS el coeficiente del residual es estadísticamente diferente de cero (H0: β=0 por tanto existe
endogeneidad).
González y Hartmann, p. 6
Prueba para OGC
Variable
Coefficient
Std. Error
t-Statistic
Prob.
RES_OGC
-0.752862
2.205774
-0.341314
0.7341
Variable
Coefficient
Std. Error
t-Statistic
Prob.
RES_GRADOS
-0.565564
1.657017
-0.341314
0.7341
Prueba para Grados
Por lo que, para ambos factores, aceptamos la consistencia de la regresión OLS y la no
endogeneidad del modelo.
6.4. Pruebas de normalidad de los datos
Normality Tests Section
Assumption Value
Skewness
Probability Decision (10%)
-1.4580
0.1448
Accepted
Kurtosis
1.5465
0.1220
Accepted
Omnibus
4.5174
0.1045
Accepted
Entonces, los datos pasan las pruebas de normalidad.
6.5 Prueba de autocorrelación
Durbin-Watson Value
2.0833
El valor Durbin Watson cae en zona de NO-autocorrelación (1.404 – 1.805) al darnos un
resultado de 2.0833.
6.6 Prueba de multicolinealidad
Los eigenvalues no indican multicolinealidad.
Eigenvalues of Centered Correlations
No.
Eigenvalue
Incremental
Cumulative
Condition
Percent
Percent
Number
1.0000
4.7538
79.2300
79.2300
1.0000
2.0000
0.8446
14.0800
93.3100
5.6300
3.0000
0.2006
3.3400
96.6500
23.6900
4.0000
0.1316
2.1900
98.8400
36.1100
5.0000
0.0693
1.1600
100.0000
94.7200
6.7 Prueba de heteroskedasticidad
González y Hartmann, p. 7
Dispersión de errores
1
Residuales
0.5
0
1
1.5
2
2.5
3
3.5
4
-0.5
-1
-1.5
OGP estimada
Por el método gráfico, se determinó que no existe heteroskedasticidad.
7. Discusión de los Resultados
Los componentes utilizados para la regresión nos dan una buena explicación de la
variable dependiente OGP, pues nos da un 0.6241, lo que significa que el modelo explica un
62.41% de la variación total en la muestra. Esto significa que el desempeño del profesor sólo
puede afectar un 38% de su evaluación, sujeto a que los estudiantes tengan el discernimiento de
separar los conceptos de OGP y OGC. Ninguno de los factores es mayor (en valor absoluto) a
uno, por lo que podemos afirmar que OGP es un indicador compuesto de múltiples dimensiones,
y ninguna de ellas es lo suficientemente grande como para poder mover la OGP por sí sola.
El coeficiente de GRADOS nos muestra que a mayor promedio de calificaciones y de
alumnos aprobados, mejor será el OGP del profesor. Esto apoya la teoría de que las evaluaciones
de los profesores están directamente relacionadas con la laxitud en las calificaciones que otorgan
(McKeachee, 1997). El sistema de evaluación interna podría entonces inducir a algunos
profesores a una conducta no ética, en el sentido de que asignarían a sus alumnos, mejores
calificaciones para obtener una mejor evaluación de parte de sus alumnos.
El coeficiente de OGC está positivamente correlacionado que la OGP y muestra que los
alumnos califican mejor a los profesores que a los cursos que se les imparten, esto se puede
comprobar comparando las medias de cada variable, para OGC es 2.27 y para OGP es 1.86.
Estas variables se pueden comparar directamente, ya que tienen una escala idéntica (de 1 a 7). La
González y Hartmann, p. 8
OGC tiene un mayor peso que los demás factores en la determinación de la OGP, pues el factor
de 0.789 implica que por cada unidad que se mueva OGC, OGP se moverá 0.789. Por lo tanto,
para mejorar la encuesta del profesor es necesario mejorar el diseño curricular del curso, o
mejorar la apreciación que los alumnos tengan del mismo.
El coeficiente de Horario nos indica que la hora a la que se imparte el curso afecta
negativamente la opinión de los alumnos hacia su profesor (OGP). Esto puede ser debido al
cansancio que tengan los alumnos, el profesor o ambos. Podemos concluir que en horarios
vespertinos o nocturnos la OGP empeora. Los datos disponibles no permiten discernir si el sexo
del profesor afecta o no en este coeficiente, ya que solamente un profesor de género masculino
imparte su clase por la mañana. Pero no podemos cuantificar en qué grado las variaciones en la
OGP son debido al horario o al género en este factor.
El factor MATERIA no afecta significativamente el valor de la OGP, por lo que podemos
decir que los alumnos tienen opiniones similares de sus profesores sin importar qué materia estén
cursando.
El coeficiente de ALUMNOS nos indica que a mayor cantidad de alumnos en el grupo o
a mayor cantidad de alumnos que llenen la encuesta de evaluación del profesor, ésta mejorará, lo
que contradice la teoría en el sentido de que la OGP dependería de la cantidad de tiempo
promedio de atención que el profesor dedica a sus alumnos (Glass, McGaw y Smith, 1981). Se
podría interpretar en el sentido de que para las materias que entraron en este estudio, los alumnos
no aprecian el contacto personal con el profesor.
8. Limitaciones del presente estudio
La primera observación que debe hacerse frente a este estudio es que la muestra tomada
en los cursos de un solo departamento académico no puede ser representativa de todas las
materias impartidas en el ITESM, aunque es indicativa de algunas tendencias generales. Por
ejemplo, ha de suponerse que en las materias que requieran de más retroalimentación e
interacción entre el alumno y el profesor, el tamaño del grupo se convierte en un factor de mayor
importancia.
Luego existen muchos factores que también podrían influir en los resultados y que no
fueron tomados en cuenta en esta investigación: Por una parte, son los rasgos individuales del
profesor como edad, procedencia, estudios previos y experiencia docente fuera del ITESM. Para
tomar en cuenta esos factores, habría que considerar una muestra más grande con mayor grado
de heterogeneidad. Por otra parte, son los rasgos individuales de los estudiantes, tales como
carrera, edad, sexo, experiencia académica, interés previo por el curso, entre otros. Si se
quisieran tomar en cuenta esos aspectos, habría que renunciar al anonimato de la encuesta, lo que
podría introducir otro sesgo.
9. Conclusiones
Los resultados del presente estudio tienen implicaciones tanto para la administración del
Instituto como para los profesores. Los administradores y directivos deberían estar conscientes
de que la OGP que recibe cada profesor está en gran medida afectada por factores fuera del
control de ése, por lo que no constituye un indicador muy adecuado para medir el desempeño del
profesor. Siempre habrá que tomar en cuenta otros criterios. Especialmente, habría que ver por
una unificación de criterios en cuanto a los exámenes aplicados a los estudiantes para evitar que
los promedios introduzcan un sesgo demasiado fuerte. Por otra parte, el hecho de que alguna
materia fuera evaluada consistentemente más baja que otra indica que habría que trabajar su
contenido y didáctica.
González y Hartmann, p. 9
El resultado más contundente para el profesor es probablemente el hecho de que el factor
que más toman en cuenta los estudiantes a la hora de evaluar su labor es la calidad de la materia
enseñada. Por lo tanto, valdrá la pena invertir tiempo y esfuerzo en el desarrollo del contenido y
la didáctica de las materias. Sin embargo, para medir este efecto habría que diseñar encuestas
más detalladas que se refirieran a los contenidos y métodos específicos. Tales encuestas podrían
usarse para medir el efecto de la mejora continua sobre los cursos rediseñados.
Sugerimos que se haga un estudio similar con la OGC ya que también es una variable
compuesta (que incluye factores como: diseño curricular, metodologías, formato, antecedentes
de los alumnos, ponderaciones, entre otras) y es la que en mayor medida afecta la evaluación del
profesor.
González y Hartmann, p. 10
8. Referencias
Cheung, D. (1998). Developing a student evaluation instrument for distance learning.
Distance Education, 19(1), 23-42.
Davidson, Russell and James G. MacKinnon (1989) “Testing for Consistency using
Artificial Regressions,” Econometric Theory, 5, 363–384.
Davidson, Russell and James G. MacKinnon (1993) Estimation and Inference in
Econometrics, Oxford University Press.
Glass, G. V., McGaw, B. y Smith, M. L. (1981). Meta-analysis in social research.
Beverly Hills, CA: Sage.
Greenwald, A. G. y Gillmore, G. M. (1997). Grading leniency is a removable
contamination of student ratings. American Psychologist, 52, 1209-1217.
Langbein, L. (1994). The validity of student evaluations of teaching. Political Science
and Politics, Sept. 1994, 545-558.
Marks, R. B. (2000). Determinants of student evaluation of global measures of instructor
and course value. Journal of Marketing Education, Aug. 2000, 108-119.
Marsh, H. W. (1984). Students’ evaluation of university teaching: Dimensionality,
reliability, validity, potential biases, and utility. Journal of Educational Psychology, 76, 707-754.
McKeachie, W. J. (1997). Student ratings: The validity of use. American Psychologist,
52, 1218-1225.
Radmacher, S. A. y Martin, D. J. (2001). Identifying significant predictors of student
evaluation of faculty through hierarchical regression analysis. The Journal of Psychology,
135(3), 259-268.
Simpson, P. M. y Siguaw, J. A. (2000) Student evaluation of teaching: An exploratory
study of the faculty response. Journal of Marketing Education, Dec. 2000, 199-213
Tang, T. L. P. (1997). Teaching evaluation at a public institution of higher education:
Factors related to the overall teaching effectiveness. Public Personnel Management, 26(3), 379389.
Wachtel, H. K. (1998). Student evaluation of college teaching effectiveness: a brief
review. Assessment & Evaluation in Higher Education, 23(2), 191-211.
González y Hartmann, p. 11
Descargar