Análisis de Resultados a partir de Instrumentos Estandarizados Dr. Manuel Jorge González Montesinos1 Departamento de Ciencias Sociales Universidad de Sonora Unidad Regional Norte INVURNUS, Revista Académica 1(1), 51-62 Resumen La practica de la evaluación educativa requiere siempre de un proceso previo e indispensable de medición del los resultados del aprendizaje. Cuando se utilizan instrumentos estandarizados para realizar la medición, se requiere a su vez examinar la confiabilidad y validez de los mismos. Esta ponencia describe una metodología en 2 etapas para analizar los resultados de instrumentos estandarizados para determinar si los resultados de la medición indican que los instrumentos se ajustan a criterios técnicos sólidos. La exposición se basa en una descripción de la metodología aplicada en un proyecto de investigación doctoral realizado en el Estado de Sonora entre 2003 y 2004. Esta ponencia describe los fundamentos del estudio, los recursos metodológicos empleados y los resultados obtenidos. Abstract Practice of evaluation in education always requires of a previous and indispensable process of measurement of the results of learning. When standardized instruments are used to make the measurement, it is required as well to examine the reliability and validity of such instruments. This communication describes a two stages methodology to analyze the results of standardized instruments to determine if the results of the measurement indicate that the instruments adjust to solid technical criteria. The content is based on a description of the methodology applied in a project of doctoral investigation made in the State of Sonant between 2003 and 2004. This communication describes the foundations of the study, the methodological resources used and the obtained results. 1 Profesor de carrera, Departamento de Ciencias Sociales, Universidad de Sonora, Unidad Regional Norte, Campus Caborca. Apdo. Postal #234 Caborca Sonora, CP. 83600. Correo electrónico: [email protected] 1 Introducción Cuando una institución de educación adopta un instrumento estandarizado de medición para generar la información que le permita evaluar los resultados del proceso de enseñanza aprendizaje, de hecho esta adoptando una serie de estándares de desempeño. Frecuentemente, estos estándares permanecen implícitos durante los procesos como también permanecen implícitas las propiedades técnicas de instrumento. Una práctica de evaluación responsable y técnicamente sólida exige que estándares de desempeño subyacentes se hagan explícitos de manera los conjunta a las propiedades de los instrumentos que se emplean para medir los resultados del aprendizaje. Para esta serie de definiciones, la alternativa realmente apropiada es la aplicación de procedimientos estadísticos inferenciales que complementen y superen la práctica común de solo reportar estadísticas descriptivas sobre el desempeño de los estudiantes evaluados Este trabajo sostiene que aplicando los medios inferenciales apropiados., no solo se explicitan estándares académicos sino que también y mas importante se explicitan las características del desempeño del instrumento mismo. Descripción del Estudio El proyecto del que se reportan resultados en este artículo se realizo durante 2004, recolectando la información sobre el desempeño los estudiantes egresados del Sistema de Educación Media Superior del Estado de Sonora. En este estudio, la cohorte 2003 es de N=5046, y la cohorte 2004 es de N=5888. Ambas se integraron con aspirantes que presentaron el Examen de Habilidades y Conocimientos Básicos (EXHCOBA) como aspirantes a ingresar a la Universidad de Sonora. La estadística descriptiva de los resultados utilizar el Sistema EXHCOBA se presentan a continuación: 2 Tabla 1 Desempeño Promedio en EXHCOBA 2003 Sección Puntos Posibles Media DE Habilidades Verbales 30 17.63 4.50 Habilidades Matemáticas 30 16.10 6.55 Conoc. Básicos Español 20 8.07 2.55 Conoc. Básicos. Matematicas15 6.04 3.31 Conoc. Básicos C. Naturales 15 11.50 3.21 Conoc. Básicos C. Sociales. 20 9.92 3.60 Conocimientos Area 1 20 7.87 4.15 Conocimientos Area 2 20 9.40 3.25 Conocimientos Area 3 20 9.60 3.75 Total Aciertos 190 96.11 25.90 Puntaje Final 190 77.14 31.13 Promedio Egreso MS 100 80.52 7.94 2004 Media DE 18.30 4.52 7.34 6.50 8.30 2.52 6.50 3.40 12.00 3.24 0.16 3.45 8.67 4.05 9.43 3.30 9.43 3.90 100 25.50 82.04 30.88 82.00 8.12 ___ Fuente: González M. (2004) La Definición y Medición de Estándares Académicos para la Educación Superior. Tesis Doctoral, Departamento de Psicología Educativa Universidad de Arizona. Como puede observarse le desempeño promedio de los aspirantes no rebasa el 60% de aciertos en las sub-secciones del EXHCOBA, lo que implica que si se aplicara la norma convencional de 60 % de aprobación en promedio los sustentantes no aprueban el examen de admisión. El desempeño por sub-secciones EXHCOBA de la Cohorte 2002 (Gonzalez, L. 2003) se presenta en la siguiente tabla: Tabla 2 2003 Proporción de Aciertos en Secciones EXHCOBA Sección Porcentaje de Aciertos_____No. De Reactivos Habilidades Básicas Verbal 60% 30 Cuantitativa 53% 30 Conocimientos Básicos Español 53% 15 Matemáticas 40% 15 Ciencias Naturales 55% 20 Ciencias Sociales 50% 20 Conocimientos por Areas de Carrera Matemáticas –Estadística 35% 20 Ciencias Sociales 45% 20 3 Económico Administrativas 45% 20 Matemáticas – Calculo 40% 20 Biología 50% 20 Química 35% 20 Física 50% 20 Español 55% 20 Humanidades 60% 20 Ingles 82% 60 ________________________________________________________________________ Nota: Sustentantes del Examen: 2003 n = 5046 aspirantes. Fuente: González, G. (2004.)Perfil de Ingreso e los Estudiantes de Bachillerato. Universidad de Sonora, Dirección de Planeación Teniendo en cuenta el desempeño observado, en le estudio que se reporta se decidió poner a prueba una metodología en 3 etapas que permitiera evaluar 2 aspectos fundamentales: a) Las propiedades psicometrícas del EXHCOBA para determinar su confiabilidad y validez interna. b) El desempeño académico de los sustentantes del EXHCOBA con énfasis particular en la detección de los niveles de habilidad y conocimientos observados a través del EXHCOBA. Para el primer aspecto las propiedades psucometricas del instrumento se estudiaron mediante Análisis Factorial; Exploratorio (AFE) y Análisis Factorial Confirmatorio (AFC). Para el segundo aspecto, desempeño académico se utilizó la Teoría Respuesta al Reactivo (TRR) aplicando el Modelo Monoparmetrico de Rasch para obtener calibraciones de dificultad de reactivo y habilidad de los respondentes. Cabe señalar que los análisis estadísticos se realizaron con los datos generados pro la aplicación del EXHCOBA a la cohorte 2004 (N= 5888). 4 Para lograr una validación cruzada, se su subdivido la población N= 5888 en 2 muestras seleccionadas al azar. Para la selección aleatoria de utilizo la función “Random Sampliing” del paquete SPSS. La primera muestra aleatoria se analizo utilizando el procedimiento de Análisis Factorial exploratorio. La segunda muestra aleatoria se analizan con el procedimiento de Análisis Factorial Confirmatorio. A continuación se describe la aplicaron de esat metodología en 2 fases ejemplificando resultados obtenidos de las 2 primeras sub-escalas del EXHCOBA: Habilidades Verbales y Habilidades Cuantitativas. Los primeros 60 reactivos del instrumento corresponden a estas sub-escalas. Análisis Factorial Exploratorio Para llevar a cabo esta fase se selecciono un programa que permita extraer los factores en la estructura de los datos cuando las variables son binarias. (1= acierto, 0= error) por reactivo. En estos casos se analiza una matriz de correlaciones tetracoricas. El programa TESTFACT elaborado por D. Bock y colaboradores (1988), implementa el análisis factorial en matrices de correlaciones tetracoricas. Para la primera sección de EXHOCBA se espera que la estructura de los datos se reduzca a 3 factores: Habilidad General, Habilidad Verbal y Habilidad Cuantitativa. La programación TESFACT para comprobar la posible presencia de estos 3 factores se presenta a continuación: 5 >TITLE EFA1.TSF - EFA DATA FULL-INFORMATION ITEM FACTOR ANALYSIS >PROBLEM NITEMS=60, RESPONSE=3; >COMMENTS EXHCOBA SUB-TEST 1A LANG - MATH BASIC ABIL Full-information item factor analysis VARIMAX rotation Data layout: COLUMN1 TO 60 Item Responses >NAMES ITEM1,ITEM2,ITEM3,ITEM4,ITEM5,ITEM6,ITEM7,ITEM8, ITEM9, ITEM10,ITEM11,ITEM12,ITEM13,ITEM14,ITEM15, ITEM16,ITEM17,ITEM18,ITEM19,ITEM20,ITEM21,ITEM22, ITEM23,ITEM24,ITEM25,ITEM26,ITEM27,ITEM28,ITEM29, ITEM30,ITEM31,ITEM32,ITEM33,ITEM34,ITEM35,ITEM36, ITEM37,ITEM38,ITEM39,ITEM40,ITEM41,ITEM42,ITEM43, ITEM44,ITEM45,ITEM46,ITEM47,ITEM48,ITEM49,ITEM50, ITEM51,ITEM52,ITEM53,ITEM54,ITEM55,ITEM56,ITEM57, ITEM58,ITEM59,ITEM60; >RESPONSE ' ','0','1'; >KEY 111111111111111111111111111111111111111111111111111111111111; >TETRACHORIC NDEC=3, LIST; >FACTOR NFAC=3,NROOT=4,ROTATE=VARIMAX, RESIDUAL, SMOOTH; >FULL CYCLES=200; QUAD=8; >TECHNICAL NOADAPT; QUAD=8; >SAVE SMOOTH, ROTATED, PARM; >INPUT FILE='EFA1.DAT' NIDCHAR=20; (20A1,T1,60A1) >STOP Al correr el programa con la estructura factorial hipotética NFAC=3, se obtuvieron los siguientes resultados: 6 Tabla 3 Patrones de Carga de Reactivos EXHCOBA 1 a 60: Habilidades Básicas Item Factor 1 Factor2 Factor 3 ITEM1 ITEM4 ITEM5 ITEM6 ITEM8 ITEM12 ITEM14 ITEM21 ITEM22 ITEM24 ITEM31 ITEM32 ITEM33 ITEM34 ITEM35 ITEM36 ITEM37 ITEM38 ITEM39 ITEM40 ITEM41 ITEM42 ITEM43 ITEM44 ITEM45 ITEM46 ITEM47 ITEM48 ITEM49 ITEM50 . ITEM51 ITEM53 ITEM54 ITEM55 ITEM56 ITEM57 ITEM58 ITEM59 ITEM60 .14 .33 .11 .30 .14 .14 43 .13 .32 .38 .17 32 08 .39 .14 .33 .14 .30 .11 .29 21 .35 .20 .37 .24 .17 .35 .18 .36 15 .36 .28 .15 .-17 .14 .36 .08 .25 .06 .32 .17 .33 .33 .30 .41 .17 .30 .11 .24 .16 .17 .21 .14 .19 .22 .17 .19 .16 .16 .30 .09 .10 .07 .11 .08 .04 .08 .21 .13 .15 .13 .27 .17 .14 .15 .16 .24 .16 .13 .11 .10 .13 .13 .10 .13 .24 .13 .19 .36 .27 .33 .24 .32 .28 .32 .32 .44 .35 .33 .34 .43 .32 .41 .40 .34 .41 .23 .35 .28 .35 .35 .41 .36 .26 .36 .31 .42 Al examinar los 3 patrones de carga de los reactivos y considerando valores de carga mayores de .30 en los 3 factores hipotéticos, puede verse que el factor 1 corresponde a reactivos que requieren una habilidad general para resolución de problemas mientas que 7 los factores 2 y 3 muestran carga de reactivos que corresponden a las Habilidades Cuantitativas y Verbales respectivamente. Análisis Factorial Confirmatorio Para realizar la validación cruzada de estos resultadlos preliminares se aplico a la segunda muestra aleatoria una variación del programa TESFACT que se muestra enseguida: >TITLE CONFIRMATORY FACTOR ANALYSIS ON EXHCOBA DATA >PROBLEM NITEMS=60, RESPONSE=3; >COMMENTS EXHCOBA SUB-TEST 1A CONFIRM ONE GENERAL FACTOR AND 2 ITEM GROUP FACTORS AS AREAS: (1) LANG (2) MATH DATA layout: COLUMNS 1 TO 60 ITEM RESPONSES >NAMES ITEM1,ITEM2,ITEM3,ITEM4,ITEM5,ITEM6,ITEM7,ITEM8, ITEM9, ITEM10,ITEM11,ITEM12,ITEM13,ITEM14,ITEM15, ITEM16,ITEM17,ITEM18,ITEM19,ITEM20,ITEM21,ITEM22, ITEM23,ITEM24,ITEM25,ITEM26,ITEM27,ITEM28,ITEM29, ITEM30,ITEM31,ITEM32,ITEM33,ITEM33,ITEM34,ITEM35, ITEM36,ITEM37,ITEM38,ITEM39,ITEM40,ITEM41,ITEM42, ITEM43,ITEM44,ITEM45,ITEM46,ITEM47,ITEM48,ITEM49, ITEM50,ITEM51,ITEM52,ITEM53,ITEM54,ITEM55,ITEM56, ITEM57,ITEM58,ITEM59,ITEM60; >RESPONSE ' ','0','1'; >KEY 111111111111111111111111111111111111111111111111 111111111111; >TETRACHORIC NDEC=3,LIST; >BIFACTOR NIGROUPS=3, LIST=3, CYCLES=100 IGROUPS=(2,0,0,1,2,2,0,2,0,0,0,2,0,1,0,0,0,0,0,0, 2,1,0,1,0,0,0,0,0,0,3,1,3,1,3,1,3,3,3,3,3,3,3, 3,3,3,1,3,0,3,1,0,3,3,3,1,3,3,3,3), CPARMS=(0.1,0.1,0.1,0.1,0.1,0.1,0.1,0.1,0.1,0.1, 0.1,0.1,0.1,0.1,0.1,0.1,0.1,0.1,0.1,0.1, 0.1,0.1,0.1,0.1,0.1,0.1,0.1,0.1,0.1,0.1, 0.1,0.1,0.1,0.1,0.1,0.1,0.1,0.1,0.1,0.1, 0.1,0.1,0.1,0.1,0.1,0.1,0.1,0.1,0.1,0.1, 0.1,0.1,0.1,0.1,0.1,0.1,0.1,0.1,0.1,0.1); LIST=3, NDEC=3, RESIDUAL, SMOOTH; 8 >SAVE RESIDUAL, SMOOTH; >INPUT FILE='CFA1.DAT' NIDCHAR=20; (20A1,T1,60A1) >STOP Al correr el programa los resultados analizan mediante una comparación de la estadística χ2 la cual debe mostrar una reducción cuando se especifica el número correcto de factores a confirmarse. Bajo la hipótesis de un factor general y un factor especifico se obtiene χ2 = 162, 955.93, DF = 2933. La hipótesis alternativa de un factor general y dos factores específicos dan como resultados χ2 = 162,421.00, DF = 2895.La reducción en el valor de χ2 e es de : 162,955.93 − 162,421.00 = 534.93 con 2933-2895 = 38 DF. Este resultado permite confirmar la estructura factorial obtenida en la fase exploratoria ya que el valor critico de χ2 (38) = 61.162 at α = .01 . El valor obtenido es de 534.93 lo que confirma de manear definitiva la estructura factorial que se determinó en la fase exploratoria. Aplicación de la Teoría Respuesta Reactivo TRR Una vez confirmada la estructura factiorial de las dos primaras su-escalas de instrumento, se procedió a la tercer fase en las que se obtuvieron calibraciones de las características de los reactivos y las habilidades de los respondentes. Para este proceso se utilizó el programa WINSTEPS desarrollado por J.Linacre y colaboradores (2003) ya que este implementa el Modelo Monoparametrico Rasch. La siguiente tabla presenta las calibraciones de los primeros 30 reactivos: 9 Tabla 4 Calibraciones de reactivos f EXHCOBA 1 – 30: Habilidades Verbales ITEM 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 LOGIT 0.75 1.56 0.40 0.97 -1.19 -0.84 0.01 -0.77 0.32 0.42 0.22 0.47 -0.48 0.20 0.92 -1.33 0.65 -0.18 -1.49 -0.84 -0.75 -0.06 0.56 -0.28 -0.41 -0.08 0.73 0.46 -0.61 0.65 ERROR 0.04 0.04 0.04 0.04 0.05 0.05 0.04 0.04 0.04 0.04 0.04 0.04 0.04 0.04 0.04 0.05 0.04 0.04 0.05 0.05 0.04 0.04 0.04 0.04 0.04 0.04 0.04 0.04 0.04 0.04 INFIT MSQ 0.99 1.06 1.01 1.01 0.95 0.92 1.09 1.00 1.01 1.04 1.05 0.93 1.02 0.91 1.09 0.94 1.04 1.00 0.99 0.96 0.97 1.01 1.03 0.87 1.02 0.99 1.02 0.99 1.01 1.08 INFIT ZSTD -0.58 3.16 0.88 0.73 -1.70 -3.59 6.24 0.00 0.90 2.96 3.99 -5.99 0.99 -6.90 6.62 -1.83 3.35 0.25 -0.24 -1.61 -1.44 0.52 2.12 -8.37 1.08 -0.55 1.56 -0.98 0.32 6.55 OUTFIT MSQ 1.01 1.07 1.01 1.01 0.84 0.84 1.12 0.99 1.01 1.05 1.07 0.92 1.04 0.89 1.12 0.87 1.05 1.00 0.96 0.93 0.92 1.00 1.02 0.81 1.01 0.98 1.02 0.98 1.00 1.11 OUTFIT ZSTD 0.80 2.65 0.57 0.33 -3.67 -4.62 5.69 -0.36 0.32 2.75 3.72 -5.16 1.34 -6.55 6.52 -2.77 2.83 0.22 -0.80 -2.08 -2.57 0.11 1.35 -8.47 0.22 -0.84 1.31 -1.22 0.13 6.52 CORR 0.35 0.25 0.33 0.33 0.35 0.40 0.22 0.30 0.33 0.30 0.28 0.43 0.29 0.44 0.23 0.34 0.30 0.32 0.26 0.34 0.34 0.32 0.32 0.49 0.30 0.34 0.32 0.36 0.30 0.24 DISCR 1.03 0.88 0.96 0.97 1.07 1.14 0.69 1.00 0.96 0.83 0.79 1.31 0.95 1.35 0.64 1.07 0.82 0.99 1.01 1.06 1.06 0.98 0.89 1.35 0.96 1.03 0.92 1.06 0.99 0.63 Cuando las expectativas del Modelo Rasch se cumplen la dificultad de los reactivos y las habilidades de los respondentes al confrontarse resultan en valores de ajuste que deben estar entre – y +2 unidades logit en la columna INFIT. En este caso los reactivos, 5, 6, 7 ,10-12, 14-17, 23,24 y30, rebasan este valor. Como WINSTEPS desagrega la información de a nivel de desempeño de los reactivos y de los sustentantes, es posible identificar –como 10 en este caso- los reactivos y/o respondentes que no se ajustan al modelo probabilistico Rasch. La investigación sobre las causas de estos resultados que no se ajustan al modelo puntara a hacia las áreas temáticas a que pertenecen los reactivos en cuestión. Una vez logrado lo anterior, el análisis puede llevarse al nivel del currículo y practicas de instrucción relativas al caso. Cabe señalar que al metodología en tres fases descrita e se aplico a totalidad de las escalas del EXHCOBA obteniendo resultados equivalentes que se describe a detalle en González M. (2004). Conclusiones Preliminares El enfoque metodológico que se propone en este trabajo es una forma válida para asegurar la calidad de nuestros procesos de evaluación educativa cuando se utilizan instrumentos estandarizados para la medición previa. De hecho, el proceder de esta forma garantiza una evaluación técnica de los instrumentos de medición, sus escalas y de las propiedades psicometricas reales que el instrumento posee. La aplicación de métodos cuantitativos como los descritos posibilitan inferir que las propiedades técnicas de un instrumento para captar el desempeño de los estudiantes existen más allá de la teoría en que se basa el instrumento. 11 Bibliografía Backhoff, E., & Tirado, F. (1992). Desarrollo del Examen de Habilidades y Conocimientos Básicos Revista de la Educación Superior, XXi(83), 95-118. Asociación Nacional de Universidades e Instituciones de Educación Superior (ANUIES), México, D.F.) Bock, D., Gibbons, R., & Muraki, E. (1988) . Full Information Item Factor Analysis. Applied Psychological Measurement. vol.13, no.3. pp. 261-280. González L. (2003) El Perfil de Ingreso de los Estudiantes en la Universidad de Sonora. Direccion del Planeacion. UNISON Hermosillo, Sonora. González M. (2004). La Definición y Medición de Estándares Académicos para la Educación Superior: un estudio Formativo en la Universidad de Sonora. Disertación Doctoral, Departamento de Psicología Educativa, Universidad de Arizona, Tucson. Linacre, J. M. (2003) . A User's Guide to Winsteps Ministeps: Rasch-Model Computer Programs. Chicago, IL: Electronic Publication. 12