Resolución de problemas relacionados con el análisis exploratorio de datos M.Sc. Marianela Alpízar Vargas Universidad Nacional Resumen El desarrollo del pensamiento estadístico permite al individuo prepararse para dar respuesta a diversas interrogantes que surgirán en el quehacer cotidiano. La importancia de la estadística en la sociedad ha ido en aumento, debido a la información que debe manejar cada individuo no sólo en el ámbito profesional sino en la investigación y en el quehacer cotidiano (Batanero y Godino, 2001). En el estudio que aquí se reporta se indagaron y documentaron los conceptos y significados que utilizan los profesores en actividades de resolución de problemas relacionados con el análisis exploratorio de datos. Las preguntas que sirvieron como guía en la investigación fueron: ¿Cuál es el nivel de interpretación de los profesores respecto de algunas medidas de tendencia central, orden y variabilidad, dentro de un contexto determinado? ¿En qué medida el uso del software dinámico Fathom afecta la interpretación de las medidas de tendencia central, orden y variabilidad utilizadas en el análisis exploratorio de datos? Debido a la cantidad y variedad de información que se maneja actualmente en las actividades cotidianas, resulta relevante que la educación preuniversitaria incluya temas relacionados con el análisis exploratorio de los datos en el currículum de cada país. ¿Qué tipo de conocimientos le resulta relevante a un estudiante para analizar la información que lo rodea? ¿Qué ventajas o limitaciones tienen los estudiantes al utilizar herramientas tecnológicas en el análisis exploratorio de los datos? ¿Están los profesores preparados para impartir clases de esta materia? ¿Qué tipo de estrategias deben usarse para que los profesores y los estudiantes aprendan el manejo de datos? ¿Qué procesos de pensamiento se estimulan en el análisis exploratorio de datos? Es necesario prestar singular atención a cada una de estas interrogantes y discutir las posibles respuestas; un paso importante es conocer acerca de las ideas de los profesores respecto al análisis exploratorio de datos, lo cual se pretende documentar en este estudio. Marco conceptual “Hace más de dos décadas la resolución de problemas ha sido identificada como una actividad importante en el aprendizaje de las matemáticas” (Santos, 1997, p. 1). Debido al aporte dado al desarrollo del pensamiento crítico y analítico de los estudiantes; sin embargo, este enfoque causó algunos desconciertos en muchos profesores, ya que en su formación profesional no hubo una instrucción dirigida con esta orientación (Guzmán, Hitt y Santos, 2002 ). Kilpatrick (1985) menciona que en términos generales se puede identificar un problema matemático como aquel, que para resolverlo se necesitan conocimientos matemáticos y, además, no existe un camino directo para su solución o soluciones (citado en Santos, 1997). De acuerdo con el mismo autor, cuando el estudiante es partícipe del proceso de desarrollo de su conocimiento, éste recolecta información, descubre o crea relaciones, discute sus ideas, plantea conjeturas, y constantemente evalúa y contrasta sus resultados. Para Batanero, Godino y Roa (2004), se debe realizar una reflexión respecto a la importancia del aprendizaje de los estudiantes en cuanto a conceptos estadísticos y en las dificultades conceptuales que presentan los mismos al resolver problemas relacionados con el análisis de datos. Se recomienda que el proceso de enseñanza y aprendizaje en estadística involucre un proceso de resolución de problemas, donde se introduzcan conjuntos de datos reales, para así llamar la atención de los estudiantes e incentivar el estudio de esta materia. 1 Muchos de los problemas estadísticos no tienen una solución planteada en términos matemáticos; sino que se presenta por medio de una opinión basada en ciertos hallazgos y cálculos que los estudiantes realizan; frecuentemente, estas opiniones no se pueden caracterizar como correctas o incorrectas sino que se evalúa en términos del razonamiento utilizado, el uso del método adecuado, la naturaleza de los datos y la evidencia usada (Gal y Garfield 1997). Un problema tradicional en la enseñanza de la estadística ha sido el desfase entre los conceptos teóricos y la interpretación de estos. Al resolver un problema, se dependía del cálculo correcto de operaciones aritméticas, un tanto tediosas para los estudiantes. Actualmente, las herramientas tecnológicas, los cuales son fáciles de utilizar, han simplificado el trabajo de hacer cálculos engorrosos, en poco tiempo y sin posibilidad de fallo. Es por ello que al utilizar una herramienta tecnológica se tiene más tiempo para reflexionar acerca de las extensiones de dicho problema, planteando diversas preguntas. El hecho de utilizar medios tecnológicos no quiere decir que el papel de los estudiantes pasa a un segundo plano, sino que se modifica; pasa de realizar diversos cálculos a tomar decisiones y hacer interpretaciones. El uso de herramientas tecnológicas, en la enseñanza de la estadística, no es considerado como la meta de su aprendizaje, sino que contribuye a la construcción de los significados de conceptos básicos y en el establecimiento del sentido de los datos, tomando como base la facilidad de realizar diversas representaciones de los datos (Ben-Zvi, 2000). Batanero, Garfield, Ottaviani, Truran, (2000) señalan: El software y las herramientas tecnológicas cambian el significado de la estadística porque introducen nuevas representaciones, cambian la forma en la que trabajamos con los objetos estadísticos y el tipo de problemas a los que los estudiantes se enfrentan en la clase. (p. 3) La tecnología cambia el significado de la estadística, ya que el estudiante pasa de memorizar fórmulas y hacer cálculos engorrosos a tomar decisiones, participar en discusiones con sus compañeros y profesor; plantearse diversas preguntas acerca de la información que se le pide analizar; debido principalmente a la facilidad de representar de diversas maneras el mismo concepto, al utilizar distintos tipos de gráficas, gráficas y tablas, o gráficas y medidas estadísticas. En muchos libros de texto utilizados en secundaria y preparatoria, los problemas relacionados con el análisis exploratorio de datos vienen estructurados de tal manera que el conjunto de datos está organizado y el estudiante sólo calcula e interpreta algunas medidas. El hecho de que el estudiante se enfrente a un conjunto de datos sin organizar, le ayuda a desarrollar su pensamiento estadístico en mayor medida, él ve la necesidad de codificarlos, organizarlos y revisar cada representación que hace (Jonhson y Hofbauer, 2002). Una de las dificultades en el análisis exploratorio de datos, es la interpretación de los resultados obtenidos. Por ejemplo, un estudiante por medio de cálculos a “lápiz y papel” o utilizando una herramienta tecnológica, puede obtener una de las medidas de tendencia central de un conjunto de datos; ya sea la media, la mediana o la moda. Sin embargo, si el estudiante no interpreta lo que significa cada una de estas medidas, no puede plantear un análisis significativo del conjunto de datos. Por otro lado, según Mokros y Russell (1995), los estudiantes no consideran que pueden dar a conocer las características principales de un conjunto de datos por medio de una de estas medidas. Además, al tratar de interpretar cada medida lo hacen a través de un lenguaje coloquial en lugar de utilizar términos que definan lo que representa cada medida (citado por Watson y Moritz, 2000). En esta investigación se tomaron en consideración el proceso de reducción de los datos, el cual vincula el caracterizar el conjunto de datos en una forma reducida, intervienen aquí las medidas de tendencia central y las medidas de variabilidad (Langrall y Mooney, 2002). 2 Respecto a la organización y reducción de datos, los estudiantes pueden plantearse interrogantes como: ¿Cuál es la utilidad de las medidas de tendencia central? ¿Cuál es la utilidad de las medidas de variabilidad? ¿Qué tipo de medidas ayuda a la comparación de diversos conjuntos de datos? ¿Qué tipo de comportamientos es descrito por cada una de las medidas de tendencia central? ¿Qué tipo de comportamientos es descrito por cada una de las medidas de variabilidad? Participantes y metodología En este estudio participaron trece estudiantes inscritos en un curso sobre educación matemática (nivel de maestría), quienes asistieron a siete sesiones de trabajo. Durante las sesiones, se realizaron siete actividades y un proyecto final, referidos al análisis exploratorio de datos, donde se utilizó el software dinámico Fathom. Trabajaron de manera individual o en parejas; ellos debían realizar las actividades con ayuda del software y entregar un reporte relacionado con procesos y resultados obtenidos. En cuanto al proyecto final, cada estudiante planteó un tema y realizó la recolección, organización y análisis de los datos, para luego entregar un informe del trabajo realizado. Para el análisis de los resultados se consideraron los reportes escritos y los archivos entregados por los estudiantes. Presentación de resultados Al iniciar la investigación se realizó un cuestionario donde se incluyó un apartado en el cual se indaga acerca del cálculo e interpretación de algunas medidas estadísticas básicas (media aritmética, mediana, máximo, mínimo, percentil 25, percentil 75 y desviación estándar); en éste se reveló docentes no están acostumbrados a contextualizar las medidas estadísticas; en especial las de variabilidad y orden; además, el lenguaje utilizado por ellos es, en la mayoría de los casos, de corte cotidiano, lo que provoca confusión en el significado de algunos términos, como, por ejemplo, promedio (lenguaje cotidiano) para referirse a la media aritmética y dato medio (lenguaje cotidiano) para referirse a la mediana. En cuanto a las actividades, donde se trabajo con medidas estadísticas se tiene. Medidas de tendencia central En la Actividad 5, se trabajó con medidas de tendencia central, se prestó singular atención a la interpretación de cada medida adecuada con el contexto, así como la determinación de las principales propiedades de éstas. Esta actividad se llevó a cabo con base en el medallero de las Olimpiadas Atenas 2004; solamente, se tomaron en cuenta los países que obtuvieron al menos una medalla. Con ayuda del Fathom se calculó cada una de las medidas de tendencia central (media aritmética, mediana y moda) de los datos originales. Luego, con el fin de determinar algunas propiedades de estas medidas, se efectuaron transformaciones en el conjunto de datos, utilizando operaciones básicas; variaron los extremos de dicho conjunto, para así comparar las medidas originales con las obtenidas luego de los cambios, y generalizar el comportamiento de cada una de ellas. El uso del software ayudó a los profesores para realizar el cálculo de las medidas, las transformaciones y los cambios de manera ágil y rápida; esto les dio la posibilidad de dedicar más tiempo en la interpretación y generalización de las propiedades. Los docentes debían interpretar cada medida adecuándola al contexto de la actividad. Se observó que la mayoría de los profesores tiene claro la definición de este tipo de medidas. Respecto a la media aritmética, algunos participantes afirmaron que su valor representaba la cantidad de medallas aproximada que obtuvo cada país; es evidente que ellos no observaron con detenimiento el conjunto de datos, ya que se podía notar que algunos países obtuvieron mayor o menor número de medallas en comparación con el valor de la media. La mayoría afirmó que este valor es un promedio. 3 En cuanto a la mediana, la mayoría de los estudiantes identificaron el valor central dentro del conjunto de los datos; Alejandra hizo una interpretación inadecuada de estas medidas, confunde el concepto de media aritmética y mediana, en la Figura 1 se presenta su interpretación en cuanto a la mediana. Figura 1. Respuesta dada por Alejandra Para la determinación de las propiedades de cada medida (al sumar, restar, dividir o multiplicar una constante por cada valor), gran parte de los profesores no generalizó los resultados; en vez de conjeturar acerca de las propiedades, utilizaron el valor de las constantes y describieron los procedimientos realizados con el software. Estas dificultades pueden deberse a que los participantes no se desprendieron del problema planteado en esta actividad para generalizar el resultado, sino que observaron el comportamiento de cada medida, afectada por las condiciones que ellos mismos propusieron. En cuanto a la sensibilidad de las medidas ante el cambio de los valores extremos, los participantes variaron cada extremo del conjunto en el Fathom y si el valor de la medida sufría modificación, el software lo revelaba de inmediato. La mayoría estableció que el valor de la media variaba, sin justificar su afirmación; para la mediana, todos coincidieron que el cambio de los valores extremos no afecta su valor. En la moda, los profesores no hicieron ningún tipo de operación, sino que, debido a los conceptos previos que ellos tenían acerca de ésta y con la experiencia de las interacciones con las medidas anteriores, conjeturaron acerca del comportamiento de esta medida. Al culminar con el análisis de cada medida se pidió a los participantes elegir la medida que caracterizaba de mejor manera el comportamiento del medallero olímpico. Algunos profesores hicieron un breve resumen de la utilidad de cada una de las medidas (véase Figura 2); el resto de los participantes consideró que la mediana es, en este caso, la medida de tendencia central más adecuada para dar una descripción general de la cantidad de medallas obtenidas, y justificaron dicha afirmación con la definición de mediana. Dos de los profesores expresaron que la media aritmética es la medida más utilizada y que podría aportar al análisis general sin justificar sus argumentos. Figura 2. Respuesta dada por Kervin En esta actividad se puso en evidencia que los profesores no están acostumbrados a generalizar los resultados que obtienen al manipular valores y observar el comportamiento de un conjunto de datos. Algunos de ellos no reflexionaron acerca de las propiedades de cada una de las medidas, 4 sino que solamente describieron los procedimientos que realizaron de manera mecánica. Utilizaron el Fathom con el fin de agilizar los cálculos y tener posibilidad de reflexionar y conjeturar acerca del comportamiento de las medidas de tendencia central; sin embargo, la mayoría no lo hizo. Los participantes solamente describieron los procedimientos efectuados con el software; lo que indica que no salieron del problema planteado para generalizar los resultados a otras situaciones. Por otro lado, los docentes presentaron dificultad para caracterizar el conjunto de datos basados en una sola medida de tendencia central, al expresar que son necesarias las tres medidas, o consideran que la media aritmética es la que se utiliza con más frecuencia en el análisis de datos, por lo que debe adecuarse a este contexto. En la Actividad 6, se trabajaron las medidas de orden y de variabilidad absoluta; se utilizó el Fathom para realizar los cálculos de cada medida, así como para efectuar las transformaciones sistemáticas de los datos y el cambio de valores específicos con el fin de generalizar las propiedades de estas medidas. Las medidas de orden, con las cuales se trabajó fueron los percentiles, y en cuanto a las de variabilidad fueron el rango y la desviación estándar. Esta actividad se llevó a cabo con base en el fichero que contiene datos de 96 países; específicamente, se utilizó la variable tasa de mortalidad. Debido a que los cálculos se efectuaron en el software, los profesores pudieron invertir mayor cantidad de tiempo a la reflexión de los resultados obtenidos por medio de transformaciones. Medidas de orden Los participantes calcularon el valor de varios percentiles, entre ellos el percentil 25 y el percentil 75, los interpretaron según el contexto y luego cambiaron algunos datos específicos, para observar el comportamiento de este tipo de medida ante cambios particulares. En cuanto a la interpretación de los percentiles, la mayoría de los participantes se refiere al comportamiento de los dos grupos que se obtienen al seleccionar éste (véase Figura 3). Figura 3. Respuesta dada por Marcela Se pidió a los participantes que modificaran un dato, el cual no alteraba el percentil señalado, y otro que lo alteraba. Cuando el valor cambiado no altera el percentil, ellos afirman que es debido a que el dato no se encuentra en la posición del percentil, esto es, el dato modificado no pertenece al rango de valores que se pueden considerar en el percentil elegido. Por otro lado, al cambiar el dato que altera el percentil elegido, los profesores citaron el cambio de posiciones como elemento fundamental en la alteración de dicho percentil, ya que los datos deben reordenarse; sin embargo, no conjeturan la propiedad sino que sólo describen el procedimiento que hacen con el software; esto denota el manejo del concepto de percentil como una posición específica dentro del conjunto de datos. Los profesores efectuaron una comparación basados en la variable tasa de mortalidad del continente americano y el africano, con el fin de determinar el grado de aplicación de los percentiles, solamente dos profesores hacen uso del recorrido intercuartílico en su reporte, el resto de los participantes indicó que la tasa de mortalidad en los países americanos es menor que la registrada en los países africanos, sin justificar su afirmación. En términos generales, se observó que los profesores no están acostumbrados a generalizar los resultados y a plantear conjeturas relacionadas con las propiedades de las medidas de orden; por otro lado presentan dificultad para utilizar este tipo de medidas en la comparación de varios grupos. 5 Medidas de variabilidad Una de las medidas de variabilidad es el rango. Los participantes debían obtenerla para cada continente, realizar una comparación entre éstas, y analizar qué ocurre con el rango cuando se cambian ciertos datos. Se utilizaron los datos definidos para el continente africano y se varió un dato interior y uno de los valores extremos. Es importante destacar que el cambio de datos y el cálculo de las medidas se efectuaron con ayuda del software, para obtener el rango se debía restar el valor mínimo al máximo. La mayoría de los profesores hacen sus comparaciones tomando en consideración que el rango surge de la resta de los valores extremos del conjunto. La otra medida de variación fue la desviación estándar. Con ayuda del software se calculó su valor para cada continente y se elaboró una comparación; luego, debían efectuarse diversas transformaciones al conjunto de datos, para conjeturar acerca de las propiedades de la desviación estándar al sumar, restar, multiplicar o dividir por una constante el conjunto de datos o al variar un dato. Los profesores realizaron comparaciones, utilizando la variabilidad o dispersión de cada continente y en especial de los continentes de comportamiento contrario, respecto al valor de la desviación estándar de cada continente. Un profesor no hace distinción entre desviación estándar y rango, él afirma que la desviación estándar varía de acuerdo con la distancia del dato menor respecto al mayor. En cuanto a las propiedades de la desviación estándar, nuevamente la mayoría de los profesores no hace una generalización ante los cambios efectuados sino que describe los procedimientos que hicieron con ayuda del software, solamente un profesor utiliza simbología matemática (véase Figura 4). Figura 4. Respuesta dada por Mario En cuanto al comportamiento de la desviación estándar, al cambiar uno de los valores del conjunto de datos, ya sea extremo o no, la mayoría afirman que la modificación de cualquiera de los datos afecta la desviación estándar. Para concluir con las medidas de variabilidad se les pidió a los profesores que caracterizaran el conjunto de datos por medio de una de éstas. Algunos profesores no reconocen las diferencias entre una medida de variabilidad y una de posición, ya que afirman que estas dos medidas describen, de manera similar, la variabilidad del conjunto de datos. El resto de los participantes eligen la desviación estándar; ya que esta medida interviene con el valor de todos los datos del conjunto (véase Figura 5). 6 Figura 5. Respuesta dada por Mario Discusión general Las medidas estadísticas se utilizan para la caracterización y representación de un conjunto de datos. En cuanto a las medidas de tendencia central, se observa que la mayoría de los profesores tiene claro la definición de las mismas. Los percentiles (medidas de orden) son considerados como el valor que divide el conjunto en dos partes iguales, y las medidas de variabilidad las describen como la dispersión de los datos, aunque algunos no entienden el significado de dispersión. Los profesores no generalizan el comportamiento de una medida estadística ante un cambio al conjunto de datos; no establecen conjeturas acerca de las propiedades de dichas medidas. Por otro lado, algunos de ellos no utilizan un lenguaje adecuado, ya que cuando intentan generalizar utilizan términos cotidianos que no tienen relación con los conceptos del análisis exploratorio de datos. Al tener que elegir una medida de tendencia central o de variabilidad para caracterizar el comportamiento del conjunto de datos, los docentes tienen dificultad para elegir una de ellas; esto puede deberse a que no entienden, realmente, el significado y la utilidad de cada una de estas medidas. Las actividades relacionadas con las medidas estadísticas se realizaron con ayuda del Fathom con el fin de agilizar los cálculos y hacer diversos cambios, para así tener un panorama más amplio del comportamiento de cada medida. Sin embargo, muy pocos profesores le tomaron importancia a este hecho, ya que por lo general se limitaron a efectuar las transformaciones que se le pedían en el enunciado de las actividades y, en lugar de conjeturar acerca de las posibles propiedades de cada medida, se limitaban a describir el procedimiento que habían realizado con el software. Conclusiones En cuanto a las medidas de tendencia central, generalmente, los profesores conocen el significado de cada una de ellas; sin embargo, presentaron dificultades al conjeturar acerca de sus propiedades, lo que indica que no tienen claro el comportamiento de estas medidas, ante cambios efectuados directamente en el conjunto de datos. Por otra parte, tienden a utilizar la media aritmética para caracterizar cualquier conjunto de datos, sin considerar las condiciones de éste. Respecto a las medidas de variabilidad y orden, los docentes además de no estar familiarizados con los datos que se requieren para obtenerlas, tampoco lo están con las propiedades, ni la utilidad de éstas. Cuando se pide describir la variabilidad de un conjunto por medio de una medida adecuada, los profesores tienden a elegir la desviación estándar, pero al indagar acerca de la razón por la cual utilizan esta medida no son claros en sus argumentos. En conclusión se puede decir que la mayoría de los profesores no está familiarizada con las medidas estadísticas, ya que ignoran la utilidad de éstas en el análisis exploratorio de los datos. Por otra parte, no hicieron conjeturas acerca del comportamiento de cada medida al efectuar cambios en el conjunto de datos; se limitan a describir las operaciones que realizan de manera mecánica con el software, lo que indica que no salen del problema que se les plantea, sino que se encasillan en las condiciones de éste. Cuando una persona utiliza una herramienta tecnológica, como un software dinámico, para calcular medidas estadísticas, su trabajo principal descansa en prestar atención a los elementos de cálculo de la herramienta y en la interpretación de la información que el software desprende. Sin embargo, en algunas ocasiones el usuario realiza procedimientos de manera mecánica con ayuda de la herramienta tecnológica, desaprovechando así el potencial de ésta. Este hecho se puso en evidencia en este estudio, donde los profesores siguieron las instrucciones de los 7 procedimientos y no profundizaron ni exploraron otras situaciones relacionadas con las situaciones problema planteadas. El uso de herramientas tecnológicas puede ser de gran ayuda en el proceso de reducción de los datos, ya que no se dedica tanto tiempo en cálculos tediosos, sino que se concentra la energía en la interpretación y descripción de los datos expuestos. Sin embargo, el usuario debe tener claro el tipo de información que se utiliza en el cálculo de medidas y generalizar los resultados que obtiene al manipular ciertos datos. 8 Referencias bibliográficas Batanero, C., Garfield, J., Ottaviani, M. y Truran, J. (2000). Research in statistical education: some priority question. Statistical education research newsletter. 1(2), 2-6. Recuperado 24/08/2004, www.ugr.es/local/batanero/sergroup.htm Batanero, C. y Godino, J. (2001). Análisis de datos y su didáctica. Recuperado 23/04/2004, www.ugr.es/local/batanero Batanero, C., Godino, J. y Roa, R. (2004). Training teachers to teach probability. Journal of statistics Education. 12(1). Recuperado 23/04/2004, www.amstat.org/publications/jse/v12n1/batanero.html Ben-Zvi, D. (2000). Toward understanding the role of technological tools in statistical learning. Mathematical thinking and learning, 2(1 y 2), 127-155. Gal, I., y Garfield, J. (1997). Curricular goals and assessment challenges in statistics education. En Gal. I., y Garfield, J. (Eds.), The assessment challenge in statistics education (pp. 1-13). Amsterdam: IOS Press. Guzmán, J., Hitt, F. y Santos, M. (2002). El currículo de matemáticas en México en la escuela media. A. M, Machado., M, Torraldo. y C. F, Abraira (Eds.), Currículo y matemáticas en la enseñanza secundaria en Iberoamérica (pp. 111-131). España: Servicio de Publicaciones de la Universidad de Córdoba. Langrall, C.W. & Mooney, E.S. (2002). The development of a framework characterizing middle school student' statistical thinking. In B. Phillips (Ed). Proceedings of the sixth International Conference on Teaching Statistics: Developing a Statistically Literate Society. South Africa (CD-ROM). The Netherlands: International Association for Statistical Education (IASE) NCTM (National Council of Teachers of Mathematics). (2000). Principles and Standards for School Mathematics. Reston, VA, USA: National Council of Teacher of Mathematics. Santos, M. (1997). Principios y métodos de la resolución de problemas en el aprendizaje de las matemáticas. México: Grupo Editorial Iberoamérica. Watson, J.M. y Moritz, J.B. (2000). The longitudinal development of understanding of average. Mathematical thinking and learning, 2(1 y 2), 11-50. 9