APLICACIÓN DE LA COMPUTADORA EN LA ENSEÑANZA DE LA ESTADÍSTICA M.C. José Manuel Carrillo Hernández Marzo de 2005 RESUMEN La misma naturaleza de la Estadística ocasiona que la interpretación y aplicación de sus términos se presten a controversia, la cual no se presenta en las demás áreas de las matemáticas; aunado a este problema se tiene que hay ausencia del uso de herramientas auxiliares por parte de los profesores para la enseñanza de la misma. Siendo la Estadística una ciencia que día con día va teniendo mayor influencia en todas las áreas del conocimiento humano es importante buscar estrategias para el reforzamiento de la enseñanza en todos los niveles educativos. A partir de esta problemática, el presente trabajo tiene el objetivo el diseño de una aplicación computacional que sirva como herramienta auxiliar en la enseñanza de la estadística. Se efectuó el diseño de la aplicación en VisualBASIC 6.0, para efectuar la verificación empírica del Teorema del Límite Central, se efectuó la prueba de la aplicación con una población de diez valores numéricos, tomando tamaños de muestra de tres elementos con un número máximo de 120 muestras, obteniéndose la distribución muestral y la media muestral que comprobó dicho Teorema. Dada la estructuración y diseño de la interface se puede llevar el seguimiento muestra por muestra seleccionada, con lo cual es posible observar la variación de las distribuciones y medias de cada una de ellas, teniéndose una aplicación funcional que puede utilizarse perfectamente como herramienta auxiliar en la enseñanza de la Estadística. INTRODUCCIÓN La ciencia estadística ha adquirido una notable expansión por proporcionar al ser humano herramientas para minimizar la incertidumbre a la que se enfrenta día con día en sus diversos quehaceres, como lo indica John Neter: “La Estadística se refiere al cuerpo de técnicas o metodología que se ha desarrollado para la recopilación, presentación y análisis de datos cuantitativos, y al uso de tales datos para tomar decisiones”1; por lo que la estadística se ha extendido a la mayoría de las áreas de conocimiento humano. Respecto a la enseñanza de la estadística, ésta se lleva a cabo desde los niveles básicos de la preparación profesional, como lo comenta John Neter: “La influencia de la estadística influye la vida moderna tan ampliamente, que casi todo el mundo ha escuchado la palabra Estadística, está expuesto a la Estadística y utiliza la Estadística”2 “La educación estadística ha sido una preocupación crucial del Instituto Internacional de Estadística (ISI) desde su fundación en 1885, que se concretó oficialmente en 1948 en el establecimiento del Comité de Educación, encargado de promover la formación estadística, colaborando, para este fin, con la UNESCO y otros organismos internacionales, y marcando el comienzo de un programa sistemático de apoyo a la educación” 3 1 Neter, John y cols.- Fundamentos de Estadística Aplicada a los Negocios y a la Economía.Compañía Editorial Continental, S.A. 2001, p.19. 2 Idem 1 3 Vere-Jones, D. (1997). The coming age of statistical education. International Statistical Review, 63(1), p. 23. La cantidad de investigaciones sobre la didáctica de la estadística es aun muy escaso, en comparación con las existentes en otras áreas de las matemáticas. Es difícil determinar cuales son las principales dificultades de los alumnos en muchos conceptos importantes, a la Estadística no siempre se pueden transferir los principios generales de la enseñanza de las Matemáticas. “La misma naturaleza de la Estadística es muy diferente de la cultura determinista tradicional en clase de matemáticas. Un indicador de ello es que aun hoy día prosiguen las controversias filosóficas sobre la interpretación y aplicación de conceptos tan básicos como los de probabilidad, aleatoriedad, independencia o contraste de hipótesis, mientras que estas controversias no existen en Álgebra o Geometría”4. Como lo menciona Sánchez-Cobo: “Aunque existen libros de texto excelentes, la investigación didáctica está comenzando a mostrar como algunos errores conceptuales y pedagogía inadecuada se transmiten con una frecuencia mayor de lo que seria deseable en los libros de texto” 5 La mayoría de los profesores de Estadística no se esfuerzan por aplicar estrategias de enseñanza sino que solamente se guían por la secuencia de presentación de conocimientos que los libros de texto proporcionan, una gran cantidad de los libros exponen las diversas teorías estadísticas sin profundizar en la comprobación empírica de ellas, el resto de los libros de texto se enfrascan en deducciones matemáticas demasiado complejas; en ambos casos esto ocasiona 4 Departamento de Didáctica de la Matemática, Universidad de Granada.http://exa.unne.edu.ar/grado/carreras_a_termino/paginas/Batanero3.htm 5 Sánchez-Cobo, F.T. (1996). Análisis de la exposición teórica y de los ejercicios de correlación y regresión en los textos de Bachillerato. Memoria de Tercer Ciclo, Universidad de Granada. que para los alumnos sean muy difícil de entender conceptos que por naturaleza son complejos. Lo anterior provoca que desde su primer contacto con la ciencia estadística, los alumnos tomen una actitud adversa hacia ésta, y lo que es peor, ésta actitud negativa trasciende hasta la vida profesional, por lo que es muy común encontrar profesionistas que tratan a toda costa de evitar el uso de la estadística, a pesar de que puede ser una herramienta muy útil en su quehacer profesional. Esta situación es pues preocupante, porque como ya se indicó en un principio, la ciencia estadística está cobrando cada vez un mayor auge en todas las áreas del conocimiento humano. Es verdad que actualmente con la extensión del uso de las computadoras, existen en el mercado una diversidad de paquetería para el análisis y resolución de estadísticas, mas sin embargo, dicha paquetería no fue diseñada con fines didácticos, sino que arroja resultados instantáneos en base al análisis de los datos proporcionados, sin presentar los pasos que llevaron a la obtención de los mismos; quizá se pudiese decir: ¿para qué aprender los conceptos y métodos estadísticos si ya existen programas de computadora capaces de efectuar en unos cuantos segundos una gran cantidad de análisis?, si bien este razonamiento resulta lógico, es totalmente incorrecto, pues es necesario que el usuario tenga la capacidad de análisis e interpretación para poder determinar si los resultados que arroja un sistema de cómputo son o no correctos. Por lo tanto, resulta erróneo el tratar de “enseñar” Estadística limitándose solamente a la enseñanza del manejo de un paquete informático, sin estimular en el alumno la capacidad de análisis e interpretación para poder explotar dichos programas de cómputo al cien por ciento de su capacidad. Es por ello pues, que de todo lo anterior se desprende la siguiente pregunta: ¿Es posible diseñar paquetería de cómputo a la medida, el cual pueda usarse como herramienta auxiliar para la enseñanza de la Estadística?. Entendiéndose instrucciones como detalladas paquetería que de controlan como “Un operación de cómputo la conjunto un de sistema computacional”.6 El término “a la medida” quiere decir que se adapta exactamente a los requerimientos del usuario, que en este caso en particular el requerimiento es que constituya una herramienta auxiliar para la enseñanza de la Estadística. Para el desarrollo de paquetería o aplicaciones existe el software de desarrollo o lenguajes de programación, los cuales están orientados a diversos propósitos. El lenguaje de programación para uso general es el VisualBASIC , la palabra BASIC hace referencia al lenguaje Basic: “Beginners All-Purpose Symbolic Instruction Code”7. Este lenguaje de programación permite desarrollar aplicaciones bajo un entorno de Windows. 6 7 http://www.cosaslibres.com/software.html Ceballos, Fraccisco Javier.- Visual Basic 6 Curso de Programación, Alfaomega 2000, p.1. Las teorías probabilísticas constituyen una parte muy importante de la Estadística, puesto que sientan la base para la Estadística Inferencial, la cual consiste básicamente en obtener conclusiones o inferencias de una población a partir de una muestra. Las distribuciones de probabilidad constituyen la base para que sea posible el diseño y análisis de muestras, prueba de hipótesis, toma de decisiones, etc.; la curva de distribución normal es el modelo por excelencia. “Esta distribución es frecuentemente utilizada en las aplicaciones estadísticas. Su propio nombre indica su extendida utilización, justificada por las frecuencia o normalidad con la que las ciertos fenómenos tienden a parecerse en su comportamiento a esta distribución. En resumen, la importancia de la distribución normal se debe principalmente a que hay muchas variables asociadas a fenómenos naturales que siguen el modelo cercano al normal: - Caracteres morfológicos de individuos (personas, animales, plantas,…) de una especie. Por ejemplo: tallas, pesos, envergaduras, diámetros, perímetros,… - Caracteres fisiológicos, por ejemplo: efecto de una misma dosis de un fármaco, o de una misma cantidad de abono. - Caracteres sociológicos, por ejemplo: consciente intelectual, grado de adaptación a un medio. - Errores cometidos al medir ciertas magnitudes. - Valores estadísticos maestrales, por ejemplo: la media.”8 Los comportamientos de las variables de los fenómenos en la vida real no siguen un comportamiento perfectamente normal, sino que solamente se aproximan a la misma tendiendo a un valor medio, por ejemplo, considerando las estaturas de los habitantes de determinada población, serán muy pocos los que tengan una medida muy corta, y serán también muy pocos aquellos que tengan 8 Concepción Alonso y Ana I. Zamora.- Introducción a la Probabilidad.- Universidad de Alcalá de Henares (España).- 2001 p.32 una medida muy larga, más bien la mayoría de los habitantes de esa población tenderán o estarán cercanos al promedio de estaturas. Entonces, si las variables de los fenómenos en la vida real no tienen un comportamiento perfectamente normal, ¿porqué se acepta el modelo de la curva de distribución normal para la medición de los mismos?; la respuesta se tiene en el Teorema del Límite Central, el cual indica que independientemente de la forma de la distribución de una población, la distribución muestral, es decir aquella obtenida de las medias de todas las muestras distintas posibles que se pueden obtener de la población tendrá un comportamiento perfectamente normal, y si se obtiene la media de la distribución muestral el valor obtenido corresponderá perfectamente a la media de la población, (siempre que el tamaño de la población sea de 30 elementos o más)9. La demostración del mencionado teorema difícilmente se encontrará en un libro de texto de Estadística, esto debido a la gran cantidad de operaciones matemáticas que es necesario efectuar, lo cual origina que el alumno tenga que conformarse con saber que dicho teorema existe y que lo que enuncia sí es verdad pero sin tener pruebas palpables de ello; razón por la cual representa un excelente ejemplo que se puede llevar a la computadora y desarrollar la aplicación didáctica para la verificación empírica del mismo. 9 http://www.itch.edu.mx/academic/industrial/estadistica1/cap01b.html Por lo tanto, como objetivo de este estudio se propone el desarrollo de una aplicación computacional didáctica que podrá utilizarse como auxiliar en la demostración del Teorema del Límite Central, utilizando el paquete de programación VisualBASIC. MÉTODO EMPLEADO Para la aplicación se propone el diseño de dos interfaces de usuario, una de ellas constituida de 4 formularios y la segunda por un solo formulario, ésta servirá para la introducción manual de datos. Figura 1.- Interface 1, formulario 1, vista tabular de las distribuciones de población y muestra, control de numero de muestras Figura 2.- Interface 1, formulario 2, Vista gráfica de la distribución de la población. Figura 3.- Interface 1, formulario 3, Vista gráfica de la distribución de la muestra en turno. Figura 4.- Interface 1, formulario 4, Vista gráfica de la distribución muestral. Figura 5.- Interface 2, formulario 1, Introducción manual de datos Para la introducción de datos, se consideró la posibilidad de hacerlo de manera manual como se indica en la figura 5, se incluyó un botón para poder efectuar el guardado de los mismos en la unidad de disco duro de la computadora utilizando archivos secuenciales10; si ya existe un archivo con datos, en la interface mostrada en la figura 1 se incluye un botón para cargar los datos del archivo. Para el tratamiento de los datos se utilizaron variables subindicadas tipo vector11, para mostrar las tablas de distribución de población y muestra se utilizaron objetos MsFlexGrid.12 10 Ceballos, Francisco Javier.- Visual Basic 6 Curso de Programación, Alfaomega 2000, p.299 Idem p.125 12 Microsoft Libros en Pantalla.- Microsoft VisualBasic 5.0 Edición Empresarial. 11 En la interface mostrada en la figura 1 se encuentran objetos inicializados como invisibles, los cuales se hacen visibles una vez que se encuentran los datos cargados a las variables tipo vector, dichos objetos se ilustran en la figura 6. Figura 6.- Controles invisibles en el formulario 1 interface 1 Según la figura 6, una vez que las variables tipo vector tienen datos, se muestra el número de datos que contienen, en los siguientes cuadros de texto el usuario deberá introducir el tamaño de la muestra y el número de muestras. Haciendo referencia a la figura 1, el botón de la población, cada vez que se presione el botón distribución de cada una de las muestras, el botón determina la distribución se determina la se utiliza para detener la determinación de las distribuciones de las muestras, con la computadora efectúa el cálculo de todas las distribuciones restantes de las muestras pero sin mostrarlas en pantalla; realiza el cálculo de la distribución muestral. Los gráficos se generarán con métodos gráficos como Line, Pset y Cls . 13, la selección de los elementos de cada una de las distintas muestras posibles se hará 13 Tiznado Santana Marco Antonio.- Visual Basic 5.0.- Mc. Graw Hill 1998. p.177 utilizando una función generadora de números aleatorios RND(1)14, asignándole un número identificador del 1 a n a cada elemento de la población, donde n es el número total de elementos de la misma, se incluye una variable vector auxiliar, el cual funge como bandera, activándose el lugar correspondiente al elemento seleccionado y con la ayuda de un bloque de decisión se evita que un mismo elemento pueda ser seleccionado más de una vez . RESULTADOS Aunque el Teorema del Límite Central indica que se cumple la distribución muestral normal con poblaciones mayores a 30 elementos, se hará una prueba con una población de 10 elementos, los cuales se muestran en la tabla 1. No. Elemento 1 2 3 4 5 6 7 8 9 10 Valo r 1 1 1 2 2 5 4 3 3 3 Tabla 1.- Datos de la población El número máximo de muestras de tamaño r que se pueden obtener de una población de tamaño n está determinada por la fórmula: 14 Ceballos, Francisco Javier.- Visual Basic 6 Curso de Programación, Alfaomega 2000, p.180 n! No. Muestras = --------------------r! (n-r)! En este caso, se considerarán muestras de tamaño 3, por lo que se tendría un número máximo de muestras distintas posibles sin reemplazo de: 10! 3’628,800 No. Muestras = --------------------- = --------------- = 120 3! (10-3)! 6 (5,040) Figura 7.- Introducción de datos Figura 8.- Distribución de la Población Figura 9.- Distribución de la Muestra 1 Como se puede observar en la figura 8, la distribución de la población dista mucho de ser una distribución normal, se tiene una media de la población = 2.5, en la figura 2 se puede observar que la primera muestra elegida aleatoriamente también tiene una distribución no normal, con una media de la muestra de 3.333. Figura 10.- Distribución de la Muestra 2 La muestra 2 tiene una media de 3.666 con una distribución de una línea recta horizontal. Se continúa con el cálculo de cada una de las medias muestrales, para calcular la distribución muestral se hace click sobre el botón Media Muestral, el sistema pide que el usuario introduzca el número de decimales a los cuales se hará la aproximación para obtener la distribución de las medias de todas las 120 muestras distintas posibles. Figura 11.- Distribución Muestral En la figura 11 se tiene la curva de distribución muestral, con una media muestral de 2.4861 y una desviación estándar de la distribución de 0.5934, la cual constituye el llamado error estándar de la muestra. CONCLUSIONES En base a los resultados obtenidos con la aplicación de la aplicación computacional se puede observar claramente que a pesar de que la población analizada es menor de 30 elementos, la distribución muestral se aproxima a la distribución normal, es decir, se tiene una alta concentración de datos alrededor del valor medio y menos hacia los extremos; la forma de la distribución muestral difiere considerablemente respecto a la distribución de la población y de cada una de las muestras seleccionadas, además se observa que la media de la distribución muestral (2.4861) se aproxima mucho a la media de la población (2.50), lo cual aporta evidencia empírica de que a pesar de ser una población de menos de 30 elementos el Teorema del Límite Central tiende a cumplirse. Respecto a la pregunta de investigación, ésta es contestada de manera afirmativa, ya que fue posible el desarrollo de un paquete de cómputo que permitió efectuar la comprobación con datos de un teorema relacionado con una distribución de probabilidad; dicha aplicación computacional sí puede ser utilizada como medio didáctico auxiliar en la enseñanza de la Estadística. Como recomendación se propone que las instituciones de enseñanza básica, media y superior hagan uso de los recursos computacionales, buscando la manera de desarrollar o mandar desarrollar software a la medida que sea una herramienta auxiliar para la enseñanza de otros aspectos estadísticos como lo pueden ser las técnicas de proyección lineal, toma de decisiones, etc. BIBLIOGRAFÍA CONSULTADA Libros: Tiznado Santana Marco Antonio.- Visual Basic 5.0.- Mc. Graw Hill 1998 Ceballos, Francisco Javier.- Visual Basic 6 Curso de Programación, Alfaomega 2000. Neter, John y cols.- Fundamentos de Estadística Aplicada a los Negocios y a la Economía.-Compañía Editorial Continental, S.A. 2001. Vere-Jones, D. The coming age of statistical education. International Statistical Review, 63(1). 1997 Sánchez-Cobo, F.T. Análisis de la exposición teórica y de los ejercicios de correlación y regresión en los textos de Bachillerato. Memoria de Tercer Ciclo, Universidad de Granada. 1996 Concepción Alonso y Ana I. Zamora.- Introducción a la Probabilidad.- Universidad de Alcalá de Henares (España).- 2001 Recursos de Internet: Departamento de Didáctica de la Matemática, Universidad de Granada.http://exa.unne.edu.ar/grado/carreras_a_termino/paginas/Batanero3.htm http://www.cosaslibres.com/software.html http://www.itch.edu.mx/academic/industrial/estadistica1/cap01b.html