Exploración matemática-Matemáticas NM - IB Exploración matemática Entender la distribución binomial, la distribución normal y la campana de Gauss Autor: Peian Chen 1. Introducción Muchas personas de mí alrededor resaltan que las matemáticas no son divertidas, destacan su complejidad y también las consideran muy teóricas. Para demostrar su utilidad y también para tratar de encontrar un tema para esta Exploración Matemática busqué información sobre los teoremas matemáticos básicos y más útiles para la sociedad. En el artículo “Diez ecuaciones célebres de nos demuestran que las matemáticas son útiles”1 descubrí respuestas bastantes interesantes y útiles desde el punto de vista matemático y también diversas ideas para una Exploración matemática. El tema que más me llamó la atención fue ver las aplicaciones de la distribución normal, la distribución binomial y la Campana de Gauss, ya que tienen numerosas utilidades en campos muy diversos como podrían ser determinar las probabilidades de eficiencia de un fármaco o también en áreas como la economía o el marketing. La estadística siempre me ha gustado, pero me ha costado siempre mucho entenderla a fondo. Por otro lado, en un futuro quiero cursar estudios superiores de Marketing Sociólogico. Por ello creo que esta Exploración matemática me será muy útil. El origen de la “distribución normal y la campana de Gauss” es bastante curioso porque el estudio de la ecuación se extendió durante siglos. En realidad, la distribución se presentó inicialmente en el año 1733 por el matemático nacido en Francia, Abraham de Moivre. Moivre era un experto y estudioso de los juegos de mesa y realizaba con frecuencia análisis profundos sobre ello. Hizo un experimento inicial sobre las probabilidades de cara y cruz en un determinado número de tiradas de una moneda. Finalmente descubrió que si se hacía una representación gráfica sobre las probabilidades de que la moneda salga cruz siempre se observa la forma de una curva concreta. Intentaré con está Exploración demostrar que algunos de los estudios que continuaron a los de Moivre son útiles y eficaces para resolver situaciones cotidianas y sobre todo para convencerme de que entiendo sinceramente y en profundidad esta parte de las matemáticas que me será muy útil en el futuro. Uno de mis objetivos principales será ir entendiendo los conceptos y asumirlos hasta que yo mismo pueda plantear ejemplos de la vida cotidiana e ir resolviéndolos en esta Exploración. 2. Entendiendo de la observación de Abraham de Moivre Caso en estudio: tiradas de una moneda al aire y observar el resultado. Llamando n el número de tiradas, he experimentado con: n=2 y después n= 4. Seguidamente se va a mostrar la distribución Binominal de las probabilidades para que salga cruz. ¿Cómo he intentado entender el planteamiento?: Inicialmente estaba tratando de calcular mentalmente las probabilidades y conseguir la representación gráfica con el programa informático MS-Excel. Aunque fue sencillo con n=2 tenía más problemas cuando n=4. Después pensé en acudir al sistema del “árbol de probabilidades” para realizarlo de forma más organizada. Notación utilizada: Dp = densidad de probabilidades ; n = número de tiradas ; CA = cara ; CZ = cruz Resultando: 1 Alvy, Daniel Civantos (2014)http://www.cookingideas.es/formulas-de-exito-20140423.html 2 Fig1- Árbol, tabla de probabilidades y representación Gráfica de la densidad de probabilidades para n=2 (MS-Excel). Fuente propia. Fig2- Árbol, tabla de probabilidades y representación Gráfica de la densidad de probabilidades para n=4 (MS-Excel). Fuente propia. Cuando mentalmente calculado las probabilidades para n=4, tenía dudas sobre el resultado, puesto que inicialmente había supuesto que la probabilidad en 4 tiradas para obtener 2 cruces eran del 50% aplicando el cálculo mental y el sentido común. Pero, finalmente con el método del árbol de probabilidades he podido comprobar que mentalmente había calculado mal, ya que en realidad hay 16 posibilidades de combinaciones posibles y solo hay 6 posibilidades de 16 en los que se obtiene dos cruces. Para darme cuenta de todo ello hice las siguientes tablas que me permitieron salir de mi error: Número de tiradas (n) 1 2 3 4 ... N (generalización) Posibilidades distintas 2 4 8 16 ... 2n Razonamiento matemático de las probabilidades según el árbol: Número de CZ en 4 tiradas Observación resultados posibles Cálculo Dp (%) 0 CACACACA 1 CACZCACA, CZCACACA, CACACZCA, CACACACZ 2 3 CZCZCACA, CZCACZCA, CZCACACZ, CACACZCZ, CACZCACZ, CACZCZCA CZCZCZCA, CACZCZCZ, CZCACZCZ, CZCZCACZ 4 CZCZCZCZ 1 ∙ 100 = 6,25% 16 4 ∙ 100 = 25% 16 6 ∙ 100 = 37,5% 16 4 ∙ 100 = 25% 16 1 ∙ 100 = 6,25% 16 3 Sin embargo, aunque Moivre confirmó esta observación, no tuvo éxito para encontrar la ecuación de la gráfica. Su observación inició estudios posteriores importantes por parte de grandes matemáticos como Laplace o Gauss, que finalmente acabaron determinando el concepto de “distribución normal”, mientras que a la gráfica que la representa se la denominó como “Campana de Gauss”. 3. La función de la distribución normal, la campana de Gauss y la distribución binomial Ahora voy a intentar comprender cómo emplear la función de la distribución normal de probabilidades desarrollada por matemáticos posteriores en el tiempo a Abraham de Moivre. La notación matemática que emplearé: X : Este signo representa una variable continua de la campana de Gauss σ (sigma): es la desviación típica como los valores dispersos respecto a un valor medio μ: Se refiere a la media que sigue la variable X La fórmula de la distribución normal es Z X , donde Z es un parámetro que se debe encontrar para después utilizar en la tabla de la distribución normal que se calculó de forma empírica para realizar el cálculo de probabilidades de una serie de datos que siguen una distribución normal. La campana de Gauss es la representación gráfica de la distribución normal, se puede expresar mediante la siguiente función obtenida de forma empírica2 3. Estos valores de probabilidades se han obtenido de forma totalmente empírica. Me he propuesto entender el porqué de los porcentajes de la Campana de Gauss, mediante la fórmula para calcular el parámetro Z. Si la variable X puede ser cualquier valor de la distribución −∞ < 𝑋 < ∞ de N(μ,σ). Calcularé las probabilidades del caso p(μ−σ ≤ X ≤ μ+σ). Voy a intentar demostrar únicamente el porqué del área del 68,26%, puesto que las otras áreas se podrían demostrar con el mismo procedimiento. Teniendo en cuenta que debería calcular las probabilidades p(μ−σ ≤ X ≤ μ+σ) , entonces vamos a emplear la siguiente fórmula de Z. 2 3 http://www.ecured.cu/index.php/Campana_de_Gauss http://www.monografias.com/trabajos60/tamano-muestra-archivistica/tamano-muestra-archivistica2.shtml 4 Si sabemos que el valor que buscamos está en el intervalo μ−σ ≤ X ≤ μ+σ, la ecuación que deberíamos resolver sería: p(μ−σ ≤ X ≤ μ+σ) Z X = p Z p Z p Z p(1 Z 1) Partiendo de este intervalo encontrado, calculamos las probabilidades mediante la tabla de distribución normal. p(1 Z 1) p(Z 1) p(Z 1) = p(Z 1) 1 p(Z 1) p(Z 1) 1 p(Z 1) 0.8413 1 0.8413 0.6826 →68,26% En consecuencia podemos decir que hay 68,26% de probabilidades que el valor de x esté en el intervalo (μ−σ ≤ X ≤ μ+σ), lo cual, lo podríamos corroborar en la gráfica de la Campana de Gauss. Para demostrar la efectividad de la Distribución Normal y de la Campana de Gauss, y al mismo tiempo entender yo el concepto que representa, he pensado plantear un problema adaptado a la distribución normal. Problema propuesto: Parto de que tenemos acceso a la información de los resultados que obtienen una serie de alumnos al efectuar un examen, por ejemplo uno que he realizado yo mismo recientemente, denominado SAT. (Ver tabla) Pretendo calcular y entender: -¿Qué porcentaje de candidatos obtienen entre 1600p y 2000p? 5 -¿cuál la representación gráfica de los alumnos que obtienen entre 1520p-1680p? -Teniendo en cuenta hay 2millones de estudiantes que han realizado el examen de SAT en este año ¿cuántos estudiantes han sacado entre 1800-2000p? -Además, se sabe que un alumno quiere acceder a la Michigan State University y el mínimo de SAT requerido es de 2000 puntos. -Afortunadamente el examen SAT se puede realizar de manera ilimitada. Entonces si un alumno intenta hacer el examen 5 veces, ¿cuál es la probabilidad que al menos una vez su puntuación sea mayor de 1600 para poder obtener la mínima puntuación requerida? Soluciones propuestas: En primer lugar, tendría que calcular la P(probabilidad) {1600 X 2000} . Pero se debería encontrar la μ y el σ. Por eso he creado la siguiente tabla mediante MS-Excel para facilitar el cálculo. Donde defino: Xi = Puntuación ; Fi= es el número de alumnos que ha obtenido esa puntuación 6 Veamos la fórmula para calcular μ y y la aplicamos4: 𝜇= ∑ 𝑋𝑖 ∙ 𝐹𝑖 320000 = = 1600 ∑ 𝐹𝑖 200 2 ∙𝐹𝑖 520000800 =√∑ 𝑋𝑖 −𝜇 2 = √ −(1600)2 = √40004 ≈ 200 ∑ 𝐹𝑖 200 Creo la Campana de Gauss general para los datos 𝜇 = 1600 y = 200 y los introduzco en la App (Apple Store) de Larry Feldman denominada “Bell Curve” (http://www.lfeldman.com), obteniendo: Por lo tanto sabiendo que 𝜇 = 1600 y = 200, aplicamos la fórmula para calcular la distribución normal. Con X=2000 (El valor más alto en el intervalo entre 1600 y 2000), entonces el resultado que se obtiene para el parámetro Z es: Z X 2000 1600 2 200 Hay un valor de la tabla que nos dice las probabilidades para cada valor de Z obtenido. Esta tabla de distribución normal está dividida en filas y columnas. La columna de esta tabla indica el valor Z hasta el primer decimal, mientras que la primera columna de la tabla indica el segundo decimal del valor obtenido de Z. A partir de los dos decimales iniciales del valor de Z, se obtiene el porcentaje de una probabilidad. Por lo tanto, en nuestro caso la tabla siguiente nos indica que el porcentaje de Z = 2 es 97,72%. Por un lado, para buscar el valor la fila apropiada se debe fijar hasta el primer decimal del valor obtenido que en nuestro caso es 2. Por otro lado, el número de fila se encuentra mediante el segundo decimal que en nuestro caso es 0. 5 4 5 z 0.00 0.01 0.02 0.03 0.04 0.05 2.0 0.9772 0.9778 0.9783 0.9788 0.9793 0.9798 2.1 0.9821 0.9826 0.9830 0.9834 0.9838 0.9842 https://www.youtube.com/watch?v=6BZCZIVYEs4 http://eva.universidad.edu.uy/mod/resource/view.php?id=140635%E2%80%8E 7 Por lo tanto, hay un 97,72% de probabilidades que los alumnos saquen entre 1600-2000 puntos en este examen. P{1600 X 2000} 0,9772 *100 97.72% Mi reflexión es que inicialmente no había comprendido el significado de la tabla. Después busqué información sobre su uso, lo apliqué y finalmente entendí el significado. Y además lo voy a validar con la App “f-Graph” de Modular & Services GmbH (http://www.mood4apps.com). Se puede observar en el círculo marcado en negro que se confirma el 0,9772 que he obtenido por cálculo: A continuación muestro una tabla y una representación gráfica de la campana de Gauss los alumnos entre 15201680p. Aquí presento un ejemplo de cálculo de la función cuando un alumno haya sacado 2000 puntos. He utilizado MS-Excel para la representación de la forma, donde se intuye la Campana de Gauss. 𝑓(1600) = 1 𝜎√2𝜋 𝑒 𝑥−𝜇 2 −1( 𝜎 ) 2 = 1 200√2𝜋 𝑒 −1( 1600−1600 2 ) 200 2 = 1 200√2𝜋 𝑒0 = 1 200√2𝜋 → 𝑓(1600) = 0.01994711 Con el objetivo de validar mis resultados, he descargado una App que trabaja la campana de Gauss: “Bell Curves” de Yoroslav Mironov (http://www.ioptioneer.ftware%com/differentiate/). He probado dos de los casos, introduciendo en la aplicación los datos de entrada para X=1520 y X= 1600 se obtienen los resultados: 8 Podemos ver que para estos dos casos, se confirman los resultados. PDF son la iniciales de Probability Distributed Variable. Y sus valores (marcaos con un círculo) coinciden con los que he obtenido con la tabla y la calculadora. En cuanto al 2º apartado de la pregunta, sabemos que μ=1600 y σ = 200 y nos aportan el dato de N(Nº de candidatos) = 2000000. Teniendo en cuenta X1= 1800 y X2= 2000 (valores más bajo y más alto respectivamente entre 1800-2000), entonces las probabilidades del valor de X se encontrará entre P(X1 ≤ X ≤ X2), es decir, p (1800≤X≤2000). Se calcula las probabilidades de ambos sustituyendo los valores indicados. De esta manera que 𝑍𝜖[1,2]. 1800 1600 2000 1600 200 400 p Z p p Z p p(1 Z 2) 200 200 200 200 Así, se calcula la diferencia de probabilidades de los dos resultados, pero para calcular bien las probabilidades se debe restar 1 a las probabilidades del primero (X1). Finalmente mediante la tabla de valores de Z expuesta anteriormente, vemos que se obtiene una probabilidad de 81.85%, lo que sería 1637000 estudiantes. p(Z 2) 1 p(Z 1) 0.9772 1 0.8413 0.9772 0.1587 0.8185 2000000 =1637000 En consecuencia, hay 1.637.000 estudiantes que han sacado entre 1800 y 2000p. en el examen SAT sobre los dos millones, que es un 81.85%. En cuanto a la última pregunta propuesta, para saber la probabilidad de que un alumno pueda llegar al mínimo de puntuación requerida en una Universidad concreta repitiendo el examen de SAT 5 veces, es decir , al menos en una convocatoria superar la puntuación de 2000, tengo que utilizar la distribución Binomial de Bernouli 6 : 6 http://es.ncalculators.com/statistics/binomial-distribution-calculadora.htm 9 Aplicando a los datos que tengo: p 1 1 ; p(nota < 2000 ) p(nota 2000 ) ; K=1,2,3,4,5 ; 2 2 n5 Así, de momento sabemos que las probabilidades para nota>2000 y nota<2000 serán iguales, es decir, 50% y que el número de pruebas de exámenes es de 5. Utilizo la calculadora a la hora de utilizar la función binomial. Calcularé para cada caso de k, debido a que ya sea superando la puntuación 1 o hasta 5 veces la puntuación mínima podrá tener cumplido ese requerimiento. Finalmente sumaré las probabilidades. 5 1 Con k 1 P(5) 1 2 1 1 2 5 1 1 Con k 2 P(5) 2 2 2 2 5 1 Con k 3 P(5) 3 2 3 1 2 5 1 1 Con k 4 P(5) 4 2 2 4 5 1 Con k 5 P(5) 5 2 5 51 5 2 5! 1 3.75 % 1! 2 5 5! 1 1.875 % 2! 2 5 3 5 4 1 2 5 5 5! 1 0.625 % 3! 2 5 5! 1 0.15625 % 4! 2 5 5 5 5! 1 0.03125 % 5! 2 Posibilidades=3,75+1,875+0,625+0.15625+0.03125=6.4275%. Que son las posibilidades en % de que el alumno obtenga una puntuación mayor de 2000p. y que tenga la oportunidad de llegar al mínimo de la puntuación requerida por la Universidad. 4. Conclusiones El aprendizaje de un nuevo tema matemático como la distribución y la campana de Gauss fue interesante cuando se explicó en clase y a la vez un poco complicado al inicio. En mi opinión se trata de una ecuación cuyo origen es bastante complicado porque ha sido desarrollado por diferentes grandes matemáticos hasta llegar a su estado actual, pero también muy atractivo, ya que es increíble que una ecuación tan importante en la estadística se formó originariamente a partir de una observación de las probabilidades de cara o cruz en el lanzamiento de monedas gracias a Abraham Moivre. Me he dado cuenta de que mi cabeza pensaba sólo guiada por el sentido común o la intuición y la estadística en esta Exploración Matemática me lo desmentía continuamente con números. He podido entrar también en contacto con el software que trabaja con la Campana de Gauss. En concreto he descargado y aprendido a utilizar y aplicar algunas Apps que descargué de la Apple Store. Corroborando algunos de los resultados obtenidos. Uno de los objetivos lo conseguí ampliamente, que era tratar de entender nomenclaturas y conceptos que no suelo utilizar normalmente, propiedades de los gráficas, el uso de la tabla de la distribución normal y especialmente crear problemas sencillos para comprobar la eficacia de las ecuaciones y teoremas. 10 Además, espero estudiar en el futuro una carrera relacionada con la estadística, o investigación operativa, o el Marketing Sociológico, por lo tanto, me ha sido muy útil para aprender a utilizar conceptos y cálculos estadísticos útiles sobre los cuáles sin duda ampliaré conocimiento en el futuro. En conclusión, he alcanzado mi objetivo ya que no tan sólo he aprendido sobre el origen de las ecuaciones y teoremas, sino que también sobre las propiedades y aplicaciones de la distribución normal, la distribución binomial y la campana de Gauss. Tanto la distribución normal como la Campana de Gauss no sólo son de utilidad en medicina y en economía, sino que también es aplicable en áreas como ingeniería de procesos, marketing, investigación operativa, física y otros campos en los que se manejan muchos datos, puesto que tiene mucha influencia en la toma de decisiones. Ejemplos claros del uso podrían ser las propiedades físicas de las muestras biológicas, variables financieras, esperanza de vida, y uno de los más utilizados es la medición de la probabilidad de error en medidas. En definitiva, no ha sido una Exploración Matemática con grandes y profundos cálculos matemáticos, pero he cumplido mi objetivo que era entender la estadística básica y ser capaz de generarme yo mismo situaciones a resolver con estos conocimientos que iba asimilando. 5. Bibliografía/Webgrafía y Apps https://www.fisterra.com/mbe/investiga/distr_normal/distr_normal.asp consulta(11/5/2014) Anónimo. Uso de la tabla de la distribución típica (n.d.). Última http://eva.universidad.edu.uy/mod/resource/view.php?id=140635%E2%80%8E Anónimo. Distribución Binomial. Actualizada en el 10 de septiembre del 2012. Última consulta (11/6/2014) https://www.youtube.com/watch?v=PXx4pUiPIhQ Jose Antonio Hervás. Controles Estadísticos de procesos (n.d.). Última consulta(8/11/2014) http://www.matematicasypoesia.com.es/Estadist/ManualCPE04.htm Última consulta(12/11/2014) App “Bell Curves” de Yoroslav Mironov (http://www.ioptioneer.ftware%com/differentiate/). Descargada de la Apple Store (Free App) App “f-Graph” de Modular & Services GmbH (http://www.mood4apps.com) Descargada de la Apple Store (Free App) Larry Feldman denominada “Bell Curve” (http://www.lfeldman.com Descargada de la Apple Store (Free App) 11