Unidad 6: Estadística y Probabilidad Tema 1: La Estadística Tema 1: La Estadística ¿Ha comprado por Internet? Creative Commons Es dificil establecer cuando se empezaron a usar las estadísticas, pero de todos es conocido, que en el inperio romano ya se hacían censos de sus habitantes. Posiblemente no exista ninguna otra rama de las matemáticas, que tenga hoy en día, una influencia tan grande sobre la sociedad como la estadística. En la actualidad se usa la estadística como un método para la toma de decisiones por parte de los gobiernos y las empresas. Así por ejemplo: - ¿Cómo decidir si un nuevo producto que vamos a lanzar al mercado va a tener éxito? - Las encuestas preelectorales y su influencia sobre la toma de decisiones de los gobiernos. - Estudiar las encuestas de crecimiento de población para determinar las necesidades y prioridades de los servicios en un nuevo barrio. Matemáticas I Página 1 de 20 Unidad 6: Estadística y Probabilidad Tema 1: La Estadística 1. Conceptos básicos Los datos que estudia la estadística hacen referencia a un conjunto de personas, cosas o eventos. Este conjunto de personas, cosas o eventos reciben el nombre de población. Como, en la mayoría de los casos no es posible estudiar a todos los elementos de la población para realizar un estudio estadístico, no es necesario una parte representativa de la población que llamaremos muestra. El número de personas que forman la muestra recibe el nombre de tamaño de la misma. Los elementos o individuos de la población poseen ciertas propiedades, rasgos o cualidades que llamamos CARACTERES O ESTADÍSTICOS Estas características se dividen en dos tipos: Cuantitativas, las que podemos medir de forma numérica (edad, peso, etc ...) Cualitativas, las que no podemos medir de forma numérica (profesión). A las cualitativas le podemos asignar una variable estadística que a su vez puede ser de dos tipos: Variable discreta, cuando la variable toma unos valores aislados: edad. Variable continua, cuando la variable puede tomar cualquier valor de un determinado intervalo: peso. En la siguiente animación puedes repasar estos conceptos. Pulsa sucesivamente, con el ratón, sobre la imagen FRECUENCIAS Lo primero que hacemos al realizar un estudio estadístico es la tabulación de resultados, es decir, recoger la información resumiéndola en una tabla, en la que a cada valor de la variable se le asocia el número de veces que ha aparecido y su proporción con respecto a otros valores de la variable. Estos números se denominan frecuencia y tenemos varios tipos de frecuencias. Frecuencia absoluta: es el número de veces que aparece un determinado valor en el estudio estadístico. Frecuencia relativa: es el cociente entre la frecuencia absoluta de un determinado valor y el número total de datos. Frecuencia acumulada: es la suma de las frecuencias absolutas de todos los valores inferiores o iguales al valor considerado. Frecuencia relativa acumulada: es el cociente entre la frecuencia acumulada de un determinado valor y el número total de datos. En la siguiente animación vemos el proceso de recuento y tabulación Matemáticas I Página 2 de 20 Unidad 6: Estadística y Probabilidad Tema 1: La Estadística Indica qué variables son cualitaƟvas Postre favorito. Libro preferido. Número de amigos. Número de libros que has leído este mes. Color de los ojos. Indica cuáles de estas variables son discretas Número de semáforos de una calle. Tiempo de duración de una pelicula. Temperaturas registradas cada hora en un observatorio. Número de hijos de varias familias. Distancia entre ciudades. Matemáticas I Página 3 de 20 Unidad 6: Estadística y Probabilidad Tema 1: La Estadística 2. Gráficos estadísticos Una vez recogidos los datos y recontados, el primer paso es representar toda esta información mediante un diagrama. Nosotros vamos a ver, ahora, los diagramas de barras y los histogramas. DIAGRAMA DE BARRAS En una clase con 30 alumnos se observa el número de suspensos que ha habido en la primera evlaución y se obtiene los datos de la siguiente tabla. Nº suspensos 0 1 2 3 4 5 Nº alumnnos 2 4 6 10 5 3 Vamos a representar estos datos en un diagrama de barras. En la tabla de la derecha puedes ir cambiando los valores que hay, entre 0 y 6, y ver como se modifica el diagrama. ¿Para que tipo de variable estadística es conveniente el uso de diagrama de barras? HISTOGRAMA Los histogramas se usan generalmente cuando la variable estadística es continua. Las barras del histograma tienen un área proporcional al número de datos que representan. Si el tamaño de los intervalos es igual en todos ellos, entonces el histograma coincide con un diagrama de barras. Se ha tomado una muestra de 100 bombillas y se ha medido las horas que han funcionado hasta averiarse y se ha obtenido la siguiente tabla de datos. Duración (horas) 100-150 150-200 200-250 250-300 300-350 350-400 Nº de bombillas 3 14 23 35 20 5 La variable "duración" es una variable continua, por ello hemos agrupado los datos en intervalos. Los intervalos se han tomado de una amplitud de 50 horas para todos. En el applet siguiente puedes ver el histograma correspondiente a la tabla anterior. En él puedes modificar los valores del nº de bombillas, y también puedes cambiar la amplitud de los intervalos. Prueba y observa. Matemáticas I Página 4 de 20 Unidad 6: Estadística y Probabilidad Tema 1: La Estadística ¿Para qué tipo de variables está indicado el uso de los histogramas? GRÁFICO DE SECTORES El gráfico de tarta o de sectores es un gráfico que se basa en la proporcionalidad entre la frecuencia de cada variable y el ángulo central de una circunferencia, de tal manera que a la frecuencia total le corresponde el ángulo central de 360°. Para construir se aplica luna simple regla de tres. Se usa cuando la serie estadística tiene frecuencias grandes, y los valores de la variable son pocos. La ventaja de este diagrama es que es fácil de hacer y que se entiende fácilmente. Si los valores de la variable son muchos resulta laborioso de construir y dificil de entender, por lo que es poco útil. Haz los calculos para obtener los ángulos centrales de cada sector del cuadro anterior. ¿Para qué tipo de variables está indicado el uso de los diagramas de sector? Gráfico de sectores Ite Banco de imagenes y datos Matemáticas I Página 5 de 20 Unidad 6: Estadística y Probabilidad Tema 1: La Estadística 3. Parámetros estadísticos Una vez que se tienen tabulados y recontados todos los valores de la variable que estamos estudiando necesitamos calcular una serie de parámetros estadísticos que nos permitan ver de una forma rápida el comportamiento de la variable. Estos parámetros estadísticos son: Parámetros estadísticos de centralización: Son parámeros que miden el valor más característico de la variable. Parámetros estadísticos de posición: Miden la posición de los valores de la variable dentro del conjunto. Parámetros estadísticos de dispersión: Miden la dispersión de los valores de la variable estadística respecto de los parámetros de centralización y son. Parametro de comparación: Posibilita la comparación entre distintas series. Matemáticas I Página 6 de 20 Unidad 6: Estadística y Probabilidad Tema 1: La Estadística 3.1. Parámetros estadísticos de centralización. LA MEDIA Cuando trabajamos con una serie, grande, de valores numéricos y queremos hacer un resumen de ellos, la media tiene gran importancia porque sirve como una buena representación del conjunto de valores. Luego veremos algunas propiedades que apoyan esta afirmación. Media Se representa por observaciones. y es el valor que se obtiene de sumar todos los valores de la variable estadística y dividisrlo entre el número total de La fórmula que nos permite su cáculo es: Si los datos están agrupados, cada uno de ellos con una frecuencia fi la fórmula sería: Las calificaciones obtenidas por un grupo de 200 alumnos en la asignatura de Matemáticas se recogen en la siguiente tabla Calificación 1 2 3 4 5 6 7 8 9 Nº de Alumnos 10 10 20 25 40 45 15 20 15 La Medía es: La Mediana Una vez ordenados los valores de la variable estadística de menor a mayor, el valor central es la mediana. Si el número de valores de la variable es par (y por lo tanto no existe un valor que esté en el medio) la mediana es el promedio de los dos valores centrales. Matemáticas I Página 7 de 20 Unidad 6: Estadística y Probabilidad Tema 1: La Estadística Mediana Es el valor de la variable que deja, tanto por debajo como por encima, a la mitad de los valores. Las calificaciones obtenidas por un grupo de 200 alumnos en la asignatura de Matemáticas se recogen en la siguiente tabla: Calificación 1 2 3 4 5 6 7 8 9 Nº de Alumnos 10 10 20 25 40 45 15 20 15 Para calcular la mediana, ordenamos los datos construyendo la tabla de frecuancias acumuladas Calificación 1 2 3 4 5 6 7 8 9 Nº de Alumnos 10 20 40 105 40 150 165 185 200 Como la variable tiene tiene 200 valores, la mediana es el promedio de los valoires que ocupan los lugares 100 y 101, es decir 5 (ambos son 5) Cuando la variable estadística es continua y los datos los hemos agrupados en intervalos de clase es facil determinar la clase donde se encuentra la mediana, una vez hecho esto la fórmula que nos permite calcular su valor es: donde: Li es el extremo inferior de la clase donde se encuentra la mediana. a es la amplitud del intervalo donde se encuentra la mediana. n es el número total de datos. Fi-1 es la frecuencia absoluta acumulada de la clase anterior a la clase de la mediana. fi es la frecuencia absoluta de la clase mediana. Se ha tomado una muestra de 75 bombillas y se ha medido las horas que han funcionado hasta averiarse y se ha obtenido la siguiente tabla de datos: Duración (horas) 250-300 300-350 350-400 400-450 450-500 500-550 Nº de bombillas 3 6 21 28 11 6 La variable "duración" es una variable continua, por ello hemos agrupado los datos en intervalos. Los intervalos se han tomado de una amplitud de 50 horas para todos. Moda: la Moda de la variable duración es 425 horas que es la marca de la clase (400,450) Media: Mediana: Construimos la tabla de las frecuencias acumuladas Duración Nº de bombillas 250-300 300-350 350-400 400-450 450-500 500-550 3 9 30 58 69 75 La clase que contiene a la mediana es 400-450, aplicando la fómula que vimos anteriormente, obtenemos Matemáticas I Página 8 de 20 Unidad 6: Estadística y Probabilidad Tema 1: La Estadística La Moda Es el valor de la variable que más se repite. La Moda Es el valor de la variable estadística que tiene mayor frecuencia. Una variable estadística puede tener más de una moda, si tiene dos modas diremos que la distribución es bimodal, trimodal si tiene tres y así sucesivamente. Las calificaciones obtenidas por un grupo de 200 alumnos en la asignatura de Matemáticas se recogen en la siguiente tabla Calificación 1 2 3 4 5 6 7 8 9 Nº de Alumnos 10 10 20 25 40 45 15 20 15 La Moda es 6, ques la nota que han obtenido mas alumnos (45) En el siguiente applet te presentamos las notas de 30 alumnos de una clase, en ella hemos hecho una representación de estos datos mediante barras y hemos calculado la Medía, Mediana y Moda de la clase. Varia los valores de la tabla y verás como cambian los valores calculados. Matemáticas I Página 9 de 20 Unidad 6: Estadística y Probabilidad Tema 1: La Estadística En una clase de 30 alumnos se observa el número de suspensos que ha habido en la primera evaluación y se obtiene los fatos de la siguiente tabla: Nº Suspensos 0 1 2 3 4 5 Nº alumnos 2 4 6 10 5 3 Calcula la Media, Mediana y Moda Matemáticas I Página 10 de 20 Unidad 6: Estadística y Probabilidad Tema 1: La Estadística 3.2. Parámetros estadísticos de posición Los cuartiles y percentiles Los cuartiles son los tres valores de la variable que dividen a un conjunto de datos ordenados en cuatro partes iguales. En la animación puedes ver como se construyen los cuartiles. Los percentiles son los 99 valores que dividen la serie de datos en 100 partes iguales. Mediana y cuartiles Ite Banco de imagenes y datos Cuartiles Primer cuartil Q1 : Es el valor de la variable que deja por debajo de si al 25% de la población. Segundo cuartil Q2: Es el valor de la variable que deja por debajo de si al 50% de la población. Es la Mediana Tercer cuartil Q3: Es el valor de la variable que deja por debajo de sí al 75% de la población. Percentil k: Es el valor de la variable que deja por debajo de si al k% de la población. La fórmula para calcular estos valores es la misma que la de la mediana sólo que en lugar de dividir la n entre 2 (mediana) habrá que dividirla entre 4 para el primer cuartil y multiplicar por 3/4 para el tercero El calculo de los percentiles es análogo al de los cuartiles. Las temperaturas medias durante una semana de Agosto, han sido: L M X J V S D Calcula su mediana y los cuartiles primero y tercero 26 17 18 20 23 24 23 Como son 7 datos, la mediana estará en la posición cuatro una vez que los hayamos ordenado. 17; 18; 20; 23; 23; 24 y 26. El primer cuartil en la posición dos y el tercero en la posición 6 Es decir: Mediana= 23; Q1=18 y Q3=24 Si nos atenemos el estudio de todo el mes de Agosto con las temperaturas agrupadas en intervalos resultan: [17-20) [20-23) [23-26) [26-29) 2 9 7 13 Vuelve a calcular su mediana, los cuartiles primero y tercero y el percentil 90 Md=24,9 Matemáticas I Página 11 de 20 Unidad 6: Estadística y Probabilidad Tema 1: La Estadística Q1=22,4 Q3=27,2 P90=28,3 Diagramas de caja Otra forma de representación gráfica de los datos de una serie son los diagramas de caja: Vamos a verla respresentacion de una serie compuesta por doce notas de un grupo de alumnos en una evaluación. 1, 2, 3, 3, 4, 4, 5, 5, 5, 6, 7 y 10. La Mediana es 4,5; Q1 es 3 y Q3 es 5,25. Para construir la caja seguimos los siguientes pasos: 1. Centrado en un eje horizontal construimos un rectángulo, caja, cuyo vértice superior izquierdo está en la posicion del primer cuartil Q1 y cuyo vértice superior derecho está en la posicion del tercer cuartil Q3. 2. Dibujamos un segmento vertical dentro de la caja en la posición de la mediana. 3. La caja se completa con un segmento que tiene como extremos los valores mínimo y máximo de la variable. Las lineas que sobresalen de la caja se llaman bigotes. Estos bigotes tienen tienen un límite de prolongación, de modo que cualquier dato o caso que no se encuentre dentro de este rango es marcado e identificado individualmente. Para construir los bigotes se toman los siguientes limites: Límite Límite Límite Límite interior inferior = Límite del bigote inferior = Q1 - 1,5(Q3-Q1) interior superior = Límite del bigote superior = Q3 + 1,5(Q 3-Q1) exterior inferior = Q1 - 3(Q3-Q1) exterior superior = Q3 + 3(Q3-Q1) Los limites interiores marcan hasta donde se "permiten" datos de la muestra, por estar muy cerca del resto. Estos límites definen los extremos de los bigotes. De sobrepasar esta barrera se le considera valor atípico. Los límites exteriores indican cuándo un dato se aleja en exceso del resto. Mediana y cuartiles Ite Banco de imagenes y dato En una excursión a la montaña, las edades de los 20 excursionistas son:15, 15, 15, 16, 16, 18, 20, 21, 21, 21, 21, 22, 22, 22, 23, 23, 23, 25, 25, 25. Vamos a construir y estudiar un diagrama de caja y bigotes con estos datos. El bigote de la izquierda representa al colectivo de edades ( mínimo, Q1) La primera parte de la caja a (Q1, Md), La segunda parte de la caja a (Md, Q3) El bigote de la derecha viene dado por (Q3, máximo) Si miramos la información que obtenemos a partir de estas representación podemos ver que: La parte izquierda de la caja es mayor que la de la derecha; ello quiere decir que las edades comprendidas entre el 25% y el 50% de los excursionistas está más dispersa que entre el 50% y el 75%. El bigote de la izquierda (mínimo, Q1) es igual que el de la derecha; por ello el 25% de los más jóvenes están igual de concentrados que el 25% de los mayores. El rango intercuartílico = Q3 - Q1 = 6; es decir, el 50% de la población está comprendido en esos 6 años, 17 a 23. Matemáticas I Página 12 de 20 Unidad 6: Estadística y Probabilidad Tema 1: La Estadística Se han medido las alturas de los 40 alumnos de una clase y se han obtenido los siguientes datos: Intervalos Frecuencias 148,5-153,5 2 153,5-158,5 4 158,5-163,5 11 163,5-168,5 14 168,5-173,5 5 173,5-178,5 4 Calcula el primer y tercer cuartil, la mediana y el percentil 80 Matemáticas I Página 13 de 20 Unidad 6: Estadística y Probabilidad Tema 1: La Estadística 3.3. Parámetros estadísticos de dispersión Como podemos observar en la figura de la izquierda las dos series, con 24 notas cada una, tienen la misma media. Sin embargo corresponden a valores que son muy diferentes. La media puede no darnos suficiente información sobre la distibución de la serie original. Para completar la información necesitamos añadir a la media otros parámetros estadísticos: los de dispersión El rango Es la diferencia entre el máximo y mínimo valor que toma la variable estadística. También se le nombra como amplitud o recorrido En la imagen de la derecha aparece un diagrama de barras con la velocidad del viento en Zaragoza en el mes de Enero de 2008. Los datos aparecen a la izquierda Varianza Para tener una visión mas completa sobre la serie de datos, vamos a medir el grado de dispersión de estos datos. Medimos lo que se desvia cada dato con respecto a la media y hallamos la media de los cuadrados, (así conseguimos que todos los valores sean positivos), de estas distancias Aquí vemos un cuadro, con las estaturas de 40 alumnos agrupadas en intervalos, y el proceso para calcular la Varianza Matemáticas I Página 14 de 20 Unidad 6: Estadística y Probabilidad Tema 1: La Estadística 2 Se define la varianza, y la representaremos por σ , a la media aritmética de las diferencias al cuadrado de cada dato respecto de la media de todos ellos, es decir: Desviación Típica Para medir con mayor precisión el grado de agrupamiento de los datos de una variable estadística utilizaremos la desviación típica σ que es la raíz cuadrada de la varianza. La desviación típica es siempre positiva y se mide en las mismas unidades que los datos. Desviación Típica Es la raiz cuadrada de la varianza y se representa por σ Matemáticas I Página 15 de 20 Unidad 6: Estadística y Probabilidad Tema 1: La Estadística Cuando la distribución depende de variables asociadas a fenómenos naturales que siguen el modelo de la normal Entre la Media y la desviación típica se cumplen algunas relaciónes: El intervalo contiene aproximadamente al 68% de los datos. El intervalo contiene aproximadamente al 95% de los datos. El intervalo contiene a casi todos los datos . Coeficiente de variación Para poder comparar las dispersiones de varias variables estadísticas utilizamos el coeficiente de variación Coeficiente de variación Se expresa como CV, y se calcula dividiendo la desviación típica entre la media, es decir: El resultado se expresa generalmente en porcentaje. Dos gimnastas obtienen en la olimpiada las puntuaciones de la siguiente tabla. Gimnasta 1 9,4 9,4 9,3 10 9,5 9,2 8,5 9,4 9,3 9,4 Gimnasta 2 9,3 9,5 9,6 9,2 9,0 9,4 9,4 9,2 9,2 9,6 ¿Cúal de las dos gimnastas se ha comportado de una forma más regular? Vamos a calcular los parámetros estadísticos de ambas distribuciones: Distribución 1 Media = 9,34 Matemáticas I Página 16 de 20 Unidad 6: Estadística y Probabilidad Tema 1: La Estadística Distribución 1: Varianza = Distribución 1: Desviación Típica = Distribución 1. Coeficiente de variación expresado en tanto por ciento sería, 3,9% Repitiendo los cálculos para la segunda gimnasta obtenemos: Media 9,34 Varianza = 0,038 Desvición Típica = 0,19 Coeficiente de variación: 2,09% A la vista de los resultados se puede afirmar que la segunda gimnasta ha tenido una actuación más regular ya que sus puntuaciones tienen una menor dispersión A un grupo de 30 personas se les ha tomado el número de pulsaciones por minuto (ritmo cardíaco) obteniéndose los siguientes resultados: 87 85 61 51 64 75 80 70 69 82 80 79 82 74 90 76 72 73 63 65 67 71 88 76 68 73 70 76 71 86 a.- Calcula la media y la desviación típica de estos datos. b.- ¿Qué porcentaje de datos se encuentra en el intervalo Solución a.- b.- =(65,4;82,8) contamos el número de personas cuyas pulsaciones están comprendidas entre esos valores y obtenemos 20, que representa el 66,6% Tenemos los siguientes tres conjuntos de datos: Serie 1 8 8 9 9 9 9 9 10 10 Serie 2 1 3 6 9 9 11 13 14 15 Serie 3 1 8 8 9 9 9 11 11 15 Las tres tiene 9 como media, moda y mediana ¿Cúal tiene los datos más agrupados?¿Cúal más dispersos? Una empresa ganadera tiene tres tipos de vacas lecheras. se tomaron tres muestras de las distintas razas con 10 vacas por grupo. Cada vaca produjo los siguientes litros de leche en un día Matemáticas I Página 17 de 20 Unidad 6: Estadística y Probabilidad Tema 1: La Estadística Raza A 13,5 13,8 13,9 23,2 16,8 18,3 20,2 20,5 22,3 18,9 Raza B 15 22,2 26,8 25 13,2 10,9 12,5 18,9 23,8 25,6 Raza C 25,1 28,2 23,8 27,6 21,7 10,8 25 24,2 21,7 18,2 Los gastos mensuales de una empresa A tienen una media de 100.000 euros y una desviación típica de 12500 euros. En otra empresa B la media es de 15000 euros y la desviación típica de de 2500 euros. calcula el coeficiente de variación y di cuál de las dos tiene mayor variación relativa. Matemáticas I Página 18 de 20 Unidad 6: Estadística y Probabilidad Tema 1: La Estadística 5. Ejercicios para saber más 07 La tabla de la izquierda son el número de dias al año que ha 1 11 nevado en Zaragoza entre 1973 y 2009 25 3 5 Introduce estos valores en la animación de la derecha y observa como calcula el rango, la varianza y la desviación típica. 42 5 1 Cambia los datos de la frecuencia, conservando el total de 37 6 3 años, y estudia como se consigue aumentar o disminuir la desviación. 73 Dispersión Ite Banco de imagenes y datos Utiliza la animación anterior para calcular el rango, la varianza y la desviación típica de los siguientes datos: 4 4 6 7 8 9 10 12 12 10 14 8 16 6 18 5 74-81 5 81-88 3 88-95 7 95-102 5 La tabla de la izquierda son el número de dias al año que ha llovido en Zaragoza entre 1973 y 2009 Introduce estos valores en la animación de la derecha y observa como calcula el rango, la varianza y la desviación típica. 102-109 8 Cambia los datos de la frecuencia, conservando el total de 37 años, y estudia como se consigue aumentar o disminuir la desviación. 109-116 6 116-123 3 Matemáticas I Página 19 de 20 Unidad 6: Estadística y Probabilidad Tema 1: La Estadística Dispersión continua Ite Banco de imagenes y datos El número de minutos que un determinado médico dedica a cada paciente, en una determinada consulta, viene dado en esta lista: 2, 3, 4, 5, 5, 6, 6, 7, 7, 8, 8, 8, 9 Dibuja una representación en diagrama de caja, despues de hallar la Mediana y los cuartiles 1 y 3. Para finalizar, te proporcionamos una colección de ejercicios que debes hacer para consolidar lo que has aprendido a lo largo de este tema. * Ejercicios de consolidación * Soluciones Matemáticas I Página 20 de 20