Dpto. Didáctico de Matemáticas. Estadística MODELOS DE TABLAS ESTADÍSTICAS. Variable: discreta. Dimensiones: unidimensional. TABLA 1 Frecuen- Frecuencias Desviacio- Desviaciones Datos Cuadrados cias ababsolutas nes ponderadas ponderados ponderados solutas acumuladas Datos xi fi Fi x1 x2 xn f1 f2 fn F1 F2 Fn Totales: fi xi x x i x fi x i fi x i2 fi x i x fi x i fi x i2 f i n n i 1 i 1 n n i 1 i 1 Variable: continua. Dimensiones: unidimensional. TABLA 2 Intervalos de clase. xi , xi 1 Marcas de Frecuenclase. cias absolutas Frecuencias Desviacioabsolutas acu- nes muladas xi fi Fi x1 x2 xn f1 f2 fn F1 F2 Fn Totales: fi Datos ponderados Cuadrados ponderados xi x x i x fi x i fi x i2 fi x i x fi x i fi x i2 f i n n i 1 i 1 Definiciones y conceptos. Desviaciones ponderadas Página.- i n i 1 n i 1 Modelos de tablas Dpto. Didáctico de Matemáticas. Estadística Variable: discreta. Dimensiones: bidimensional. TABLA 3 FrecuenDatos Cuadrados cias abponderados ponderados solutas fi x i fi x i2 fi Datos xi x1 x2 xn f1 f2 fn Totales: fi n i 1 x i fi x i2 f i n n i 1 i 1 TABLA 4 FrecuenDatos Cuadrados cias abponderados ponderados solutas fi yi f i yi2 f i Datos yi y1 y2 yn f1 f2 fn Totales: fi n x i , yi x1, y1 x 2 , y2 yi f i yi2 f i n i 1 Datos Definiciones y conceptos. n i 1 i 1 TABLA 5 FrecuenDatos cias abponderados solutas f ij fij x i y j f11 f11 x1 y1 x n , yn f 22 f nm Totales: fij fij xi y j Página.- ii Modelos de tablas Dpto. Didáctico de Matemáticas. Estadística Parámetros o medidas de centralización y dispersión. Definiciones, conceptos y fórmulas para su cálculo. Variable: discreta. Dimensiones: unidimensional. Parámetros de centralización: Media aritmética: se representa por x , y es el resultado de dividir la suma de todos los valores de la muestra entre el total de los mismos. N Expresión o fórmula para su cálculo: x x i fi i 1 N Moda: es el valor de la variable que tiene mayor frecuencia. Puede haber más de una moda. Se representa por Mo. Clase modal: en el caso de distribuciones lineales o con datos agrupados por intervalos, es el intervalo con mayor frecuencia. Para su cálculo solo es necesario hacer el recuento de frecuencias, entonces: f Mo f Mo 1 M o Li a f Mo f Mo 1 f Mo f Mo 1 Donde: Li= límite inferior del intervalo modal a = ancho el intervalo. fMo , fMo 1 , fMo 1 son las frecuencias absolutas, respectivamente, de la clase modal, la anterior y la siguiente. Mediana: una vez ordenados todos los datos en sentido creciente, es el dato que ocupa el lugar central de la misma. Si hubiera dos valores centrales, sería la media de ambos. Se representa por Me. Clase mediana: en el caso de distribuciones lineales o con datos agrupados por intervalos, es el intervalo correspondiente al valor de frecuencia acumulada igual o mayor que el 50% de los datos. Para su cálculo se puede tomar como mediana la marca de clase del intervalo, pero para una mayor aproximación tomaremos: N FMe 1 2 M e Li a f Me Donde: Li= límite inferior del intervalo mediano a = ancho el intervalo. N = número de datos totales FMe 1 = frecuencia absoluta acumulada hasta el intervalo anterior f Me = frecuencia absoluta correspondiente al intervalo mediano Cuartiles: agrupación de los datos en cuatro bloques, conteniendo cada bloque el 25% de los datos. Es decir, el primer cuartil deja a su izquierda el 25% de los datos, el segundo deja a su izquierda el 50% (Coincide con le mediana), el tercer cuartil deja a su izquierda el 75% de los datos y el cuarto es el valor máximo de los datos. Se representan por Qi . Definiciones y conceptos. Página.- i Parámetros estadísticos Dpto. Didáctico de Matemáticas. Estadística Deciles: agrupación de los datos en diez bloques, conteniendo cada bloque el 10% de los datos. El quinto decil vuelve a coincidir con la mediana, ya que deja a su izquierda el 50% de los datos. Se representan por Di. Percentiles: agrupación de los elementos en cien bloques, conteniendo cada bloque el 1% de los datos. El percentil 50 coincide con la mediana. Se representan por Pi. Parámetros de dispersión: Rango o recorrido: es la diferencia entre el mayor y el menor de los datos de la muestra. Se representa por R. Desviación media: es la media de las desviaciones de los datos respecto a la media de la muestra. Se representa por DM. N Expresión o fórmula para su cálculo: DM x i x fi i 1 N Varianza: es la media aritmética de los cuadrados de las desviaciones de los datos respecto de la media de la muestra. Se representa por σ2. N Expresión o fórmula para su cálculo: 2 x i 1 2 i fi x2 N Desviación típica: es la raíz cuadrada de la varianza. Se representa por σ. Coeficiente de variación: CV x ESTUDIO CONJUNTO DE x y . En casi todas las distribuciones estadísticas se considera Normal que: En el intervalo x , x estén el 68.27% de los datos de la muestra. En el intervalo x 2, x 2 estén el 95.45% de los datos de la muestra. En el intervalo x 3, x 3 estén el 99.73% de los datos de la muestra. Para comparar datos de muestras distintas hay que tipificar, o normalizar, dichos datos. Para ello se calculan las variables tipificadas, que son: xx Ahora ya se pueden comparar las variables tipificadas, para ello: z La nueva distribución, para las variables tipificadas, no varía su forma respecto de la original. La media aritmética de las puntuaciones normalizadas es nula, es decir, z 0 La desviación típica de las mismas es la unidad, es decir, z 1 Definiciones y conceptos. Página.- ii Parámetros estadísticos Dpto. Didáctico de Matemáticas. Estadística NOTA: Para las distribuciones de variable continua todos los conceptos son los mismos, y para las fórmulas o expresiones de cálculo hay que tener en cuenta que la variable xi es la marca de clase del intervalo en cuestión. Parámetros o medidas de centralización y dispersión. Definiciones, conceptos y fórmulas para su cálculo. Variable: discreta. Dimensiones: bidimensional. NOTA: Las variables bidimensionales, al igual que los puntos del plano, se componen en realidad de dos variables discretas, xi e yi. Para cada una de ellas se emplean las tablas 3 y 4, con las mismas aplicaciones individuales, los mismos conceptos y las mismas fórmulas para su cálculo. Nuevos parámetros: Coeficiente de Pearson, o correlación lineal: es un valor que nos permite cuantificar la mayor o menor dependencia existente entre las variables. xy Expresión o fórmula para su cálculo: r x y Donde x y y son las desviaciones típicas de x e y por separado. xy es la covarianza para x e y, cuyo valor, o expresión para el cálculo, es: N N f ij x i y j xy i 1 j1 x y COVARIANZA N Donde N es el número total de pares de valores de la muestra. IMPORTANTE: El coeficiente de correlación lineal r, siempre toma valores comprendidos entre –1 y 1, de modo que: Si –1 < r < 0, existe correlación lineal negativa, y será más fuerte cuanto más se aproxime el valor de r a –1. Si 0 < r < 1, existe correlación lineal positiva, y será más fuerte cuanto más se aproxime el valor de r a 1. Si r = 1 ó r = -1, la correlación es perfecta, se dice entonces que hay una dependencia funcional. Por último, si r = 0, entonces no hay correlación lineal, aunque pueden estar relacionadas de modo cuadrático o curvilíneo. Recta de regresión: es la recta en torno a la cual, si hay correlación, se distribuyen los pares de valores de la muestra. xy Recta de regresión de y sobre x: y y 2 x x x Definiciones y conceptos. Página.- iii Parámetros estadísticos Dpto. Didáctico de Matemáticas. Estadística Recta de regresión de x sobre y: x x NOTA: A los cocientes xy 2x xy y 2y xy 2y y y , se les llama coeficientes de regresión, de y sobre x, y coeficiente de regresión de x sobre y, respectivamente. Otra forma de calcular los parámetros de las rectas de regresión: Se denominan ecuaciones normales, se trata de resolver el sistema siguiente, donde las variables son a y b: N N N 2 x i yi a x i b x i i 1 i 1 i 1 N N y a x b N i i i 1 i 1 Para ello sería necesario construir previamente la tabla: xi yi xi2 xi yi x1 xN y1 yN x i2 x i yi N Totales: xi i 1 N N yi i 1 N i 1 i 1 Parte de la cual podíamos haberla insertado ya en la tabla 5, suponiendo 1 la frecuencia absoluta para cada par, y nos habría quedado: TABLA6 Datos x i , yi x1, y1 x 2 , y2 Frecuencias 1ª variable 2ª variable Cuadrados 1ª variable Productos xi2 xi yi fij xi yi x n , yn 1 1 1 x1 x2 xN y1 y2 yN Totales: N x N i 1 Definiciones y conceptos. N i y i 1 Página.- iv N i x i 1 2 i N x i yi i 1 Parámetros estadísticos Dpto. Didáctico de Matemáticas. Estadística Ejemplos de problemas resueltos. Ejemplos de variable discreta. Ed1.En una población de 25 familias se ha observado la variable número de coches que tiene la familia y se han obtenido los siguientes datos: calcular todos los parámetros básicos de la muestra. 0 1 2 3 1 0 3 2 2 1 2 2 1 1 2 1 3 1 1 1 2 4 1 1 1 xi fi Fi x i fi x i2 fi 0 1 2 3 4 2 12 7 3 1 2 14 21 24 25 0 12 14 9 4 0 12 28 27 16 39 83 25 Centralización Moda: Mediana: Media: 1,00 1,00 1,56 Dispersión 1 1 1,56 Varianza: 0,89 Desviación: 0,94 0,89 0,96 Ed2.Un especialista en pediatría obtuvo la siguiente tabla sobre los meses de edad de 50 niños de su consulta en el momento de andar por primera vez: calcular todos los parámetros. Meses Niños Fi x i fi x i2 fi 9 10 11 12 13 14 15 1 4 9 16 11 8 1 1 5 14 30 41 49 50 9 40 99 192 143 112 15 81 400 1089 2304 1859 1568 225 610 7526 50 Centralización Moda: Mediana: Media: 12,00 12,00 12,20 Definiciones y conceptos. Dispersión Varianza: 1,68 Desviación: 1,30 Página.- i Ejemplos Dpto. Didáctico de Matemáticas. Estadística Ed3.Hallar todos los parámetros de la muestra de la tabla que representan los goles por partido en la liga de fútbol 86-87. Goles Partidos Fi x i fi x i2 fi 0 1 2 3 4 5 6 7 8 32 71 80 62 36 15 6 2 2 32 103 183 245 281 296 302 304 306 0 71 160 186 144 75 36 14 16 0 71 320 558 576 375 216 98 128 702 2342 306 Centralización Dispersión Moda 2,00 Mediana 2,00 Media 2,29 Varianza Desviación 2,39 1,55 Ejemplos de variable continua. Ec1.Se ha pasado un test de 79 preguntas a 600 personas. El número de respuestas correctas se refleja en la siguiente tabla. Calcular todos los parámetros básicos de la muestra. Aciertos 0,10 10,20 20,30 30,40 40,50 50,60 60,70 70,80 Marcas Personas Fi x i fi x i2 f 5 40 40 200 1000 15 60 100 900 13500 25 75 175 1875 46875 35 90 265 3150 110250 45 105 370 4725 212625 55 85 455 4675 257125 65 80 535 5200 338000 75 65 600 4875 365625 25600 1345000 600 Centralización Moda Mediana Media 45 43,33 42,67 Definiciones y conceptos. Dispersión Varianza Desviación Página.- ii 421,22 20,52 Ejemplos Dpto. Didáctico de Matemáticas. Estadística Ec2.Calcular todos los parámetros básicos del siguiente conjunto de datos. 10 11 3 13 17 18 13 10 6 20 10 4 16 9 7 16 7 18 9 5 14 8 12 4 10 8 Intervalo xi fi Fi x i fi x i2 fi 4,5 4 4 18 81 7,5 5 9 37,5 281,25 10,5 7 16 73,5 771,75 13,5 4 20 54 729 16,5 3 23 49,5 816,75 19,5 3 26 58,5 1140,75 291 3820,5 3,6 6,9 9,12 12,15 15,18 18,21 26 Centralización Moda Mediana Media 10,50 10,71 11,19 Dispersión 10 10 10,69 Varianza Desviación 21,67 4,66 21,75 4,76 Ec3.La dirección de tráfico ha recogido la siguiente información relativa al número de multas diarias que sus agentes han impuesto en una autopista. Hallar todos los parámetros de la muestra e interpretar los. Multas 0,5 5,10 10,15 15,20 Marca Días Fi x i fi x i2 fi 2,5 6 6 15 37,5 7,5 14 20 105 787,5 12,5 20 40 250 3125 17,5 10 50 175 3062,5 545 7012,5 50 Centralización Moda Mediana Media 12,5 11,25 10,9 Definiciones y conceptos. Dispersión Varianza Desviación 21,44 4,63 Página.- iii Ejemplos Dpto. Didáctico de Matemáticas. Estadística ¿Cómo resolver problemas con las tablas?. Calculadoras y estadística I: La estación meteorológica de Pueblaseca registró 88 días de lluvia el pasado año, según se muestra en la siguiente tabla: 2 Litros/m 0,5 5,10 10,15 15,20 20,25 25,30 30,35 Nº de días 3 7 19 23 18 12 6 Calcula la precipitación media durante los días de lluvia, la varianza, la desviación típica y el coeficiente de variación. Calcula los intervalos modales y medianos, así como la moda y la mediana de la distribución dada de frecuencias. Para hacerlo manualmente deberemos construir la tabla de valores siguiente: x i2 fi Litros/m2 Marcas fi Fi x i fi 0,5 5,10 10,15 15,20 20,25 25,30 30,35 2.5 3 3 7.5 18.75 7.5 7 10 52.5 393.75 12.5 19 29 237.5 2968.75 17.5 23 52 402.5 7043.75 22.5 18 70 405 9112.50 27.5 12 82 330 9075.00 6 88 N = 88 195 1630 6337.50 34950.00 32.5 Totales: Con esta información podemos hacer uso de las fórmulas: N Media: x x i 1 i fi 1630 N N Varianza: 2 18.52 88 x i 1 2 i fi x2 34950 N N Desviación típica: 342.99 54.17 88 x i 1 i fi N Coeficiente de variación: CV x 2 54.17 3.75 0.20 20% x 18.52 Intervalo modal 15,20 , con lo que lo moda será M o 15 23 19 23 19 23 18 Definiciones y conceptos. 3.75 5 17.2 Página.- i La calculadora para el estadístico Dpto. Didáctico de Matemáticas. Estadística Intervalo mediano 15,20 , con lo que la mediana será Me 15 44 29 5 18.26 23 Todo esto, ¿Qué quiere decir?. Pues que durante ese año los días que llovió lo hizo con una intensidad media de 18.52 l/m2, aunque lo más frecuente, la moda, es que lo hiciera con una intensidad de 17.2 l/m2. Por otro lado, la mediana, nos dice que el 50% de los días llovió con una intensidad mayor de 18.26 l/m2, y el resto de los días fue menor. Por último, el CV nos dice que la distribución es algo dispersa respecto de la media, en concreto, un 20%. CON CALCULADORA: Marca CASIO, modelo fx-570S Ajustar el MODE a SD, para ello pulsar secuencialmente MODE 2. Limpiar las memorias, ponerlas a cero, para ello pulsar secuencialmente SHIFT C Introducir los datos del estadístico, para ello debemos tener en cuenta que en este caso los valores son las marcas de clase. Se teclea el valor y a continuación la frecuencia, en este orden, 2.5 X 3 M+ , el por indica que el valor se repite tres veces, al pulsar M+ el valor pasa a la memoria del estadístico, ya que bajo él estará escrito DT o DATA. Se procede así con todos los datos. Para recuperar la información del estadístico, procedemos de la siguiente manera: RCL 3 devuelve el número de datos introducidos, en este caso 88. x RCL 1 devuelve la suma de los productos ponderados x RCL 2 devuelve la suma de los productos ponderados i fi , 1630 2 i fi , 34950 SHIFT 1 devuelve la media, 18.52 SHIFT 2 devuelve la desviación típica, 3.75 El resto de valores han de calcularse manualmente, aunque siempre tendremos en la memoria la información básica y podemos operar con ella desde ahí. Marca CASIO, modelo fx-570MS Ajustar el MODE a SD, para ello pulsar secuencialmente MODE MODE 1 Limpiar las memorias, ponerlas a cero, para ello pulsar secuencialmente SHIFT CLR 1 = Introducir los datos del estadístico, para ello debemos tener en cuenta que en este caso los valores son las marcas de clase. Se teclea el valor y a continuación la frecuencia, en este orden, 2.5 SHIFT າ3 M+ , la coma indica que el valor se repite tres veces, al pulsar M+ el valor pasa a la memoria del estadístico, ya que bajo él estará escrito DT o DATA. Se procede así con todos los datos. Para recuperar la información del estadístico, procedemos de la siguiente manera: SHIFT 1 3 = devuelve el número de datos introducidos, en este caso 88. x SHIFT 1 1 = devuelve la suma de los productos ponderados x SHIFT 1 2 = devuelve la suma de los productos ponderados i fi 2 i fi Definiciones y conceptos. Página.- ii La calculadora para el estadístico Dpto. Didáctico de Matemáticas. Estadística SHIFT 2 1 = devuelve la media. SHIFT 2 2 = devuelve la desviación típica. Calculadoras y estadística II: Una empresa dedicada a la elaboración y vente de ropa para jóvenes ha realizado los gastos en publicidad y ha obtenido las ventas que figuran en la siguiente tabla. Los datos vienen expresados en millones de pesetas y se refieren a los últimos diez años. Publicidad 7.5 8 8.5 10 10.5 12 13 14 15 18 Ventas 200 205 230 240 250 270 280 300 310 325 Si denominamos X a la variable gastos de publicidad e Y a los beneficios de ventas, halla: Las medias y desviaciones típicas para cada variable independientemente. La covarianza de las variables. El coeficiente de correlación lineal o de Pearson, y analiza la dependencia de ambas variables. La recta de regresión de Y sobre X. La empresa decide invertir el próximo año 25 millones en publicidad. Si se mantiene la misma tendencia, ¿Cuál es el volumen de ventas esperado?. Si la empresa desea obtener 500 millones en ventas, ¿Cuánto debe invertir en publicidad?. Como todos los pares de valores tienen frecuencia absoluta igual a la unidad no tiene sentido construir una tabla de doble entrada. Así pues pasamos directamente a lo que nos interesa para las medias y varianzas. xi y j fij x i fi yi f i x i2 fi yi2 fi xi yi 7.5 7.5 56.25 8 8 64 8.5 8.5 72.25 10 10 100 10.5 10.5 110.25 12 12 144 13 13 169 14 14 196 15 15 225 18 18 324 Totales: 116.5 1460.75 200 205 230 240 250 270 280 300 310 325 200 205 230 240 250 270 280 300 310 325 2610 40000 42025 52900 57600 62500 72900 78400 90000 96100 105625 698050 1500 1640 1955 2400 2625 3240 3640 4200 4650 5850 31700 Con esta información podemos hacer uso de las fórmulas: xi fi 116.5 11.65 yi fi 2610 261 Medias: x y N 10 N 10 2 x i fi yi2 fi 2 x 3.22 y y 2 41.04 Desviaciones típicas: x N N xi y j fij x y 129.35 Covarianza: xy N Definiciones y conceptos. Página.- iii La calculadora para el estadístico Dpto. Didáctico de Matemáticas. Coeficiente de Pearson: Estadística xy 0.98 hay una buena correlación, dependen x y estrechamente la una de la otra. xy x x y 12.49 x 115.44 Recta de regresión Y→X: y y 2x xy y y x 0.08 y 9.23 Recta de regresión X→Y: x x 2y Volumen de ventas esperado para una inversión de 25 millones: (fiabilidad 96%) y 12.49 x 115.44 y 12.49 25 115.44 427.69 millones en ventas. Inversión que se ha de realizar para un beneficio de 500 millones: x 0.08 y 9.23 x 0.08 500 9.23 30.77 millones en publicidad. CON CALCULADORA: Marca CASIO, modelo fx-570S Ajustar el MODE a LR, para ello pulsar secuencialmente MODE 3. Limpiar las memorias, ponerlas a cero, para ello pulsar secuencialmente SHIFT C Introducir los datos del estadístico, para ello debemos tener en cuenta que en este caso los valores son pares x,y. Se teclea el valor X, a continuación [(··· , y luego el valor Y, en este orden, 7.5 [(··· 200 M+ , así con todos los pares de datos del estadístico. Para recuperar la información del estadístico, procedemos de la siguiente forma: x y f , 31700 RCL 5 devuelve la suma de los productos ponderados y f , 2610 RCL 4 devuelve la suma de los productos ponderados y f , 698050 RCL 6 devuelve la suma de los productos ponderados i i i 2 i i i ij RCL 3 devuelve el número de datos introducidos, en este caso 10. x RCL 1 devuelve la suma de los productos ponderados x RCL 2 devuelve la suma de los productos ponderados i fi , 1165 2 i fi , 1460.75 SHIFT 1 devuelve la media de X, 11.65 SHIFT 2 devuelve la desviación típica de X, 3.22 SHIFT 4 devuelve la media de Y, 261 SHIFT 5 devuelve la desviación típica de Y, 41.04 SHIFT A devuelve el valor del término independiente de la recta de regresión Y→X. SHIFT B devuelve el valor del coeficiente de X en la recta de regresión. SHIFT Γ devuelve el valor del coeficiente de Pearson o correlación. Definiciones y conceptos. Página.- iv La calculadora para el estadístico Dpto. Didáctico de Matemáticas. Estadística Recuerda Y→X y A Bx El resto de valores han de calcularse manualmente, aunque siempre tendremos en la memoria la información básica y podemos operar con ella desde ahí. Marca CASIO, modelo fx-570MS Ajustar el MODE a REG, para ello pulsar secuencialmente MODE MODE 2 Limpiar las memorias, ponerlas a cero, para ello pulsar secuencialmente SHIFT CLR 1 = Introducir los datos del estadístico, para ello debemos tener en cuenta que en este caso los valores pares x,y. Se teclea el valor X, a continuación la າ , seguidamente el valor de Y, este orden 7.5 າ 200 M+. Se procede así con todos los pares de datos del estadístico. Para recuperar la información del estadístico, procedemos de la siguiente manera: x SHIFT 1 2 = devuelve la suma de los productos ponderados x SHIFT 1 1 = devuelve la suma de los productos ponderados 2 i fi i fi SHIFT 1 3 = devuelve el número de datos introducidos, en este caso 10 y f SHIFT 1 ► 2 = devuelve la suma de los productos ponderados y f SHIFT 1 ► 1 = devuelve la suma de los productos ponderados 2 i i i i SHIFT 1 ► 3 = devuelve la suma de los productos ponderados xi yi fij SHIFT 2 1 = devuelve la media de X. SHIFT 2 2 = devuelve la desviación típica de X. SHIFT 2 ► 1 = devuelve la media de Y. SHIFT 2 ► 2 = devuelve la desviación típica de Y. SHIFT 1 ► ► 1 = devuelve el término independiente de la recta de regresión Y→X. SHIFT 1 ► ► 2 = devuelve el coeficiente de X en la recta de regresión. SHIFT 1 ► ► 3 = devuelve el coeficiente de Pearson o correlación. Recuerda Y→X y A Bx Definiciones y conceptos. Página.- v La calculadora para el estadístico