MODULO 02 *. Los miembros de una cooperativa de viviendas tienen las siguientes edades: 42 60 60 38 60 63 21 66 56 57 51 57 44 45 35 30 35 47 53 49 50 49 38 45 28 41 47 42 53 32 54 38 40 63 48 33 35 61 47 41 55 53 27 20 21 42 21 39 39 34 45 39 28 54 33 35 43 48 48 27 53 30 29 53 38 52 54 27 27 43 28 63 41 23 58 56 59 60 40 24 Elabore una tabla de frecuencias y calcule la media y la desviación típica. Para elaborar una tabla de frecuencias es condición imprescindible establecer una serie de clases o categorías (intervalos) a las que vamos a adjudicar a cada uno de los ochenta miembros de la cooperativa. El investigador puede seguir diferentes criterios en función del objetivo del estudio. Una tabla de frecuencias elaborada a partir de estos datos podría ser la siguiente: Edad 20-29 30-39 40-49 50-59 60-69 Total n 14 17 22 18 9 80 Cálculo de la media: Puede calcularse directamente sumando las edades de todos los miembros de la cooperativa y dividiendo por el total que en este caso es ochenta, el resultado es una media de 43,29. También: Edad 20-29 30-39 40-49 50-59 60-69 Total x xi 25 35 45 55 65 ni 14 17 22 18 9 80 xini 350 595 990 990 585 3510 3510 43,875 80 , por tanto, podemos decir que la media es de casi 44 años. Cálculo de la desviación típica: Edad xi ni xi x ( xi x) 2 ( xi x) 2 n 20-29 30-39 40-49 50-59 60-69 Total 25 35 45 55 65 14 17 22 18 9 80 -18,875 -8,875 1,125 11,125 21,125 356,2656 78,7656 1,2656 123,7656 446,2656 4987,71875 1339,01563 27,84375 2227,78125 4016,39063 12598,75 12598,75 12,549 80 Sx = La desviación típica es de 12,5 años *. Explique las similitudes y diferencias de estas distribuciones: Edad 20-29 n_ 14 Edad 20-29 n__ 43 30-39 40-49 50-59 60-69 Total 17 22 18 9 80 30-39 40-49 50-59 60-69 Total ---37 80 La media y la desviación típica de la primera distribución, ha sido calculada en el primer Calculamos a continuación los mismos estadísticos para la segunda distribución. Cálculo de la media: x Edad xi ni xini 20-29 30-39 40-49 50-59 60-69 Total 25 35 45 55 65 43 37 80 1075 2405 3480 3480 43,5 80 Cálculo de la desviación típica: Edad xi ni 20-29 30-39 40-49 50-59 60-69 Total Sx 25 35 45 55 65 ( xi x) 2 n N 43 37 80 xi x ( xi x) 2 ( xi x) 2 n -18,875 -8,875 1,125 11,125 21,125 356,2656 78,7656 1,2656 123,7656 446.2656 15319,4219 16511,8281 31831,25 31831,25 19,947 80 La similitud de ambas distribuciones radica fundamentalmente en que tienen la misma amplitud y casi el mismo valor medio. La diferencia es que las frecuencias de la segunda se distribuyen en los intervalos extremos dejando vacíos los del medio. Ello aparece perfectamente reflejado en la desviación típica de 19,9, aproximadamente 20 años. 43 + 20 hacen 63, aproximadamente la mitad del último intervalo, 43 – 20 hacen 23, aproximadamente la mitad del primer intervalo. Recuérdese que la desviación típica es la raíz de la media de las distancias al cuadrado, de cada uno de los elementos de la distribución respecto de la media aritmética. *. Con el objetivo de ver la relación entre horas trabajadas en un taller y unidades producidas, se tomó una muestra de ambas variables, obteniéndose los siguientes resultados: X=horas de trabajo diarias Y=unidades producidas X 60 60 60 62 62 73 73 74 74 74 75 78 78 80 80 82 82 84 84 84 84 Y 250 240 245 245 250 292 292 298 300 300 300 310 314 310 310 320 336 336 336 340 340 Se pide: a) De la variable marginal 'horas de trabajo', calcular: Media, mediana, moda y varianza. b) Determinar en ambas variables el rango intercuartílico. Agrupar la variable X en 5 intervalos e Y en 4 intervalos y representa gráficamente cada variable. c) Calcular la recta de regresión de las unidades producidas sobre las horas de trabajo. ¿Cuál será la predicción de unidades para 70 horas de trabajo?. *. Sobre 16 individuos se estudian las siguientes características: el salario mensual (Y, en miles de pesetas), los años de estudio (X1) y la edad (X2). Y 200 200 300 250 175 150 150 300 300 150 175 200 175 100 150 350 X 1 17 12 17 17 13 8 8 17 12 12 12 8 8 11 13 13 X 2 28 40 32 32 36 40 30 36 34 34 36 36 40 28 30 40 Se pide: a) Calcular las medias, medianas y moda de cada una de las variables. Representar gráficamente las tres de forma individual. b) ¿Cuál es el intervalo salarial donde se encuentra el 90% de los individuos?. c) ¿Qué variable tiene mayor dispersión?. d) Estimar el salario para una persona con 15 años de estudios. ¿Cuánto vale el coeficiente de correlación lineal entre estas dos variables?. Diagrama de Cajas y Bigotes *. Considere los siguientes datos, correspondientes a De este conjunto de datos tenemos que: Me = 90.45 Q1 = 88.25 Rango intercuartílico = 92.2-88.25 = 3.95 Cercas interna inferior = 88.25 - 5.925 = 82.325 Cerca interna superior = 92.20 + 5.925 = 98.125 Cerca externa inferior = 82.325 - 5.925 = 76.40 Cerca externa superior = 98.125 + 5.925 = 104.05 Q3 = 92.2 *. de Proporción: si en una población de 2500 habitantes se diagnostican 150 casos de gripe aviar, entonces, la proporción de enfermos es de 150/2500 = 0.06 (6%). El valor de una proporción puede variar así de 0 a 1, y suele expresarse como un porcentaje. *. de Razones. Al igual que en el caso anterior es una división, pero aquí el numerador no forma parte del denominador como en le caso anterior, por la razón entre la población con gripe aviar y la sana es 150/2350 = 3/47 =0,064. *. Consideremos una tabla estadística relativa a una variable continua, de la que nos dan los intervalos, las marcas de clase ci, y las frecuencias absolutas ni. Intervalo 00-02 02-04 04-06 06-08 08-10 ci 1 3 5 7 9 12 ni 2 1 4 3 2 Ni 2 3 7 10 12 64 nici 2 3 20 21 18 Para calcular la media podemos añadir una columna con las cantidades n ici. La suma de los términos de esa columna dividida por n=12 es la media x 64 / 12 5.3 . La mediana es el valor de la variable que deja por debajo de sí a la mitad de las n observaciones, es decir 6. Construimos la tabla de las frecuencias absolutas acumuladas, N i y vemos que eso ocurre en la modalidad tercera, es decir, i=3, entonces, (li-1,li]= (4,6], que corresponde el intervalo en donde se encuentra la mediana, entonces tenemos Med l i 1 (n / 2) N i 1 (12 / 2) 3 ai 4 5.5 l i 1 , l i ni 4 Para el cálculo de la Moda, lo primero es encontrar los intervalos modales, buscando los máximos relativos en la columna de las frecuencias absolutas, ni. Vemos que hay dos modas, correspondientes a las modalidades j=1, j=3. En el primer intervalo modal, (l0,l1]=(0,2], la moda se calcula como Moda l i 1 n i n i 1 20 ai 0 2 1.3 (n i n i 1 ) (n i n i 1 ) (2 0) (2 1) El segundo intervalo modal es (l2,l3]=(4,6], siendo la moda el punto perteneciente al mismo que se obtiene como: Moda l i 1 n i n i 1 4 1 ai 4 2 5.5 (n i n i 1 ) (n i n i 1 ) (4 1) (4 3) En este caso, como se ve, la moda no toma un valor único, sino el conjunto, Moda = (1.3,5.5) *. Dado el registro de estaturas de estudiantes, hallar los principales parámetros estadísticos analizados Variable Frecuencia Absoluta Simple Acumulada Frecuencia Relativa Simple Acumulada 1,20 1 1 3,3 % 3,3 % 1,21 1,22 4 4 5 9 13,3 % 13,3 % 16,6 % 30,0 % 1,23 2 11 6,6 % 36,6 % 1,24 1,25 1,26 1,27 1,28 1,29 1 2 3 3 4 3 12 14 17 20 24 27 3,3 % 6,6 % 10,0 % 10,0 % 13,3 % 10,0 % 40,0 % 46,6 % 56,6 % 66,6 % 80,0 % 90,0 % 1,30 3 30 Media aritmética: Xm Media geométrica: 30 10,0 % 100,0 % 1.20 4 1.21 4 1.22 4 1.30 3 1.253 30 1.204 1.214 1.303 1.253 Mediana: 1,26, ya que por debajo está el 50% de los valores y por arriba el otro 50%. Moda: Hay 3 valores que se repiten en 4 ocasiones: el 1,21, el 1,22 y el 1,28, por lo tanto esta seria cuenta con 3 modas Buscar la media, la mediana y la moda de los siguientes números: 25 15 28 29 25 26 21 26 La media es 24.4 La mediana X[8/2+1/2] = X[4+1/2] = X[4.5] = 25.5 La Moda 25 y 26. Buscar la media, la mediana y la moda de los siguientes números: 15 16 19 15 14 16 20 15 17 Media: 16.3 Mediana: 16 La moda: 15 *. En un estudio que se realizó en un asilo de ancianos, se tomó las edades de los ancianos que pueden caminar sin dificultades. Buscar la media, la mediana y la moda de las siguientes edades, e indicar si es muestra o población. No utilice la fórmula. 69 73 65 70 71 74 65 69 60 62 *. Se escogió un salón de clases de cuarto grado, con un total de 25 estudiantes, y se les pidió que calificaran del 1 al 5 un programa televisivo. (5 = Excelente 4 = Bueno 3 = Regular 4 = No muy bueno 1 = Fatal) Estos fueron los resultados: 13341 22251 45153 51412 21235 Buscar la media, la moda y la mediana e indicar si es muestra o población *. Dado el registro de estaturas de estudiantes, hallar los principales parámetros estadísticos analizados Variable Frecuencia Absoluta Simple Acumulada Frecuencia Relativa Simple Acumulada 1,20 1 1 3,3 % 3,3 % 1,21 1,22 4 4 5 9 13,3 % 13,3 % 16,6 % 30,0 % 1,23 2 11 6,6 % 36,6 % 1,24 1,25 1,26 1,27 1,28 1,29 1,30 1 2 3 3 4 3 3 12 14 17 20 24 27 30 3,3 % 6,6 % 10,0 % 10,0 % 13,3 % 10,0 % 10,0 % 40,0 % 46,6 % 56,6 % 66,6 % 80,0 % 90,0 % 100,0 % Media aritmética: Xm Media geométrica: 30 1.20 4 1.21 4 1.22 4 1.30 3 1.253 30 1.204 1.214 1.303 1.253 Mediana: 1,26, ya que por debajo está el 50% de los valores y por arriba el otro 50%. Moda: Hay 3 valores que se repiten en 4 ocasiones: el 1,21, el 1,22 y el 1,28, por lo tanto esta seria cuenta con 3 modas *. Dada la siguiente distribución en el número de hijos de cien familias, calcular sus cuartiles. xi 0 1 2 3 4 5 ni 14 10 15 26 20 15 n=100 Ni 14 24 39 65 85 100 Solución: Primer cuartil: n/4=25, ni>n/4=39, luego Q1=2 Segundo cuartil: 2n/4=50, Primera Ni>2n/4=65, luego Q2=3 Tercer cuartil: 3n/4=75, Primera Ni>3n/4=85, luego Q3=4 * Grafique en escala normal (1:1), en escala desproporcionada (1:4) y haga comentarios * Utilice gráfico de líneas, barras, tortas, y polígono de Frecuencias. Haga comentarios Variación de La Inflación en Colombia entre 1995-2000 * Utilice gráfico de líneas, barras, tortas, y polígono de Frecuencias. Haga comentarios Índice de Precios al Consumidor 1999-2001 Obtener índices estudiados de la información sobre el IPC *. : Cantidad de cigarrillos consumidos por un fumador en una semana son Lunes: 18 Martes: 21 Miércoles: 22 Jueves: 21 Viernes: 20 Domingo: 19 Sábado: 19 Entonces los parámetros estadísticos son Media Aritmética = ____ Varianza: _____ Desviación Típica: ____ Etc. Halle todos los estudiados en el curso *. Demuestre: La suma de las diferencias de los datos con respecto a la media aritmética es igual cero. Demostración pero Como Para la demostración anterior aplique un *. Las calificaciones de un estudiante están conformadas por los siguientes factores: Un examen cuyo valor es 40% en el cual obtuvo una nota de 4.5, un trabajo de consulta con ponderación del 10% y calificación de 1.0, una exposición equivalente al 15% con nota de 2.0, y por último una investigación con valor del 35% calificada con 3.5. Entonces aplicando el concepto de media ponderada la nota definitiva es entonces la nota definitiva es: *. En el de los cigarrillos, consumidos por un fumador tenemos lunes 18, martes 21, miércoles 22, jueves 21, viernes 20, sábado 19, y domingo 19. Obtenga la mediana y la moda 7. La tripulación de un avión, en su itinerario compra los siguientes galones de gasolina: Ciudad X 200 galones a 4000 pesos el galón, Ciudad Y 250 galones a 3500 pesos el galón, y Ciudad Z 300 galones a 3000 pesos el galón ¿Cuál es el costo promedio de la gasolina comprada? *. Explique los conceptos y presente de Percentiles, cuarteles, quintiles, deciles, y centiles *. Medimos la altura de los estudiantes en metros Alumno 1 2 3 4 5 6 7 8 9 10 Estatura 1,25 1,28 1,27 1,21 1,22 1,29 1,30 1,24 1,27 1,29 Alumno 11 12 13 14 15 16 17 18 19 20 Estatura 1,23 1,26 1,30 1,21 1,28 1,30 1,22 1,25 1,20 1,28 Alumno 21 22 23 24 25 26 27 28 29 30 Estatura 1,21 1,29 1,26 1,22 1,28 1,27 1,26 1,23 1,222 1,21 En la frecuencia absoluta simple vemos que por solamente el alumno 19 tiene una estatura de 1,20 m, los alumnos que tienen una estatura de 1,21 son los 4, 14, 21 y 30, luego son en total 4 y así sucesivamente. La frecuencia absoluta acumulada es la suma de las frecuencias simples hasta esa fila en particular, observamos que debe terminar con el total de individuos (alumnos). Para la frecuencia relativa simple, n = 30 para este caso, por lo cual para el valor de estatura de 1,20 tenemos f= 1/30 que expresado en forma porcentual es 3,3%, para la estatura de 1,21 tenemos f = 3/30 o 13,3% y así sucesivamente. La frecuencia relativa acumulada es la suma de las frecuencias relativas simples hasta una fila en particular, así para la última siempre deberá ser 100% Variable 1,20 Frecuencia Absoluta Simple Acumulada 1 1 Frecuencia Relativa Simple Acumulada 3,3 % 3,3 % 1,21 4 5 13,3 % 16,6 % 1,22 1,23 4 2 9 11 13,3 % 6,6 % 30,0 % 36,6 % 1,24 1 12 3,3 % 40,0 % 1,25 1,26 1,27 1,28 1,29 1,30 2 3 3 4 3 3 14 17 20 24 27 30 6,6 % 10,0 % 10,0 % 13,3 % 10,0 % 10,0 % 46,6 % 56,6 % 66,6 % 80,0 % 90,0 % 100,0 % *. Supongamos que medimos la estatura de los otros estudiantes con resultados, Alumno 1 2 3 4 5 6 7 8 9 10 Estatura 1,15 1,48 1,57 1,71 1,92 1,39 1,40 1,64 1,77 1,49 Alumno 11 12 13 14 15 16 17 18 19 20 Estatura 1,53 1,16 1,60 1,81 1,98 1,20 1,42 1,45 1,20 1,98 Alumno 21 22 23 24 25 26 27 28 29 30 Agrupando Rango Variable 1,01 - 1,10 1,11 - 1,20 1,21 - 1,30 1,31 - 1,40 1,41 - 1,50 1,51 - 1,60 1,61 - 1,70 1,71 - 1,80 1,81 - 1,90 1,91 - 2,0 Frecuencia Absoluta Simple Acumulada 1 1 3 4 3 7 2 9 6 15 4 19 3 22 3 25 2 27 3 30 Frecuencia Relativa Simple Acumulada 3,3 % 3,3 % 10,0 % 13,3 % 10,0 % 23,3 % 6,6 % 30,0 % 20,0 % 50,0 % 13,3 % 63,3 % 10,0 % 73,3 % 10,0 % 83,3 % 6,6 % 90,0 % 10,0 % 100,0 % Estatura 1,21 1,59 1,86 1,52 1,48 1,37 1,16 1,73 1,62 1,01 El número de intervalos en los que se agrupa la información es una decisión que debe tomar el analista, la regla es que mientras más tramos se utilicen menos información se pierde, pero puede que menos representativa e informativa sea la tabla, de todas maneras Sturges sugiere una forma de trabajar y consiste en obtener *. Sobre un grupo de n=21 personas se realizan las siguientes observaciones de sus pesos, medidos en kilogramos, 58, 42, 51, 54, 40, 39, 49, 56, 58, 57, 59, 63, 58, 66, 64, 70, 72, 71, 69, 70, 68 Solución, En primer lugar hay que observar que si denominamos X a la variable peso de cada persona esta es una variable de tipo cuantitativa y continua. Por tanto a la hora de ser ordenados los resultados en una tabla estadística, esto se ha de hacer agrupándolos en intervalos de longitud conveniente. Esto nos lleva a perder cierto grado de precisión. Para que la pérdida de información no sea muy relevante usamos el criterio de utilizar k n 21 intervalos (no son demasiadas las observaciones). En este punto podemos tomar bien k=4 o bien k=5. Arbitrariamente se elige una de estas dos posibilidades. Por vamos a tomar k=5. Lo siguiente es determinar la longitud de cada intervalo, ai para todo i=1, 2, 3, 4, 5. Lo más cómodo es tomar la misma longitud en todos los intervalos, ai=a (aunque esto no tiene por qué ser necesariamente así), donde l 0 x min 39 l 5 x max 72 A l 5 l 0 72 39 33 a A / 5 33/ 5 6.6 Entonces tomaremos k=5 intervalos de longitud a=6,6comenzando por l0=xmin=39 y terminando en l5=33: i=1 i=2 i=3 i=4 i=5 Suma Intervalo li-1-li 39.0-45.6 45.6-52.2 52.2-58.8 58.8-65.4 65.4-72.0 Marca Clase ci 42.3 48.9 55.5 62.1 68.7 f. a. ni 3 2 6 3 7 21 f. r. fi 0.1428 0.0952 0.2857 0.1428 0.3333 1 f. a. a. Ni 3 5 11 14 21 f. r. a. Fi 0.1428 0.2381 0.5238 0.6667 1.0000