Estadística Aplicada a las ciencias Sociales Examen Febrero de 2008 segunda semana Ejercicio 1.- En la siguiente tabla, se tiene el número de alumnos de educación de adultos matriculados en el curso graduado escolar en un Municipio para el curso 2005/2006, por grupos de edad y modalidad de la enseñanza según los horarios escogidos. Edad De 18 a 19 De 20 a 24 De 25 a 34 De 35 a 44 De 45 a 54 Más de 55 TOTAL Modalidad Modalidad Intensiva Extensiva 175 200 180 116 49 13 733 110 135 157 25 3 1 431 Calcule la edad media y la desviación típica de los alumnos de la modalidad intensiva y la mediana de la distribución de la modalidad extensiva. Ejercicio 2.- En una empresa la media de años de antigüedad de los 895 empleados, es de 11 años y la desviación típica de 3,1. Suponiendo que la distribución de años de antigüedad fuera una distribución normal calcule: a) ¿A cuantas unidades de desviación típica se encuentra un trabajador que lleva 2 años en la empresa, respecto a la media del colectivo? b) ¿Qué número de trabajadores lleva menos de diez años en la empresa? c) ¿Cuál será el límite inferior de antigüedad para los 300 trabajadores que llevan más años en la empresa? Ejercicio 3.- Una empresa tiene tres departamentos A, B y C, con 20, 7 y 12 trabajadores respectivamente. Para organizar los turnos de vacaciones decidimos seleccionar al azar, sucesivamente y sin reposición, a tres trabajadores entre los 39 de la empresa, calcule: a) La probabilidad de que el primer seleccionado pertenezca al departamento C b) La probabilidad de que el segundo pertenezca al departamento B. c) La probabilidad de que el tercero no pertenezca al departamento A. Ejercicio 4.- Un Instituto de Investigación debe realizar un encuesta para conocer la opinión de las mujeres sobre el tratamiento informativo de la violencia de género. Para ello toman como universo poblacional al conjunto de las mujeres españolas de 18 ó más años. ¿Qué tamaño muestral sería necesario utilizar si el máximo error muestral permitido es del 5%, para un nivel de confianza del 95,5% y considerando p=q=50%? SOLUCIONES Ejercicio 1. Dada la tabla de la distribución de las edades de los matriculados en el curso de graduado escolar en la modalidad intensiva, calcularemos la edad media mediante la fórmula: n x= ∑x n i i i =1 n Como los datos están agrupados en categorías por grupos de edad, hallaremos en primer lugar las marcas de clase o puntos medios de cada intervalo que representarán a cada grupo de edad en los cálculos. Para cada intervalo procedemos tomando el límite inferior del intervalo, sumando el límite inferior del siguiente y dividiendo por dos: Grupos de Marca de Edad clase Xc De 18 a 19 19 De 20 a 24 22,5 De 25 a 34 30 De 35 a 44 40 De 45 a 54 50 Más de 55 60 TOTAL Modalidad Intensiva 175 200 180 116 49 13 733 A continuación multiplicamos la marca de clase de cada intervalo por la frecuencia para obtener después el sumatorio de los productos: ni Xc 19 22,5 30 40 50 60 175 200 180 116 49 13 733 Total xi*ni 3325 4500 5400 4640 2450 780 21095 n x= ∑x n i i i =1 n = 21.095 = 28,78 733 Conocida la media podemos calcular la varianza o suma al cuadrado de las desviaciones a la media, ayudándonos de la siguiente tabla: Edad De 18 a 19 De 20 a 24 De 25 a 34 De 35 a 44 De 45 a 54 Más de 55 TOTAL ∑ (x V= (xi-media)2 (xi-media)2*ni Xc media (xi-media) 19 28,779 -9,7789905 95,6286542 16735,01449 22,5 28,779 -6,2789905 39,4257211 7885,144215 30 28,779 1,22100955 1,49086432 268,3555777 40 28,779 11,2210095 125,911055 14605,68242 50 28,779 21,2210095 450,331246 22066,23107 60 28,779 31,2210095 974,751437 12671,76869 74232,19645 2 n i =1 Modalidad Intensiva 175 200 180 116 49 13 733 i ) − x ni N = 74232,196 = 101,272 733 La desviación típica será entonces: S = V = 101,272 = 10,0634 Para obtener la mediana de la distribución de edades de la modalidad extensiva procedemos a calcular las frecuencias acumuladas: Edad ni Na De 18 a 19 De 20 a 24 De 25 a 34 De 35 a 44 De 45 a 54 Más de 55 TOTAL 110 135 157 25 3 1 431 110 245 402 427 430 431 Dividiendo por dos en número de casos (431/2=215,5) vemos que el número acumulado de la mitad de los casos está en el intervalo “De 20 a 24 años” y procedemos a calcular mediante la fórmula: 5 431 c N = 23,91 Me = Li + − N a −1 i = 20 + − 110 135 2 ni 2 Ejercicio 2. Al tratarse de una distribución normal, utilizaremos la fórmula de las puntuaciones tipificadas Z y las tablas de áreas bajo la curva normal. a) Las puntuaciones Z normalizadas consisten en expresar la diferencia entre un valor de la variable y la media de la distribución, medida en unidades de desviación típica. Podemos obtener el dato pedido directamente de la fórmula: Z= xi − x 2 − 11 = = −2,90 S 3,1 b) Calcularemos primero el número de unidades Z que existen entre los 10 años y la media xi − x 10 − 11 = = −0,32 S 3,1 Consultando las tabla de la curva normal obtenemos la proporción de casos que hay entre ese valor y la media (obviando el signo, ya que la curva es simétrica y las tablas se refieren sólo a los valores positivos de Z) 0,1255 o el 12,55% Pero como se pide hallar la proporción de casos con MENOS de 10 años, sabiendo que la tabla representa el 50% de los casos restaremos el valor obtenido para hallar la proporción de casos por debajo de 10: Z= 0,5-0,1255=0,3745 Vemos que el 37,45% de los casos están por debajo de los 10 años de antigüedad, que expresado en número de trabajadores será el 37,45% de los 895 empleados, es decir 335. c) Para hallar el límite inferior de años de antigüedad de los 300 trabajadores que levan más años en la empresa comenzaremos por calcular la proporción que suponen los 300 trabajadores sobre el conjunto de la empresa: 300 = 0,3352 895 Como el área que proporcionan las tablas se refieren al valor acumulado entre la media y un punto, debemos restar 0,5-0,3352=0,1648 Consultando las tablas de la curva normal, obtenemos el valor Z correspondiente a esa proporción: aproximadamente Z=0,425 Conocido Z, podemos despejar xi de la fórmula: xi − x S xi = Z ⋅ S + x = 0,425 ⋅ 3,1 + 11 = 12,31 podemos asegurar entonces que los 300 trabajadores con mayor antigüedad, superan los 12 años. Z= Ejercicio 3. Al tratarse de selecciones al azar sucesivas y sin reposición, calcularemos las probabilidades de la siguiente manera: a) La probabilidad de que al extraer un trabajador pertenezca al departamento C será igual al número de trabajadores de ese departamento dividido por en conjunto de los trabajadores de la empresa: p= Casos en el Dpto. C 12 = = 0,31 Total de trabajadores 39 b) Para hallar la probabilidad de que el segundo trabajador pertenezca al departamento B, al haber seleccionado ya un trabajador sin reposición, se deberá tener en cuenta que el número de trabajadores se ha minorado en una unidad. Podemos plantear que hay dos posibilidades: que el primer seleccionado fuera de B y que no fuera de B (que fuera de A o de C). Calcularíamos entonces la probabilidad de que en la primera extracción hubiera sido de B y que la segunda también. Al ser sucesos independientes, se trata de un producto de probabilidades: P( B & B' ) = P( B) * P( B' ) = 7 6 * = 0,1795 * 0,1579 = 0,0283 39 38 La probabilidad de que el segundo fuera de B no habiendo sido en primero B (que fuera de A o C) sería P ( B) * P ( B') = 7 32 * = 0,1795 * 0,8421 = 0,1511 39 38 Como el suceso se puede verificar de ambas formas, la probabilidad de que ocurra será la suma de las probabilidades: P ( B & B' ) + P( B & B') = 0,02834 + 0,15114 = 0,17948 Como podemos ver, al ser sucesos independientes, obtenemos el mismo resultado que si hubiéramos calculado directamente p= 7 Casos en el Dpto. B = = 0,17948 Total de trabajadores 39 c) La probabilidad de seleccionar a un tercer trabajador que no pertenezca al Dpto. A, significa que deberá pertenecer a los departamentos B o C. Como en el caso anterior, independientemente de lo que hubiera sucedido antes, podemos evitar el cálculo de las cuatro posibilidades de ocurrencia diferentes del suceso y calcular directamente: p= Casos en los Dptos. B y C (7 + 12) 17 = = = 0,48718 Total de trabajadores 39 39 Ejercicio 4. Al tratarse de una población mayor de 100.000 utilizaremos la fórmula del tamaño muestral para poblaciones infinitas: Tomando p = q = 0,5, considerando que el nivel de confianza del 95,5% se corresponde aproximadamente con un Z=2 y que el error permitido en forma de proporción será e = 0,05 Z 2 pq 2 2 ⋅ 0,5 ⋅ 0,5 = 400 n= 2 = e 0,05 2