EJERCICIOS PROPUESTOS ESTADÍSTICA DESCRIPTIVA Profesora: Rocío Marco Crespo 1 Ejercicios tema 2: Distribuciones de Frecuencias 1. Sobre un grupo de amigos se ha tomado la edad de cada individuo expresada en años. Estas son: 18, 20, 22, 19, 18, 20, 18, 19, 21, 20 20, 21, 18, 20, 21, 19, 20, 21, 18, 20 ¿Qué tamaño tiene la población y cuál es la variable estudiada? ¿Cuál es el peso relativo del colectivo con 20 años?. ¿Y el de 20 o menores de 20 años? ¿Qué edades tienen el 60% del colectivo de mayor edad? Diga en cada pregunta a qué tipo de frecuencia recurre para responder. 2. En una muestra de 100 viviendas de determinado distrito de Madrid se ha tomado la superficie construida en m², disponiéndose de la siguiente distribución de frecuencias agrupada en intervalos. Se pide: a.- Histograma y polígono de frecuencias acumuladas b.- Nº de viviendas con mas de 80 m² c.- Porcentaje de viviendas con mas de 70 m² y menos de 100 m² d.- Porcentaje de viviendas con superficie inferior o igual a 90 m² Li-1 - Li 50 - 60 60 - 70 70 - 80 80 - 100 100 - 120 ni 20 25 15 25 15 3. El Departamento de personal realiza una investigación sobre los salarios (expresados en euros) que perciben semanalmente los trabajadores. Se pide: a.- Histograma y polígono de frecuencias b.- Qué porcentaje de trabajadores ganan mas de 180 euros a la semana c.- Qué porcentaje de trabajadores ganan como máximo 175 euros a la semana. Li-1 - Li 120 - 140 140 -160 160 - 180 180 - 200 ni 10 14 21 15 Ejercicios tema 3: Medidas que caracterizan una distribución de frecuencias 1. Sea la siguiente distribución del número de horas diarias de estudio que dedican una población de alumnos. a.- calcular las medidas de posición centrales sobre dicha distribución b.- ¿qué nº de horas dedica el 30% de la población menos estudiosa? c.- ¿qué nº de horas dedica la cuarta parte de alumnos mas estudiosos? 2 xi 1 2 3 4 5 ni 5 15 20 8 2 2. Sea la siguiente distribución de edades en una determinada población, a.- calcular las medidas de posición centrales sobre dicha distribución b.- ¿hasta que edad una persona se encuentra en el 10% de población mas joven? Li-1 - Li ni 0-4 4 - 10 10 - 20 20 - 40 40 - 70 20 100 180 260 240 3. Una empresa agrícola tiene cinco fincas dedicadas al cultivo de trigo. Se dispone de la producción y rendimiento por hectárea de cada una. ¿Cuál será el rendimiento medio por hectárea? Finca A B C D E Produc (Kg) Rendto.(kg/Ha) 2.500 3.000 4.000 6.000 7.000 10 20 25 15 14 4. Una persona realiza el trayecto Madrid-Barcelona a 120 km./h. y regresa a 80 km/h. Calcular la velocidad media del recorrido total. 5. Los porcentajes de participación trimestral de alumnos en actividades extraescolares durante los dos últimos años fueron los siguientes. ¿Cuál es el porcentaje de participación medio? 1º 2º 3º - 2002 8,00% 12,00% 18,00% 1º 2º 3º - 2003 27,00% 40,50% 60,75% 6. Una empresa tiene su sede en un edificio de tres plantas. Dispone de 10 teléfonos en la 1ª planta, 15 en la 2ª y 13 en la 3ª. El gasto medio por teléfono al mes es de 43,48 euros. Calcular: a.- el gasto medio de la 3ª planta, sabiendo que en la 1ª ha sido de 23 euros y de 60 euros en la 2ª. b.- el gasto total de teléfono al mes en la 3ª planta. 3 7. Se dispone de las peticiones de precios en la última subasta de Letras del Tesoro a 1 año. Calcular el precio medio de petición utilizando las propiedades de la media (cálculo abreviado) Precio 5.455 5.505 5.510 5.535 5.540 LTº (miles) 3 20 72 123 84 8. Hallar el valor de la Mediana para la siguiente distribución unitaria: Xi = [1, 3, 6, 8, 12, 15] 9. Hallar el valor de la Mediana para la siguiente distribución: xi 1 3 5 7 9 ni 1 2 7 6 4 10. El consumo eléctrico diario en una determinada ciudad arroja los siguientes datos: desde las 12 de la noche hasta las 6 de la mañana supone el 10%; a las 8 este valor aumenta hasta el 20%; llega al 60% a las 2 de la tarde y al 85% a las 8 de la noche. a.- ¿a qué hora del día el consumo es máximo? b.- ¿cuántas horas al día son necesarias para obtener un consumo del 65%? c.- ¿a qué hora se alcanzaría el "mediodía" del consumo diario? 11. Un grupo de alumnos ha obtenido las siguientes notas en Matemáticas e Historia. Determine, calculando las medidas de dispersión que conozca, para cual asignatura resulta ser un grupo más homogéneo. Xi 2 3 4 5 6 7 8 Matemáticas fi 10% 15% 20% 30% 10% 10% 5% Historia Yj 1 2 3 4 5 6 7 8 fj 5% 4% 6% 15% 50% 15% 3% 2% 12. El volumen de ventas de la empresa química QUIMICASA en 2001 fue de 7,51 millones de euros, mientras que la media del sector fue de 6,61 millones y la varianza de 86,55 millones. En el caso de otra empresa, CONSERVASA, las ventas fueron de 8,71 millones de euros, siendo la media y varianza del sector conservero 7,24 y 117,8 millones 4 respectivamente. ¿Cuál de estas dos empresas está mejor situada en cuanto a su volumen de ventas? Razone su respuesta. 13. En una muestra de 70 familias se ha presentado la siguiente distribución de frecuencias en la variable número de hijos por familia. a.- represente gráficamente el polígono de frecuencias simples b.- calcule los coeficientes de asimetría de Pearson y Fisher c.- calcule del coeficiente de Curtosis nº hijos 0 1 2 3 4 5 nº familias 10 26 19 11 3 1 14. El número de habitantes de 45 municipios de una provincia española se distribuía en 2001 de la siguiente forma. Calcúlese: a.- media aritmética, mediana y moda de la distribución de habitantes b.- desviación típica y coeficiente de variación de Pearson c.- asimetría y curtosis de la variable Nº habitantes 0 - 1000 1000 - 2000 2000 - 3000 3000 - 4000 4000 - 6000 nº municipios 7 11 14 8 5 15. Se cuenta con la distribución salarial de los 40 empleados de una empresa. Calcular el Índice de Gini. ¿Qué porcentaje de empleados percibe el 50% de los salarios? Salario 15 - 25 25 - 35 35 - 45 45 - 55 ni 20 10 5 5 16. ¿Cuál sería el Índice de Gini para una variable Y , tal que Y = k X? 17. En dos países determinados, los presupuestos estatales (millones de euros) se distribuyen de la siguiente forma. a.- ¿en qué país el reparto es mas equitativo entre los distintos ministerios? b.- ¿qué presupuesto debería presentar el Ministerio de Educación del país B para que en ambos países hubiese el mismo grado de concentración? Defensa Sanidad Educación Obras Públicas País A 10 30 40 20 País B 12 32 45 38 5 18. Como objetivo de política económica se pretende aumentar el grado de equiparación salarial entre los trabajadores. Para ello se estudia optar por: a.- una subida proporcional al sueldo actual para todos los asalariados b.- un aumento en una misma cantidad fija para todos los asalariados ¿Cuál de las dos alternativas escogería para lograr el objetivo político? Ejercicios tema 4: Distribuciones Bidimensionales 1. Sobre una muestra de 100 alumnos se ha medido las siguientes características: X = asignación mensual Y = gasto mensual actividades culturales Calcular: a.- las medias y varianzas marginales de X e Y b.- ¿son independientes la asignación mensual y el gasto cultural?. Calcular la covarianza de ambas variables. X\Y 90 150 300 30 5 5 12 60 15 20 8 90 10 5 20 2. En la siguiente tabla de correlación, calcular la covarianza y estudiar la dependencia de las variables X e Y. X\Y -1 0 1 1 0 1 0 2 1 0 1 3 0 1 0 3. Dada la siguiente tabla de correlación, hallar la covarianza y estudiar la dependencia entre las variables. X\Y 100 200 5 8 2 10 4 6 4. Dada la siguiente distribución bidimensional, calcular la media y varianza de la distribución de Y condicionada a X = 5. X\Y 3 4 5 6 1 11 16 8 1 2 5 6 6 2 3 1 6 4 3 4 0 0 2 1 5. Se conocen varias empresas de reducido tamaño dedicadas al trasporte y reparto de mercancías y correo. Éstas trabajan con dos tipos de vehículos: camiones y furgonetas. Siendo 6 X = nº de camiones, e Y = nº de furgonetas, estudiar si el número de camiones es independiente del número de furgonetas sobre la muestra de 20 empresas sobre la que se dispone información. Xi 1 2 1 2 Yj 2 2 3 3 nij 3 2 9 6 6. Se conocen los siguientes momentos de una distribución bidimensional. a 10 = m 20 = m 30 = m 40 = X 216,2410 232,8746 -947,5103 99.692,5100 a 01 = m 02 = m 03 = m 04 = Y 653,7230 2.095,8714 -25.582,7780 8.075.093,300 a.- ¿se podría afirmar que la variable Y se obtiene a partir de X mediante algún cambio de origen y/o escala? b.- valor de los momentos m10 y m01 c .- ¿cómo serán los coeficientes g1 y g2 en ambas variables? 7. Dadas las transformaciones lineales siguientes, estudiar la covarianza entre las dos nuevas variables X´e Y´ X´ = a1+ b1 X Y´ = a2 + b2 Y Ejercicios tema 5: Regresión y Correlación simple 1. Tenemos la producción total y el volumen de exportación (miles de euros) de un determinado sector productivo. Si se estima que la producción en el 2002 va a ser de 640.000 euros y que las condiciones de mercado no van a variar ¿cuál será el volumen previsible de exportaciones para este año? Producción 400 420 440 480 500 1996 1997 1998 1999 2000 Exportación 80 80 90 92 98 2. Sobre los siguientes datos, hallar la recta de regresión lineal ajustando un modelo exponencial del tipo y = a·bx xi 1 1 2 3 3 yj 120 90 85 60 85 7 3. Un partido político se plantea el problema de hasta qué punto le puede compensar incrementar el gasto publicitario en la próxima campaña electoral a la vista de los resultados obtenidos en las últimas cinco elecciones. La comisión electoral estudia un presupuesto de 750.000 euros. a.- nº de diputados elegidos según este presupuesto, con la hipótesis de que no ha variado la imagen del partido en los últimos años b.- ¿con qué confianza se puede esperar este resultado? c.- ¿cuál sería el porcentaje de causas diferentes a la publicidad que influiría en el nº de diputados elegidos? Gasto 150.000 175.000 325.000 400.000 500.000 Nº diputados 3 4 4 6 8 4. Se dispone de el consumo de productos congelados (Y) y la renta familiar mensual (X) en una muestra de 5 hogares. Estudiar su tipología y aplicar si es viable una regresión lineal. [Nota: relación hiperbólica entre X e Y] Renta 20 25 35 40 45 Consumo 100 150 180 200 210 5. Se sabe que el coeficiente de correlación lineal entre dos variables X e Y es 0,6. Conociéndose además los siguientes datos, hallar las rectas de regresión de Y/X y de X/Y. x = 10 S x = 1,5 y = 20 Sy = 2 6. Calcular la desviación típica de la variable residual (o error típico de estimación) para las dos regresiones anteriores. 7. Pruébese la consistencia de los resultados obtenidos al ajustar la recta de regresión +bx S xy = 4 S 2 ry = 0,4 y=a S x2 = 5 S y2 = 4 8. Demuéstrese que siendo Y* el valor estimado obtenido en la recta de regresión Y = a + b X, se verifica que el coeficiente de correlación lineal entre X e Y es el mismo que entre Y e Y*. 9. De las estadísticas de tiempos de vuelo (X) y consumo de combustible (Y) de una Cía. aérea se han obtenido los datos correspondientes a 24 trayectos distintos realizados por un 8 DC-9. Ajustar un modelo lineal del tipo Y = a + b X, donde X = tiempo empleado en horas e Y = consumo combustible en miles de litros. Conociéndose los estadísticos siguientes, calcular: a.- parámetros de la recta de regresión b.- descomposición de la varianza de Y c.- coeficiente de correlación lineal d.- consumo total estimado para un programa de 100 vuelos de 1/2 hora. Fiabilidad de la previsión. ∑y j = 219 .719 j ∑x i ∑y 2 j = 2396 .504 i = 31 .47 ∑x ∑∑ x y i i j 2 i j = 349 .486 j = 51 .075 i 10. Justifique las razones por las cuales debe rechazarse o aceptarse que las rectas de regresión siguientes sean las rectas de regresión mínimo cuadráticas de Y/X y X/Y de una misma serie de observaciones: Y/X : Y = 1 + 2 X X/Y : X = 10 + 5 Y 11. Sabiendo que r = 0,8 ; Sx = 4 ; la media de y es 3 ; y la recta X/Y es determinar la recta de regresión de Y/X. x = 0,2·y , 12. Pruébese la consistencia de los datos obtenidos al ajustar la recta de regresión Y/X : Y = a S xy = 20 S 2x = 10 + bX x=4 y=8 a=3 Ejercicios tema 6: Regresión y Correlación múltiple 1. Se considera el gasto de carne (Y) una función lineal de la renta total familiar (X1) y del tamaño de la familia (X2). Calcúlese: a.- los coeficientes de regresión mínimo cuadráticos b.- descomposición de la varianza total c.- fiabilidad del ajuste realizado d.- coeficientes de correlación lineal simples Yi 2 4 8 12 9 X 1i 10 15 20 25 30 X 2i 3 2 3 5 2 2. Dado el hiperplano de regresión Y = bo + b1 X1 + b2 X2 + b3 X3, donde X3 es dos veces X1, comentar si son determinables los coeficientes de regresión (bi), justificando los resultados. 9 3. Dado el hiperplano de regresión Y = bo + b1 X1 + b2 X2 , cuál será el valor de la varianza residual si se conoce que: a.- X1 y X2 tienen correlación nula, b.- Y = 3 X1 4. Se tienen los siguientes datos tomados sobre 8 observaciones referentes a la demanda de cierto bien (Y), dado su precio (X1) y la renta del demandante (X2): ∑y j = 32 j ∑x 1i y j = 61 ∑y 2 j = 164 j ∑ x = 16 ∑ x x = 57 ∑ x = 44 ∑j x2i = 24 ∑ x2i y j = 106 ∑j x22 = 84 1j 1i 2 1 2i j j a.- hallar el vector de medias y la matriz de varianzas y covarianzas b.- determínese, comentando el resultado, el plano de regresión c.- descomposición de la varianza y nivel de explicación de la demanda del bien 5. Dos grupos de alumnos presentan sendas regresiones estimadas a partir de la misma distribución p-dimensional de frecuencias (variables: X1, X2, Y, Z). ¿Considera consistentes los resultados que han obtenido ambos grupos? Grupo A: Z = 4,5 + 3,9 X2 + 5,7 X1 + 0,9 Y con R = 0,7 (coefte. de correlación lineal) Grupo B: Y = 3,1 + 0,3 X1 - 0,2 X2 con R² = 1 (coefte. de determinación lineal) 6. Discuta la siguiente afirmación: "En una regresión lineal múltiple, si las varianzas debida a la regresión y la residual son iguales, el coeficiente de determinación lineal múltiple será mayor a 0,5" 7. De los resultados del primer parcial de cierta asignatura se tomaron las siguientes observaciones en 5 estudiantes: la nota obtenida en el examen (Y) junto con el nº de horas semanales de estudio (X1) y el nº de libros sobre la materia leídos durante el parcial (X2): a.- qué puntuación esperaría usted obtener si estudió una media de 10 horas a la semana y leyó 10 libros b.- ¿confía mucho en su previsión de nota? c.- descomposición de la varianza Yi 2 4 6 7 10 X 1i 4 5 10 11 15 X 2i 2 3 6 8 10 8. Conocidos los siguientes datos, ajustar el plano de regresión de Y sobre X1 y X2 . Halle la descomposición de la varianza total, coeficiente de determinación y coeficientes de correlación lineal simples. Comente el resultado. Yi X 1i X 2i 10 3 4 8 5 5 1 2 3 4 5 8 9 16 9 8 Ejercicios tema 7: Números Índices 1. Una empresa fabrica tres tipos de productos: A, B y C. La estadística de producción (miles de unidades producidas) y precios (pesetas por unidad) es la siguiente. Calcular los siguientes índices cuánticos: a.- Los índices de Laspeyres, Paasche, Edgeworth y Fisher para cada año, tomando como base o referencia el año anterior. b.- Los índices de Laspeyres, Paasche, Edgeworth y Fisher para 2001 tomando como base 100% el año 1998 1998 1999 2000 2001 Producto A Precio Cantidad 100 20 110 25 120 25 130 30 Producto B Precio Cantidad 60 10 60 8 60 8 50 6 Producto C Precio Cantidad 200 20 250 20 300 20 300 30 2. En una empresa se dispone de la estadística de personal empleado (cientos) y salario medio mensual (euros) según categoría del trabajador en el año 1999. Calcular los índices salariales de Laspeyres que resultarían para 2002 tomando como base 100% el año 99 en los supuestos: a.- Una mejora anual del 5% mas un incremento fijo de 30 euros en cada paga (hay 15 pagas al año) b.- Con mejoras anuales de 1.000 euros para cada empleado Categoría A B C D E Empleados 1 3 10 20 66 Salario medio mensual 1.800 1.650 1.500 1.100 900 3. De la publicación "Contabilidad Nacional de España. Base 1990" (INE) se han tomado los datos siguientes: origen del PIB por ramas de actividad, en millones de euros. Calcúlese, para las magnitudes de los cuadros, los índices de precios implícitos con base 100% en 1990. Calcular el índice de precios del PIB en el año 2000 con base 100% en 1990. PIB 1. Agrario 2. Industrial 3. Construcción 4. Servicios EN PRECIOS CORRIENTES 1998 1999 2000 6.449 6.239 7.350 27.604 31.187 35.388 7.717 7.987 9.183 51.224 59.452 68.720 EN PRECIOS CONSTANTES 1998 1999 2000 5.935 5.842 5.752 26.802 27.538 27.202 6.976 7.699 7.903 50.014 51.849 53.123 11 4. Dadas las tres series siguientes del índice de precios industriales de un país (IPRI), unificar los datos en una única serie con base 100% en 1995. Año 1985 1986 1987 1988 1989 1990 Índice 1985=100% 100% 104% 107% 112% 113% 122% Año 1990 1991 1992 1993 1994 1995 Índice 1990=100% 100% 104% 105% 108% 114% 121% Año 1995 1996 1997 1998 1999 Índice 1995=100% 100% 107% 112% 120% 125% 5. Se dispone para el año 1998 de las cifras de Valor Añadido Bruto (millones de unidades monetarias de 1998) y de Población Ocupada (miles de personas) de una determinada provincia: 1. Agrario 2. Industrial 3. Construcción 4. Servicios V.A.B. 32 120 29 262 Pobl. Ocupada 40 55 18 108 Conociendo los índices de producción y los índices de población ocupada de cada sector (base 100%=1998) para los siguientes años, calcular: a.- Índice de producción (Laspeyres) global, para cada año, en base 1998 b.- Índice de Población ocupada global, para cada año, en base 1998 c.- Índice de productividad media, para cada año, en base 1998 1. Agrario 2. Industrial 3. Construcción 4. Servicios Ind. Prod. 110% 101% 95% 102% 1999 Ind. Pobl.Ocup. 96% 97% 87% 99% Ind. Prod. 111% 103% 96% 104% 2000 Ind. Pobl.Ocup. 94% 94% 83% 101% Ind. Prod. 106% 106% 101% 115% 2001 Ind. Pobl.Ocup. 85% 96% 89% 107% 6. Dado un sistema de índices de precios al consumo de un país con base 1992= 100%, se tiene la información estadística relativa a un conjunto de artículos. Calcular: a.- los IPC globales de este conjunto de artículos para los años 1999, 2000 y 2001 b.- incremento relativo de los precios en 2000 y 2001 c.- tasa media anual de crecimiento de los precios en el periodo 1999-01 y en el periodo 1992-2001 Artículo a b c d e W i (%) 50% 14% 9% 10% 17% 1999 110% 105% 108% 104% 106% INDICES SIMPLES (%) 2000 112% 105% 110% 108% 107% 2001 120% 110% 114% 110% 110% 7. Se dispone de la distribución sectorial del PIB a precios de mercado (millones de euros corrientes) y del Índice de precios de Paasche en el año actual en relación al año cero. Calcular el PIB sectorial a precios del año base, así como el deflactor implícito del PIB correspondiente al año 1. 12 Sector 1. Agrario 2. Industrial 3. Construcción 4. Servicios PIB pm (año 1) 3.000 10.000 2.000 15.000 Pp 0 120% 130% 140% 125% 8. El valor relativo de un bien en 2000 con base 1993 es 104% y con base 1997 es 130%. ¿Cuál será su valor relativo de 1997 con base 1993? 9. Una empresa de venta de artículos alimenticios ha obtenido los siguientes beneficios (miles de euros). Conociendo la evolución del IPC con base 100% en 1997, calcular la serie de beneficios de la empresa a precios constantes del año 2001. año 1997 1998 1999 2000 2001 Beneficios 20 25 27,5 32,5 40 IPC base 1997 100% 120% 150% 160% 190% 10. Una fábrica produce tres modelos de relojes, de los que se dispone del precio de venta, el coste de producción por unidad, y el nº de unidades vendidas (miles) en 2000 y 2001. Calcular el índice cuántico de Paasche y Laspeyres sobre las ventas, con base 100% en 2000. [Nota: al disponer de precio de venta y coste de producción, la ponderación se realiza por valor añadido en la etapa productiva]. Modelo A B C Pr. venta 8 10 12 2000 Coste 3 4,5 5,5 Ventas 18 25 20 Pr.venta 8,5 11 14 2001 Coste 3 5 6 Ventas 18,5 27 22 Ejercicios tema 8: Series Temporales 1. Se dispone de los datos trimestrales del número de automóviles vendidos (miles de unidades) en un país, entre 1998 y 2000. Analizar la serie temporal y predecir las ventas del año 2002. Trimestre \ Año 1 2 3 4 1998 20 30 15 35 1999 22 33 16 40 2000 25 36 17 44 2001 29 40 17 50 13