Estadística Descriptiva ESTADÍSTICA DESCRIPTIVA ANOTACIONES 1º BACHILLERATO SOCIALES EMPRESARIALES ECONOMÍA ADE PSICOLOGÍA TRABAJO SOCIAL Luciano Rubio Yusto Dpto. Matemáticas Dpto Matemáticas IES León Felipe 1 Estadística Descriptiva ESTADÍSTICA DESCRIPTIVA Estadística es la ciencia que utilizando las matemáticas y de modo particular el cálculo estudia las leyes de comportamiento de aquellos fenómenos que no estando sometidos a leyes rígidas dependen del azar y basándose en ella, se predicen resultados. La estadística tiene dos grandes ramas: Descriptiva e Inferencial. - Estadística Descriptiva analiza las características de una población o muestra definiéndose unas propiedades acerca de su estructura y composición. - Estadística Inferencial basándose en los resultados obtenidos de una muestra induce o estima las leyes reales de comportamiento de la población de la que proviene dicha muestra. - Población son todos y cada uno de los elementos que se quieren analizar. Puede ser finita o infinita( en realidad las poblaciones infinitas no existen, pero cuando se trata de un número grande se trata como si lo fuera). - Muestra es un subconjunto de la población o parte de la población que se observa. - Característica de una población es la propiedad que se estudia. - Variables es cualquier característica cuantitativa ( tome valor numérico) de una población . Ejemplo: Población Estudiantes de Económicas de Salamanca, Característica Edad de ellos, la característica se designa con letras mayúsculas X, Y, Z,...., los valores de esas edades son numéricos entonces es una variable cuantitativa y los valores que toman se denotarían X={x1, x2, x3,........xn }. - Dominio de la variable son los valores que toma - Recorrido de la variable es la diferencia entre el valor mayor y el menor de los que toma la variable. - Variable Discreta cuando toma un número finito de valores o bien cuando toma infinitos y son numerables es decir entre dos no hay otro intermedio. Ejemplo: la edad, las notas, ...... - Variable continua cuando entre dos valores cualesquiera siempre puede haber otro. Ejemplo: Talla, peso,...... - Variable unidimensional Estudia solo una característica de la población. Ejemplo: Estudiar el peso (X) Dpto Matemáticas IES León Felipe 2 Estadística Descriptiva - Variable bidimensional Estudia dos características de una población. Ejemplo Estatura(X) y peso (Y) - Variable infidimensional estudiaría infinitas características - Atributos son características de la población no susceptibles de cuantificación numérica. Ejemplo.: Color del pelo, los atributos se designan con letras A, B, C, .......y sus valores A={a1, a2, .............., an}. En Economía son muchos más importantes las variables (toman valor numérico)) que los atributos. ETAPAS DEL ANÁLISIS ESTADÍSTICO 1) 2) 3) 4) Recogida de Datos Ordenación de los mismos en tablas Resumen de la información recogida a través de las medidas(Descriptiva) Analizar los datos provenientes de una muestra para sacar conclusiones sobre la población de la que proviene la muestra ( Inferencial). ESCALAS DE MEDIDA - Escala nominal la característica estudiada se clasifica en una serie de características no numéricas y mutuamente excluyentes y no se puede establecer ningún orden entre ellos. - Escala ordinal el carácter medido no es numérico pero puede establecerse algún tipo de orden. Ejemplo estudios de una persona. - Escala de intervalos la característica puede cuantificarse numéricamente, estableciéndose intervalos entre dos operaciones. Ejemplo: Renta mensual que percibe una persona. ANÁLISIS ESTADÍSTICO DE DISTRIBUCIONES UNIDIMENSIONALES - Distribución unidimensional está formada por los valores que toma la variable que se estudia acompañados de sus respectivas frecuencias. - Frecuencia absoluta determinado valor. - Frecuencia relativa ( hi) es el cociente entre la frecuencia absoluta y el número total de observaciones, por tanto la frecuencia relativa está siempre entre cero y uno. - Frecuencia absoluta acumulada ( fi ) es el número de veces que se repite un i Fi f j es decir se suman las j 01 frecuencias anteriores a un valor dado, por tanto la acumulada al final coincide con la población N. Dpto Matemáticas IES León Felipe 3 Estadística Descriptiva - Distribución por datos no agrupados es cuando se especifican todos y cada uno de los valores de la variable. - Distribución por datos agrupados los valores de la variable se miden en intervalos , la amplitud del intervalo es la diferencia entre el extremo superior e inferior del intervalo y la suma de las amplitudes de todos los intervalos es igual al recorrido ( diferencia entre el valor mayor y el menor de la distribución). - Marca de clase de un intervalo es la semisuma de los extremos del intervalo y es el valor que sustituye a todo el intervalo l x i i 1 li 2 siendo el intervalo [li-1 , li ]. Las representaciones gráficas tienen que estar hechas para que el simple impacto visual nos dé información de la distribución En distribuciones cuantitativas si los datos no están agrupados, se emplea el diagrama de barras, si están agrupados el histograma., si la distribución es cualitativa se suele emplear el diagrama de sectores. Diagrama de barras Datos sin agrupar y las barras proporcionales a las frecuencias. Diagrama de Barras 12 Frecuencias 10 8 6 4 2 0 x1 x2 x3 x4 x5 Datos X Dpto Matemáticas IES León Felipe 4 Estadística Descriptiva Diagrama rectángulos Frecuencias 10 8 6 4 2 0 x1 Dpto Matemáticas x2 x3 x4 IES León Felipe x5 X 5 Estadística Descriptiva En datos agrupados el Histograma pone en el eje vertical las densidades de frecuencia de cada intervalo de forma que el área de cada rectángulo es la frecuencia absoluta del intervalo. Densidad de frecuencia di = fi/ai Frecuencias absolutas Diagrama en escalera para datos no agrupados se utiliza para las frecuencias acumuladas , son histogramas en los que en el eje vertical se acumulan las frecuencias absolutas, por eso se llaman en escalera. x1 x2 x3 xn Datos Frecuencias acumuladas Diagrama de barras acumulado para datos agrupados Intervalos clase Dpto Matemáticas IES León Felipe 6 Estadística Descriptiva Histograma para datos agrupados en intervalos Densidades El área de cada rectángulo nos da la frecuencia del intervalo, por tanto la base es la amplitud y la altura la densidad de frecuencia de dada uno di f5 f3 f1 a1 Dpto Matemáticas f4 f2 a2 a3 IES León Felipe a4 a5 Amplitudes 7 Estadística Descriptiva MEDIDAS DE POSICIÓN Se trata de resumir la información en un único número. Las medidas de posición pueden ser: De tendencia central o promedios 1. Media 2. Mediana 3. Moda De tendencia no central 1. Cuantiles. Las medidas de posición tienen que cumplir que intervengan todos los valores de la variable, que se puedan calcular y que su valor sea único para cada distribución de frecuencias. 1.- MEDIA La media puede ser : Aritmética simple o ponderada Media Cuadrática Media Geométrica Media Armónica Media aritmética simple Se suman de todos los valores de la variable ponderados por sus frecuencias absolutas y dividido todo ello por el número total de observaciones n x x f i 1 i i N La media aritmética es siempre el centro de gravedad de la distribución y es siempre un valor que entra dentro del campo de variación de la variable. Si los datos están agrupados en intervalos se toma la marca de clase de cada intervalo para su cálculo. Propiedades 1.- Cuando a los valores de la variable se les suma una constante, la nueva media es la antigua más la constante. x´ x K Dpto Matemáticas x´ x K IES León Felipe 8 Estadística Descriptiva Demostración x ´ f ( x K ) f x f k f x K puesto x´ _ i i i N i i N i i N N que la suma de las fi es N. 2.- Si a los valores de la variable se les multiplica por una constante, la nueva media es la antigua multiplicada por la constante. x, ´ xi K x´ K x Demostración x ´ f Kx f K x f k x x´ i i i N i i N i N 3.- Como consecuencia de las dos anteriores si a los valores de una variable se les multiplica por constante y se les suma un número, la media aritmética queda multiplicada por la constante y sumado el número. Es decir si : Y KX B entonces Y K X B 4.- La media aritmética se puede hacer siempre con variables cuantitativas y es perfecta, pero tiene un inconveniente que es que si los valores son muy extremos ( desviados del resto), puede desvirtuarse la situación y hacerla poco representativa, debido a este problema, a veces se hace la media truncada que es quitar los extremos y hacer la media de los que quedan. Media Aritmética ponderada Es igual que la media aritmética simple, pero se pondera cada valor de la variable por un coeficiente distinto de la frecuencia absoluta. Media cuadrática Es la media de los valores de la variable al cuadrado es decir : x f x 2 2 i i N Dpto Matemáticas IES León Felipe 9 Estadística Descriptiva Media Armónica Es la media de los valores inversos de la variable, o la inversa de la media aritmética H N f i xi La media armónica se utiliza cuando la variable se encuentra medida en términos relativos. Por ejemplo la velocidad. Media Geométrica Es la raíz N-ésima del producto de los valores de la variable elevado cada uno de ellos a su frecuencia absoluta G N x1f .x2f ..........xnf 1 2 n Tiene el problema de que su cálculo es muy complicado sobre todo si N es grande. 2.- MEDIANA Es el valor de la variable que ocupa el lugar central de la distribución, es decir el valor de la variable que deja el 50% de observaciones hacia la izquierda y el 50% a la derecha. Para poder hallar la mediana, lo primero que hay que hacer es ordenar los valores de la variable de forma creciente, y escribir los valores de las frecuencias acumuladas Fi. Distinguiremos dos casos, datos no agrupados y datos agrupados. Para datos no agrupados Se calcula primero el 50% de la población N/2, se lleva ese valor a la columna de frecuencias absolutas acumuladas. Si el valor no está en la columna de acumuladas, se toma como valor de la mediana el de la variable correspondiente al siguiente. Si el valor si está en la columna de acumuladas, se toma como mediana la media aritmética del valor de la variable y el siguiente. Para datos agrupados en intervalos Se calcula como antes la mitad de la población, y se lleva ese valor a la columna de frecuencias absolutas acumuladas. Dpto Matemáticas IES León Felipe 10 Estadística Descriptiva Si el valor no está en la columna, se toma como intervalo al que pertenece la Mediana el siguiente al valor de N/2, y después de situarnos en el intervalo por la hipótesis de uniformidad hacemos una proporción entre la amplitud del intervalo, los elementos que tiene y la amplitud que correspondería a la diferencia entre N/2 y la frecuencia acumulada anterior valor que añadiríamos al extremo inferior del intervalo. Si el valor sí está en la columna de frecuencias acumuladas, se toma como Mediana el extremo superior del intervalo correspondiente. También se puede hallar gráficamente con el diagrama correspondiente a las frecuencias absolutas acumuladas. 3.- MODA Es el valor de la variable que más veces se repite. En algunos casos existen varias modas, pero normalmente es una, si son dos se llama bimodal. Para datos no agrupados La moda es el valor de la variable correspondiente a la mayor frecuencia absoluta. Para datos agrupados en intervalos Se halla la densidad de frecuencia de cada uno de los intervalos (di) y el de mayor densidad de frecuencia se selecciona como intervalo modal, para determinar el valor de la Moda, se aplica la siguiente fórmula, basada en la proporcionalidad: Mo Li d i d i 1 .ai (d i d i 1 ) (d i d i 1 ) Si los intervalos tienen todos la misma amplitud el intervalo modal es el de mayor frecuencia absoluta. CUANTILES Son medidas de posición que no tiene porqué ser central. Hay varios tipos de cuantiles: 1.- Cuartiles Son valores de la variable que dividen a la distribución en cuatro partes iguales, por lo tanto los cuartiles son tres C1 que deja por detrás de él al 25% de la población, C2 que divide a la población en dos partes iguales y C3 que deja dtrás de él al 75% de la población. 2.- Deciles Son valores e la variable que dividen a la distribución en diez partes iguales, por lo tanto los deciles son nueve, D1 deja al 10% antes, D2 al 20% y así sucesivamente hasta D9 que deja al 90% antes y al 10% después de él. Dpto Matemáticas IES León Felipe 11 Estadística Descriptiva 3.- Percentiles.- Son valores de la variable que dividen a la distribución en cien partes iguales, por lo tanto los percentiles son 99. En realidad tanto cuartiles como deciles se calculan con el correspondiente percentil. D1= P10 D9 = P90 C1 = P25 C2 = D5 = P50 = ME . Para calcular cualquiera de ellos se utiliza por lo tanto el mismo procedimiento que el descrito en el cálculo de la Mediana. MEDIDAS DE DISPERSIÓN Las medidas de dispersión nos indican el mayor o menor alejamiento de los valores de una variable respecto a un promedio. Casi siempre acompañando a un promedio debe ir una medida de dispersión que nos indica la mayor o menor representatividad del promedio. Las medidas de dispersión absoluta más utilizadas son: Recorrido Recorrido Intercuartílico Desviación Media Varianza Desviación Típica RECORRIDO Es la diferencia entre el mayor y el menor valor de la variable R = xn – x 1 RECORRIDO INTERCUARTÍLICO Es la diferencia entre el tercer cuartil y el primer cuartil RI = Q3 – Q1 DESVIACIÓN MEDIA Es la suma de los valores en valor absoluto de la diferencia entre cada valor de la variable y la media aritmética por su frecuencia y dividido por el número de datos. x x f i i i 1 D x N in Dpto Matemáticas IES León Felipe 12 Estadística Descriptiva VARIANZA S 2 ( x x) 2 i X fi N Siempre es positiva (por estar al cuadrado). Como la varianza es siempre positiva, a mayor varianza mayor será la dispersión. Propiedades: 1.-La varianza siempre es mayor o igual que cero. Tan solo hay un caso en que es cero y es cuando todos los valores de la variable son iguales. 2.- Si a los valores de la variable le sumo una constante, la varianza de la nueva variable es la misma que la que tenía antes. Es decir si xi´= xi+K entonces S2x´= S2x Demostración: S x´2 ( xi´ x´) fi N ( xi k ( x k ))2 fi N S x2 3.- Si a los valores de la variable se les multiplica por una constante, la varianza de la nueva variable es la que tenía por el cuadrado de la constante. Es decir si xi´= k xi entonces S2x´= k2 S2x Demostración ´ ( x ´ x) S ´ 2 x i 2 fi N (kx k x) i N 2 fi k 2 ( x x) i N 2 fi k 2 S x2 4.- Es consecuencia de las dos anteriores, la varianza de la variable Y=aX+b es la varianza de X multiplicada por el cuadrado de a. S y2 a2 Sx2 Dpto Matemáticas IES León Felipe 13 Estadística Descriptiva 2 5.- Cálculo abreviado de la varianza S x2 x 2 x que es la fórmula más utilizada. Demostración 2 xi x f i S x2 N 2 ( xi2 x 2 xi x) fi N xi2 fi N 2 x fi N 2 x xi fi N 2 2 x x. DESVIACIÓN TÍPICA (Sx) Es la raíz cuadrada positiva de la varianza y es la medida de dispersión más utilizada. Clases de medidas de dispersión relativas Se caracterizan por ser adimensionales, las más importante es el coeficiente de variación de Pearson, nos indica la mayor o menor homogeneidad de los datos respecto de la media y por lo tanto nos da la representatividad de la media en la distribución. CVx Sx x Tipificación de variables Tipificar una variable es cambiarla por otra que tenga de media cero y desviación típica 1. Se utiliza para comparar distribuciones . Cada valor se tipifica restando la media y dividiendo por la desviación típica, la nueva variable z, tiene de media cero y desviación típica 1. xx z Sx MEDIDAS DE FORMA Hacen referencia a la forma de la distribución, simétrica, asimetría a la derecha o a la izquierda. En general la mejor manera de verlo es por la representación gráfica, pero si no la tenemos existen coeficientes que nos indican la forma de la distribución. Los más utilizados son: Coeficiente de asimetría de Pearson, sólo se puede utilizar en distribuciones campaniformes (forma de campana) y unimodales Dpto Matemáticas IES León Felipe 14 Estadística Descriptiva x M o Sx Este coeficiente puede ser: Ap 0 entonces la media igual que la moda, distribución simétrica >0 entonces la media mayor que la moda, asimetría a la derecha positiva <0 entonces la media menor que la moda asimetría a la izquierda negativa Coeficiente de asimetría de Fisher, tiene la ventaja de que se puede hallar para todas las distribuciones, aunque su cálculo es complicado y laborioso. g1 ( x x) 3 i N .S fi 3 x Este coeficiente puede ser: 0 entonces la distribución es simétrica >0 entonces asimetría a la derecha <0 entonces asimetría a la izquierda. Curtosis hace referencia al mayor o menor apuntamiento que tiene una distribución de frecuencias respecto a una distribución Normal, por lo tanto sólo se estudia en distribuciones campaniformes , para compararlas con la campana de Gauss, su calculo también es muy laborioso. g2 ( x x) i N .S x4 Este coeficiente puede ser: 4 fi 3 0 la curva es igual que la normal, se llama Mesocúrtica >0 la curva es más puntiaguda que la normal se llama Leptocúrtica <0 la curva es más aplastada quie la normal, se llama Platicúrtica Dpto Matemáticas IES León Felipe 15 Estadística Descriptiva ANEXO MEDIDAS DE CONCENTRACIÓN La concentración estudia el mayor o menor grado de distribución de los valores de la variable, la mayor o menor equidad o igualdad en el reparto, por lo tanto sólo se puede estudiar en variables de tipo económico, rentas, sueldos, subvenciones, etc........... Las medidas más utilizadas son el Índice de Gini y la curva de Lorentz, su cálculo se basa en la siguiente tabla de distribución: Li-1-Li mi 10-20 20-40 40-50 50-70 70-80 80-100 fi 15 30 45 60 75 90 ui fi .mi Fi 6 4 3 5 2 3 N=23 6 10 13 18 20 23 90 210 345 645 795 1065 pi Fi u .100 qi i i .100 N un 26,09 43,48 56,52 78,26 86,96 8,45 19,72 32,39 60,56 74,65 291,31 Los pi nos indican el porcentaje de población y los qi correspondientes la cantidad que se reparte ese porcentaje de población, también claro está en porcentaje. Siempre pi > qi en caso de igualdad implica que todos perciben la misma cantidad, por lo tanto hay nula concentración o total uniformidad en el reparto. Si pi se aproxima a qi hay poca concentración o sea bastante uniformidad, caso contrario mucha concentración o sea no hay uniformidad. Indice de Gini IG ( p q ) 95,54 0,3280 en nuestro ejemplo hay escasa 291,31 p i i i concentración por lo tanto bastante uniformidad en el reparto. La curva de Lorenz sería por tanto de la forma: Dpto Matemáticas IES León Felipe 16 Estadística Descriptiva EJERCICIOS ESTADÍSTICA DESCRIPTIVA 1.- Dada la siguiente distribución de frecuencias de variable discreta . Calcular: a) Mediana b) Moda xi 47 48 49 50 51 52 53 c) Media d) Varianza y desviación típica fi 1 3 2 8 3 2 1 2.- Consultados 350 matrimonios sobre la edad de la esposa, se confecciona la siguiente tabla: Edad esposa 15-20 20-25 25-30 30-35 35-40 40-50 50-70 Nº matrimonios 23 28 76 54 60 42 67 Calcular Media, Mediana y Moda 3.- Un hotel tiene cinco tipos de habitaciones cuyos precios así como los ingresos son: Precio por Habitación 200 500 750 1.000 1.300 Ingresos 16.000 20.000 37.500 30.000 26.000 Calcula precio medio Si el coeficiente de variación de los precios de otro hotel es 0,75 ¿ Cúal de los dos hoteles posee una estructura de precios más homogéneos? Dpto Matemáticas IES León Felipe 17 Estadística Descriptiva 4.- Un empresario desea repartir unas bonificaciones entre sus empleados en base a la categoría y productividad de los mismos. Dicha distribución quedó de la siguiente forma: Bonificaciones (Cientos Euros) 10-15 15-25 25-28 28-32 32-40 40-55 Nº Empleados 3 8 12 15 7 5 Bonificación media por trabajador Bonificación más frecuente Bonificación tal que la mitad de las restantes sea inferior a ella La varianza El coeficiente de variación y significado El coeficiente de asimetría de Pearson y significado. 5.- Los beneficios en millones de euros de un grupo de empresas vienen detallados en el siguiente histograma de frecuencias absolutas acumuladas: 3 2,8 2,6 2,4 2,2 2 1,8 1,6 1,4 1,2 1 0,8 0,6 0,4 0,2 0 25 50 75 100 125 150 Calcular: Tabla estadística Establecer nº de empresas con beneficios superiores a 75 millones Calcular media mediana y moda Coeficiente de variación y de asimetría de Pearson ( significado) Dpto Matemáticas IES León Felipe 18 Estadística Descriptiva 6.- Las calificaciones de 90 opositores en el primer ejercicio han sido: xi 0 1 2 3 4 5 6 7 8 9 10 fi 4 10 13 11 13 10 9 7 7 4 2 Se pide Cuartiles e interpretación de los resultados 7.- La tabla adjunta muestra la distribución de los salarios/mes en Euros percibidos por los 65 empleados de la empresa AVISO. Salario mes 500-600 600-700 700-800 800-900 900-1000 1000-1100 1100-1200 Nº empleados 8 10 16 14 10 5 2 Se pide Salario medio de la empresa Salario tal que la mitad de los empleados ganan menos Salario más frecuente Presenta los datos en un histograma. 8.- Una variable estadística tiene una media igual a 7, y una desviación típica igual a 5. Calcular la media y la varianza de las variables: Y = (X-2)/4 Z= 5X+2 Dpto Matemáticas IES León Felipe 19 Estadística Descriptiva 9.- Completar los datos que faltan en la siguiente tabla de distribución de frecuencias: xi 70 60 50 40 30 20 10 fi 2 8 6 4 3 FI 12 34 - hi - HI - Calcular: Media aritmética Varianza Coeficiente de variación Mediana Recorrido intercuartílico 10.- La puntuación que han obtenido 50 personas que se presentaron para ocupar un puesto en la plantilla de una empresa, ha sido la siguiente: Puntuación 14-18 18-20 20-25 25-28 28-32 32-36 Nº personas 3 6 11 15 8 7 Puntuación media y puntuación más frecuente Coeficiente de asimetría de Pearson y significado ¿ Qué tipo de curtosis presenta la distribución? 11.- Las últimas cien ventas facturadas por un establecimiento se habían agrupado en cuatro intervalos de clase, recordamos tan sólo la siguiente información: El primer intervalo tiene seis semanas como extremo superior, una frecuencia relativa de 0,2 y una amplitud de cuatro semanas. La marca de clase del segundo y cuarto intervalo son ocho y cincuenta semanas respectivamente. Hasta el segundo intervalo se acumulan sesenta ventas. El tercer intervalo presenta una frecuencia de treinta ventas y una amplitud de treinta semanas. Con esta información construye la distribución de frecuencias y calcula la media, mediana, moda y coeficiente de variación. Dpto Matemáticas IES León Felipe 20 Estadística Descriptiva 12.- Las indemnizaciones recibidas por los 42 propietarios de áreas de cultivo después de unas recientes inundaciones, se distribuyen del siguiente modo: Cientos de Euros 20-50 50-100 100-140 150 220 Propietarios 8 20 8 5 1 Si las perdidas se han valorado en más de 400.000 Euros, puede afirmarse que las indemnizaciones son suficientes? Calcular la indemnización más frecuente Calcular la mediana y la media Si a todos los propietarios se les subiera la indemnización en 2.000 Euros serían suficientes las indemnizaciones? Cuál sería entonces la media?. 13.- Durante la última semana dos librerías han vendido los libros que ocupan los tres primeros puestos en las listas de ventas a los siguientes precios Librería 1 Precio Nº Ejemplares 18 10 21 13 23 15 Librería2 Precio Nº Ejemplares 15 25 19 18 20 25 Qué establecimiento ha presentado una recaudación media más representativa Cuál de los establecimientos presenta una mayor disparidad de precios? 14.- Una empresa automovilística ha abierto una nueva factoría en un país del este. En este año en dicha factoría se han obtenido unas ventas medias mensuales de 100 automóviles con una desviación típica de 10, mientras que en España por término medio se han vendido 75 coches con una desviación típica de 8. ¿ En la factoría de qué país las ventas medias de automóviles son más representativas? Si en el último mes las ventas de la nueva factoría son de 105 vehículos y en la española de 80 ¿qué factoría presenta mayores ventas en términos relativos este mes? ( Tipificar los valores) Si la empresa piensa abrir otra factoría en Asia, y se espera que la distribución de ventas sea Y= X – 10 , siendo X la distribución de ventas en España ¿ En cuál de estas dos factorías las ventas son más representativas? Dpto Matemáticas IES León Felipe 21 Estadística Descriptiva 15.- Las calificaciones obtenidas por un grupo de alumnos en Matemáticas y Economía son: Se pide a los alumnos de la clase las notas de la evaluación en las dos asignaturas y se anotan los resultados. Una vez anotados los resultados en dos filas, se pide: ¿Cuántos alumnos tiene el grupo? Tabla de correlación Distribuciones marginales, medias y varianzas ¿Cuál de las dos es más homogénea? Hallar la distribución de matemáticas condicionada a la Economía sea 7 Distribución de Economía condicionada a Matemáticas superior a 4 Porcentaje de personas que aprobaron la Economía Nota mínima obtenida por el 30% de los alumnos que más nota tienen en Economía Calcular la covarianza Calcular el coeficiente de correlación lineal y significado. Nube de puntos. 16.- Con los datos de la siguiente tabla obténgase las medias, varianzas y covarianza de las variables X e Y 1 2 4 ni 5 10 15 1 2 0 0 1 1 2 0 3 3 3 4 nij 3 2 5 10 xi yj 17.- Dada la distribución : xi 2 2 3 3 5 yj 1 4 2 5 4 nij 6 7 4 2 1 Determínese el coeficiente de correlación lineal entre las variables y dar su significado, relaciona el resultado obtenido con la nube de puntos de la distribución Dpto Matemáticas IES León Felipe 22 Estadística Descriptiva 18.- Se ha encuestado a 100 familias en una ciudad sobre su gasto mensual en ocio (variable Y) y sus ingresos mensuales (Variable X). En la siguiente tabla se presentan los resultados obtenidos, donde las variables vienen expresadas en Euros. Y X 600-1000 1000-1500 1500-2000 2000-3000 3000-5000 0-100 100-200 200-400 400-800 4 9 9 5 1 1 8 12 8 1 1 3 20 12 - 3 3 - Obtener el ingreso medio mensual por familia Obtener el gasto en ocio medio mensual por familia Obtener la media de gasto en ocio para las familias con ingresos inferiores a 2000 Euros Cúal de las dos distribuciones es más homogénea? Halla la correlación lineal entre ambas y explica su significado ¿ Cuál es el ingreso máximo que tienen el 20% de las familias que menos ingreso tienen? 19.- En un determinado sector, la producción y las exportaciones durante los últimos años han sido: Año 2000 2001 2002 2003 2004 Producción (miles) 400 420 440 480 500 Exportación (miles) 80 80 90 92 98 Calcule la covarianza y el coeficiente de correlación lineal y dé su interpretación Realice un ajuste lineal entre ambas variables Determine el coeficiente de determinación e interprete el resultado. 20.- Calcular las rectas de regresión de una variable bidimensional (X,Y) sabiendo los siguientes datos : x 14 y 7 S x2 3 S y2 1 r 0,95 ¿ Qué valor asignaría a X para un valor Y=5 Dpto Matemáticas IES León Felipe 23 Estadística Descriptiva 21.- Dada la recta de regresión Y = - 0,25 + 3,2X ¿ Puede ser Sy< 6,4 si Sx = 2? 22.- En una región de España se observó el precio del vino y la cantidad de producción durante algunos años , obteniéndose los siguientes datos : X Y 35 100 31 140 42 120 60 110 52 200 49 200 61 110 50 160 55 160 58 200 donde X es el precio por litro del vino en céntimos de Euro e Y es la cantidad producida en miles de litros. Considerando la variable X agrupada en intervalos de amplitud constante y considerando que el primer intervalo es 25-35; se pide: Distribuciones marginales Media, mediana, desviación típica y coeficiente de variación de Pearson de X Covarianza entre las variables Porcentaje de años en los que el precio del vino fue inferior a 48 céntimos Recta de regresión de Y/X Coeficiente de correlación y de determinación , significado. 23.- La recta de regresión entre dos variables viene dada por Y = 5 + b.X. Sabiendo que las medias de las variables son respectivamente 5 y 20. Calcular el coeficiente de regresión . 24.- Contestar razonadamente si las afirmaciones siguientes son ciertas: 1. Si el coeficiente de regresión es negativo, se deduce que: El coeficiente de correlación es menor que cero La variable Y aumenta cuando X disminuye La covarianza es negativa 2. Si el coeficiente de determinación en un ajuste es 0,9 El ajuste es bueno El coeficiente de correlación es 0,9 El 10% de los valores no se explican por la regresión 25.- Media aritmética y varianza. Tipos de medida que son. Utilidad, importancia y propiedades que cumple cada una de ellas. Dpto Matemáticas IES León Felipe 24 Estadística Descriptiva IES LEÓN FELIPE Dpto Matemáticas Examen ESTADÍSTICA 1º 19 de Mayo 2005 TEORÍA 1.- ( 2 puntos) mismas. Media aritmética. Definición. Propiedades y demostración de las 2.- ( 2 puntos) Responda razonadamente a las siguientes cuestiones: ¿ Qué predicción sería más fiable en un modelo lineal? a1) Aquella en la que R = 0,9 a2) Aquella en la que r = 0,92 Es posible que una variable estadística tenga de coeficiente de asimetría de Pearson –2, siendo la media mayor que la moda? Obtener la varianza de la variable Y = 2X + 4 siendo Sx = 6 Si una variable estadística toma un único valor constante K cual es su media y su varianza. PROBLEMAS En todos los apartados ponga en un recuadro el resultado final 1.- ( 2 puntos ) Realizada una encuesta entre fumadores se ha obtenido la siguiente tabla de frecuencias: Nº Cigarrillos diarios Nº de individuos 5-10 10-15 15-20 20-30 20 15 25 40 Número medio de cigarrillos fumados por individuo y día Desviación típica y coeficiente de variación de Pearson El valor más frecuente de la variable Histograma de frecuencias absolutas Número de cigarrillos que fuman el 30% de la población más fumadora. 2.- ( 2 puntos ) Halle las rectas de regresión de una variable bidimensional (X,Y) sabiendo x 20 y 10 S x 4 S y 2 , siendo el coeficiente de correlación lineal r = 0,95. En cual de las dos variables la media es más representativa?. ¿ Qué valor asignaría a Y = 6? Sería la predicción fiable? Dpto Matemáticas IES León Felipe 25 Estadística Descriptiva 3.- ( 2 puntos ) En una muestra de 20 empresas del sector metalúrgico se obtuvieron los siguientes datos sobre el número de empleados X y sus ingresos anuales Y en miles de Euros Nº empleados(X) 10-30 30-50 50-100 Ingresos Anuales(Y) 5-15 6 1 0 Ingresos anuales(Y) 15-25 2 1 0 Ingresos anuales(Y) 25-45 0 0 10 Calcule los ingresos medios anuales La mediana del número de empleados La recta que te permita calcular los ingresos sabiendo el número de empleados Sería fiable la predicción que se hiciera? En los mismos ejes representa nube de puntos y recta de regresión hallada. Dpto Matemáticas IES León Felipe 26 Estadística Descriptiva IES LEÓN FELIPE Dpto. Matemáticas Examen ESTADÍSTICA 1º 31de Mayo 2005 TEORÍA 1.- ( 2 puntos ) Conteste a la pregunta que mejor sepa de entre las propuestas por el profesor en clase. 2.- ( 2 puntos ) Responda razonadamente las siguientes cuestiones: Si la media y la varianza de la variable X son 10 y 36 respectivamente, es el coeficiente de variación de Pearson mayor que 1? Es posible que Sx sea mayor que 4 si Sxy=4 y Sy2 = 0,9? Si a una variable se le multiplica por dos y después se le suma 5 ¿ que le ocurre a la media?¿Qué le ocurre a la varianza? Si una variable toma únicamente los valores uno y menos uno¿ Cuál sería su media?¿Cuál sería su varianza? PROBLEMAS En todos los apartados ponga en un recuadro el resultado final 1.-(2 puntos ) Una empresa quiere realizar un estudio sobre la influencia de las campañas publicitarias en sus cifras de ventas. Para ello dispone del gasto destinado a publicidad y sus ventas en los últimos cinco años: Años 2000 2001 2002 2003 2004 Dpto Matemáticas Gastos publicidad (Millones de Euros) 2,5 2,8 2,9 3,1 3,5 Ventas (Millones de Euros) 200 221 230 239 248 Obtenga la recta de regresión que permita predecir las ventas a partir de los gastos en publicidad Prediga las ventas para el año 2005 si se piensa invertir en publicidad 4.000.000 de Euros. Juzgue la bondad del modelo y la fiabilidad de la predicción realizada. IES León Felipe 27 Estadística Descriptiva 2.-(2 puntos ) Calcular los tres cuartiles de las dos distribuciones siguientes: Xi 2 3 8 12 15 fi 8 10 12 6 3 Li-1-Li 5-10 10-15 15-20 20-30 fi 6 7 10 9 Calcular también estas medidas gráficamente en ambos casos Calcula la Moda en la segunda distribución. 3.-(2 puntos ) Dada la variable X , que toma los valores 2, 4, 20 y 24. Hallar la media y la varianza de los valores de esa variable tipificados. Hallar la media y la varianza de la variable Y= 2X + 5 Hallar el coeficiente de variación de la variable X y de la variable Y e interpretar el resultado. Si a todos los valores de la variable X se les resta 2¿Cuál sería la media y la varianza de la nueva variable? Dpto Matemáticas IES León Felipe 28 Estadística Descriptiva Nota importante Estas anotaciones, creo son de utilidad, primero para nuestros alumnos de bachillerato de Sociales, paso previo para ir a la Universidad, y luego como material de consulta bastante válido para las carreras universitarias de Psicología, Trabajo Social, Economía, Administración y Dirección de Empresas, Empresariales, Trabajo Social, Magisterio y algunas más que tengan contenidos relacionados. Si os sirven de algo, muy bien, y de no ser así gracias al menos por mirarlo. Dpto Matemáticas IES León Felipe 29