Universidad Nacional de Mar del Plata Facultad de Ingeniería Estadística Descriptiva 2da parte 1° Cuatrimestre 2014 Prof. Marina Tomei. Jueves de 8 a 10 hs. Mg. Stella Maris Figueroa. juevesde 13 a 105hs. ESTADÍSTICOS En todo análisis y/o interpretación de datos se pueden utilizar diversas medidas descriptivas que representan las propiedades de tendencia central, dispersión y forma, para extraer y resumir las principales características de los datos. Estadísticos La media aritmética es el promedio aritmético de un grupo de datos Serie Simple: Si las observaciones de una muestra de tamaño n son x1,x2, …, xn entonces la media muestral se define como: n X xi i 1 n 24 19 26 19 22 21 19 24 20 23 22 21 22 23 20 20 18 24 20 18 22 18 20 21 20 20 21 20 21 27 Las edades de los alumnos del 1er cuatrimestre de 2008, dadas en esta serie simple, tienen un promedio de 21,166 años. Serie de Frecuencias: Si las observaciones de una muestra de tamaño n son x1,x2, …, xi y f1, f2, …, fi son sus respectivas frecuencias absolutas, entonces la media muestral se define como: n X x f i i i 1 n En el caso de las edades de los alumnos: X 21,166 Ingresar los datos en la calculadora en el modo SD y verificar este resultado. Edad fi 18 3 19 3 20 8 21 5 22 4 23 2 24 3 26 1 27 1 Intervalos de clase: Sean xm1,xm2, …, xmi las marcas de clases de los intervalos y f1, f2, …, fi sus respectivas frecuencias absolutas, entonces la media muestral se define como: k X X x i 1 f mi i n 19 6 21 13 23 6 25 3 27 2 30 X 21,8 Intervalos de Edad xmi fi [18 – 20) 19 6 [20 –22) 21 13 [22 – 24) 23 6 [24 – 26) 25 3 [26 – 28) 27 2 n = 30 Ingresar los datos en la calculadora en el modo SD y verificar este resultado. Distintos Significados que puede tener la media muestral Ejemplo 1 Un objeto pequeño se pesa con un mismo instrumento por ocho estudiantes de una clase, obteniéndose los siguientes valores en gramos: 6,2 6,0 6,0 6,3 6,1 6,23 6,15 6,2 ¿Cuál sería el valor que resuma mejor los datos del peso real del objeto? (Significado estimativo) Ejemplo2 Una empresa produce cierto tipo de dispositivos y los reparte en 5 comercios. El comercio A recibió 5, el B recibió 8, el C, 6, el D, 1 y al E no le llegó ninguno. ¿Qué debe hacer la empresa para repartir los dispositivos en forma equitativa? (Significado equitativo) . Distintos Significados que puede tener la media muestral Ejemplo 3 Al medir la altura en cm que pueden saltar un grupo de estudiantes, antes y después de haber efectuado un cierto entrenamiento deportivo, se obtuvieron los valores siguientes. ¿Piensas que el entrenamiento es efectivo? Altura saltada en cm. Antes del entrenamiento 115 112 107 119 115 138 126 105 104 115 Después del entrenamiento 128 115 106 128 122 145 132 109 102 117 ( significado que ayuda a decidir el planteo de hipótesis) Ejemplo 4 La altura media de los alumnos de un colegio es 1,40. Si extraemos una muestra aleatoria de 5 estudiantes y resulta que la altura de los 4 primeros es de 1,38 1,42 1,60 1,40. ¿Cuál sería la altura más probable del quinto estudiante? (significado predictivo). Es el valor de variable donde la muestra se divide en dos partes iguales. ¿Cómo calcularla en la Serie Simple de las edades? 24 19 26 19 22 21 19 24 20 23 22 21 22 23 20 20 18 24 20 18 22 18 20 21 20 20 21 20 21 27 18,18,18,19,19,19,20,20,20,20,20,20,20,20,21,21,21,21,21,22,22,22,22,23,23,24,24,24,26,27 La ventaja de la mediana es que los valores extremos no tienen influencia sobre ella. Me =21 X 21,166 si n es impar x n1/2 Me xn /2 x n/2 1 si n es par 2 Serie de frecuencias Es aquel valor de la variable cuya frecuencia absoluta acumulada es inmediatamente mayor a la mitad de las observaciones Me Edad fi Fa 18 3 3 19 3 6 20 8 14 21 5 19 22 4 23 23 2 25 24 3 28 26 1 29 27 1 30 n 30 15 2 2 Intervalo de clase Intervalos de Edad fi Fa [18 – 20) 6 6 30 6 Me 20 2 * 2 21,3846 13 frecuencia absoluta acumulada es inmediatamente mayor a la mitad de las observaciones [20 –22) 13 19 [22 – 24) 6 25 [24 – 26) 3 28 donde: [26 – 28) 2 30 Linf = Límite inferior del primer intervalo cuya Fa es mayor a n/2. n = 30 Me Linf n Faa 2 *a fi Faa = Frecuencia acumulada del intervalo anterior al primer intervalo cuya Fa es mayor a n/2. fi = Frecuencia absoluta del primer intervalo cuya Fa es mayor a n/2. a = Amplitud de los intervalos Cuando se divide un conjunto ordenado de datos en cuatro partes iguales, los puntos de división se conocen como cuartiles. 75% 25% 25% Mínimo 25% 75% 25% Cuartil 1 Q1 25% Mediana Cuartil 2 Q2 25% Cuartil 3 Q3 Máximo Sean x1,x2, …, xn una muestra ordenada en forma creciente, entonces el cuartil 1 y 3 se definen como la mediana de cada una de las partes en que la Me dividió los datos. 24 19 26 19 22 21 19 24 20 23 22 21 22 23 20 20 18 24 20 18 22 18 20 21 20 20 21 20 21 27 18,18,18,19,19,19,20,20,20,20,20,20,20,20,21,21,21,21,21,22,22,22,22,23,23,24,24,24,26,27 q1=20 Me=21 q3=22 Serie de Frecuencias q1 = 20 años q3 = 22 años Edad fi Fa 18 3 3 19 3 6 20 8 14 21 5 19 22 4 23 23 2 25 24 3 28 26 1 29 27 1 30 n 30 j . j. 4 4 n 30 7, 5 4 4 n 30 3. 3. 22, 5 4 4 Intervalos de clase Intervalos de Edad fi Fa [18 – 20) 6 6 [20 –22) 13 19 [22 – 24) 6 25 [24 – 26) 3 28 [26 – 28) 2 30 n = 30 Q j Linf n j. Faa 4 *a fi n 30 7, 5 4 4 30 6 q1 20 4 * 2 20,2307 13 30 3. 19 n 30 3. 3. 22, 5 q3 22 4 * 2 23,166 4 4 donde: 6 Linf = Límite inferior del primer intervalo cuya Fa es mayor a j.n/4 Faa = Frecuencia acumulada del intervalo anterior al primer intervalo cuya Fa es mayor a j.n/4. fi = Frecuencia absoluta del primer intervalo cuya Fa es mayor a j.n/4 a = Amplitud de los intervalos. Medidas de Centralización Mediana y Cuartiles representados en el polígono de frecuencias acumuladas q1 Me q3 Gráfico de caja y bigotes (Box-Plot) Este gráfico permite visualizar rápidamente la simetría y la variabilidad de los datos. El largo de la caja, es q3-q1 (rango intercuartílico), que comprende el 50% central de los datos. 29 min q1 Me q3 máx Estadísticos 18 20 21 22 27 27 25 23 21 19 17 15 1 Edad de los alumnos de Estadística Básica 1er cuat. 2008 http://www.youtube.com/watch?v=LV6lWTHvIk4 Es el valor de variable que se presenta con mayor frecuencia en la muestra. En una serie simple: Mo= 20 años 24 19 26 19 22 21 19 24 20 23 22 21 22 23 20 20 18 24 20 18 22 18 20 21 20 20 21 20 21 27 Edad fi 18 3 19 3 20 8 21 5 22 4 23 2 24 3 En una serie de frecuencias: Mo =20 años Intervalos de clase donde: Intervalos de Edad fi [18 – 20) 6 [20 –22) 13 [22 – 24) 6 [24 – 26) 3 [26 – 28) 2 Linf = Límite inferior del intervalo que tiene mayor frecuencia absoluta (intervalo modal). d1 = Diferencia entre las frecuencias absolutas del intervalo modal y el intervalo pre-modal. d2 = Diferencia entre las frecuencias absolutas del intervalo modal y el intervalo post-modal. a = Amplitud de los intervalos d1 Mo Linf *a d1 d 2 7 Mo 20 .2 21 77 D2 D1 Li Mo a ANÁLISIS DEL GRADO DE CURTOSIS Coeficiente de curtosis K>0 K=0 K<0 Con esta medida se cuantifica la mayor o menor cantidad de datos que se agrupan en torno a los valores centrales Análisis de la simetría Coeficiente de asimetría As <0 As =0 As >0 Rango Varianza Absolutas Medidas de Dispersión Desviación estandar Rango intercuartílico Relativas Coeficiente de variación El rango de la muestra se define como la diferencia entre la observación más grande y la más pequeña : r xmax xmin Para el conjunto de datos x1, x2,….,xn de una población de tamaño N Las diferencias de cada dato y la media, determinan los desvíos o desviaciones. Dado que la suma de estas desviaciones es cero, se utiliza como medida de variabilidad el promedio de los cuadrados de tales desvíos. N 2 ( xi x ) i 1 N (1) 2 ( xi x )2 fi i 1 s 2 N (2) m n m 2 2 ( x x ) i i 1 n 1 (3) s2 2 ( x x ) . fi i i 1 n 1 (4) Varianza Poblacional Varianza muestral siendo N el tamaño de la población. siendo n el tamaño de la muestra. Para datos sin agrupar (3) y agrupados (4) Para datos sin agrupar (1) y agrupados (2) Si los datos se agrupan por intervalos, usamos Xmi en lugar de Xi S 1 n 2 ( x X ) i n 1 i 1 Para datos sin agrupar El desvío Estandar muestral para las edades es de 2,2073 años. Verificarlo con la calculadora en el modo SD S 1 n 2 ( x X ) fi i n 1 i 1 Para datos agrupados por frecuencias S 1 k 2 ( x X ) fi mi n 1 i 1 Para datos agrupados por Intervalos S CV X • • • • Mide el grado de variabilidad en una muestra o población. Compara la variabilidad entre distintas variables y poblaciones. Está desprovisto de unidades. El valor expresado en términos porcentuales, se llama coeficiente de variación porcentual. CV % S 100% X Consideraremos poca variabilidad, si el CV% es a lo sumo del 30 % En nuestro estudio de las edades, el Cv% = 2,2073x100/21,166 = 10,428% Podemos afirmar que existe poca variabilidad en los datos. ¿Cuál de estas dos distribuciones de nuestro trabajo tiene mayor variabilidad? Peso Frecuencias Marca de [47-54) [54-61) [61-68) [68-75) [75-82) [82-89) [89-96) 4 10 6 5 3 1 1 50,5 57,5 64,5 71,5 78,5 85,5 92,5 clase Estatura [1,55-1,60) [1,60-1,65) [1,65-1,70) [1,70-1,75) [1,75-1,80) [1,80-1,85] Frecuencias 3 3 5 5 5 9 Marca de 1,575 1,625 1,675 1,725 1,775 1,825 clase RESULTADOS (respuesta a la pregunta) ¿Cómo son los alumnos de esta clase? De la clase anterior, obtuvimos: La mayoría de los alumnos de esta muestra tienen entre 20 y 22 años. En cuanto al interés por la estadística, el 53% muestra interés, pero hay aproximadamente un 30 % que no sabe si le interesa. Existe en esta muestra, un 40 % de alumnos con orientación en química. Le siguen alimentos y electromecánica. El 73 % de los alumnos de la muestra no son recursantes. El 60% de los alumnos de la muestra son varones. Conclusiones En la clase anterior, concluimos: Un alumno típico de esta clase es un varón entre 20 y 22 años, con orientación en química, no recursante con interés hacia la estadística y con aproximadamente 6 materias aprobadas. Con lo aprendido en esta clase, podemos concluir: Como la distribución de edades es asimétrica positiva y existe poca variabilidad, la mediana representa las edades de los estudiantes. Esto significa que el 50% de ellos tiene menos de 21 años y el otro 50%, más de 21 años. Existe una mayor variabilidad en el peso que en la estatura de los estudiantes. Observaciones finales Comenzar por el estudio de la variabilidad de los datos, puede ahorrar pasos en el análisis. Si el CV es mayor que 30 %, ninguna medida resume los datos. Si existe poca variación en los datos, debemos analizar la forma. En ese caso, si los datos son simétricos, la media representa los mismos. Si son asimétricos, la medida que los representa es la mediana.