ESTADÍSTICA EN RRLL - CURSO 2010 TURNO NOCTURNO • MODULO 3: Medidas de tendencia central Haga clic para modificar el estilo de subtítulo del patrón Docentes: Mariana Cabrera - Laura Noboa - Verónica Curbelo • 11 • ANALISIS DESCRIPTIVO UNIVARIADO 1. Tablas, gráficos (Módulo 2) 2. Estadísticos: 1. Medidas de tendencia central (Módulo 3) 2. Medidas de posición y dispersión (Módulo 4) • MEDIDAS DE TENDENCIA CENTRAL Estadísticos que indican dónde se encuentra el centro de la distribución o • punto central sobre el que gravitan el conjunto de valores de la distribución. Están sujetos al nivel de medición de la variable • Para las variables cuantitativas la elección del estadístico depende del tipo de • distribución de la variable Nivel de medición de la variable Moda Medidas de tendencia central Mediana Media aritmética o promedio Nominal Ordinal Cuantitativa (distr asimétrica) Cuantitativa (distr. simétrica) X X X X X X X X • MEDIA ARITMÉTICA O PROMEDIO Definición: Es la suma de todos los valores de la variable, dividida por el total de observaciones. Notación: X Ejemplo: ¿Cómo calcularla?: 1) A partir de una matriz de datos • Dados los valores de una variable en una tabla: x1; x2; x3; ………xi x= ∑ xi Trab1 Trab2 Trab3 Trab4 Trab5 Trab6 Trab7 Trab8 Trab9 Nº de hijos 0 2 2 2 3 4 4 5 6 N 3.1 • MEDIA ARITMÉTICA O PROMEDIO: ¿Cómo calcularla? 2) A partir de tablas de frecuencias simples Cálculo: En este caso la media es la suma ponderada de los valores de la variable por las frecuencias absolutas, sobre el total de observaciones (N) Con frecuencias absolutas 1 x = ( x1 f i + .......xk f k ) = n ∑ xi f i n Matriz de datos Con frecuencias relativas x = x1 fr + ......xk f k = ∑ xi f r Trab1 Trab2 Trab3 Trab4 Trab5 Trab6 Trab7 Trab8 Trab9 Nº de hijos 0 2 2 2 3 4 4 5 6 Tabla de frecuencias simples Nº HIJOS fi fr 0 1 0,1 2 3 0,3 3 1 0,1 4 2 0,2 5 1 0,1 6 1 0,1 Total 9 1 MEDIA ARITMÉTICA O PROMEDIO: ¿Cómo calcularla? 3) A partir de tablas de frecuencias con datos agrupados en intervalos de clase Cálculo: Dada la pérdida del dato original, en estos casos la media es la suma de las «marcas de clase» (xc) –no de los valores originales- ponderada por sus frecuencias relativas, o bien del producto de esa ponderación por sus frecuencias absolutas dividido el total de casos. x == x == ∑ ∑ Ejempl o: xc * f i n xc * f r • 66 Nº HIJOS fi fr Marca de clase (Li+Ls)/2 0-2 4 0,4 1 3-4 3 0,3 3,5 5-6 2 0,2 5,5 Total 9 1 2.8 • Cálculo de media con datos agrupados en intervalos de clase La media aritmética obtenida a partir de las marcas de clase (xc), en general diferirá de la media obtenida con los valores reales, xi. • Es decir, habrá una pérdida de precisión que será tanto mayor cuanto mayor sea la diferencia entre los valores reales y las marcas de clase, o sea, cuanto mayores sean las amplitudes de los intervalos de clase (ai). • la media calculada sobre datos agrupados en intervalos dependerá siempre de la división en intervalos de clase. • • 77 • • • • • • Propiedades de la MEDIA Es un número comprendido entre el mínimo y el máximo de los valores observados. No tiene por qué coincidir con algún valor observado en la población. Si la distribución de la variable no es muy dispersa (porque se concentra en unos pocos valores) entonces el promedio es un buen indicador de la “posición” de la distribución. La media calculada sobre datos agrupados en intervalos dependerá siempre de la división en intervalos de clase. Como medida de tendencia central, tiene el defecto de estar muy influida por los valores extremos de la distribución. Ya que todas las observaciones intervienen en el cálculo de la media, la aparición de una observación con un valor extremo hará que la media se desplace en esa dirección. En consecuencia, no es recomendable usar la media como medida central en las distribuciones muy asimétricas. • 88 • SIMETRÍA Supongamos que hemos representado gráficamente una distribución de frecuencias. • Si trazamos una perpendicular al eje de abscisas por la media y tomamos esta perpendicular como eje de SIMETRÍA, una distribución es simétrica respecto a la media si existe el mismo número de valores a ambos lados de dicho eje, equidistantes de uno a uno, y tales que cada par de valores equidistantes tengan la misma frecuencia. En caso contrario, las distribuciones serán Simétrica Asimétrica a la derecha asimétricas. • x x Asimétrica a la izquierda x • Ejemplo Sea X una variable que ha presentado los siguientes valores Si cambiamos la última observación por otra anormalmente grande, esto afecta a la media: • En este caso la media no es un posible valor de la variable, y se ha visto muy afectada por la observación extrema. • • 1010 • MEDIANA Definición: Dada una variable X cuyas observaciones en una tabla estadística han sido ordenadas de menor a mayor, la mediana es el primer valor de la variable que deja por debajo de sí al 50% de las observaciones y por encima de sí al restante 50%. • Notación: Xdn ¿Cómo se puede calcular?: Ejercicio: 1) Con matriz de datos original Dado N impar: Xdn = [N+1]/2 • Dado N par: Xdn = [N/2] y [N/2] * • * En las variables de razón se puede hacer promedio [((N+1)/2)+ (N/2)]/2 Trab1 Trab2 Trab3 Trab4 Trab5 Trab6 Trab7 Trab8 Trab9 Nº de hijos 0 2 2 2 3 4 4 5 6 Trab1 Trab2 Trab3 Trab4 Trab5 Trab6 Nivel educativo Bajo Bajo Medio Medio Medio Alto • ¿Cómo se puede calcular?: 2) Con tabla de frecuencias Debe leerse (o calcularse) la columna de frecuencia relativa acumulada. • Aquí la mediana es el valor o categoría que acumula antes el 50% de las observaciones • MEDIANA Ejercicio: Nº accidentes laborales 2008 (Xi) 3 4 5 6 7 8 Total fi 3 6 5 4 1 1 20 fr 0,15 0,3 0,25 0,2 0,05 0,05 1 Fi 3 9 14 18 19 20 Fr 0,15 0,45 0,7 0,9 0,95 1 Como veremos, es un estadístico que no se ve afectado por los datos extremos, ya que no depende de los valores de la variable sino del orden de las mismas. De ahí que es utilizado en distribuciones asimétricas • • MEDIANA ¿Cómo se puede calcular?: 2) Con tabla de frecuencias agrupadas en intervalos de clase (no lo trataremos en clase por ser bastante poco común recurrir a esto) En el caso de variables continuas, las clases vienen dadas por intervalos, y aquí la fórmula de la mediana se complica un poco más debido a que supone una interpolación de datos. • fórmula para interpolar: •Sin embargo, sugerimos que para facilitar la comprensión del tema se maneje con el concepto de ‘intervalo mediano’. Así, al igual que en las tablas de frecuencias, basta con identificar cuál es el intervalo que primero deja por debajo de sí el 50 % de las observaciones más pequeñas. • N − Fiant * Ai Mdn = = Li + 2 fi Donde: Li = límite inferior del intervalo mediano N= total de observaciones de la población Fiant= frecuencias acumuladas en la clase anterior del intervalo mediano fi= frecuencia absoluta simple del intervalo mediano Ai = amplitud del intervalo mediano • • • PROPIEDADES DE LA MEDIANA Cálculo rápido e interpretación sencilla Es función de los intervalos escogidos. Como medida descriptiva, tiene la ventaja de no estar afectada por las observaciones extremas, ya que no depende de los valores que toma la variable, sino del orden de las mismas. Por ello es adecuado su uso en distribuciones asimétricas. • Puede ser calculada aunque el intervalo inferior o el superior no tenga límites. • A diferencia de la media, la mediana de una variable discreta es siempre un valor de la variable que estudiamos (ej. La mediana de una variable número de hijos toma siempre valores enteros). • • 1414 • Ejemplo (Módulo 3) Sea X una variable que ha presentado los siguientes valores Si cambiamos la última observación por otra anormalmente grande, esto no afecta a la mediana, pero si a la media: • En este caso la media no es un posible valor de la variable, y se ha visto muy afectada por la observación extrema. Este no ha sido el caso para la mediana. • • 1515 • MODA O MODO Definición: Es el valor máximo de la distribución de frecuencias; es decir, el valor de la variable que posee una frecuencia mayor a los restantes. En el caso de variables continuas es más correcto hablar de intervalos modales. • Notación: Xmo Ejercicio: ¿Cómo se reconoce la(s) moda(s) en una tabla estadística?: Observando el valor o valores con mayor frecuencia relativa ¿Cómo se conoce la moda en el diagrama de barras?: Observando el valor de la variable que representa la barra más alta. Calcular XMo Trab1 Trab2 Trab3 Trab4 Trab5 Trab6 Trab7 Trab8 Trab9 Nº de hijos 2 2 4 6 5 0 2 3 4 Estado civil Casado Casado Divorciado Casado Divorciado Soltero Soltero Soltero Viudo • MODA O MODO Propiedades • Es muy fácil de calcular ( o identificar) • Puede no ser única (distribución unimodal, bimodal, etc). • Es condicional a los intervalos elegidos a través de su amplitud, número y límites de los mismos. • Aunque el primero o el último de los intervalos no posean extremos inferior o superior respectivamente, la moda puede ser calculada. • MEDIDAS DE TENDENCIA CENTRAL Estadísticos que indican dónde se encuentra el centro de la distribución o • punto central sobre el que gravitan el conjunto de valores de la distribución. Están sujetos al nivel de medición de la variable • Para las variables cuantitativas la elección del estadístico depende del tipo de • distribución de la variable Nivel de medición de la variable Moda Medidas de tendencia central Mediana Media aritmética o promedio Nominal Ordinal Cuantitativa (distr asimétrica) Cuantitativa (distr. simétrica) X X X X X X X X • MEDIDAS DE TENDENCIA CENTRAL Moda: • Nivel de medición: cuantitativa, ordinal, nominal Mediana: • Nivel de medición: cuantitativa, ordinal Si la variable es cuantitativa, se calcula pre-suponiendo una distribución asimétrica (se debe analizar previamente la distribución con un gráfico) • Dada una variable cuantitativa, si su distribución es simétrica su mediana = media • Media o promedio: • Nivel de medición: cuantitativa Se calcula pre-suponiendo una distribución simétrica (se debe analizar previamente la distribución con un gráfico) • • EJERCICIO La siguiente distribución presenta a la población desocupada del interior urbano en 2001, por grupos de edad. a. Completar la tabla con la frecuencia relativa y relativa acumulada de la distribución. a. ¿Cuál era el grupo de edad modal de esta población? a. ¿Qué promedio de edad tenía la población desocupada del interior urbano en 2001? a. ¿Por debajo de qué edad se encontraba el 50% más jóven de los desocupados? b. Comente en forma conjunta los resultados obtenidos. • Edad 14-17 18-24 25-34 35-44 45-54 55-64 65 y más (*) Ni 8.719 28.085 16.956 12.209 8.953 5.057 1.672 81.651 (*) Para cerrar este intervalo utilice como límite superior 74 años. •2020 ESTUDIO DEL PERFIL DE PERSONAL DE LA EMPRESA ARLEQUIN Construya la variable “nivel educativo” considerando las siguientes categorías: 1. 1. 1. Secundaria incompleta 2. Secundaria completa 3. Terciaria incompleta (menos de 4 años) 4. Terciaria completa ¿Cuál es el nivel de medición de cada variable y qué estadísticos de tendencia central pueden calcularse en cada una? • 2121 • EMPLEADO Nº 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 ESTUDIO DEL PERFIL DE PERSONAL DE LA EMPRESA ARLEQUIN (matriz de datos) ESCOLA EDAD (en RIDAD ANTIGÜEDAD años) (en años) (en años) SEXO F F F F F F F F F M M M M M M M M M 39 25 25 37 26 39 26 26 39 19 19 30 21 20 31 34 62 46 • 2222 12 16 10 16 14 14 16 16 18 12 16 11 12 15 12 14 15 14 9 1 2 4 3 2 5 2 9 0 1 1 3 2 6 6 9 9 SALARIO (en miles de pesos) 3,5 3,5 4 4,5 6,5 6,5 7 8,5 10 3,5 3,5 5,2 6,5 7 11 13 15 16 ESTUDIO DEL PERFIL DE PERSONAL DE LA EMPRESA ARLEQUIN Defina la unidad de análisis y la población de estudio 1. Construya la variable “nivel educativo” considerando las siguientes categorías: 2. 1. 1. Secundaria incompleta 2. Secundaria completa 3. Terciaria incompleta (menos de 4 años) 4. Terciaria completa ¿Cuál es el nivel de medición de cada variable y qué estadísticos de tendencia central pueden calcularse en cada una? • 2323 1. 2. 3. Construya una tabla de frecuencias de la variable nivel educativo. ¿Cuál es el nivel educativo más frecuente? ¿Hasta qué nivel educativo alcanzó la mitad de la población trabajadora menos educada de la empresa? ¿Cuál es el salario promedio de los empleados de la empresa Arlequín? ¿Cuál es el salario promedio para los hombres y cuál para las mujeres? Comente los resultados. • 2424