Apuntes preparados por el profesor Sr. Rosamel Sáez Espinoza con fines de docencia La media Sea un conjunto de n observaciones x1, ... , xn, no agrupados. Se define la media o promedio, X mediante: n ∑ xi X = i=1 n La media utiliza todas las observaciones, y cada observación afecta la media. Aunque la media es sensible a los valores extremos; es decir, los datos extremadamente grandes o pequeños pueden causar que la media se ubique más cerca de uno de los datos extremos; A pesar de esto, la media sigue siendo la medida lo más usada para medir la localización. Esto se debe a que la media posee valiosas propiedades matemáticas que la hacen conveniente para el uso en el análisis estadístico de inferencia o deductivo. Si los datos se encuentran agrupados en k clases, entonces la media es: k ∑ ni mi X = i=1 n donde ni es la frecuencia absoluta mi es la marca de clases. Si los datos son discretos y se encuentran agrupados en k clases, entonces k ∑ nixi X = i=1 n Nota: Cualquiera de estas tres expresiones, puede ser calculada directamente por una calculadora científica que tenga modo estadístico (mode SD). La mediana: Sea x(1), x(2),...,x(n), un conjunto de n observaciones ordenados en orden creciente, la mediana, Me, se define como aquel valor que divide al conjunto de datos ordenados en dos partes iguales. Así, si n es impar, la mediana corresponde a la observación ubicada en la posición j, siendo j = n + 1 . 2 Si n es par, la mediana corresponde al promedio de las observaciones ubicadas en la posición j y j+1, siendo j = n . Por esto: 2 n +1 X con j = si n es impar (j) 2 Me = X +X n ( j + 1) ( j) con j = si n es par 2 2 13 Apuntes preparados por el profesor Sr. Rosamel Sáez Espinoza con fines de docencia Cuando los datos se encuentran agrupados en k clases una tabla de distribución de frecuencias, la mediana es calculada mediante la expresión: Me = lim. inf j + n 2 −N n j − 1 A j donde: j, es la clase de la mediana y se obtiene observando desde la primera clase hacia delante, en que clase la frecuencia absoluta acumulada alcanza o supera el valor n , es decir, N j ≥ n .ç 2 2 lim.infj, es el limite inferior de la clase de la mediana. nj, es la frecuencia absoluta de la clase de la mediana. Nj-1, es la frecuencia absoluta acumulada de la clase anterior. A es la amplitud. La moda: Sea un conjunto de datos de n observaciones x1, ... , xn, no agrupados. Se define la moda, Mo como aquel valor que más se repite. Observación, cuando nos refiramos a la moda, lo haremos en ese contexto, en caso contrario diremos que no existe moda. Si los datos se encuentran agrupados en k clases, la moda corresponde a la marca de clases del intervalo que más se repite. Media (punto de equilibrio) 50% del área 50% del área Mediana frecuencia relativa frecuencia relativa frecuencia relativa Si un conjunto de datos tiene una moda, diremos que su distribución es unimodal, dos modas, bimodal y más de dos modas, multimodal. Moda (punto máximo) Cuando la media y la mediana son conocidas, es posible estimar la moda para la distribución unimodal usando los otros dos promedios como se muestra a continuación: Moda ≈ 3(medianas) - 2(medias) Esta estimación es aplicable a ambos, conjuntos agrupado y no agrupado de datos. 14 Apuntes preparados por el profesor Sr. Rosamel Sáez Espinoza con fines de docencia Siempre que exista más de una moda, la población de la cual la muestra es obtenida es una mezcla de más de una población. Sin embargo, note que una distribución Uniforme tiene un incontable número de modas que tienen igual valor de densidad; por lo tanto se considera como población homogénea. Una pregunta frecuente es ¿qué medida usar como indicador del centro de los datos?. La respuesta esta pregunta podemos verla en el siguiente diagrama de flujo: si ¿Son datos categóricos? Use la Moda no ¿El total de las observaciones tiene algún interés? si Use la Media no ¿Es la distribución simétrica? si Use la Media no Use la Mediana Principales características entre los tres estadísticos: Moda Mediana Es el valor mas frecuente en la Es el valor del punto medio de distribución. Es el punto de mas la selección (no del rango), tal alto densidad. que la mitad de los datos están por arriba y por debajo de ella. Su valor es establecido por la El valor de la mediana es fijado frecuencia predominante, no por su posición en la selección, por los valores en la y no refleja valores individuales. distribución. Media Es el valor en algún agregado, el cual se obtendría si todos los valores fueran iguales. La suma de las desviaciones en cualquier lado de la media son iguales; por lo tanto la suma algebraica de sus desviaciones es cero. Una distribución puede tener Cada selección tiene solo una Una muestra tiene solo una mas de 2 modas, pero no existe mediana. media. moda en una distribución rectangular. No puede ser manipulada No puede ser manipulada Pueden ser manipuladas algebraicamente. Modas de algebraicamente. Medianas de algebraicamente. Medias de subgrupos no pueden ser subgrupos no pueden ser subgrupos pueden ser ponderadas o combinadas. ponderadas o combinadas. combinadas cuando son ponderadas apropiadamente. 15 Apuntes preparados por el profesor Sr. Rosamel Sáez Espinoza con fines de docencia Las medidas de tendencia central también nos proporcionan una idea de la forma de la distribución: Mo Me X X X Me Mo Me Mo Promedios Especializados: La media ponderada, La media geométrica y la media armónica. La media ponderada: En el cálculo de la media anterior se supone que cada observación tiene igual peso dentro del conjunto total, sin embargo en algunos casos se requiere dar distinta ponderación a las observaciones. En este caso la media ponderada X w es calculada mediante al expresión: c Xw = ∑w x i =1 c i ∑w i =1 i i Ejemplo: Un vendedor tiene la representación de 5 artículos. En el último mes sus ventas registran lo siguiente: Artículo A B C D E Utilidad artículo (US$) 2.0 3.5 5.0 7.5 6.0 por Volumen ventas artículos 3 7 15 12 15 de en Determine la utilidad promedio. Solución: 24 =4.8, es decir, sin tomar en cuenta el 5 volumen vendido encontramos que la utilidad promedio es de 4.8 dólares. Como primera solución tendríamos: X= 16 Apuntes preparados por el profesor Sr. Rosamel Sáez Espinoza con fines de docencia 285.5 = 5.49 dólares, es decir, tomando 52 en cuenta el volumen vendido encontramos una utilidad promedio de 5.49 dólares. ¿Cuál de los dos promedios refleja mejor la utilidad promedio? Como segunda solución tenemos: X w = La Media Geométrica: La media geométrica (G) puede utilizarse para mostrar los cambios porcentuales de n valores no negativos. G = n x1 x 2 ...x n Si algunos valores son muy grandes en magnitud y otros muy pequeños, la media geométrica proporciona una mejor representación de los datos que un simple promedio. En una “serie geométrica”, el promedio mas significativo es la media geométrica (G). La media aritmética es muy favorecida por valores grandes de la serie. Ejemplo: Suponga que las ventas de un determinado producto incrementan en 110% en el primer año y en 150% en el segundo. Por simplicidad, supongamos que inicialmente se vendió 100 unidades. Entonces el número de unidades vendidas en el primer año fueron 110 y en el segundo fueron 150% x110= 165. Usando la media aritmética de 110% y 150% que es 130%, estimaríamos incorrectamente las unidades vendidas en el primer año de 130 y las del segundo año de 169. Mediante la media geométrica de 110% y 150% obtendríamos G = (1,65)1/2 = 1.28452 la cual es la estimación correcta, por lo cual el primer año venderíamos 100 G = 128 unidades y en el segundo año venderíamos (100G)G=100G2 =165 unidades. La Media Armónica: La media armónica es otro promedio especializado, el cual es útil para calcular promedios de variables expresadas en proporciones de unidades por tiempo, tales como kilómetros por hora, número de unidades de producción por día. La media armónica (H) de n valores no nulos xi es: 1 H= n 1 ∑ i =1 x i Ejemplo: Suponga que cuatro máquinas en un taller son usadas para producir la misma pieza, cada una de las máquinas demora 2.5, 2.0, 1.5 y 6.0 minutos para realizar dicha pieza. ¿ Cuál es la velocidad promedio de producción? 4 =2.31 minutos La media armónica es H = 1 1 1 1 + + + 2. 5 2. 0 1 . 5 6 . 0 Si todas las maquinas trabajaran una hora, ¿cuántas unidades serán producidas? Una hora de trabajo de las cuatro maquinas, representan 4*60=240 minutos de 240 = 104 piezas serán producidas. operación, luego se obtiene que: 2.31 17 Apuntes preparados por el profesor Sr. Rosamel Sáez Espinoza con fines de docencia El Orden entre las Medias: Si la media, la media geométrica y la media armónica existen, la media nunca es menor que las otras dos, además, la media armónica nunca es mayor que las otras. Medidas de variación o de dispersión. Las medidas de tendencia central por si sola no dan una buena idea acerca del comportamiento de los datos, por ejemplo, suponga que tenemos dos grupos de tres alumnos cada uno y que en un certamen dado obtuvieron las notas siguientes: Grupo 1: 5,0 4,0 y 6,0 Grupo 2: 7,0 3,0 y 5,0 Observe que en ambos grupos la media y la mediana son iguales e igual a 5,0 luego a partir de estas medidas ¿podemos decir que ambos grupos son iguales? Es obvio que no puesto que las desviaciones de sus notas respecto del promedio son: Grupo 1: 0 -1 y 1 Grupo 2: 2 -2 y 0 Es decir los alumnos del grupo 1 son más parecido entre si comparativamente con el grupo dos que tienen una mayor dispersión respecto del promedio, luego necesitamos una medida que permita cuantificar dicha desviación. Las mediciones estadísticas de variación son valores numéricos que indican la variabilidad inherente en un grupo de mediciones de datos. Observe que un valor pequeño para la medida de dispersión indica que los datos están concentrados alrededor de la media; por lo tanto, la media es una buena representación de los datos. Por otra parte, una medida grande de dispersión indica que la media no es una buena representación de los datos. Adicionalmente, las medidas de dispersión pueden ser utilizadas cuando deseamos comparar las distribuciones de dos o más conjuntos de datos. La calidad de un conjunto de datos es medida por su variabilidad: variabilidad grande indica baja calidad. Esta es la razón del porque gerentes se preocupan cuando encuentran grandes variaciones. El trabajo de un estadístico, es medir la variación, y si es demasiado alto e inaceptable, entonces es trabajo del personal técnico, tal como ingenieros, en ajustar el proceso. Las medidas de mayor uso para medir la variación son el rango y la desviación estándar. El rango: Como vimos anteriormente el rango es la diferencia entre el valor máximo y el valor mínimo. Aunque es un cálculo muy simple de realizar, el gran problema del rango es que basa su información en sólo dos valores. 18 Apuntes preparados por el profesor Sr. Rosamel Sáez Espinoza con fines de docencia La varianza: Sea un conjunto de n observaciones x1, ... , xn, no agrupados. Se define la varianza, S2, mediante la expresión: n S2 = ∑(x i =1 − X )2 i n −1 Observe que la varianza es calculada como una suma de las desviaciones al cuadrado de cada observación respecto de la media, luego, la varianza queda expresada en unidades al cuadrado lo que dificulta su interpretación. Una medida de la variabilidad del conjunto de datos es la desviación estándar o desviación típica, S, donde S=+ S 2 . Si el conjunto de datos se encuentra agrupado en k clases entonces la varianza es calculada mediante: k S2 = ∑ n (m i =1 i i − X )2 n −1 Nota: Muchas calculadoras científicas calculan directamente la desviación estándar tanto para datos agrupados como sin agrupar, generalmente bajo el símbolo σ n −1 o xσ n −1 o simplemente como S. La desviación estándar no tiene una interpretación única como otras medidas sino que se interpreta en combinación con la media. Una regla practica se conoce como Regla empírica y dice lo siguiente: Si un conjunto de datos tiene una distribución aproximadamente simétrica entonces: 1.- Aproximadamente el 68% de las observaciones quedan dentro del intervalo (x − S ; x + S ) . 2.- Aproximadamente el 95% de las observaciones quedan dentro del intervalo (x − 2S ; x + 2S ) . 3.- Aproximadamente el 99,7% de las observaciones quedan dentro del intervalo (x − 3S ; x + 3S ) . X-3S X-2S X-S X X+S X+2S X+3S 68% 95% 99,7% 19 Apuntes preparados por el profesor Sr. Rosamel Sáez Espinoza con fines de docencia Cuando el conjunto de datos no presenta una distribución simétrica, la relación entre la media y la desviación estándar puede expresarse en términos de la desigualdad de Chebyshev que establece que dentro del intervalo (x − kS ; x + kS ) , se encuentra al menos el 100(1 − 12 )% de las observaciones, con k k>1. Observe que la desigualdad de Chebyshev proporciona una cota inferior para la proporción de observaciones que caen dentro del intervalo (x − kS ; x + kS ) . Otra medida de variabilidad usada junto a los estadísticos tradicionales es la MEDA, que es utilizada principalmente cuando hay presencia de valores atípicos. La MEDA corresponde a la mediana de las desviaciones absolutas respecto a la mediana. En algunas ocasiones se necesita la comparación de distintos conjuntos de datos en términos de su variabilidad, lo cual generalmente no es posible porque pueden tener distintos tamaños, distintos promedios o porque tienen distintas unidades, luego para su comparación necesitamos de una medida de variabilidad relativa adimensional. El coeficiente de variación en este sentido es una medida adecuada. Coeficiente de variación, CV, expresado porcentualmente es calculado como: S CV = x100 X El coeficiente de variación es usado entre otros como una medida de la representatividad de la media. Si CV< 50% se dice que la media es representativa como medida de tendencia central para ese conjunto de datos, en cambio si CV>100% entonces decimos que la media no representa para nada al conjunto de datos. Medidas de posición relativa. En el cálculo de la mediana dividimos un conjunto de datos ordenados en orden creciente en dos partes iguales, cada una representando el 50% de las observaciones. Hay ocasiones que necesitamos medidas que subdividan al conjunto de datos ordenados en más partes. Por ejemplo, si subdividimos al conjunto en cuatro partes iguales, cada división contiene el 25% de las observaciones y las tres medidas que se generan de esta partición se llaman cuartiles y se denotan por Q1, Q2 y Q3. 25% Q3 Q2 50% Q3 75% 20 Apuntes preparados por el profesor Sr. Rosamel Sáez Espinoza con fines de docencia Q1:es llamado primer cuartil o cuartil inferior. Q2 : segundo cuartil o mediana. Q3 : tercer cuartil o cuartil superior. Si dividimos nuestro conjunto de datos ordenados en diez partes iguales obtenemos los deciles, denotados por D1, D2, ..., D9. 10% D1 20% D2 D9 90% En general, cuando dividimos un conjunto de datos en 100 partes iguales cada medida se llama percentil y se denota por pk. Definición: El k-ésimo percentil de un conjunto de datos ordenados, es un valor situado de modo que el k% de las observaciones son inferiores o iguales a pk y el (100-k)% son mayores o iguales a pk. Observe que tanto los cuartiles como los deciles u otras medidas obtenida por subdivisión es equivalente a un percentil, asi, Q1 ⇔ p25, D7 ⇔ p70, etc. Para calcular el k-ésimo percentil pk se siguen los siguientes pasos: Sea x(1), x(2),...,x(n), un conjunto de n observaciones ordenados en orden creciente. nk i) Calcule el número , 100 nk ii) Pregunte si es o no entero. 100 nk - Si es entero entonces obtenga la posición j del percentil donde j = y 100 x ( j ) + x ( j +1) pk = 2 - nk no es entero obtenga la posición j del percentil como el entero 100 nk siguiente a y 100 pk = x ( j ) Si 21