Medidas estadísticas: resumen de Fórmulas y aplicaciones por tipo: 1.- Medidas de posición: 1.1.-Cuartiles, deciles y percentiles, para datos simples: Cuartiles: • Los cuartiles son los tres valores de la variable que dividen a un conjunto de datos ordenados en cuatro partes iguales. • Q1, Q2 y Q3 determinan los valores correspondientes al 25%, al 50% y al 75% de los datos. Q2 coincide con la mediana. a) Cálculo de cuartiles si el número de datos es impar: Qi = k (n+1) k=1,2,3 Qi = Indica la posición que es también el valor. 4 b) Cálculo de cuartiles si el número de datos es par: Qi = k (n+1) k=1,2,3 Qi = Indica sólo la posición. 4 Luego, con la posición se determina el valor: Qk = D1 + k·(D2 – D1 ) 4 Donde: D1: dato de la posición inmediatamente inferior. D2: dato inmediatamente superior. Deciles: Los deciles dividen la serie de datos en diez partes iguales. Percentiles: Los percentiles dividen la serie de datos en cien partes iguales. Para los deciles y percentiles, se utilizan los mismos criterios anteriores pero cambiando el denominador por 10 con k = 1 . . 9 y 100, con k = 1 . . 99 respectivamente. Ejercicios: para los siguientes conjuntos de datos: a) 4, 23, 12, 3, 8, 11, 20, 9, 2, 15, 8 b) 12, 34, 23, 11, 7, 32, 44, 15, 6, 2, 23, 13 c) 3, 5, 7, 3, 4, 8, 7, 2, 1, 12 , 6, 14, 11, 20, 9, 2, 13, 22, 12, 16 Determinar los cuartiles y deciles. 1.2.- Cuartiles, deciles y percentiles para datos agrupados: a) Ubicar la clase donde se encuentra: 𝑘 . 𝑁 4 , k = 1,2,3 en la tabla de frecuencias acumuladas. b) Determinar los cuartiles utilizando la fórmula: 𝐿𝑖 + donde, Li: 𝑘. 𝑁 4 – 𝐹𝑖−1 𝑓𝑖 . 𝑎𝑖 𝑘 = 1,2,3. es el límite inferior del rango donde se encuentra la clase. Fi-1: es la frecuencia absoluta acumulada inmediatamente inferior al rango donde se encuentra la clase. Fi: es la frecuencia relativa en la clase. ai: es la amplitud del rango donde se encuentra la clase. Nota: Para el cálculo de deciles y percentiles se reemplaza el 4 del denominador por 10 con k= 1 . . 9 y 100 respectivamente k = 1 . . 99. Ejercicios: Calcular los cuartiles y deciles para el conjunto de datos agrupados: Rango [ 0 , 10 ) [ 10 , 20 ) [ 20 , 30 ) [ 30 , 40 ) [ 40 , 50 ) [ 50 , 60 ) [ 70 , 80 ) [ 80 , 90 ) [ 90 , 100) fi Fi 2 6 12 25 27 22 17 6 3 N = 2.- Medidas de tendencia central. Media, mediana y moda, para datos simples y datos agrupados (con rangos). 2.1.- Media. 2.1.1.- Media para datos simples: ( X ) Es la suma de los datos dividido por el número de datos. X= ∑𝑛 1 𝑋𝑛 𝑁 = 𝑋1 + 𝑋2 + …+ 𝑋𝑛 𝑁 , donde N representa el número de datos. 2.1.2.- Media para datos agrupados: Se considera la frecuencia fi relativa de cada evento. Valor alcanzado: ( Xi ) Obsevaciones : ( fi ) 𝑋 = 5 36 10 40 15 23 20 18 𝑋1 𝑓1 + 𝑋2 𝑓2 + …+ 𝑋𝑛 𝑓𝑛 𝑁 2.1.3.- Media para datos en sistemas discretos: Se considera la frecuencia fi relativa de cada evento, pero Xi, pasa a tomar el valor de la marca de clase y se aplica la ecuación anterior. Rango [ 0 , 20 ) [ 20 , 40 ) [ 40 , 60 ) 𝑋 = Xi (Ci) 10 30 50 𝑋1 𝑓1 + 𝑋2 𝑓2 + …+ 𝑋𝑛 𝑓𝑛 𝑁 fi 8 12 14 2.2.- Mediana: La mediana es la puntación de la escala que separa la mitad superior de la distribución y la inferior, es decir divide la serie de datos en dos partes iguales. Lo primero que se hace es se ordenar los datos de manera ascendente. 2.1.- Mediana para un conjunto de datos simples: 2.1.1.- Caso impar: se considera el valor central del conjunto de datos. 2.2.2.- Caso Par: se consideran los dos datos centrales y se promedian. 2.2.- Mediana para datos agrupados: • La mediana se encuentra en el intervalo donde la frecuencia acumulada llega hasta la mitad de la suma de las frecuencias absolutas. • Es decir tenemos que buscar el intervalo en el que se encuentra. 𝑁 2 Se aplica la fórmula: 𝑁 – 𝐹𝑖−1 2 𝑀𝑒 = 𝐿𝑖 + . 𝑎𝑖 𝑓𝑖 Donde: Li es el límite inferior de la clase donde se encuentra la mediana. 𝑵 𝟐 es la semisuma de las frecuencias absolutas. Fi-1 es la frecuencia acumulada anterior a la clase mediana. ai es la amplitud de la clase. La mediana es independiente de las amplitudes de los intervalos. Ejercicios: Calcular las media y mediana de los siguientes conjuntos de datos: a) 14, 3, 12, 13, 8, 11, 4, 9, 2, 5, 7 b) 22, 14, 23, 11, 7, 17, 24, 15, 16, 2, 13, 9 c) 8, 5, 7, 3, 4, 4, 7, 2, 1, 12 , 16, 14, 19, 20, 11, 2, 13, 22, 12, 16 d) Rango [ 0 , 20 ) [ 20 , 40 ) [ 40 , 60 ) [ 60 , 80 ) [ 80 , 100) fi 4 7 6 18 15 2.3.- Moda: La moda, representada por Mo, es el valor que más se repite en una distribución (mayor frecuencia absoluta). Se puede hallar la moda para variables cualitativas y cuantitativas. a) Si en un grupo hay dos o varias puntuaciones con la misma frecuencia y esa frecuencia es la máxima, la distribución es bimodal o multimodal, es decir, tiene varias modas. 1, 1, 1, 4, 4, 5, 5, 5, 7, 8, 9, 9, 9 Mo= 1, 5, 9 b) Cuando todas las puntuaciones de un grupo tienen la misma frecuencia, no hay moda. Ejemplo: 2, 2, 3, 3, 6, 6, 9, 9 c) Si dos puntuaciones adyacentes tienen la frecuencia máxima, la moda es el promedio de las dos puntuaciones adyacentes. Ejemplo: 0, 1, 3, 3, 5, 5, 7, 8 Mo = 4 Cálculo de la moda para datos agrupados de forma discreta: 1º Todos los intervalos tienen la misma amplitud. Se aplica la fórmula: Li es el límite inferior de la clase modal. fi es la frecuencia absoluta de la clase modal. fi—1 es la frecuencia absoluta inmediatamente inferior a la clase modal. fi-+1 es la frecuencia absoluta inmediatamente posterior a la clase modal. ai es la amplitud de la clase. Fórmula alternativa (menos exacta): En el ejemplo: ai = (63 - 60) fi—1 Li fi fi+1 2º Los intervalos tienen distinta amplitud. • En primer lugar tenemos que hallar las alturas. • La clase modal es la que tiene mayor altura. • La fórmula de la moda aproximada cuando existen distintas amplitudes es: En el ejemplo: a1 = (5 - 0) = 5 f1/a1 = 15/5 = 3 a2 = 2 Clase modal hi fi Ejercicios: Determinar la moda en el siguiente conjunto de datos. a) 5, 3, 1, 2, 6 ,8 b) 5, 3, 1, 3, 1, 5, 3 c) 6,12,4,3,6,12,8,9,11 d) Incidencia de contagio viral según grupo de edad en poblado Edad Frecuencia [ 0 – 15 ) [ 15 – 30 ) [ 30 – 45 ) [ 45 – 60 ) [ 60 – 75 ) 35 25 23 28 37 e) Siembra de trigo por superficie en hectáreas para cada comuna Comuna Superficie Frecuencia La palma El cerro San Francisco La yunta El fraile [ 0 - 20 ) [ 20 – 50 ) [ 50 – 100 ) [ 100 – 200 ) [ 200 – 500 ) 24 40 46 38 40 3.- Medidas de dispersión: 3.1.- La desviación media es la media aritmética de los valores absolutos de las desviaciones respecto a la media. La desviación media se representa por 3.2.- Desviación media para datos agrupados: Si los datos vienen agrupados en una tabla de frecuencias, la expresión de la desviación media es: Ejercicios: Determinar la desviación media de los siguientes conjuntos de datos: a) Puntaje 1 2 3 4 5 6 7 frecuencia 4 5 2 6 7 3 6 b) c) d) 2, 3, 6, 8, 11. e) 12, 6, 7, 3, 15, 10, 18, 5.