EYP2214 Estadística para Construcción Civil Medidas de Tendencia Central La Media La media (o promedio) de una muestra x1, x2,…, xn de tamaño n de una variable o característica x, se define como la suma de todos los valores observados en la 1 n muestra, dividida por el número total de observaciones n, es decir, X = å X i . Por n i =1 ejemplo si los datos son x1 = 1, x2 =2, x3=3, entonces la media es 1/3(1+2+3)=2. La Mediana Dado un conjunto de n observaciones x1, x2,…, xn, de la variable o característica x, se define la mediana de este conjunto de valores, como aquel valor que no es superado ni supera a más de la mitad de las n observaciones, arregladas en orden de magnitud creciente o decreciente. 1 EYP2214 Estadística para Construcción Civil Cálculo de la Mediana: Ordenar los datos en orden de magnitud creciente X (1) , X ( 2) ,..., X ( n ) , entonces la mediana esta definida mediante la siguiente fórmula: si n es impar ì X ( n +1) / 2 ïï Me = í ï X ( n / 2) + X ( n / 2+1) si n es par ïî 2 En el ejemplo previo, la mediana Me=2. Nota: En general, la mediana no se ve afectada por valores muy grandes o por valores muy pequeños en los datos en comparación a la media. Por ejemplo, si x3= 40, la media es 1/3(1+2+40)=14.33, sin embargo la mediana es Me=2. 2 EYP2214 Estadística para Construcción Civil La Moda La moda de una muestra x1, x2,…, xn, es aquel valor de la variable que se presenta con mayor frecuencia; es decir es el valor que más se repite, y se denota por Mo. Los Percentiles Los percentiles son valores que dividen a la muestra ordenada en forma ascendente (o descendente) en 100 partes iguales, y se denotan por Pi , i = 1,2,...,99. Cálculo de los Percentiles: 1. Se ordena los datos en forma ascendente (o descendente) X (1) , X ( 2) ,..., X ( n ) (ó X ( n ) , X ( n −1) ,..., X (1) ). 3 EYP2214 Estadística para Construcción Civil 4 2. Se determina el percentil de acuerdo a lo siguiente: * Si i (n + 1) es un entero, entonces Pi = X æ i (n +1) ö ç ÷ 100 100 è * Si ø i (n + 1) es fraccionario, hacemos una interpolación lineal entre los dos 100 valores correspondientes a las dos observaciones entre las cuales se encuentra la fracción. Observación: Para el caso en que i = 25,50,75, se denominan cuartiles, y cuando i = 10,20,...,90 , se denominan deciles. EYP2214 Estadística para Construcción Civil 5 Medidas de Dispersión La Varianza La varianza de una muestra x1, x2,…, xn de una variable o característica x, se define como la media del cuadrado de las desviaciones de las observaciones con respecto al promedio de esos datos. La varianza muestral entonces queda definida como: ( ) 1 æ n 2 ö÷ 2 ç S = å X −X ÷ n − 1çi = 1 i è ø Por ejemplo la varianza de x1=1,x2=2,xn=3, es 1/2[(1-2)2+(2-2)2+(3-2)2]=1. EYP2214 Estadística para Construcción Civil 6 Un posible inconveniente para la interpretación de la varianza es que, por el efecto del cuadrado en la definición, no está expresada en las mismas unidades que los datos, sino en su cuadrado (por ejemplo, si los datos se toman en metros, la varianza se expresará en metros cuadrados). Como una manera de eliminar este inconveniente, se define la desviación estándar. Desviación Estándar La desviación estándar se define por la raíz cuadrada positiva de la varianza. S= ( ) 1 æç n 2 ö÷ å X −X ÷ n − 1çi = 1 i è ø La desviación estándar de x1=1,x2=2,xn=3, es σ= 1 æ 2 2 2 ç (1− 2) + (2 − 2) + (3 − 2) ö÷ = 1 = 1 . ø 3 −1 è EYP2214 Estadística para Construcción Civil Rango El rango se calcula como la diferencia entre el máximo valor y el mínimo valor presentes en el conjunto de datos: R = X máx − X mín . Rango Intercuartil El rango intercuartil es la longitud del intervalo donde está contenido el 50% central de los datos: RI = Q3 − Q1 o RI = P75 − P25 . 7 EYP2214 Estadística para Construcción Civil Medidas de Tendencia Central (datos tabulados) La Media Si los datos han sido clasificados en m clases en una tabla de frecuencias con marca de clase y i ( y i = punto medio de cada clase ) y frecuencia absoluta ni , i = 1,2,..., m , la media aritmética de estos datos está definida por: 1 m X = å yn ni =1 i i La Mediana Hay que distinguir si la variable es discreta o continua. 8 EYP2214 Estadística para Construcción Civil 9 • Variable Discreta: El procedimiento para calcular la mediana es: 1. Se construye la tabla de distribución de frecuencias absolutas acumuladas “menor que”. 2. Se determina la menor frecuencia absoluta acumulada N j que supera a n / 2 . Es decir n < Nj 2 En esta situación puede ocurrir que N j −1 ≤ n ≥ N j −1 . O sea que se puede tener 2 n ≤ Nj 2 EYP2214 Estadística para Construcción Civil i. Cuando ii. Cuando 10 n > N j −1 , entonces la mediana es: Me = y j . 2 n = N j −1 , en esta situación se acostumbra a tomar como valor de 2 la mediana Me = y j −1 + y j 2 . • Variable Continua: el procedimiento consiste en: 1. Construir la distribución de frecuencias absolutas acumuladas “menor que”. 2. Determinar la menor de las frecuencias absolutas acumuladas N j tal que Nj > n 2 EYP2214 Estadística para Construcción Civil En esta situación puede ocurrir que N j −1 ≤ i. Si ocurre que 11 n ≥ N j −1 . Es decir, se puede tener 2 n < Nj 2 n = N j −1 , la mediana está dada por: Me = y 'j −1 2 donde y 'j −1 = el límite inferior de la clase mediana. ii. Si ocurre que n > N j −1 , la mediana está dada por: 2 é n ù − N j − 1 ê ú Me = y 'j −1 + c j ê 2 ú − N N j −1 ú ê j ë û cj = Nj = Frecuencia absoluta acumulada de la clase mediana amplitud de la clase mediana EYP2214 Estadística para Construcción Civil Los Percentiles La fórmula para el cálculo de los percentiles es la siguiente: é in ù − N j −1 ú ê100 ' Pi = y j −1 + c j ê ú − N N j −1 ú ê j û ë donde y 'j −1 = límite inferior de la clase que contiene a Pi . cj = amplitud de la clase que contiene a Pi . N j = frecuencia absoluta acumulada de la clase que contiene a Pi . 12 EYP2214 Estadística para Construcción Civil La Moda Hay que distinguir si la variable es discreta o continua. • Variable Discreta: En este caso la moda se determina fijándose en el valor de la variable que más se repite. • Variable Continua: La fórmula para encontrar la moda es la siguiente: Mo = y 'j −1 ù é n j − n j −1 + cj ê ú êë (n j − n j −1 ) + (n j − n j +1 ) úû donde: y 'j −1 = límite inferior de la clase modal. nj = frecuencia absoluta de la clase modal. cj = amplitud de la clase modal. 13 EYP2214 Estadística para Construcción Civil 14 Medidas de Dispersión (datos tabulados) La Varianza La varianza para datos tabulados está dada por la siguiente fórmula : ( ) ö 1 æ m 2 2 ç S = å ni Yi − Y ÷÷ ç n −1 i = 1 è ø donde: ni = frecuencias absolutas, Desviación Estándar Está dada por S = S 2 . Yi = marcas de clase, Y = promedio. EYP2214 Estadística para Construcción Civil Diagramas de Caja El diagrama de caja (Boxplot) es una representación gráfica de los datos que permite analizar conjuntamente una serie de medidas numéricas, tales como el mínimo, el máximo, la mediana y los cuartiles. En este gráfico es posible observar características de los datos como simetría y posibles observaciones atípicas. Los pasos a seguir para la construcción del diagrama de caja son los siguientes: 1. Ordenar los datos y obtener X mín , X máx , Q1 , Q2 , Q3 . 2. Dibujar un rectángulo cuyos extremos sean Q1 y Q3 , e indicar Q2 mediante una línea. 15 EYP2214 Estadística para Construcción Civil 3. Calcular los “límites admisibles” superior e inferior: LI = Q1 − f * (Q3 − Q1 ) LS = Q1 + f * (Q3 − Q1 ) Se consideran posibles valores atípicos a los situados fuera del intervalo ( LI , LS ) . El factor f puede variar entre diferentes textos o software estadísticos. Algunos de los valores más usados de f son f = 0.75 y f = 1.5 . 4. Dibujar una línea que vaya desde cada extremo del rectángulo al valor más alejado no atípico. 5. Indicar todos los datos que están fuera del intervalo admisible marcándolos como atípicos. 16 EYP2214 Estadística para Construcción Civil 17 Ejemplo Considere el siguiente conjunto de datos (puntajes de escala de depresión). 2 10 14 16 16 19 19 5 11 14 16 17 19 20 6 11 14 16 17 19 20 8 11 14 16 17 19 8 13 14 16 18 19 9 13 15 16 18 19 9 14 15 16 18 19 A partir de estos datos construyamos un diagrama de caja. EYP2214 Estadística para Construcción Civil Construcción del Diagrama de Caja. 1. Primero calcularemos la mediana, puesto que el número de observaciones es 45 (n impar) la mediana es aquel valor que ocupa la ubicación (45+1)/2, en los datos ordenados en forma ascendente, es decir, la observación 23. Entonces, Me=16. 2. Del conjunto de datos se encontrará que Q1 = 13 y Q3 = 18 . 3. Tomando f = 1.5 tenemos que LI = 5.5 y LS = 25.5 . 4. Existen dos observaciones que están fuera del intervalo admisible. El gráfico se muestra a continuación. 18 EYP2214 Estadística para Construcción Civil Diagrama de Caja depscore 20 15 10 5 0 'Box plot of Koopmans depression scores' 19