Estadística Descriptiva II

Anuncio
EYP2214 Estadística para Construcción Civil
Medidas de Tendencia Central
La Media
La media (o promedio) de una muestra x1, x2,…, xn de tamaño n de una variable o
característica x, se define como la suma de todos los valores observados en la
1 n
muestra, dividida por el número total de observaciones n, es decir, X = å X i . Por
n i =1
ejemplo si los datos son x1 = 1, x2 =2, x3=3, entonces la media es 1/3(1+2+3)=2.
La Mediana
Dado un conjunto de n observaciones x1, x2,…, xn, de la variable o característica x, se
define la mediana de este conjunto de valores, como aquel valor que no es superado
ni supera a más de la mitad de las n observaciones, arregladas en orden de magnitud
creciente o decreciente.
1
EYP2214 Estadística para Construcción Civil
Cálculo de la Mediana:
Ordenar los datos en orden de magnitud creciente X (1) , X ( 2) ,..., X ( n ) , entonces la
mediana esta definida mediante la siguiente fórmula:
si n es impar
ì X ( n +1) / 2
ïï
Me = í
ï X ( n / 2) + X ( n / 2+1)
si n es par
ïî
2
En el ejemplo previo, la mediana Me=2.
Nota: En general, la mediana no se ve afectada por valores muy grandes o por
valores muy pequeños en los datos en comparación a la media. Por ejemplo, si
x3= 40, la media es 1/3(1+2+40)=14.33, sin embargo la mediana es Me=2.
2
EYP2214 Estadística para Construcción Civil
La Moda
La moda de una muestra x1, x2,…, xn, es aquel valor de la variable que se presenta
con mayor frecuencia; es decir es el valor que más se repite, y se denota por Mo.
Los Percentiles
Los percentiles son valores que dividen a la muestra ordenada en forma ascendente
(o descendente) en 100 partes iguales, y se denotan por Pi , i = 1,2,...,99.
Cálculo de los Percentiles:
1. Se ordena los datos en forma ascendente (o descendente) X (1) , X ( 2) ,..., X ( n ) (ó
X ( n ) , X ( n −1) ,..., X (1) ).
3
EYP2214 Estadística para Construcción Civil
4
2. Se determina el percentil de acuerdo a lo siguiente:
* Si
i (n + 1)
es un entero, entonces Pi = X æ i (n +1) ö
ç
÷
100
100
è
* Si
ø
i (n + 1)
es fraccionario, hacemos una interpolación lineal entre los dos
100
valores correspondientes a las dos observaciones entre las cuales se encuentra
la fracción.
Observación:
Para el caso en que i = 25,50,75, se denominan cuartiles, y cuando i = 10,20,...,90 ,
se denominan deciles.
EYP2214 Estadística para Construcción Civil
5
Medidas de Dispersión
La Varianza
La varianza de una muestra x1, x2,…, xn de una variable o característica x, se define
como la media del cuadrado de las desviaciones de las observaciones con respecto al
promedio de esos datos. La varianza muestral entonces queda definida como:
(
)
1 æ n
2 ö÷
2
ç
S =
å X −X ÷
n − 1çi = 1 i
è
ø
Por ejemplo la varianza de x1=1,x2=2,xn=3, es 1/2[(1-2)2+(2-2)2+(3-2)2]=1.
EYP2214 Estadística para Construcción Civil
6
Un posible inconveniente para la interpretación de la varianza es que, por el efecto
del cuadrado en la definición, no está expresada en las mismas unidades que los
datos, sino en su cuadrado (por ejemplo, si los datos se toman en metros, la varianza
se expresará en metros cuadrados). Como una manera de eliminar este
inconveniente, se define la desviación estándar.
Desviación Estándar
La desviación estándar se define por la raíz cuadrada positiva de la varianza.
S=
(
)
1 æç n
2 ö÷
å X −X ÷
n − 1çi = 1 i
è
ø
La desviación estándar de x1=1,x2=2,xn=3, es
σ=
1 æ
2
2
2
ç (1− 2) + (2 − 2) + (3 − 2) ö÷ = 1 = 1 .
ø
3 −1 è
EYP2214 Estadística para Construcción Civil
Rango
El rango se calcula como la diferencia entre el máximo valor y el mínimo valor
presentes en el conjunto de datos: R = X máx − X mín .
Rango Intercuartil
El rango intercuartil es la longitud del intervalo donde está contenido el 50%
central de los datos: RI = Q3 − Q1 o RI = P75 − P25 .
7
EYP2214 Estadística para Construcción Civil
Medidas de Tendencia Central (datos tabulados)
La Media
Si los datos han sido clasificados en m clases en una tabla de frecuencias con marca
de clase y i ( y i = punto medio de cada clase ) y frecuencia absoluta ni , i = 1,2,..., m ,
la media aritmética de estos datos está definida por:
1 m
X =
å yn
ni =1 i i
La Mediana
Hay que distinguir si la variable es discreta o continua.
8
EYP2214 Estadística para Construcción Civil
9
• Variable Discreta: El procedimiento para calcular la mediana es:
1. Se construye la tabla de distribución de frecuencias absolutas acumuladas
“menor que”.
2. Se determina la menor frecuencia absoluta acumulada N j que supera a n / 2 .
Es decir
n
< Nj
2
En esta situación puede ocurrir que
N j −1 ≤
n
≥ N j −1 . O sea que se puede tener
2
n
≤ Nj
2
EYP2214 Estadística para Construcción Civil
i. Cuando
ii. Cuando
10
n
> N j −1 , entonces la mediana es: Me = y j .
2
n
= N j −1 , en esta situación se acostumbra a tomar como valor de
2
la mediana Me =
y j −1 + y j
2
.
• Variable Continua: el procedimiento consiste en:
1. Construir la distribución de frecuencias absolutas acumuladas “menor que”.
2. Determinar la menor de las frecuencias absolutas acumuladas N j tal que
Nj >
n
2
EYP2214 Estadística para Construcción Civil
En esta situación puede ocurrir que
N j −1 ≤
i. Si ocurre que
11
n
≥ N j −1 . Es decir, se puede tener
2
n
< Nj
2
n
= N j −1 , la mediana está dada por: Me = y 'j −1
2
donde y 'j −1 = el límite inferior de la clase mediana.
ii. Si ocurre que
n
> N j −1 , la mediana está dada por:
2
é n
ù
−
N
j
−
1
ê
ú
Me = y 'j −1 + c j ê 2
ú
−
N
N
j −1 ú
ê j
ë
û
cj
=
Nj
= Frecuencia absoluta acumulada
de la clase mediana
amplitud de la clase mediana
EYP2214 Estadística para Construcción Civil
Los Percentiles
La fórmula para el cálculo de los percentiles es la siguiente:
é in
ù
−
N
j −1 ú
ê100
'
Pi = y j −1 + c j ê
ú
−
N
N
j −1 ú
ê j
û
ë
donde
y 'j −1 = límite inferior de la clase que contiene a Pi .
cj
= amplitud de la clase que contiene a Pi .
N j = frecuencia absoluta acumulada de la clase que contiene a Pi .
12
EYP2214 Estadística para Construcción Civil
La Moda
Hay que distinguir si la variable es discreta o continua.
• Variable Discreta: En este caso la moda se determina fijándose en el valor de la
variable que más se repite.
• Variable Continua: La fórmula para encontrar la moda es la siguiente:
Mo =
y 'j −1
ù
é
n j − n j −1
+ cj ê
ú
êë (n j − n j −1 ) + (n j − n j +1 ) úû
donde:
y 'j −1 = límite inferior de la clase modal.
nj
= frecuencia absoluta de la clase modal.
cj
= amplitud de la clase modal.
13
EYP2214 Estadística para Construcción Civil
14
Medidas de Dispersión (datos tabulados)
La Varianza
La varianza para datos tabulados está dada por la siguiente fórmula :
(
)
ö
1 æ m
2
2
ç
S =
å ni Yi − Y ÷÷
ç
n −1 i = 1
è
ø
donde:
ni = frecuencias absolutas,
Desviación Estándar
Está dada por S = S 2 .
Yi = marcas de clase,
Y = promedio.
EYP2214 Estadística para Construcción Civil
Diagramas de Caja
El diagrama de caja (Boxplot) es una representación gráfica de los datos que permite
analizar conjuntamente una serie de medidas numéricas, tales como el mínimo, el
máximo, la mediana y los cuartiles. En este gráfico es posible observar
características de los datos como simetría y posibles observaciones atípicas.
Los pasos a seguir para la construcción del diagrama de caja son los siguientes:
1. Ordenar los datos y obtener X mín , X máx , Q1 , Q2 , Q3 .
2. Dibujar un rectángulo cuyos extremos sean Q1 y Q3 , e indicar Q2 mediante una
línea.
15
EYP2214 Estadística para Construcción Civil
3. Calcular los “límites admisibles” superior e inferior:
LI = Q1 − f * (Q3 − Q1 )
LS = Q1 + f * (Q3 − Q1 )
Se consideran posibles valores atípicos a los situados fuera del intervalo ( LI , LS ) .
El factor f puede variar entre diferentes textos o software estadísticos. Algunos
de los valores más usados de f son f = 0.75 y f = 1.5 .
4. Dibujar una línea que vaya desde cada extremo del rectángulo al valor más
alejado no atípico.
5. Indicar todos los datos que están fuera del intervalo admisible marcándolos como
atípicos.
16
EYP2214 Estadística para Construcción Civil
17
Ejemplo
Considere el siguiente conjunto de datos (puntajes de escala de depresión).
2
10
14
16
16
19
19
5
11
14
16
17
19
20
6
11
14
16
17
19
20
8
11
14
16
17
19
8
13
14
16
18
19
9
13
15
16
18
19
9
14
15
16
18
19
A partir de estos datos construyamos un diagrama de caja.
EYP2214 Estadística para Construcción Civil
Construcción del Diagrama de Caja.
1. Primero calcularemos la mediana, puesto que el número de observaciones es 45
(n impar) la mediana es aquel valor que ocupa la ubicación (45+1)/2, en los datos
ordenados en forma ascendente, es decir, la observación 23. Entonces, Me=16.
2. Del conjunto de datos se encontrará que Q1 = 13 y Q3 = 18 .
3. Tomando f = 1.5 tenemos que LI = 5.5 y LS = 25.5 .
4. Existen dos observaciones que están fuera del intervalo admisible.
El gráfico se muestra a continuación.
18
EYP2214 Estadística para Construcción Civil
Diagrama de Caja
depscore
20
15
10
5
0
'Box plot of Koopmans depression scores'
19
Descargar