Descargar - Universidad Nacional de Mar del Plata

Anuncio
Universidad Nacional de Mar del Plata
Facultad de Ingeniería
Estadística
Descriptiva
2da parte
1° Cuatrimestre 2014
Prof. Marina Tomei. Jueves de 8 a 10 hs.
Mg. Stella Maris Figueroa. juevesde 13 a 105hs.
ESTADÍSTICOS
En todo análisis y/o interpretación de datos se
pueden utilizar diversas medidas descriptivas
que representan las propiedades de
tendencia central, dispersión y forma, para
extraer y resumir las principales
características de los datos.
Estadísticos


La media aritmética es el promedio aritmético de un grupo de
datos
Serie Simple:
Si las observaciones de una muestra de tamaño n son x1,x2, …,
xn entonces la media muestral se define como:
n
X
 xi
i 1
n
24
19
26
19
22
21
19
24
20
23
22
21
22
23
20
20
18
24
20
18
22
18
20
21
20
20
21
20
21
27
Las edades de los alumnos del 1er cuatrimestre de 2008, dadas en esta
serie simple, tienen un promedio de 21,166 años.
Serie de Frecuencias: Si las observaciones de una muestra de tamaño n
son x1,x2, …, xi y f1, f2, …, fi son sus respectivas frecuencias absolutas,
entonces la media muestral se define como:
n
X
x f
i i
i 1
n
En el caso de las edades de los alumnos:
X  21,166
Ingresar los datos en la calculadora en
el modo SD y verificar este resultado.
Edad
fi
18
3
19
3
20
8
21
5
22
4
23
2
24
3
26
1
27
1
Intervalos de clase: Sean xm1,xm2, …, xmi las marcas de clases de los
intervalos y f1, f2, …, fi sus respectivas frecuencias absolutas, entonces la
media muestral se define como:
k
X
X
x
i 1
f
mi i
n
19  6  21  13  23  6  25  3  27  2
30
X  21,8
Intervalos
de Edad
xmi
fi
[18 – 20)
19
6
[20 –22)
21
13
[22 – 24)
23
6
[24 – 26)
25
3
[26 – 28)
27
2
n = 30
Ingresar los datos en la calculadora en el modo SD y verificar este
resultado.
Distintos Significados que puede tener la media
muestral
Ejemplo 1
Un objeto pequeño se pesa con un mismo instrumento por ocho
estudiantes de una clase, obteniéndose los siguientes valores en gramos:
6,2 6,0 6,0 6,3 6,1 6,23 6,15 6,2
¿Cuál sería el valor que resuma mejor los datos del peso real del objeto?
(Significado estimativo)
Ejemplo2
Una empresa produce cierto tipo de dispositivos
y los reparte en 5
comercios. El comercio A recibió 5, el B recibió 8, el C, 6, el D, 1 y al E
no le llegó ninguno. ¿Qué debe hacer la empresa para repartir los
dispositivos en forma equitativa? (Significado equitativo)
.
Distintos Significados que puede tener la media
muestral
Ejemplo 3
Al medir la altura en cm que pueden saltar un grupo de estudiantes, antes y
después de haber efectuado un cierto entrenamiento deportivo, se obtuvieron
los valores siguientes. ¿Piensas que el entrenamiento es efectivo?
Altura saltada en cm.
Antes del entrenamiento 115 112 107 119 115 138 126 105 104 115
Después del entrenamiento 128 115 106 128 122 145 132 109 102 117
( significado que ayuda a decidir el planteo de hipótesis)
Ejemplo 4
La altura media de los alumnos de un colegio es 1,40. Si extraemos una
muestra aleatoria de 5 estudiantes y resulta que la altura de los 4 primeros es
de 1,38 1,42 1,60 1,40. ¿Cuál sería la altura más probable del quinto
estudiante? (significado predictivo).
Es el valor de variable donde la muestra se divide en dos
partes iguales.
¿Cómo calcularla en la Serie Simple de las edades?
24
19
26
19
22
21
19
24
20
23
22
21
22
23
20
20
18
24
20
18
22
18
20
21
20
20
21
20
21
27
18,18,18,19,19,19,20,20,20,20,20,20,20,20,21,21,21,21,21,22,22,22,22,23,23,24,24,24,26,27
La ventaja de la
mediana es que los
valores extremos no
tienen influencia
sobre ella.
Me =21
X  21,166
si n es impar
 x n1/2

Me   xn /2  x n/2 1
 
si n es par

2

Serie de frecuencias
Es aquel valor de la variable cuya frecuencia absoluta acumulada es
inmediatamente mayor a la mitad de las observaciones
Me
Edad
fi
Fa
18
3
3
19
3
6
20
8
14
21
5
19
22
4
23
23
2
25
24
3
28
26
1
29
27
1
30
n 30

 15
2 2
Intervalo de clase
Intervalos
de Edad
fi
Fa
[18 – 20)
6
6
30
6
Me  20  2
* 2  21,3846
13
frecuencia absoluta acumulada es inmediatamente
mayor a la mitad de las observaciones
[20 –22)
13
19
[22 – 24)
6
25
[24 – 26)
3
28
donde:
[26 – 28)
2
30
Linf = Límite inferior del primer intervalo cuya Fa es
mayor a n/2.
n = 30
Me  Linf
n
 Faa
 2
*a
fi
Faa = Frecuencia acumulada del intervalo anterior al
primer intervalo cuya Fa es mayor a n/2.
fi = Frecuencia absoluta del primer intervalo cuya Fa
es mayor a n/2.
a = Amplitud de los intervalos
Cuando se divide un conjunto ordenado de datos en cuatro
partes iguales, los puntos de división se conocen como
cuartiles.
75%
25%
25%
Mínimo
25%
75%
25%
Cuartil 1
Q1
25%
Mediana
Cuartil 2
Q2
25%
Cuartil 3
Q3
Máximo
Sean x1,x2, …, xn una muestra ordenada en forma creciente,
entonces el cuartil 1 y 3 se definen como la mediana de cada
una de las partes en que la Me dividió los datos.
24
19
26
19
22
21
19
24
20
23
22
21
22
23
20
20
18
24
20
18
22
18
20
21
20
20
21
20
21
27
18,18,18,19,19,19,20,20,20,20,20,20,20,20,21,21,21,21,21,22,22,22,22,23,23,24,24,24,26,27
q1=20
Me=21
q3=22
Serie de Frecuencias
q1 = 20 años
q3 = 22 años
Edad
fi
Fa
18
3
3
19
3
6
20
8
14
21
5
19
22
4
23
23
2
25
24
3
28
26
1
29
27
1
30
n
30
j .  j.
4
4
n 30

 7, 5
4 4
n
30
3.  3.  22, 5
4
4
Intervalos de clase
Intervalos
de Edad
fi
Fa
[18 – 20)
6
6
[20 –22)
13
19
[22 – 24)
6
25
[24 – 26)
3
28
[26 – 28)
2
30
n = 30
Q j  Linf
n
j.  Faa
 4
*a
fi
n 30

 7, 5
4 4
30
6
q1  20  4
* 2  20,2307
13
30
3.  19
n
30
3.  3.  22, 5
q3  22  4
* 2  23,166
4
4
donde:
6
Linf = Límite inferior del primer intervalo cuya Fa es
mayor a j.n/4
Faa = Frecuencia acumulada del intervalo anterior al
primer intervalo cuya Fa es mayor a j.n/4.
fi = Frecuencia absoluta del primer intervalo cuya Fa
es mayor a j.n/4
a = Amplitud de los intervalos.
Medidas de Centralización
Mediana y Cuartiles representados en el
polígono de frecuencias acumuladas
q1
Me
q3
Gráfico de caja y bigotes
(Box-Plot)
Este gráfico permite visualizar rápidamente la simetría y la
variabilidad de los datos. El largo de la caja, es q3-q1 (rango
intercuartílico), que comprende el 50% central de los datos.
29
min
q1
Me
q3
máx
Estadísticos
18
20
21
22
27
27
25
23
21
19
17
15
1
Edad de los alumnos de
Estadística Básica 1er cuat.
2008
http://www.youtube.com/watch?v=LV6lWTHvIk4
Es el valor de variable que se presenta con mayor
frecuencia en la muestra.
En una serie simple:
Mo= 20 años
24
19
26
19
22
21
19
24
20
23
22
21
22
23
20
20
18
24
20
18
22
18
20
21
20
20
21
20
21
27
Edad
fi
18
3
19
3
20
8
21
5
22
4
23
2
24
3
En una serie de frecuencias:
Mo =20 años
Intervalos de clase
donde:
Intervalos
de Edad
fi
[18 – 20)
6
[20 –22)
13
[22 – 24)
6
[24 – 26)
3
[26 – 28)
2
Linf = Límite inferior del intervalo que
tiene mayor frecuencia
absoluta (intervalo modal).
d1 = Diferencia entre las frecuencias
absolutas del intervalo modal y
el intervalo pre-modal.
d2 = Diferencia entre las frecuencias
absolutas del intervalo modal y
el intervalo post-modal.
a = Amplitud de los intervalos
d1
Mo  Linf 
*a
d1  d 2
7
Mo  20 
.2  21
77
D2
D1
Li
Mo
a
ANÁLISIS DEL GRADO DE CURTOSIS
Coeficiente
de curtosis
K>0
K=0
K<0
Con esta medida se cuantifica la mayor o menor cantidad de datos
que se agrupan en torno a los valores centrales
Análisis de la simetría
Coeficiente
de
asimetría
As <0
As =0
As >0
Rango
Varianza
Absolutas
Medidas
de
Dispersión
Desviación
estandar
Rango
intercuartílico
Relativas
Coeficiente de
variación
El rango de la muestra se define como la
diferencia entre la observación más grande
y la más pequeña :
r  xmax  xmin
Para el conjunto de datos x1, x2,….,xn de una población de tamaño N
Las diferencias de cada dato y la media, determinan los desvíos o
desviaciones.
Dado que la suma de estas desviaciones es cero, se utiliza como
medida de variabilidad el promedio de los cuadrados de tales desvíos.
N
2 
 ( xi  x )
i 1
N
(1)
2 
 ( xi  x )2 fi
i 1
s 
2
N
(2)
m
n
m
2
2
(
x

x
)
 i
i 1
n 1
(3)
s2 
2
(
x

x
)
. fi
 i
i 1
n 1
(4)
Varianza Poblacional
Varianza muestral
siendo N el tamaño de la población.
siendo n el tamaño de la muestra.
Para datos sin agrupar (3) y
agrupados (4)
Para datos sin agrupar (1) y agrupados (2)
Si los datos se agrupan por intervalos, usamos Xmi en lugar de Xi
S
1 n
2
(
x

X
)

i
n  1 i 1
Para datos sin agrupar
El desvío Estandar muestral para las edades es de 2,2073 años.
Verificarlo con la calculadora en el modo SD
S
1 n
2
(
x

X
)
fi

i
n  1 i 1
Para datos agrupados
por frecuencias
S
1 k
2
(
x

X
)
fi

mi
n  1 i 1
Para datos agrupados
por Intervalos
S
CV 
X
•
•
•
•
Mide el grado de variabilidad en una muestra o población.
Compara la variabilidad entre distintas variables y poblaciones.
Está desprovisto de unidades.
El valor expresado en términos porcentuales, se llama coeficiente
de variación porcentual.
CV % 
S
 100%
X
Consideraremos poca variabilidad, si el CV% es a lo sumo del 30 %
En nuestro estudio de las edades, el
Cv% = 2,2073x100/21,166 = 10,428%
Podemos afirmar que existe poca variabilidad en los datos.
¿Cuál de estas dos distribuciones
de nuestro trabajo tiene mayor
variabilidad?
Peso
Frecuencias
Marca de
[47-54)
[54-61)
[61-68)
[68-75)
[75-82)
[82-89)
[89-96)
4
10
6
5
3
1
1
50,5
57,5
64,5
71,5
78,5
85,5
92,5
clase
Estatura
[1,55-1,60)
[1,60-1,65)
[1,65-1,70)
[1,70-1,75)
[1,75-1,80)
[1,80-1,85]
Frecuencias
3
3
5
5
5
9
Marca de
1,575
1,625
1,675
1,725
1,775
1,825
clase
RESULTADOS (respuesta a la pregunta)
¿Cómo son los alumnos de esta clase?





De la clase anterior, obtuvimos:
La mayoría de los alumnos de esta muestra tienen entre 20 y 22 años.
En cuanto al interés por la estadística, el 53% muestra interés, pero hay
aproximadamente un 30 % que no sabe si le interesa.
Existe en esta muestra, un 40 % de alumnos con orientación en
química. Le siguen alimentos y electromecánica.
El 73 % de los alumnos de la muestra no son recursantes.
El 60% de los alumnos de la muestra son varones.
Conclusiones
En la clase anterior, concluimos:
Un alumno típico de esta clase es un varón entre 20 y 22 años, con
orientación en química, no recursante con interés hacia la estadística y
con aproximadamente 6 materias aprobadas.
Con lo aprendido en esta clase, podemos concluir:
 Como la distribución de edades es asimétrica positiva y existe poca
variabilidad, la mediana representa las edades de los estudiantes.
Esto significa que el 50% de ellos tiene menos de 21 años y el otro
50%, más de 21 años.
 Existe una mayor variabilidad en el peso que en la estatura de los
estudiantes.
Observaciones finales
 Comenzar por el estudio de la variabilidad de los datos, puede
ahorrar pasos en el análisis.
 Si el CV es mayor que 30 %, ninguna medida resume los datos.
 Si existe poca variación en los datos, debemos analizar la forma. En
ese caso, si los datos son simétricos, la media representa los
mismos. Si son asimétricos, la medida que los representa es la
mediana.
Descargar