distribución de frecuencias - Escuela de Estadística

Anuncio
UNIVERSIDAD DE COSTA RICA
ESCUELA DE ESTADÍSTICA
Prof. Olman Ramírez Moreira
DISTRIBUCIÓN DE
FRECUENCIAS
FUENTE:
Gómez, Elementos de Estadística Descriptiva
Levin & Rubin. Estadística para
Administradores
DEFINICIÓN Y USO
Necesidad de resumir la información. Para que los datos
sean útiles deben organizarse para distinguir patrones y
tendencias y llegar así a conclusiones lógicas
Una forma de organizar un conjunto de datos es
clasificarlos en categorías o clases y luego contar cuántas
observaciones quedan dentro de cada categoría.
Para el análisis e interpretación de datos es valioso
conocer:
La forma o patrón de distribución de los datos
La posición de la distribución: alrededor de qué valor se tienden a concentrar
los datos
Variabilidad: la dispersión de los datos alrededor de los valores centrales
Ordenamiento o arreglo de los datos en clases o
categorías indicando para cada una de ellas, el número de
elementos que contiene o frecuencia
VISITAS DIARIAS HECHAS AL SITIO WEB DE
ESTUDIOS SOBRE DIVERSIDAD CULTURAL EN
EL PRIMER CUATRIMESTRE DEL 2007
22
22
23
24
25
26
26
26
27
27
27
28
28
28
29
30
30
30
30
30
30
30
31
31
31
31
31
32
32
33
33
33
33
34
34
34
34
35
35
35
35
35
35
35
35
35
35
35
35
36
36
36
37
37
37
37
38
38
38
38
38
38
38
38
38
38
39
39
39
40
40
40
40
40
40
40
41
41
42
42
42
42
43
43
43
44
44
45
45
45
45
45
45
46
46
47
47
47
47
47
48
48
48
49
49
49
50
50
52
52
52
52
53
53
54
55
61
62
64
72
MANIPULACIÓN DE LOS DATOS
Conclusiones obtenidas de estos datos:
Edad máxima: 72
Edad mínima: 22
Amplitud general: 50
Mayoría de valores está entre 30 y 50
Una visión más clara se puede obtener
construyendo una distribución de frecuencias.
Requiere definir:
Valor de inicio de la primer clase
Amplitud o intervalo a usar
Conociendo ambas queda definida la cantidad
de clases a contruir
EL NÚMERO DE CLASES
Depende de la cantidad de datos u observaciones y de la amplitud general
Muchas observaciones permiten un mayor número de clases
Pocos datos no conviene hacer muchas clases
Buscar un balance entre necesidad de resumir la información y mantener suficientes detalles para
apreciar las características de los datos
Partir de la amplitud general y probar con diferente número de clases hasta alcanzar un número
de clases y un intervalo adecuado (rango / # clases)
Decidir si usar clases iguales o desiguales
El número de clases recomendable está asociado con la cantidad de datos.
Clases abiertas:
Ubicadas al principio o al final de la distribución de frecuencias,
Necesarias cuando unos pocos datos se alejan mucho de la mayoría (hacia arriba o hacia abajo),
Evitar construir clases intermedias vacías (para clases de igual amplitud)
Recomendaciones:
Las clases deben ser exhaustivas y mutuamente excluyentes
Procurar que el número de clases oscile entre 5 y 10
Evitar, hasta donde sea posible, clases de diferente amplitud
COMPONENTES DE LA DISTRIBUCIÓN DE
FRECUENCIAS
FRECUENCIAS ABSOLUTAS:
Número de elementos u observaciones
pertenecientes a una misma clase.
FRECUENCIA RELATIVA:
Se obtiene dividiendo la frecuencia absoluta por el
número de observaciones
Denota la importancia de la clase, al expresarse en
términos porcentuales
Facilitan el análisis de los datos, en especial para
comparar distribuciones de frecuencias basadas en
diferentes número de observaciones
FRECUENCIA ACUMULADA
Número de observaciones que son menores que el
límite superior de la clase
Se obtiene sumando las frecuencias (absolutas o
relativas) en sentido descendente
PUNTO MEDIO:
Valor central de la clase
Promedio entre el límite inferior de entre dos clases
sucesivas
Es el valor representativo de la clase
CLASIFICACIÓN VISITAS DIARIAS AL SITIO WEB ESTUDIOS SOBRE
DIVERSIDAD. PRIMER CUATRIMESTRE 2007.
VISITAS DIARIAS
Punto
medio
FRECUENCIA
ACUMULADA
Absoluta
Relativa
Absoluta
Relativa
20 -
29
25
15
12,5
15
12,5
30 -
39
35
54
45,0
69
57,5
40 -
49
45
37
30,8
106
88,3
50 -
59
55
10
8,3
116
96,7
60 -
69
65
3
2,5
119
99,2
70 -
79
75
1
0,8
120
100,0
120
100,0
Total
Interpretación:
f3: en 37 días del primer cuatrimestre del 2007 las visitas diarias al
sitio WEB estuvieron entre 40 y 49
f%3: el 30.8% de los días del primer cuatrimestre de 2007 las visitas
diarias al sitio WEB oscilaron entre 40 y 49 años
F3: 106 días del primer cuatrimestre del 2007 las visitas diarias al
sitio WEB fueron 59 visitas o menos
F%3: el 88.3% de los días del primer cuatrimestre del 2007 las
visitas diarias al sitio WEB fueron 59 visitas o menos
REPRESENTACIÓN GRÁFICA
La representación gráfica contribuye a un mejor
análisis de los datos
Facilita la comprensión del fenómeno considerado
Pierde detalle de información pero se obtiene otro tipo
de información
Gráficos utilizados: histograma, polígono de
frecuencia y ojiva son útiles pues resaltan los
patrones de los datos y atraen la atención
HISTOGRAMA
Gráfico de barras verticales, las barras no guardan separación entre sí
Definidas las escalas en el eje cartesiano se dibuja un rectángulo acorde a la
frecuencia de la clase (altura)
En clases de igual amplitud las barras son proporcionales a la frecuencia de la
clase
POLÍGONO DE FRECUENCIAS
La altura de cada punto la determina el punto medio (abscisa) y la frecuencia simple
(ordenada) de la clase
Los puntos se unen con secciones de rectas
Se procede como si existiera una clase adicional al principio y al final, ambas con
frecuencia cero
Útiles para representar dos distribuciones de frecuencia en un mismo gráfico
OJIVAS
Para representar la frecuencia acumulada
La ordenada se levanta sobre el límite superior
Tiene forma de S alargada
TENGA PRESENTE QUE:
HISTOGRAMA:
La altura debe ser proporcional al número de elementos de la
clase
En ocasiones puede resultar más útil el histograma elaborado
con la frecuencia relativa porque permite comparar conjuntos
de datos de tamaño diferente
POLIGONO DE FRECUENCIAS
Es más sencillo que el histograma correspondiente
Traza con mayor claridad el perfil del patrón de los datos
Se vuelve cada vez más liso y parecido a una curva al
agregar cada vez más y más datos
SUGERENCIA
Añadir siempre dos clases en los gráficos: una al inicio y otra
al final con frecuencia cero
EJERCICIO PRÁCTICO
En el Hospital de la Mujer se dispone de los siguientes datos
del peso en libras de 200 bebés prematuros nacidos en 2006.
0,5
1,0
1,5
2,0
2,5
3,0
3,5
4,0
-
0,9
1,4
1,9
2,4
2,9
3,4
3,9
4,4
10
19
24
27
29
34
40
17
Construya una distribución de frecuencias completa:
¿Cuál es el valor medio aproximado del conjunto de datos original?
Si los bebés prematuros que pesan menos de 3.0 libras se les suele mantener en incubadora
durante varios días como medida precautoria, ¿aproximadamente qué porcentaje de bebés
prematuros nacidos en el Hospital de la Mujer en 2006 necesitaron incubadora?
¿Qué forma (patrón) tiene la distribución de los datos?
DISTRIBUCIÓN DE LOS PESOS DE LOS 200 BEBES PREMATUROS
NACIDOS EN EL HOSPITAL DE LA MUJER EN 2006
PESO (lbs)
0,5
1,0
1,5
2,0
2,5
3,0
3,5
4,0
-
0,9
1,4
1,9
2,4
2,9
3,4
3,9
4,4
TOTAL
Promedio:
P unt o
m e d io
0,8
1,3
1,8
2,3
2,8
3,3
3,8
4,3
FRECUENCIA
A b s o lut a
R e la t i v a
10
19
24
27
29
34
40
17
5,0
9,5
12,0
13,5
14,5
17,0
20,0
8,5
200
100,0
547,35 / 200 = 2,74
ACUMULADA
A b s o lut a
10
29
53
80
109
143
183
200
R e lat iv a
5,0
14,5
26,5
40,0
54,5
71,5
91,5
100,0
PESO EN LIBRAS DE LOS 200 BEBES PREMATUROS NACIDOS EN EL HOSPITAL DE LA MUJER EN 2006
25
FRECUENCIA
20
15
10
5
0
0,3
0,8
1,3
1,8
2,3
2,8
PESO EN LIBRAS
3,3
3,8
4,3
5,3
Descargar