ORGANIZACIÓN Y RESUMEN DE DATOS CUANTITATIVOS

Anuncio
Organización y resumen de datos cuantitativos
Contenidos
Organización de datos cuantitativos: diagrama de tallos y hojas, tablas de
frecuencias. Histogramas. Polígonos. Ojivas
ORGANIZACIÓN Y RESUMEN DE DATOS CUANTITATIVOS
Los siguientes datos son las edades de una muestra aleatoria de 50 personas jubiladas
entrevistadas durante el mes de noviembre de 2008 en Mendoza.
71
73
76
65
65
65
73
68
62
65
66
55
53
90
61
61
63
58
69
56
54
56
80
76
63
93
62
85
79
80
60
76
56
77
56
86
54
61
54
71
70
82
61
64
79
70
79
64
74
84
v Tablas de frecuencias
Una tabla de frecuencias para variables numéricas es una tabla que asocia a cada valor
de la variable con
i) la cantidad de veces que aparece
frecuencia absoluta
ii) la proporción de veces que aparece frecuencia relativa
fi
fr =
fi
n
iii) el porcentaje de aparición frecuencia relativa porcentual f r % =
fi
.100%
n
Otras frecuencias importantes para describir datos cuantitativos son las frecuencias
absolutas, relativas y porcentuales acumuladas.
La frecuencia acumulada para un valor dado de la variable es la suma de las
frecuencias ( absolutas, relativas o porcentuales) de los valores menores o iguales al valor que se
está considerando
Frecuencia acumulada absoluta :
Frecuencia acumulada relativa
Frecuencia relativa porcentual
Fi
F
Fr = i
n
F
Fr % = i .100%
n
Autores: Liliana Marconi / Adriana D´Amelio
Una manera de obtener una mejor idea de la forma de la distribución de los datos sin aumentar
el tamaño de la muestra es agrupando los datos en intervalos de igual tamaño denominados
intervalos de clase
En algunas ocasiones, se usa un intervalo abierto del tipo "menos de..." o "mayores
que...", en el caso de que haya pocos casos muy abajo o muy arriba de la gran mayoría de
los casos.
Construcción de una distribución de frecuencias:
1) Determinar el rango de los datos.
El rango es la diferencia entre la máxima y la mínima observación
En el ejemplo de las edades el rango es: R = 93 - 53 = 40
2) Determinar la cantidad de intervalos de clases (k)
El número de intervalos depende de la cantidad de datos y del rango. En general se
utilizan entre 5 y 20 clases en función de la cantidad de datos.
Una regla práctica que vamos a utilizar para determinar el número de intervalos es:
Cantidad de intervalos de clase = k »
n
Elegimos el número entero menor entre los que está comprendida la raíz.
En nuestro ejemplo tenemos 50 datos,
k » 50 » 7
Ø Esta cantidad de intervalos, en realidad depende de las unidades en que
medimos las variables. En muchas ocasiones es más adecuado utilizar
múltiplos de 5.
Ø No conviene dejar intervalos vacíos, o sea con frecuencia cero.
3) Determinar el ancho o amplitud de los intervalos de clase (h)
h³
R
k
Elegimos un número un poquito mayor que el cociente para que todos los datos queden en
alguna de las clases.
En el ejemplo: h =
50
= 5,71 » 6
7
Los intervalos serán:
[53, 59) ; [59, 65) ; [65, 71) ; [71, 77) ; [77, 83) ; [83, 89) ; [89, 95)
Si hubiéramos decidido tomar menos intervalos, por ejemplo 6 intervalos,
h>
50
= 8 » 10
5
Autores: Liliana Marconi / Adriana D´Amelio
Los intervalos serán:
[50, 60) ; [60, 70) ; [70,80) ; [80, 90) ; [90, 100)
Como la variable es edad es bastante adecuado medirla cada 10 años. Además no queda
ningún intervalo con frecuencia 0
4) Determinar las frecuencias en cada intervalo
EDADES DE LAS PERSONAS JUBILADAS
EDAD
mi
[50,60)
[60, 70)
[70, 80)
[80, 90)
[90,100)
fi
55
65
75
85
95
10
18
14
6
2
f ri
0,20
0,36
0,28
0,12
0,04
f ri %
Fi
20
36
28
12
4
10
28
42
48
50
Fri
Fri %
0,20
0,56
0,84
0,96
1
20
56
84
96
100
Fte: elaboración propia.Nov 2008
Leeremos un intervalo: Entre 60 y menos de 70 años, se entrevistaron 18 personas, que
corresponden al 36% de los entrevistados. De menos de 70 años fueron entrevistadas 28
personas que corresponden a un 56% del total.
Ø Observe que cada dato entra en un única clase. Si nos quedan clases con
frecuencia 0, se trata de distribuir los datos en menos cantidad de
intervalos.
Ø La cantidad y el ancho de los intervalos de clase queda, en general, a
criterio del investigador. Algunos paquetes de sofware tienen estos valores
como sugeridos y otros le solicitan que usted ingrese los valores.
REPRESENTACIÓN GRÁFICA DE DATOS NUMÉRICOS
v Diagrama de tallos y hojas:
Si tenemos un conjunto de datos x1 , x 2 ,..., x n donde cada número está formado al menos
por 2 dígitos, el diagrama de tallos y hojas es una buena presentación visual informativa del
conjunto de datos y nos permite una manera relativamente fácil de ordenarlos
Los siguientes datos son las edades de una muestra aleatoria de 50 personas jubiladas
entrevistadas durante el mes noviembre de 2008.
71
73
76
65
65
65
73
68
62
65
66
55
53
90
61
61
63
58
69
56
54
56
80
76
63
93
62
85
79
80
60
76
56
77
56
86
54
61
54
71
70
82
61
64
79
70
79
64
74
84
Consideraremos como tallos a las decenas y como hojas a las unidades:
Autores: Liliana Marconi / Adriana D´Amelio
TALLO
HOJAS
FRECUENCIA
fi
5
6
7
8
9
4
5
1
6
3
5
6
0
2
0
6
1
0
0
4
0
3
5
3
3
3
0
8 6 4 6 6
2 8 1 1 4 5 2 9 4 5 51 3
6 9 6 6 9 7 4 1 9
4
10
18
14
6
2
Si ordenamos las hojas, los datos nos quedan ordenados de menor a mayor
5
6
7
8
9
3
0
0
0
0
4
1
0
0
3
4
1
1
2
4
1
1
4
5
1
3
5
6 6 6 6 8
2 2 3 3 4 4 5 5 5 5 6 8 9
3 4 6 6 6 7 9 9 9
6
Actividad con R
> edad1<c(71,65,66,61,54,93,60,86,70,70,73,73,55,63,56,62,76,54,82,79,76,68,53,58,80,85,
56,61,61,64,62,90,69,76,79,77,54,64,74,65,65,61,56,63,80,56,71,79,84)
> stem(edad1)
5 | 3444
5 | 566668
6 | 01111223344
6 | 555689
7 | 0011334
7 | 6667999
8 | 0024
8 | 56
9 | 03
El diagrama de tallos y hojas tiene dos ventajas fundamentales:
1. El diagrama de tallos y hojas es más fácil de construir a mano
2. En cada intervalote clase proporciona más información que un histograma debido a que el
tallo y la hoja proporcionan el dato.
Una manera de graficar los datos sencilla es el Diagrama de puntos.
con R
Se pide en R
> edad1<-c(71,65,66,61,54,93,60,86,70,70,73,73,55,63,56,62,76,54,82,79,76,68,53,58,80,85,
56,61,61,64,62,90,69,76,79,77,54,64,74,65,65,61,56,63,80,56,71,79,84)
Autores: Liliana Marconi / Adriana D´Amelio
> stripchart(edad1,method="stack", offset=1, at=0)
frecuencia
Edad de los jubilados encuestados en Mendoza nov/2008
60
70
80
90
edad
Fte: elaboración propia.Nov 2008
v HISTOGRAMAS
·
La variable de interés se representa a lo largo del eje horizontal. El eje vertical
representa el número, proporción o porcentaje de observaciones por intervalo de clase.
·
Los histogramas son gráficas de barras verticales, en los cuales se construyen las
barras rectangulares en las fronteras de cada clase.
·
No se pueden utilizar histogramas para comparar distintos grupos de datos,
porque la superposición de las barras verticales dificultaría la interpretación.
HISTOGRAMA DE FRECUENCIA ABSOLUTA PORCENTUAL
Frecuencia absoluta
Edad de los jubilados encuestados en Mendoza.Nov
2008
20
15
10
5
0
55
65
75
85
95
marca de clase
Fte: elaboración propia.Nov 2008
Autores: Liliana Marconi / Adriana D´Amelio
Para realizar este gráfico en Excel se siguen los siguientes pasos:
Paso 1: En la barra de menú se hace clic en asistente para gráficos y se selecciona en Tipos de
gráficos - Subtipo de gráfico – columna luego abajo se hace clic en siguiente.
Paso 2: En la parte superior se selecciona Serie abajo en Rótulos de ejes de categorías (x) se
seleccionan las celdas de la marca de clase.
Paso3: Luego en siguiente se va a títulos y se escriben los títulos correspondientes. Luego
finalizar
Paso4: Hasta ahora el gráfico tiene las barras separadas lo cuál es un error ya que el tipo de
variable es cuantitativa. Para lograr que las barras se junten hay que pararse en las barras hacer
doble clic aparece formato en serie de datos - Opciones ancho de rango -0
Paso 5: Observando el gráfico hay otro error que larga Excel por defecto y es la amplitud en el
eje x de los intervalos, este no debe tomarse como eje de abcisas ya que entre el cero absoluto y
la primera marca de clase hay una distancia mayor al resto de los intervalos. Para solucionar
esto se anexan dos intervalos uno antes del primer intervalo y otro después del último con
frecuencia 0. Entonces se hace una doble ralla entre el 0 del eje y el 45 para mostrar que la
distancia es diferente.
Fte: elaboración propia.Nov 2008
Autores: Liliana Marconi / Adriana D´Amelio
A ctivi dad con R
Paso1: Se cargan los datos
> edad1<c(71,65,66,61,54,93,60,86,70,70,73,73,55,63,56,62,76,54,82,79,76,68,53,58,80,85,
56,61,61,64,62,90,69,76,79,77,54,64,74,65,65,61,56,63,80,56,71,79,84)
Paso 2: Se pide el H istograma
>hist(edad1)
Si se quiere ponerle título y nombrar los ejes
>hist(edad1,ylab="frecuencia",main="E dadde los jubilados encuestados en Mendoza
nov/2008")
Si se quiere dar color se coloca col=” green”
>hist(edad1,ylab="frecuencia",main="E dadde los jubilados encuestados en Mendoza
nov/2008",col=”green”)
F te: elaboración propia.Nov 2008
A utores: L iliana Marconi / A driana D´A melio
HISTOGRAMA PORCENTUAL ACUMULADO
Frecuencias acumuladas
Edad de las personas jubiladas
60
50
40
30
20
10
0
55
65
75
85
95
Edad
Fte: elaboración propia.Nov 2008
POLÍGONOS
·
La variable de interés se representa a lo largo del eje horizontal. En el eje
vertical se representa el número, proporción o porcentaje de observaciones por
intervalo de clase.
·
La marca de clase, o sea el punto medio del intervalo de clase, representa los
datos de esa clase. En estos puntos se marca la frecuencia (absoluta, relativa o
porcentual) y luego se unen con líneas rectas.
·
El polígono es una representación de la forma de distribución de los datos. En el
caso de que no se utilicen las frecuencias acumuladas, y dado que el área debajo de la
curva debe corresponder al 100% , es necesario conectar el primero y el último puntos
medios con el eje horizontal. Esto se logra conectando el primer punto medio con el
punto medio de una clase “precedente ficticia” que tenga 0 (o 0%) de observaciones y
de manera similar en el último punto medio observado, se conecta con una clase
“sucesiva ficticia” con 0 (o 0%) de observaciones.
·
Cuando se construyen polígonos, el eje vertical debe mostrar el cero real
(origen) a fin de no deformar o representar en forma incorrecta el carácter de los
Autores: Liliana Marconi / Adriana D´Amelio
datos. El eje horizontal no necesita especificar el punto cero para la variable de
interés. (Se suele indicar una interrupción //)
HISTOGRAMA Y POLÍGONO
frecuencia absoluta
Edad de los jubilados encuestados en Mendoza.
Nov 2008
20
15
10
5
0
45
55
65
75
85
95
105
marca de clase
Fte: elaboración propia.Nov 2008
Paso: Al gráfico del Histograma se le agrega una serie igual a la anterior van a aparecer
dos barras de distinto color se hace doble clic en ellas y se elige la opción de cambiar el
gráfico por el tipo líneas y aparece el polígono de frecuencias.
Histograma y Polígono de frecuencia acumulado
·
El polígono de frecuencia acumulada se llama OJIVA. La ojiva no se une con el eje
horizontal.
HISTOGRAMA ACUMULADO Y OJIVA
Edad de los jubilados
encuestados en Mendoza. Nov
150%
2008
100%
50%
0%
55
65
75
85
95
Autores: Liliana Marconi / Adriana D´Amelio
HISTOGRAMA ACUMULADO Y OJIVA “MENOR QUE”
Vamos a hacer algunas lecturas en la ojiva “menor que”:
La línea punteada la trazamos desde el 50% hasta que corta a la ojiva. Desde allí bajamos y lo
leemos de la siguiente manera:
El 50% de las personas entrevistadas tiene 68 años o menos y el otro 50% tiene 68 años o más
Autores: Liliana Marconi / Adriana D´Amelio
PROBLEMAS SOBRE LA PRESENTACIÓN DE DATOS
1- SUBJETIVIDAD EN LA SELECCIÓN DEL NÚMERO Y TAMAÑO DE LOS
INTERVALOS DE CLASES
Para conjuntos de datos que no son muy grandes, la selección particular de un número
determinado de clases o determinados límites en relación a otros, podría presentar una imagen
totalmente distinta al lector, ya que se pueden ocasionar desplazamientos en la concentración de
los datos. Afortunadamente, cuando se aumenta el número de datos, estas alteraciones afectan
cada vez menos la concentración de datos.
2- COMPARACIONES DE DATOS SOBRE UNA BASE RELATIVA
El uso de frecuencias absolutas en los gráficos comparativos, en general, sería engañosa. Para
estos gráficos se utilizan las frecuencias relativas o porcentuales.
3- DISTRIBUCIONES CON INTERVALOS DE CLASE ABIERTAS
Las clases abiertas presentan dificultad para formar la gráfica y para calcular las medidas de
resumen descriptivas que son útiles para analizar los datos
Ejemplo:
SALARIOS INICIALES ESPERADOS PARA GRADUADOS
SALARIO (EN $)
Menos de 300$
[300, 600)
[600, 900)
[900, 1200)
1200 ó más
N° DE GRADUADOS
1
16
20
9
4
3) FRONTERAS DE CLASE
En la bibliografía se utiliza a veces distintas maneras de expresar los límites de clase
Por ejemplo el intervalo [300, 600) se puede hallar como
300-599
300 a menos de 600
Lo importante es que cada dato entre en una sola clase y no haya ninguna duda.
Autores: Liliana Marconi / Adriana D´Amelio
Descargar