Métodos Estadı́sticos de la Ingenierı́a Tema 2: Representaciones Gráficas Grupo B Área de Estadı́stica e Investigación Operativa Licesio J. Rodrı́guez-Aragón Enero 2010 Contenidos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 Gráficos para un Carácter Cualitativo Diagrama de Rectángulos, Bar Plot . . . . Diagramas de Rectángulos con R . . . . . Diagrama de Sectores, Pie Chart. . . . . . Diagrama de Sectores con R . . . . . . . . . Pictograma . . . . . . . . . . . . . . . . . . . . . Cartograma . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 4 5 6 7 8 9 Ordenación de datos de Carácter Cuantitativo 10 Intervalos y Marcas de Clase. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11 Ejemplo: Ingresos Anuales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12 Gráficos para un Carácter Cuantitativo Diagrama de Barras, Bar Plot. . . . . . . . . . . . Diagrama de Barras con R . . . . . . . . . . . . . . Histograma, Histogram. . . . . . . . . . . . . . . . . Histograma con R . . . . . . . . . . . . . . . . . . . . Polı́gonos de Frecuencias, Frequency Polygon . Frecuencias Acumuladas, Ogive. . . . . . . . . . . Tallo y Hojas, Stem and Leaf . . . . . . . . . . . . Tallo y Hojas con R . . . . . . . . . . . . . . . . . . . Box Plot . . . . . . . . . . . . . . . . . . . . . . . . . . . Box Plot con R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13 14 15 16 17 18 19 20 21 22 23 Contenidos Representaciones Gráficas para un Carácter Cualitativo. – Rectángulos, Sectores, Pictogramas y Cartogramas. – Bar Plot, Pie Chart, Pictograph and Cartograph. Ordenación de datos de un Carácter Cuantitativo. Representaciones Gráficas para un Carácter Cuantitativo. – Diagrama de barras, tallo y hojas, histograma, polı́gono de frecuencias, diagramas de frecuencias acumuladas, polı́gonos de frecuencias acumuladas y Box Plot. – Bar Plot, Stem-and-leaf, Histogram, Frequency Polygon, Ogive, Box Plot La Representación Gráfica de los datos contribuye a facilitar su “lectura” una vez ordenados y agrupados. Once the data have been sorted and grouped together, Plots and Charts makes it easier to read them. Licesio J. Rodrı́guez-Aragón Tema 2, M.E.I. – 2 / 23 3 / 23 Gráficos para un Carácter Cualitativo Diagrama de Rectángulos, Bar Plot 0.2 Frecuencia 0 0.0 0.1 5 Frecuencia 10 0.3 0.4 15 Sobre el eje de Abcisas se representan las distintas modalidades de un carácter cualitativo y se levantan sobre ellos rectángulos de bases iguales, no solapados y cuya altura es proporcional a la frecuencia Absoluta o Relativa de cada modalidad. nd Pr Se Su nd Formación Pr Se Su Formación Licesio J. Rodrı́guez-Aragón Tema 2, M.E.I. – 4 / 23 2 Diagramas de Rectángulos con R Datos referentes a la formación de trabajadores de una empresa: > + + + + > > + form<-c('nd','Pr','Pr','Se','Su','Pr','Pr','Se', 'Su','Se','Su','Se','Su','Se','Su','Pr','Pr', 'Pr','Pr','Se','Su','Se','Su','Se','Su','Se', 'Su','Pr','Pr','Pr','Pr','Pr','Pr','Pr','Pr', 'Se','Se') barplot(table(form),xlab="Formación",ylab="Frecuencia") barplot(table(form)/length(form),xlab="Formación", ylab="Frecuencia") Licesio J. Rodrı́guez-Aragón Tema 2, M.E.I. – 5 / 23 Diagrama de Sectores, Pie Chart Sobre un cı́rculo, se asigna a cada una de las modalidades un sector circular con amplitud proporcional a la frecuencia (absoluta o relativa). Amplitudi = 360◦ × ni = 360◦ × fi n Pr nd Se Su Licesio J. Rodrı́guez-Aragón Tema 2, M.E.I. – 6 / 23 3 Diagrama de Sectores con R A chart made by plotting the numeric values of a set of quantities as a set of adjacent circular wedges with arc lengths proportional to the total amount. > pie(table(form)) Licesio J. Rodrı́guez-Aragón Tema 2, M.E.I. – 7 / 23 Pictograma Cada modalidad se representa mediante un dibujo de tamaño proporcional a la frecuencia de la misma. Todos los dibujos empleados son del mismo tamaño, a cada modalidad se le asignan tantos dibujos o partes del mismo según su frecuencia. Licesio J. Rodrı́guez-Aragón Tema 2, M.E.I. – 8 / 23 4 Cartograma Representación por medio de un mapa. Licesio J. Rodrı́guez-Aragón Tema 2, M.E.I. – 9 / 23 5 10 / 23 Ordenación de datos de Carácter Cuantitativo Intervalos y Marcas de Clase En las observaciones de un Carácter Cuantitativo puede ocurrir: La variable estadı́stica tome pocos valores diferentes. The statistical variable takes few different values. Confeccionar la tabla de frecuencias ordenando los valores del carácter de menor a mayor: Carácter Ci C1 C2 .. . Cm Total P ni n1 n2 .. . Ni N1 = n1 N2 .. . nm ni = n Nm = n P fi f1 f2 .. . Fi F1 = f1 F2 .. . fm fi = 1 Fm = 1 La variable estadı́stica tome muchos valores diferentes, caracteres cuantitativos continuos y muestras de gran tamaño. Agrupar los valores de la variable estadı́stica en Intervalos de Clase, Class Interval or Bin, contiguos y elegidos convenientemente para perder la mı́nima información posible. Los extremos de los intervalos de clase se denominan Extremos de Clase, bi , Class Limits, y sus puntos medios Marcas de Clase, xi , Class Mark. El número de Intervalos de Clase se elige entre 4 y 15 de forma que en cada intervalo haya al menos 5 observaciones. Los Intervalos de Clase no pueden solaparse, Class Intervals shouldn’t overlap. Intervalo de Clase: [bi−1 , bi ). Marca de Clase: xi = bi−1 +bi . 2 [b1 , b2 ) [b2 , b3 ) .. . [bm−1 , bm ] Total xi x1 x2 .. . xm P ni n1 n2 .. . Ni N1 = n1 N2 .. . nm ni = n Nm = n Licesio J. Rodrı́guez-Aragón P fi f1 f2 .. . Fi F1 = f1 F2 .. . fm fi = 1 Fm = 1 Tema 2, M.E.I. – 11 / 23 6 Ejemplo: Ingresos Anuales 66814.19 61674.64 78121.21 69897.92 59618.82 42144.33 53451.35 28781.49 58590.90 25697.76 25697.76 16446.57 12334.92 52423.44 26725.67 35976.87 39060.60 13362.83 9867.94 35976.87 7195.37 45947.61 54479.26 43172.24 25697.76 51395.53 87372.40 71953.74 48311.80 6475.83 [bi−1 , bi ) [0, 20000) [20000, 40000) [40000, 60000) [60000, 80000) [80000, 100000] Total xi 10000 90000 ni P Ni fi 30 P ni = 30 Fi 1 fi = 1 Licesio J. Rodrı́guez-Aragón Tema 2, M.E.I. – 12 / 23 13 / 23 Gráficos para un Carácter Cuantitativo Diagrama de Barras, Bar Plot 0.3 Frecuencia 0.2 6 2 0.1 4 Frecuencia 8 0.4 10 0.5 Se utiliza para representar variables estadı́sticas no agrupadas, las alturas de las barras deben ser proporcionales a las frecuencias, absolutas o relativas. La suma de la altura de las barras deberá ser n o 1. 119.0 119.5 120.0 120.5 121.0 121.5 122.0 119.0 Nº Vueltas 119.5 120.0 120.5 121.0 121.5 122.0 Nº Vueltas Licesio J. Rodrı́guez-Aragón Tema 2, M.E.I. – 14 / 23 7 Diagrama de Barras con R Número de vueltas completas en 1 m de barra roscada. > pvuelta<-c(120, 121, 120, 119, 121, 120, 120, 119, + 120, 121,120, 120, 122, 120, 121, 120, 119, + 122, 120, 119) > barplot(table(pvuelta),space=c(100,2)) > barplot(table(pvuelta)/length(pvuelta),space=c(100,2)) Licesio J. Rodrı́guez-Aragón Tema 2, M.E.I. – 15 / 23 Histograma, Histogram Se utiliza para representar las frecuencias absolutas o relativas cuando los datos están agrupados, el área de los rectángulos será proporcional a las frecuencias. La suma de las áreas deberá ser n o 1. Densidades de Frecuencias: altura de los rectángulos. hi = ni fi , o bien hi = bi+1 − bi bi+1 − bi Cuidado cuando la amplitud de los Intervalos de Clase no sean del mismo tamaño. Histogram: The grouping of data into bins (spaced apart by the so-called class interval) plotting the number of members in each bin versus the bin number. 1.0e−05 Densidad de Frecuencia 0.0e+00 5.0e−06 1.0e−05 5.0e−06 0.0e+00 Densidad de Frecuencia 1.5e−05 Histograma de Ingresos 1.5e−05 Histograma de Ingresos 0e+00 2e+04 4e+04 6e+04 8e+04 1e+05 0 Ingresos 20000 40000 60000 80000 Ingresos Histogramas de los Ingresos Anuales. El área de cada rectángulo, es proporcional a la frecuencia relativa, fi . La suma de las áreas de los rectángulos es 1. Licesio J. Rodrı́guez-Aragón Tema 2, M.E.I. – 16 / 23 8 Histograma con R > + + + + + > + + > > > > > Ingresos<-c(66814.195,42144.338,25697.767,35976.874,39060.606, 13362.839,61674.641,53451.356,16446.571,9867.943,35976.874, 7195.375,78121.212,28781.499,12334.928,459476.077,54479.266, 43172.249,69897.927,58590.909,52423.445,25697.767,51395.534, 87372.408,59618.820,25697.767,26725.678,71953.748,48311.802, 6475.837) histograma<-hist(Ingresos,breaks=seq(0,100000,by=20000), freq=FALSE,main="Histograma de Ingresos", ylab="Densidad de Frecuencia") histograma histograma$breaks histograma$counts histograma$intensities histograma$mids Licesio J. Rodrı́guez-Aragón Tema 2, M.E.I. – 17 / 23 9 Polı́gonos de Frecuencias, Frequency Polygon Si los datos están sin agrupar, se obtienen uniendo los extremos de las barras. 6 2 4 Frecuencia 8 10 119.0 119.5 120.0 120.5 121.0 121.5 122.0 Nº Vueltas Si los datos están agrupados, se obtiene uniendo los puntos medios superiores de los rectángulos y en los extremos con los puntos medios de las alturas de los rectángulos. Área bajo el polı́gono n o 1. 1.0e−05 5.0e−06 0.0e+00 Densidad de Frecuencia 1.5e−05 Histograma de Ingresos −20000 0 20000 40000 60000 80000 100000 120000 Ingresos Licesio J. Rodrı́guez-Aragón Tema 2, M.E.I. – 18 / 23 10 Frecuencias Acumuladas, Ogive 0.6 0.4 Frecuencia Acumulada 10 0 0.0 0.2 5 Frecuencia Acumulada 15 0.8 20 1.0 En el caso de datos sin agrupar se utiliza el Diagrama de Frecuencias Acumuladas. 118 119 120 121 122 123 118 119 120 Nº Vueltas 121 122 123 Nº Vueltas 0.6 0.8 0 0.0 5 0.2 0.4 Frecuencia Acumulada 20 15 10 Frecuencia Acumulada 25 30 1.0 Si los datos están agrupados se utiliza el Polı́gono de Frecuencias Acumuladas. −20000 0 20000 40000 60000 80000 100000 120000 −20000 Ingresos 0 20000 40000 60000 80000 100000 120000 Ingresos Ogive: Any continuous cumulative frequency curve, such as the ones illustrated above in the figures. Licesio J. Rodrı́guez-Aragón Tema 2, M.E.I. – 19 / 23 11 Tallo y Hojas, Stem and Leaf Procedimiento semigráfico útil con menos de 50 datos. Redondear los datos a dos o tres cifras significativas. Disponerlos en una tabla con dos columnas, tallo y hojas. Cada tallo se escribe sólo una vez. El número de hojas representa la frecuencia de cada clase. 0|67 1|0236 2|66679 3|669 4|2368 Ingresos Anuales 5|12349 6|027 7|028 8|7 El punto decimal se sitúa 4 posiciones a la derecha de |. Licesio J. Rodrı́guez-Aragón Tema 2, M.E.I. – 20 / 23 12 Tallo y Hojas con R Menú Paquetes, Instalar Paquetes..., elegir Mirror e instalar UsingR. > library(UsingR) > ingresos <- cfb$INCOME[1:15] > stem(ingresos) The decimal point is 4 digit(s) to the right of the | 0 2 4 6 | | | | 70236 69669 23 278 > ingresos [1] 66814.195 42144.338 25697.767 35976.874 39060.606 13362.839 61674.641 [8] 53451.356 16446.571 9867.943 35976.874 7195.375 78121.212 28781.499 [15] 12334.928 Licesio J. Rodrı́guez-Aragón Tema 2, M.E.I. – 21 / 23 13 Box Plot Permite mostrar la distribución de los datos de una muestra. Está especialmente indicado para detectar valores atı́picos, outliers. Mediana, Median , lı́nea central, Q2 . Primer y Tercer Cuartiles, Quartiles , lı́mites de la caja, Q1 , Q2 . Ingresos Anuales Modificado 0e+00 20000 1e+05 40000 2e+05 3e+05 60000 4e+05 80000 Ingresos Anuales Lı́mites superior e Inferior, LI = Q1 − 1.5(Q3 − Q1 ), LS = Q3 + 1.5(Q3 − Q1 ). Se considerarán como valores atı́picos los valores fuera del intervalo (LI, LS). Dibujar las lı́neas que van desde los extremos de la caja hasta el valor más extremo, no atı́pico. Ingresos Anuales Modificado 0e+00 20000 1e+05 40000 2e+05 3e+05 60000 4e+05 80000 Ingresos Anuales Licesio J. Rodrı́guez-Aragón Tema 2, M.E.I. – 22 / 23 14 Box Plot con R library(UsingR) ingresos <- cfb$INCOME[1:15] boxplot(ingresos) ingresos <- cfb$INCOME[1:16] boxplot(ingresos) 0e+00 10000 1e+05 30000 2e+05 50000 3e+05 4e+05 70000 > > > > > Licesio J. Rodrı́guez-Aragón Tema 2, M.E.I. – 23 / 23 15