Universidad Salesiana de Bolivia Carrera de Ingeniería de Sistemas Ejecución del Trabajo Estadístico 2.1 Tabulación La palabra tabular significa expresar u ordenar unos datos en forma de tablas. El proceso de tabulación consiste en el recuento de los datos que están contenidos en los cuestionarios. En este proceso incluimos todas aquellas operaciones encaminadas a la obtención de resultados numéricos relativos a los temas de estudio que se tratan en los cuestionarios. Se requiere una previa codificación de las respuestas obtenidas en los cuestionarios. Realizamos tabulación, codificación y diseño de gráficos con datos biográficos, de consumo o de opinión. Los resultados serán presentados en tablas y/o mapas gráficos que expliquen las relaciones existentes entre las diversas variables analizadas. Esta presentación se adecuará a la petición de nuestros clientes mediante análisis estadísticos de datos, grabados por nosotros o por terceros, análisis bivariantes, análisis multivariantes, tests de contraste de hipótesis 2.2 ¿Qué es una distribución de frecuencia? Una distribución de frecuencias es un conjunto de puntuaciones ordenadas en sus respectivas categorías. 18 Universidad Salesiana de Bolivia Carrera de Ingeniería de Sistemas Ejecución del Trabajo Estadístico VARIABLE: CONDUCTOR REFERIDO CATEGORÍAS CÓDIGOS AMT LEM FGI MML 1 2 3 4 FRECUENCIAS 50 88 12 3 TOTAL 153 2.3 El elemento clase de la distribución de frecuencia. 2.3.1 Frecuencia de clase Se llama frecuencia de clase a la reunión de grandes cantidades de datos sueltos distribuidos en clases o categorías, determinando el número de individuos que pertenecen a cada categoría. Estatura (pulg) 60 - 62 63 - 65 66 - 68 69 - 71 72 - 74 Número de estudiantes 5 18 42 27 8 Total 100 2.3.2 Distribución de frecuencia o tabla de frecuencia Se conoce como distribución de frecuencias o tablas de frecuencias a una disposición tabular de los datos por clases con su correspondiente frecuencias de clase. 2.3.3 Datos agrupados A los datos así organizados y reunidos, como en la anterior distribución de frecuencias, se llama datos agrupados. Esto proporciona una visión amplia y clara, además de que se obtienen relacionados evidentes. 2.3.4 Intervalos de clase y límites de clase Intervalo de clase Símbolo que define una clase 19 Universidad Salesiana de Bolivia Carrera de Ingeniería de Sistemas Ejecución del Trabajo Estadístico Ejemplo: 60 - 62 , 72 - 74 límite inferior límite superior Aun intervalo de clase que, por lo menos teóricamente no tiene límite de clase inferior o superior se le llama intervalos abierto. Ejemplo: 65 años o más 2.3.5 Fronteras de clase En el ejemplo anterior el intervalo 60 – 52 incluye todas las medidas desde 59.5 pulg. y 62.5 pulg., a estos números se les llaman frontera de clase o límites verdaderos de clase. De aquí: 59.5 62.5 es la frontera inferior de clase es la frontera superior de clase 2.3.6 Tamaño o amplitud de un intervalo Es la diferencia entre las fronteras de clase inferior y superior. Si todos los intervalos de una distribución de frecuencias son de las misma amplitud, a esta amplitud común se la denota por c. Ejemplo: 62.5 - 59.5 = 3 65.5 – 62.5 = 3 2.3.7 Marca de clase La marca de clase, que es el punto medio del intervalo de clase, se obtiene promediando los límites inferior y superior de la clase. De este modo: Del ejemplo anterior tenemos el intervalo 60 - 62 Marca de la clase: (60 + 62)/2 = 61 La marca de clase es, en definitiva, el valor que representa a la información contenida en el intervalo. 20 Universidad Salesiana de Bolivia Carrera de Ingeniería de Sistemas Ejecución del Trabajo Estadístico 2.3.8 Rango Es la diferencia entre el número mayor y el número menor de os datos sueltos. Ejemplo: Supongamos que las siguientes: 64 68 73 60 68 65 68 68 alturas de plantas, en una clase de botánica son las 76 66 70 68 62 67 67 71 71 66 69 72 Luego el rango de estos datos es: R = 76 – 60 = 16 2.4 Reglas generales para construir distribución de frecuencias 1. Determinación del Rango.- Es conveniente primero determinar el rango de los datos obtenidos. 2. Determinación del número de clase.- Cosiste en dividir el rango en un número conveniente de intervalos de clase, generalmente del mismo tamaño. Es conveniente tener entre 5 y 20 intervalos de clase. Entre más datos se tengan, más intervalos de clase deben considerarse. No hay fórmula exacta para calcular el número de intervalos de clase. Este número es determinado por tentativas y aproximaciones. Sin embargo se puede, en principio tomar en cuenta lo siguiente: a) Número de clases = K = 5, si n = tamaño de la muestra <= 5 y K = √n , si n > 20 b) Fórmula de Sturges: K = 1 + 3.22 log(n) Cuando los resultados para obtener K en a) y b) son números reales con decimales, entonces se redondearán al entero inmediato mayor. 3. Determinación del tamaño de los intervalos.- Como regla general para encontrar la longitud de los intervalos (del mismo tamaño), divídase el rango de las observaciones entre el número de intervalos de clase, esto es, Amplitud de clase = C = R/K. 21 Universidad Salesiana de Bolivia Carrera de Ingeniería de Sistemas Ejecución del Trabajo Estadístico 4. Determinación de los límites de la clase.- Se debe tomar el resultado numérico más bajo de los datos originales como el límite inferior del primer intervalo de clase. Agregar C para obtener el límite superior de dicha clase. 5. Determinación de la frecuencia de clase.- Consiste en determinar el número de observaciones que caen en cada intervalo de clase. Técnicas de recuento El proceso manual de recuento se puede hacer por: 2.5 Frecuencias absoluta simple Frecuencia absoluta de un dato (fi) Llamaremos frecuencia absoluta de un valor xi de la variable estadística x, al número de veces que aparece repetido dicho valor en el conjunto de las observaciones realizadas. Ejemplo Se quiere saber el número de hijos por matrimonio de un pequeño poblado. Para este propósito, se elige una muestra representativa de 50 matrimonios de ella se obtienen los siguientes datos: 2,2,4,1,3,5,3,2,1,6,3,4,1,2,0,2,3,1,7,4,2,3,0,5,1,4,3 , 2 , 4 , 1 , 5, 2 , 1 , 2 , 4 , 0 , 3 , 3 , 2 , 6 , 1 , 5 , 4 , 2 , 0 , 3 , 2 , 4 , 3 , 1 xi 0 1 2 3 4 5 6 7 fi 4 9 12 10 8 4 2 1 22 Universidad Salesiana de Bolivia Carrera de Ingeniería de Sistemas Ejecución del Trabajo Estadístico Frecuencia absoluta acumulada de un dato (Fi) La frecuencia absoluta acumulada indica cuantos elementos de la lista de datos son menores o iguales a un valor dado. Es la suma de las frecuencias absolutas desde la primera fila hasta la fila elegida. Por ejemplo anterior, sabemos que hay 25 matrimonios de la muestra que tienen 2 o más hijos. xi 0 1 2 3 4 5 6 7 fi 4 9 12 10 8 4 2 1 Fi 4 13 25 35 43 47 49 50 2.6 Frecuencia relativa Frecuencia relativa de un dato ( hi ) La frecuencia relativa es el cociente entre la frecuencia absoluta ( fi ) y el número total de datos ( n ). hi = fi /n En nuestro ejemplo: xi 0 1 2 3 4 5 6 7 fi 4 9 12 10 8 4 2 1 Fi 4 13 25 35 43 47 49 50 hi 0,08 0,18 0,24 0,20 0,16 0,08 0,04 0,02 Frecuencia relativa acumulada de un dato ( Hi ) La frecuencia relativa acumulada es el cociente entre la frecuencia absoluta acumulada ( F i ) y el número total de datos ( n ). 23 Universidad Salesiana de Bolivia Carrera de Ingeniería de Sistemas Ejecución del Trabajo Estadístico En nuestro ejemplo: xi 0 1 2 3 4 5 6 7 fi 4 9 12 10 8 4 2 1 Fi 4 13 25 35 43 47 49 50 hi 0,08 0,18 0,24 0,20 0,16 0,08 0,04 0,02 Hi 0,08 0,26 0,50 0,70 0,86 0,94 0,98 1,00 2.7 Representación grafica de variables cuantitativas Las más usadas son: 1. Diagrama de barras. Esta forma de representación gráfica es propia de las distribuciones que tienen muchas observaciones pero pocos valores distintos de la variables. Dicho diagrama se elabora colocando en el eje de las abscisas los distintos valores de la variable y sobre cada una de ellas se levanta una línea perpendicular, cuya altura es la frecuencia (absoluta o relativa) de dicho valor. 24 Universidad Salesiana de Bolivia Carrera de Ingeniería de Sistemas Ejecución del Trabajo Estadístico 2. Histogramas. Es una representación gráfica de una distribución de frecuencia agrupaciones en intervalos de clase, mediante una serie de rectángulos contiguos que tienen: a) Sus bases sobre un eje horizontal (eje de las X) con centros en las marcas de clase y longitud igual al tamaño de los intervalos de clase. b) Las alturas proporcionales a la frecuencia (absoluta o relativa) tomados sobre el eje de las Y. A veces conviene más graficar en el histograma las frecuencias relativas en lugar de las frecuencias absolutas. En este caso, la altura correspondiente a cada rectángulo que habrá que levantar sobre el eje de ordenadas será el cociente entre la frecuencia relativa del mismo y la amplitud del intervalo. El único cuidado que debe tenerse es que el área total del histograma sea igual a 1, correspondiente a la suma total de áreas de cada rectángulo. Se utiliza cuando se estudia una variable continua, como franjas de edades o altura de la muestra, y, por comodidad, sus valores se agrupan en clases, es decir, valores continuos. En los casos en los que los datos son cualitativos (no-numéricos), como sexto grado de acuerdo o nivel de estudios, es preferible un diagrama de sectores. Los histogramas son más frecuentes en ciencias sociales, humanas y económicas que en ciencias naturales y exactas. Y permite la comparación de los resultados de un proceso. 25 Universidad Salesiana de Bolivia Carrera de Ingeniería de Sistemas Ejecución del Trabajo Estadístico Puntajes X frecuencia absoluta Marca de Clase 11 – 17 6 14 17 – 23 4 20 23 – 29 15 26 29 – 35 13 32 35 – 41 1 38 41 – 47 1 44 Total 40 3. Polígono de frecuencia a) Si la variable es discreta, el polígono de frecuencia se obtienen uniendo los extremos superiores de las barra en el diagrama de barras 26 Universidad Salesiana de Bolivia Carrera de Ingeniería de Sistemas Ejecución del Trabajo Estadístico b) Si la variable está agrupada en intervalos de clase, el polígono de frecuencia se obtiene uniendo los puntos medios de las bases superiores de cada rectángulo en el histograma. 4. Polígono de frecuencia acumuladas u ojiva Esta representación es válida para variables estadísticas agrupadas en intervalo clase. En el eje de las abscisas representamos los distintos intervalos de clase que han de estar naturalmente traslapados. En el extremo superior de cada 27 Universidad Salesiana de Bolivia Carrera de Ingeniería de Sistemas Ejecución del Trabajo Estadístico intervalo se levanta una vertical con altura igual a la frecuencia (absoluta y relativa) acumulada, luego se unen los extremos superiores de las verticales con segmentos rectilíneos. Así por ejemplo el polígono de frecuencia acumuladas absolutas alcanzará su máxima altura en el último intervalo. 2.8 Representación de variables cualitativas a) Diagrama de rectángulos o de Barras Se representa en el eje de las abscisas los distintos caracteres cualitativos y se levantan sobre ellos rectángulos de bases iguales que no tiene porque estar traslapados y cuya altura será igual a la frecuencia absoluta correspondiente. Ejemplo: FACULTAD Ingeniería Metalúrgica Economía Ingeniería Industrial Contabilidad Derecho Ciencias de la Comunicación Ingeniería de Sistemas Ciencias Administrativas NUMERO DE ALUMNOS 200 1500 3000 800 700 900 400 600 28 Universidad Salesiana de Bolivia Carrera de Ingeniería de Sistemas Ejecución del Trabajo Estadístico Ejemplo: Causa del Accidente Sexo Masculino Femenino Total Accidentes de transporte 1145 232 1377 Sumersión accidental 346 92 438 Caída 242 101 343 Envenenamientos 58 43 101 Otros accidentes 653 311 964 2444 779 3223 TOTAL 29 Universidad Salesiana de Bolivia Carrera de Ingeniería de Sistemas Ejecución del Trabajo Estadístico b) Diagramas de sectores o Gráfico Sectorial Es una representación de un conjunto de datos estadísticos, en un círculo, por medio de sectores circulares. Es utilizado principalmente cuando se pretende comparar cada valor de la variable con el total. Causa del Accidente Sexo Masculino Femenino Total Accidentes de transporte 1145 232 1377 Sumersión accidental 346 92 438 Caída 242 101 343 Envenenamientos 58 43 101 Otros accidentes 653 311 964 2444 779 3223 TOTAL 30 Universidad Salesiana de Bolivia Carrera de Ingeniería de Sistemas Ejecución del Trabajo Estadístico c) Pictogramas Es un gráfico con dibujos alusivos al carácter que se está estudiando y cuyo tamaño es proporcional a la frecuencia que representan; dicha frecuencia se suele indicar. ¿En qué mes se plantaron menos árboles?, ¿y en cuál se hicieron más plantaciones? 31