5.1 Distribuciones frecuenciales El objetivo de la estadística es estudiar los datos obtenidos de una muestra y a partir de ellos aprender sobre el comportamiento de una población, respecto a ciertas características. El estudio incluye la recopilación, la descripción y el análisis del conjunto de datos, convirtiéndolos en información objetiva que genera conocimiento. La parte de la estadística que describe, analiza y representa al conjunto de datos, mediante métodos numéricos y gráficos que muestran y sintetizan información a partir de los datos, se conoce con el nombre de estadística descriptiva. 5.1.1 Población y muestra Población En general, una población es un grupo de seres vivos de una especie particular, que vive en un área o espacio, y cuyo número de habitantes se determina normalmente mediante un censo. En estadística, la noción de población es más amplia; se define como el conjunto total de elementos sobre los cuales se pueden realizar observaciones respecto a cierta o ciertas características comunes, y así obtener conclusiones al respecto. Es claro que una población estadística no se restringe a seres vivos, ni a un área o espacio. Tamaño de la población El tamaño de la población es el número de elementos que la constituyen; según el número de elementos la población puede ser finita o infinita. Una población finita es, por ejemplo, el conjunto de estudiantes de la Facultad de Ingeniería de la UNAM. Y convencionalmente, cuando el número de elementos de la población es muy grande, ésta se puede considerar como población infinita; por ejemplo, el número de granos de arena en una playa. El propósito de un censo de población siempre es determinar el número de personas que constituyen un grupo, generalmente de un país, cada cierto período determinado; en tal caso, la población estadística comprende a todos habitantes del grupo o país. Por lo general, el censo de población se aprovecha para obtener datos demográficos, económicos y sociales relativos a esos habitantes, expresados en términos numéricos. Es claro que un censo implica demasiado trabajo, tiempo y costo; resulta impráctico y absurdo observar a la totalidad de los elementos de una población, sistemáticamente. Muestra En lugar de examinar la población entera, se estudia solo una parte del grupo, una colección de algunos elementos de la población, no de todos. El subgrupo de población que será estudiado experimentalmente en detalle se llama muestra y, para que sea representativa, debe contener las características relevantes de esa población. Así mismo, las conclusiones que se obtengan de dicha muestra solo podrán referirse a la población de donde se obtuvo la muestra. El estudio de una muestra es más sencillo que el estudio de la población completa, cuesta menos y lleva menos tiempo. Más aún, se considera que el estudio exhaustivo de una población entera es más susceptible de errores que un estudio muestral, por lo que, en algunos casos, el muestreo puede elevar el nivel de calidad de la información obtenida. La estadística descriptiva estudia únicamente muestras, ordenando, clasificando y describiendo los datos de cada muestra. Muestra aleatoria Una muestra aleatoria es una muestra obtenida de una población estadística, de modo que todos los elementos de la población tienen la misma probabilidad de ser elegidos y los elementos elegidos de la muestra son seleccionados de modo independiente. Una población es un todo y una muestra es una fracción o segmento de ese todo, de modo que ambos son conceptos relativos. Los datos recogidos de una muestra son transformados en información sobre la población representada por la muestra. Se trabaja con una muestra aleatoria de una población cuyo tamaño es mayor que el de la muestra obtenida, de manera que tal muestra aleatoria aislada no es más que una de muchas muestras diferentes que se habrían podido obtener mediante el proceso de selección. El que la muestra sea representativa de la población no significa que la distribución de los elementos de la muestra coincida exactamente con los de la población total. Existen otros tipos de muestras no aleatorias, denominadas muestras de juicio, que se basan en la experiencia que alguien tiene sobre la población y se usan como guía para decidir como tomar una muestra aleatoria más adelante. Tamaño de la muestra El tamaño de la muestra es el número de elementos que componen la muestra y necesarios para que los datos obtenidos sean representativos de la población. Notación: n Características Las características de interés en una población pueden ser cualitativas, tales como el sexo y la nacionalidad de una persona; o pueden ser cuantitativas, como el espesor y la porosidad de un estrato geológico. Lo relevante es que todos los elementos de la población poseen esas características y son éstas las que se estudian en cada elemento de la muestra, con valores que son comparables entre sí y susceptibles de análisis. Variables Las características cuantitativas se denominan variables y pueden ser expresadas numéricamente, como la presión arterial sistólica o el número de hijos varones. Los diferentes valores numéricos que puede tomar una característica cuantitativa constituyen el dominio de definición de la variable. Cuando la variable puede tomar solamente un valor se llama constante, como la aceleración de la gravedad en determinado punto de la superficie terrestre. Los valores de la variable se expresan numéricamente y son observados sobre los elementos de la muestra. Si la característica de interés puede ser medida, se trata de una variable continua, tal como el peso o la talla de un individuo; para asignar los valores de la variable, es necesario concretar la escala de medición que conviene utilizar en cada caso. Si la característica no es medible, sino solamente numerable, se trata de una variable discreta, tal como el número de veces que ocurre un suceso. Atributos Los atributos son las características cualitativas de una población, cuyas diferentes modalidades se expresan a través de nombres, pues no son susceptibles de medición. Los atributos clasifican cada observación en una de varias categorías. La situación más simple es cuando se consideran únicamente dos categorías, como hombre – mujer o fumador - no fumador. En otras ocasiones la dicotomía no es suficiente y se requiere un mayor número de categorías, como es el caso del grupo sanguíneo de una persona o la dureza de un material. Para clasificar los valores de los atributos, a veces se puede utilizar una escala ordinal, cuando es factible establecer un orden jerárquico de las categorías, como es el caso del grado de disnea de un paciente o la escala de Mohs para la dureza. La mayor parte de las veces, sin embargo, los valores de los atributos no mantienen una relación de orden entre sí, por lo que se tiene que recurrir a escalas nominales, como en el caso del color de ojos de un individuo o el su estado civil. Datos estadísticos Los datos estadísticos son los valores de alguna característica de interés, observados sobre los elementos de la muestra, los cuales pueden ser comparados, analizados e interpretados. En congruencia con los tipos de variable, los datos pueden ser numéricos o nominales. En ingeniería los datos numéricos son los más frecuentes e importantes, por lo que, en lo que sigue, se les da prioridad. Ejemplo 5.1. DURACIÓN DE LLANTAS. Una fábrica de llantas para automóvil ha probado sus llantas del tipo 225/50R16 91W bajo diferentes condiciones; se ha obtenido una muestra aleatoria de tamaño 30, que han registrado las siguientes duraciones, en miles de kilómetros. Tablas estadísticas Las tablas estadísticas son formas de presentación tabular utilizadas para organizar los datos estadísticos. En función del número de datos y el rango de datos, se pueden distinguir tres tipos de tablas estadísticas: Cuando el tamaño de la muestra y el rango son pequeños. Los datos se anotan de manera ordenada en filas o columnas. Cuando el tamaño de la muestra es grande y el rango de datos es pequeño. Existen valores de la variable que se repiten; es el caso de las variables discretas. Cuando el tamaño de la muestra y el rango de datos, ambos son grandes. Se requiere agrupar los valores de la variable en intervalos; es el caso de las variables continuas. Tabla de datos ordenados Una tabla de datos ordenados es aquella que simplemente presenta los valores de menor a mayor. Diagrama de tallos y hojas Otra forma de presentar ordenadamente un conjunto de datos de tamaño moderado es el llamado diagrama de tallos y hojas, que consiste en dividir cada valor de dato en dos partes: su tallo y su hoja; por ejemplo, si los datos son de dos dígitos, el tallo sería el dígito de las decenas y su hoja el dígito de las unidades. Así, el dato 37 tendría por tallo el 3 y por hoja el 7. 5.1.2 Intervalos de clase Los intervalos de clase se emplean cuando la variable es continua o cuando el número de valores que toma una variable discreta es grande. Rango de datos Es la diferencia entre el dato de mayor valor y el dato de menor valor: R xmax xmin R (5.1) 52.0 40.1 11.9 12 Número de intervalos El número de intervalos de clase en el que se agruparán los datos fluctúa, en la práctica, entre 5 y 15. La regla empírica de la raíz cuadrada del número de datos ha quedado en desuso y en su lugar se utiliza la regla de Sturges, dada por la expresión: k 1 log2 n (5.2) k 1 log2 30 1 ln 30 ln 2 1 4.9 5.9 6 Amplitud de clase Se obtiene dividiendo el rango de datos entre el número de intervalos de clase: di R / k (5.3) Para evitar ambigüedades en la clasificación de los datos, al calcular la amplitud de clase conviene considerar un rango de datos ligeramente mayor que el rango de datos exacto, a fin de garantizar que el dato de menor valor quede incluido en el primer intervalo de clase y el dato de mayor valor quede incluido en el último intervalo de 12 clase. di 2 6 Límites reales de clase Cada intervalo de clase tiene dos límites reales de clase; el menor de ellos se llama límite real inferior y el mayor se llamas límite real superior. Notación: Lj, j = 1, 2,..., k+1. El límite real superior de un intervalo i debe ser mayor en media unidad, una cifra significativa más, que el límite superior del intervalo i y menor en media unidad que el límite inferior del intervalo i + 1, de manera que el límite superior de un intervalo i, es también el límite real inferior del siguiente intervalo i + 1. Aquí se debe cumplir que: Li 1 Li di , i 1,2,...,k (5.4) Límites de clase Los límites de clase son los números que limitan un intervalo de clase; el menor se llama límite inferior de clase y el mayor se llama límite superior de clase. Notación: Ij, Sj, j=1,2,...,k. Los límites de clase tienen el mismo número de cifras significativas que los datos; el límite inferior del primer intervalo de clase debe ser menor o igual al menor de los datos: I1 m; y el límite superior del último intervalo de clase debe ser mayor o igual que el mayor de los datos: Sk M. El límite superior de clase de un intervalo i no coincide con el límite inferior de clase del siguiente intervalo i+1, sino que es menor en una unidad. Marca de clase Es el punto medio del intervalo de clase. Notación: xi, i = 1, 2,..., k Li Li 1 xi , i 1,2,...,k 2 Ii si xi , i 1,2,...,k 2 (5.5) Tabla de datos agrupados Es aquella en la que se anotan los datos básicos en grupos. El agrupamiento se hace con base en los intervalos de clase. 5.1.3 Frecuencias Frecuencia Es el número de veces que ocurre un evento. Si A es un evento y ocurre n(A) veces, la frecuencia de A es n(A) Frecuencia relativa Si un experimento se realiza n veces es el número de veces que se presenta el evento A, la frecuencia relativa del evento A es n(A)/n. La frecuencia relativa solo puede tomar valores entre cero y uno; 0 n(A)/n 1 Distribución de frecuencias Es toda representación de la relación entre el conjunto de eventos mutuamente exclusivos y colectivamente exhaustivos y la frecuencia de cada uno de ellos. Frecuencia de clase Es la frecuencia de cada intervalo. Notación: fi, i =1, 2,…, k La tabla de distribución de frecuencias es aquella en la que se presentan los eventos con su correspondiente frecuencia. Frecuencia relativa de clase Es la que resulta de dividir la frecuencia de un intervalo entre el número total de datos. Notación: fri, i = 1, 2,…, k La tabla de distribución de frecuencias relativas es aquella que presenta los eventos con su correspondiente frecuencia relativa. Frecuencia acumulada de clase Es la suma de las frecuencias de clase del intervalo en consideración y de los intervalos anteriores. Notación: Fi, i = 1, 2,…, k La tabla de distribución de frecuencias acumuladas es aquella en la que se presentan los eventos con sus correspondientes frecuencias acumuladas. La frecuencia acumulada del último intervalo de clase debe ser igual al número de observaciones. Frecuencia relativa acumulada de clase Es la que resulta de dividir la frecuencia acumulada de un intervalo entre el número total de observaciones. También puede obtenerse sumando a la frecuencia relativa del intervalo en consideración, las frecuencias relativas correspondientes a todos los intervalos anteriores. Notación: Fri, i = 1, 2,…, k La tabla de distribución de frecuencias relativas acumuladas es aquella en la que se presentan los eventos con sus correspondientes frecuencias relativas acumuladas. La frecuencia relativa acumulada del último intervalo debe ser igual a la unidad. Tabla de distribuciones de frecuencias 5.1.4 Caso discreto y nominal Caso discreto No tiene sentido hablar de intervalos de clase ni de límites de clase, sino simplemente de clase; cada clase representa un valor discreto de la variable. Ejemplo 5.2. FALTAS DE ASISTENCIA A CLASE. En el grupo 21 de Probabilidad y Estadística del semestre 2011-2, la lista de asistencia registra las faltas de los 49 alumnos inscritos, conforme se muestra en la siguiente tabla: Caso nominal Además de lo expuesto para el caso discreto, aquí no se puede hablar de frecuencias acumuladas. Ejemplo 5.3. CARRERA QUE ESTUDIAN. En el grupo 21 de Probabilidad y Estadística del semestre 2011-2, se tiene registro de que los alumnos inscritos están estudiando alguna de las 12 carreras que ofrece la Facultad de Ingeniería, conforme a los siguientes datos, que ya han sido presentados como tabla de frecuencias: