Estadística Estadística Descriptiva 1 ESTADÍSTICA DESCRIPTIVA 1.1 OBJETO DE ESTUDIO Y TIPOS DE DATOS La estadística descriptiva es un conjunto de técnicas que tienen por objeto organizar y presentar de manera conveniente para su análisis, la información contenida en una muestra. Dentro de ella existen básicamente tres tipos de técnicas: - Distribución de Frecuencias - Gráficas - Parámetros numéricos La estadística descriptiva, en general es bastante sencilla, aunque no por ello deja de ser interesante y sobre todo importante. Es así que si a través de la estadística buscamos obtener conclusiones acerca de toda una población a partir de la información contenida en una muestra, parece claro que no es posible hacerlo si no somos capaces primeramente de describir el comportamiento del conjunto de datos que tenemos a la mano. Esto es, no podemos pretender describir o intuir lo que ocurre con lo desconocido, si no somos capaces de describir y analizar primero lo que sucede con lo que sí conocemos. De ahí la importancia de la estadística descriptiva. Como se mencionó antes, la estadística descriptiva es un conjunto de técnicas, pero cabe aclarar que dichas técnicas no son excluyentes, sino complementarias, sin embargo dependiendo del tipo de datos que se desee manejar, no siempre es posible utilizarlas todas. Identifiquemos entonces entre datos cualitativos y cuantitativos. Los datos cualitativos se refieren, como su nombre lo dice, a información sobre cualidades o características del experimento, que en ocasiones pueden estar representados por números, mientras que los datos cuantitativos son, necesariamente, datos numéricos. Existe la tendencia a pensar que todos los datos numéricos son datos cuantitativos, sin embargo esto no es así. En un proceso de medición se pueden identificar cuatro diferentes escalas de medidas: M. en I. Isabel Patricia Aguilar Juárez 15 Estadística Estadística Descriptiva a) Nominal: Es el nivel más primitivo de medición. En esta escala los números se utilizan como nombres y no como cantidades o magnitudes. Por lo tanto los datos medidos en escala nominal son datos cualitativos aún siendo datos numéricos. b) Ordinal: En la escala ordinal los diferentes valores observados representan diferentes niveles de posesión de la característica observada, entre las diferentes unidades, aunque no es posible comparar dichos niveles a través de los valores observados. Esto significa que los datos aunque no son comparables se pueden ordenar. Un ejemplo de mediciones con esta escala son las observaciones del status económico de una persona (alto, medio, bajo, etc.). Podrían considerarse las mediciones realizadas en esta escala como datos cualitativos. c) Intervalar: Es una forma más fina de medir, que la escala ordinal y desde luego que la nominal. Los datos medidos en esta escala representan la magnitud de las diferencias entre distintas unidades observadas, aunque las mediciones aún no son del todo comparables. Por otro lado, el cero en esta escala de medición es arbitrario y no implica la ausencia total de la característica medida. Por ejemplo considere mediciones relacionadas con el coeficiente intelectual de diferentes personas, a partir de dichas mediciones no se puede considerar que una persona A que tiene el C.I. del doble de otra B, sea doblemente inteligente que B. Otro ejemplo es la medición de temperaturas en grados Fahrenheit. Aunque la diferencia entre 20oF y 45oF es la misma que entre 90oF y 105oF, sin embargo en cuanto a la cantidad de calor, 90oF no es el doble que 45oF y 0oF no significa ausencia de temperatura. d) De razón: La escala de razón es una escala intervalar, únicamente que considera un cero absoluto, esto es, los números medios representan igual número de unidades de distancia del cero absoluto, por lo tanto las observaciones se pueden comparar a través de razones o porcentajes. Como ejemplos se puede mencionar las mediciones del tiempo, la temperatura y la distancia entre otras. Como se mencionó anteriormente, el tipo de datos que se maneja en una investigación limita la utilización de algunos métodos estadísticos para el análisis de la información. Así, para describir datos cualitativos lo usual es utilizar métodos gráficos, ya que por las características de las otras técnicas, no es posible aplicarlas con ese tipo de M. en I. Isabel Patricia Aguilar Juárez 16 Estadística Estadística Descriptiva información, mientras que para analizar datos cuantitativos (intervalares o de razón) pueden aplicarse los tres tipos de técnicas mencionadas anteriormente y en este caso, como se dijo antes, se apoyan unas con otras, para lograr una mejor y más amplia descripción del conjunto de datos. En muchas ocasiones no es posible elegir la escala en la que se desea efectuar las mediciones, sino que esta está determinada por el tipo de experimento que se observará. De cualquier manera, el objetivo de presentar las cuatro escalas de medición no es preocuparse por realizar una clasificación precisa de los datos en alguna de las cuatro escalas, ya que en muchos casos puede haber ambigüedad y no resulta un problema sencillo, sino únicamente identificar entre los distintos tipos de datos que usualmente se manejan, con el fin de determinar el tipo de técnicas utilizables en el análisis de la información, así como cuidar la interpretación que se haga de los datos y de los resultados que a partir de ellos se generen. Describiremos a continuación cada una de las técnicas de la estadística descriptiva, así como su aplicabilidad de acuerdo al tipo de datos que constituyan la muestra. 2.2 DISTRIBUCIÓN DE FRECUENCIAS La construcción de Tablas de Distribución de Frecuencias es una técnica muy usual en la estadística ya que hace más eficiente el análisis de conjuntos grandes de datos. La tabla de distribución de frecuencias se utiliza principalmente para el análisis de datos cuantitativos, no obstante, también es común realizar agrupaciones de datos cualitativos, aunque realmente tales agrupaciones no son tablas de distribución de frecuencias propiamente dichas, sino solamente una organización de la información en la que el objetivo es cuantificar el número de veces que se observó cada unidad de información. M. en I. Isabel Patricia Aguilar Juárez 17 Estadística Estadística Descriptiva Ejemplo 1.1 En los estudios demográficos de un país suele ser de interés la población de cada una de las diferentes razas: Blanca, China, Arabe, India, Negra, Mestiza. Se selecciona de manera aleatoria un grupo de 2500 personas de la población del país y se investiga cuál es su origen. Los resultados se obtendrían de manera personal, ya que serían las respuestas a la pregunta cuál es su raza de orígen?, sin embargo, un primer intento para analizar la información es agruparla, y el resultado sería una tabla como la siguiente: Raza del encuestado Número de personas Blanca 500 China 800 Arabe 300 India 250 Negra 300 Mestiza 350 Definición 1.1: Una tabla de distribución de frecuencias es una clasificación de los datos en clases o categorías de acuerdo a sus valores. Este tipo de clasificación es común en la presentación de datos económicos, censales, etc. Un ejemplo típico de una tabla de distribución de frecuencias es la que se muestra a continuación. M. en I. Isabel Patricia Aguilar Juárez 18 Estadística Límites de clase -2 7 16 25 34 43 x< 7 x < 16 x < 25 x < 34 x < 43 x < 52 Tabla 1.1 Estadística Descriptiva Marcas de clase xi 2 11 20 29 38 47 Frecuencia Frecuencia Frecuencia acumulada relativa fi Fi fi* 2 2 0.05 4 6 0.1 7 13 0.175 14 27 0.35 8 35 0.2 5 40 0.125 40 Tabla clásica de distribución de frecuencias. Frecuencia relativa acumulada Fi* 0.05 0.15 0.325 0.675 0.875 1.000 Como se puede observar, una tabla completa de distribución de frecuencias consta de seis columnas cuyo contenido se explicará enseguida. Si aceptamos que en la construcción de una tabla de distribución de frecuencias se realizará una clasificación de los datos, resulta claro que es indispensable contar, primeramente, con el criterio de clasificación a utilizar, mismo que se define a través de los límites de clase ó bien mediante las fronteras de clase. Límites de clase: Constituyen un intervalo semiabierto ( cerrado por la izquierda y abierto por la derecha). Los datos en la muestra, que sean mayores o iguales al límite inferior de la clase y menor que el límite superior de ella misma, pertenecerán a la clase en cuestión. Los límites de clase tendrán la misma aproximación que los datos, es decir: Aproximación de los datos enteros décimas centésimas Aproximación de los límites enteros décimas centésimas Con este criterio se puede deducir de la tabla 1.1 que los datos que en ella se agruparon eran todos números enteros. M. en I. Isabel Patricia Aguilar Juárez 19 Estadística Estadística Descriptiva Para que la agrupación sea válida, absolutamente todos los datos en la muestra se deben poder clasificar con el criterio dado por los límites, esto significa que ninguno debe estar fuera de esta clasificación. Por lo tanto, también podemos estar seguros de que en la supuesta muestra agrupada en la tabla 1.1, ningún dato es menor que -2 como tampoco existe ningún dato mayor que 52. Marca de clase (xi): Es el punto medio del intervalo de clase y se considera representativo de los datos en dicha clase. Frecuencia (fi): Es el número de datos de la muestra que corresponden a la clase en cuestión. Para determinar la frecuencia de una clase, basta con realizar un conteo del número de observaciones en la muestra, identificando aquellos datos que caen dentro del intervalo indicado por los límites de clase. Frecuencia acumulada (F i): Es el número de datos en la muestra cuyo valor es menor que el límite superior de la clase en cuestión. Para calcular Fi basta contabilizar las frecuencias observadas en la clase de interés y las anteriores. Esto es, i Fi = ∑ f j j =1 Frecuencia relativa (fi* ): Es la proporción de los datos en la muestra que pertenecen a la clase en cuestión. Si denotamos por n al número de datos en la muestra y a i como el número de la clase, la frecuencia relativa se expresa como sigue: f *i = fi = fi m n ∑f j j=1 en donde m es el número de clases construidas en la tabla de distribución de frecuencias. Podríamos identificar en este momento una primera relación entre la probabilidad y la estadística, ya que si recordamos, la interpretación frecuentista de la probabilidad define la probabilidad de un evento como la frecuencia relativa con la que dicho evento M. en I. Isabel Patricia Aguilar Juárez 20 Estadística Estadística Descriptiva ocurre en un número grande de repeticiones del experimento bajo estudio, por lo tanto, si nuestra muestra fuera grande, podríamos pensar que la frecuencia relativa de clase se aproximaría a la probabilidad de que la v.a. poblacional tome valores en dicha clase. Evidentemente, se tendrá una mejor aproximación cuanto más grande sea la clase. Frecuencia relativa acumulada (F i*): Es la proporción de los datos en la muestra que son menores que el límite superior de la clase en cuestión. Fi Fi F*i = = m n ∑f j j =1 en donde nuevamente m es el número de clases construidas. Por extensión, se puede concluir que la frecuencia acumulada relativa se asemeja a la función de distribución, y que la semejanza será mayor siempre que la muestra sea más grande. Lontigud de la clase: Se denota por c y es la diferencia entre los límites superior e inferior de una misma clase. En este momento estamos en condiciones de interpretar la información contenida en una tabla de distribución de frecuencias, sin embargo queda aún sin resolver el problema importante de la construcción de una de ellas, a partir de un conjunto de datos. Es claro que la agrupación de datos en tablas es ventajosa puesto que permite analizar la información contenida en la muestra, de una manera más sencilla, dado que disminuye el volumen de información con la que tendrá que trabajar, sin embargo tiene la desventaja de que al agrupar, se pierde precisión en los datos que se manejarán, con una consecuente pérdida en la precisión de las conclusiones que se obtengan a partir de dicha información. Para evitar al máximo la pérdida de información que provee la muestra, es necesario cuidar la construcción1 de la tabla de distribución de 1 Cabe aclarar que la que aquí se presentará es una forma particular de construcción de una tabla de distribución de frecuencias, no así la única, ya que en este sentido no hay un consenso. Existen algunas forma alternas de construcción, sin embargo, las diferencias que existen entre ellas son de forma y no de fondo, por lo cual es relativamente sencillo interpretar la información contenida en otra tabla de distribución de frecuencias construida de alguna otra forma, y los resultados que de dicho análisis se obtengan no tendrán diferencias radicales con los generados mediante la construcción que aquí haremos, atribuibles a la forma de realizar la agrupación. M. en I. Isabel Patricia Aguilar Juárez 21 Estadística Estadística Descriptiva frecuencias y por ello es conveniente tomar en consideración las siguientes recomendaciones empíricas: 1.- La tabla de distribución de frecuencias constará de entre 5 y 20 clases, inclusive. 2.- Todas las clases serán de la misma longitud (c). Mostraremos la forma de construcción de una tabla de distribución de frecuencias, a través de un ejemplo. Ejemplo 1.2 Considere los siguientes números de inscripción de algunos estudiantes de la Facultad de Ingeniería. Agrúpelos en una tabla de distribución de frecuencias. 1045 784 491 3073 650 2045 802 847 1029 2002 55 415 2265 1123 1305 933 531 1400 1120 1249 923 985 2181 946 639 2526 1313 1565 2004 1703 1882 1370 2772 947 5308 2039 210 1767 1465 1303 1800 120 4623 193 460 1706 Resolución Recordemos que para que la tabla que se construya se pueda considerar adecuada para analizar los datos, se requiere que contenga a todos los datos en la muestra. Así, es necesario conocer el rango en el que se encuentran los datos, para lo cual se tiene la siguiente definición: Rango de la muestra: Es la diferencia entre los valores (datos) mayor y menor de la muestra. En este caso se tiene que Rango = 5308 - 55 = 5253 M. en I. Isabel Patricia Aguilar Juárez 22 Estadística Estadística Descriptiva Para determinar ahora la longitud de clase, se puede empezar por establecer el número de clases que conviene construir, para lo cual se puede considerar como valor adecuado el resultado de calcular n Esto es, m= 46 ≈ 7 Como el límite inferior de la primera clase debe ser un valor un poco menor al mínimo, 5308 - 54 utilicemos 54. Por lo tanto, la longitud de clase será = 750.57 ≈ 750 7 Por al razón utilizaremos c = 750. Como ya dijimos, el límite inferior de la primera clase será 54. La tabla resultante será la que se muestra: Límites 54 - 804 804 - 1554 1554 - 2304 2304 - 3054 3054 - 3804 3804 - 4554 4554 - 5304 5304 - 6054 xi 429 1179 1929 2679 3429 4179 4929 5679 fi 12 17 12 2 1 0 1 1 46 Fi 12 29 41 43 44 44 45 46 fi* 0.2609 0.3696 0.2609 0.0435 0.0217 0.0000 0.0217 0.0217 Fi* 0.2609 0.6304 0.8913 0.9348 0.9565 0.9565 0.9783 1.0000 Descripción gráfica de los datos Generalmente, cuando se desea hacer una presentación clara de un conjunto de datos, se elige una forma gráfica. Así, se acostumbra presentar gráficamente los resultados de una compañía, se hacen gráficas comparativas de las utilidades de una empresa, se hacen gráficas que muestren la composición de una población (% de hombres adultos, % de mujeres adultas, %de niños), etc. M. en I. Isabel Patricia Aguilar Juárez 23 Estadística Estadística Descriptiva En realidad para todos es más claro comprender cuál es el comportamiento de un conjunto de datos si éste se presenta de manera gráfica, que si se muestra únicamente a través de valores numéricos. Por ello, existen una gran variedad de gráficas, sin embargo utilizaremos solamente algunas de ellas. Consideremos nuevamente el tipo de datos a manejar. Usualmente para la representación de datos cualitativos se utilizan, entre otros, dos tipos de gráficas: - Gráficas de barras - Gráficas de sectores circulares ( gráficas de pie). Por su parte, para representar el comportamiento de datos cuantitativos existe también una amplia variedad de posibilidades de gráficas, pero únicamente presentaremos tres de ellas: - Histograma de frecuencias - Polígono de frecuencias - Ojiva o polígono de frecuencias acumuladas 1.- Histograma de Frecuencias Es una gráfica formada por barras rectangulares cuyas bases se centran en las marcas de clase de una distribución de frecuencias y sus áreas representan las frecuencias absolutas o relativas correspondientes. Nótese que de acuerdo con esta definición no se requiere más que un eje, en el cual se identificarán las marcas de clase conforme a las clases que se hayan construido. Cabe insistir en que en este caso también es solo una de las construcciones posibles o conocidas, sin embargo tiene la ventaja de que es fácil encontrar la similitud entre el histograma de frecuencias relativas, y el histograma de probabilidad que se construye en probabilidad para las funciones de probabilidad. Por otro lado, se mantiene la concepción de la probabilidad de un evento como área, que resulta útil para la más fácil comprensión del concepto de función de densidad en el caso de variables aleatorias continuas. A continuación se muestra el histograma de frecuencias absolutas para los datos del ejemplo: M. en I. Isabel Patricia Aguilar Juárez 24 Estadística Estadística Descriptiva Histograma de Frecuencias 18 16 17 14 12 10 12 12 8 6 4 2 1 0 1 1 2679 3429 4179 4929 5679 2 0 429 1179 1929 marcas de clase También es común construir el histograma de frecuencias como una gráfica en el plano cartesiano, considerando a las frecuencias como las alturas de las barras, tal como se muestra a continuación. frecuencias Histograma de Frecuencias 18 16 14 12 10 8 6 4 2 0 429 1179 1929 2679 3429 4179 4929 5679 marcas de clase 2.- Polígono de Frecuencias Es una gráfica poligonal que representa para cada marca de clase la frecuencia de dicha clase y se construye uniendo, mediante líneas rectas, los puntos medios de las bases superiores de las barras del histograma de frecuencias. Es claro que tampoco se requiere trazar más que un eje, para hacer la gráfica del polígono de frecuencias. M. en I. Isabel Patricia Aguilar Juárez 25 Estadística Estadística Descriptiva Como caso particular se presenta a continuación la gráfica del polígono de frecuencias de los datos del ejemplo anterior. Polígono de Frecuencias 18 16 Frecuencia 14 12 10 8 6 4 2 0 429 1179 1929 2679 3429 4179 4929 5679 Marcas de Clase Existe una forma alternativa de trazar la gráfica del polígono de frecuencias, sin necesidad de hacerlo sobre el histograma. Observe la siguiente gráfica. Polígono de Frecuencias 18 16 Frecuencias 14 12 10 8 6 4 2 0 429 1179 1929 2679 3429 4179 4929 5679 Marcas de Clase M. en I. Isabel Patricia Aguilar Juárez 26 Estadística Estadística Descriptiva 3.- Ojiva Es una gráfica poligonal que representa para cada límite de clase la frecuencia acumulada o la frecuencia relativa acumulada hasta dicha frontera. Cuando la que se representa es la frecuencia relativa acumulada se le llama ojiva porcentual. A diferencia de las gráficas anteriores, para trazar esta gráfica si es indispensable contar con los dos ejes coordenados. Es claro que la diferencia entre la ojiva y la ojiva porcentual no es la forma de ellas, sino solamente que una de ellas es el resultado de trasladar a la otra hacia arriba o hacia abajo, dependiendo de cual se esté tomando como base. La ojiva porcentual es, además, una aproximación a la gráfica de la función de distribución de la variable aleatoria que represente a la población. Ejemplo: Considere la siguiente tabla de distribución de frecuencias. Trace la ojiva correspondiente. Límites 27 - 30 30 - 33 33 - 36 36 - 39 39 - 42 42 - 45 45 - 48 48 - 51 51 - 54 M. en I. Isabel Patricia Aguilar Juárez xi 28.5 31.5 34.5 37.5 40.5 43.5 46.5 49.5 52.5 fi 2 3 9 5 2 4 3 1 1 30 Fi 2 5 14 19 21 25 28 29 30 fi* 0.667 0.1 0.3 0.167 0.667 0.133 0.1 0.033 0.033 Fi* 0.066 0.167 0.467 0.633 0.7 0.833 0.933 0.967 1 27 Estadística Estadística Descriptiva Polígono de Frecuencias Acumuladas (Ojiva) Frecuencia Acumulada 35 30 25 20 15 10 5 0 27 30 33 36 39 42 45 48 51 54 Límites de Clase Descripción de los datos a través de parámetros numéricos Desde luego es posible ya, mediante la tabla de distribución de frecuencias y las gráficas hacer cierta descripción del comportamiento de los datos en la muestra, pero conviene estar conciente de que sabemos que las gráficas pueden mentir, en el sentido de que simplemente con un cambio de escala, variaciones que probablemente sean pequeñas se pueden ver muy grandes y viceversa, y la obtención de valores que caractericen a toda la muestra pueden solamente aproximarse, ya que como dijimos antes, una representación gráfica puede no ser lo precisa que uno desearía, por lo que además de una gráfica requerimos de valores que sean representativos del comportamiento de los datos y que dependan únicamente de dichos datos. A estos valores se les llama "parámetros numéricos" y se utilizan para ayudar a describir el comportamiento de la muestra con un poco más de precisión. Los parámetros numéricos, por el tipo de información que dan, se clasifican en: M. en I. Isabel Patricia Aguilar Juárez 28 Estadística Estadística Descriptiva - Medidas de tendencia central - Medidas de dispersión - Parámetros de forma Presentaremos solamente los parámetros numéricos que más comúnmente se utilizan. 1.- MEDIDAS DE TENDENCIA CENTRAL: Son valores que se encuentran dentro del rango de la muestra y que se pueden considerar como representativos de la misma. Es importante aclarar que no necesariamente coinciden con alguno de los datos observados. Entre las más usuales están la media aritmética, la mediana y la moda, que estudiaremos a continuación. a) Media aritmética Es probablemente la medida de tendencia central de uso más generalizado, se denota por x (es muy importante que la x sea minúscula, ya que la mayúscula se utilizará más adelante para denotar algo diferente} y se define de la siguiente forma: a) Si x1 , x2 , x3 , ... , xn son los datos contenidos en una muestra, y se encuentran sin agrupar, entonces n ∑x i x= i =1 n donde n es el tamaño de la muestra. Nótese que es la definición que conocemos para el promedio usual de los datos en la muestra. b) Si los datos se encuentran agrupados en una tabla de distribución de frecuencias, y utilizamos el mismo concepto que para los datos sin agrupar, se define la media aritmética como: m ∑x f i x= M. en I. Isabel Patricia Aguilar Juárez i =1 n i m = ∑ xi f *i , puesto que f i = f *i n i =1 29 Estadística Estadística Descriptiva en donde m es el número de clases xi la marca de clase de la clase i, y fi la frecuencia de la clase i b) Mediana Es el valor que divide al conjunto de datos de la muestra en dos conjuntos de igual tamaño, es decir, es aquel valor para el cual existen el mismo número de datos menores o iguales a él que mayores o iguales a él. En otras palabras, la mediana es aquel valor para el cual el 50% de los datos son menores o iguales a él. Para calcular la mediana de la muestra cuando los datos no se encuentran agrupados en una tabla de distribución de frecuencias, se deben seguir los siguientes pasos: 1.- Se ordenan los datos en forma creciente. 2.- Una vez ordenados se tienen dos casos: a) Si el número de datos es impar, la mediana es el valor central; aquel que se n +1 encuentre en el lugar en la ordenación. Esto es: 2 ~x = x n+1 2 b) Si el número de datos es par, la mediana será el promedio de los dos datos centrales en la ordenación, es decir, de la datos que se encuentren en los n n lugares y +1. 2 2 ~x = x n2 + x n2 + 1 2 Ejemplo: En un proceso de manufactura, se observa el número de veces al mes que se detiene el proceso durante un período de un año, debido a fallas mecánicas de la maquinaria. M. en I. Isabel Patricia Aguilar Juárez 30 Estadística Estadística Descriptiva Los datos obtenidos son los siguientes: 7, 4, 1, 3, 9, 2, 7, 8, 0, 7, 3, 2. Obtenga la mediana del número de fallas. Resolución: 1) Ordenando los datos de menor a mayor se tiene: 0, 1, 2, 2, 3, 3, 4, 7, 7, 7, 8, 9 2) Dado que el número de datos es par, la mediana será el promedio de los datos que ocupan los lugares n/2 y (n/2) + 1 en la ordenación, es decir, la mediana será el promedio de los datos que ocupen los lugares 6 y 7 en la ordenación. ~x = 3 + 4 = 3.5 2 Si los datos se encuentran agrupados, para obtener la mediana se debe realizar una interpolación en la ojiva, como se indica a continuación: 1.- Identificar la clase en la que se alcanza el 50% de los datos. Esta clase recibe el nombre de clase mediana. 2.- Graficar la ojiva correspondiente a la clase mediana. Frecuencia Acumulada Fi + 1 (0.5)n Fi Li M. en I. Isabel Patricia Aguilar Juárez Li + 1 Mediana Límites de clase 31 Estadística Estadística Descriptiva ~x- Li = F50% Fi Li+1 - Li Fi+1 - Fi ; F50% = n 2 n - Fi ~x- Li = 2 Li+1 - Li Fi+1 - Fi n ( - Fi )( Li+1 - Li ) ~x = 2 + Li Fi+1 - Fi en donde: Li es el límite inferior de la clase mediana Li+1 es el límite superior de la clase mediana Fi es la frecuencia acumulada hasta L i Fi+1 es la frecuencia acumulada hasta L i+1 n es el tamaño de la muestra Ejemplo: Los datos que se despliegan en la siguiente tabla de distribución de frecuencias provienen de un conjunto de observaciones de la duración (en minutos) de las llamadas telefónicas locales que se realizan en el D. F. Calcule la mediana de dichos datos. Límites de Marca de Frecuencia clase clase Frecuencia Acumulada 0 - 3 1.5 15 15 3 - 6 4.5 29 44 6 - 9 7.5 10 54 9 - 12 10.5 5 59 12 – 15 13.5 4 63 15 - 18 16.5 1 64 Resolución: La muestra es de tamaño n = 64, por lo tanto, n/2 = 32 Por lo anterior, la clase mediana es la segunda, esto es, la mediana está entre 3 y 6. M. en I. Isabel Patricia Aguilar Juárez 32 Estadística Estadística Descriptiva Frecuencia Acumulada 44 32 15 Límites de clase 3 ~ x 6 n - Fi (L i+1 - Li ) 2 (32 - 15)(6 - 3) ~ De donde, entonces, x = + Li = + 3 = 4.7586 44 - 15 Fi+1 - Fi c) Moda Se denota como mo y es aquella observación que se repite con mayor frecuencia dentro de la muestra. Puede existir más de una moda en una misma muestra. De los datos agrupados se puede considerar como moda, la marca de clase del intervalo con mayor frecuencia. Es importante hacer notar que a diferencia de la media aritmética y la mediana, la moda no necesariamente es un valor único. Esto significa que en un mismo conjunto de datos, pueden existir varias modas, aunque también puede ser única. 2.- MEDIDAS DE DISPERSIÓN Existen varias medidas de dispersión, y algunas de ellas (la mayoría) se miden con respecto a la media por ser esta última una medida que se encuentra alrededor del centro del rango de la muestra, y considerarse una medida representativa de los datos. Estas medidas nos permiten, además de describir el comportamiento de la muestra, M. en I. Isabel Patricia Aguilar Juárez 33 Estadística Estadística Descriptiva validar la representatividad de la media como característica de todo el conjunto de datos. Rango Tal vez la medida de tendencia central más simple sea el rango que se definió para construir la tabla de distribución de frecuencias. Es una medida de dispersión interesante, ya que proporciona información inmediata acerca de la variabilidad que tienen los datos entre sí. Como se dijo antes, el rango se define como la diferencia entre los datos mayor y menor en la muestra, esto es: Rango = Dato mayor en la muestra - dato menor en la muestra. Aunque el rango es una medida importante de dispersión, existen otras medidas, que proporcionan información adicional acerca de dicha variabilidad, algunas de ellas las definiremos a continuación. Veamos: Sean xi , i = 1, 2, ..., n los datos de la muestra. Para medir la dispersión promedio de los datos con relación a la media de la muestra, pensaríamos inmediatamente en lo siguiente: n ∑ (x - x ) i i =1 , n sin embargo, si desarrollamos dicha suma, encontramos que independientemente de cuales sean los datos considerados, ya que : se anula, n ∑ (x - x ) = ∑ x - ∑ x n n i i i =1 i =1 i =1 n ∑x pero por definición M. en I. Isabel Patricia Aguilar Juárez x= i =1 n i n _ ∑x = nx i i =1 34 Estadística Estadística Descriptiva n ∑x =nx y por otro lado, i =1 n de donde: ∑ (x - x ) = n x - n x = 0 i i =1 n esto es: ∑ (x - x ) = 0 i i =1 por lo cual no es útil como medida de dispersión. Para evitar la cancelación de los signos en la suma, se tiene dos opciones: 1) Utilizar la función valor absoluto, lo cual da lugar a la desviación media. Desviación media: Sean x1 , x2 , x3 , ..., xn , los datos contenidos en una muestra, se define la desviación media como el promedio de los valores absolutos de las dispersiones alrededor de la media, es decir, n ∑|x -x| i d . m. = i =1 n Si los datos se encuentran agrupados en una tabla de distribución de frecuencias, la expresión para el cálculo de la desviación media se transforma en m ∑ | x - x| f i d . m. = i i =1 n en donde m es el número de clases, xi es la marca de la clase i, y fi es la frecuencia de la misma clase. 2) Utilizar una función cuadrática. Esta generalizada de resolver el problema. M. en I. Isabel Patricia Aguilar Juárez es probablemente la forma más 35 Estadística Estadística Descriptiva Varianza: Si xi (i=1,2,3 ,..,n) son los datos de la muestra, se define la varianza de la muestra (s2) como: n ∑ (x - x i s2 = ) 2 i=1 n en tanto que si los datos se tienen en forma agrupada, se calculará la varianza como se indica a continuación: m ∑ (x - x i s2 = 2 ) fi i=1 n en donde, nuevamente, m es el número de clases, xi es la marca de la clase i-ésima, y fi representa la frecuencia de la misma clase. La varianza, aunque es más utilizada que la desviación media, presenta el problema de que sus unidades no coinciden con las de los datos de la muestra, ya que al elevar al cuadrado se obtienen unidades cuadradas, por lo que su interpretación podría resultar un tanto confusa, sin embargo, la forma que se ha encontrado de resolver dicho problema de unidades, consiste simplemente en extraer la raíz cuadrada de dicha medida, con lo cual el resultado se encontrará en unidades lineales, por tal razón se define la desviación estándar de los datos. Desviación estándar: Se define la desviación estándar de una muestra, como la raíz cuadrada de la varianza de la misma muestra, y se denota por s. Esto es: s = s2 Coeficiente de variación: Evita el tener que referirse a los datos para determinar la magnitud de la variación. c.v. = M. en I. Isabel Patricia Aguilar Juárez s x 36 Estadística Estadística Descriptiva Momentos Los momentos en probabilidad, se calculan de la misma manera que en la mecánica, solamente que, en la primera no tienen una interpretación física y solo se utilizan como una herramienta para la determinación de ciertos parámetros. Se puede definir con respecto a cualquier punto "a", pero las mas usuales son con respecto al origen y con respecto a la media. Las definiciones correspondientes son: El r-ésimo momento muestral con respecto al origen (m'r) se define como: Si los datos se encuentran sin agrupar: n ∑x r m'r = i i=1 n donde xi son los datos en la muestra y n es el tamaño de la muestra. Si los datos se encuentran en forma agrupada: m ∑x r m'r = fi i i=1 m ∑f i i =1 donde xi son marcas de clase, fi son las frecuencias de clase y m es el número de clases El r-ésimo momento o momento de orden r, de la muestra con respecto a la media se define como: Si los datos se encuentran sin agrupar: n ∑ (x - x i mr = r ) i=1 n donde xi son datos de la muestra y n es el tamaño de la muestra. Si los datos se encuentran agrupados: M. en I. Isabel Patricia Aguilar Juárez 37 Estadística Estadística Descriptiva m ∑ (x - x i mr = r ) fi i=1 m ∑f i i=1 donde xi es la marca de clase, fi la frecuencia y m el número de clases. Así la varianza es el segundo momento respecto a la media y la media es el primer momento respecto al origen. 3.- PARÁMETROS DE FORMA Coeficiente de sesgo o asimetría El coeficiente de sesgo se denota por "a" y se define como: a = m33 , donde m3 es el s tercer momento respecto a la media. De esta forma, si: a<0 a>0 a=0 Curva Simétrica M. en I. Isabel Patricia Aguilar Juárez Sesgo negativo Sesgo positivo Simétrica Curva Asimétrica (Sesgo positivo) 38 Estadística Estadística Descriptiva Coeficiente de curtosis Es una medida del grado de apuntamiento de una distribución. Se denota por k. k = m44 s < 3 k >3 =3 platicúrti ca leptocúrti ca mesocúrtic a 1 0.8 0.6 0.4 0.2 -4 0 -2 2 x 4 Distribución Mesocúrtica 1 0.8 0.6 0.4 0.2 -4 -2 0 2 x 4 Distribución Leptocúrtica M. en I. Isabel Patricia Aguilar Juárez 39 Estadística Estadística Descriptiva 0.8 0.6 0.4 0.2 -4 -3 -2 -1 0 1 x2 3 Distribución Platicúrtica Ejemplo: Una muestra de 20 trabajadores de una Cía. obtuvieron los siguientes salarios en un mes determinado: $240000, $240000, $240000,$240000, $240000, $240000, $240000, $240000, $255000, $255000, $265000, $265000, $280000, $280000, $290000, $300000, $305000, $325000, $330000, $340000. Calcular: la media, mediana, moda, varianza, desviación estándar, coeficiente de desviación, rango, coeficiente de sesgo, coeficiente de curtosis. Qué puede decir acerca de los salarios? Resolución: a)Media: 8(240000)+ 2(255000)+ 2(265000)+ 2(280000)+ 290000+ 300000+ 305000+ 325000+ 330000+ 340000 20 x = 270,500 b) Mediana: ~x = x n + x n +1 2 2 2 = 255000 + 265000 = 260000 2 c) Moda = 240,000 M. en I. Isabel Patricia Aguilar Juárez 40 Estadística Estadística Descriptiva 20 ∑ (x - x i d) Varianza: s 2 = ) 2 i=1 = 1,097,250, 000 20 e) Desviación Estándar: s = 33,124.76 f) Coeficiente de variación: c.v.= s = 0.1225 = 12.25%. Esto es que los datos se alejan x de la media un 12.25 %. g) Rango= 100,000 20 h)Coeficiente de sesgo: a = m33 s ∑ (x m3 = i - x )3 i =1 20 a = 0.75569 Es decir, los datos tienen sesgo positivo i) k = m44 = s 2.70311 x 1018 = 2.24 (33124.764 )4 La distribución de los datos es platicúrtica Con estos datos, hacer una tabla de distribución de frecuencias: Rango = 100,000 # aproximado de clases = 20 = 4.47 ≈ 5 Límite inferior de la primera clase =235,000 c=105,000 / 5 = 21,000 Intervalos de clase 235,000 – 256,000 256,000 – 277,000 277,000 – 298,000 298,000 – 319,000 319,000 – 340,000 340,000 – 361,000 Marcas de Frecuencia Frecuencia Frecuencia Frecuencias Relativa Acumulada Acum. Relat. clase 245,500 10 0.5 10 0.5 266,500 2 0.1 12 0.6 287,500 3 0.15 15 0.75 308,500 2 0.1 17 0.85 329,500 2 0.1 19 0.95 350,500 1 0.05 20 1 20 M. en I. Isabel Patricia Aguilar Juárez 41 Estadística Estadística Descriptiva 6 Media: x = ∑x f i i i =1 n = 5,477,000 = 273,850 20 Moda: Primera marca de clase. Mo=245,500 Mediana: ~x = 256,000 Rango= 361,000 – 235,000 = 126,000 11 ∑ (x - 273,850 ) i 2 Varianza: s = i =1 2 fi = 20 2.3175E + 10 = 1,158,727,500 20 Desviación estándar: s = 34,040.0867 C.V. = s = 0.12430194 = 12.4302% x Coeficiente de sesgo: a = m33 s 11 ∑ (x i - x )3 f i 6.5721E + 14 i =1 = = 3.286E + 13 m3 = 11 20 ∑ fi i=1 a= 3.286E + 13 = 0.83310573 3 (34,040.08 67 )3 por lo tanto tiene un sesgo positivo Coeficiente de curtosis: k = m44 s M. en I. Isabel Patricia Aguilar Juárez 42 Estadística Estadística Descriptiva 11 4 ∑ ( xi - x ) f i 6.31528E + 19 = = 3.15764E + 18 m4 = i = 1 11 20 ∑ fi i=1 4 s 4 = ( 34,040.086 7 ) k = 2.351796702 ; k<3, M. en I. Isabel Patricia Aguilar Juárez por lo tanto es platicúrtica. 43