Métodos Estadísticos aplicados a la Ingeniería 1º Ingeniería Industrial 2º cuatrimestre 2008/2009 Introducción - ¿Qué es la Estadística? La estadística es la ciencia que se ocupa del diseño de experimentos o encuestas mediante muestras, para obtener una cantidad determinada de información lo más eficazmente posible, y del uso óptimo de esta información para hacer inferencias con respecto a una población. Objectivos importantes de la estadística • Muestreo • Descripción de datos • Estimación • Contraste de hipótesis • Medición de relaciones • Predicción 1 Tema 1 - Estadística Descriptiva La estadística descriptiva engloba los procedimientos que resumen la información que contiene un conjunto de datos. 1.1 Conceptos generales 1.1.1 Población estadística o colectivo Conjunto de referencia sobre el cual se van a recoger las observaciones. Puede ser finita o infinita. 1.1.2 Unidad estadística o individuo Un elemento de la población (persona, objeto, algo abstracto, ...) 1.1.3 Muestra Subconjunto de elementos de la población. El número de elementos es el tamaño de la muestra. 1.1.4 Variables Estadísticas Una característica inherente al individuo o unidad estadística. Por ejemplo: Una persona tiene las características: altura, peso, tamaño de zapato, color de los ojos, sexo, .... Pueden ser medibles (variables cuantitativas (peso, altura, tamaño de zapato,...)) o no medibles (variables cualitativas (color de los ojos, sexo)). Las diferentes formas que puede mostrar una variable cualitativa se llaman modalidades. Por ejemplo: el estado civil tiene las modalidades casado, soltero y viudo; el sexo tiene las modalidades varón y hembra. Una variable estadística puede ser discreta o continua. Una variable estadística se llama discreta cuando el conjunto de sus valores posibles es numerable. Por ejemplo, el número de automóviles fabricados diariamente en una fábrica, el número de fallos de una máquina a la hora, .... Una variable estadística se llama continua cuando puede tomar valores entre dos distintos, por muy próximos que los fijemos. Por ejemplo, el tiempo de duración de un suceso, el peso de un objeto, .... En lo que sigue, supondremos que el orden en que se recogen los datos es irrelevante (si no, tenemos que utilizar métodos especiales para series temporales). 1.2 Distribuciones de frecuencias para datos numéricos Supongamos que tenemos un conjunto de datos numéricos de tamaño n, { x1 , x2 ,..., xn } , de una variable X. Entre los datos hay m (m ≤ n) distintos valores { x1' , x2' ,..., xm' } . Podemos resumir un conjunto de datos por una tabla de valores observados de la variable y sus frecuencias de aparición tanto absolutas como relativas. 1.2.1 Frecuencia absoluta La frecuencia absoluta de x 'j , f a x 'j , es el número de veces que se observa x 'j en el ( ) conjunto de datos. 2 1.2.2 Frecuencia relativa La frecuencia relativa de x 'j , f r x 'j , es ( ) fr (x ) = ' j nùmero de veces que se observa x 'j entre los datos n 1.2.3 Frecuencia acumulada Suele ser útil también incluir frecuencias acumuladas (tanto absolutas, Fa x 'j , como ( ) ( ) relativas, Fr x 'j ). Estas frecuencias acumuladas son simplemente sumas de las frecuencias definidas antes. 1.2.4 Tabla de frecuencias Podemos resumir los valores observados y sus frecuencias en una tabla como en el siguiente ejemplo. Ejemplo 1.1 Los siguientes 120 datos se han obtenido al observar el número de fallos de un sistema eléctrico. 1 1 1 1 0 3 1 2 1 4 3 4 2 2 1 0 1 0 1 0 6 2 1 1 1 3 2 1 3 2 2 1 2 2 5 1 2 3 1 0 2 3 3 2 4 0 2 0 1 0 2 1 1 2 1 2 2 2 1 1 2 3 2 3 2 3 4 1 0 2 2 0 2 2 3 2 3 0 0 0 3 4 4 0 2 3 3 2 3 1 2 5 2 2 3 2 2 1 1 1 0 2 3 0 4 1 1 0 4 2 1 0 2 0 2 0 2 3 4 3 Podemos construir la siguiente tabla para resumirlos. ( ) ( ) ( ) ( ) x 'j f a x 'j f r x 'j Fa x 'j Fr x 'j 0 1 2 3 4 5 6 20 30 38 20 9 2 1 20 50 88 108 117 119 120 0,1667 0,2500 0,3167 0,1667 0,0750 0,0167 0,0833 0,1667 0,4167 0,7334 0,9000 0,9750 0,9917 1,0000 En esta tabla se observa que 31,67% de los datos tienen el valor 2 y que 97,50% tienen un valor menor o igual a 4. 1.2.5 Agrupamiento Cuando el número de valores distintos que tome una variable discreta sea grande, o cuando la variable sea continua, conviene agrupar los datos en intervalos de clases, elegidos de forma que no se pierda mucha información. 3 1.2.6 Elección de los intervalos • Decidir el número de clases a considerar. Este número debe ser entre 5 y 20. Una regla frecuentemente utilizada en la práctica es escoger el entero más próximo a n , siendo n el número de datos, pero conviene probar con distintos números de clases y escoger aquel que proporcione una descripción más clara (cuando representamos las frecuencias en una gráfica, como un histograma). • Para simplificar es usual seleccionar los límites de clase que definen los intervalos, de manera que éstos sean de la misma longitud. Cada observación tiene que clasificarse sin ambigüedad en un solo intervalo. Por ejemplo [1-7), [7-13), [13-19), ... Los números extremos de los intervalos se llaman limites reales de clase. Al centro del intervalo le llamaremos marca de clase. Ejemplo 1.2 Los siguientes 90 datos representan el tiempo (en horas) entre dos fallos consecutivos de una máquina. 0,2527 0,1082 2,3640 0,2925 0,3109 2,6660 4,1283 0,7033 0,8398 2,8120 5,9698 1,4029 1,0275 2,6449 0,4149 1,2292 2,2976 0,0127 1,9646 1,5422 6,0150 8,1102 0,5318 1,7856 1,0304 0,2239 6,1265 0,5707 4,0653 0,5801 0,7033 5,2857 1,5169 1,5780 2,6781 0,9573 0,1958 1,8654 0,4995 4,5410 0,2918 0,8548 7,4964 0,1094 1,8982 9,0298 0,0703 3,5947 0,1659 0,4735 1,6724 6,0339 1,4612 0,9541 1,0826 8,3350 0,7881 5,9078 2,7487 1,7483 0,0466 0,9490 1,1176 0,5541 0,1470 7,2789 4,6069 0,5520 0,9409 0,5582 1,1430 0,5175 3,5367 1,6817 0,2411 0,8949 2,0238 1,4001 2,2691 0,6177 10,1949 1,5376 3,8023 0,7350 1,8357 0,0300 0,8994 0,7002 0,0760 0,8956 Para estos datos el recorrido de los datos es x má x − x mín = 10,1949 − 0,0127 = 10,1822 . Si definimos intervalos con una amplitud de una unidad, y empezamos con un primer intervalo con marca de clase de 0,5, 11 intervalos abarcan el campo de los datos. Con estos intervalos podemos producir la siguiente tabla: Intervalo 0,00-1,00 1,00-2,00 2,00-3,00 3,00-4,00 4,00-5,00 5,00-6,00 6,00-7,00 7,00-8,00 8,00-9,00 9,00-10,00 10,00-11,00 Marca de Clase(x) 0,5 1,5 2,5 3,5 4,5 5,5 6,5 7,5 8,5 9,5 10,5 4 f a ( x) f r ( x) Fa ( x) Fr ( x) 41 21 9 3 4 3 3 2 2 1 1 41 62 71 74 78 81 84 86 88 89 90 0,4555 0,2333 0,1000 0,0333 0,0444 0,0333 0,0333 0,0222 0,0222 0,0111 0,0111 0,4556 0,6889 0,7889 0,8222 0,8667 0,9000 0,9333 0,9556 0,9778 0,9889 1,0000 Vemos que 45,55% de los datos tienen un valor menor de 1,00 y que 78,89% tienen un valor menor que 3,00. 1.3 Representaciones gráficas En la Estadística las representaciones gráficas tienen un papel muy importante, puesto que para los seres humanos, es mucho más fácil interpretar una representación gráfica de información numérica, que un gran conjunto de números. 1.3.1 Representaciones gráficas para datos numéricos Si tenemos un conjunto de datos numéricos, podemos representar la información que contiene utilizando varias representaciones gráficas. A continuación consideramos las más utilizadas. 1.3.1.1 Diagrama de barras Utilizado para datos de variables discretas y en general para distribuciones de frecuencias de datos sin agrupar en intervalos. Se traza un par de ejes cartesianos y los distintos valores de la variable se colocan en la abscisa. Sobre cada uno de ellos se levanta una barra cuya altura es la frecuencia (absoluta o relativa) de dicho valor. Para los datos de Ejemplo 1.1 podemos producir el siguiente diagrama de barras (con frecuencias absolutas). 40 Frecuencia absoluta 30 20 10 0 0 1 2 3 4 5 6 x 1.3.1.2 Histograma La representación gráfica más frecuente para datos agrupados es el histograma. Sobre cada intervalo de clase se levanta un rectángulo cuya área sea igual a la frecuencia de la clase. A la altura de un rectángulo se le llama densidad del intervalo de clase. Para los datos de Ejemplo 1.2 tenemos el siguiente histograma. 5 0.5 Densidad 0.4 0.3 0.2 0.1 0.0 0.5 1.5 2.5 3.5 4.5 5.5 6.5 7.5 8.5 9.5 10.5 x 1.3.1.5 Polígono de frecuencias Si no hemos agrupado los datos en intervalos, el polígono de frecuencias se obtiene uniendo los extremos superiores de las barras del diagrama de barras. Si hemos utilizado intervalos de agrupamiento el polígono de frecuencias se obtiene uniendo los puntos medios de las bases superiores de cada rectángulo del histograma. Ejercicio 1.1 Producir los polígonos de frecuencias para los datos de Ejemplos 1.1 y 1.2. 1.3.1.3 Diagrama de tallo y hojas Un método semi-gráfico de representar datos numéricos, especialmente útil cuando el tamaño del conjunto de datos es pequeño (menor que 50), es el diagrama de tallo y hojas de Tukey. Para construir dicho diagrama: • Redondear los valores a dos o tres cifras significativas, expresándolos en unidades convenientes. • Representarlos en una tabla con dos columnas separadas por una línea vertical como sigue: 1. Para datos con dos dígitos, escribir a la izquierda de la línea los dígitos de las decenas. Estos dígitos forman el tallo del diagrama. A la derecha, escribir las unidades. Estas últimas forman las hojas. Por ejemplo, 95 se escribe 9|5. 2. Para datos con tres dígitos el tallo se forma con los dígitos de las centenas y decenas (escritos a la izquierda) separados por la línea de las unidades. Por ejemplo, 264 se escribe 26|4. • Cada tallo define una clase, y se escribe solo una vez. Es usual también ordenar los valores en el tallo en el orden que crecen. El número de hojas representa la frecuencia de dicha clase. • Si el primer dígito de la clasificación varía poco, la mayoría de los datos se agrupan alrededor de un tallo y el diagrama resultante tiene poco detalle. En este caso es conveniente subdividir cada tallo en dos o más partes. Ejemplo 1.3 Los siguientes 34 datos representan el peso de 34 distintos cerrojos del mismo tipo en kg.: 0,4819 0,5025 0,4208 0,4301 0,4351 0,4413 0,4742 0,3860 0,3770 0,4673 0,3528 0,3998 0,3936 0,4607 0,4532 0,4204 6 0,4126 0,4630 0,4579 0,5072 0,4725 0,3697 0,4528 0,3758 0,4327 0,3119 0,3903 0,4293 0,4100 0,3482 0,4307 0,4132 0,3717 0,4200 Para estos datos podemos producir el siguiente diagrama de tallo y hojas. Tallo-y-hoja de Peso Kg. Unidad de hoja = 0,010 1 1 3 7 11 14 (8) 12 8 3 2 3 3 3 3 3 4 4 4 4 4 5 N = 34 1 45 6777 8999 111 22223333 4555 66677 8 00 1.3.1.4 Diagrama de puntos Otro gráfico muy útil para representar la distribución de un número pequeño de datos (menor que 50) es el diagrama de puntos. En un diagrama de este tipo, empezamos con una línea horizontal suficientemente larga para representar al recorrido de los datos. Después, incluimos una escala con suficiente detalle para localizar el lugar de cada dato respecto la línea. Para los datos de Ejemplo 1.3 podemos construir el siguiente diagrama de puntos. . . . . .. ..: .: . : : .:.. :....... .. -----+---------+---------+---------+---------+---------+-Peso Kg. 0,320 0,360 0,400 0,440 0,480 0,520 1.3.1.6 Diagrama de frecuencias acumuladas Podemos construir un diagrama de este tipo utilizando frecuencias acumuladas (tanto absolutas como relativas) para datos no agrupados. En la abscisa, empleamos una escala suficientemente amplia para el recorrido de los datos. Sobre cada distinto valor numérico, colocamos un punto cuya altura sobre la abscisa corresponde a la frecuencia acumulada correspondiente a este valor. Desde cada uno de estos puntos trazamos una recta horizontal que termina en el punto cuya abscisa es el siguiente valor numérico observado. Finalmente, conectamos los extremos de estas rectas horizontales con rectas verticales. Para los datos de Ejemplo 1.1 podemos construir el siguiente diagrama de frecuencias acumuladas. 7 Frecuencia acumulada (relativa) 1,0 0,8 0,6 0,4 0,2 0,0 0 1 2 3 4 Número de fallos 8 5 6 1.3.1.7 Polígono de frecuencias acumuladas Esta representación gráfica es válida para variables estadísticas agrupadas en intervalos. En la abscisa representamos los distintos intervalos de clase (solapados). Sobre el extremo superior de cada intervalo colocamos un punto cuya ordenada es la frecuencia acumulada (absoluta o relativa) del intervalo correspondiente. Finalmente, conectamos con una línea recta cada punto y el que sigue para conseguir el polígono de frecuencias acumuladas. Si utilizamos frecuencias acumuladas absolutas, la máxima altura del ultimo intervalo tendrá frecuencia n. Análogamente, si las frecuencias acumuladas utilizadas son relativas, la máxima altura alcanzada será la unidad. Frecuencia acumulada (absoluta) Para los datos de Ejemplo 1.2 podemos construir el siguiente polígono de frecuencias acumuladas. 90 80 70 60 50 40 30 20 10 0 0 1 2 3 4 5 6 7 8 9 10 11 Tiempo (horas) 1.3.2 Representaciones gráficas para variables cualitativas no ordenables Consideramos el siguiente ejemplo. Ejemplo 1.4 Los siguientes datos representan los números de coches de distintos colores vendidos en España durante el año 1996 por una empresa. (La pintura más barata es la blanca.) Pintura Número de coches Blanca Verde Azul Roja 2764 672 865 927 En este ejemplo la variable estadística es cualitativa y no hay un orden natural para las modalidades que muestra. Decimos que la variable estadística (el color de un coche) es no ordinable. A continuación vamos a introducir las representaciones gráficas más útiles para resumir la información contenida en datos de variables de este tipo. 9 1.3.2.1 Diagrama de rectángulos Este diagrama es muy parecido a un diagrama de barras. En la abscisa se representan las distintas modalidades. La gráfica puede ser más útil si ordenamos las modalidades de forma que sus modalidades sean no crecientes. Para los datos de Ejemplo 1.4 podemos construir el siguiente diagrama de rectángulos utilizando las frecuencias absolutas. 3000 Número de Coches 2000 1000 0 Blanca A zul Roja Verde Pintura 1.3.2.2 Diagrama de sectores Empezando con un círculo, se asigna un sector circular a cada una de las modalidades siendo la área del sector proporcional a la frecuencia de la modalidad. El ángulo asociado con el sector de la i-ésima modalidad, en grados, α io , viene dado por: α i °= f a (i ) × 360° n donde f a (i ) es la frecuencia absoluta asociada con la i-ésima modalidad y n es el número de observaciones. También suele ser útil ordenar los sectores en el diagrama según el tamaño de las frecuencias (para facilitar la comparación de las frecuencias). Para los datos de Ejemplo 1.4 tenemos Modalidad Frecuencia α° Blanca Roja Azul Verde 2764 927 865 672 190,3 63,8 59,6 46,3 5228 360 El diagrama de sectores asociado a estas frecuencias es el siguiente. 10 Total A zul ( 865, 16,5%) Roja ( 927, 17,7%) Verde ( 672, 12,9%) Blanca (2764, 52,9%) 1.4 Medidas de centralización Hemos visto en la sección 1.3 que podemos obtener una descripción gráfica de un conjunto de datos utilizando varios formas de gráfico. Estos gráficos darnos un sumario global de la distribución de los datos contenidos en un conjunto. También hay varios valores numéricos que podemos usar para resumir las características de un conjunto de datos (numéricos). Nos llamamos estos valores numéricos estadísticos y facilitan el estudio y comparación de muestras. Dos tipos de estadísticos muy importantes son ellos que proporcionen sumarios del “centro” de la distribución de los datos y el nivel de la “gama” de los datos (o su variabilidad). Las medidas que resumen estos dos características se llaman medidas de centralización y medidas de dispersión, respectivamente. También hay medidas que resumen el nivel de asimetría y apuntamiento de una muestra como veremos en la sección 1.6. Es importante tener en cuenta que estas medidas son informativas para datos homogéneos y no tienen mucho sentido si tenemos un conjunto de datos formado por datos de distintos poblaciones. Si los datos de una muestra vienen de distintos poblaciones es más adecuado dividir los datos en distinto grupos (asociados con los distinto poblaciones) y calcular las medidas características para cada uno de los grupos. En el resto de esta sección consideramos en más detalle las medidas de centralización más frecuentemente usadas. Supongamos en lo sucesivo que tenemos las observaciones {x i ,..., x n } de una variable estadística X. 1.4.1 La media aritmética 1.4.1.1 Definición La media de centralización que es más frecuentemente utilizada en la estadística (sobre todo en la estadística clásica) es la media aritmética, x , que se define como: n x + x 2 +...+ x n x= 1 = n 11 ∑x i =1 n i Si tenemos la distribución de frecuencias de los distintos valores tomados por los datos (es decir, {x i' ,..., x m' } ), vemos que: ∑ x f (x ) m x= x1' fa ( x1' ) +...+ x 'm fa ( x m' ) n ' j a = ' j j =1 n m = ∑x j =1 ' j ( )= fa x 'j n ∑ x f (x ) m ' j r ' j j =1 Es decir, equivalentemente, podemos calcular el valor de x utilizando la fórmula ( ) m x = ∑ x 'j f r x 'j j =1 Considerando esta ultima fórmula vemos que la media aritmética es una suma ponderada (o combinación lineal) de los distintos valores, con los “pesos” definidos por sus frecuencias de observación. Utilizando las frecuencias asociadas con los datos de Ejemplo 1.1, la media aritmética de estos datos es x = 0(0,1667) + ... + 6(0,0833) = 218 120 = 1,8167 . En el caso de Ejemplo 1.2 tenemos 90 datos distintos, entonces: x = (0,2527 + 2,6449 + ... + 1,4001)/90 = 188,35/90 = 2,093. 1.4.1.2 Propiedades de la media aritmética • La suma de las desviaciones de un conjunto de datos respecto de la media es cero. Es n decir, ∑ (x i − x) = 0 . i =1 • La suma de los cuadrados de las desviaciones de los valores respecto de su media es n mínima. Es decir que Q( s) = ∑ ( x i − s) es mínima cuando s = x . 2 i =1 • Si una muestra de n1 datos tiene una media x1 , una segunda muestra de n2 datos tiene una media x2 ,... una k-ésima muestra de nk datos tiene media x k , entonces la k media aritmética, x , de todos los N = ∑ ni datos es: i =1 k k x= ∑ ni x i i =1 k ∑n = ni ∑∑ x i =1 j =1 N i i =1 donde x ij es el j-ésimo dato de la i-ésimo muestra. 12 ij • Supongamos que observamos los valores de las dos variables estadísticas X e Y para n individuos. Es decir, tenemos los datos { x i ,..., x n } e {yi ,..., y n } , entonces x+y= x+y. • Si a es un constante, ax = ax . • Si x ∗ = x+a x+a . , entonces x ∗ = b b 1.4.2 La mediana La mediana también tiene un papel muy importante en la estadística (sobre todo en los métodos non-parametricos y los nuevos métodos robustos). Ordenando los datos en forma creciente, la mediana se define como el valor que deja igual número de observaciones inferiores que superiores a el. Si hay un número par de datos esta definición no proporciona un valor único y para esta caso tomamos como valor mediano la media aritmética de los dos centrales. Por ejemplo, si tenemos el conjunto de datos {4,1,4,2,4,2,5,3} , ordenando los datos en forma creciente tenemos {1,2,2,3,4,4,4,5} . Los dos valores centrales son 3 y 4 y su media aritmética es 3,5. Ordenando los 120 datos de Ejemplo 1.1 en forma creciente, obtenemos: 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 4 4 4 4 4 4 4 4 4 5 5 0 1 1 2 2 3 3 6 Los dos valores centrales son ambos 2. Entonces, la mediana es su media aritmética (2 + 2)/2 = 2. 1.4.3 La moda La moda se define como el valor de una muestra de datos que tiene la mayor frecuencia. Para los datos de Ejemplo 1.1 la moda es el valor 2 (con una frecuencia absoluta de 38). En Ejemplo 1.2 tenemos 90 valores distintos de una variable continua entonces la moda no es única (cada una de los 90 observaciones tiene una frecuencia de uno). No obstante, utilizando agrupamiento para esto tipo de datos, podemos definir el intervalo modal como el intervalo con la frecuencia máxima. Por los datos de Ejemplo 1.2 el intervalo modal es [0,1) (con una frecuencia absoluta de 41). 1.5 Medidas de dispersión A cada medida de centralización podemos asociarle una medida de la variabilidad de los datos respecto a ella. 13 1.5.1 La varianza Una medida asociada con la media es la varianza de una muestra, ~ s 2 , definido por: n ~ s2 = ∑ (x i − x) 2 i =1 n Si tenemos la distribución de frecuencias de los distintos valores que toman los datos, s 2 utilizando la fórmula: podemos calcular el valor de ~ m ( ~ s 2 = ∑ x 'j − x j =1 ) f (x ) 2 ' j r (Muchos autores definen la varianza de una muestra como: n s2 = ∑(x i − x) 2 i =1 n −1 porque tiene ciertas propiedades importantes. Minitab, por ejemplo, utiliza esta s 2 y s 2 serán muy parecidas.) definición. Obviamente, si n es grande, ~ Como podemos ver, la varianza es la media de los cuadrados de las desviaciones de los valores respecto de su media. Es 0 cuando todos los valores coinciden con la media. En realidad no es necesario calcular las desviaciones para calcular la varainza porque: n ∑ (x i − x) i =1 2 ⎛ n ⎞ ⎜ ∑ xi ⎟ n ⎝ ⎠ 2 = ∑ xi − i =1 n i =1 2 1.5.2 La desviación típica 1.5.2.1 Definición Es simplemente la raíz cuadrada positiva de la varianza, es decir: n ~ s= ∑(x i − x) 2 i =1 n ó n s= ∑ (x i − x) i =1 n −1 14 2 (que es la fórmula utilizada por Minitab) La desviación típica tiene las mismas dimensiones que los datos originales. n Para los datos de Ejemplo 1.2 ∑x i =1 2 i = 873,62 , n ∑ x = 188,35 y n = 90. Entonces: i =1 873,62 − ( 188,35) 90 ~ s2 = = 5,327 90 2 873,62 − ( 188,35) 90 s = = 5,387 89 s= ~ s 2 = 2,308 y ~ 2 2 y s = s 2 = 2,321 1.5.2.2 Propiedades • Es invariante ante un cambio de origen. Es decir, si Y = X + c, ~ sy = ~ s x . También, sy = sx . ~ s s X (k un constante), ~ sy = x . También, s y = x . k k k • Utilizando las propiedades arriba y las de la media, tenemos el siguiente resultado importante: Tipificación de una variable: Sea {x i ,..., x n } una muestra de datos (de una variable estadística X) con media x y desviación típica ~ s y definimos la • Si Y = X−x variable Y = ~ , entonces: y = 0 y s y = 1 . sx x 1.5.3 El coeficiente de variación de Pearson Se denomina coeficiente de variación al cociente: Cv = ~ s x que es una medida relativa de variabilidad (y que no tiene sentido si x = 0). En la x ingeniería se utiliza mucho el coeficiente inverso, ~ , que se conoce como coeficiente s 2,308 s = 2,308 y Cv = señal-ruido. Para los datos de Ejemplo 1.2, x = 2,093, ~ = 110 , . 2,093 1.5.4 La mediana de las desviaciones absolutas Una medida de dispersión asociada a la mediana, M, es la mediana de las desviaciones absolutas (MEDA) definida por: MEDA = mediana x i − M Si conocemos la mediana y la MEDA de un conjunto de datos sabemos que, al menos, el 50% de los datos están en el intervalo (M ± MEDA). 15 Esta medida (como la mediana) no es afectado por datos extremos (es decir, muy grandes o muy pequeños). Lamamos medidas que tienen esta propiedad medidas robustas o resistentes. Ordenando los datos de Ejemplo 1.2 en forma creciente, tenemos: 0,0127 0,1470 0,2925 0,5520 0,7033 0,8956 1,0304 1,4612 1,7483 2,2691 2,8120 4,6069 7,2789 0,0300 0,1659 0,3109 0,5541 0,7033 0,8994 1,0826 1,5169 1,7856 2,2976 3,5367 5,2857 7,4964 0,0466 0,0703 0,0760 0,1082 0,1094 0,1958 0,2239 0,2411 0,2527 0,2918 0,4149 0,4735 0,4995 0,5175 0,5318 0,5582 0,5707 0,5801 0,6177 0,7002 0,7350 0,7881 0,8398 0,8548 0,8949 0,9409 0,9490 0,9541 0,9573 1,0275 1,1176 1,1430 1,2292 1,4001 1,4029 1,5376 1,5422 1,5780 1,6724 1,6817 1,8357 1,8654 1,8982 1,9646 2,0238 2,3640 2,6449 2,6660 2,6781 2,7487 3,5947 3,8023 4,0653 4,1283 4,5410 5,9078 5,9698 6,0150 6,0339 6,1265 8,1102 8,3350 9,0298 10,1949 La mediana de los datos es la media de los datos 1,1176 y 1,1430, es decir, 1,1303. Los valores de las desviaciones absolutas ordenados en forma creciente son: 0,0127 0,1762 0,1813 0,2755 0,2905 0,4270 0,4270 0,5596 0,5721 0,6553 0,6568 0,8385 0,9833 1,0209 1,1388 1,1673 2,4064 2,4644 4,7775 4,8395 7,2047 7,8995 0,0127 0,0477 0,0989 0,0999 0,1028 0,1730 0,1894 0,2309 0,2347 0,2354 0,2698 0,2726 0,3309 0,3422 0,3866 0,3953 0,4073 0,4119 0,4301 0,4477 0,5126 0,5421 0,5502 0,5514 0,5762 0,5783 0,5985 0,6128 0,6180 0,6308 0,7054 0,7154 0,7351 0,7679 0,8194 0,8343 0,8378 0,8776 0,8892 0,8935 0,9064 0,9345 0,9644 1,0221 1,0543 1,0600 1,0837 1,1003 1,1176 1,2337 1,5146 1,5357 1,5478 1,6184 1,6817 2,6720 2,9350 2,9980 3,4107 3,4766 4,1554 4,8847 4,9036 4,9962 6,1486 6,3661 6,9799 9,0646 La mediana de estos valores es la media de los dos valores centrales 0,7679 y 0,8194 = 0,7937. Es decir, en este caso la MEDA = 0,7937. 1.5.5 El recorrido Como indicado antes, el recorrido (o rango) de un conjunto de datos es la diferencia entre sus valores máximo y mínimo. 1.5.6 Percentiles, cuartiles y el rango intercuartílico Si ordenamos los datos en forma creciente podemos identificar los percentiles y cuartiles de su distribución. Llamamos percentil α, Pα , al valor que deja inferiores o iguales a él α% de los datos. Por ejemplo, si el número de datos es impar la mediana es el percentil 50, P50 . Llamamos cuartiles a aquellos valores que dividen la distribución de un conjunto de dato en cuatro partes iguales. Entonces, el primer cuartil, Q1 , es 16 igual al percentil 25, el segundo, Q2 , es la mediana (y percentil 50), el tercero, Q3 , el percentil 75. Por ultimo, el rango intercuartílico es la diferencia entre Q1 y Q3 . Utilizando los datos ordenados en forma creciente de Ejemplo 1.2 vemos que el rango es 10,1949 - 0,0127 = 10,1822; Q1 = P25 = ( 0,5520 + 0,5541) 2 = 0,5531; Q2 = P50 = 11303 , ; Q3 = P75 = ( 2,6660 + 2,6781) 2 = 2,6721 y entonces el rango intercuartílico en este caso viene dado por Q3 − Q1 = 2.119 . 1.6 Medidas de asimetría y apuntamiento Hay varios medidas que podemos usar para resumir la asimetría o apuntamiento de una distribución. A continuación consideramos medidas relativas a la media. 1.6.1 Distribuciones simétricas y asimétricas Decimos que la distribución de frecuencias asociada con un conjunto de datos es simétrica cuando valores de la variable equidistantes de un valor central tienen las mismas frecuencias. En este caso, x = mediana. Como podemos ver desde las distribuciones de frecuencias de los datos de Ejemplos 1.1 y 1.2, las dos distribuciones no son simétricas (son asimétricas). El diagrama de barras de la primera y el histograma del segundo representan distribuciones asimétricas a la derecha (con colas a la derecha). En este caso x ≥ mediana . También podemos encontrar distribuciones asimétricas a la izquierda (con colas a la izquierda). Para una distribución de este tipo x ≤ mediana . 1.6.2 Coeficiente de asimetría de Fisher En un conjunto de datos con una distribución simétrica respecto a su media, x , la n suma ∑ (x i − x) 3 será nula, mientras para una distribución asimétrica esta suma i =1 crecerá con el nivel de la asimetría. Se define el coeficiente de asimetría de Fisher, Cas , como: n Cas = ∑(x i =1 i − x) 3 ns~ 3 que es una media de asimetría adimensional. 1.6.3 Coeficiente de agrupamiento o curtosis Consideramos los siguientes cuatro distribuciones de frecuencias relativas: Distribución 1 x − 10 / 9 0 10 / 9 Distribución 2 x fr ( x ) 0,45 − 10 / 7 0,1 0 0,45 10 / 7 Distribución 3 fr ( x ) 0,35 0,3 0,35 x − 2 0 2 17 fr ( x ) 0,25 0,5 0,25 Distribución 4 x − 10 / 3 0 10 / 3 fr ( x ) 0,15 0,7 0,15 Vemos que todas son simétricas con medio 0 y ~ s 2 = 1. No obstante, en la primera la frecuencia relativa del valor central es muy baja, en la segunda es casi la misma que la de los otros dos valores, en la tercera el valor central es el más frecuente y en la cuarta el valor central es mucho más frecuente que los otras dos valores. La distribución de las frecuencias relativas entre los valores centrales y los valores extremos define la característica llamada apuntamiento o curtosis. Las dos primeras distribuciones tiene poco apuntamiento, la tercera más y la cuarto mucho. Podemos medir esta propiedad de una distribución mediana el coeficiente de apuntamiento, definido como: n ∑ (x Cap = i =1 − x) i 4 ns~ 4 Para las cuatro distribuciones tenemos los siguientes valores de *. Distribución Cap 1 2 3 4 1,11 1,43 2 3,33 1.7 Momentos Se define el momento de orden k respecto del origen como: n mk' = ∑x k i i =1 n Los momentos respecto a la media se define por: n ∑ (x mk = i − x) k i =1 n Con estas definiciones, vemos que: n m0' = ∑x i =1 n 0 i n =1 m1' = i i =1 n =x m1 = ∑x i =1 n ∑(x m2 = − x) 1 i n ∑ (x i 0 =1 i =1 n 2 i − x) n n n m2' = i i =1 m0 = n ∑x ∑ (x − x) i =1 n También vemos que: 18 =0 2 =~ s2 n Cas = ∑ (x i =1 − x) i ∑ (x i =1 m = ~ 33 = s ns~ 3 n Cap = 3 − x) i ( m3 m2 ) 3 4 ns~ 4 m = ~ 44 = s ( m4 m2 ) 4 s = 2,308, Para los datos de Ejemplo 1.2 tenemos: x = 2,093, ~ n ∑ (x − x ) = 1823,09, 3 i i =1 n ∑ (x − x ) = 12773,9. Entonces Cas = 4 i i =1 1823,09 90( 2,308) 3 = 1,648 y Cap = 12773,9 90( 2,308) 4 = 5,002 . 1.8 Ejercicios matemáticos n 1.8.1 Encuentre el valor de a para que ∑ (x i − a) = 0 . i =1 n 1.8.2 Encuentre el valor a que minimiza ∑ (x − a) . 2 i i =1 n 1.8.3 Encuentre el valor a que minimiza ∑x i −a . i =1 1.8.4 Demuestre que si multiplicamos todos los valores de una variable por k, la media y la desviación típica quedarán multiplicadas también por k (k > 0). 1.8.5 ¿Qué transformación sufre el coeficiente de variación de Pearson de una variable X cuando se multiplican sus valores por un constante k (k > 0)? ¿Y si se dividen por k? 1.8.6 Demuestre que si construimos una variable Z mezclando n1 valores de X y n2 valores de Y, la media de Z, es: z= n2 n1 x+ y n1 + n2 n1 + n2 siendo x e y las medias de las variables iniciales. 1.8.7 Se tienen dos discos con radios 10 y 5 cm, respectivamente. Se construye otra disco cuya área es la media de las áreas de los dos discos originales. ¿Será su radio también la media de los radios dados? 19 1.8.8 Se tienen n valores de una variable estadística, {x i ,..., x n } que arrojan una media de 8 y una desviación típica de 5. Se construye los nuevos valores 2 yi = ( x i − 2) . ¿Cuanto vale y ? n 1.8.9 ¿Es cierta la igualdad n ∑ ( xi − x ) = ∑ ( xi − a) − n( x − a) para cualquier i =1 2 2 2 i =1 número real a? 1.8.10 Dadas las seis observaciones -10, 3, x, 10, 1, 0, se sabe que su desviación típica es igual a su coeficiente de variación de Pearson. Se pide: a) Encontrar el valor de x. b) Encontrar la media de la distribución. c) ¿Es la distribución simétrica? 20