UNIDAD I: ESTADÍSTICA DESCRIPTIVA ANÁLISIS DESCRIPTIVO TEMA DE VARIABLES CUANTITATIVAS 4.1.Introducción 4.2.Propiedades estadísticas de las variables cuantitativas 4.3. Descripción de muestras pequeñas 4.3.1. Herramientas para el análisis gráfico 4.3.2. Herramientas para el análisis numérico 4.4. Descripción de muestras grandes 4.5. Distribuciones de frecuencias de variables cuantitativas (datos agrupados) 4.6. Propiedades de las distribuciones de variables cuantitativas en muestras grandes 4.7. Variables discretas 4.7.1.Herramientas para el análisis gráfico 4.7.2.Herramientas para el análisis numérico (estadígrafos) 4.7.2.1. Medidas de posición 4.7.2.2. Medidas de dispersión 4.7.2.3. Medidas de forma: asimetría y curtosis 4.8. Variables continuas 4.8.1. Herramientas para el análisis gráfico 4.8.2. Herramientas para el análisis numérico (estadígrafos) 4.1. INTRODUCCIÓN Continuando con la descripción estadística de conjuntos de datos empíricos, que se corresponden con los valores de una variable observada, que generalmente en el caso de una variable cualitativa se obtienen mediante la observación y que para el caso de una variable cuantitativa surgen por recuento o medición instrumental de una característica o propiedad (datos univariados) o de dos (datos bivariados) o más (datos multivariados) en las unidades de análisis que componen una muestra, este capítulo y el siguiente enfocarán el análisis numérico y gráfico de los datos de naturaleza cuantitativa. Se vio la sencillez de la descripción estadística en el caso de las variables cualitativas, tanto a través de las herramientas gráficas como las numéricas. Contrariamente, la descripción estadística de las variables cuantitativas, dado que los datos surgen de aplicar los niveles de medición más altos (escala de intervalo o escala de razones), presenta un mayor grado de dificultad y requiere un tratamiento previo del significado del concepto “propiedades estadísticas de los datos cuantitativos en masa” o simplemente de las propiedades estadísticas. Estas propiedades se deben a la naturaleza aleatoria que presentan los datos empíricos correspondientes a fenómenos que resulta de interés estudiar en el campo del futuro desempeño profesional, y permiten describir diferentes aspectos que presentan las distribuciones de frecuencias muestrales para poder comprender el comportamiento empírico general, y a partir de esto poder desarrollar modelos teóricos explicativos que representan las leyes generales que rigen la ocurrencia de los hechos naturales, ecológicos, productivos, económicos, etc. Lo que antecede justifica plenamente el estudio de las propiedades estadísticas que presentan las muestras de datos cuantitativos cuando se los analiza en masa. Siguiendo el enfoque ya presentado, para esto se puede recurrir a herramientas gráficas (visualización: diagramas y gráficos) y numéricas (cuantificación: medidas descriptivas o estadígrafos), que se elegirán teniendo en cuenta el tipo de variable y el tamaño muestral. 4.2. PROPIEDADES ESTADÍSTICAS DE LAS VARIABLES CUANTITATIVAS Los fenómenos que resultan de interés en el campo de las ciencias con pertinencia en las carreras de la Facultad, presentan una característica común: no tienen un comportamiento constante. Al registrar datos relacionados resulta que siempre muestran variación y esto lleva a su caracterización estadística mediante el análisis descriptivo y el análisis inferencial, que se realizan respectivamente, en una etapa inicial y en una etapa a posteriori. El análisis completo permite establecer leyes, denominadas 39 Cátedra de Cálculo Estadístico y Biometría – Facultad de Ciencias Agrarias – UNCUYO / Ciclo 2014 UNIDAD I: ESTADÍSTICA DESCRIPTIVA leyes estocásticas o probabilísticas, probabilísticas que son explicaciones acerca de una clase de hechos posibles (idea poblacional), que se inducen a partir del conocimiento obtenido por medición de ocurrencias singulares (realidad particular o muestra). Significa que las leyes l que verdaderamente explican los hechos de la vida real son esquemas objetivos sujetos los procesos existentes que son regulados por ciertas relaciones constantes, en otras palabras, son formas generales que se descubren y representan la variación de los procesos reales y sus propiedades. propie A esta clase de ley, que rige independientemente de nuestra voluntad o nuestra conciencia, porque son inherentes a la naturaleza y la sociedad, es denominada Iey objetiva. Ahora bien, cuando el hombre descubre una ley objetiva, trata de expresarla en n forma racional mediante la forma de una ley científica. La ley científica se construye, tanto mejor cuanto sea el conocimiento que el científico posee sobre los hechos reales, pero nunca llega a coincidir por completo con la ley objetiva. Sin embargo la gran ventaja de disponer de leyes científicas es que el hombre puede transformar los efectos de una ley cambiando las condiciones de los procesos afectados. Las leyes científicas no determinan como ocurren Ios procesos, sino que expresan lo que ocurrirá en un cierto proceso cuando se cumplan tales y cuales condiciones. En este sentido, las leyes científicas desempeñan la función de predecir lo desconocido, desconocido, con base en lo conocido. Es decir que las leyes científicas sirven como instrumentos instrumentos de las investigaciones posteriores, y de esta manera, posibilitan el avance del conocimiento de las ciencias al aportar explicaciones acerca del qué, el dónde, el cuándo, el cómo y el por qué de Ios procesos existentes. A modo de resumen resumen, se puede decir que las funciones de la ley son las propias del conocimiento científico: explicar y predecir el curso de los fenómenos o hechos que son de interés en el mundo real. Al desarrollar la unidad de probabilidad e inferencia, se comprenderá el fundamental papel que tienen los métodos estadísticos en la formulación de las leyes científicas. En este capítulo comenzará a visualizarse la idea del comportamiento de datos, que varían con regularidad estadística. Naturalmente al tratarse del estudio descriptivo de d muestras, no se satisfacerá la condición de generalidad que tienen las leyes, las explicaciones que puedan construirse a partir de datos particulares tendrán un alcance acotado: serán explicaciones válidas para la muestra en cuestión, que solamente servi servirán rán de base para comenzar a vislumbrar algo posible para la población, un conocimiento que se aprenderá a formalizar a mediante el enunciado de hipótesis. hipótesis Con esta finalidad, se hará una introducción general de las propiedades de la distribución de los datos, que pueden ser examinadas examina en una muestra; ellas son las siguientes siguientes: El posicionamiento La dispersión La forma Solamente se pretende que el alumno tome una idea general de los aspectos que deben ser analizados cuando dispone de datos de una muestra univariada donde la variable es de naturaleza cuantitativa, y comience a juzgar frente a cada uno de los casos que ser serán án presentados, cuáles corresponde describir y cuáles no, por el alcance que tienen los datos. 4.2.1. El posicionamiento La primera propiedad estadística a analizar con el objetivo de caracterizar el patrón de variabilidad general de las masas de datos muestrales, muestrales, es el posicionamiento. Se ha visto que al definir el recorrido de una variable cuantitativa, que se debe dejar en claro el campo de variación numérico que tiene dicha variable, y que se ha recurrido en referencia a los conjuntos de los números naturales (datos de conteo) y reales (datos de medición), asociados respectivamente a variables discretas y variables continuas. La propiedad de posicionamiento se refiere a como se ubican o toman posición los datos en masa de la variable en una escala numérica, que por lo general se representa en el eje de las abscisas de un sistema cartesiano. cartesiano Estadísticamente se la cuantifica con los denominados estadígrafos de posición,, que pueden clasificarse como estadígrafos de centralización y estadígrafos no centrados. En n general los datos de las distribuciones empíricas suelen presentar tendencia a ubicarse a lo largo del recorrido de la variable, en un mayor o menor grado, en una posición más o menos central central; una propiedad de distribución general que se conoce como tendencia encia central central,, y en correspondencia se habla de las medidas edidas de la tendencia central que en general son las medidas promedios promedios. Un promedio se toma como punto típico de los datos, es un valor alrededor del cual se agrupan los demás valores de la variable. Además emás se completa la descripción del posicionamiento general de los datos a través de los estadígrafos no centrados, que se refieren a la mayoría de los percentiles, cuartiles y deciles deciles,, y de una medida que puede resultar centralizada o no, denominada la mediana. mediana. 4.2.2. La dispersión La segunda propiedad estadística a analizar con el objetivo de caracterizar el patrón de variabilidad general de las masas de datos muestrales, es la dispersión. Cualquiera sea el caso, la descripción estadística de variables cuantitativas debe incluir una medida de la posición y una de dispersión. 40 Cátedra de Cálculo Es Estadístico y Biometría – Facultad de Ciencias ias Agrarias – UNCUYO / Ciclo 2014 UNIDAD I: ESTADÍSTICA DESCRIPTIVA El concepto de dispersión en Estadística, se refiere a que los datos empíricos no varían en forma caótica, sino a que fluctúan con cierta regularidad con relación a alguna medida de posición tomada como referencia (generalmente el valor de la media), y por ende ende, las medidas de dispersión contienen información acerca del grado en que los datos se aproximan o alejan con respecto a ella ella,, en otras palabras si los valores están próximos entre sí o si por el contrario están o muy dispersos. 4.2.3. La forma Cuando se dispone de muestras grandes, resulta de interés analizar otras dos propiedades en relación al colectivo de datos, que dan información sobre el aspecto de forma de la distribución, ellas son: la asimetría y la curtosis. curtosis Ambas propiedades se miden numéricamente a través de sendas clases de coeficientes. s refiere a que los datos se distribuyen de forma similar a a) Asimetría: la condición de simetría se derecha e izquierda del punto central. central Esto sto es como imaginar un eje perpendicular ubicado en el valor central y hacer una comparación de la partes laterales, encontrando la mitad izquierda de su distribución es la imagen especular de su mitad derecha. E Es decir que hace referencia ncia a la característica de una repartición de datos equilibradamente por encima y por debajo de la tendencia central. Contrariamente la condición de asimetría o sesgo, hace referencia a que los datos tienden a repartirse de modo diferente, en correspondencia correspondencia a los valores inferiores al promedio y los valores superiores a éste. La consecuencia de la falta de simetría es que afecta la inferenci inferencia a con respecto al valor central, de modo que un valor medio tomado como representativo del conjunto puede no serlo tanto. Las posibilidades que pueden presentarse con relación a la propiedad de asimetría son: Caso de distribución asimétrica positiva; cuando la distribución se extiende marcadamente hacia el lado de valores que se encuentran por encima del valor central por la existencia de unidades de análisis con valores que se posicionan en la parte muy alta de la escala (cola derecha pesada)), Caso de distribución simétrica: sim cuando se distribuyen aproximadamente la misma cantidad de valores en ambos lados del de valor central Caso de distribución asimétrica negativa: cuando la distribución se extiende marcadamente hacia el lado de valores que se encuentran por debajo del valor central por existencia de unidades de análisis con valores que se posicionan en la parte muy baja de la escala (cola izquierda pesada), pesada Así por ejemplo, si un monte frutal no es bien conducido, es de esperarse que la distribución de frecuencias del rendimiento por planta (kg) resulte con sesgo positivo,, puesto que la mayoría de los de los frutales producirán poca fruta y unos pocos darán mucha mucha.. Si por el contrario el monte es bien conducido, se puede esperar una distribución del rendimiento con sesgo negativo, vo, dado que la mayoría de las plantas producirían produci mucha fruta y unas pocas darán bajo o rendimiento. rendimiento Si el monte presenta una situación normal en la conducción, lo más probable es que la distribución resulte simétrica. b) Curtosis: el nombre de esta propiedad se deriva etimológicamente del término griego “kurtos”,que significa convexo, y que comenzó omenzó a utilizarse en el contexto de la matemática significando “curvatura”. La a propiedad se relaciona con dos aspectos que hacen a la forma de la distribución: 1) el grado de apuntalamiento que posee una distribución de frecuencias en su parte central, y, 2) las colas, o partes extremas de la distribución, distribuci en cuanto a si se extienden hacia valores alejados del central o no. La consecuencia de una alta curtosis es que afecta la inferencia con respecto a las medidas de dispersión. Las posibilidades que pueden pueden presentarse con relación a la propiedad de curtosis se establecen tomando como referencia una distribución que gráficamente posee una forma campanular armónica: Caso de distribución leptocúrtica; cuando la distribución muestra gran alzada o un aspecto puntiagudo en el entorno al valor central y además posee colas estiradas,, esto es, la distribución de los datos se extiende marcadamente tanto hacia el lado de valores que se encuentran muy por debajo del valor central como hacia el lado de valores ubicados muy por encima del mismo. En general el gráfico de la distribución ttiene una forma estilizada. Caso de distribución mesocúrtica: cuando se distribuyen aproximadamente la misma cantidad de valores en ambos lados del de valor central Caso de distribución platicúrtica: cuando la distribución muestra un aspecto aplastado o de meseta en el entorno al valor central y además posee colas cortas, esto es, la distribución de los datos se extiende poco tanto hacia el lado de valores que se encuentran muy por debajo del valor central como hacia el lado de valores ubicados muy por encima del mismo. En general el gráfico de la distribución tomará una forma estilizada La descripción estadística de las distribuciones de frecuencias, a través de las propiedades del colectivo de datos muestrales, permitirá el primer acercamiento hacia la modelización del comportamiento de las variables en el contexto poblacional, el cual se aprenderá a expresar utilizando leyes probabilísticas o estocásticas que sirven para dar sustento a las leyes científicas. 41 Cátedra de Cálculo culo Estadístico y Biometría – Facultad de Cien iencias Agrarias – UNCUYO / Ciclo 2014 UNIDAD I: ESTADÍSTICA DESCRIPTIVA 4.3. DESCRIPCIÓN MUESTRAS PEQUEÑAS (UNIVARIADAS) A diferencia de los datos categóricos respecto a los cuales siempre se dispone de una muestra grande, se ha visto que en el caso de los datos cuantitativos se pueden presentar dos situaciones: el caso de muestras pequeñas y el caso de muestras grandes, y en cada caso corresponderá realizar la descripción que corresponda, recordando lo expuesto al inicio de este capítulo, para caracterizar el patrón de variabilidad que posee la variable en estudio. Propiedades estadísticas a describir en: muestras pequeñas de datos cuantitativos Tamaño Propiedades Posicionamiento (tendencia central y otra) Dispersión Pequeño 4.3.1. Herramientas para el análisis gráfico 4.3.1.1. Presentación tabulares En el caso de muestras pequeñas este tipo de descripción no es utilizada. La organización de los datos solo puede arrojar una distribución simple. 4.3.1.2. Representación gráfica 4.3.1.2.1. Diagrama de puntos o puntigrama. Un diagrama elemental que resulta muy útil para visualizar global e individualmente un conjunto pequeño de datos, o razonablemente pequeño con pocos datos diferentes, es el diagrama de puntos, o puntigrama. Se trata de un tipo de graficación que es muy utilizada en el análisis exploratorio de datos. Definición 4.1. El diagrama de puntos, consiste sencillamente, en representar los valores observados de la variable en estudio como puntos sobre un eje horizontal. Construcción: cada dato se representa con un punto encima de la correspondiente localización en una escala horizontal de medida. Cuando existen valores repetidos, se dibuja un punto por cada ocurrencia en formato vertical. Interpretación: se deberá analizar donde se produce la mayor concentración de datos (tendencia) y la dispersión que presenta la muestra. Esto último significa identificar si el patrón de variación es más o menos regular o no, identificar los valores extremos y detectar datos atípicos, que son datos que tienen la particularidad de tomar valores muy alejados (numéricamente distantes) del grupo general de datos Esto es importante porque las medidas estadísticas derivadas de conjuntos de datos que incluyen valores atípicos suelen arrojar información engañosa. De la bibliografía se han extraído datos que corresponden a residuos de cloro (ppm) en un depósito de agua de lluvia después de haber sido tratada para su potabilización: 1,8-0,9-1,2-1,4-1,5-1,41,7-1,1-1,2. Los datos se muestran en el gráfico 4.1, que corresponde a un diagrama de puntos. En él se pueden analizar con rapidez y facilidad las principales características de los datos muestrales, esto es su posicionamiento en la recta de los números reales y además, se puede observar cuál es la tendencia central y la variabilidad que presentan. 0,7 0,8 0,9 1 1,1 1,2 1,3 1,4 1,5 1,6 1,7 1,8 1,9 Residuos de Cloro (ppm) Gráfico 4.1: Diagrama de puntos para residuos de cloro en tratamientos de un depósito de agua Por ejemplo, se nota que la parte media de los datos se encuentra entre 1,2 y 1,4, aunque más cerca de 1,4 ppm. También se observa que los valores mínimo y máximo han sido, respectivamente, 0,9 y 1,8, por lo tanto la amplitud de los valores es de 0,9 ppm (1,8-0,9). A menudo se puede presentar la necesidad de comparar dos o más conjuntos pequeños de datos, como ocurre en el campo de la experimentación donde se trabaja con muestras pequeñas. Por ejemplo, se ha realizado un experimento para comprobar si la aplicación de tratamiento fitosanitario para prevenir ataque de peronóspora en vid tiene un efecto fitotóxico, que se traduce en una disminución de la expresión vegetativa. Para esto al momento de la poda, se pesa el material eliminado en diez plantas sin tratar (testigo) y en diez tratadas, que se seleccionan, en ambos casos, al azar. Los resultados obtenidos, en kg/planta, son: 42 Cátedra de Cálculo Estadístico y Biometría – Facultad de Ciencias Agrarias – UNCUYO / Ciclo 2014 UNIDAD I: ESTADÍSTICA DESCRIPTIVA Testigo 17,50 - 17,63 - 18,25 - 18,00 - 17,86 - 17,75 - 18,22 - 17,90 – 17,96 –17,80 Tratada 16,85 - 16,40 - 17,21 - 16,35 - 16,52 - 17,04 - 16,96 - 17,15 – 16,59 – 16,10 El diagrama de puntos del gráfico 4.2 muestra los dos conjuntos de mediciones, donde los asteriscos corresponden a las plantas tratadas y los puntos a las plantas testigo. Nótese que rápidamente el diagrama de puntos revela que las plantas tratadas han producido menos material de poda, y puede esperarse que el valor medio se encuentre más o menos centrado, mientras que en el caso de las plantas testigo, este valor estaría un poco desplazado hacia la izquierda. Continuando con el análisis comparativo, se puede ver que además los resultados han sido más variables en el caso de las plantas tratadas. 16,00 16,50 17,00 17,50 18,00 18,50 Kg/pl Gráfico 4.2: Diagrama de puntos para producción de material de poda (kg/pl), en vides tratadas (♦) y no tratadas (•) No obstante, cabe aclarar que cuanto más pequeño sea el número de datos, más difícil se puede hacer la tarea de identificar patrones de variación específicos a través de estos diagramas. También resulta claro ver, que no son representaciones adecuadas para conjuntos numerosos de datos. 4.3.1.2.2. Diagrama de tallo-hoja El diagrama de tallo y hoja es una buena manera de hacer una descripción gráfica de conjuntos de datos que no son demasiado pequeños y que además están formados por al menos dos dígitos. Definición 4.2 El diagrama de tallo-hoja, consiste en representar los valores observados de la variable en diferentes renglones y en relación a una línea vertical, de tal modo que: a la izquierda de la misma se colocan los primeros dígitos o dígitos principales, constituyendo el tallo y, a la derecha, en correspondencia se ubica ordenadamente de menor a mayor el último dígito de cada número, de tal modo que cada uno de ellos se considera como una hoja. Para construir un diagrama de tallo y hoja (del inglés, Stem-and-Leaf Diagram), supóngase que los datos de la variable están formados por dos dígitos (12-18-12-15-26-27-30-30-39), luego solo basta separar en cada dato el último dígito de la derecha (que constituye la hoja) del bloque de los primeros dígitos (que formarán el tallo), esto es: Tallo 1 2 3 Hoja 2258 67 009 El gráfico es doblemente informativo: no se pierden los datos brutos y, además muestra el perfil como se distribuyen en general los datos es decir, permite tomar una idea acerca del patrón de variabilidad de la variable. A continuación se dan algunos ejemplos ilustrativos: a) Horarios de llegada de los trenes que cubren el trayecto entre dos ciudades Tabla de datos ordenados 5.03 6.02 6.18 6.37 6.48 6.55 7.02 7.07 7.20 7.25 22.3 7.32 7.37 7.50 8.02 8.05 8.20 8.24 8.32 8.37 8.51 9.02 11.07 13.32 15.07 16.50 18.32 20.07 9.07 11.32 13.37 15.20 17.02 18.37 20.20 9.24 11.37 13.50 15.32 17.07 18.50 20.32 9.32 12.02 14.02 15.37 17.20 19.02 20.37 9.37 12.07 14.07 15.50 17.32 19.07 20.50 10.02 12.32 14.20 16.02 17.37 19.20 21.02 10.07 12.37 14.32 16.07 17.50 19.32 21.07 10.32 13.02 14.37 16.20 18.02 19.37 21.20 10.37 13.07 14.50 16.32 18.07 19.50 21.32 11.02 13.20 15.02 16.37 18.20 20.02 21.37 43 Cátedra de Cálculo Estadístico y Biometría – Facultad de Ciencias Agrarias – UNCUYO / Ciclo 2014 UNIDAD I: ESTADÍSTICA DESCRIPTIVA Diagrama de tallo y hoja 05 | 03 06 | 02 18 37 48 55 07 | 02 07 20 25 32 08 | 02 05 20 24 32 09 | 02 07 24 32 37 10 | 02 07 32 37 11 | 02 07 32 37 12 | 02 07 32 37 13 | 02 07 20 32 37 14 | 02 07 20 32 37 15 | 02 07 20 32 37 16 | 02 07 20 32 37 17 | 02 07 20 32 37 18 | 02 07 20 32 37 19 | 02 07 20 32 37 20 | 02 07 20 32 37 21 | 02 07 20 32 37 22 | 38 37 50 37 51 50 50 50 50 50 50 50 50 En el diagrama de tallo y hoja, está representada la hora a la izquierda de la barra de separación | y los minutos a la derecha. Se desprende que la cantidad de trenes en las diferentes horas está reflejada por la longitud de las filas y además, es muy fácil ver que hay coincidencia en los minutos de cada hora en que pasan. b) Muestra de 25 observaciones del rendimiento de un proceso químico, que genera un precipitado cuyo peso es medido, en mg. En el diagrama (a) se observa que los valores extremos han sido 61 y 95 mg, así como que los rendimientos más comunes estuvieron entre 70 y 80 mg; en tanto, en el diagrama (b) se puede captar mejor la información contenida en los datos observados porque los valores correspondientes a cada decena se dividen en dos partes, L (del ingl. lower) indica el renglón donde los valores del último dígito son menores a 5, y U (del ingl. upper) indica el renglón con los valores igual o superior a 5. Tallo Hoja Tallo Hoja 6 7 8 9 134556 011357889 1344788 235 6L 6U 7L 7U 8L 8U 9L 9U 134 556 0113 57889 1344 788 23 5 (a) (b) Hasta aquí hemos visto que la decisión de recopilar datos, que sean relevantes y conformen una muestra aleatoria, es sólo el comienzo indispensable para empezar a desentrañar una situación problema de interés. También ya conocemos que cuando las muestras son pequeñas (n≤ 30), en la mayoría de los casos, se trabaja directamente con los datos tal cual fueron recolectados, tanto para su representación gráfica como para el cálculo de las medidas descriptivas. Se describe el patrón de datos, a partir de la obtención de una distribución simple o distribución de datos no agrupados. Contrariamente, cuando las muestras grandes, los datos brutos o datos sin procesar no resultan de mucha utilidad, hay que darles una forma comprensible que ponga en evidencia el patrón de comportamiento que tiene la variable considerada. Para esto, se requiere un tratamiento previo a su análisis, que en términos generales hemos llamado organización de los datos, y que muchas veces consiste en someterlos a un ordenamiento y clasificación. Luego, el patrón de datos, se describe a partir de la obtención de distribución de datos agrupados. 4.3.2. Análisis numérico Se vio que cuando las variables son cualitativas, la descripción numérica prácticamente se limita al concepto de frecuencias o proporciones. Si las variables son cuantitativas el espectro se amplía, de acuerdo a lo siguiente: 44 Cátedra de Cálculo Estadístico y Biometría – Facultad de Ciencias Agrarias – UNCUYO / Ciclo 2014 UNIDAD I: ESTADÍSTICA DESCRIPTIVA Medidas para describir muestras pequeñas Medidas Propiedades Media aritmética, ̅ Media geométrica, ̅ Mediana (*), ̅ Cuartiles, qi Deciles, di Cuantiles Percentiles, pi Amplitud o recorrido, Varianza, Desviación típica, Tendencia central Posicionamiento Otras Dispersión Absolutas (*) q2 = ̅ Coeficiente de variación, (%) Relativas 4.3.2.1. Medidas de posicionamiento: Promedios 4.3.2.1.1. Media aritmética La media aritmética, y desde ahora simplemente la media, es la medida de posición más utilizada. Pertenece al grupo de estadígrafos conocido como promedios, y es por excelencia el promedio pero como se verá no en exclusividad, razón por la cual se aconseja no utilizar el término “promedio” como sinónimo de media. Se la denota con el símbolo x , y su valor se obtiene matemáticamente a través de una suma y un cociente x= x 1 + x 2 + ... + x n −1 + x n , donde el numerador x1,x2, ..., xn-1, xn, representa la n suma de las n observaciones muestrales. Esta expresión constituye la fórmula explícita o expandida de la media. Comúnmente se utiliza una fórmula abreviada que emplea el operador suma, representado con el símbolo griego sigma mayúscula Σ, acompañado de: a) un subíndice que individualiza los términos que deben sumarse. A saber i=1 expresa que se suma desde el primer valor de la variable x, esto es ∑ b) un superíndice que indica el último sumando representado genéricamente por n, esto es ∑ ∑ Así por ejemplo para una muestra de n=10, la fórmula aplicada de la media resultará ̅ = 10. Definición 4.3 ), de un conjunto de n datos es igual a la suma, desde la i-ésima “La media aritmética muestral ( observación de la variable estadística x hasta la n-ésima, divida por el tamaño muestral n” n ∑x x= i i=1 n La media como medida de posición, tiene una importante interpretación física: si cada observación se piensa como una unidad de masa colocada sobre el filo de una fina cuchilla (que representa el recorrido de la variable), y que se coloca un punto de apoyo exactamente en el valor de la media, resultará que el sistema de masas queda perfectamente equilibrado, de ahí la consideración de la media como un punto de equilibrio (el peso de las masas a la izquierda de la media iguala al peso de las posicionadas a su derecha). El concepto se ilustra en el gráfico 4.3. º ºº 16.0 º ºº º º 16.5 17.0 17.5 18.0 kg/planta x = 16.717 kg/planta Gráfico 4.3: La media muestral como punto de quilibrio de un sistema de pesos. Al interpretar la información gráfica, deberá prestarse atención a lo siguiente: 1º) la media es un valor calculado de la variable 2º) la media tiene la misma unidad de medida que los datos originales. 45 Cátedra de Cálculo Estadístico y Biometría – Facultad de Ciencias Agrarias – UNCUYO / Ciclo 2014 UNIDAD I: ESTADÍSTICA DESCRIPTIVA 3º) la media se ha expresado con un decimal más del que tenían los datos originales A continuación se presentará formalmente la media poblacional, µ. Análogamente a lo visto para la media muestral, la fórmula de la media poblacional indica que es el promedio aritmético de todas las N observaciones de una población1. Definición 4.4: Se lee ¨La media aritmética poblacional (µ), de un conjunto de N datos es igual a la suma, desde la i-ésima observación de la variable X, hasta la N-ésima, divida por el tamaño poblacional N¨ N µ= ∑x i i=1 N Propiedades de la media Propiedad 1. La suma de los desvíos de los valores de la variable x, con respecto a la media, para el conjunto de n obsercaciones es igual a cero. n ∑(x i − x) = 0 i =1 Significa que la suma de desvíos negativos (xi < x ) es igual a la suma de los desvíos positivos (xi > x ). Esto explica de otra forma, por qué la media se interpreta físicamente como un punto de equilibrio. Propiedad 2. La suma del cuadrado de los desvíos de la variable x, con respecto a la media, para el conjunto de n observaciones es un valor mínimo. n ∑ (x i − x ) 2 = mínimo i =1 Propiedad 3. La media de la suma de varias variables, o media general, es igual a la suma de las medias de cada variable (x + y + z ) = x + y + z Propiedad 4. Si cada una de las n observaciones muestrales es multiplicada por una constante c, la media de los datos transformados (c.x), es igual a la constante multiplicada por la media de los datos originales cx1 + cx2 + ... + cxn = c.x Propiedad 5. La media conjunta, x c , de dos series simples está dada por: x +x si la cantidad de datos es igual (n1 = n2) xc = 1 2 2 x1 n1 + x 2 n2 si los conjuntos tienen diferente tamaño (n1 ≠ n2) xc = n1 + n 2 Nótese que se trata de una media ponderada. En el primer caso, no se observa la ponderación en la fórmula porque al ser idénticos los tamaños muestrales (n1 = n2) ambas medias tienen idéntico peso (ponderación unitaria). En el segundo las medias se deben multiplicar por los correspondientes tamaños muestrales (ponderaciones), dado que el valor de la media se ha calculado con diferente cantidad de información. El caso anterior es sólo una situación particular del caso general para k series, donde la media de medias o media general, x g , para series de igual tamaño está dad por: xg = • x1 + x 2 + .... + x k k La media es un valor de variable y por tanto debe expresarse numéricamente, acompañada con las mismas unidades que tiene la variable. • El valor de la media no es un valor de variable observado. 4.3.2.1.2. Mediana Otra medida de posición bastante utilizada es la mediana, denotada con ̅ . Este estadígrafo posee un nombre que hace referencia a una posición media bajo ordenamiento, relacionada con igual cantidad de datos a su izquierda ( < ̅ ) y a su derecha ( > ̅ ). Para la definición formal de la mediana, y por ende para su cálculo, hay que considerar si la serie de datos es par o impar: 1 En las situaciones prácticas resultará imposible (o poco práctico o poco económico) examinar las N unidades que componen una población, por lo tanto el valor verdadero de la media en la práctica nunca será conocido. Al desarrollar la unidad de probabilidad, se estudiarán modelos para representar poblaciones finitas e infinitas y se introducirá el concepto de variable aleatoria y el de “esperanza matemática” , como el concepto relacionado con la media poblacional. En la unidad de inferencia estadística se darán métodos para poder inferir o estimar la media poblacional, a partir del conocimiento de la ̅ . 46 Cátedra de Cálculo Estadístico y Biometría – Facultad de Ciencias Agrarias – UNCUYO / Ciclo 2014 UNIDAD I: ESTADÍSTICA DESCRIPTIVA a) La mediana de una serie simple que tiene un número impar de observaciones, en un arreglo ordenado por magnitud, toma el valor de la observación que ocupa la posición central. b) La mediana de una serie simple que tiene un número par de observaciones, en un arreglo ordenado por magnitud, toma el valor que corresponde a la media de las dos observaciones centrales En consecuencia, se requieren dos definiciones formales de la mediana, según la muestra tenga un tamaño impar, definición 4.3, o bien par, definición 4.4. = Definición 4.5: Cuando el tamaño de la muestra es impar, la mediana toma el valor numérico que corresponde a la observación que ocupa la posición (n+1)/2, en una serie ordenada por magnitud. Definición 4.4: Cuando el tamaño de la muestra es par !" + !" la mediana, toma el valor de la semisuma de los valores que corresponden a las dos observaciones centrales, en una serie = ordenada por magnitud A continuación se ilustrarán estos conceptos: Muestra con n impar : Sea la serie de datos ordenados (n=5) 500 donde las observaciones ocupan el orden 1º 570 590 600 690 2º 3º 4º 5º El punto de posicionamiento de la mediana es (n+1) / 2, o sea [(5+1) / 2] = 3, es decir que la mediana en esta serie toma el valor de variable que tiene la unidad de análisis que se ubica en en centro de la serie ordenada, por tanto 3º lugar: x d = 590, con la unidad de medida correspondiente. Muestra con n par : Sea la serie de datos ordenados (n=6) donde las observaciones ocupan el orden 12 1º 15 2º 17 3º 25 5º 23 4º 28 6º El punto de posicionamiento de la mediana está entre (n / 2) y (n / 2) + 1, por reemplazo (6/2) y (6/2) + 1, o sea entre 3 y 4, luego, la mediana para esta serie toma el valor de la semisuma (17+23) /2 , es decir 20, con la unidad de medida correspondiente. Una importante aclaración acerca de la mediana No confundir número de orden con valor de la mediana. El siguiente esquema pretende clarificar el concepto: 1) Ordenamiento de las unidades de análisis por magnitud 2) Asignación del número de orden a las unidades 1º 2º 3º 4º 5º 6º 7º 3) Identificación de la unidad/des que ocupa/n en la serie la/s unidad/es central/les, según n sea impar o 4) Obtener la mediana (valor que tomó la variable en la unidad central, x(n+1)/2, o valor correspondiente a la semisuma de los datos que tomó la variable en las dos unidades centrales, • xn / 2 + x( n / 2)+1 2 ) n impar → x(n+1)/2 = x d x1 x2 x3 x4 x5 x6 x7 x d = x4 La mediana es un valor de variable observado en el caso de n impar Cabe aclarar también que en el cálculo de la mediana, si la muestra tiene observaciones xi repetidas, se las debe incluir tal cual en la serie ordenada repitiendo el valor las veces que sea necesario. Por ejemplo, sea el conjunto de datos arreglados el siguiente: 19,8 20,5 21,6 21,6 22,7 23,1 25,0. Como n=7, resulta que la mediana ocupa el 4º lugar, y entonces es igual a 21,6. La mediana presenta la siguiente ventajas: 1º) para el cálculo de su valor intervienen las n observaciones y, 47 Cátedra de Cálculo Estadístico y Biometría – Facultad de Ciencias Agrarias – UNCUYO / Ciclo 2014 UNIDAD I: ESTADÍSTICA DESCRIPTIVA 2º) a diferencia de lo que acontece con la media, no es afectada por la magnitud que puedan tener los valores extremos de la serie Para aclarar, supóngase que las observaciones muestrales han sido 1, 3, 4, 2, 7, 6 y 8, en tanto la media resulta ser igual a 4,4 en tanto que la mediana resulta ser igual a 4. Ambas medidas dan una idea razonable de la tendencia central de los datos. Ahora supóngase que la penúltima observación de la serie fue 2450. Recalculando se tiene que la media vale 353,6 y que la mediana sigue valiendo 4. En este último caso, una serie con un valor muy extremo, la media no dice mucho con respecto a la tendencia central de la mayoría de los datos, mientras que la mediana resulta más adecuada para representarlos. Del mismo modo que ocurrió con la media, media muestral y media poblacional, además de la mediana muestral se puede definir : Definición 4.6 La mediana poblacional, como el valor de variable que deja a la mitad de los valores poblacionales por debajo y a la otra mitad por encima. 4.3.2.1.3. Media geométrica En ocasiones se trabajan con cantidades que cambian en un cierto período, y se necesita conocer una tasa promedio de cambio, como por ejemplo, la tasa de crecimiento promedio de un órgano vegetativo o del crecimiento poblacional en una ciudad o de la inflación monetaria. En tales caso se utiliza como medida de la tendencia central la media geométrica, denotada como ̅ , una medida que tiene como inconveniente la dificultad que presenta para entender su significado. Definición 4.7: n xg = n ∏x $ , de un conjunto de n datos muestrales es igual a la raíz nque se lee ¨La media geométrica ésima del producto de las xi, desde la i-ésima observación de la variable estadística x, hasta la nésima¨ i i =1 Por ejemplo, sea el crecimiento de una cuenta de ahorros que en cinco años ha tenido las siguientes tasas: 1,07-1,08-1,10-1,12 y 1,18. Luego, el valor de la media geométrica está dada por ejemplo 1,1093 y respresenta el factor de crecimiento promedio que ha tenido el depósito hecho en la cuenta de ahorro. ̅ = 5&' = 5(1,07 ∗ 1,08 ∗ 1,10 ∗ 1,12 ∗ 1,18 = 1,1093 n ∑ log x Mediante la transformación logarítmica, la fórmula queda expresada como log x g = i 1 n 4.3.2.2. Medidas de dispersión El posicionamiento o la tendencia central es una propiedad que no proporciona información suficiente para describir datos de manera adecuada. Por ejemplo, sean dos muestras en que se ha determinado la presencia de un cierto componente en ppm: Muestra 1: Muestra 2: 130 98 140 128 145 140 150 160 158 165 165 205 En ambos casos la media es igual a 148 ppm. Sin embargo, si se recurre al diagrama de puntos del Gráfico 4.4, se observa que los patrones de variabilidad o dispersión son diferentes, la muestra 2 posee más variabilidad que la de la muestra 1. 90 110 130 150 170 190 210 Gráfico 4.4: Datos de composición, en ppm, de dos muestras Referencias: *, datos de la Muestra 1 y, º, datos de la Muestra 2 4.3.2.2.1. Amplitud La medida más simple de variabilidad es la amplitud de la muestra, también conocida como rango o recorrido de la muestra. La amplitud muestral, es una medida de la extensión o recorrido de la muestra en la recta de los reales. 48 Cátedra de Cálculo Estadístico y Biometría – Facultad de Ciencias Agrarias – UNCUYO / Ciclo 2014 UNIDAD I: ESTADÍSTICA DESCRIPTIVA Definición 4.8: amplitud = x máx - x mín que se lee ¨La amplitud, de un conjunto de n datos muestrales es igual a la diferencia entre el máximo y mínimo valor que toma la variable observada¨. En el par de muestras donde se midieron las ppm de un cierto componente, la amplitud de la primera es igual a 165 ppm – 130 ppm = 35 ppm, mientras que el de la segunda es 205 ppm – 90 ppm = 115 ppm. Según estos resultados se declara la muestra 1 menos variable, con las precauciones que implica basarse en una medida absoluta derivada de sólo dos valores. Por ejemplo sean ahora los esquemas de las tres siguientes muestras. Muestra 1 Muestra 2 Muestra 3 º ºººº º º º * ****** ++++ +++ + º * + º º * + Si bien los tres conjuntos son bastante diferentes en su variabilidad, poseen la misma amplitud. El primero tiene un patrón de dispersión bastante regular a lo largo de toda la escala, el segundo tiene una alta concentración de los datos en la parte central pero muestra dos puntos extremos y, el tercero muestra una concentración de valores bajos y uno atípicamente alto. Sin embargo, como la amplitud ignora toda la informaciòn que existe en la muestra entre las dos observaciones más extremas, tiene un uso limitado. Por ejemplo se lo usa mucho en el control estadístico de calidad, donde por lo general se trabaja con muestras pequeñas (n< 10). Pero, para la mayoría de las situaciones se prefiere medir la variabilidad con medidas donde intervengan todas las observaciones, que son las que se describirán seguidamente. 4.3.2.2.2. Varianza y desviación típica Las medidas más importantes de la variabilidad son la varianza y la desviación típica. Estas medidas toman en consideraciòn la forma en que se distribuyen todos los valores de la variable con respecto a la media. La varianza muestral, denotada por s2, es un concepto estadístico muy importante, cuya interpretación ofrece grandes dificultades. En principio, hay que pensar en nuevos valores de la variable, los desvíos con respecto a la media, ( − ̅ ). Como se tienen n desvíos muestrales, habrá que pensar en un promedio de desvíos, esto es ∑( − ̅ )⁄1, pero, si se recuerda la primera propiedad de la media, el resultado de esta expresión siempre será igual a cero. El problema se puede resolver elevando al cuadrado los desvíos, ( − ̅ ) , y colocando en el numerador la suma de cuadrados de los desvíos de los valores de la variable con respecto a la media muestral, esto es: ∑( − ̅ ) ⁄1. Sin embargo, esta expresión sólo sirve para introducir una interpretación intuitiva al verdadero concepto de la varianza muestral y, aunque errática sirve al efecto de entender que la varianza muestral se aproxima a la idea de un promedio de los cuadrados de los desvíos de los valores de la variable respecto a la media. Para llegar a la varianza muestral hay que definir previamente otro concepto que es el de grados de libertad. Los grados de libertad indican ¨porciones¨ de información independiente. Si la muestra tiene n observaciones, se pueden calcular n desvíos con respecto a la media. Nuevamente, recordando la propiedad de la suma de estos desvíos, acerca de que su suma es igual a cero, si se tiene una serie de n desvíos, sólo n-1 de ellos podrán tomar valores con libertad, pero el restante desvío está ¨obligado¨ a tomar un valor tal que se cumpla tal propiedad. Por ejemplo, sean los valores de la variable 1,2,3,4, y 5, por tanto la media es igual a 3. La correspondiente serie de desvíos es -2, -1, 0, +1 y ?. El último desvío, conociendo la citada propiedad, se puede escribir sin necesidad de calcularlo como +2, porque (-2) + (1) + (0) + (1) + (2) = 0. Es decir, que si la muestra tiene un tamaño de n, se hablará de que sus grados de libertad, para calcular la varianza muestral, son igual a n-1. ( − ̅ ) + ( − ̅ ) + ⋯ + ( − ̅ ) 1−1 Procedimiento directo para el cálculo: se basa en los valores de los desvíos ( − ̅ ), y las fórmulas que se obtienen son fórmulas de definición, pero su uso no es práctico, por lo que posteriormente se presentará el procedimiento abreviado para el cálculo. La varianza muestral es igual a la suma de cuadrados de desvíos respecto a la media muestral dividida por los grados de libertad de donde, resulta la definición formal de la varianza muestral. = Definición 4.9: n ∑( x - x ) 2 i 2 s = i=1 n-1 que se lee ¨La varianza muestral, s , de un conjunto de n datos es igual a la suma de cuadrados de desvíos (de los valores xi de la variable estadística x con respecto a su mediax) dividida por los grados de libertad dados por n-1¨. 2 Por su parte, la desviaciòn típica muestral, también denominada desviación estándar muestral, representada con s, se deriva directamente de la varianza. 49 Cátedra de Cálculo Estadístico y Biometría – Facultad de Ciencias Agrarias – UNCUYO / Ciclo 2014 UNIDAD I: ESTADÍSTICA DESCRIPTIVA Definición 4.10: n ∑( x - x ) 2 i s = s2 = i=1 n-1 que se lee ¨La desviación típica muestral, s, es igual a la raíz cuadrada (positiva) de la varianza¨. De las fórmulas, tanto para la varianza como para la desviación típica muestral, se desprende que ambas medidas al ser aplicadas arrojan un valor numérico acompañado por la unidad en que se midió la variable en estudio, y que además, para el caso de la varianza, esta unidad queda elevada al cuadrado, por ejemplo cm2, g2, kg2, etc. Ésta es una de las paticularidades por las que se hace más dfícil la interpretación de esta importante medida, contrariamente la desviación típica tiene la deseable propiedad de medir la variabilidad con la misma unidad de medida de los datos recolectados y en consecuencia, con la misma unidad de medida que tiene la media, entonces se la puede interpretar como una distancia en el eje de abscisas o eje x. Algo más que se debe notar, a partir de las fórmulas, es que ni la varianza ni la desviación típica pueden ser negativas y tomarían el valor cero cuando todas las observaciones fueran exactamente iguales, es decir en una franca ausencia de variabilidad. A continuación se hará una ilustración, para facilitar la comprensión de los cálculos utilizando la fórmula definicional de la varianza. La tabla 4.1 muestra los datos de una muestra de n=6, correspondiente a mediciones de resistencia a la tensión de aleaciones de aluminio-litio. Tabla 4.1: Cálculos para la varianza y la desviación típica muestral,por el procedimiento directo. Nº medición 1 2 3 4 5 6 5 ( − ̅ ) − ̅ 90 128 205 140 165 160 -58 -20 57 -8 17 12 5 5 4( − ̅ ) = 0 4 = 888 3364 400 3249 64 289 144 4( − ̅ ) = 7510 de modo que la varianza muestral y la desviación típica resultan iguales a n ∑( x - x ) 2 i 2 s = i=1 n-1 = 7510 = 1502 gramos 2 6 -1 ; en tanto que, s = s 2 = 1502 = 38,8 gramos Finalmente se hará la interpretación gráfica del concepto de variabilidad. El Gráfico 4.5 ilustra los desvíos ( − ̅ )sobre la resistencia a la tensión y en ella se observa que se trata de valores de distancias desde xi al centro de la distribución. Entre más grande sea la variabilidad en los datos mayor será la magnitud absoluta de estas distancias. Más claramente, cuanto más separados o dispersos estén los datos, mayor será el valor que tome la amplitud muestral, la varianza y la desviación típica, mientras que cuanto más concentrados resulten, menores serán los valores de estas medidas. Al elevar al cuadrado las desviaciones ( − ̅ ), se magnifican los pequeños y grandes valores, de este modo existe una estrecha relación con el valor que muestra la varianza: si es pequeña, existe una pequeña variabilidad de los datos, pero si es grande, entonces también lo es la variabilidad de los datos muestrales. En forma análoga la desviación típica, relacionada directamente con la varianza, cuanto mayor resulte, mayor será la variabilidad de los datos. Luego, s2 y s, miden algo así como la dispersión promedio en torno a la media; es decir, alrededor de la media las observaciones con valores mayores a los de la media y con valores menores a ésta. X1 ✸ 60 80 X2 ✸ 100 120 X4 ✸ X6 X5 ✸ ✸ 140 160 X3 ✸ 180 200 220 x = 148 Gráfico 4.5: Manera en que las desviaciones (xi -x) miden la variabilidad a través de la varianza Procedimiento abreviado para el cálculo: se basa en los valores de la variable (xi ). La media muy pocas veces resulta un valor entero, su redondeo arrastra errores al calcular los desvíos, por otra parte el procedimiento directo es poco práctico, en consecuencia las fórmulas dadas para s2 y s servirán para definir los respectivos conceptos, pero en situaciones prácticas se recurrirá al procedimiento abreviado de cálculo. 50 Cátedra de Cálculo Estadístico y Biometría – Facultad de Ciencias Agrarias – UNCUYO / Ciclo 2014 UNIDAD I: ESTADÍSTICA DESCRIPTIVA Las fórmulas abreviadas son equivalentes a las fórmulas de definición. Los denominadores son exactamente iguales y se modifican sólo los numeradores, que se obtienen desarrollando la suma de cuadrados de desvíos del siguiente modo: 4( − ̅ ) = 4( − 2 ̅ + ̅ ) = 4 − 2 4 ̅ + 4 ̅ Si se reemplaza ̅ por su igual, y se continúa operando algebraicamente, se llega a la fórmula buscada para el cálculo de la suma de cuadrados por el procedimiento abreviado. 4( − ̅ Definición 4.11: ) = 4 − (∑ ) 1 n ( ∑ xi )2 n ∑x 2 s = 2 i - i=1 n i=1 n -1 que se lee ¨La varianza muestral, s2, de un conjunto de n datos es igual a un cociente, que tiene: a) por numerador a la suma total de cuadrados de los valores de la variable estadística x menos el cuadrado de la suma de los valores observados xi , dividida por el tamaño muestral n, y b) como denominador a los grados de libertad. Por su parte, la desviación típica muestral, como ya se vio, se obtiene a partir de √ . Para ilustrar los cálculos se usarán los datos muestrales ya presentados en la tabla 4.1, obteniendo su suma o total, y la que corresponde a sus cuadrados según se puede ver en la tabla 4.2 Tabla 4.2:. Cálculos para la varianza y la desviación típica muestral,por el procedimiento abreviado 2 Nº de medición xi xi 1 2 3 4 5 6 90 128 205 140 165 160 8100 16384 42025 19600 27225 25600 ∑ x = 888 (∑ x ) = 888 i 2 i 2 ∑x i 2 = 138.934 Reemplazando, resulta: (888) 6 = 7510 = 1502(:) ;, = = ( = √1502 = 38,8: 6−1 5 Se observa que estos resultados concuerdan exactamente con los obtenidos por el procedimiento directo. 138.934 − Fórmulas para el cálculo de la varianza Con frecuencia los alumnos suelen cometer errores al aplicar las fórmulas de la varianza, por reemplazos numéricos incorrectos. Notar lo siguiente: Procedimiento directo Procedimiento abreviado n ∑( x - x ) n 2 s = ( ∑ xi )2 2 i n ∑x i=1 n-1 Se utilizan los valores observados de la variable para calcular los desvíos ( − ̅ ) que aparecen en la fórmula. 2 s = 2 i - i=1 i=1 n n -1 Se utilizan los valores observados de la variable (xi). Además: n a) el término ∑x 2 i se lee ”suma de los cuadrados i= 1 de los valores observados”. 2 n b) el término ∑ xi se lee “cuadrado de la suma i=1 de los valores observados” 51 Cátedra de Cálculo Estadístico y Biometría – Facultad de Ciencias Agrarias – UNCUYO / Ciclo 2014 UNIDAD I: ESTADÍSTICA DESCRIPTIVA Propiedades de la varianza Como en el caso de la media, se enunciarán las propiedades de la varianza, que deberán ser tenidas en consideración en varias oportunidades a lo largo del curso. 2 Propiedad 1. La varianza de una constante c es igual a cero, esto es s c = 0 Propiedad 2. La varianza del producto (o cociente) de una constante por una variable es igual al producto (o cociente) del cuadrado de la constante por la varianza de la variable Propiedad 3. La varianza de la suma de una constante y una variable es igual a la varianza de la variable original 2 var (c + x) = s x Propiedad 4. La varianza de la suma de dos variables X e Y, cada una basada en n datos expresados en la misma unidad de medida, es igual a la suma de las varianzas de cada grupo más dos veces la variación conjunta de las variables X e Y, o covarianza var (x + y) = s2x + s2y + 2 cov (x,y) La varianza, al igual que la media, debe expresarse numéricamente, acompañada con las unidades en que se ha medido la variable 4.3.2.2.3. Varianza y desviación típica poblacional Análogo a la varianza de la muestra s2, existe una medida de variabilidad en la población, conocida como varianza poblacional. Utilizaremos para su identificación la letra griega σ2 (sigma cuadrada). Cuando la población es finita y está formada por N valores, la varianza poblacional puede definirse como: Definición 4.12: N ∑ σ2= ( xi - µ ) 2 i =1 N que se lee ¨La varianza poblacional, σ , de un conjunto de N datos poblacionales es igual a la suma de los cuadrados de los desvios (de los valores xi de la variable X con respecto a su media µ ), desde el i-ésimo valor de la variable X, hasta el N-ésimo, dividida por el tamaño poblacional N¨. La raíz cuadrada positiva de σ 2 , esto es σ , denota la desviación estándar poblacional. 2 σ = σ2 que se lee ¨La varianza poblacional, σ 2 , de un conjunto Anteriormente se dijo que la media muestral puede emplearse para hacer inferencias sobre la media poblacional. De manera similar, la varianza muestral puede utilizarse para hacer inferencias sobre la varianza poblacional. Nótese que el denominador para la varianza muestral es el tamaño de la muestra menos (n –1), mientras que para la varianza poblacional es el tamaño de la población N. Si se utiliza n como denominador en la varianza muestral, entonces se obtendrá una medida de 2 variabilidad que es, en promedio, más pequeña que la verdadera varianza poblacional σ , se tendría una 2 estimación sesgada de σ . Si fuese posible conocer el verdadero valor de la media poblacional µ, entonces la varianza muestral podría calcularse como el promedio de los cuadrados de las desviaciones alrededor de µ de las observaciones de la muestra. En la práctica el valor de µ casi nunca se conoce, de modo que en lugar de lo anterior debe emplearse la suma de los cuadrados de las desviaciones alrededor del promedio de la muestra, x. Sin embargo, las observaciones xi tienden a estar más cerca del promedio de la muestra,x, que de la media poblacional, µ. Por consiguiente, para compensar esto se utiliza n -1 como denominador, en lugar de n. Otra manera de pensar lo anterior es considerar la varianza muestral s2 como basada en − grados de libertad. El término grados de libertad proviene del hecho de que la suma de las n 52 Cátedra de Cálculo Estadístico y Biometría – Facultad de Ciencias Agrarias – UNCUYO / Ciclo 2014 UNIDAD I: ESTADÍSTICA DESCRIPTIVA ), ( − ), … , ( − ), siempre es cero, de modo que la especificación de desviaciones ( − cualesquiera − de estas cantidades determina de manera automática la restante. Por lo tanto, sólo ), están determinadas de manera arbitraria. − de las n desviaciones,(= − >=:@ = − , ABCDAEE = ED @ O sea, se puede decir que la varianza muestral es igual a la suma de cuadrados (de desvíos) dividida los grados de libertad. 4.3.2.2.4. Coeficiente de variación A diferencia de las anteriores medidas de dispersión, el coeficiente de variación es una medida de dispersión, relativa y adimensional, que en términos porcentuales indica, la dispersión de una serie de datos respecto al valor medio. Definición 4.13: El coeficiente de variación, representado con el símbolo CV, mide la dispersión relativa de los datos respecto a la media. Se lo puede calcular de la siguiente manera: CV = s x donde “s” es la desviación típica o estándar de un conjunto de datos muestrales, y x “x raya” es su media. Además se lo suele expresar en forma porcentual s %CV = 100 x Como medida relativa, el coeficiente de variación es útil: a) sobre todo cuando se compara la variabilidad de dos o más conjuntos de datos expresados en diferentes unidades de medición. b) cuando se comparan dos o más conjuntos de datos que se miden en las mismas unidades, pero que difieren mucho. El coeficiente de variación poblacional es igual a: %CVpob = σ 100 µ Desde el punto de vista práctico, para interpretar el coeficiente de variación en términos generales se puede utilizar el siguiente criterio: Valores del CV Ensayos en laboratorio Interpretación Pruebas de campo 0 < %CV < 10% Bajo 0 < %CV < 10% 10 < %CV < 15% Aceptable 15 < %CV < 25% > 15% Alto > 25% Se deduce que siempre deben esperarse valores de coeficientes de variación menores asociados a los ensayos donde se ejerce mayor control (laboratorio). 4.4. DESCRIPCIÓN PARA MUESTRAS GRANDES Cuando se dispone de una muestra pequeña de datos cuantitativos se ha visto que el análisis gráfico y numérico se aplica sobre una distribución simple de frecuencias. Particularmente en este capítulo se presentará el análisis gráfico y numérico relacionado con distribuciones de frecuencias de datos agrupados, referidos a los dos tipos de variables cuantitativas: discreta y continua. Dado que al tratarse de variables que en muestras de tamaño grande pueden tomar numerosos valores de la variable, la etapa inicial del análisis descriptivo estará destinada a obtener tales distribuciones de frecuencias, y la siguiente etapa a aplicar las herramientas gráficas y numéricas que en este caso presentan muchas posibilidades. 4.5. DISTRIBUCIONES DE FRECUENCIAS DE VARIABLES CUANTITATIVAS En muestras grandes, el objetivo de la organización, esencialmente es resumir la cantidad de datos. El criterio a aplicar es: a) agrupar los datos en clases cualitativas o numéricas y, b) contar la cantidad de datos que resulta clasificado en cada grupo; esos conteos reciben el nombre de frecuencias. La serie completa de clases puestas en correspondencia con los conteos o frecuencias, se denomina distribución de frecuencias. 53 Cátedra de Cálculo Estadístico y Biometría – Facultad de Ciencias Agrarias – UNCUYO / Ciclo 2014 UNIDAD I: ESTADÍSTICA DESCRIPTIVA El término frecuencias es de carácter general, según el objetivo, será el tipo de frecuencias que utilicemos: frecuencias absolutas, frecuencias relativas, frecuencias acumuladas o frecuencias expresadas en porcentaje. Las distribuciones de frecuencias de variables cualitativas y cuantitativas pueden ser presentadas en forma analítica a través de una tabla de distribución de frecuencias, o bien en forma gráfica a través de representaciones gráficas. En este último caso los gráficos son diferenciados. Cuando la variable es cualitativa se utilizarán: diagramas de sectores y diagramas de barras. A las variables cuantitativas se les aplicará: a) diagramas de frecuencias o diagramas de líneas (variables discretas) o b) gráficos varios: histograma, polígono de frecuencias o polígonos de frecuencias acumuladas (variables continuas). Con las distribuciones de frecuencias, puede decirse, que se cumple la primer etapa del proceso de dar sentido a los datos. Una distribución de frecuencias pone en evidencia a diversos aspectos sumamente importantes, referidos a las propiedades de los datos en masa, que permiten comprender el comportamiento de las variables, las cuales en el capítulo siguiente serán cuantificadas mediante las correspondientes medidas descriptivas o estadígrafos. Resulta conveniente recordar la estructura que poseen las tablas utilizadas para sintetizar la clasificación de una muestra de tamaño n, en el caso de tener los datos de una variable cualitativa y de una cuantitativa (discreta y continua), a través del Cuadro 4.1. Cuadro 4.1. Síntesis comparativa de la estructura de los datos agrupados según tipo de variable Caso: Distribución de una variable cualitativa (clases categóricas) Clase ( ) . . F Conteo (1 ) 1 1 . . 1F Caso: Distribución de una variable cuantitativa (clases numéricas) Tipo I Valor observado de la variable, ( ) . . F Tipo II Conteo (1 ) 1 1 . . 1F Intervalos de Clases G ; )I G ; J )I . . GFK ; F )I Conteo (1 ) 1 1 . . 1F En todos los casos el conteo hace referencia al número de observaciones o mediciones clasificadas en la clase i-ésima de una variable. En el caso de variables cuantitativas discretas esa clase es de tipo puntual (valor puntual) mientras que en variables continuas se trata de un intervalo de valores. Con la claridad de este significado, se pasará a formalizar algunos conceptos frecuentistas. Definición 4.15. La serie de clases (cualitativas o cuantitativas) asociadas a sus correspondientes frecuencias, se llama distribución de frecuencias, e indica como la frecuencia total o cantidad total de datos se reparte entre los k agrupamientos realizados. Según el tipo de frecuencia considerada se tendrá una distribución de frecuencias (absolutas), una distribución de frecuencias relativas o una distribución de frecuencias acumuladas. Cualquiera de ellas, se puede presentar tanto en forma tabular como gráficamente. Definición 4.16 En datos agrupados, la frecuencia absoluta de una clase (cualitativa o cuantitativa), o simplemente frecuencia, simbolizada con ni, está dada por el número de unidades de análisis clasificado en la clase i-ésima. La serie de frecuencias absolutas, para las k clases, se indica como n1, n2,…,nk tanto en el caso de datos categóricos como cuantitativos Es fácil notar que las frecuencias absolutas cumplen con la siguiente propiedad: n = n1+n2+…+nk, por tanto 1 = ∑F 1 , es decir, la suma total de las frecuencias absolutas es igual al tamaño muestral. 54 Cátedra de Cálculo Estadístico y Biometría – Facultad de Ciencias Agrarias – UNCUYO / Ciclo 2014 UNIDAD I: ESTADÍSTICA DESCRIPTIVA Definición 4.17. La proporción dada por el cociente entre la frecuencia absoluta de la clase i-ésima y el tamaño muestral, denotada por L , recibe el nombre de frecuencia relativa de la i-ésima clase. 1 L = 1 La serie de frecuencias relativas, para las k clases, se indica como f1, f2, … , fk en el caso de datos categóricos como cuantitativos Las frecuencias relativas tienen la siguiente propiedad: su suma es igual a la unidad, F 4 L = 1 Con un sentido práctico suele hablarse de frecuencias porcentuales, cuando las fi se las expresa en por ciento, y entonces resulta que su suma es igual al 100%. Definición 4.18. Las frecuencias absolutas acumuladas, se definen como la frecuencia que resulta de la acumulación, fila por fila, de las correspondientes frecuencias absolutas. La acumulación puede hacerse de dos formas, y según esto resultan: a) Frecuencias acumuladas ascendentes, simbolizadas por Fi: para la i-ésima clase, la frecuencia acumulada ascendente se obtiene sumando a la correspondiente frecuencia, las frecuencias de todas las clases que anteceden a la considerada F1 = n1 F2 = n1 + n2, F3 =n1 + n2 + n3, y así sucesivamente hasta la última clase Fk = n1 + n2 +......+ nk = Σ ni = n , para k < n. b) Frecuencias acumuladas descendentes, simbolizadas por F´i (que se lee F comilla sub- i): para la iésima clase, se obtienen restando a la correspondiente frecuencia, las frecuencias de todas las clases que anteceden a la considerada F´1 = n F´2= n – n1, F´3= n – (n1 + n2) y así sucesivamente hasta la última clase F’k = n – (n1 + n2 + …. + nk-1 ) Las frecuencias acumuladas ascendentes también son llamadas frecuencias “menor que”, y las descendentes, frecuencias “mayor que”. Con un criterio análogo se pueden obtener también las correspondientes frecuencias relativas acumuladas. A continuación se desarrollará el análisis estadístico descriptivo de las distribuciones de datos cuantitativos agrupados. 4.6. PROPIEDADES DE LA DISTRIBUCIÓN DE VARIABLES CUANTITATIVAS EN MUESTRAS GRANDES En el caso de muestras pequeñas de variables cuantitativas, se vio que las medidas descriptivas estuvieron referidas a dos propiedades de los colectivos de datos: la posición y la dispersión. En muestras grandes, el hecho de tener una distribución de datos agrupados, lleva a la utilización de un número mayor de propiedades. Las mismas se indicaron en la presentación integrada que se hizo sobre las propiedades estadísticas de las variables cuantitativas. Propiedades estadísticas a describir en: muestras grandes de datos cuantitativos Tamaño Grande Propiedades Posición (tendencia central y otra) Dispersión Forma: Asimetría y Curtosis Estas propiedades se miden objetivamente a través de los estadígrafos correspondientes: 55 Cátedra de Cálculo Estadístico y Biometría – Facultad de Ciencias Agrarias – UNCUYO / Ciclo 2014 UNIDAD I: ESTADÍSTICA DESCRIPTIVA 1º) Medidas de posición: apuntan a los datos más “típicos” de la distribución, como por ejemplo, los que más se repiten y los que ocupan los lugares centrales. 2º) Medidas de dispersión: describen si los datos son homogéneos o sea si se diferencianpoco entre sí (variación pequeña) o, si por el contrario, son heterogéneos o muy dispares (variación grande), y también si el patrón de variación presenta regularidad estadística o no. 3º) Medidas de asimetría: miden en qué grado las distribuciones son asimétricas, a partir de tomar como referencia la media aritmética y considerar si los datos se reparten análogamente a ambos lados de ella. La falta de simetría lleva a hablar de distribuciones sesgadas. 4º) Medidas de curtosis: cuantifican el grado de agudeza o apuntalamiento de la distribución en la parte central, dada por una concentración de los datos (frecuencias más altas) alrededor de la media, y el grado de alejamiento que poseen los valores extremos. En general estas medidas han sido establecidas procurando que cumplan, lo cual logran en mayor o menor grado, ciertas condiciones entre las cuales se tienen las siguientes: Deben tener una definición objetiva, para que distintas personas puedan llegar a partir de un mismo conjunto de datos a un mismo resultado numérico y conclusiones. Deben basarse en lo posible en todos los datos de la variable, de forma que la medida no sea inestable, esto es que cambie sustancialmente con sólo variar un valor de variable POSICIONAMIENTO Deben ser fáciles de calcular e interpretar. Cuadro 4.2: Síntesis de las propiedades estadísticas para muestras grandes de datos cuantitativos Propiedad Concepto Ilustración Medida Propensión de los datos (valores Estadígrafos de de la variable) a ubicarse en el tendencia entorno de un punto central de la central, por ej.: distribución, correspondiente al la media Central recorrido de la variable, donde se (Promedios) ubica el punto de equilibrio. x Otro (cuantiles) Ubicación de puntos en la escala correspondiente al recorrido de la variable (valores de variable), relacionados con la partición de la distribución de datos de modo de dejar en cada una de las partes igual cantidad de datos (comúnmente 1%, 5%, 10%, 25% o el 50%). Grado de fluctuación de los datos, referenciada a un valor central de la variable, de modo aproximado o distante entre sí. Estadígrafos de posición, por ej.: cuartiles (1/4 = 25% en cada parte) x Estadígrafos de dispersión, por ej.: amplitud. DISPERSIÓN x FORMA Asimetría Forma de distribución de los datos, a ambos lados de un eje ubicado en el centrado de la distribución. Estadígrafos de asimetría, por ej.: coeficiente de asimetría. x Curtosis Forma de concentrarse los datos, alrededor del centrado de la distribución, que determina un mayor o menor apuntalamiento de la distribución. Estadígrafos de curtosis, por ej.: coeficiente de curtosis. x 56 Cátedra de Cálculo Estadístico y Biometría – Facultad de Ciencias Agrarias – UNCUYO / Ciclo 2014 UNIDAD I: ESTADÍSTICA DESCRIPTIVA 4.7. VARIABLES DISCRETAS Se partirá de un conjunto de datos muestrales, correspondientes a un experimento donde se registró el número de flores por planta, en 50 plantas seleccionadas al azar. Primeramente se procederá a identificar algunos aspectos que definen las características del problema que conducen a la elección del camino a seguir. Variable observada Unidad de muestra y análisis Tipo de dato Tamaño muestral Nº de flores/planta planta Cuantitativo discreto n=50 Tabla auxiliar. Registros del recuento de flores (datos de campo) 10 8 6 3 9 7 5 4 6 9 8 10 7 9 10 6 8 6 3 2 4 3 2 7 5 5 4 3 7 6 6 7 8 8 6 7 7 9 8 6 5 3 2 1 4 3 6 8 7 0 4.7.1. Herramientas de análisis gráfico 4.7.1.1. Presentación tabular A continuación se presenta la estructura mínima de una tabla de distribución de frecuencias para una variables discreta (tabla modelo). En ella se pueden reconocer: una primera columna que muestra los posibles valores de la variable (xi, donde i=1,2,…,k) y otra para los datos de frecuencia absolutas (ni), aunque podrían haberse utilizado las frecuencias relativas o las porcentuales. Tabla básica de distribución de frecuencias para una variable discreta xi x1 x2 . . xk ni n1 n2 . . nk n A continuación se muestra la tabla completa de distribución de frecuencias que se utilizaría para presentar los resultados del trabajo. Tabla 4.3. Distribución del número de flores por planta Nº de flores, (1) Cantidad de plantas (2) Cantidad de plantas acumulada “nº menor o igual que” “nº mayor o igual que” (3) (4) Proporción de plantas Proporción porcentual (5) (6) 0 1 1 50 0,02 2,0 1 1 2 49 0,02 2,0 2 3 5 48 0,06 6,0 3 6 11 45 0,12 12,0 4 4 15 39 0,08 8,0 5 4 19 35 0,08 8,0 6 9 28 31 0,18 18,0 7 8 36 22 0,16 16,0 8 7 43 14 0,14 14,0 9 4 47 7 0,08 8,0 10 3 50 3 0,06 6,0 50 -− -− 1,00 100,0 57 Cátedra de Cálculo Estadístico y Biometría – Facultad de Ciencias Agrarias – UNCUYO / Ciclo 2014 UNIDAD I: ESTADÍSTICA DESCRIPTIVA Construcción (1) valores observados de la variable.(x i) (2) frecuencia absoluta (n i). Notar el total, n= 50 (3) frecuencias acumuladas ascendentes ( F i) (4) frecuencias acumuladas descendentes ( F´ i) (5) frecuencias relativas (f i). Notar el total, sum (f i)= 1 (6) frecuencias relativas porcentuales (% f i). Notar el total, sum (% f i)= 100 ¿Cuál es la información se puede obtener de la tabla de frecuencias así construida? Se puede ver que el número total de datos es 50, que las plantas tuvieron entre 0 y 10 flores. Las plantas con menos de 3 flores y con más de 9 son poco frecuentes, que plantas que tienen entre 6 y 8 flores son las típicas (mayores frecuencias), y que el valor más repetido ha sido 7. El 18% de las plantas presentaron 6 flores, un 2% fueron plantas sin flores y un 6% (3 plantas) fueron muy floríferas, para ellas se registró un valor máximo de 10 flores Un 10% de las plantas tuvieron 2 o menos flores, 30% tuvo 4 o menos flores y, casi la mitad de las plantas tuvo entre 0 y 6 flores/planta. Se deja al alumno, el ejercicio de realizar otras interpretaciones, a partir de la lectura de esta tabla de frecuencias. Realmente extraer esta información a partir de los datos sin procesar, hubiera sido extremadamente dificultosa. 4.7.1.2. Representaciones gráficas 4.7.1.2.1. Gráfica de líneas Proporción de plantas (fi) Cantidad de plantas (ni) Para el ejemplo de variable discreta que se está analizando se tiene lo siguiente: 10 8 6 4 2 0 0,20 0,15 0,10 0,05 0 1 2 3 4 5 6 7 8 9 10 Nº de flores / planta Gráfico de líneas con frecuencias absolutas 0 1 2 3 4 5 6 7 8 9 10 Nº de flores / planta Gráfico de líneas con frecuencias relativas Construcción: Si en el eje de las abscisas se consideran los distintos valores que toma la variable y, en el eje de las ordenadas se consideran las frecuencias absolutas (o las frecuencias relativas) y, por los puntos resultantes se bajan líneas hasta las abscisas, se obtiene un gráfico de líneas para frecuencias absolutas (o de frecuencias relativas). 4.7.1.2.2. Gráfica escalonada Existe también la posibilidad de utilizar representaciones que permitan obtener información de tipo integral, por ejemplo, que permitan encontrar la respuesta al siguiente interrogante ¿cuántas unidades de análisis muestrales presentan un valor igual o menor a un cierto xi?. Es decir gráficas que se basen en los valores de frecuencias acumuladas, que para el caso de una variable discreta mostrarán un patrón escalonado de frecuencias. Sea por ejemplo, una muestra de datos correspondientes al número de hijos/familia de cierta zona rural y la correspondiente tabla de frecuencias. Número de hijos (xi) 1 2 3 4 Cantidad de familias (ni) 1 3 5 3 Valor de variable Frec. absolutas Frec. acum. ascendentes Frec. relativas xi ni Fi fi 1 1 1 0,083 2 3 4 0,250 3 5 9 0,416 4 3 12 0,250 Total 12 - ≅ 1,000 58 Cátedra de Cálculo Estadístico y Biometría – Facultad de Ciencias Agrarias – UNCUYO / Ciclo 2014 UNIDAD I: ESTADÍSTICA DESCRIPTIVA Cantidad de familias Cantidad acumulada de familias o Proporción i de familias Nº de hijos o o i Nº de hijos Diagramas de barras para frecuencias absolutas y frecuencias relativas. Nº de hijos Diagrama de frecuencias acumuladas “m “meno enor que” o diagrama escalonado ascendente Resumen. Gráficos para distribuciones de frecuencias de variables estadísticas cuantitativas discretas Diagrama de líneas para valores puntuales de la variable observada según su frecuencia. Muestra para cada valor observado (xi) de la variable, la correspondiente frecuencia de presentación en la muestra. muestra y pueden utilizarse y, Eje y Eje ni : frecuencias absolutas fi : frecuencias relativas 100 fi : porcentajes Variable X Gráfico (a) Gráfico escalonado.. Distribución de frecuencias acumulados: El gráfico (b) de frecuencias ascendentes muestra al producirse el salto en cada escalón la cantidad de unidades observadas con valores “iguales o menores” al correspondiente xi. El último escalón (quinto escalón) indica el total de los datos menor o igual al valor máximo observado (x4), por lo que al mismo tiempo se refiere a todas las unidades medidas (n, o 100%). En forma análoga se puede interpretar un gráfico de frecuencias descendentes. Eje Fi F´i y pueden utilizarse y, : frecuencias absolutas acumuladas ascendentes : frecuencias absolutas acumuladas descendentes También pueden usarse relativas acumuladas y acumulados. frecuencias porcentajes Gráfico (b) 4.7.2. Herramientas de análisis numérico (Estadígrafos) 4.7.2.1. Medidas de posición Se analizarán a continuación las medidas de posición, recordando que éstas pueden representar la centralización en torno a la cual se distribuyen la mayoría de las mediciones o bien a otras posiciones. Entre las primeras se tienen aquellas que en general reciben el nombre de promedios (diferentes tipos de medias) y otras como la mediana y la moda. Entre las segundas están medidas que mayoritariamente se refieren a posicionamientos no centrales (cuartiles, deciles y percentiles). 59 Cátedra de Cálculo culo Estadístico y Biometría – Facultad de Cien iencias Agrarias – UNCUYO / Ciclo 2014 UNIDAD I: ESTADÍSTICA DESCRIPTIVA 4.7.2.1.1. Media aritmética En el caso en que los datos estuviesen agrupados en una tabla de Tipo I, es decir, si existen k valores distintos de la variable X, esto es x1, x2, ..., xk, se tienen k clases numéricas, tales que cada valor xi se repite ni veces, entonces, la expresión para la media aritmética es: Definición 4.19. La media muestral de una variable discreta se calcula como k ∑x x= i . ni i=1 n k xi : dato observado, ni la frecuencia absoluta correspondiente de modo que n = ∑ ni y siendo: i =1 k, el número de valores diferentes que toma la variable observada Ejemplo 4.1: Si medimos el número de hijos de 15 obreros rurales de una cierta Industria, y los resultados arrojan la siguiente tabla de tipo I, entonces, el número medio de hijos por empleado es: x= k ∑ xi ni i =1 n Nº de hijos (xi) 0 1 2 3 4 Nº de obreros (ni) 2 4 8 5 1 xi ni 0 4 16 15 4 Total n=20 Σ=39 = ( 39 / 20 ) = 1.95 hijo s ≅ 2 hijos Debe notarse que en el cálculo de la media intervienen todos los valores de la variable, de ahí que resulte por excelencia la medida promedio que caracteriza el lugar central de la distribución. 4.7.2.1.2. Mediana A diferencia de la media, la mediana es una medida que trata de caracterizar un posicionamiento que equilibre la cantidad de frecuencias observadas a uno y otro lado. Para encontrar cual es el valor mediano de una distribución de frecuencias discretas, se trabaja con una tabla de frecuencias acumuladas de menor a mayor. La mediana es igual al primer valor de variable, que acumulando las frecuencias, deja por debajo un 50% de las observaciones. En el siguiente ejemplo se observa que la mediana es igual a 2: hay 50 fábricas con valores menores o iguales a ella, y también 50 fábricas con valores igual o mayores a ella. Ejemplo 4.2: Número de empleados de 100 pequeñas fábricas Nº de empleados (xi) 2 2 3 4 5 Nº de fábricas (ni) 20 30 25 15 10 Fi 20 50 75 90 100 Total n=100 --- Esta es, como ya vimos, una medida de posición, generalmente central, que se fundamenta en las frecuencias de la distribución. Pero, conviene en este momento tener una visión amplia que aclare cuando corresponde utilizarla, por cuanto, muchas veces se la aplica mal. Para ello hay que tener en cuenta el tamaño muestral y el tipo de variable: 1º) en principio, la moda tiene no tiene sentido en muestras pequeñas y sí, en muestras grandes, porque su valor es muy inestable 2º) a su vez, siendo la muestra grande, la moda tiene sentido en los siguientes casos: 4.7.2.1.3. Moda La moda es el valor de la variable que más se repite. Cuando la variable es discreta, solo se necesita observar en su distribución de frecuencias cual es el valor de variable que tiene la mayor frecuencia absoluta. 60 Cátedra de Cálculo Estadístico y Biometría – Facultad de Ciencias Agrarias – UNCUYO / Ciclo 2014 UNIDAD I: ESTADÍSTICA DESCRIPTIVA Determinación de la moda En distribuciones tipo I con clases numéricas: su determinación es inmediata, solo basta observar el valor o valores de la variable que tengan máximas frecuencias con relación a las restantes frecuencias de la distribución. Evidentemente, cualquier moda absoluta será, pues, una moda relativa. Sin embargo, lo contrario no es en absoluto siempre cierto. Veamos algunos ejemplos ilustrativos, utilizando diferentes distribuciones muestrales de una variable discreta. Muestra 1 Muestra 2 Muestra 3 1 0 7 1 10 2 12 3 25 4 20 5 13 6 5 1 0 3 1 17 2 12 3 20 4 35 5 10 6 6 0 4 1 15 2 15 3 12 4 28 5 15 6 5 1 Se puede identificar lo siguiente: Muestra 1: se destaca una sola frecuencia, la cual es igual a 25, por tanto se tiene una moda absoluta igual a 3, Muestra 2: se tienen dos frecuencias que llaman la atención, 17 y 35, los valores correspondientes de variable 1 y 4 son modas relativas, y además 4 es una moda absoluta (distribución bimodal), Muestra 3, se tienen tres modas relativas que son 1,2 y 4, en correspondencia con las frecuencias destacadas en la serie 15 y 18, pero sólo 4 es moda absoluta (distribución trimodal). Nótese que el valor 5, asociado a una frecuencia igual a 15, no es moda porque no se destaca entre los valores contiguos. Ejemplo 4.3: Sea el número de salames con principio de enranciamiento en ristras de tamaño 5, seleccionadas aleatoriamente de estanterías comerciales de almacenes mayoristas. 0 5 Número de salamines rancios, xi Cantidad de salamines, ni 1 18 2 18 3 9 4 3 5 2 Se observa que la distribución tiene dos modas relativas, ya que la máxima frecuencia, igual a 18, corresponde tanto al valor de variable 1 como 2. 4.7.2.2. Medidas de dispersión 4.7.2.2.1. Amplitud muestral También se denomina rango o recorrido. Es válido lo visto para muestras pequeñas. 4.7.2.2.2. Varianza muestral En el caso de variables discretas, se tienen k diferentes valores xi, La fórmula (a) se basa en los cuadrados de k desvíos respecto a la media ( − ̅ ), mientras que la fórmula (b) se basa en los k valores observados de la variable xi (b) Procedimiento abreviado (a) Procedimiento directo k ∑ (x s2 = i − x ) 2 ni i =1 n −1 k ∑ x i .n i k 2 i =1 x i ni − ∑ n s 2 = i =1 n −1 ; siendo i = 1,2,…,k Fórmula definicional: suma de cuadrados de desvíos ponderados por las frecuencias absolutas, dividida por los grados de libertad. Notar: M 4 = = = M N4 = = O = 2 ; i = 1,2,….,k suma de k productos, y se ponderan los cuadrados de los valores observados de la variable = cuadrado de la suma de k productos, y se ponderan los valores observados de la variable = 4.7.2.2.3. Desviación típica muestral La desviación típica, se obtiene según ya se ha visto como la raíz cuadrada positiva de la varianza s = + s2 61 Cátedra de Cálculo Estadístico y Biometría – Facultad de Ciencias Agrarias – UNCUYO / Ciclo 2014 UNIDAD I: ESTADÍSTICA DESCRIPTIVA 4.7.2.2.4. Coeficiente de variación muestral Es válido lo visto para muestras pequeñas: cv = s _ o bien x 4.7.2.3. s % cv = 100 _ x Medidas de forma: asimetría y curtosis Estas medidas serán desarrolladas en forma integrada para el caso de las variables discretas y continuas, después de presentar el análisis descriptivo de las variables continuas. 4.8. VARIABLE CONTINUA 4.8.1. Herramientas de análisis gráfico 4.8.1.1. Presentación tabular Para describir la distribución de frecuencia correspondiente a una variable continua, es indispensable agrupar los valores registrados mediante un conjunto de intervalos de clase. Ejemplo 4.4: La siguiente es la tabla primaria correspondiente a un estudio sobre el perímetro, en centímetros, a la altura de la primera ramificación, de troncos de damasco variedad Royal, de un monte frutal de 4 años, realizado en Lavalle en 1974. 35 48 42 42 36 38 42 44 39 43 38 48 42 49 43 58 39 48 45 43 48 38 39 40 33 40 30 40 33 42 45 45 39 35 43 45 31 30 41 35 43 31 42 53 46 45 49 42 34 33 28 29 34 31 32 49 45 56 27 52 42 54 28 29 40 45 55 44 50 48 54 58 55 28 36 33 25 27 24 37 41 46 36 35 41 34 37 48 46 42 49 36 40 54 36 46 45 44 43 40 36 26 49 49 33 36 34 41 45 49 58 46 52 36 40 43 53 40 36 41 Trabajando como se vio en el Tema 2, para esta muestra se tiene lo siguiente: 1º) Amplitud muestral, a partir de los límites reales de la muestra, ∆m = xmax - xmin = 58 cm - 24 cm = 34 cm 2º) Número de intervalos de clase, utilizando la fórmula de Sturges k = 1 + 3,3 . log 120 = 7,86 En principio, el nº de intervalos que debería usarse en este caso sería 8. Sin embargo, recordemos que es aconsejable que este número sea impar, en consecuencia podría decidirse usar 7 ó 9 intervalos. Se optará por el primer número porque el tamaño muestral no es grande y además porque 7 se aproxima más al valor calculado según la fórmula. 3º) Longitud de los intervalos de clase ∆x = ∆m / k = 34 cm / 7 ≅ 5 cm 4º) Clasificación de los datos Tabla 4.4. Tabla auxiliar para la clasificación de los datos Intervalo de clase discreto (25-29] (30-34] (35-39] (40-44] (45-49] (50-54] (55-59] Clasificación del dato //// //// //// //// //// //// //// /// //// //// //// //// //// //// /// //// //// / //// //// //// //// //// /// /// //// /// Número de troncos (ni) 8 13 21 33 23 13 9 Definición 4.20. El valor promedio entre los límites del intervalo se llama punto medio del intervalo o “marca de clase”. Este valor es un promedio que se usa para representar a todos los datos que se clasificaron en el intervalo, por lo tanto, constituye un valor de variable no observado, pero muy útil para realizar los cálculos posteriores. Como es un valor de variable, se lo denota con “xi”. 62 Cátedra de Cálculo Estadístico y Biometría – Facultad de Ciencias Agrarias – UNCUYO / Ciclo 2014 UNIDAD I: ESTADÍSTICA DESCRIPTIVA La distribución de frecuencia se puede presentar en una tabla básica, donde los intervalos se ponen en correspondencia con las frecuencias absolutas. Sin embargo, para mejorar el análisis, casi siempre es deseable elaborar la distribución de frecuencia relativa o la distribución porcentual, dependiendo de si se prefieren las proporciones o los porcentajes. Tabla de distribución de frecuencias completa Tabla 4.5. Distribución de frecuencias de perímetros de troncos de damascos (en cm ), variedad Royal, de 4 años. Lavalle, 1994. Intervalo de clase Punto continuo medio 24,5 –29,5 27,0 29,5 –34,5 32,0 34,5 –39,5 37,0 39,5 –44,5 42,0 44,5 –49,5 47,0 49,5 –54,5 52,0 54,5 -59,5 57,0 - Frec. Absoluta 8 13 21 33 23 13 9 120 Frec. Acumulada. Ascen. Desc. 8 120 21 112 42 99 75 78 98 45 111 22 120 9 - Frec. relativa 0,067 0,108 0,175 0,275 0,192 0,108 0,075 1,000 Frec. relativa acumulada 0,067 0,175 0,350 0,625 0,817 0,925 1,000 - Tabla de distribución porcentual Como se anticipó, la utilidad de la distribución de frecuencia relativa o de la distribución porcentual es grande cuando se comparan muestras diferentes, especialmente si el tamaño muestral no es igual. Se emplean los valores de las frecuencias relativas multiplicados por 100, de modo parcial (Tabla 4.6) o bien acumuladas. Ejemplo 4.5: A partir de los datos del censo nacional agropecuario se ha analizado la distribución la cantidad de hectáreas incultas por finca en una cierta zona, con el siguiente resultado: Tabla 4.6. Distribución porcentual de las hectáreas incultas por finca en cierta zona (n=240). Hectáreas incultas/finca (n=240) Porcentaje de fincas 10,5 a menos de 20,5 20,5 a menos de 30,5 30,5 a menos de 40,5 40,5 a menos de 50,5 50,5 a menos de 60,5 60,5 a menos de 70,5 70,5 a menos de 80,5 48,9 26,7 12,8 6,4 3,0 1,5 0,7 Total 100,0 Tabla 4.7. Distribución porcentual acumulada de las hectáreas incultas por finca, menor al valor dado (n=240) Hectáreas Porcentaje de fincas incultas/ “menor que” finca <20,5 48,9 <30,5 75,6 <40,5 88,4 <50,5 94,8 <60,5 97,8 <70,5 99,3 <80,5 100,0 Ref.: el valor mínimo de la variable fue 10,5 hectáreas Interpretaciones: • La tercera fila en la Tabla 4.6 indica que un 12,8 % de las 240 fincas poseen una superficie inculta mayor o igual a 30,5 hectáreas y no mayor a 40,5 • La tercera fila en la Tabla 4.7 indica que hay un 75,6% de fincas con una superficie inculta menor a 30,5 hectáreas. En forma análoga, se puede construir una tabla que muestre la distribución porcentual acumulada mayor que el límite inferior de la variable. Tabla 4.8. Distribución porcentual acumulada de las hectáreas incultas por finca, mayor al valor dado (n=240) Porcentaje de fincas Límite inferior “mayor que” >10,5 100,0 >20.5 51,1 >30.5 24,4 >40,5 11,6 >50,5 5,2 >60,5 2,2 >70,5 0,7 >80.5 0.0 63 Cátedra de Cálculo Estadístico y Biometría – Facultad de Ciencias Agrarias – UNCUYO / Ciclo 2014 UNIDAD I: ESTADÍSTICA DESCRIPTIVA Una importante observación En las tablas puede observarse que la frecuencia relativa tiene dos aspectos de gran interés: 1º) expresada en % resulta muy fácil de interpretar el significado y además facilita la comparación entre muestras que tienen diferente tamaño. 2º) desde un punto de vista más teórico, se la puede considerar como una estimación empírica de la probabilidad de ocurrencia de algún suceso empírico. Por tratarse de proporciones, una propiedad que cumplen las frecuencias relativas es que sus valores varían en el intervalo [0 ; 1] y, del mismo la función probabilidad que se estudiará en la Unidad de Probabilidad se define numéricamente en un intervalo [0 ; 1]. En el caso de las probabilidades, el 0 indica que un suceso es imposible (por ejemplo, que al tirar un dado de seis caras, resulte una cara con siete puntos) en tanto que el 1 indica que el suceso va a ocurrir con certeza (por ejemplo, que al tirar un dado de seis caras, resulte una cara con 1 a 6 puntos). En la realidad cuanto más probable es que ocurra un suceso, por lo general la frecuencia relativa correspondiente a lo observado resultará más cercana a 1, y cuanto menos probable sea su ocurrencia, por lo general la frecuencia relativa correspondiente a lo observado resultará más cercana a 0. La frecuencia relativa, permite intuir algunas propiedades fundamentales de la probabilidad. 4.8.1.2. Representación gráfica 4.8.1.2.1. Histograma Definición 4.21. Un histograma consiste en una serie de rectángulos adyacentes (en el diagrama de barras son no adyacentes), cuyo ancho es proporcional al alcance de los datos que se encuentran dentro de una clase, y cuya altura es proporcional al número de elementos que caen dentro de la clase. Si las clases que utilizamos en la distribución de frecuencias son del mismo ancho, lo más común, entonces que las barras verticales del histograma también tengan el mismo ancho. La altura de la barra correspondiente a cada clase representa el número de observaciones de la clase o frecuencia. Como consecuencia de lo anterior, el área de cada barra del histograma puede ser: Proporcional a la frecuencia de clase, si en ordenadas se representan las frecuencias (ni ) ni , hi A=b.h A = ∆x . ni xi xi+1 Igual a la frecuencia de clase, si en ordenadas se representa la altura o densidad de clase (hi ), que es xi /∆x. A = ∆x . hi ; hi = ni / ∆x A = ∆x (ni / ∆x) A= ni Un histograma que utiliza las frecuencias relativas de los puntos de datos de cada una de las clases, en lugar de usar el número de puntos, se conoce como histograma de frecuencias relativas. Este tipo de histograma tiene la misma forma que un histograma de frecuencias absolutas construido a partir del mismo conjunto de datos. Esto es así debido a que en ambos, el tamaño relativo de cada rectángulo es la frecuencia de esa clase comparada con el número total de observaciones. Frecuencia relativa 0,4 0,36 0,3 0,2 0,2 0,1 0,17 0,1 0,1 0,07 0 15,15 - 15,45 15,45 - 15,75 15,75 - 16,05 16,05 - 16,35 16,35 - 16,65 16,65 - 16,95 Nivel de producción, en metros Gráfico 4.1. Distribución de frecuencias relativas de los niveles de producción, en metros. 64 Cátedra de Cálculo Estadístico y Biometría – Facultad de Ciencias Agrarias – UNCUYO / Ciclo 2014 UNIDAD I: ESTADÍSTICA DESCRIPTIVA Ventajas de un histograma de frecuencias relativas: Presentar los datos en términos de la frecuencia relativa de las observaciones, más que en términos de la frecuencia absoluta, es de utilidad ya que mientras los números absolutos pueden sufrir cambios, la relación entre las clases permanece estable. Resulta fácil comparar los datos de muestras de diferentes tamaños cuando utilizamos histogramas de frecuencias relativas. Sin embargo, cuando se comparan dos o más conjuntos de datos, no es posible construir los diversos histogramas en la misma gráfica, porque la superposición de barras verticales dificulta su interpretación. Para ese caso, es necesario construir polígonos porcentuales o de frecuencia relativa. 4.8.1.2.2. Polígono de frecuencias Los polígonos de frecuencias son otra forma de representar gráficamente distribuciones, tanto de frecuencias simples como relativas. Construcción. Para construir un polígono de frecuencias, en el eje de abscisas señalamos, como en el histograma, los valores de la variable pero en este caso corresponde usar los puntos medios. A continuación, graficamos los puntos en correspondencia a las frecuencias de clase (proyectando por sobre el valor del punto medio) y conectamos los puntos resultantes sucesivos con segmentos, de modo que resulta una línea irregular (quebrada) abierta. Finalmente se cierran los extremos (límite inferior y límite superior) formando un polígono (una figura con muchos lados). 14 frecuencia 12 10 8 6 4 2 0 15.0 15.3 15.6 15.9 16.2 16.5 16.8 17.1 Nivel de producción en metros Si se compara la figura que representa un polígono de frecuencias con el gráfico del histograma anterior, se dará cuenta que se han añadido dos clases, una en cada extremo de la escala de valores observados. Estas dos nuevas clases contienen cero observaciones, pero permiten que el polígono alcance el eje horizontal en ambos extremos de la distribución (100% área ). 50 45 40 35 30 25 20 15 10 5 0 porcentaje de fábricas porcentaje de fábricas El polígono porcentual se forma haciendo que el punto medio de cada clase represente los datos de esa clase y después conectando la secuencia de sus respectivos porcentajes de clase. 5 15 25 35 45 55 65 75 85 Producción en miles de pesos 50 45 40 35 30 25 20 15 10 5 0 5 15 25 35 45 55 65 75 85 Producción en miles de pesos Polígonos de frecuencia porcentual Construcción de un polígono de frecuencias relativas: Un polígono de frecuencias que utiliza frecuencias relativas de puntos de datos en cada una de las clases, en lugar del número real de puntos, se conoce como polígono de frecuencias relativas. Este polígono tiene la misma forma que el polígono de frecuencias construido a partir del mismo conjunto de datos, pero con una escala diferente en los valores del eje vertical. Más que el número absoluto de observaciones, la escala es el número de observaciones de cada clase como una fracción del número total de observaciones. 65 Cátedra de Cálculo Estadístico y Biometría – Facultad de Ciencias Agrarias – UNCUYO / Ciclo 2014 UNIDAD I: ESTADÍSTICA DESCRIPTIVA Análisis comparativo de ventajas Histograma Polígonos de frecuencias Los rectángulos muestran cada clase de la distribución por separado. El área de cada rectángulo, en relación con el resto, muestra la proporción del número total de observaciones que se encuentran en esa clase. El polígono de frecuencia es más sencillo que su correspondiente histograma. Traza con más claridad el perfil del patrón de los datos. El polígono se vuelve cada vez más liso y parecido a una curva conforme aumentamos el número de clases y el número de observaciones. 4.8.1.2.3. Polígonos de frecuencias acumuladas u ojivas. Una distribución de frecuencias acumuladas nos permite ver cuántas observaciones están por encima, o por debajo, de ciertos valores. Polígono de frecuencias acumuladas “menor que” u ojiva ascendente: Los puntos representados en la gráfica indican la cantidad de datos que tienen un valor de variable igual o menor que el valor correspondiente al límite superior del intervalo de clase (eje de abscisas). Observar lo siguiente: el polígono comienza con ordenada cero en el límite superior de un intervalo imaginario anterior (coincide con el inferior del primer intervalo de clase para los valores observados) y termina con ordenada igual a n, en el límite superior de la última clase. Número acumulado de árboless muestreados Polígono de frecuencias acumuladas “mayor que” u ojiva descendente: Los puntos representados en la gráfica indican la cantidad de datos que tienen un valor de variable igual o maqyor que el valor correspondiente al límite inferior del intervalo de clase (eje de abscisas). En este caso el polígono comienza con ordenada igual a n en coincidencia con el límite inferior de un intervalo imaginario anterior (coincide con el inferior del primer intervalo de clase para los valores observados) y termina con ordenada igual a n, en el límite superior de la última clase. 350 300 Clasificación Kg de manzana Cantidad de /árbol árboles 45.2 – 45.4 20 45.5 – 45.7 50 45.8 – 46.0 110 46.1 – 46.3 60 46.4 – 46.6 30 30 46.7 – 46.9 300 250 200 150 100 50 0 45.2 45.5 45.8 46.1 46.4 46.7 47.0 Nivel de producción en kilogramos Menor que 45,2 no hay datos Menor que 47 toda la muestra Distribución de niveles de producción “menor que” de una muestra de árboles de manzana. 66 Cátedra de Cálculo Estadístico y Biometría – Facultad de Ciencias Agrarias – UNCUYO / Ciclo 2014 UNIDAD I: ESTADÍSTICA DESCRIPTIVA que”. En forma análoga podría construirse un polígono de frecuencias relativas acumuladas “mayor Gráficos para distribuciones de frecuencias de variables estadísticas cuantitativas antitativas continuas Gráfico (a) ni Muestra superpuesta, la silueta del histograma con el polígono de frecuencias. Notar, 1) que las frecuencias corresponden respectivamente a los Variable x intervalos de clase y a los Gráfico (a) Fi puntos medios, y 2) los puntos de cierre del polígono. Variable x Gráfico (b) Polígono de frecuencias acumuladas “menor que”, con límites superiores del intervalo (ojiva ascendente) Gráfico (b) Tablas versus gráficos de distribuciones de frecuencias Las tablas proporcionan datos numéricos más exactos, mientras que los gráficos solo permiten una lectura aproximada. La interpretación de tablas con abundantes datos numéricos suele resultar compleja y requiere una buena preparación, en tanto que las representaciones gráficas suelen permitir tomar una idea rápida del fenómeno en estudio. Por ejemplo, la gráfica de una di distribución stribución de frecuencias pone en evidencia los patrones de comportamiento de los datos muestrales, con mayor facilidad que las correspondientes tablas. Las gráficas de variables continuas permiten tomar rápidamente idea acerca del patrón de la distribución ón poblacional (dado que para ésta se tienen infinitos valores de variable, se tendrían infinitos intervalos de clases, k→∞, k y entonces ∆x →0). 0). Esto se hace creando una curva de frecuencias, f(x), para lo cual se procede a elaborar un polígono de frecuenci frecuencias as relativas, y luego se le hace un suavizado al trazo irregular del polígono. polígono Figura II.33. Área para el ejemplo II.38. 4.8.2. Herramientas de análisis numérico: Estadígrafos 4.8.2.1. Medidas de tendencia central y otras 4.8.2.1.1. Media aritmética En esta situación, siempre haremos la suposición de que, en cada intervalo de la tabla la frecuencia que le corresponde, corresponde, se encontrará repartida de forma uniforme a lo largo del intervalo, lo que, como consecuencia, da lugar a que el valor medio de cada intervalo coincida exactamente con el punto medio del mismo, y que hemos denominado en un capítulo anterior “marca de lla a clase” o del intervalo correspondiente, o bien “punto medio”. 67 Cátedra de Cálculo culo Estadístico y Biometría – Facultad de Cien iencias Agrarias – UNCUYO / Ciclo 2014 UNIDAD I: ESTADÍSTICA DESCRIPTIVA Bajo esta hipótesis, la suma del conjunto de valores de un intervalo dado será, pues, igual al producto de su frecuencia por el valor de su marca de clase, sin más que tener en cuenta la interpretación de la media aritmética para los puntos de tal intervalo. Así, pues, cuando la tabla de datos es de Tipo II y los datos están repartidos entre k intervalos contiguos, cuyas marcas de clase y frecuencias asociadas son, respectivamente, xi y ni, la media puede ser obtenida por el siguiente procedimiento. Definición 4.22 La media en distribuciones Tipo II, es igual a: k ∑x x= Siendo: n = . ni i i=1 n k ∑n i y xi : punto medio del i-ésimo intervalo i =1 Es de notar que, en este caso, para poder disponer de la marca de clase de cada intervalo, se requiere que los intervalos están perfectamente, determinados por unos extremos concretamente definidos. Así, pues, no podríamos calcular la media de una distribución de datos que nos midiera el número de habitantes de los municipios de una provincia, si el grupo de municipios más poblados estuviese definido ambiguamente, diciendo sólo, por ejemplo, que tiene más de 200.000 habitantes. Ejemplo 4.5: Supongamos que estudiamos el salario anual de los empleados de una fábrica de automóviles y tenemos los datos de dichos salarios recogidos en la siguiente tabla de tipo II: Miles de Pesos 50,5 – 60,5 60,5 – 70,5 70,5 – 80,5 80,5 – 100,5 100,5 – 120,5 Marcas de clase (xl) 55,0 65,0 75,0 90,0 130,0 Nº empleados xi ni 12 20 18 15 5 n=70 660 1300 1350 1350 650 5310 5310 = 75,857PQRSTSUSV 70 Precaución: En adelante nos referiremos de forma general con xi al valor i-ésimo de la variable, pero hay que tener en claro que: a) si se trabaja con una distribución simple o con una distribución Tipo I con clases numéricas, xi corresponde a un valor medido y, b) si se trabaja con datos de una distribución tipo II, xi corresponde a la marca de clase o punto medio del intervalo i-ésimo. Con esta notación, la formulación matemática de las medidas puede parecer la misma, pero el significado puede llegar a ser muy diferente ̅ = Ventajas y desventajas de la media Ventajas - Es sencilla de calcular -Está perfectamente definida de forma objetiva, y es única -Tiene un claro significado interpretativo -Para su cálculo se utilizan todos los valores de su distribución Inconvenientes -Los valores extremos muy dispares influyen de forma notable en su valor, haciéndola menos representativa. A pesar de este inconveniente, por sus ventajas, se puede decir que es la medida de posición central más utilizada. Existe una variante importante de la media aritmética, de aplicación en aquellas circunstancias en las que se conoce que los valores de la variable no tienen todos la misma importancia para su tratamiento, sino que, por el contrario, existen observaciones que deben ser consideradas como más representativas que otras. A esta variante de la media aritmética se la llama Media aritmética ponderada. Para su cálculo se le asocia a cada valor de xi un peso wi , que nos medirá su grado de importancia o representatividad dentro de la distribución. Estos pesos wi serán valores positivos que representarán el número de veces que sus correspondientes valores xi son más representativos que un valor que tuviese peso asociado a la unidad. Definición 4.23 La media aritmética ponderada de una distribución de valores x1,x2,…, xk cuyos pesos o importancias relativas w1,w2,…wk respectivamente, se define como k ∑x xw = i ⋅ wi i =1 k ∑w i i =1 68 Cátedra de Cálculo Estadístico y Biometría – Facultad de Ciencias Agrarias – UNCUYO / Ciclo 2014 UNIDAD I: ESTADÍSTICA DESCRIPTIVA Obsérvese que la media aritmética ponderada puede considerarse como una media aritmética de una distribución hipotética con los mismos valores que la real, pero en lo que un peso wi de un valor xi correspondería a que ese valor xi se repitiese wi veces y, por lo tanto, pesase wi veces más que un valor que sólo apareciese una vez. Tal distribución hipotética estaría, entonces caracterizada por valores x1, x2………, xk con pesos o importancias w1, w2,……., wk respectivamente. Sin embargo, aunque para comprender intuitivamente el significado de la media aritmética ponderada este razonamiento es válido y es por otra parte, importante remarcar que en él nos hemos referido al caso particular en que los pesos wi eran números enteros, mientras que en general, dichos pesos pueden ser números reales positivos cualesquiera. Ejemplo 4.6: Sea el caso de un vino que durante su añejamiento aumenta las cantidades de taninos se tiene una partida de vinos de distintos años, de modo que se pueden otorgar las siguientes importancias relativas. Tiempo Cantidad de taninos a los 6 meses Cantidad de taninos a los 12 meses Cantidad de taninos a los 15 meses Cantidad de taninos a los 2 años g/l 0,7 0,7 1 3 Ponderación 1 1 2 5 Como observamos en la tabla, hemos asignado a los vinos una misma importancia básica de 1 hasta el año, y una importancia 5 veces mayor a los dos años. Bajo estos supuestos, si se quiere sacar un valor promedio de la cantidad de tanino para una muestra de esas partidas de vino, sería: xw = 0,7 × 1 + 0,7 × 1 + 1 × 2 + 3 × 5 1+1+ 2 + 5 4.8.2.1.2. Mediana Cuando la distribución se presenta en forma de tabla de tipo II, puesto que para este tipo de tablas se asume que la variable evoluciona de una forma continua y uniforme, entonces tendremos que encontrar el valor de la variable al que correspondería la frecuencia n/2. Ahora bien, dicho valor se encontrará en el primer intervalo en que su frecuencia absoluta acumulada sea igual o supere a n/2. Llamemos li (q2) al límite inferior de tal intervalo, al que llamaremos intervalo mediano, y por lo tanto que se lee: Definición 4.24 La mediana, en una distribución de tipo II, es igual al límite inferior del intervalo mediano li (q2) más el cociente que resulta de dividir el valor n/2 menos la frecuencia acumulada hasta el intervalo de clase anterior al mediano F(q2 – 1), por la frecuencia absoluta del intervalo mediano, n(q2), multiplicado por la longitud del intervalo de clase ∆x. xd = li ( q 2) + n / 2 − F( q2 −1 ) n( q 2) × ∆x Ventajas e inconvenientes de la mediana Ventajas Es sencilla de calcular Es de fácil interpretación al ser siempre un valor propio de la variable No influye en ella más que los datos centrales de la distribución por lo que se puede calcular aún desconociendo los valores extremos de la distribución, siempre que tengamos suficiente información acerca de sus frecuencias. Inconvenientes No puede expresarse mediante una fórmula matemática sencilla que permita realizar grandes desarrollos algebraicos con ella No intervienen en su confección todos los valores de la variable, sino sólo los centrales. a pesar de todo, este último inconveniente lo es realmente cuando todos los valores de la distribución son conocidos, cosa que no siempre ocurre, y es precisamente en estos casos donde este “inconveniente” se traduce a la tercera “gran ventaja” de la mediana. La determinación gráfica puede hacerse rápidamente utilizando el polígono de frecuencias acumuladas, y teniendo en cuenta la definición de mediana. La ordenada máxima en este gráfico representa la frecuencia total, o sea n. Dado que la mediana se relaciona con la mitad de los individuos, se individualiza el valor correspondiente a n/2 en el eje vertical. A partir de ese valor se prolonga una línea paralela al eje de abscisas hasta intersectar el polígono de frecuencias acumuladas en el punto A. Desde el punto A luego se baja una perpendicular hasta el eje de abscisas, donde se puede leer el valor de la mediana. 69 Cátedra de Cálculo Estadístico y Biometría – Facultad de Ciencias Agrarias – UNCUYO / Ciclo 2014 Frecuencia acumulada UNIDAD I: ESTADÍSTICA DESCRIPTIVA F'i Fi n/2 Int. De clase 4.8.2.1.3. Moda. Cuando los datos están sin agrupar, se puede hablar de la moda en relación al dato observado con mayor frecuencia, pero cuando los datos están están agrupados sólo se puede hablar del intervalo con mayor frecuencia o intervalo modal. modal Una vez que los datos se han clasificado no es correcto hablar de la moda porque el valor encontrado será teórico, y teóricamente la población es infinita (N (N→ ∞), en otras palabras la variable toma en cada en cada elemento un valor diferente. Para la variable continua, como veremos en la Unidad de probabilidad, la probabilidad de ocurrencia de un determinado valor es igual a cero, por tanto, hablar de que un valor de variable variable continua es la moda (tiene la más alta frecuencia) resulta una seria contradicción. Sin embargo, esto esto no es reflejado por los datos muestrales, debido a que la medición tiene error y entonces aparecen datos repetidos. Determinación de la moda Se identifica entifica el (o los) intervalo modal donde se clasificó el mayor número de datos y podemos referirnos al punto medio de la clase modal, modal, como el valor alrededor del cual se tiene el mayor agrupamiento o densidad de datos. clase postmodal clase modal clase premodal En el caso de variable continua, también puede hablarse de un intervalo premodal y uno posmodal, como se muestra en el siguiente diagrama: Definición 4.25 W , a aquel valor de la variable cuya frecuencia Se llama moda absoluta,, representada por absoluta no es superada por ningún otro valor de la variable en la muestra. Definición 4.26 Se llama moda relativa a aquel valor de la variable cuya frecuencia absoluta asociada no es superada por las de sus valores contiguos. Ventajas e inconvenientes de la moda Ventajas Inconvenientes No puede expresarse de forma sencilla mediante Es sencilla de calcular lo modal. fórmula matemática que permita operar En variables discretas es de fácil interpretación, cómodamente con ella. al ser siempre un valor propio de la variable. No detecta ningún cambio en la distribución que se produzca ajeno al valor modal o in intervalo modal. Resulta adecuada una visión integral de las tres medidas descriptas, media, mediana y moda, pero la postergaremos hasta tratar el tema de simetría y sesgo de una distribución. 4.8.2.1.4. Cuantiles o fractiles Las medidas que vamos a ver ahora se llaman llaman medidas de posición no central, porque, aún tratándose de posicionar sobre la escala de posibles valores de la variable algún punto característico de la distribución, ese punto de interés generalmente no es el central. La combinación de estas medidas de posición no necesariamente centrales, con las medidas de posición central, nos permitirá evaluar el comportamiento de la distribución de frecuencias desde un punto de vista general, a lo largo de todos los valores de la variable, y no concentrándonos en unos unos pocos de ellos que dicen mucho sobre la 70 Cátedra de Cálculo Es Estadístico y Biometría – Facultad de Ciencias ias Agrarias – UNCUYO / Ciclo 2014 UNIDAD I: ESTADÍSTICA DESCRIPTIVA tendencia central pero nada acerca de las colas de la distribución, esto es, los valores que se posicionan por debajo de los centrales y por encima de los centrales). La idea es análoga a la que nos permitió definir la mediana, que, recordemos es un valor de la variable que deja a cada uno de sus lados igual cantidad de datos muestrales (50% por debajo y 50% por encima). Ahora, siempre con los datos de la variable ordenados en forma creciente, nos interesa encontrar cuál de los xi, deja a su izquierda (incluyéndolo a él) cierta proporción generalmente diferente al 50% de la distribución. Un gráfico dará luz a este nuevo concepto. En (a) se indica el cuantil que deja por debajo (incluyéndolo a él) un 20% de los valores de la variable X y, por encima (incluyéndolo a él) un 80%, mientras que en (b) se da la situación inversa. 80% Gráfico (a) 80% 20% Gráfico (b) Los cuantiles se pueden clasificar en cuatro clases de medidas, de las cuales en este curso, nos interesa en especial la primera y la última: Cuartiles: dividen la distribución en cuatro partes de igual frecuencia (n/4) , lo que significa que cada parte contiene ¼ del total de datos, es decir, un 25%. Quintiles: dividen la distribución en cinco partes de igual frecuencia (n/5), lo que significa que cada parte contiene un 20% del total de datos. Deciles: dividen la distribución en diez partes de igual frecuencia (n/10), lo que significa que cada parte contiene un 10% del total de datos. Percentiles: dividen la distribución en cien partes de igual frecuencia (n/100), lo que significa que cada parte contiene un 1% del total de datos. Notar que si los cuantiles dividen en k partes, la cantidad de cuantiles es igual a k-1. Definición 4.27 Un cuantil, que se representa por qr/c y se lee como “cuantil r-ésimo de orden c”, es aquel valor de la variable xi, que en un arreglo de datos ordenados en forma creciente, permite dividir a la distribución del total de los datos dejando por debajo al menos r/c partes de datos, y por encima al menos las (r/c)/c partes restantes. Por ejemplo: sea el segundo cuantil de orden 4, esto es q2/4 . Primeramente entendemos que nos estamos refiriendo a una distribución dividida en 4 partes (cuartos o cuartiles), y un valor de variable que deja por debajo 2 de esas 4 partes, es decir, la mitad de los datos y por encima el resto, que son otras 2 de esas 4 partes porque 1- (2/4) = 2/4. En otras palabras, nos estamos refiriendo a aquél valor de variable por xi, que en un arreglo ordenado de menor a mayor, permite dividir la distribución de frecuencias dejando por debajo al menos la mitad de los datos de la distribución, y por encima al menos la otra mitad, o sea, que en definitiva al segundo cuartil, en símbolo q2/4, que es la mediana ya conocida por nosotros. En forma análoga a la dada para la mediana, se pueden desarrollar fórmulas para el cálculo del primer y tercer cuartil. Los percentiles serán muy utilizados en inferencia estadística en relación a conceptos probabilísticos. En este contexto, las poblaciones de variables continuas se representan con curvas que se definen mediante funciones f(x), una de las cuales es la curva normal o curva campanular. La función de la normal, es de gran utilidad porque representa a la distribución teórica de muchas variables continuas de interés en Agronomía y Bromatología, y ya resulta familiar a quienes han estudiado la teoría de errores en Física. A partir de ella, mostraremos los gráficos que indican los cuartiles, deciles y percentiles: 71 Cátedra de Cálculo Estadístico y Biometría – Facultad de Ciencias Agrarias – UNCUYO / Ciclo 2014 UNIDAD I: ESTADÍSTICA DESCRIPTIVA q1/4 q2/4 q3/4 d1/10 d2/10 d3/10 d4/10 d5/10 d6/10 d7/10 d8/10 d9/10 Cuartiles p1/100 Deciles p50/100 p99/100 Percentiles Ejemplo 4.7: Sea la variable peso de racimos de uva en gramos. Si se dice esta variable en la población se puede representar con la curva normal, y que q3/4 ,es decir el tercer cuartil (q3) es igual a 450 gramos, significa que el 75% de los valores poblacionales son cuando más igual a 450 gramos, y sólo un 25% toma valores por encima. Nótese la equivalencia entre el q3/4 y el percentil 75, p75 . CUARTILES Primer cuartil, q1/4 O bien q1 Segundo cuartil, q2/4 o bien q2 Tercer cuartil, q3/4 o bien q3 PERCENTILES Resumen para interpretar los cuantiles Primer percentil, q1/100 o bien p1 Segundo percentil, q2/100 o bien p2, p3 , p4 , … p98 99 avo percentil, q99/100 o bien p99 deja a su izquierda el 25% de la distribución y el 75% a su derecha deja a su izquierda el 50% de la distribución y el 50% a su derecha deja a su izquierda el 75% de la distribución y el 25% a su derecha. deja a su izquierda el 1% de la distribución y el 99% a su derecha deja a su izquierda el 2 % de la distribución y el 98% a su derecha deja a su izquierda el 99% de la distribución y el 1% a su derecha. 4.8.2.2. Medidas de dispersión. Las medidas de posición central, por sí solas sabemos que son insuficientes para describir una variable relacionada con un fenómeno de interés, de modo que tengamos una correcta comprensión del mismo. Para reforzar esta idea, recordemos la situación más simple que se nos puede presentar al estudiar una muestra de variables cuantitativas: el caso de muestras pequeñas. Para ellas, vimos que era “obligatorio” utilizar al menos una medida promedio y una medida de la variabilidad. 4.8.2.2.1. Amplitud muestral (recorrido o rango), ∆m o bién A Es válido lo visto para muestras pequeñas. 4.8.2.2.2. Recorrido intercuartílico ∆q o bién RI Para evitar situaciones en que los valores extremos anormales distorsionan la realidad más común, esta medida de dispersión absoluta se define como: Definición 4.28 El “rango intercuartílico” es la diferencia entre el tercer cuartil y el primer cuartil. ∆q = RI = q3/4 - q1/4 Las dos medidas de dispersión descriptas, insistimos, adolecen de un gran defecto: no consideran la totalidad de los valores observados, con lo cual es fácil que distribuciones sustancialmente distintas puedan dar las mismas medidas de dispersión al no acusar éstas cambios en la mayoría de los valores de la variable. Para evitar estos problemas se recurre a la idea intuitiva de medir alejamientos medios, de los valores de la variable a las distintas medidas de posición central de la distribución, y surgen las medidas de dispersión absolutas que se describen a continuación. 4.8.2.2.3. Varianza y desviación típica En variables continuas, xi es el valor del punto medio que representa a todos los datos clasificados en la clase i-ésima o i-ésimo intervalo de clase. 72 Cátedra de Cálculo Estadístico y Biometría – Facultad de Ciencias Agrarias – UNCUYO / Ciclo 2014 UNIDAD I: ESTADÍSTICA DESCRIPTIVA Varianza Cálculo por el procedimiento directo k ∑ (x s2 = i − x ) 2 ni i =1 n −1 ; siendo i = 1,2,…,k Cálculo por el procedimiento abreviado. k ∑ xi .ni k 2 i =1 xi .ni − ∑ n s 2 = i =1 n −1 2 ; siendo i = 1,2,….,k Desviación típica La desviación típica, se obtiene según ya se ha visto como la raíz cuadrada positiva de la varianza s = + s2 Insistiremos, por la importancia de estas medidas, en su interpretación: La varianza muestral se puede interpretar como casi un promedio de la suma de cuadrados de desvíos. La desviación típica, puede ser comprendida examinando dos enunciados: * la Regla empírica: aplicable a distribuciones de tipo campanular * el teorema de Chebyshev: aplicable a cualquier distribución Regla empírica El examen de muchos conjuntos de datos sugiere una regla empírica que se utiliza para la interpretación de la desviación típica o estándar. Esta regla describe exactamente la variabilidad de los datos poblacionales de una distribución con forma de campana o acampanada, que ya mencionamos es conocida como distribución normal y que se discutirá en detalle en otro capítulo más adelante. Pero también proporciona una descripción bastante adecuada de la variación de muchos otros tipos de variables que poseen distribuciones de frecuencia relativa con forma de pico de montaña. Además, en la práctica, se puede utilizar la denominada Regla Empírica para explicar la propiedad de variabilidad de los datos de una muestra, esto es: que porcentaje de datos observados se encuentra comprendido por los siguientes intervalos: la media ± k veces la desviación típica. Generalmente estamos interesados en k = 1, 2 ó 3, esto es, la media ± l desviación típica, la media ± 2 desviación típica y la media ± 3 desviación típica, respectivamente, (x± s) , (x± 2s) y (x± 3s) . Estos porcentajes en la muestra se aproximan al 68%, 95% y 99%, respectivamente, en tanto que en la población normal estos porcentajes ocurren de manera exacta (Ver tabla 4.3). La aproximación es tanto mejor, cuanto más grande sea la muestra y además provenga de una distribución normal o aproximadamente normal, es decir, cuando no se da un sesgo extremo y se observa ese aglutinamiento más o menos central de datos. La siguiente Figura muestra los intervalos muestrales comprendidos dentro de una, dos y tres desviaciones típicas de la media y los valores porcentuales el área del histograma abarcada. 99.7% 95% 68% − XE − E + E + XE − E + E Se formalizará ahora el enunciado la regla en discusión. REGLA EMPÍRICA : Si una variable está distribuida normalmente, entonces hay un 68% de los datos, aproximadamente, dentro de una desviación estándar de la media. Dentro de dos desviaciones estándares hay un 95% más o menos, y dentro de tres desviaciones estándares de la media hay cerca de 99,7% de los datos. Esta regla es aplicable específicamente a una distribución normal (en forma de campana), aunque con frecuencia se aplica como guía a cualquier distribución de montículo. 73 Cátedra de Cálculo Estadístico y Biometría – Facultad de Ciencias Agrarias – UNCUYO / Ciclo 2014 UNIDAD I: ESTADÍSTICA DESCRIPTIVA Ejemplo 4.8:: La regla empírica puede utilizarse para determinar si se puede considerar que la distribución de frecuencias de una muestra aproximadamente se distribuye, o no, de manera normal. Supongamos una muestra, referida a rendimientos en kg/parcela, que tiene un una media x x y una desviación típica s, cuyos valores son 82,9 y 24,3, respectivamente. Utilizando la tabla de la distribución de frecuencias, a través de las frecuencias relativas acumuladas, podríamos encontrar que: el intervalo comprendido desde una desviación desviación típica por debajo de la media hasta una desviación estándar por arriba, esto es [x –s, x+s] +s] = [(82,9 – 24,3); ( 82,9 + 24,3)] = [58,6; 107,2 107,2] comprende el 64% de los datos centrados en la media. Además podríamos podríamos encontrar que: G̅ − 2; ̅ + 2YY G34,2; 131,5Y;G̅ − 3; ̅̅ + 3Y G10; 155,8Y incluyen el 98% del total de datos y el 100%, respectivamente, de los datos muestrales. Esta información nos lleva a decir que resulta bastante probable que la variable tenga una distrib distribución ución normal, lo que posteriormente puede ser comprobado a través de la Estadística Inferencial. Teorema de Chebyshev La idea asociada al teorema de Chebysheff, para la distribución de datos en una población cualquiera es la siguiente: construir un intervalo intervalo fijando una distancia de k a ambos lados de la media µ, con la condición de que k sea por lo menos igual a 1. Entonces, al calcular la fracción 1 – (1/k2), el teorema de Chebysheff afirma que por lo menos esta fracción, del número total de n mediciones, caerá dentro del intervalo determinado. Tomemos algunos valores numéricos para k. Cuando k=1, el teorema afirma que por lo menos 1–1/(1)2=0 de las mediciones caen dentro del intervalo de µ-σ a µ+σ , un resultado poco informativo y sin uso práctico, por eso, so, el teorema resulta útil si k>1. Cuando k=2, resulta que al menos 1 1–1/(2)2 = ¾ de las mediciones caerán en el intervalo [(µ [( -2σ) ; (µ +2σ)], )], y cuando k=3, al menos 8/9 de las mediciones estarán en el intervalo de [(µ [( -3σ) ; (µ + 3σ)], )], es decir, dentro de tres desviaciones típicas respecto de la media. Haremos ahora el enunciado formal de la regla en discusión. TEOREMA DE TCHEBYSCHEFF La proporción de cualquier distribución situada dentro de k desviaciones estándares de la media es, por lo menos la fracción , 1 – (1/k2), donde k es cualquier número positivo mayor que 1 1. Ejemplo 4.9: Ahora consideraremos un ejemplo donde se aplica la media y la desviación típica muestrales,, para formar una imagen mental de la distribución de frecuencias para la variable, sin presuponer nada acerca de la población (normal o no). La media y la variación de una muestra con n=25 mediciones, son datos son x=75 y s2=100. Por lo tanto, la desvi desviación típica es s=√100=10. 100=10. Para una distribución que se centra aproximadamente en en x=75, el teorema de Chebysheff nos permite afirmar lo siguiente: Al menos ¾ de las 25 mediciones caen en el intervalo ((x ± 2s) = [75 ± 2(10)],, es decir, el intervalo de valores xi que va de 55 a 95. Al menos 8/9 de las 25 mediciones caen en el intervalo ( (x ± 3s) = [75 ± 3(10)],, es decir, de 45 a 105. Finalmente haremos un análisis comparativo, analítico y gráfico, acerca de lo expuesto. Tabla 4.9:: Forma en la que varían los los datos alrededor de la media media. Número de desviaciones en unidades k; (x ± ks), k=1 2 3 4 Porcentaje de valores de la variable, contenidas entre la media y k desviaciones típicas, para la población Regla de Distribución Chebyshev de Gauss No es calculable Exactamente 68,26% (≅68%) Al menos 75,00% Exactamente 95,44% (≅95%) Al menos 88,89%(≅89%) 89%) Exactamente 99,73% (≅ 100%) Al menos 93,75%(≅94%) Exactamente 99,99% 100% Gráfico 4.6 Ilustración del teorema de Chebyshev Gráfico 4.7 4.7: La distribución campanular 74 Cátedra de Cálculo Es Estadístico y Biometría – Facultad de Ciencias ias Agrarias – UNCUYO / Ciclo 2014 UNIDAD I: ESTADÍSTICA DESCRIPTIVA Para concluir, nótese que: * el teorema de Chebyshev es un hecho que se puede demostrar matemáticamente, y que se aplica a cualquier conjunto de datos (Tabla 4.9 y Gráfico 4.6). Proporciona una cota inferior para la fracción de mediciones que se pueden encontrar en un intervalo (x± ks), donde k es un número mayor que o iguala uno. * la Regla empírica, por el contrario, es una afirmación arbitraria acerca del comportamiento de los datos. Aunque los porcentajes contenidos en la regla vienen del área bajo la curva normal, los mismos porcentajes son válidos aproximadamente para distribuciones con forma diferente, en tanto tienden a tener forma de pico de montaña (o sea, los datos tienden a acumularse cerca del centro de la distribución). 4.8.2.2.4. Coeficiente de variación Es válido lo visto para muestras pequeñas. 4.8.2.3. Medidas de asimetría y curtosis. Hasta ahora, con las medidas de posición hemos situado sobre la escala de valores de la variable las posiciones centrales o más importantes de la distribución y, a través de las medidas de dispersión, hemos medido en promedio el alejamiento o cercanía de los valores de la variable a las medidas de posición central. Sin embargo, aunque a través de estas medidas podemos deducir algo acerca de la “forma” de la distribución de frecuencias, la mayor parte de la información en tal sentido la obtenemos de la observación de las representaciones gráficas de la misma. Parece, pues, necesario definir una serie de medidas que permitan cuantificar en lo posible la forma de la distribución. Esta cuantificación se realiza en dos sentidos principales: Propiedad de simetría: simetría o asimetría de la distribución de frecuencias, centrándola en su media, evaluada con las medidas de asimetría. Propiedad de curtosis: la concentración o apuntalamiento más o menos acusada de los valores centrales de la distribución en torno de las medidas de posición central, evaluada con las medidas de curtosis. La simetría y la curtosis, son características propiamente ligada a la forma de la distribución y no a sus valores o unidades de medida. Por ello, cualquier medida que trate de cuantificar exclusivamente algún aspecto de la forma de la distribución debe ser, lógicamente, adimensionales, y en lo posible no influenciables por cualquier transformación de escala o cambio de origen de la escala. 4.8.2.3.1. La simetría En primer lugar, diremos que vamos a considerar distribuciones unimodales, y que la distribución es simétrica con respecto de algún punto a en el eje de abscisas, si lo es la representación gráfica de sus frecuencias. Es decir, si al trazar una paralela al eje de ordenadas, pasando por el punto a, deja el mismo número de observaciones a ambos lados, y además, a puntos opuestos y equidistantes de a, siempre les corresponden iguales frecuencias. Utilizaremos para medirla un coeficiente que se basa en los desvíos a la tercera potencia de los valores de la variable respecto a su media, − Z (o bien para la muestra, − ̅ ), con el siguiente criterio: W , y el índice de asimetría En una distribución de frecuencias perfectamente simétrica vale cero. ≥ W , es decir, la moda es menor que la media, resulta que la En una distribución donde distribución se extiende hacia la derecha, tiene exceso hacia valores xi grandes sesgo positivo, o que “tiene cola hacia la derecha”. El coeficiente debería tener signo positivo. ≤ W , es decir, la moda es mayor que la media, resulta que la En una distribución donde distribución se extiende hacia la izquierda, tiene exceso hacia valores xi pequeños o sesgo negativo, o simplemente “tiene cola hacia la izquierda”. El coeficiente debería tener signo negativo. Así pues los tres casos posibles son: xm < x Posición Intervalo modal a la izquierda de xd, de x y xm xm = x Posición Intervalo modal en coincidencia con xd y x x < xm Posición Intervalo modal a la derecha de xd 75 Cátedra de Cálculo Estadístico y Biometría – Facultad de Ciencias Agrarias – UNCUYO / Ciclo 2014 UNIDAD I: ESTADÍSTICA DESCRIPTIVA µ = µ d = µm µm < µ Asimetría a la derecha µ < µ Simetría a>0 m Asimetría a la izquierda a=0 a< 0 En Estadística, la expresión mr ∑ (x = − µ)r i N i= 1, 2, …, N corresponde al momento verdadero del r-ésimo orden, esto quiere decir desvíos respecto a la media paramétrica. El momento verdadero de primer orden es igual a cero, m1=0 El momento verdadero de segundo orden resulta ser igual a la varianza poblacional m2 = σ 2 = ∑ (x i − µ)2 N El momento verdadero de tercer orden, con desvíos basados en la media y elevados a la tercera potencia (xi -µ)3, se relaciona con la propiedad de simetría de un distribución. El momento verdadero de cuarto orden, análogamente con desvíos (xi -µ)4 ,se relaciona con la propiedad de curtosis. Para datos muestrales agrupados se tiene la expresión k ∑x mr = r i .ni ∑n i , i= 1, 2, …, k donde xi se refiere al desvío entre el i-ésimo punto medio y la media muestral. Coeficiente de asimetría de Charlier: g1 = m3 s3 ∑ = ( ) x − x 3n / n i i 2 s .s donde m3 son los momentos verdaderos (puntos medios menos la media) de tercer orden, basados en (xi - µ)3. g1 < 0 : asimetría negativa; g1 = 0: simetría; g1 > 0 : asimetría positiva. 4.8.2.3.2. La curtosis Como ya dijimos, con este coeficiente se trata de medir el grado en que los valores de la variable tienden a agruparse en torno de la media, hay mayor agrupamiento cuanto más elevada o apuntalada sea la distribución. La medida de esta propiedad se hará por referencia a la curtosis que posee la distribución o curva normal, que recibe el nombre de distribución normal, o también campana de Gauss. Esta distribución es simétrica con respecto a su media y verifica que el valor de las potencias cuartas de las desviaciones de las observaciones a la media aritmética, (xi - µ)4, vale precisamente tres veces lo mismo que la potencia cuarta de su desviación típica, 3 σ4. Se utiliza para medirla un coeficiente que se basa en la cuarta potencia de los desvíos de los valores de la variable respecto a su media, xi - µ (o bien para la muestra, xi -x ), con el siguiente criterio: 76 Cátedra de Cálculo Estadístico y Biometría – Facultad de Ciencias Agrarias – UNCUYO / Ciclo 2014 UNIDAD I: ESTADÍSTICA DESCRIPTIVA En una distribución de frecuencias con un grado de concentración similar a la normal, se dirá que la distribución es mesocúrtica y el índice de curtosis debe valer cero. En una distribución donde los datos centrales se concentran más que en el caso de la mesocúrtica se dirá que la distribución es leptocúrtica y su índice de curtosis deberá valer más de cero. En una distribución donde los datos centrales se concentran menos que en el caso de la mesocúrtica se dirá que la distribución es platicúrtica y su índice de curtosis deberá valer menos de cero. Gráficamente, las tres situaciones, considerando las poblaciones normales son: Coeficiente de curtosis: 4 k − / n Σ xi − x m4 = g2 = 2 s4 s2 ( ) donde m4 son los momentos verdaderos (puntos medios menos la media) de cuarto orden basados en (xi - µ)4. g2 < 3: platicúrtica; g2 = 3: mesocúrtica; g2 > 3: leptocúrtica. El índice se lleva a valor cero para la mesocúrtica, restándole 3 unidades, como:3-3 = 0. De este modo, el índice en una platicúrtica resultará menor a 0 y en una leptocúrtica mayor a 0. 4.9. COMUNICACIÓN Y PRESENTACIÓN DE RESULTADOS Realizado el análisis estadístico descriptivo (etapa de cálculos) se deberá realizar un informe técnico para comunicar los resultados, en el que se deberán considerar los siguientes aspectos: 1º) Acerca de los resultados numéricos: Se deberán redactar conclusiones aplicando la terminología y simbología estadística, y además se deberá proceder a interpretar los resultados en términos del problema. En el caso de variables cuantitativas es muy utilizada la expresión x± s y, en correspondencia resultados del siguiente tipo: 2,1 ± 0,17, sin olvidar el acompañamiento de las unidades en que se haya medido la variable. 2º) Acerca de los resultados gráficos: En general se utilizarán gráficos (tablas y representaciones gráficas) de presentación, no corresponde acompañar con tablas auxiliares de cálculo, salvo que se adjunten en un anexo separado. Además de las representaciones gráficas vistas, conocida la descripción numérica, estamos en condiciones de presentar un nuevo gráfico, el denominado diagrama de caja o bien diagrama de caja y bigotes (respectivamente, boxplot y box and whiskers) que es un gráfico muy simple en su forma pero muy informativo en su contenido (describe varias características importantes). El esquema general responde a lo siguiente Estructura general Contenido informativo Permite visualizar, para un conjunto de datos, información con relación a las cuatro propiedades estadísticas de los datos: a) Posición o tendencia central b) Dispersión general y presencia de datos atípicos. c) Asimetría d) Curtosis 77 Cátedra de Cálculo Estadístico y Biometría – Facultad de Ciencias Agrarias – UNCUYO / Ciclo 2014 UNIDAD I: ESTADÍSTICA DESCRIPTIVA El paso a paso para ara construir un diagrama de caja es: 1º) Identifique los límites muestrales (xmín , xmáx), posiciónelos en la recta de los reales, y únalos para definir un segmento horizontal (o vertical) con longitud xmín igual a la amplitud muestral, 2º) Calcule los cuartiles (q1, q2 = xd , q3) y posiciónelos en el eje anteriormente trazado. Con los cuartiles 1 y 3 dibuje una caja y particiónela en dos partes trazando una xmín q1 q2 = xd línea en correspondencia al cuartil 2. 3º) Puede agregar la representación de la media, agregando una cruz xmín q1 q2 = xd xmáx q3 xmáx q3 xmáx x Ejemplo 4.10. Se trata de construir un diagrama de caja con los datos de una muestra de datos de peso, en kg (n=20) 36 25 37 24 39 20 36 45 31 31 39 24 29 23 41 40 33 24 34 40 1º) Ordenación de los datos 20 0 23 24 24 24 25 29 31 31 33 34 36 36 37 39 39 40 40 41 45 2º) Identificación de los valores extremos: mín 20 kg y máx 45 kg kg. 3º) Cálculo de los cuartiles q1=(24 + 25) / 2 = 24,5 kg ; q2 = xd = (33 + 34)/ 2 =33,5 kg; q3 = (39 + 39) / 2 = 39,0 kg 4º) Dibujar la caja y los bigotes 5º) Interpretación gráfica • • • muestra, y el cuartil 1 (25% de los datos El bigote izquierdo informa sobre el menor valor de la muestra son menores o igual a q1 y, el 75% son mayores o iguales iguales) La caja informa sobre los tres cuartiles: a) el borde izquierdo indica el valor del cuartil inferior y el derecho echo el valor del cuartil superior, y representa el 50% de los datos posicionados centradamente. La división interna definida por el cuartil mediano, determina dos compartimentos desiguales, cada uno contiene 25% de los datos centrales, pero se observa may mayor or variabilidad (mayor amplitud) en el primero, y menor variabilidad en el segundo. Nótese también el diferente largo de los bigotes. Puede constatarse en la serie ordenada de datos 20 0 23 24 24 24 25 29 31 31 33 34 36 36 37 39 39 40 40 41 45 xmín q1 q2 q3 xmáx El bigote derecho informa sobre el cuartil 3 (75% de los datos son menores o igual al q3 y el 25% son mayores o iguales) iguales y el mayor valor de la variable observada en la muestra. 6º) Descripción de las propiedades estadísticas: estadísticas Posicionamiento de la distribución: distribución a1. La mediana tomó el valor 33,5 kg, por tanto un 50% de los datos muestrales correspondieron a pesos menores y un 50% a pesos mayores. a2. El primero y segundo cuartil, indican que hay un 25% de datos que son inferiores a 24,5 kg (más precisamente, entre e 20 y 24,5 kg) y un 25 % que son superiores a 39 kg (más precisamente entre 39 y 45 kg); el 50% restante de los datos presenta valores intermedios a éstos. a3. Dado que la primera parte de la caja es mayor que la segunda, hay que interpretar que la distribución tiene cola izquierda, con lo cual se induce que el valor de la media es inferior al de la mediana ( x < xd ). Dispersión de la distribución: distribución b1. Amplitud. ∆m = xmáx - xmín = 45 – 20= 25 kg; significa que el recorrido total fue de 25 kg, la variación total de la muestra fluctuó entre 20 y 45 kg. b2. Recorrido intercuartílico. intercuartílico RI = q3 - q1 = 14,5 kg; es decir, el 50% de los datos muestrales está comprendido entre 24,5 y 39 kg. b3. Con relación a los valores de la variable comprendidos en el recorrido intercuartílico, se observa que los datos se han distribuido con mayor dispersión a la izquierda de la mediana (la primera parte de la caja es mayor) y menor a su derecha (la segunda segunda parte de la caja se extiende menos). Quiere decir 78 Cátedra de Cálculo Es Estadístico y Biometría – Facultad de Ciencias ias Agrarias – UNCUYO / Ciclo 2014 UNIDAD I: ESTADÍSTICA DESCRIPTIVA que los pesos variaron más entre 24,3 y 33,5 kg (a la izquierda del valor mediano) que entre 33,5 y 39 kg (a la derecha del valor mediano). b4. Con relación a los valores comprendidos en los extremos del recorrido total, resulta que el bigote de la izquierda o cola izquierda es más corta que la derecha; por ello el 25% de los pesos inferiores están más concentrados que el 25% de los pesos mayores. b5. En la muestra no hay datos muy atípicos (desviaciones individuales muy grandes, es decir, pesos excesivamente pequeños o excesivamente grandes). Un valor atípico puede resultar de transponer los dígitos al registrar una medición, de leer incorrectamente la carátula de un instrumento, del mal funcionamiento de e una parte del equipo, y de otros problemas. Incluso cuando no hay errores de registro o de observación, un conjunto de datos puede contener una o más mediciones válidas que, por una razón u otra, difieren notablemente de las otras en el conjunto. Estos vvalores alores atípicos pueden causar una marcada distorsión en los valores de los estadígrafos, de modo que aislarlos es un paso importante en cualquier análisis preliminar de un conjunto de datos (análisis exploratorio de datos), pero nunca se deberá proceder a simplemente eliminarlos, de hecho los valores atípicos por sí mismos, podrían estar llamando la atención sobre lo siguiente: que contienen información importante no compartida con las otras mediciones del conjunto. Asimetría de la distribución: distribución este gráfico también proporciona información con respecto a la simetría o asimetría de la distribución general de los datos. Para la interpretación se utilizan los siguientes criterios: a) si la mediana está en el centro de la caja o cerca de él, constituye un indic indicio io de simetría de los datos, b) si la mediana está a la izquierda del centro de la caja o sea se aproxima al primer cuartil, cuartil la distribución está sesgada a la derecha (asimetría positiva) y, c) si la mediana está a la derecha del centrode la caja, la distribución ribución está sesgada a la izquierda (asimetría negativa. Asimismo, la longitud relativa de los bigotes se puede emplear como un indicio de su asimetría asimetría:: el bigote del lado sesgado de la caja tiende a ser más largo que el opuesto. Para el caso de la muestr muestra a estudiada, tomando el centrado en la mediana, se observa que las dos partes de la caja tienen diferente tamaño, lo cual indica una falta de simetría. Por ser mayor la primera parte, se interpreta que se trata de una distribución con asimetría negativa (mayor mayor dispersión en cola izquierda). Curtosis de la distribución: distribución: el ancho total de la caja abarca gran parte del recorrido total, por tanto la concentración de los datos no es importante y se trata de una distribución con escaso apuntalamiento, es decir, que es de tipo platicúrtico. Para finalizar, y comprobar la gran utilidad del diagrama de caja como gráfico resumen de las propiedades estadísticas de los datos en masa, se considerará que se dispone de más de una muestra. Un resultado posible podría ser se el siguiente: Muestra 1 Muestra 2 Notar que claramente se muestra que los valores extremos de las muestras son algo diferentes y que la distribución general de los datos también lo es: en la muestra 1 la división de la caja indica mayor variabilidad para los datos por encima de la mediana, mientras que en la muestra 2 ocurre esto con los datos inferiores a la mediana. Ejemplo 4.11: Supóngase que además de la muestra de pesos analizada precedentemente, se dispone de los datos de una segunda muestra 35 38 32 28 30 29 27 19 48 40 39 24 24 34 26 41 29 48 28 22 y al representar los datos del análisis resulta el siguiente diagrama de caja Dejamos al alumno la tarea de realizar un análisis comparativo de las distribuciones correspondientes a los datos de las dos muestras. Ejemplo 4.12. Intente ahora obtener información acerca de cinco muestras. La variable estudiada es el tiempo que demora un corredor, que se está preparando para una carrera, en recorrer 100m. Su entrenador le ha tomado los tiempos desarrollados en varias corridas realizadas el 1º día de entrenamiento, enamiento, el 2º, el 3º, el 4º y el 10º. ¿Qué puede decir acerca de los logros del corredor? 79 Cátedra de Cálculo culo Estadístico y Biometría – Facultad de Cien iencias Agrarias – UNCUYO / Ciclo 2014 UNIDAD I: ESTADÍSTICA DESCRIPTIVA Ejemplo 4.13. Seguidamente le proporcionamos dos distribuciones referidas al crecimiento de plantas, en cm, sometidas durante un período de tiempo bajo diferentes condiciones. Realice el análisis comparativo de los resultados. Para finalizar, cabe explicar el caso de los diagramas de caja que muestran valores atipicos (outliers). El cuerpo principal de un diagrama de caja muestra el patrón general de comportamiento que tienen los datos, pero a veces resulta que se tienen algunos datos con un valor “inusual”, esto es, datos muy grandes o muy pequeños con relación al patrón general de los datos. Estos datos con valores que se alejan de los restantes pueden deberse a efectos de causas extrañas, como algún error de medición o registro pero también pueden tener otra explicación. Por tanto su eliminación no debe ser precipitada y se justifica recurrir al diagrama de caja para mostrarlos en forma particular. A tal efecto, se requiere agregar otra información al diagrama de caja: la correspondiente a dos tipos de bordes o barreras, internos y externos, que se definen teniendo en cuenta el recorrido intercuartílico (RI), que se calcula como la diferentica entre el cuartil superior y el cuartil inferior del siguiente modo: Barreras internas Barrera interior inferior = Primer cuartil – 1,5 RI Barrera interior superior =Tercer cuartil + 1,5 RI Barreras externas Barrera exterior inferior = Primer cuartil – 3 RI Barrera exterior superior = Tercer cuartil + 3 RI 80 Cátedra de Cálculo Estadístico y Biometría – Facultad de Ciencias Agrarias – UNCUYO / Ciclo 2014 UNIDAD I: ESTADÍSTICA DESCRIPTIVA Cuerpo principal del gráfico Barrera exterior inferior Barrera interior superior Borarrera interior inferior Barrera exterior superior • •• Datos atípicos q3 +1,5 RI q1 -1,5 RI Cola Izquierda (25% datos) Datos atípicos extremos q1 q2 q3 Cola Derecha (25% datos) Recorrido Intercuartílico q1 -3 RI RI = q3 – q1 (50% datos) q3 +3 RI Gráfico 4.8. Diagrama de caja con barreras Si existen valores de la variable atípicos, según la magnitud de sus desvíos, se los encontrará comprendidos entre las barreras interiores y exteriores. • Un valor atípico sospechoso o leve, se marca en la gráfica con un círculo relleno (•), en cambio un valor atípico extremo o severo se suele indicar con un círculo vacío (o) o un asterisco (*). Los bordes internos y externos se muestran en el gráfico 4.8. con líneas discontinuas, pero usualmente no se dibujan en el diagrama de caja. Cualquier medición que esté entre los bordes interno y externo se llama valor atípico sospechoso, y cualquier medición que esté más allá de los bordes externos es u valor atípico extremo. Las mediciones que quedan al ubicarse dentro de los bordes, no son raras. El diagrama de caja también marca el rango de las mediciones dentro del borde al localizar los valores adyacentes, es decir las mediciones más grande y más pequeña antes de los bordes internos. Algunas preguntas que conviene formularse para una mejor interpretación y comprensión del comportamiento de la variable observada, son: • • • • • • • ¿Cuáles son los conceptos del análisis descriptivo (estadígrafos) que pueden analizarse en este tipo de gráfico? ¿Qué valores han tomado esos estadígrafos? ¿Qué porcentaje de datos representa la caja? ¿Qué porcentaje representa cada uno de los bigotes? ¿Siempre se encuentra la mediana en el centro de la caja? ¿Puede ser un bigote más largo que otro?. ¿Qué estaría indicando, si así fuera? ¿Para qué sirven las barreras? 81 Cátedra de Cálculo Estadístico y Biometría – Facultad de Ciencias Agrarias – UNCUYO / Ciclo 2014