M. Iniesta Grado en Ciencia y Tecnología de los Alimentos Universidad de Murcia Tema 1: Descripción de Datos Unidimensional 1. Introducción al razonamiento estadístico 1 El capítulo Razonamiento Estadístico del texto Estadística Aplicada Básica de D. S. Moore es el resultado de una gran experiencia en la docencia de la Estadística Aplicada. Pone de maniesto el objetivo fundamental que persigue la estadística, sus puntos fuertes, pero también advierte de sus limitaciones y de las consecuencias de un uso inadecuado de sus procedimientos o una lectura equivocada de sus resultados. Presentamos aquí un resumen del mismo con algún ejemplo o alguna consideración extra, proveniente de nuestra propia experiencia. La Estadística trata sobre datos y los datos son números en un cierto contexto. El número 1.75 por sí solo no aporta ninguna información, pero si dicho número se reere al contenido en gramos de grasa por 100 ml. de leche, dicho número en dicho contexto nos proporciona una información sobre el que podemos emitir un juicio. Además, podrán observarse datos no numéricos que nos permitirán delimitar con más precisión el contexto y establecer juicios comparativos. Por ejemplo, podemos tener una colección de datos referidos al contenido de grasa en un conjunto de muestras de leche y dicha colección puede clasicarse en distintos tipos de leche, por ejemplo: desnatada, semi desnatada y normal. La Estadística utiliza datos para profundizar en un tema y sacar conclusiones mediante cálculos y grácos. Los datos aportan luz sobre el fenómeno que se desea estudiar y las conclu- siones obtenidas a partir de los mismos pueden modicar o ser discrepantes con la percepción o las creencias que la sociedad posee sobre ciertos temas de la vida cotidiana. Por ejemplo, muchas personas sienten temor de viajar en avión, sin embargo salimos a la carretera sin apenas percepción del riesgo que ello supone. Es decir, a pesar de la baja siniestralidad de los vuelos los pasajeros sienten que su seguridad depende de factores ajenos a ellos mismos (la pericia del piloto, el correcto funcionamiento de la aeronave o buenas condiciones meteorológicas) y este hecho provoca una percepción falsa respecto al riesgo que conlleva un viaje por carretera en comparación con un viaje por avión. Un antídoto ante falsas percepciones de la realidad es la recogida de datos objetivos y un adecuado análisis de los mismos. Datos contra anécdotas Las organizaciones ecologistas denuncian el uso de productos transgénicos en nuestra alimentación por los efectos que ellos pueden tener en nuestra salud y muestran su apoyo decidido por el uso de productos derivados de la agricultura orgánica frente a la convencional. Es claro que dichas tendencias se basan en gran parte en un modus vivendi que busca ante todo el respeto por el medio ambiente y adecuado aprovechamiento de nuestros recursos naturales. En general, se trata de una losofía en la que muchos podemos coincidir, pero aparte de ello, ¾existen evidencias de que un alimento transgénico sea perjudicial para 1 resumen Tema 1 del capítulo de introducción del texto Estadística Aplicada Básica Curso 2011-12 de D. S. Moore Página: 1 M. Iniesta Grado en Ciencia y Tecnología de los Alimentos Universidad de Murcia la salud, o que los productos de la agricultura intensiva tengan propiedades signicativamente distintas a los orgánicos?. En cualquier caso, la respuesta a estas preguntas deben de provenir de análisis de datos estadísticos obtenidos a partir de ensayos rigurosos y avalados por la comunidad cientíca. Es crucial conocer cómo se obtuvieron los datos Un programa televisivo solicita a los televidentes que envíen mensajes SMS diciendo si apoya o no la política del gobierno ante la crisis. Los resultados de ese tipo de encuestas hay que entenderlos con sumo cuidado pues casi nunca reeja la opinión de la sociedad en su conjunto. En primer lugar porque los contenidos de cualquier programa televisivo van dirigidos a ciertos sectores de la sociedad y no a otros y segundo porque además las personas que respondieron estaban especialmente motivadas. Es crucial que en cualquier estudio a partir de datos se garantice la representatividad de estos en el conjunto de toda la población, si no, los resultados hay que interpretarlos en términos de las condiciones en las que fueron obtenidos. La variación está siempre presente en el conjunto de datos en estudio. Una misma característica observada o medida en idénticas condiciones proporciona valores distintos: el precio de los bienes de consumo, el índice de la bolsa, el contenido en grasa en 100 gramos de patatas fritas, el tiempo que se emplea en hacer cierto recorrido, la duración de un electrodoméstico,....Esa variación se debe en parte a ciertos factores controlables y en parte al azar. La estadística pretende explicar dichas variaciones mediante un lenguaje que permite introducir un determinado grado de incertidumbre en nuestras conclusiones. Lo anterior signica que cuando se pretende analizar un determinado fenómeno en una determinada población a partir de un conjunto de datos representativos nunca se podrán establecer verdades absolutas, sino únicamente conclusiones que son avaladas con cierto nivel de conanza. ¾Para qué la Estadística?. Resumiendo: Por Estadística entendemos una batería de recursos cientícos por los cuales podemos recolectar, organizar, resumir, presentar y analizar datos que provienen de un conjunto de observaciones con el objetivo de comunicar información sobre cierto fenómeno y ayudar a la toma de decisiones. 2. Primeros conceptos En este primer tema vamos a introducir los conceptos básicos y vamos a tratar con muestras de datos univariantes con el objetivo general de extraer de las mismas toda la información relevante pero de manera sintética y organizada. Tema 1 Curso 2011-12 Página: 2 M. Iniesta Grado en Ciencia y Tecnología de los Alimentos Llamaremos Población, Universidad de Murcia universo o colectivo a un conjunto homogéneo de individuos sobre los que se estudia una o varias características que son observables o medibles. Puede ser un conjunto nito o innito y cada uno de sus elementos se denominan individuo, que además van a ser portadores de información para el estudio que se quiere realizar. Una muestra es un subconjunto representativo de la población en el sentido de que reeja o hereda las características de ésta. El número de elementos de la muestra se denomina tamaño muestral toda la población se denomina Una y lo representaremos por n. Si la muestra coincide con censo. variable es una característica de la población que puede ser observable o medible y que varía en el conjunto de los individuos. El valor (numérico o no) que la variable toma en un individuo lo denominaremos dato. Usaremos las últimas letras del abecedario y en mayúsculas para representar a las variables mientras que usaremos las minúsculas para representar a los datos. Tipos de variables Cualitativas: Son variables observables pero no medibles pues toman valores que se corresponden con cualidades no cuanticables de los individuos. Las distintas man- modalidades. Esta variables tamnominales o atributos y a las modalidades también se categorías o clases. En particular las variables Dicotómicas ifestaciones o situaciones posibles se les llama bién se suelen llamar le suelen llamar pueden observar sólo 2 modalidades o categorías. Ordinales: Son variables observables no medibles aunque sus modalidades pueden or- denarse. Cuantitativas: Son variables medibles cuyas modalidades son valores numéricos. Dos tipos de variables cuantitativas: Discretas: Si las posibles modalidades son el resultado de un recuento, es decir, número de veces que aparece cierta característica en los individuos. No son posibles ningún valor intermedio entre dos enteros consecutivos n y n + 1 que se hayan observado. Continuas: Si las modalidades son resultados de una medida y los valores posibles de dicha medida se expresan en relación a cierta unidad. Son posibles todos los valores intermedios entre dos cualesquiera que se hayan observado. Ejemplo 2.1 Contar con un adecuado diseño del servicio al cliente es premisa funda- mental para trabajar por una adecuada competitividad empresarial. Por ello se quiere llevar a cabo la evaluación de un servicio de ventas on-line, básicamente en los aspectos de demanda y grado en que se cumplen los objetivos del servicio. Cada usuario podría facilitarnos información respecto a las siguientes características: Si ha utilizado el servicio en el último mes. (Dicotómica con sólo dos modalidades: SI y NO). El sexo. (Dicotómica con sólo dos modalidades: hombre y mujer) Tema 1 Curso 2011-12 Página: 3 M. Iniesta Grado en Ciencia y Tecnología de los Alimentos Universidad de Murcia Categoría profesional. (Cualitativa con modalidades como obrero, cuadro intermedio, directivo, .....) Tipo de artículos en los que está interesado. (Cualitativa con valores posibles como viajes, informática, libros, vinos u otros) Nivel de estudios. (Cualitativa ordinal con modalidades posibles como estudios primarios, medios y superiores) Nivel de satisfacción del servicio. (Cualitativa ordinal con modalidades o rangos posibles como bajo, regular, bueno y muy bueno) Número de veces que realizó compras on-line en los últimos seis meses. (Cuantitativa discreta con valores posibles 0, 1, 2, 3, ......) Número de veces que se conectó al servicio sin realizar compras en los últimos seis meses. (Cuantitativa discreta con valores posibles 0, 1, 2, 3, ......) Edad en años. (Cuantitativa continua con valores dentro del intervalo (0, +∞). Tiempo, en meses, desde que realizó la primera compra (Cuantitativa continua con valores dentro del intervalo (0, +∞). Dinero, en euros, gastado en compras on-line en el servicio en los últimos seis meses (Cuantitativa continua con valores dentro del intervalo 3. (0, +∞). Procedimientos de descripción de datos univariantes Una vez seleccionados los individuos que van a componer la muestra y observadas todas las variables de interés en cada uno de ellos, solemos disponer la información obtenida en un tipo de matriz que se denomina variables matriz de datos o matriz de individuos por en donde las las representan a los individuos de la muestra y las columna representan a las variables. Si una la contiene toda la información de determinado individuo, una columna contiene todos los valores observados de una determinada variable en el conjunto de la muestra. Esas matrices van a constituir nuestros cheros de datos que tendrá formato informático para poder ser tratado con software estadístico. Denotaremos dicha matriz con la letra muestra y Xj k X que tiene orden n × k el número de variables observadas. El elemento en el individuo número i. (i = 1, ....., n y donde xij n es el tamaño de la es el valor que la variable j = 1, ...., k ). Un ejemplo de matriz de datos se presenta en la siguiente imagen. Dicha matriz contiene información de 150 porciones de 100 gramos de distintos alimentos (en la imagen las primeras 30 las). En cada una de dichas porciones, que aquí son los individuos de la muestra, se observan las siguientes características: el nivel calórico con modalidades bajo, medio y alto (NIVEL), las calorías que contiene (CALORIAS), el grupo al que pertenecen (GRUPO) con modalidades Frutas, Vegetales, Cereales y Azúcares, el estado en que se presenta (ESTADO) con modalidades Cocido, Crudo y Enlatado, la cantidad de gramos de carbohidratos (CARBOH), el índice glucémico (INDICE-G) que Tema 1 Curso 2011-12 Página: 4 M. Iniesta Grado en Ciencia y Tecnología de los Alimentos Universidad de Murcia es un indicador de la velocidad de asimilación del azúcar y el número de micronutrientes que contiene (MICRO). Las variables GRUPO y ESTADO son variables cualitativas, la variable NIVEL es ordinal, la variable CALORIAS es cuantitativa discreta al igual que la variable MICRO y por último, las variables CARBOH e INDICE-G son cuantitativas continuas. Además, la primera columna de dicha matriz se reserva para identicar a cada uno de los individuos de la muestra. Por defecto dicho indicador suele ser un número, pero podría ser cualquier etiqueta identicativa. Considerando la columna de identicación de los individuos, la matriz del ejemplo tiene orden 150x7 (150 las y 7 columnas) si bien son visibles en la imagen sólo las primeras 30 las. La matriz anterior contiene toda la información disponible sobre el fenómeno que se quiere investigar y el objetivo ahora es ordenar y sintetizar dicha información para Tema 1 Curso 2011-12 Página: 5 M. Iniesta Grado en Ciencia y Tecnología de los Alimentos Universidad de Murcia que ésta resulte más operativa y podamos extrae un resumen del comportamiento de Estadística Descriptiva Univariantes que usan los datos de una sola variable. Clasicamos estas las características en estudio. En este tema hablaremos de las técnicas de técnicas en función de los resultados que producen y el tipo de datos que usa en: 1. Tabulación: o disposición de los todos los valores distintos observados en la mues- tra, que llamaremos clases, en una tabla con sus correspondientes frecuencias o cómputo del número de veces que dicha clase aparece en el conjunto de la muestra. La tabla puede ser para: Variables Cualitativas : clases se disponen en la primera columna y se agregan la columna de frecuencias absolutas (fa) (número de veces que cada modalidad (clase) aparece en la muestra) y las frecuencias relativas (fr) (proporción que la frecuencia absoluta representa Las modalidades distintas observadas o en el conjunto de la muestra). Variables Ordinales y Cuantitativas Discretas: Además de la información anterior, las clases aparecen ordenadas en la tabla de menor a mayor y se frecuencias acumuladas, tanto absolutas (Fa) como relativas (Fr) que ofrece la frecuencia de cada clase acumulada a las frecuencias agregan las de las clases inferiores. Variables Cuantitativas Continuas: Si la muestra contiene un gran número de modalidades la tabla anterior puede ser poco operativa. En estas situaciones se construyen clases de intervalo que agrupa los valores observados entre los valores especicados en dicha clase. Las frecuencias anteriores (fa, fr, Fa y Fr) están ahora referidas a dichas clases de intervalo. 2. Grácos: Los grácos permiten visualizar las características básicas de la distribu- ción de frecuencias representadas en la tabla anterior. Según el tipo de variable, los más básicos son los siguientes: Diagrama de sectores para representar una tabla de una variable cualitativa mediante un gráco circular de forma que hay tantos sectores circulares como clases y con áreas proporcionales a la frecuencias que representan. Diagrama de barras para representar una tabla de una variable ordinal o cuan- titativa discreta mediante un gráco con un eje horizontal en donde se representan las clases y una barra vertical sobre cada clase cuya altura es proporcional a la frecuencia que representa. Diagrama de Tallo y Hojas que ofrece la ordenación y el recuento de todos los valores observados de una variable numérica, cuando el tamaño de la muestra no es demasiado grande. Para construir este gráco se selecciona uno o más dígitos comunes a un conjunto de datos para los valores de tallo y los dígitos sobrantes van a constituir hojas del mismo tallo. Histograma que agrupa los valores observados de una variable cuantitativa con- tinua en clases de intervalo representados en un eje horizontal y levantando sobre cada uno un rectángulo cuya área representa a la frecuencia de dicha clase. Las clases deben ser las mismas que las construidas en la correspondiente tabla de frecuencias. Tema 1 Curso 2011-12 Página: 6 M. Iniesta Grado en Ciencia y Tecnología de los Alimentos 3. Cálculo de estadísticos: Universidad de Murcia Medidas descriptivas para cuanticar las características de la distribución de frecuencias que visualizamos en tablas y grácos. Dichas características son principalmente de: Centralización: ofrecen valores centrales o representantes del conjunto de la muestra. Localización: ofrecen valores localizados de la muestra cuando ésta se presenta con todos sus datos ordenados de menor a mayor. Dispersión: ofrecen medidas de dispersión o variabilidad de los datos respecto a valores centrales. Son también una medida del grado de representatividad de los valores centrales. Forma: ofrecen medidas sobre la forma de la distribución de frecuencias, básica- mente respecto a al grado de simetría con relación a valores centrales. Diagrama de caja y patillas (Boxplot ): Resume las medidas descriptivas an- teriores en un gráco que se describirá. 4. Medidas descriptivas 4.1. Medidas de centralización y localización Moda Un primer criterio para seleccionar un valor que represente a toda la muestra es elegir aquel dato que tenga mayor frecuencia absoluta. Este dato se denomina se representa, usualmente, por Mo . moda, y Obsérvese que la denición es aplicable a cualquier tipo de variables salvo para variables continuas. En variables continuas con datos agrupados en clases de intervalo es más adecuado hablar del intervalo modal (el que tiene mayor frecuencia) en vez de la moda. Media aritmética La medida de centralización más familiar es la se denota por si x. x1 , x2 , . . . , xn media aritmética, que usualmente Está denida como el promedio de los valores de la muestra; es decir, son los n valores de la muestra, su media aritmética es: x 1 + x2 + · · · + xn x= = n Pn i=1 xi n . Obsérvese que la media aritmética, al igual que la mayoría de las medidas descriptivas, sólo tiene sentido con datos cuantitativos. La unidad de medida de x es la misma que la de la variable. Mediana Si los valores de una variable estadística son susceptibles de una ordenación (es decir, si la variable no es cualitativa nominal), puede tomarse como y localización Tema 1 medida de centralización de la distribución de frecuencias un valor tal que, una vez ordenados Curso 2011-12 Página: 7 M. Iniesta Grado en Ciencia y Tecnología de los Alimentos Universidad de Murcia todos ellos de menor a mayor, haya tantos valores por debajo de él como por encima del mismo. A este valor central se le llama mediana. Por tanto, la mediana es un valor que deja por debajo el 50 % de los datos de la muestra ordenada, es decir, divide a la muestra en 2 intervalos de igual número de observaciones. Usualmente se denota por Me . Su unidad de medida es la misma que la de la variable. • Si n es impar: • Si n es par: Me Me es el valor central de la muestra ordenada. es el punto medio de los dos valores centrales de la muestra ordenada. Ejemplo 4.1 Supongamos una muestra de la variable 1. El tamaño de la muestra es impar, por ejemplo Número de hermanos. n = 21, la mediana es exactamente el valor del dato 11 supuestos ordenados de menor a mayor. xi ni Ni 0 4 4 1 7 11 2 5 16 3 3 19 4 2 21 La mediana es el valor Me = 1 2. El tamaño de la muestra es par, por ejemplo n = 20, la mediana es el promedio de los dos datos centrales supuestos ordenados de menor a mayor, es decir, de los datos que ocupan los lugares 10 y 11. Puede ocurrir que ambos datos caigan en la misma clase, como en el siguiente ejemplo: xi ni Ni 0 4 4 1 7 11 2 5 15 3 3 19 4 1 20 La mediana es el valor Me = 1+1 =1 2 3. O que caigan en distintas clases, como en el siguiente ejemplo: xi ni Ni 0 4 4 1 6 10 2 5 15 3 4 19 4 1 20 Percentiles El percentil al La mediana es el valor r% Me = 1+2 = 1.5 2 de una variable estadística es un valor que deja por debajo el r % de los datos de la muestra ordenada de menor a mayor. Usualmente se denota por Pr . Son medidas de localización entre las que destacan los cuartiles. Su unidad de medida es la misma que la de la variable. CASOS PARTICULARES: Tema 1 Curso 2011-12 Página: 8 M. Iniesta Grado en Ciencia y Tecnología de los Alimentos • Cuartiles: 1er cuartil 2o cuartil 3er cuartil • Universidad de Murcia = = = Q1 = P25 Q2 = P50 = Me Q3 = P75 Deciles: 1er decil 2o decil . . . 9o decil = = . . . = D1 = P10 D2 = P20 . . . D9 = P90 En particular, los cuartiles son aquellos valores que dividen la muestra en 4 intervalos con igual número de observaciones. Ejemplo 4.2 Usemos las mismas distribuciones de frecuencias del ejemplo anterior para calcular los cuartiles, es decir, 1. El tamaño de la muestra es xi ni Ni 0 4 4 1 7 11 2 5 16 3 3 19 4 2 21 Q1 = ni Ni 0 4 4 1 7 11 2 5 15 3 3 19 4 1 20 Q1 = y Q3 = P75 . n = 21. 1+1 = 1, Me = 1 2 2. El tamaño de la muestra es xi Q1 = P25 y Q3 = n = 20, 1+1 1+1 = 1, Me = =1 2 2 3. Otro caso en el que el tamaño de la muestra es xi ni Ni 0 4 4 1 6 10 2 5 15 3 4 19 4 1 20 Q1 = 2+3 = 2.5 2 y Q3 = 2+2 =2 2 n = 20, 1+1 1+2 = 1, Me = = 1.5 2 2 y Q3 = 2+3 = 2.5 2 4.2. Medidas de dispersión Al estudiar cada carácter de cualquier población o muestra, se ponen enseguida de maniesto las diferencias o discrepancias en los resultados individuales de las observaciones. La variabilidad en los resultados es inherente a cada fenómeno aleatorio, originando en el conjunto de los datos observados cierto grado de heterogeneidad, según que las Tema 1 Curso 2011-12 Página: 9 M. Iniesta Grado en Ciencia y Tecnología de los Alimentos Universidad de Murcia discrepancias u oscilaciones entre ellos sea pequeña o grande. Este grado de variabilidad de los datos estadísticos es la dispersión. Cuando se pretende asignar un número para cada grado de variabilidad de las observaciones, surgen diferentes medidas de dispersión, dependiendo de si se elige como medida la diferencia entre determinados valores de la variable, o la que existe entre todos ellos y una medida de centralización, generalmente la media aritmética o la mediana, o de modo que la medida no venga inuenciada por las propias unidades de medida de los valores cuya dispersión se desea estimar. A las medidas de dispersión expresadas en la misma unidad de medida que los datos las denominaremos medidas de dispersión ab- soluta, y a las expresadas independientemente de dichas unidades, medidas de dispersión relativa. Cuando se mide la dispersión de los valores de una variable respecto a una de sus medidas de centralización, se está midiendo el grado de representatividad que dicha medida de centralización tiene del conjunto de los datos a los cuales pretende resumir. Recorrido Una medida de dispersión global es el recorrido de la muestra (también denominado rango o amplitud total), que se denota por R y se dene como la diferencia entre la observación mayor, xmax , y la observación menor, xmin , es decir: R = xmax − xmin . R De la fórmula anterior se deduce que se expresa en la misma unidad que la de la variable y mide el grado de variabilidad de los datos de la muestra: cuanto más grande sea el resultado del recorrido, más dispersos están los datos. Recorrido intercuartílico Cuando los valores próximos al máximo y al mínimo de los datos están excesivamente alejados del resto, la consideración de un recorrido más corto, prescindiendo de un determinado porcentaje de los datos más alejados, puede dar una idea más real de la dispersión que si se emplea el recorrido. Esta idea conduce a la noción de intercuartílico, que se denota por RI recorrido y se dene como la diferencia entre el tercer cuartil y el primer cuartil; es decir: RI = Q3 − Q1 = P75 − P25 . De la fórmula anterior se deduce que la unidad de medida de RI es la misma que la de la variable. Cuanto más pequeño sea el resultado del recorrido intercuartílico, menos dispersión respecto de la mediana hay; es decir, los datos están menos alejados de la mediana y, por tanto, la mediana es más representativa. Pero, ¾cuándo podríamos decir que el Q1 , y el Q3 , hay exactamente la mitad de los datos, podríamos comparar la mitad valor del recorrido intercuartílico es pequeño? . . . Como entre el primer cuartil, tercer cuartil, del recorrido total con el recorrido intercuartílico, y podríamos decir que la mediana es representativa si Tema 1 RI es menor o igual que R/2. Curso 2011-12 Página: 10 M. Iniesta Grado en Ciencia y Tecnología de los Alimentos Ejemplo 4.3 recorrido es Universidad de Murcia Siguiendo con los ejemplos anteriores, se observa que en los 3 casos el R = 4 − 0 = 4, mientras que el recorrido intercuartílico es: 1. El tamaño de la muestra es xi ni Ni 0 4 4 1 7 11 2 5 16 3 3 19 4 2 21 RI = 2.5 − 1 = 1.5 2. El tamaño de la muestra es xi ni Ni 0 4 4 1 7 11 2 5 15 3 3 19 4 1 20 n = 21. n = 20, RI = 2 − 1 = 1 3. Otro caso en el que el tamaño de la muestra es xi ni Ni 0 4 4 1 6 10 2 5 15 3 4 19 4 1 20 En los tres casos n = 20, RI = 2.5 − 1 = 1.5 RI < R/2 = 2 por lo que la mediana es representativa en los tres casos. En el segundo caso la mediana es algo más representativa que en el primer y tercer caso. Varianza y desviación típica Varianza Es la media aritmética de los cuadrados de las desviaciones de los datos 2 2 respecto a la media, y se suele representar por sx , o simplemente por s si no hay lugar a confusión. Por tanto, si los datos de la muestra son x1 , x2 , . . . , xn , la varianza es, por denición: s2x Pn = i=1 (xi − x)2 n . De la expresión anterior se deduce que el resultado de la varianza es siempre un número no negativo y se expresa mediante el cuadrado de la unidad de la variable X, lo que en la mayoría de los casos puede carecer de sentido. Desviación típica Es la raíz cuadrada positiva de la varianza y viene expresada en la misma unidad que la de la variable. observaciones, y que se dene como la raíz cuadrada positiva de la varianza. Se representa por Tema 1 Curso 2011-12 sx , o simplemente por s. Página: 11 M. Iniesta Grado en Ciencia y Tecnología de los Alimentos Universidad de Murcia Cuanto más pequeño sea el resultado de la desviación típica, menos dispersión respecto de la media hay; es decir, los datos están menos alejados de la media y, por tanto, la media es más representativa. Relación entre media aritmética y desviación típica tadística con media x y desviación típica s y k . Si es una variable es- es cualquier número mayor o igual a 1, entonces la proporción de datos comprendidos entre x−k∗s 1 1 − 2. k mayor o igual que Ejemplo 4.4 X y x+k∗s es Supongamos que sabemos que los varones de 20 años del territorio na- cional tienen en media 168 cm de estatura y la desviación típica es de 4 cm, si tomamos k = 2, la propiedad anterior dice que al menos el 75 % de dicho colectivo tiene estaturas comprendidas entre 160 cm y 176 cm. Coeciente de Variación El coeciente de variación media de Pearson relativa que se suele denotar CV es una medida de dispersión y que se dene por CV = sx · 100 % . |x| De la fórmula anterior se deduce que el coeciente de variación media de Pearson no tiene unidad de medida. Si se compara el resultado del coeciente de variación en dos o más muestras distintas, entonces la media es más representativa en la muestra en la que el valor de dicha medida de dispersión relativa es menor. Ejemplo 4.5 Supongamos que la variable X mide el contenido de proteínas, en gramos, en muestras de 100 gramos de helado. Supongamos que la variable Y mide el contenido calórico de las mismas muestras de 100 gramos de helado. Supongamos que en el conjunto x = 3 gramos con sx = 0.25 gramos, mientras que en la muestra de datos de la variable Y se obtiene x = 250 Kcal con sy = 15 de datos observados de la variable X se obtiene Kcal. CVx = sx 0.5 · 100 % = · 100 % = 16 % . |x| 3 CVy = 15 sy · 100 % = · 100 % = 6 % . |y| 250 Es decir, la dispersión relativa es menor en la muestra de la variable la variable Y que en la de X. 4.3. Medidas de forma La primera información acerca de las peculiaridades de forma de una distribución nos la proporciona la observación del polígono de frecuencias o, mejor aún, del diagrama de barras o del histograma, según se trate de una variable discreta o continua. Si la Tema 1 Curso 2011-12 Página: 12 M. Iniesta Grado en Ciencia y Tecnología de los Alimentos Universidad de Murcia distribución es unimodal y la moda está en un valor extremo del recorrido, siendo la frecuencia a partir de dicho valor cada vez menor al avanzar hacia la derecha o hacia la izquierda, la distribución se dice que es de tipo L o de tipo J, según que la moda quede, respectivamente, a la izquierda o a la derecha en la representación gráca. Si la distribución es de tipo Ltambién se denomina asimétrica a la derecha o si es de tipo J se dice asimétrica a la izquierda. Las distribuciones más frecuentes son aquellas unimodales que tienen pocos valores próximos a los extremos y muchos intermedios, o bien aquellas que tienen muchos valores en torno a la moda y progresivamente menos hacia uno u otro extremo del recorrido de la variable, dando lugar, en cualquier caso, a representaciones grácas de aspecto campaniforme con un mayor o menor apuntamiento vertical. Coeciente de asimetría Una distribución es simétrica si tienen igual frecuencia los valores que están a igual distancia de la media. Cuando la distribución es simétrica, la media deja por delante el mismo número de observaciones que detrás de ella. Por tanto, en este caso la media coincide con la mediana. Además, los cuartiles primero y tercero equidistan de la mediana, o lo que es equivalente, la mediana coincide con el punto medio de los cuartiles primero y tercero. Diremos que la distribución presenta una asimetría positiva o por la derecha si los valores bajos de la variable son los más frecuentes, por lo que la correspondiente representación gráca presenta una cola alargada hacia la derecha. Análogamente, se dice que una distribución presenta una asimetría negativa o por la izquierda si los valores más frecuentes son los mayores de la variable, por lo que la correspondiente representación gráca presenta una cola alargada a la izquierda. El coeciente de asimetría de Pearson se calcula mediante la expresión As = 3(x − Me ) s Siendo este coeciente positivo, negativo o nulo según que la distribución sea asimétrica por la derecha, asimétrica por la izquierda o simétrica, respectivamente. En la imagen 4.3 se representan tres tipos distintos de distribuciones de frecuencia respecto a su simetría. Ejemplo 4.6 y M ey = 270 Tema 1 Supongamos que en el ejemplo anterior la mediana es M ex = 2.8 gramos Kcal. Curso 2011-12 Página: 13 M. Iniesta Grado en Ciencia y Tecnología de los Alimentos Universidad de Murcia En estos caso, el coeciente de asimetría valen: Asx = Asy = 3(3 − 2.8) 3(x − M ex ) = = 2.4 sx 0.25 3(y − M ey ) 3(250 − 270) = = −4 sy 15 Es decir, en el caso de la variable X la muestra presenta una asimetría positiva, mientras que es negativa en el caso de la variable Y . Además, la muestra de esta segunda variable es más asimétrica que la muestra de la primera. Lo anterior signica, que en el caso de la variable X, los valores más frecuentes son los que tienen menos de 3 gramos de proteínas, mientras que en el caso de la variable Y, los valores más frecuentes son los que tienen más de 250 Kcal. 4.4. Tipicación de una variable estadística Si X es una variable estadística con media tipicadade X x y desviación típica s se dene la variable a la variable Z= X −x s que posee las siguientes propiedades: 1. La variable Z tiene media cero y desviación típica 1 2. Es adimensional, es decir, no tiene unidad. 3. Por lo anterior puede ser usada para comparar datos de dos variables distintas Ejemplo 4.7 Supongamos que el país A tiene una renta media per cápita de 30000 euros con una desviación típica de 10000 euros. El país B tiene una renta media per cápita de 35000 euros con una desviación típica de 12000 euros. El ciudadano x del país A tiene una renta anual de 33000 euros y el ciudadano y del país B tiene una renta anual de 36000 euros. Para comparar ambos datos los tipicamos. El dato tipicado del ciudadano x es 33000 − 30000 = 0.3 10000 mientras que el dato tipicado del ciudadano y es 36000 − 35000 = 0.08 12000 Es decir, respecto al nivel de vida de su país, el ciudadano poder adquisitivo que el ciudadano Tema 1 y del país x del país A tiene mayor B. Curso 2011-12 Página: 14 M. Iniesta Grado en Ciencia y Tecnología de los Alimentos Universidad de Murcia 4.5. Resumen de Estadísticos La siguiente tabla resume los estadísticos que se usan más frecuentemente para cada tipo de variable. Estadístico Moda Mediana Media aritméti- Característica Utilidad Variable Centralización Informa del valor más fre- Cualitativa, ordinal y cuente cuantitativa discreta Centralización y Valor central de muestra, Ordinales y cuantita- localización supuesta ordenada tivas Centralización Promedio de los datos Cuantitativas Localización Valor de la muestra que deja Cuantitativas ca Cuartil 25 (75) por debajo el 25 % (75 %) de ella Percentil p Localización Valor de la muestra que deja Cuantitativas por debajo el p % de ella Intervalo Inter- Dispersión Varian- Dispersión Intervalo cuartílico (Cuasi) formado por los Cuantitativas desvia- Cuantitativas cuartiles Promedio za de las ciones respecto a la media al cuadrado (Cuasi) Dispersión Raíz cuadrada de la (Cuasi) Desviación Cuantitativas Varianza típica Coeciente de Dispersión Medida de dispersión por- variación Asimetría Cuantitativas centual Forma Nivel de asimetría de la dis- Cuantitativas tribución de frecuencias 4.6. Diagrama de caja y patillas (Boxplot) Este gráco ofrece un resumen de las medidas descriptivas anteriores, pues nos aporta una visualización de las características de centralización, localización, dispersión y forma de la distribución de frecuencias, además de permitir detectar datos atípicos de la muestra. Contiene los siguientes elementos: Un rectángulo o caja que se extiende desde el primer cuartil al tercer cuartil y dentro de ella marcada la mediana. La longitud de la caja se corresponde con el llamado rango intercuartílico. Dos patillas, una a cada lado de la caja, que se extienden desde los cuartiles a las observaciones más extremas, siempre y cuando éstas no se alejen del extremo de la caja más del rango intercuartílico multiplicado por 1.5. Las observaciones que disten del cuartil más próximo más del rango intercuartílico multiplicado por 1.5 se consideran atípicas y serán reejadas en el gráco como puntos aislados fuera de las patillas. Tema 1 Curso 2011-12 Página: 15 M. Iniesta Grado en Ciencia y Tecnología de los Alimentos 5. Universidad de Murcia Ejemplos prácticos 5.1. Caso de un atributo Describimos la variable ESTADO que indica cómo está presentado el alimento. La siguiente tabla incluye las frecuencias absolutas y relativas de las modalidades de la variable ESTADO mientras que el diagrama de sectores representa las frecuencias de dicha tabla. ESTADO Clases fa fr Cocido 119 0.79 Crudo 6 0.04 Enlatado 25 0.17 Suma 150 1 Cocido Enlatado Crudo Por otro lado podemos decir que la presentación Cocido representa la moda en casi el 80 % de los alimentos en estudio. 5.2. Caso de una variable ordinal Describimos la variable NIVEL (nivel calórico del alimento) con niveles 1: Bajo, 2: Medio, 3: Alto y 4: Muy alto. La variable es cualitativa ordinal puesto que sus categorías o niveles pueden ser ordenados. En este caso el diagrama más adecuado es el diagrama de barras y éstas representan las frecuencias de las categorías que se ordenan en el eje Fr 1 38 0.253 38 0.253 2 55 0.366 93 0.619 3 53 0.353 146 0.973 4 4 0.026 150 a consideran los errores de redondeo 0 a Se 1 30 Fa 20 fr 10 fa Frequency Clases 40 50 horizontal. Bajo Medio Alto Muy alto NIVEL La moda es la categoría 2. La mediana se halla en la misma clase pues las observaciones 75 y 76 se corresponden ambas con la clase 2. Tema 1 Curso 2011-12 Página: 16 M. Iniesta Grado en Ciencia y Tecnología de los Alimentos Universidad de Murcia También se podría haber representado el diagrama de barras de las frecuencias acumuladas. 5.3. Caso de una variable cuantitativa discreta 5.3.1. Pocas modalidades 1 1 0.006 1 0.006 2 4 0.026 5 0.032 3 13 0.086 18 0.118 4 24 0.160 42 0.278 5 40 0.266 82 0.544 6 45 0.300 127 0.844 7 15 0.100 142 0.944 8 5 0.033 147 0.977 9 2 0.013 149 0.990 10 1 0.006 150 a Se 1 a 30 Fr 20 Fa Frequency fr 10 fa 0 Clases 40 Describimos la variable MICRO. 1 consideran los errores de redondeo 2 3 4 5 6 7 8 9 10 MICRO Medidas descriptivas: Moda: 6 micronutrientes C25 = 4 micronutrientes Mediana: 5 micronutrientes C75 = 6 micronutrientes Mínimo: 1 micronutriente Máximo: 10 micronutrientes Rango: Intervalo ente 1 y 10 micronutrientes. 5.3.2. Muchas modalidades En estos casos, a pesar de ser la variable discreta, son más adecuados los procedimientos de variables continuas, agrupando las modalidades en clases de intervalo. Si no, la longitud de la tabla resultaría poco operativa. Describimos la variable CALORIAS Tema 1 Curso 2011-12 Página: 17 M. Iniesta 7 0.046 7 0.046 40 0.266 47 0.313 150-200 55 0.366 102 0.680 200-250 31 0.206 133 0.886 250-300 12 0.080 145 0.966 300-350 4 0.026 149 0.993 350-400 1 0.006 150 a Se 1 a consideran los errores de redondeo 40 50-100 100-150 30 Fr frequency Fa 20 fr 10 fa 0 Clases Universidad de Murcia 50 Grado en Ciencia y Tecnología de los Alimentos 50 100 150 200 250 300 350 400 Alimentos$CALORIAS Medidas descriptivas y Boxplot Media: 182.52 ● 350 135.5 150 Mínimo: 60 250 212.25 200 CALORIAS C75 = 300 Mediana: 180 ● 100 Máximo: 370 Desviación Típica: 58.68 50 C25 = Coeciente de Variación: 32.15 % En el diagrama se observa ligera asimetría a la derecha (cola de la derecha más alargada que la izquierda) y 2 valores atípicos. 5.4. Caso de una variable cuantitativa continua Describimos la variable NIVEL-G. Para una variable cuantitativa continua son adecuados los procedimientos utilizados en el ejemplo anterior, sin embargo, en muchas ocasiones, cuando deseamos hacer una descripción somera de una variable recurrimos exclusivamente a los grácos de los que desprendemos las características más elocuentes del comportamiento de dicha variable. ● ● ● ● 50 40 20 30 INDICE_G 60 70 ● Tema 1 Curso 2011-12 Página: 18 M. Iniesta Grado en Ciencia y Tecnología de los Alimentos Universidad de Murcia El diagrama de tallo y hojas es, a groso modo, una tabla de frecuencias, pues agrupa las observaciones que tienen uno o más dígitos comunes en un mismo tallo, indicando las frecuencias acumuladas en orden ascendente y descendente hasta el tallo donde se halla la mediana, cuya frecuencia se representa entre paréntesis. Pero también es un gráco pues la longitud de los tallos dan idea de la frecuencia de la clase. A la vista de este gráco podemos decir: La menor observación es 18 y la mayor es 76, aunque ésta última es atípica pues se encuentra fuera del árbol. Se podría construir la tabla con todas las frecuencias de las clases de intervalo con amplitud 10. Por ejemplo hay 22 observaciones en el intervalo [20-30) y 45 observaciones en el intervalo [30,40). La mediana se encuentra en el tallo 3. Exactamente podemos encontrarla contando desde la observación 24 que es INDICE-G=30 hasta la observación 75 que es la observación INDICE-G=36 y ésta es la mediana. Por otro lado, el diagrama de caja y patillas representa la mediana que vale 36, los cuartiles inferior y superior que valen 32 y 44 respectivamente y las observaciones extremas, por lo tanto también representa el rango intercuartílico (RI=[32, 44]) y el rango de la variable (Rango=[18, 76]). Respecto a la forma observamos que los valores superiores a la mediana están más dispersos que los valores inferiores a la mediana, por lo tanto la distribución de frecuencias es asimétrica a la derecha. Dicha asimetría se paliaría en parte si elimináramos las observaciones atípicas. 6. Bibliografía 1. Tema 1 del texto Estadística para Ciencias Agropecuarias. Autor: Di Riezo, J. A. 2. Tema 1 del texto Estadística para ingenieros y cientícos. Autor: William Navidi. Editorial McGraw-Hill Tema 1 Curso 2011-12 Página: 19