Módulo 1: 1 ESTADISTICA: DEFINICIÓN Definición: "Es el conjunto de métodos y técnicas que permiten determinar, de una muestra debidamente representativa de una población, los valores estadísticos, a fin de poder inferir sobre los parámetros poblacionales con un cierto grado de bondad" Esta definición comprende tanto a la estadística descriptiva como a la estadística inferencial. Mark Berenson y David Levine1, definen Estadística descriptiva como “ El conjunto de métodos que incluyen la recolección, presentación y caracterización de un conjunto de datos con el fin de describir apropiadamente sus características”. Mientras que a la estadística inferencial la definen como “ Conjunto de métodos que hacen posible la estimación de una característica de la población o la toma de una decisión referente a una población basándose solo en los resultados de una muestra”. La comprensión de estas definiciones se ve facilitada si se aclaran convenientemente algunos términos de las mismas. 1.1 POBLACIÓN: ¿Que se entiende por población? Definición: "El conjunto de datos cuantificable pertenecientes al sistema en estudio constituye la población." Esto implica que si el sistema en estudio es la producción agrícola ganadera de la Provincia de Córdoba, entonces el mismo estará constituido por todos los establecimientos agropecuarios de la Provincia. Si en cambio se pretende estudiar la edad promedio de los estudiantes de la Universidad Empresarial Siglo 21, la población estará conformada por todos los estudiantes de esa Institución. Si se presenta en un Estudio Publicitario, la necesidad de plantear una campaña para promover la venta de un nuevo perfume en la ciudad de Córdoba, la población a estudiar estará constituida por todas las mujeres de dicha ciudad en condiciones de seleccionar y elegir un perfume. Si se pretendiere realizar un estudio sobre la calidad de los tomates producidos en las quintas de los alrededores de la ciudad, entonces todas las quintas con producción de tomates próxima a la ciudad de Córdoba se constituirán en la población. Pudiere ser de importancia para un nuevo gobierno provincial prever el comportamiento de los contribuyentes a las obligaciones impositivas, en caso de reducir el monto de los impuestos, en este caso la población estará constituida por todos los contribuyentes A fin de poder tomar las medidas más adecuadas será necesario contar con la mayor información posible, si los datos informativos con los que contamos provienen del estudio de toda la población, no sería necesario realizar ninguna inferencia, decimos que se ha efectuado un censo de la población. Pero en ese caso dicha mayor 1 Estadística Básica en Administración pág.2 Materia: HERRAMIENTAS MATEMÁTICAS III (ESTADÍSTICA I) Profesor: MARIO MARÍN -1- exactitud va acompañada por un mayor costo y tiempo que evidentemente encarece el proceso. Es decir, los resultados que puede entregarnos un censo tienen el carácter de ser exactos, pero los costos que determinan los mismos pueden no justificar dicha exactitud cuando, con muestras debidamente seleccionadas se determinan esos valores con un cierto grado de error que se puede regular y que más adelante veremos. Por otra parte en algunas situaciones particulares el censo se presenta impracticable o puede no ser conveniente. Piense el lector que si el estudio se refiriere al comportamiento de las abejas en un colmenar, la población tendría el carácter de infinita y por lo tanto sería imposible censarla. Supongamos que se desata una epidemia en la población y debemos analizar la respuesta a un cierto medicamento. Pretender estudiar la respuesta de toda la población a la nueva droga llevaría un tiempo enorme tal que al cumplirse tal vez no tendría sentido la aplicación del medicamento. Una Empresa automotriz recibe de una Autopartista una partida de 500 pernos de pistón, Recepción debe decidir su aceptación. Dentro de los ensayos a realizar sobre las piezas, además de dimensiones y dureza se debe efectuar un ensayo de tracción para el cual sería necesario destruir la pieza, en este caso sería entonces imposible ensayar todas ellas. Por otro lado, si el verificar las dimensiones constituyere otro ensayo a realizar, genera en la cantidad de pernos verificados un efecto particular sobre el operario que lo realiza, lo cuál lo lleva a cometer errores, en algunos casos superiores a los que se cometerían efectuando un muestreo. Tendríamos también que tener en cuenta el costo de mano de obra que representa la verificación de esos elementos. Esto que hemos expresado nos lleva a la necesidad de poder tomar decisiones en base a las inferencias que sobre una población podemos hacer de resultas del análisis y estudio de una muestra de la misma. 1.2 MUESTRA: De acuerdo a lo visto en el ítem anterior, estudiar el comportamiento de una población a través de un censo, se torna en la mayoría de los casos impracticable, es por esa razón que el análisis se efectúa por medio de una muestra que esté constituida por una parte de todos los valores poblacionales. Definición: “Una muestra estará constituida por un subconjunto de la población ." Cada uno de los elementos que forman parte de la muestra se denominan observación. MUESTRA DEBIDAMENTE REPRESENTATIVA Si bien es cierto que una muestra está constituida por elementos pertenecientes a la población, tendremos que comprender que no todo subconjunto de la población se constituye en una muestra debidamente representativa. Vale tal vez recordar que en 1936 en vísperas a las elecciones presidenciales de EE.UU., la encuestadora LITERARY DIGEST pronosticó el triunfo del candidato Republicano con un apreciable Materia: HERRAMIENTAS MATEMÁTICAS III (ESTADÍSTICA I) Profesor: MARIO MARÍN -2- margen por sobre su opositor Rooselvet. El pronóstico se basaba sobre los resultados de una encuesta hecha sobre una muestra de dos millones de habitantes. No obstante el triunfo fue del candidato demócrata y el error en la inferencia se debía a que los encuestados fueron seleccionados entre los poseedores de automóviles y abonados telefónicos. En esos momentos los que estaban mejor posicionados para poseer automóvil y líneas telefónicas correspondían a la clase media y alta, en su mayoría con tendencias republicanas, pero el triunfó quedó en manos de Rooselvet apoyados por la masa poblacional de menores recursos. Definición: Una muestra se dice que es debidamente representativa de una población cuando presenta sus mismas características. Presentar las mismas características que la población implica que, si el 20% de la población cumple con una determinada propiedad, se espera que el 20% de la muestra cumpla con esa misma propiedad. Esto permite disminuir los errores que se cometen cuando se efectúa la inferencia de los parámetros poblacionales a partir de los valores determinados en la muestra. 1.3. VALORES ESTADÍSTICOS El estudio realizado sobre una muestra nos permite determinar valores cuyas características nos referiremos más adelante y a los cuales se los denomina estimadores pudiendo también tomar el nombre de valores estadísticos, mediante los cuales se podrá efectuar una correcta estimación sobre los valores de la población. Por otra parte, los valores propios de la población toman el nombre de Parámetros. Si se pretendiere determinar el salario de los empleados metalúrgicos del País, tomaríamos una muestra constituida por operarios de distintas empresas y distintas provincias y siempre proporcional al número de operarios de cada lugar, el salario promedio obtenido en la muestra se denomina estadístico, mientras que el salario promedio de toda la población obrera metalúrgica se constituye en parámetro 1.4. PARÁMETROS Definición: Los valores en estudio, que en la muestra toman el nombre de Estadísticos, en la población se los denominan Parámetros. Definición: Se define como bondad al margen de seguridad con que se realiza la inferencia de acuerdo a los estudios realizados sobre la o las muestras. Aseverar que tal político ganará las próximas elecciones presidenciales no tiene peso como información si no se lo acompaña con un grado de seguridad. Indicar que las encuestas los dan ganador por tal cantidad de puntos, solo es tomado en cuenta cuando se acompaña esa información con una determinada seguridad. Materia: HERRAMIENTAS MATEMÁTICAS III (ESTADÍSTICA I) Profesor: MARIO MARÍN -3- 2. Variable, Datos Debemos tener en cuenta que la Estadística basa su aplicación en el estudio y análisis de números los que se denominan Datos. Si dichos datos son obtenidos a través de una muestra, se los llama observaciones, las que deben responder a una determinada característica que es la que tenemos en estudio, puede ser la producción avícola en la provincia, la inversión de dinero en publicidad en los distintos medios durante el año 1998, o a la cantidad de precipitaciones en el sur de la provincia, la concurrencia a un Centro Comercial, las temperaturas máximas diarias durante el mes de marzo en una determinada localidad, el número de alumnos ingresados en cada una de las Universidades de la provincia. De Córdoba en el corriente año, cada una de estas toma el nombre de Variable. En definitiva cada vez que nos aboquemos a un estudio estadístico debemos de tener en cuenta que dicho estudio corresponde a una Variable, y que de ésta se tendrán Datos y los que corresponden a Observaciones realizadas. Mediante la aplicación de métodos y técnicas estadísticas se estudian estas observaciones y se determinan los estadísticos. 2.1 TIPO DE VARIABLE En una fábrica de automotores puede considerarse necesario determinar el número de automóviles de cada modelo producidos durante el último trimestre, a fin de poder compararlo con las unidades producidas durante el mismo período del año anterior y poder prever la producción para los futuras períodos. Al Ministerio de Agricultura y Ganadería, le será imprescindible definir la cantidad de hectáreas sembradas de maíz en todo el País y en condiciones de ser levantadas en la próxima cosecha. En la localidad de Embalse de Río Tercero, se tienen piletas en donde se efectúa la cría de pejerreyes y por lo tanto le será de suma importancia definir, para cada período del proceso el tamaño promedio de los peces. Para una planta generadora de energía eléctrica, le es necesario determinar los picos de consumo de energía durante el día y el consumo durante las diferentes épocas del año. Puede ser deseable para la Secretaría de Cultura de la Municipalidad de la ciudad de Córdoba, definir el grado de calidad que poseen los Artistas Plásticos, para lo cuál será necesario valorizar las obras de cada uno de ellos. Observará el lector que el tipo de dato de cada una de las incógnitas en estudio puede tener características diferentes. En el estudio de la producción de automóviles, la cantidad de unidades producidas es un número entero definido, no es así en el caso de querer determinar la longitud de los peces que se crían en Embalse, ya que la exactitud de la misma dependerá del instrumento con que se realice el proceso. En el caso de pretender determinar el grado de calidad de los maestros plásticos de Córdoba, no hay la menor duda en que, la definición de la misma dependerá del criterio experiencia y capacidad de quien realice la valorización de cada obra. Es decir será necesario efectuar una clasificación de los tipos de datos: Discretos Cuantitativos Continuos Tipos de Datos Cualitativos Nominales Jerarquizados Materia: HERRAMIENTAS MATEMÁTICAS III (ESTADÍSTICA I) Profesor: MARIO MARÍN -4- Discretos: Se dice que un valor es discreto cuando es el resultado de un conteo. Número de televisores por hogar Cantidad de alumnos aprobados o reprobados en una evaluación Número de habitantes por médicos en una localidad; etc. Tómense éstos como modelos de datos discretos Continuos: Se dice que una variable es del tipo continuo cuando asume valores dentro de un intervalo de números reales. Las alturas de los alumnos de un curso La longitud de peces en un lago El volumen de precipitaciones anuales etc. Es decir en definitiva, cuando el valor del dato u observación se mide en un intervalo, decimos que es del tipo continuo Nominales: Cuando los valores que adopta la variable en estudio puede ser clasificada de acuerdo a categorías, tal como lo sería el responder a una encuesta efectuada al personal de una Empresa automotriz y en la cual se plantea la situación de cada uno en cuanto a su estado civil. Sabemos que en este caso se tendrían las categorías de: Soltero casado viudo divorciado O el caso de realizar un estudio en un club social, en donde nos encontraremos con que sus asociados se encuentran categorizados por edad según: Infantiles cadetes mayores En estos casos en donde los datos se pueden agrupar por categorías es necesario introducir, a fin de poder realizar su estudio, una cierta codificación. De cualquier manera no se podrán hacer estudios matemáticos entre categorías. Jerarquizados: Este tipo de dato se presenta cuando es necesario otorgarle a la variable una cierta jerarquía de orden. Supongamos tener que estudiar el grado de calidad de las obras expuestas por un cierto número de plásticos de Córdoba a fin de asignar los correspondientes premios. A tal efecto será necesario acudir al juicio de un perito que permita definir el grado de categoría de cada uno de los participantes, esto implica que en el proceso de jerarquizar las obras de cada uno influirá el criterio de quién realiza el estudio, tal vez de ser otro el que efectúe el análisis pudiere modificar dicho orden. Como conclusión entonces no podrá en este tipo de variable asegurar la exactitud del cálculo 2.2. VALORES ESTADÍSTICOS Materia: HERRAMIENTAS MATEMÁTICAS III (ESTADÍSTICA I) Profesor: MARIO MARÍN -5- Al definir los objetivos de la Estadística, expresábamos la necesidad de poder inferir sobre las características de la población, a través del análisis y estudio de la muestra. Todos los valores que se determinan en la muestra se denominan estadísticos, mientras que los valores propios de la población se denominan parámetros. Además los valores estadísticos se pueden clasificar de acuerdo a sus características de la siguiente manera: Media Mediana De tendencia central o posición Moda Valores estadísticos Rango De dispersión Desvío medio Varianza Desviación estándar Coeficiente de variación SERIE SIMPLE A los efectos de preparar un Congreso Internacional en una zona del Sur del País, se ha solicitado el registro de las temperaturas mínimas de los últimos once días del mes de julio del año anterior, obteniendo como respuesta los siguientes datos: -2 0 1 -1 -3 -1 -2 -2 1 0 -2 La primera operación a realizar par el estudio de esa muestra es la de ordenar las observaciones de menor a mayor. El conjunto de observaciones ordenadas de menor a mayor se denomina Serie Simple. -3 -2 -2 -2 -2 -1 -1 0 0 1 1 En este caso, la variable en estudio está dada por las temperaturas y cada una de las observaciones corresponderá a un nuevo valor adoptado por la incógnita. x = temperatura n = número de observaciones = 11 La Serie simple se puede expresar como: x1 x2 x3 x4 . . . . . . . . . . . . . . . . . . . . . . . . . . .xn Materia: HERRAMIENTAS MATEMÁTICAS III (ESTADÍSTICA I) Profesor: MARIO MARÍN -6- donde: x1= -3 y xn = 1 Con todos los valores que adopta la variable en estudio se genera una distribución, denominada Distribución de la Variable en estudio 2-3. MEDIA Se define como media aritmética o promedio de una distribución al cociente entre la suma de todas las observaciones dividido el número total de ellas: Es conveniente aclarar que la media poblacional se define como: x1 + x2 + x3 + . . . . + xN µ = -------------------------------N N tamaño de la población Cuya denotación general es N ∑ xi µ= 1 N Mientras que en la muestra el estadístico x corresponde a la media de la muestra. x1 + x2 + . . . . . . . + xn x = -------------------------------n n es el número de observaciones. Se denota como: n ∑x i x= 1 n El siguiente diagrama representa la analogía entre la media poblacional para una población y la media muestral para una muestra: Materia: HERRAMIENTAS MATEMÁTICAS III (ESTADÍSTICA I) Profesor: MARIO MARÍN -7- Población µ Muestra Tamaño: N x Tamaño: n En nuestro caso: -3+(-2)+(-2)+(-2)+(-2)+(-1)+(-1)+0+0+1+1 x = ------------------------------------------------------ = -1 11 Dentro de los valores estadísticos de posición central la media es el de mayor representatividad, pero debemos tener presente que a su ves es el más sensible a los valores extremos de la distribución Los valores extremos de la distribución pueden influir en el valor de la media y de esa manera hacerle perder su condición de referente, tenga Ud. en cuenta el siguiente ejemplo: En una Empresa con 9 operarios que ganan cada uno de ellos la cantidad de $1000 mensuales, y con un Gerente general cuyo sueldo es de $10.000, el sueldo promedio para esa distribución será: 1000 + 1000 + 1000 + . . . . + 10000 19.000 µ = ---------------------------------------------- = ------------10 10 µ = $ 1900 Esto estaría indicando que el sueldo promedio de los empleados de la empresa es de $1900, cifra esta que de ninguna manera representa la realidad. Recordar Población MEDIA µ Muestra x Cantidad de elementos N n 2.4. MEDIANA Se define como Mediana de una distribución, al valor distribución que ocupa el punto medio de la Ocupar el punto medio de la distribución implica que la mediana deja a la izquierda la misma cantidad de valores que a la derecha. Todos los valores que se encuentran a la izquierda son menores o eventualmente iguales a él, mientras que los valores que se ubican a la derecha serán mayores o eventualmente iguales a él. Materia: HERRAMIENTAS MATEMÁTICAS III (ESTADÍSTICA I) Profesor: MARIO MARÍN -8- Continuando con el ejemplo referido a las temperaturas en una localidad del Sur: -3 x1 -2 x2 -2 x3 -2 x4 -2 x5 -1 x6 -1 x7 0 x8 0 x9 1 x10 1 x11 Me = x6 = -1 Teniendo presente que el número de observaciones n = 11 el valor que ocupa el lugar central de la distribución corresponderá a x6 y por lo tanto la mediana toma el valor de -1. Cuando el número de componentes de la distribución es impar, la mediana está perfectamente definida, pero para el caso de que n sea par, no se tiene un único valor central, en este caso la mediana estará dada por el promedio de los dos valores centrales. Suponiendo que se le quitara el último valor a la distribución de temperaturas que estamos analizando, el número de observaciones n = 10 y los dos valores centrales serían x5 y x6. -3 x1 -2 x2 -2 x3 -2 x4 -2 x5 -1 x6 -1 x7 0 x8 0 x9 1 x10 x5 + x 6 Se tendría en este caso que Me = ------------2 Podemos generalizar el valor de la mediana para una distribución de n valores teniendo en cuenta que el número de observaciones sea par o impar: Si n es impar Me = x i Mediana Si n es par donde i = (n+1)/2 x(n/2) + x(n/2 +1) Me = -----------------2 Para determinar el valor de la mediana de una serie simple o distribución de frecuencia es necesario tener en cuenta el número de observaciones, si n es impar, la mediana pertenece a la distribución y esta dada por el valor que ocupa el punto central de la misma. En el caso de que n sea impar, el valor de la mediana esta dado por el promedio de los dos valores centrales, esto implica que puede pertenecer a la distribución solo en el caso de que los valores centrales sean iguales: a) 4 b) 2 6 10 6 18 8 20 Me = 6 Me = 14 Materia: HERRAMIENTAS MATEMÁTICAS III (ESTADÍSTICA I) Profesor: MARIO MARÍN -9- c) 4,3 5,8 d) 2 3 e) 3,5 4,7 6,2 3 6,8 7,2 6 7,3 8,5 9 9,6 9,6 10 12,5 Me = 6,7 Me = 3 Me = 7,3 Observe el lector que a diferencia de la media o promedio la cuál se ve influenciada por los valores extremos, según ya vimos, no ocurre lo mismo con la mediana la cuál se presenta como insensible a los valores extremos y por lo tanto describe con mayor exactitud las distribuciones en donde los valores extremos son sensibles .Son ejemplo de este tipo de distribuciones: a) los ingresos personales b) Las retribuciones generales en una empresa c) Gastos domésticos d) Ingresos netos por hogar, etc. No obstante todo esto las propiedades que presenta la media y que veremos más adelante la hace más atractiva para su utilización. 2.5. MODA Se define como Moda de una distribución al valor que más veces se repite. En nuestro caso -2 se repite en cuatro oportunidades y por lo tanto éste valor se constituye en moda de la distribución. Mo = -2 Con respecto a este valor es necesario aclarar que si en una distribución se tiene más de un valor con el mismo máximo de repeticiones, cada uno de ellos se constituirá en una nueva moda, es decir que una distribución puede tener más de una moda. En caso de tener dos modas se la denomina bimodal y en caso de tres trimodal, etc. Así mismo si se presentare el caso en que todos los valores de la distribución tienen el mismo número de repeticiones, diremos que dicha distribución no tiene moda. FRECUENCIA Dada una distribución se define como Frecuencia de un valor, al número de veces que el mismo se repite. Ejemplo: En la distribución correspondiente a las temperaturas mínimos tomadas en una localidad del Sur del País durante los últimos 10 días, defina para cada valor su frecuencia: -2 -2 -4 -1 -1 -1 0 -3 -2 -1 para -4 su f = 1 -3 su f = 1 -2 su f = 3 -1 su f = 4 0 su f = 1 Materia: HERRAMIENTAS MATEMÁTICAS III (ESTADÍSTICA I) Profesor: MARIO MARÍN - 10 - ∑f = 10 Tenga en cuenta que la suma de todas las frecuencias es igual al número total de observaciones. 2.6. DISTRIBUCIÓN DE FRECUENCIA En la mayoría de los casos nos encontraremos con una cantidad de observaciones n que superan los 20, por lo tanto pretender operar con una serie simple se tornaría engorroso, en estos casos será conveniente seleccionar los valores de acuerdo a una determinada clase y determinar de cada una de ellas su frecuencia, de allí que es común encontrar a este tipo de distribución como Distribución de intervalos, a los efectos de facilitar el aprendizaje del alumno subdividiremos este tipo de distribución en dos grupos: 1) cuando la amplitud de intervalo es igual a 1 2) cuando la amplitud del intervalo de clase toma un valor mayor a 1 Caso a analizar Supongamos tener que estudiar el número de accidentes que se producen en una playa de estacionamiento durante los últimos 50 días. Los datos relevados son los siguientes 3 0 4 4 5 6 4 3 4 6 4 2 2 5 4 1 1 2 4 3 4 3 3 2 2 6 2 2 5 4 7 0 4 3 5 1 3 1 4 4 5 3 4 4 6 4 1 7 7 4 Es observable que trabajar con todos los valores como lo presenta la serie simple sería por demás engorroso si no se dispusiera de una computadora, pero si clasificamos los valores, en este caso de acuerdo a su valor numérico y para cada uno de ellos determinamos su frecuencia, podríamos confeccionar una tabla de las siguientes características: Tabla 1.1 Clase xi fi 1 0 2 2 1 5 3 2 7 4 3 8 5 4 16 6 5 5 7 6 4 8 7 3 Materia: HERRAMIENTAS MATEMÁTICAS III (ESTADÍSTICA I) Profesor: MARIO MARÍN - 11 - ∑f = i 50 i Si ahora analizamos la tabla de esta manera, se simplifica enormemente la determinación de la media ya que en lugar de efectuar la suma de todas las observaciones, efectuaremos el producto de cada valor por su frecuencia y la suma de estos productos lo dividiremos por el número total de observaciones. 8 ∑ ( Xi . fi ) 1 x = 8 ∑ fi 1 Nota: Debemos tener presente que estamos frente a una muestra A los efectos de facilitar los cálculos, generemos en la tabla una nueva columna conteniendo los productos de xi * fi. Tabla 1.2 Clase xi fi xi * fi 1 0 2 0 2 1 5 5 3 2 7 14 4 3 8 24 5 4 16 64 6 5 5 25 7 6 4 24 8 7 3 21 50 177 De esta manera podemos calcular la media como: n ∑ ( xi. fi ) i =1 x= = 177 / 50 = 3,54 n El valor de la media o promedio de la distribución es de x = 3, 54 2.7. FRECUENCIA RELATIVA Definición: Se define como frecuencia relativa de un valor y se expresa como fri, al cociente entre su frecuencia y la suma de todas las frecuencias (la suma de todas las frecuencias es igual al número de elementos de la distribución). fri = fi ∑f = i Materia: HERRAMIENTAS MATEMÁTICAS III (ESTADÍSTICA I) Profesor: MARIO MARÍN - 12 - ∑fi = n por lo tanto también se puede expresar ∑fi fr i = --------n Podemos ampliar la tabla de frecuencias con una nueva columna que contenga la fr de cada clase: Tabla 1-3 Clase xi fi xi * fi fri 1 0 2 0 0,04 2 1 5 5 0,1 3 2 7 14 0,14 4 3 8 24 0,16 5 4 16 64 0,32 6 5 5 25 0,1 7 6 4 24 0,08 8 7 3 21 0,06 50 177 1 Propiedad: La sumas de todas las frecuencias relativas clases de una distribución es igual a 12: correspondientes a los valores ∑ fri = fr1 + fr2 + fr3 . . . . . . . . + fr n Tener en cuenta: El concepto de frecuencia relativa, la media de una distribución poblacional también se puede expresar como: ∑(xi . fi) µ = -------------- = ∑(xi . fi/∑fi ) ∑fi 2 es decir Demostración ∑ fri = fr1 + fr2 + fr3 . . . . . . . . + fr n f1 f2 f3 = --- + --- + ---- + ∑fi ∑fi ∑fi fn ∑fi + --- = ------- = 1 ∑fi ∑fi Materia: HERRAMIENTAS MATEMÁTICAS III (ESTADÍSTICA I) Profesor: MARIO MARÍN - 13 - µ = ∑(xi. fri) 2.8 FRECUENCIA ACUMULADA Se define como frecuencia acumulada de una clase (por ejemplo i) y se la denota como fai, a la suma de su frecuencia y la suma de las frecuencias de los valores que le anteceden. Analicemos la tabla 1.3 de la página anterior,(correspondía al número de accidentes que se produjeron durante los últimos 50 días en una playa de estacionamiento), teniendo en cuenta la definición de frecuencia acumulada tendremos: Tabla 1.4 Clase xi fi xi * fi fri fai 1 0 2 0 0,04 2 2 1 5 5 0,1 7 3 2 7 14 0,14 14 4 3 8 24 0,16 22 5 4 16 64 0,32 38 6 5 5 25 0,1 43 7 6 4 24 0,08 47 8 7 3 21 0,06 50 50 177 1 Cuáles son las bondades que nos brinda la frecuencia acumulada: a) Nos indica con su lectura el número de valores pertenecientes a la distribución que se ubican a la izquierda de cada uno de ellos. Si se quiere saber cuantos días se registraron menos de 2 accidentes, se tendrá la frecuencia acumulada del 1, es decir 7, lo que implica que de los 50 días analizados solo en 7 de ellos se tuvieron menos de dos accidentes diarios, pero con valores menores o iguales a 2 se tuvieron 14, quiere decir que, de los 50 días, en 14 de ellos se tuvieron 2 o menos de 2 accidentes diarios, este análisis indica también que, del total de días analizados, 7 de ellos tuvieron exactamente 2 accidentes diarios. b) Más adelante cuando efectuemos su graficación Ud. podrá visualizar con mayor claridad esta propiedad. c) También nos permite determinar rápidamente el valor de la mediana. Analizando nuestro caso, el número de observaciones es par, por lo que la mediana será el promedio de los dos valores centrales, el x n/2 y el x (n/2 + 1). . Para determinar el valor que ocupa la posición n/2 ( en este caso 50/2 =25, el x 25 , nos ubicamos en la columna correspondiente a frecuencia acumuladas y determinamos a cual de las clases le corresponde la menor frecuencia acumulada que contiene a n/2, en este caso le corresponde a la quinta clase, cuyo valor es el 4, desde la x 23 , hasta la x38 le corresponden 4, por lo tanto la Me = 4 Materia: HERRAMIENTAS MATEMÁTICAS III (ESTADÍSTICA I) Profesor: MARIO MARÍN - 14 - 2.9 FRECUENCIA DESACUMULADA Se define como frecuencia desacumulada de un valor, fds de una distribución, a la diferencia entre el número total de observaciones y su frecuencia acumulada. Es decir que para un valor cualquiera se verifica que: fdsi = n - fai Analicemos la Tabla 1.5 a la cual se le creo una nueva columna conteniendo la frecuencia desacumulada, aplicando su definición Tabla 1.5 Clase xi fi xi * fi fri fai fds 1 0 2 0 0,04 2 48 2 1 5 5 0,1 7 43 3 2 7 14 0,14 14 36 4 3 8 24 0,16 22 28 5 4 16 64 0,32 38 12 6 5 5 25 0,1 43 7 7 6 4 24 0,08 47 3 8 7 3 21 0,06 50 0 50 177 1 De la definición se desprende que: fai + fdsi = n Bien podemos decir que la frecuencia desacumulada es el complemento a n de la acumulada, es decir que para cada uno de los valores nos indica cuantos tenemos a la derecha de él. La frecuencia desacumulada del valor de x=2, nos indica que la distribución posee 36 observaciones mayores que ese valor. También podríamos valernos de este parámetro para la determinación de la mediana, dejamos para que Ud. efectúe el análisis correspondiente a esa situación Analizaremos más adelante el diagrama representativo de ambas frecuencias correspondientes a una distribución DISTRIBUCIÓN DE FRECUENCIAS PARA DATOS NOMINALES Consideremos las ventas de los distintos tipos de sabor de gaseosas realizadas en el Bar de una Universidad durante un día de concurrencia normal del alumnado. Colas Naranja Limón Tónicas Agua c/gas Agua s/gas Jugos 55 63 72 44 15 18 33 En este caso no tiene sentido determinar el valor de la media de la distribución, téngase en cuenta que las clases están dadas por los distintos tipos de bebidas, luego tiene sentido decir que la más vendidas son las bebidas de limón, siguiéndole en Materia: HERRAMIENTAS MATEMÁTICAS III (ESTADÍSTICA I) Profesor: MARIO MARÍN - 15 - importancia las de naranja, es decir el valor de tendencia central que utilizaremos en casos como estos le corresponde a la Moda. Sí sería conveniente generar una tabla de frecuencias y determinar los porcentajes de cada uno de los sabores. Tabla 1.6 xi Agua c/gas Agua s/gas Jugos Tónicas Colas Naranjas Limón fi 15 18 33 44 55 63 72 fri 0,05 0,06 0,11 0,1467 0,1833 0,21 0,24 ∑ fi = 300 fi% 5 6 11 14,67 18,33 21 24 ∑ fi% = 100 3-0 DIAGRAMAS El poder graficar los valores estadísticos nos permite realizar una lectura rápida de la distribución y sacar conclusiones inmediatas de la misma. Sería suficiente abrir una hoja de cálculo para observar la cantidad variada de gráficos con que puede ser representada una distribución: Diagramas de: Líneas, Barras, Barras acumuladas, de Sectores o circular, Diagramas x-y, de Bastones etc. En este texto haremos referencia a los diagramas: Circular, de Bastones e Histogramas y a una combinación de los gráficos de Bastones, Barras y x-y Dispersión. Ejercicio Supongamos tener para analizar las notas obtenidas por 20 alumnos de una división en la asignatura de Estadística: 9 7 6 6 6 5 3 4 5 5 8 7 8 7 7 6 5 6 4 10 Generaremos una distribución de frecuencias complementándola con: Frecuencias relativas, Frecuencia acumulada y por último Frecuencia desacumulada. Tabla 1.7 Xi fi fr i fa fds 3 1 0,05 1 19 4 2 0,1 3 17 5 4 0,2 7 13 6 5 0,25 12 8 7 4 0,2 16 4 8 2 0,1 18 2 9 1 0,05 19 1 10 1 0,05 20 0 20 1 Toda vez que se presenta una tabla tal como la 3.1, la primera pregunta que surge es, “que se debe graficar” debe de tenerse siempre en cuenta que cada vez que se Materia: HERRAMIENTAS MATEMÁTICAS III (ESTADÍSTICA I) Profesor: MARIO MARÍN - 16 - habla de graficar estamos deseando volcar en forma gráfica una cierta relación. En la presente situación, la variable en estudio es la calificación, por lo cual se podría graficar la relación: Calificación y frecuencia Calificación y frecuencia relativa Calificación y frecuencia acumulada Calificación y frecuencia desacumulada 3.1 Diagrama de bastones: Llevaremos en el eje de las abscisas las calificaciones y en el eje de las ordenadas las frecuencias y representamos mediante un segmento centrado en cada una de las calificaciones su correspondiente frecuencia; tendremos nuestro primer diagrama. Cada uno de los bastones corresponde a la frecuencia de cada calificación y toma el nombre de densidad de frecuencia entendiéndose como tal al cociente: fi dfi = ---es decir frecuencia por unidad de intervalo de clase Δx Gráfico 1.1 Diagrama de Bastones 6 frecuencia 5 4 3 2 1 0 3 4 5 6 7 8 9 10 calificaciones 3.2 DIAGRAMA DE SECTORES Para este gráfico debemos tener presente que el ángulo central del círculo es de 360º y que cada una de las clases estará dada por un sector cuyo ángulo será proporcional a su frecuencia: Supongamos la calificación de 3 cuya frecuencia es 1 tendremos que: 20 (suma de todas las frecuencias) ------------------------ 360º a 1 (frecuencia del 3) ----------------------- α1 = 360º. 1 / 20 = 18º Materia: HERRAMIENTAS MATEMÁTICAS III (ESTADÍSTICA I) Profesor: MARIO MARÍN - 17 - Analicemos la calificación del 4 cuya frecuencia es 2: Si a 20 (frecuencia total) ---------------------------- 360º A 2 (frecuencia del 4) ---------------------------- α2 = 360º. 2 /20 = 36º Repitamos el procedimiento para el 5 el cuál tiene frecuencia 4 Si a 20 le corresponde ----------------------------360º A 4 ---------------------------- α4 = 360º. 4/20 = 72º Debe tenerse en cuenta que en todos los casos la operación que nos permite determinar el ángulo de cada sector está dado por el producto entre 360º y el cociente de la frecuencia de la calificación en estudio y la suma de todas las frecuencias (N), cociente éste que según ya vimos corresponde a la frecuencia relativa (fri = f / N), es decir que el ángulo correspondiente a un determinado sector está dado por el producto entre 360º y su frecuencia relativa: αi = 360º. fri Gráfico 1.2 Diagrama de Sectores 9 10 3 4 8 5 7 6 En realidad es más interesante plantear este mismo diagrama pero expresado en porcentajes, para lo cuál el análisis es muy similar al anterior. Al total de observaciones, 20 en este caso, le corresponderá el 100% y por lo tanto para cualquiera de las observaciones con frecuencia fi le corresponde será: Si a 20 --------------------------- 100% fi --------------------------- %i = 100. fi / 20 Nuevamente nos encontramos con que el porcentaje correspondiente a cada una de las calificaciones estará dado por el producto entre 100 y la frecuencia relativa correspondiente a cada una de ellas. El gráfico tiene la misma estructura anterior. Materia: HERRAMIENTAS MATEMÁTICAS III (ESTADÍSTICA I) Profesor: MARIO MARÍN - 18 - Gráfico 1.3 Diagrama de Sectores Calificaciones en porcentajes 9 5% 10 5% 3 5% 4 10% 8 10% 5 20% 7 20% 6 25% 3.2-HISTOGRAMA DE FRECUENCIAS: Éste es otro de los diagramas de gran utilización para el cuál es necesario considerar un sistema de ejes cartesianos ortogonales, debiendo representar en el eje de las abscisas las calificaciones y en el de las ordenadas la frecuencia, las clases están dadas por las calificaciones. El intervalo entre dos clases sucesivas se denomina “amplitud de intervalo”, en este caso es la unidad y se la expresa como Δx = 1. Si consideramos el diagrama de bastones y a partir del extremo inferior de cada uno de ellos llevamos tanto a izquierda como a derecha la mitad del intervalo, en nuestro caso 1 / 2 = 0,5 y levantamos las ordenadas correspondientes, nos encontramos con un diagrama de barras sin discontinuidades al que denominaremos Histograma, en este caso de Histograma de Frecuencias. Gráfico 1.4 Materia: HERRAMIENTAS MATEMÁTICAS III (ESTADÍSTICA I) Profesor: MARIO MARÍN - 19 - Frecuencia Histograma de Frecuencias 6 5 4 3 2 1 0 0 1 2 3 4 5 6 7 8 9 10 11 Calificaciones La superficie encerrada por cada una de las barras está dada por el producto entre la base Δx por la altura que según ya vimos estaba dada por la densidad de frecuencia. dfi = fi /Δx por lo tanto: Si = Δx. dfi = Δx. fi / Δx = fi Cada una de ellas tendrá un valor igual a su frecuencia y el área total del diagrama será entonces la suma de todas las frecuencias e igual a N. ∑Si = ∑ fi = N 3.4 - POLÍGONO DE FRECUENCIAS Si se unen los puntos medios superiores de cada una de las barras del histograma y se considera cero las frecuencias de las clases adyacentes a los extremos de la distribución, se formará con el eje de las abscisas un polígono denominado, en este caso, como Polígono de Frecuencias: Gráfico 1.5. Polígono de frecuencias Materia: HERRAMIENTAS MATEMÁTICAS III (ESTADÍSTICA I) Profesor: MARIO MARÍN - 20 - 6 5 fi 4 3 2 1 0 2 3 4 5 6 7 8 9 10 11 xi El área encerrada por el polígono de frecuencias es igual al área encerrada por el histograma de frecuencias. Consideremos la barra del histograma correspondiente al valor de la variable x = 6. Observamos que mientras que la superficie del triángulo superior de la barra que pertenece al histograma no pertenece al polígono, la superficie del triángulo inferior no perteneciente al histograma si pertenece ahora al polígono, como las superficies de ambos triángulos son iguales3, lo son también las superficies del polígono y del histograma de frecuencias. 3.5 - HISTOGRAMA DE FRECUENCIAS RELATIVAS Si en el eje de ordenadas se representan a las frecuencia relativas en lugar de las frecuencias, se obtiene el Histograma de Frecuencias Relativas que tendrá las mismas características que el diagrama de frecuencias ya que fr i = fi / N, es decir que se divide a los valores de la ordenada por un valor constante N y por lo tanto gráficamente representa un cambio de escalas. En este caso la altura de cada barra esta dada por la densidad de frecuencia relativa dfri = fri / Δx y por lo tanto al igual que en el diagrama anterior, la superficie encerrada por cada una de las barras del Histograma será igual a su frecuencia relativa: Si = Δx. fri / Δx = fri De tal manera que el área encerrada por el Histograma de frecuencias relativas será ahora igual a la suma de todas las frecuencias relativas y por tal razón igual a 1: ∑ Si = ∑ fri = 1 Gráfico 1.6 3 Dos triángulos rectángulos en A y A’ con los ángulos α y α’ iguales por opuestos por el vértice, β y β’ alternos internos entre paralelas y el lado 11’ = 22’= Δx / 2 por lo tanto son iguales. Materia: HERRAMIENTAS MATEMÁTICAS III (ESTADÍSTICA I) Profesor: MARIO MARÍN - 21 - Histograma de Frecuencia Relativas 0,3 0,25 fr 0,2 0,15 0,1 0,05 0 2 3 4 5 6 7 8 9 10 11 x 3.6 – POLÍGONO DE FRECUENCIAS RELATIVAS De la misma manera en que definimos al polígono de frecuencias, se define también al polígono de frecuencias relativas. Tanto la superficie encerrada por el polígono de frecuencias relativas como el del Histograma de esas mismas frecuencias son iguales a 1. Gráfico 1.7 Materia: HERRAMIENTAS MATEMÁTICAS III (ESTADÍSTICA I) Profesor: MARIO MARÍN - 22 - Histograma y Polígono de Frecuencias Relativas 0,3 0,25 0,2 0,15 0,1 0,05 0 2 3 4 5 6 7 8 9 10 11 3.7 FRECUENCIA ACUMULADA Supongamos analizar el número de accidentes de trabajo que se producen diariamente en una empresa metalúrgica local, para lo cuál se han considerado los detectados durante los últimos veinte días. 5 4 6 3 4 5 3 7 3 4 2 0 2 1 3 4 2 5 6 1 Confeccionaremos una tabla de frecuencias: Tabla 1.8 xi fi fai 0 1 1 1 2 3 2 3 6 3 4 10 4 4 14 5 3 17 6 2 19 7 1 20 ∑fi = 20 Para confeccionar el gráfico de frecuencias acumuladas llevaremos sobre el eje de las abscisas los valores observados y en el eje de las ordenadas las frecuencias acumuladas. Para el primer valor de la distribución cero, la frecuencia acumulada vale 1, este valor se mantendrá constante hasta 1 en donde la frecuencia acumulada toma el valor de 3, se mantiene constante hasta el valor observado de 2 en donde la fa adopta el valor de Materia: HERRAMIENTAS MATEMÁTICAS III (ESTADÍSTICA I) Profesor: MARIO MARÍN - 23 - 6 y así sucesivamente hasta el valor de 7 en donde fa toma el valor de 20 y se mantiene constante con este valor. Siga esto en el gráfico 1.8. Gráfico 1.8 frecuencia acumulada FRECUENCIA ACUMULADA 22 20 18 16 14 12 10 8 6 4 2 0 0 1 2 3 4 5 6 7 8 9 OBSERVACIONES Observe el lector con que claridad este diagrama le entrega información. Por ejemplo analizando la observación 4, el punto inferior de la barra indica que menores a 4 accidentes diarios se han producido en 10 oportunidades mientras que el punto superior indica que en 14 oportunidades se han producido 4 o menos accidentes diarios. De igual manera en 17 oportunidades se produjeron menos de 6 accidentes en un día y que en solo 2 oportunidades se produjeron 6 accidentes. De igual manera podemos graficar la frecuencia desacumulada conjuntamente con la acumulada tal como lo muestra el Gráfico 1.8 denominado comúnmente como gráfico de escalones. Debe tenerse en cuenta que para cualquier valor observado la suma de la frecuencia acumulada y la desacumulada es igual al número total de observaciones. fa + fds = n Materia: HERRAMIENTAS MATEMÁTICAS III (ESTADÍSTICA I) Profesor: MARIO MARÍN - 24 - frecuencia Gráfico 1.9 22 20 18 16 14 12 10 8 6 4 2 0 Frecuencia acumulada Frecuencia desacumulada 0 1 2 3 4 5 6 7 8 9 observaciones La intersección de ambas gráficas debe de verificarse para fa = fds = n/2. En el punto de intersección ambas frecuencias son iguales por lo que podemos decir que: fa + fds = fa + fa = n por lo que 2 fa = n y fa = n / 2 RELACIÓN ENTRE MEDIA, MEDIANA Y MODA Cuando nos referimos al histograma de frecuencias relativas decíamos que el área encerrada por cada una de las barras nos entregaba el valor de la frecuencia relativa del valor correspondiente a dicha barra... Si este concepto lo extendemos a toda la distribución podemos asegurar que considerando un determinado intervalo de las observaciones el área encerrada por el histograma en dicho intervalo será igual a su frecuencia relativa, valor que según ya vimos multiplicada por 100 nos entrega el porcentaje de observaciones comprendidas en ese intervalo. Además demostramos que la superficie encerrada por el histograma de frecuencias relativas era igual a la superficie del polígono de fr. Simplificando, el área encerrada por el polígono de frecuencias relativa es igual a 1 y esto implica también que encierra el 100% de las observaciones. Analicemos las distribuciones correspondientes a las calificaciones obtenidas por tres divisiones que denominaremos como A, B y C en la asignatura de Estadística: Materia: HERRAMIENTAS MATEMÁTICAS III (ESTADÍSTICA I) Profesor: MARIO MARÍN - 25 - Tabla 1.9 A B C xi fi fi fi 1 6 0 0 2 8 1 0 3 5 2 1 4 4 4 1 5 3 5 2 6 2 6 4 7 1 5 5 8 1 4 7 9 0 2 5 10 0 1 2 30 30 27 Las tres distribuciones tienen características distintas, veamos: A) µ =.∑ (xi.fi) / N = 3,1667 Me = (x15 + x16) / 2 = 3 Mo = 2 B) µ =.∑ (xi.fi) / N = 6 Me = x16 = 6 C) Mo = 6 µ = ∑ (xi.fi) / N = 7,296 Me = x14 = 8 Mo = 8 Si graficamos los histogramas y polígonos de las frecuencias relativas de cada una de las distribuciones relativas suavizando convenientemente los lados del polígono, nos encontraremos con los siguientes gráficos: Materia: HERRAMIENTAS MATEMÁTICAS III (ESTADÍSTICA I) Profesor: MARIO MARÍN - 26 - Gráfico 1.10 (División A) frecuencia relativa Histograma y polígono de frecuencias relativas 0,3 0,25 0,2 0,15 0,1 0,05 0 1 2 3 4 5 6 7 8 9 10 observaciones Grafico 1.11 (División B) Histograma y polígono de frecuencias relativas 0,25 0,2 0,15 0,1 0,05 0 1 2 3 4 5 6 7 8 9 10 11 obs e r vacione s Grafico 1.12 (División C) Histograma y polígono de frecuencias relativas 0,3 0,25 0,2 0,15 0,1 0,05 0 1 2 3 4 5 6 7 8 9 10 11 observaciones Materia: HERRAMIENTAS MATEMÁTICAS III (ESTADÍSTICA I) Profesor: MARIO MARÍN - 27 - En el caso de la división B se observa una cierta simetría respecto a un eje vertical coincidente con la mediana la moda y la media, decimos entonces que la distribución es del tipo Normal, y que en ese caso coinciden los tres valores µ; Me y Mo. En el A la distribución se presenta en forma asimétrica y en este caso decimos que corresponde a una asimétrica derecha asignándosele un signo positivo. A su vez, la observación de mayor ordenada le corresponderá a la moda y la media tendrá que dividir al área total en dos áreas iguales, de acuerdo a su gráfica y a sus valores se observa que la media tiene un valor mayor a la mediana y que a su vez ésta se ubica entre la media y la moda. Al analizar la última distribución C observamos que la misma es asimétrica, tiene sesgo izquierdo y se le asigna signo negativo. Nuevamente la moda queda definida por correspóndele a la abscisa de mayor ordenada, la mediana Me si bien en este caso coincidiría con el valor de la moda, la media se ubica a la izquierda de la moda, no olvidemos que la distribución pivotea en ese punto . La mediana se ubica en general entre la media y la moda aunque en este caso por tratar con variable discreta, la Me coincide con la Mo. En toda distribución sesgada ya sea a la derecha o a la izquierda, el segmento comprendido por la media y la mediana es aproximadamente un tercio del segmento comprendida entre la media y la moda. Una distribución puede ser: Simétrica Distribución µ = Me = Mo Derecha µ < Me < = Mo Asimétrica Izquierda µ > Me > = Mo 3.2 DISTRIBUCIÓN DE INTERVALOS DE CLASE En una unidad militar de entrenamiento para futuros oficiales, se han determinado los tiempos que tardan los integrantes de un pelotón en cruzar la pista de combate. Estos valores expresados en minutos son los siguientes: 3,1 3,4 3,6 3,6 3,6 3,7 3,7 3,8 3,8 3,9 3,9 4 4 4,1 4,2 4,2 4,3 4,3 4, 4,5 4,6 El jefe de pelotón necesita realizar un estudio estadístico sobre estos tiempos a los efectos de determinar: a- Qué proporción de hombres tardan menos de 3,5’ en cruzar la pista de combate b- Qué proporción de los hombres del pelotón tardan menos de 4’ en cruzar la pista En casos como el presentado, donde el número de observaciones es mayor a 20 y la variable en estudio es del tipo continua, se hace necesario definir como clases a intervalos y determinar como frecuencia de cada uno de ellos al número de observaciones que contienen. En este caso la distribución toma el nombre de distribución de intervalos de clase. Para generar una distribución de intervalos de clase debe tener en cuenta: a) La cantidad de intervalos: La determinación del número de intervalos, a los que llamaremos como k está relacionada con el número de observaciones n. Mientras que algunos operadores definen: Materia: HERRAMIENTAS MATEMÁTICAS III (ESTADÍSTICA I) Profesor: MARIO MARÍN - 28 - k= n Otros deciden optar por la expresión: k = 1+ log2(n) Pero en general se puede definir el valor de k teniendo en cuenta que: 5 <= k <= 15 Es decir que el número de intervalos debe estar comprendido entre 5 y 15. Una cantidad menor de intervalos da lugar a una distribución con información insuficiente. Por otro lado una cantidad mayor a 15 intervalos genera una distribución que resulta engorroso operar. Para el caso que tenemos en estudio y teniendo en cuenta que n = 21, la raíz cuadrada de 21 es de 4,58 y considerando la última condición, adoptaremos para k el valor de 5, k = 5. b) La amplitud de intervalo Δ x para la cuál adoptaremos la expresión: Δx = xN −x1 k Para nuestro caso: Δx = 4,6 −3,1 = 0,3 5 c) No puede haber un intervalo con frecuencia cero, si esa situación se presentare, será necesario modificar la cantidad de intervalos o la amplitud de intervalo. d) Al definir los límites de los intervalos debe tenerse en cuenta la posibilidad que uno de ellos puede ser cerrado y el otro abierto: e) Es conveniente que todos los intervalos tengan el mismo tamaño y cuando esto no sea posible, los intervalos de diferente amplitud deben ubicarse en los extremos f) No es conveniente que las observaciones coincidan con los límites de los intervalos, de esta manera desaparece la duda en cuanto a la pertenencia de una observación a un intervalo o a su adyacente. En este caso particular, teniendo en cuenta que todas las observaciones tienen un solo decimal, y que el menor es 3,1, adoptaremos como inicio de la distribución el valor de 3,09, de esta manera nos aseguramos que la primera observación quede contenida en el primer intervalo, y además como la amplitud de intervalo es de 0,3, en ningún caso una observación coincidirá con los límites. 3,09 3,39 3,69 3,99 4,29 4,6 [`---------------)[--------------)[-----------------)[-----------------)[--------------------] Materia: HERRAMIENTAS MATEMÁTICAS III (ESTADÍSTICA I) Profesor: MARIO MARÍN - 29 - Podemos ahora confeccionar la tabla de distribución de intervalos de clase, teniendo en cuenta que, a los efectos de referenciar a cada intervalo, definiremos al punto medio de cada uno de ellos como el valor representativo e igual a la semisuma de sus límites, toma el nombre de marca de clase y se lo denota como x mi. 3,09 3,39 3,69 3,99 4,29 4,6 [`---------------)[--------------)[-----------------)[-----------------)[-------------------] 3,24 3.2 3,54 3,84 3,14 3,44 DETERMINACIÓN DE LA MEDIA Para determinar la media de la distribución consideramos que todos los valores pertenecientes a cada intervalo están uniformemente distribuidos en dicho intervalo, de esta manera la suma de todos ellos estará dada por el producto entre la marca de clase por la frecuencia de ese intervalo. µ= ∑ ( x * fi ) mi N Para su determinación creamos una nueva columna conteniendo los productos de xmi*fi: Tabla 1.10 Li 3,09 3,39 3,69 3,99 4,29 µ= ls 3,39 3,69 3,99 4,29 4,6 fi 1 4 6 5 5 21 xmi 3,24 3,54 3,84 4,14 4,445 xmi * fi 3,24 14,16 23,04 20,7 22,225 83,365 83,365 = 3,9697’ 21 Esto nos indica que el tiempo promedio empleado por los integrantes del pelotón para cruzar la pista de combate es de 3,9697’ HISTOGRAMA DE FRECUENCIA Para confeccionar el Histograma y Polígono de frecuencias debemos tener presente que las frecuencias de los intervalos adyacentes a los extremos de nuestra distribución son nulas, además se representa en el eje horizontal las marcas de clase. Materia: HERRAMIENTAS MATEMÁTICAS III (ESTADÍSTICA I) Profesor: MARIO MARÍN - 30 - Gráfico 1.13 7 6 5 f 4 3 2 1 0 2,94 3,24 3,54 3,84 4,14 4,445 4,74 x 3.3 DETERMINACIÓN DE LA MEDIANA La mediana tendrá que estar ubicada en el intervalo cuya menor frecuencia acumulada contiene a la observación X (n/2), es por lo tanto conveniente determinar las columnas que contengan a las frecuencias acumuladas y desacumuladas. Li 2,79 3,09 3,39 3,69 3,99 4,29 4,6 ls 3,09 3,39 3,69 3,99 4,29 4,6 4,39 Tabla 1. 11 fi xmi 0 2,94 1 3,24 4 3,54 6 3,84 5 4,14 5 4,445 0 4,74 Xmi * fi 0 3,24 14,16 23,04 20,7 22,225 0 fai 0 1 5 11 16 21 21 fdsi 21 20 16 10 5 0 0 De acuerdo a la tabla, la mediana se ubica en el intervalo [3,69 ; 3,99) al que denominaremos intervalo medial, y para el cuál la frecuencia acumulada es de 11 y por lo tanto contiene a los valores correspondientes a x 10 y x11, pero faltaría determinar el valor que más se aproxime al real. Para la determinación de la mediana en una distribución de intervalos de clase tendremos dos métodos: a) Método gráfico Tracemos los diagramas correspondientes a la frecuencia acumulada: Materia: HERRAMIENTAS MATEMÁTICAS III (ESTADÍSTICA I) Profesor: MARIO MARÍN - 31 - Analizando dicho diagrama podemos observar que de los 21 integrantes del pelotón solo 5 de ellos cruzan la pista en menos de 3,54’, es decir que, mediante análisis del diagrama podemos reconstruir la tabla. Gráfico 1.14 25 20 fa 15 10 5 0 2,94 3,24 3,54 3,84 4,14 4,445 4,74 x Combinemos en un mismo diagrama, las representaciones de frecuencia acumulada y desacumulada. Este gráfico toma el nombre de Ojiva. Gráfico 1.15 25 20 fa - fds 15 10 5 0 2 2,5 3 3,5 4 4,5 5 -5 x Como ambas frecuencias se representan en el eje vertical, en el punto intersección ambas son iguales y como su suma Fa + frds = N Materia: HERRAMIENTAS MATEMÁTICAS III (ESTADÍSTICA I) Profesor: MARIO MARÍN - 32 - Debe verificarse que el valor de esas frecuencias, en ese punto es igual a N/2. Como la mediana es el valor que ocupa el punto medio, la abscisa correspondiente al punto intersección tendrá su valor. Por lo tanto las coordenadas del punto intersección serán (Me; n/2). b) Método Analítico Analizaremos el intervalo medial: Gráfico 1.16 12 12 10 10 8 6 4 2 0 3 ,69 3,69 3, 99 Me 3,99 Δx Li Ls Al iniciar el intervalo 3,69 su frecuencia acumulada tiene el valor de 5 (que denominaremos frecuencia acumulada inferior y la denotaremos como fai). De la misma manera al finalizar ese intervalo (x = 3,69) su frecuencia acumulada es de 11 (a la denominaremos frecuencia acumulada superior y la denotaremos como fas). Esa variación de frecuencia acumulada de 5 a 11 es justamente la frecuencia correspondiente al intervalo medial (fm = 6). Además como el total de observaciones es de 21, N/2 = 10,5. Consideremos los triángulos 123 y 12’3’ ambos rectángulos en 2 y 2’ respectivamente. Esos triángulos son semejantes y por lo tanto sus lados homólogos son proporcionales. 2–3 ---------- = 2’ – 3’ 1-2 ------------1 – 2’ Si reemplazamos tendremos: fm Δx Materia: HERRAMIENTAS MATEMÁTICAS III (ESTADÍSTICA I) Profesor: MARIO MARÍN - 33 - ------ ------(N/2 – fai) = --------Me –Li Despejando Me tendremos: Δx (N/2 – fai) Me = Li + ----------------fm En este caso particular, la Me = 3,69 + 0,3 *((10,5 - 5) / 6 Me = 3,965’ 3.4- DETERMINACIÓN DE LA MODA Se define como intervalo modal al intervalo de mayor frecuencia, en este caso corresponderá a [3,69; 3,99) con frecuencia 6, coincide con el medial, pero bien podría no coincidir, para la determinación de la moda, consideremos en el histograma de frecuencia, el intervalo modal y los intervalos adyacentes. Gráfico 1.17 7 6 5 f 4 3 2 1 0 3,54 3,84 4,14 x Li Ls Si definimos a d1 = (frecuencia del intervalo modal) – (frecuencia del intervalo que le antecede): di = 6-4 = 2 y como d2 = (frecuencia del intervalo modal) – (menos la frecuencia del intervalo que le sucede): d2 = 6-5 = 1 Como li se define al inicio del intervalo modal (3,69), el valor de la moda de una distribución de intervalos de clase esta dada por la expresión: Materia: HERRAMIENTAS MATEMÁTICAS III (ESTADÍSTICA I) Profesor: MARIO MARÍN - 34 - Mo = Li + Δx. ( d1/(d1+d2) ) En este caso tendremos: Mo = 3,69 + 0,3 (2 / ( 2+1) ) = 3,89’ Conclusiones: En una distribución de intervalos de clase, la moda se encuentra siempre ubicada en el intervalo modal, pero desplazada hacia el intervalo adyacente de mayor frecuencia. Los valores determinados para la media, mediana y moda, indican que la distribución tiene un leve sesgo derecho: µ = 3,9697’ Media Mediana Moda Me = 3,965’ Mo = 3,89’ µ > Me > Mo 4- VALORES DE DISPERSIÓN ¿Son suficientes los valores de posición central para determinar las características de una distribución? Para responder a esta pregunta observemos la siguiente situación: Tenemos tres distribuciones que presenten la misma media, la misma moda y la misma mediana pero no obstante ello las tres son distintas. Pueden tenerse dos distribuciones mismo número de elementos o también conformadas por los mismos elementos y no obstante ello ambas son distintas. Tabla 1. 12 X1 0 1 2 3 4 5 6 7 8 F1 0 3 4 7 5 4 2 1 0 26 X2 0 1 2 3 4 5 6 7 8 F2 0 6 8 4 3 2 2 1 0 26 Materia: HERRAMIENTAS MATEMÁTICAS III (ESTADÍSTICA I) Profesor: MARIO MARÍN - 35 - Gráfico 1.19 8 7 6 5 4 3 2 1 0 0 2 4 6 8 10 Gráfico 1.20 9 8 7 6 5 4 3 2 1 0 0 1 2 3 4 5 6 7 8 9 Es necesario entonces considerar valores que nos determinen que tán cuan dispersos están. Estos valores se denominan valores de dispersión: 4.1 RANGO O AMPLITUD Definición La diferencia entre los valores extremos de una distribución se denomina Alcance o Rango y se lo denota como R Si definimos a xn como el mayor valor observado y a x1 como el más pequeño, entonces: R = xn – x1 Materia: HERRAMIENTAS MATEMÁTICAS III (ESTADÍSTICA I) Profesor: MARIO MARÍN - 36 - Si bien, una vez ordenados todos los valores, el cálculo de la amplitud o recorrido es simple e inmediata, no nos brinda ninguna información sobre las características de los valores intermedios. Veamos las siguientes distribuciones: A) 0 1 1 2 4 6 8 10 12 14 B) 50 50,1 50,2 50,3 50,5 50,6 50,7 50,8 60 64 En la distribución A R = 14 – 0 = 14 En la distribución B R = 64 – 50 = 14 Ambas tienen el mismo número de elementos, el mismo alcance, no obstante ello son distintas, es decir que el Rango o Amplitud de una distribución nos entrega una información limitada. 4.2 DESVÍO MEDIO Para determinar el grado de dispersión de los valores de la distribución, debemos definir con respecto a que punto de referencia se toman las distancias, el punto de referencia más utilizado es la media de la de la distribución Considerando el ejercicio de pag. 39 (Los tiempos que los integrantes de un pelotón tardan en cruzar la pista de combate), la distribución de intervalos la representábamos como: 3,09 3,39 3,69 3,99 4,29 [`---------------)[--------------)[-----------------)[-----------------)[-------------------] 3,24 3,54 3,84 3,14 3,44 4,6 d1 µ = 3,9697 d2 En el primer intervalo se encuentra una sola observación, la cuál consideramos coincidente con la marca de clase, luego su distancia respecto a la media será: es d1 = xm1 - µ La dispersión de los valores ubicados en el segundo intervalo, en este caso son 4 y habiendo considerado que los mismos se encuentran uniformemente distribuidos en dicho intervalo, la dispersión respecto a la media estará dada por el producto de la distancia de la marca de clase por el número de observaciones d2 = xm2 - µ Materia: HERRAMIENTAS MATEMÁTICAS III (ESTADÍSTICA I) Profesor: MARIO MARÍN - 37 - Podríamos intentar considerar como un valor representativo de la dispersión de los valores respecto a la media, al promedio de los desvíos medios: pdm = ∑ ( x − µ ). fi mi N Pero nos encontramos con que la suma de todos los desvíos es nula y siempre lo serán por considerar como punto de referencia a la media. Todas las distancias de las marcas de clase que se ubiquen a la izquierda de la media serán negativas, mientras que las distancias de los que se ubiquen a la derecha serán positivas. El problema radica en anular los signos negativos, para ello podemos: a) considerar los desvíos absolutos medios, de esta manera no se tendría ningún desvío negativo y la suma de los desvíos absolutos medios sería distinta de cero, salvo el caso en que todas las observaciones sean iguales. La expresión matemática quedaría como: DM = ∑ x − µ . fi mi N Esta expresión se define como Desvío medio (Promedio de los desvíos absolutos medios). En nuestro caso en estudio conformaremos la tabla correspondiente a la distribución de intervalos pero incluiremos una nueva columna conteniendo los desvíos absolutos medias. Tabla 1. 13 Li ls fi xmi Xmi * fi fai fdsi !xi - media!.fi 2,79 0 0 2,94 0 0 21 0,000 3,09 3,39 1 3,24 3,24 1 20 0,730 3,39 3,69 4 3,54 14,16 5 16 1,719 3,69 3,99 6 3,84 23,04 11 10 0,779 3,99 4,29 5 4,14 20,7 16 5 0,851 4,29 4,6 5 4,445 22,225 21 0 2,376 4,6 4,99 0 4,74 0 21 0 0,000 21 83,365 6,455 Aplicando la fórmula correspondiente, el desvío medio será: 6,455 DM = -----------------21 DM = 0,3074’ Materia: HERRAMIENTAS MATEMÁTICAS III (ESTADÍSTICA I) Profesor: MARIO MARÍN - 38 - 4.3 VARIANZA Otra forma de obtener todos los desvíos positivos, sería elevándolos al cuadrado es decir: ∑ (x − µ ) . f pdmc = 2 mi i N Esta expresión que definimos como: el promedio de los desvíos cuadráticos medios y se denomina Varianza. Es conveniente entonces considerar una nueva columna conteniendo la suma de los desvíos cuadráticos medios tal como la tabla: Tabla 1. 14 Li ls fi xmi 2,79 0 0 3,09 3,39 1 3,39 3,69 3,69 3,99 2 Xmi * fi fai fdsi 2,94 0 0 21 0,000 0 3,24 3,24 1 20 0,730 0,53255244 4 3,54 14,16 5 16 1,719 0,73878118 3,99 6 3,84 23,04 11 10 0,779 0,10102891 4,29 5 4,14 20,7 16 5 0,851 0,14490505 4,29 4,6 5 4,445 22,225 21 0 2,376 1,12925624 4,6 4,99 0 4,74 0 21 0 0,000 21 83,365 !xi -media!.fi (xi-media) .fi 6,455 0 2,647 Var(x) =2,647 / 21 = 0,126 minutos al cuadrado También se la denota como: σ 2 = 0,126 min utoscuadrados 4.4 DESVIACIÓN ESTANDAR La Varianza es un valor que determina un cierto grado de dispersión, pero en relación a lo que nosotros buscábamos, nos encontramos con que no tenemos el promedio de los desvíos medios, si no que contamos con el promedio de los desvíos cuadráticos medios. Una aproximación estaría obteniendo la raíz cuadrada de la varianza: ( xi −µ ) fi σ = ∑ 2 N O abreviando σ = Var ( x) = σ = 0,126 = 0,3549’ Materia: HERRAMIENTAS MATEMÁTICAS III (ESTADÍSTICA I) Profesor: MARIO MARÍN - 39 - frecuencia Definimos a la desviación estándar como la raíz cuadrada de la varianza y prácticamente entrega el grado de dispersión de los valores de una distribución con respecto a la media. Para dos distribuciones con la misma media, tendrá más dispersión aquella que tiene una mayor desviación estándar, tal como lo indica la gráfica Gráfico 1.21 Desvío estándar = 2 Desvío estándar =0,5 Desvío estándar =1 x 4.4 COEFICIENTE DE VARIACIÓN En muchas oportunidades es conveniente comparar distribuciones de distinta media o de distinto tipo, por ejemplo si analizamos alturas y peso de los alumnos de un curso de una Universidad, los valores de posición central y de dispersión de una de ellas estarán dados en metros o centímetros, pero los de la otra serán en Kg. , luego en principio sería incorrecto pretender comparar las dispersiones de esas distribuciones, a fin de poder comparar se opera con el Coeficiente de Variación, que esta dado por el cociente entre el desviación estándar de la distribución y su media, expresada de manera porcentual: CV = σ µ . 100% Como tanto la desviación estándar y la media tienen las mismas unidades, al dividirlas se simplifican y nos queda un coeficiente, es adimensional. Por otra parte el CV entrega la proporción de la desviación estándar respecto de la media. En el caso que nos ocupa el: CV = 0,3549 3,9697' .100 = 8,94 CV = 8,94% Supongamos que se realiza el estudio de altura y peso de los alumnos de un curso, y que los resultados arrojados son: Materia: HERRAMIENTAS MATEMÁTICAS III (ESTADÍSTICA I) Profesor: MARIO MARÍN - 40 - Desviación estándar Del Peso Altura σ = 10Kg Media 71 k.o. CV 14,08% σ = 6cm 168 cm 3,57% Estos últimos valores del CV indican que, la distribución correspondiente a la altura tiene menos dispersión que la correspondiente a los pesos. 4.5 CUARTILES Y PERCENTILES En muchas ocasiones es necesario contar con una subdivisión de los datos en determinadas fracciones, llamados en de manera general como fractiles. De esta manera una fracción o proporción de datos caen en un fractil o por debajo de éste. De acuerdo al número de subdivisiones los fractiles toman un nombre determinado, así estas pueden ser: a) en 10 partes. En este caso cada una de esas partes toman el nombre de decil b) en cuatro partes: En ese caso cada una de ellas toma el nombre de cuartil c) en cambio si la subdivisión es en 100 partes, se la denomina a cada una de ella como centil. El alcance interfractil, dada por la diferencia entre dos fractiles constituye una medida de dispersión entre ellos. En general los fractiles más utilizados lo constituyen los cuartiles y percentiles. Subdividir a los datos en cuatro fractiles implica que el 50% de los datos están por debajo del segundo cuartil y el 75% de las observaciones están por debajo del tercer cuartil, representados gráficamente implica: X1 Q1 Q2 Q3 Xn Una cuarta parte de las observaciones se encuentran por debajo de Q1, como que también ½ están por debajo de Q2. Entre Q3 y Q1 se concentra el 50% de las observaciones. Es necesario aclarar que Q1 como Q2 y Q3 son los puntos fractiles, por debajo de cada uno de ellos se encuentran los porcentajes los correspondientes porcentajes de datos. Cuando el número de valores no es lo suficientemente grande la determinación exacta de los cuartiles puede ser complicada, ya que es factible que el valor del cuartil quede entre observaciones, de cualquier manera en general podemos decir que la determinación de cada cuartil quede satisfecha con las expresiones: La determinación de los cuartiles para datos no agrupados están dadas por las expresiones: Q1 = X (1 / 4 N +1 / 4) Q2 = X (1 / 2 N +1 / 2) Q3 = X (3 / 4 N +1 / 4) Observe que el valor del segundo cuartil corresponde al valor de la mediana. Si recordamos que, el área encerrada por el polígono de frecuencias era igual al número Materia: HERRAMIENTAS MATEMÁTICAS III (ESTADÍSTICA I) Profesor: MARIO MARÍN - 41 - de observaciones, sería lógico suponer entonces que en un diagrama correspondiente al polígono de frecuencias suavizado, las superficies encerradas por dicho diagrama serán proporcionales al número de observaciones correspondientes a la misma. Con este concepto definimos los cuartiles gráficamente según gráfico 1.22. Gráfico 1.22 Q1 Q2 Q3 Se define como Rango Intercuartil o propagación media a la diferencia: R I = Q3 – Q1 Percentiles: De la misma manera en que la distribución en estudio la podemos dividir en cuatro partes, en el caso de hacerlo en 100 cada una de ellos tomará el nombre de percentil, un percentil z cualquiera es un valor tal que z por ciento de las observaciones quedan a su izquierda mientras que (100 - z) porcientos de los valores quedan a su derecha. El percentil 80 está dejando a su izquierda el 80% de los valores de la distribución, es decir todos aquellos menores a el, y por lo tanto el 20% de la distribución lo superan, es decir quedan a su derecha. Gráfico 1.23 fdp xi µ 80 Materia: HERRAMIENTAS MATEMÁTICAS III (ESTADÍSTICA I) Profesor: MARIO MARÍN - 42 - 4.6 REGLA EMPÍRICA Según vimos en el punto anterior, dada una distribución, el valor de su desviación estándar nos indica el grado de dispersión de sus valores con respecto a la media, pero es en realidad la Regla Empírica, quien relaciona a los dos parámetros : µ y σ con el siguiente enunciado: En el intervalo centrado en la media y tal que su origen izquierdo esté dado por la media menos un desviación estándar y el derecho por la media más un desviación estándar, se agrupa el 68 % de los valores de la distribución; En el intervalo comprendido por la media menos dos desviaciones estándar y más dos desviacioness se ubica el 95% de los valores de la distribución, por último en el intervalo comprendido por la media menos tres desviaciones estándar y la media más tres desvíos estándar se tendrá el 99,7% de N (suele considerarse en muchas oportunidades en este intervalo el 100% de N). Debe de tener en cuenta que, entre el inicio de la gráfica y su fin, se encuentran ubicados todos los valores de la distribución N. Gráfico 1.24 fdp µ - 3σ µ - 2σ µ -1σ µ µ+1σ µ+2σ µ+3σ xi 68% N 95%N 99,72% N Resumen Regla Empírica ( µ ± 1σ ) se tiene el 68% de N ( µ ± 2σ ) se tiene el 95% de N ( µ ± 3σ ) se concentra el 100% de N Materia: HERRAMIENTAS MATEMÁTICAS III (ESTADÍSTICA I) Profesor: MARIO MARÍN - 43 -