UNIVERSIDAD NACIONAL DE FORMOSA FACULTAD DE RECURSOS NATURALES FACULTAD DE HUMANIDADES ESTADÍSTICA Y BIOMETRÍA NOTAS DE CATEDRA PROFESORA TITULAR: ING. INÉS GONZÁLEZ DE RUBIANO Versión corregida y aumentada en el AÑO 2008 CONCEPTO DE ESTADÍSTICA Y BIOMETRÍA Se define la biometría, bioestadística o estadística biológica, como también se la llama, como “la aplicación de métodos estadísticos a la solución de problemas biológicos”. No se puede comprender bien la definición de biometría sin definir previamente la “estadística”. Como las definiciones que se pueden encontrar son muchas, nosotros utilizaremos una de éstas que entendemos nos será mas útil para los fines de la cátedra. Podemos entonces decir que entendemos por estadística a la “técnica o método que se utiliza para recopilar, organizar, presentar, analizar e interpretar información numérica, con la finalidad de extraer conclusiones útiles que sirvan para tomar decisiones lógicas. Esto a partir de todo el conjunto o del conocimiento de una parte del mismo”. Esta definición de estadística nos lleva a hacer dos consideraciones: 1º- éste concepto no se compadece con el que normalmente se tiene en el uso cotidiano del término. Comúnmente, al hablar de estadística, se quiere hacer referencia a uno o más números referidos a determinados fenómenos. Así oímos hablar de las “estadísticas” de lluvia caída durante un determinado período, importación o exportación de ganado o muebles, sobre analfabetismo, deserción escolar, problemas de conducta, etc. etc. En todos estos casos, de lo que se está hablando en realidad, es de los datos estadísticos referidos a cada uno de éstos temas, o sea magnitudes numéricas asociadas a cada uno de ellos. De acuerdo a la definición que adoptamos, la estadística es una técnica o un método que aplicaremos al estudio de los datos estadísticos, que no han a ser considerados en forma aislada, sino dentro de un contexto que posibilite efectuar comparaciones y plantear relaciones 2º- otro aspecto que debemos señalar es la distinción entre las dos grandes partes de la estadística: la descriptiva y la inferencial. Para la primera el propósito central es mostrar las características de un determinado fenómeno que ha ocurrido y cuyo comportamiento conocemos, como por ejemplo las ventas de un determinado establecimiento foresto-industrial o ganadero en un año determinado, o los alumnos matriculados en determinado nivel y período de tiempo en la provincia de Formosa. La estadística inferencial nos permite proyectar los resultados obtenidos en una muestra a toda la población representada por esa muestra, pudiendo medir la confianza de la generalización, en términos de probabilidad. La inferencia nos permite además, formular conjeturas o predicciones acerca de las características de un fenómeno que se producirá en el futuro, o que habiéndose presentado en el pasado desconocemos su actual comportamiento. Si todas las investigaciones fueran posibles de efectuarse observando o recogiendo informaciones de todos los elementos que componen una población, el método estadístico se reduciría fundamentalmente a la Estadística Descriptiva. Pero en la investigación en general muy rara vez se puede estudiar a todos los miembros de la población, sea por razones de tiempo, de costo o de simple imposibilidad física, la mayoría de las investigaciones tiene que limitarse a las observaciones o experimentación en muestras. De allí que debamos recurrir a la Estadística Inferencial. Ya que hemos utilizado los términos de población y muestra, los vamos a definir diciendo que llamamos: POBLACIÓN: al conjunto de individuos u objetos en los cuales un investigador está interesado. MUESTRA: conjunto de individuos u objetos que componen una parte representativa de la población. La población puede ser finita o infinita. Una población finita es aquella que puede ser físicamente listada. Una población puede ser definida como los alumnos regulares de la Universidad Nacional de Formosa y, en ese caso, pueden ser listados e individualizados todos los elementos que constituyen la población. Pero en la investigación científica, muchas veces la población es considerada infinita a causa de la imposibilidad física de listar todos sus elementos. Así, si se considera la población de eucaliptus de un determinado radio o la población de un cierto insecto que ataca a los animales, o los alumnos con problemas de adaptación escolar, etc., todas son ejemplos de poblaciones infinitas y, por lo tanto hipotéticas. Luego la población infinita es aquella que en la práctica no puede ser físicamente listada. Las medidas que se calculan teniendo en cuenta todos los elementos que componen una cierta población, se denominan parámetros poblacionales. Un estadístico muestral, en cambio, es una medida que se calcula teniendo en cuenta solamente los elementos que integran una muestra determinada. Insistimos entonces que la muestra es una parte representativa de la población. El estadístico muestral nos sirve, pues es la única información con la que contaremos para decir algo acerca de todos los elementos de la población, utilizando las herramientas que nos brinda la estadística inferencial. BREVE RESEÑA HISTÓRICA El origen de la palabra “estadística” tiene que ver con la administración de los estados, que exigía la recopilación y el análisis de datos relativos a la población y a la riqueza, para los fines de la guerra y de las finanzas. Con el tiempo fueron obteniéndose datos para otros usos del gobierno. La teoría de probabilidad fue desarrollada a pedido de los nobles franceses y tenía que ver con los juegos de azar. Las tasas y seguros motivaron que la gente llegara a interesarse en problemas de censos, longevidad y mortalidad. Se cree que el primer personaje importante en bioestadística fue Adolphe Quetelet (1796-1874), astrónomo y matemático belga, que en su trabajo combinaba los métodos teóricos y prácticos de estadística y los aplicaba a problemas de biología, medicina y sociología. A Francis Galton (1822-1911), primo de Charles Darwin, se le denominó padre de la bioestadística y eugenesia, dos materias que estudió interrelacionadamente. Lo imperfecto de las teorías genéticas de Darwin estimuló a Galton a intentar resolver los problemas de herencia. La mayor contribución de Galton a la biología es su aplicación de la metodología estadística al análisis de la variación biológica, así como el análisis de variabilidad y su estudio de regresión y correlación en medidas biológicas. A Weldon se le ha atribuido incidentalmente la creación del término biometría para el tipo de estudios a que se dedicaba. En éste siglo la figura dominante en estadística y biometría ha sido Ronald A. Fisher (1890-1962). En la actualidad la estadística posee un campo amplio, cuyas aplicaciones conciernen a casi todas las ciencias e incluso a aquellas que parecen alejadas de los números como son los estudios de humanidades. ETAPAS DEL MÉTODO ESTADÍSTICO Cuando definimos estadística, mencionamos las etapas del método estadístico que son: • • • • • Recopilación Organización Presentación Análisis Interpretación Recopilación: consiste en la captación de los datos estadísticos. Puede ser interna o externa. Es interna cuando se realiza dentro del ente que la va a utilizar. Por ejemplo los datos de las ventas de un establecimiento se recogen internamente, son de la propia empresa o establecimiento. Es externa cuando los datos provienen de afuera del ente, ya sea porque las tomamos de alguna publicación o porque se captan directamente mediante una encuesta o censo. Como ejemplo tenemos los datos sobre la población total de nuestro país que la podemos obtener de las publicaciones censales. En cuanto a la periodicidad de la recolección puede ser: Permanente: Continua: por medio de registros diarios. Periódica: por ejemplo los censos de población que se realizan cada diez años, o la encuesta permanente de hogares que se realiza cada tres meses. No permanente: está referida a estudios especiales, que pueden utilizar las encuestas o los censos para la obtención de los datos. Organización: esta etapa comprende dos operaciones importantes que deben llevarse a cabo una vez finalizada la recopilación. La primera es la corrección de los datos, que resulta sumamente importante, particularmente en los casos de encuestas. Consiste en la eliminación de las inconsistencias internas de algunos datos o el completamiento de otros. Por ejemplo si en una encuesta que estamos realizando en el año 2000 figura una pregunta sobre el año de nacimiento del encuestado, y por otro lado figura otra que solicita la edad, habrá que verificar la coherencia en la respuesta entre ambas. Si no existe esta coherencia habrá que subsanarla tratando de conseguir el dato cierto o bien deducir la edad correcta sobre la base de algunos indicios que puedan surgir de otros aspectos de la información del cuestionario. Durante la organización también se realiza la clasificación de los datos, que consiste en establecer cuales son los aspectos relevantes que vamos a tener en cuenta para la tabulación y presentación. Pueden tener en cuenta aspectos temporales, (fechas, períodos), aspectos cuantitativos, (ingresos, edad, etc.), aspectos cualitativos, (nivel de instrucción, nacionalidad, religión, etc.). En realidad esta tarea se realiza normalmente antes de finalizada la recopilación, porque forma parte de la programación previa del operativo y de sus objetivos. Presentación: ya sea para uso propio o para el ajeno, los datos deben presentarse en forma adecuada. Pueden utilizarse tres formas: textual, tabular, semi-tabular y gráfica. Estas formas de presentación no son excluyentes entre sí, pudiendo en una misma presentación, emplear mas de una de ellas. En la forma textual se expresan los resultados a través de enunciados o textos escritos. Entre las ventajas de ésta forma de presentación se puede mencionar que permite dirigir la atención hacia determinadas cifras haciéndolas resaltar. Como desventaja mencionamos que solo se puede utilizar cuando los datos a representar son pocos, ya que es necesario leer o por lo menos registrar el párrafo antes de que se pueda comprender el significado de todo el conjunto de cifras. También resulta difícil aislar inmediatamente las cifras individuales del texto. La presentación tabular es la que hace uso de cuadros o tablas estadísticas. Es superior al uso de los textos porque es más breve, puesto que los encabezados de las columnas y el título de cada renglón eliminan la necesidad de repetir explicaciones. Además la disposición en filas y columnas de las cifras hace que el cuadro sea claro y fácil de leer. También facilita las comparaciones. La presentación semi-tabular es una combinación de las dos anteriores. La gráfica es otra forma de presentar los datos, no excluyente con respecto a los cuadros. Entre las ventajas podemos mencionar que es más atractiva y más sencilla de interpretar. Además son más eficaces para llamar la atención sobre algún dato que interese particularmente. Dan rápida idea de la situación general. Como desventaja de ésta presentación podemos mencionar que solo se puede presentar una cantidad limitada de información y que solo permite presentar valores aproximados o sea que se pierde precisión con respecto al cuadro. VARIABLE Al observar la realidad notamos la enorme cantidad de distinciones sensibles que podemos establecer en ella. Por ejemplo, la altura, el diámetro, la edad, el sexo, la conducta, el tamaño, etc. Definimos como variable a la propiedad con respecto a la cual los objetos de estudio difieren entre sí de algún modo verificable. Las variables se clasifican en dos grandes grupos: las categóricas o cualitativas y las numéricas o cuantitativas. Las variables categóricas o cualitativas son aquellas que están definidas por las clases o categorías que las componen. Por ejemplo los animales pueden clasificarse de acuerdo al color de su pelaje, las especies forestales en familias, las personas de acuerdo a la profesión, etc. Las categorías pueden ser naturales como al definir la variable sexo, (macho, hembra o masculino, femenino) según se trate de animales o personas; o arbitrarias como la clasificación de alturas, (ya sea de personas, animales o vegetales), en bajos, medianos o altos. Las variables categóricas generadas por la forma de presencia-ausencia de una categoría, se llaman dicotómicas o binarias. Por ejemplo personas con trabajo o sin trabajo, vegetales comestibles o no comestibles, árboles ornamentales o no ornamentales, animales con crías o sin ellas, etc. Otro tipo de variables son las numéricas o cuantitativas. Como su nombre lo indica, las variables numéricas son aquellas que se expresan por medio de un número. Estas variables se dividen en: discretas o discontinuas, que se obtienen por conteo y solo toman valores numéricos fijos, sin posibles valores intermedios. Por ejemplo el número de animales o personas en un establecimiento podrá ser 1.000, 2.000 o 2.500, pero nunca 1.000,6; 2.000,5 o 2.500,7. Continuas, éstas surgen de mediciones efectuadas sobre cada unidad experimental, y pueden tomar infinitos valores entre dos valores dados, por lo menos en teoría. Por ejemplo entre las dos medidas de longitud 1,5 y 1,6 cm podrían medirse infinitas longitudes, siempre que se estuviese dispuesto a hacerlo y si se dispone de un método suficientemente preciso para obtener tales medidas. Ejemplos de variables continuas son: longitud, peso, temperatura, etc. ESCALA O NIVEL DE MEDICIÓN Las escalas o nivel de medición se diferencian por propiedades de orden y de distancia. Se las puede clasificar en: nominal, ordinal, intervalar y de razón. Escala nominal es aquella en la que no se hace ningún supuesto respecto de las relaciones que existen entre las categorías de la variable. Por ejemplo el sexo de una persona, es una variable medida en escala nominal, porque no tiene un orden pre establecido; (de mayor o menor), entre sus categorías: varón, mujer. Otros ejemplos de variables medidas en escala nominal son: religión, lugar de nacimiento, color del follaje, color del pelo, etc. Escala ordinal es aquella que surge de ordenar todas las categorías de la variable, de acuerdo a algún criterio. Por ejemplo, clasificar las personas de acuerdo al puesto que ocupan en su lugar de trabajo, como: peón, encargado, administrador, etc. El nivel socioeconómico puede ordenarse como alto, medio, bajo. En éstos casos lo único que sabemos es que el nivel de encargado es superior al de peón y el de administrador superior al de encargado. Que el nivel socioeconómico alto implica un ingreso mayor que el nivel bajo. No obstante, en ningún caso sabemos con certeza cuánto “mayor” es una categoría de la variable con respecto a otra pues no existe una medición de distancia. Escala intervalar es aquella que tiene la propiedad de asignar una medición de distancia entre los valores de la variable. Entonces cuando se dice que un objeto es mayor que otro, se puede especificar cuantas unidades de diferencia hay entre ambos o por cuantas unidades, un objeto es mayor que el otro. Por ejemplo, con la medición es posible decir no sólo que Antonio es más alto que Pedro, sino también se puede decir que Antonio es 10 cm mas alto que Pedro. Una característica de la escala intervalar es que el punto de origen o punto cero en la escala de medición es un punto de acuerdo o punto convencional. Otras variables que se pueden medir con escala intervalar son: temperatura, inteligencia, etc. En todos estos casos es posible hacer comparaciones de distancia entre mediciones pero no entre sus magnitudes proporcionales. El punto cero o de origen, es convencional. Escala de razón: es aquella que presenta todas las propiedades de orden y distancia de una escala intervalar adicionando el punto “0” o punto de origen que es natural. Por ejemplo medidas de distancia, ingreso familiar, medidas de superficie, etc. En ésta escala de razón, al igual que en una escala intervalar, las unidades de medida son equidistantes unas de otras con la única diferencia que, en las escalas de razón, existe un punto cero correctamente definido por lo tanto se pueden efectuar comparaciones proporcionales. El tipo de escala de medición que se utiliza al medir una variable condiciona el tratamiento estadístico que se efectuará a los datos. MUESTREO En la vida cotidiana una buena parte de las actitudes y juicios de la gente dependen y han dependido de la práctica consciente o inconsciente del muestreo. Desde el ama de casa que después de examinar algunos artículos en una mueblería, les dice a sus amigas que el mismo es un lugar caro, hasta el periodista que después de permanecer algunos pocos días en un país extraño escribe un libro sobre los problemas del país en cuestión, son ejemplos de inferencia por muestreo, que van desde lo que tiene base científica, hasta lo que tiene sentido común, hasta lo que puede ser arbitrariamente simplista. Vemos que la práctica del muestreo antecede a la Estadística en muchos siglos y constituye un procedimiento familiar y empírico de emitir conclusiones. Que es válido sacar de un grupo de elementos representativos, conclusiones generales acerca de todos los elementos de la población. En resumen, la Inferencia Estadística establece que el muestreo, realizado bajo ciertas condiciones y sometido a ciertos requisitos, constituye un procedimiento científico, en muchos casos insustituible, por lo práctico y económico, para proyectar las conclusiones derivadas de una muestra, a toda la población de la que forma parte la muestra, dentro de límites pre-establecidos de confianza. Previa a la aplicación de una técnica de muestreo, habrá que fijar el máximo error, en exceso o en defecto, que consideramos aceptable en la medición del atributo investigado en una muestra. O sea el máximo error aceptable del estadístico, con respecto al parámetro. Otro criterio que habrá que fijar previamente es el nivel de confianza con el que se desea trabajar. Por ejemplo, supongamos que el objeto de la investigación es determinar la edad promedio de varios miles de trabajadores de cierto sector industrial, para lo cual queremos utilizar una muestra, cuyo error no exceda del 5%, (en exceso o en defecto), con un nivel de confianza de 99%. Estas condiciones implican que la edad promedio que se obtenga de la muestra de trabajadores no debe discrepar en más de 5% con respecto a la edad promedio que obtendríamos si averiguáramos la edad individual de cada uno de los trabajadores en cuestión. Y, por otra parte, significa que la edad promedio obtenido de la muestra, (con el margen de error tolerado) es la misma que obtendremos del estudio de, cuando menos el 99% de todas las posibles muestras, iguales en tamaño a la muestra original, que se pueden sacar de la población. Ventajas del muestreo: menor costo: menor número de personas dedicadas a recolectar la información; mayor rapidez en la recolección; mejor preparación del personal dedicado a la recolección; mejores métodos de control e inspección del trabajo, entre otras. El muestreo, es muchas veces el único método para obtener información, por ejemplo en el caso de poblaciones que se consideran infinitas; o cuando el estudio implica la destrucción del objeto investigado, como en los casos de tests de resistencia a la rotura o a la fusión, tests de duración, los que implican consumo de alimentos o medicamentos, etc. En ciertas condiciones, el muestreo, aporta resultados más precisos que el conteo o la medición de toda una población, por ejemplo cuando ésta es muy grande y difícil de examinar individualmente, por lo cual se vuelve vulnerable a ocasionar errores aún mayores que los que pueden derivarse del muestreo. Criterios de utilización del muestreo: a) no es aplicable cuando se requiere conocer las peculiaridades de cada miembro de la población. b) tampoco cuando la variabilidad del atributo que se investiga en la población es muy grande o su incidencia muy rara. c) antes de aplicarlo hay que definir claramente la población de la cual se extraerá la muestra. d) Clara determinación previa del atributo que deseamos investigar. e) Indagar y obtener toda información previa de la población que se va investigar. Realizar una prueba piloto. Probabilísticas TIPOS DE MUESTRAS No probabilísticas Probabilísticas: cuando cada uno de los miembros de la población, tiene alguna probabilidad conocida, de ser elegido para formar parte de la muestra. El riesgo de conclusiones incorrectas puede ser medido en forma de probabilidades. No probabilísticas: la probabilidad de elección de los miembros de la muestra no puede ser determinada, por ende, no hay manera de medir el riesgo de conclusiones erróneas. Al azar simple Sistemático proporcional Muestreo probabilístico Estratificado al azar no proporcional Por conglomerados Muestreo no probabilístico Por conveniencia Por juicio Por cuota Al azar simple: Se obtiene utilizando algún procedimiento aleatorio que asegure que cada elemento de la población tenga la misma probabilidad de estar incluido en la muestra elegida. Cuando la muestra es pequeña, puede utilizarse para la elección, algún procedimiento primitivo como los papelitos o procedimientos similares. Sin embargo, el método más aconsejable, especialmente cuando la población es grande, es efectuar esta elección por medio de una Tabla de números Aleatorios. A continuación se transcribe un pequeño fragmento de una TABLA DE NUMEROS ALEATORIOS (Cambridge) 20 17 74 49 94 70 22 15 93 29 42 28 04 49 49 31 78 15 12 18 23 17 03 04 38 67 69 84 27 30 59 66 10 33 23 42 32 52 30 55 38 61 53 70 29 65 32 54 91 87 02 10 11 54 40 88 15 12 50 57 86 10 48 63 78 71 54 02 58 51 51 55 94 60 37 18 01 37 49 36 92 52 94 49 48 64 38 37 12 53 44 25 57 38 06 57 12 93 96 40 Por ejemplo, supongamos que una empresa, tiene a su servicio 20 camiones numerados de 1 a 20 y que los números 1 al 3 son de gran tonelaje, los números 4 al 10 de tonelaje medio y los números 11 al 20 son de bajo tonelaje. Supongamos además, que el kilometraje por litro de combustible de las 20 unidades es la siguiente: Alto tonelaje N° km/lt Medio tonelaje N° km/lt Bajo tonelaje N° km/lt 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 2,6 3,0 2,5 5,6 5,2 5,0 5,7 4,9 5,2 5,5 __ 8,1 ___ 37,1 8,1 7,5 7,6 6,9 7,3 7.7 7,4 7,1 7.5 7.9 ___ 75,0 Media: 2,7 5,3 7,5 Si utilizando la tabla de números aleatorios, eligiéramos una muestra de 6 camiones, por el método al azar simple y sacamos el promedio de km/lt, el resultado seria el siguiente: N° km/lt 4 12 15 17 18 20 5,6 7,5 7,3 7,4 7,1 7,9 _____ 42,8 Media: 7,1 km/lt Se puede observar claramente que este método no es él más conveniente, pues la población esta constituida por 3 grupos heterogéneos con respecto a rendimiento de combustible y, además, de tamaños muy diferentes dentro de la población. Se puede apreciar que ninguna unidad de alto tonelaje llega a constituir parte de la muestra aleatoria. En resumen si la población esta claramente dividida en grupos más o menos heterogéneos y las proporciones de dichos grupos dentro de la población son desiguales, el muestreo aleatorio simple no es él más aconsejable. Muestreo sistemático: Consiste en elegir los individuos de la muestra a intervalos sistemáticos del listado, es decir intervalos iguales a partir de un primer caso elegido según el método de números al azar. Para fijar el intervalo se divide él número de casos de la población por él número de elementos que se desea en la muestra. Por ejemplo N = 20 camiones y queremos una muestra de 5, se tomara: N/n = 20 / 5 = 4 Es decir, uno de cada 4 individuos de la población, siendo el primer número entero entre 1 y 4 tomado al azar. Supongamos que sale el 2; el siguiente será el 2 + 4 = 6; el siguiente 6 + 4 = 10, etc. Este método es más conveniente cuando el listado es largo. Puede producir deformaciones, si el listado presenta alguna tendencia, pero esto suele poder corregirse mezclando bien los individuos de la lista. Muestreo estratificado: Cuando la población puede dividirse en estratos homogéneos, con respecto al atributo que se investiga; el muestreo estratificado da resultados más precisos que el simple al azar. El muestreo estratificado consiste en tomar una muestra de cada estrato, para reunir todas las submuestras en una gran muestra total. Puede ser proporcional: que implica que cada submuestra es proporcional al tamaño del estrato del que procede, dentro de la población. En el no proporcional o por muestras iguales, todas las submuestras son del mismo tamaño y es el método aconsejable, cuando se desconoce la proporción de cada estrato de la población Muestreo por conglomerados Consiste en dividir la población en grupos llamados conglomerados. Estos grupos se usan generalmente cuando hay que hacer trabajos que abarcan una superficie geográfica muy amplia, por ejemplo, estudiar algún aspecto de la población de un país. Se divide a la población en sectores, llamados conglomerados que deben ser lo más homogéneos posible. Además deben ser exhaustivos, es decir donde estén representados todos los aspectos de la población y mutuamente excluyentes, o sea que cada individuo de la población pertenezca a uno y tan solo un conglomerado. Aquí lo que se elige es una muestra de conglomerados. Suele tener mucho mayor error que la muestra elegida por el método simple al azar. MUESTRAS NO PROBABILISTICAS Muestras por conveniencia Son aquellas compuestas por los miembros más accesibles de una población, o los que se consideran mas dispuestos a someterse a una encuesta. Por ejemplo las personas que salen de un supermercado. Muestreo por juicio Son aquellas cuyos miembros se eligen entre aquellos que se consideran los más representativos de una población. Por ejemplo si queremos averiguar sobre los gustos para preparar comidas a base de pescados, se elige una población consumidora de este alimento. Muestreo por cuotas Es una variante del muestreo estratificado, que lleva implícita una selección más o menos no probabilística de los miembros de cada submuestra. ORGANIZACIÓN Y RESUMEN DE DATOS Un conjunto de datos puede ser trabajado en forma bruta, o sea en el orden aleatorio en que se han recolectado. Pero cuando el número de observaciones es muy grande se hace difícil trabajar de ésta manera, por ello es conveniente resumirlos y clasificarlos de acuerdo con criterios adecuados, de modo de facilitar su análisis y así sacar conclusiones. Puede ser en: a) arreglo ordenado: pone los datos brutos en orden, de la observación menor a la mayor. Esto facilita la evaluación por parte del investigador. Esta forma de trabajar es también aconsejable cuando los datos no son demasiado numerosos. b) En exhibiciones de “tallo y hojas” o “tronco y ramas”. Esta es una técnica sencilla de gran utilidad para explorar y describir una gran masa de datos, que fue desarrollada por Tukey. Supongamos que se han contabilizado la cantidad de personas empleadas en un grupo de establecimientos agrícola ganadero de una zona geográfica determinada, y los resultados obtenidos fueron los siguientes: 15 23 95 16 67 60 82 20 30 27 54 19 41 27 44 19 50 17 32 16 80 15 33 6 22 12 29 35 47 90 17 9 57 36 29 44 10 61 8 76 22 11 50 84 37 21 52 43 43 17 16 26 10 43 16 Se comienza colocando en una columna todos los números que conforman los datos eliminando la última cifra (unidades), y se ordenan de menor a mayor. A la derecha de cada uno de éstos números se escribe la última cifra (unidad) de cada dato, que comienza con el número escrito anteriormente. Posteriormente, se ordenan también de menor a mayor los números de cada fila. Cabe aclarar que en la columna cada número aparece una sola vez en tanto que en las filas pueden repetirse de acuerdo a las cantidades que conforman los datos. Por ejemplo el valor 19 se coloca en la fila del 1 agregando el 9; el 22 en la fila del 2 agregando el 2; etc. El diagrama de tallo y hojas correspondiente al ejemplo planteado es el siguiente: 0 1 2 3 4 5 6 7 8 9 6 0 0 0 1 0 0 0 0 5 8 0 1 2 3 0 1 2 2 9 1 2 3 3 2 7 4 2 2 5 3 4 5 3 6 4 7 5 6 6 6 6 7 7 7 9 9 6 7 7 9 9 7 4 7 De ésta manera se ha obtenido una distribución de frecuencias, donde la frecuencia ahora esta representada por una fila de números en lugar de un rectángulo. La interpretación de éste gráfica es la siguiente: Por ejemplo, tomando la segunda fila puede observarse que hay dos establecimientos con 10 empleados cada uno; 1 de 11; 1 de 12; 2 de 15; 4 de 16, etc. De ésta manera se interpretan las demás filas. c) En tablas de distribución de frecuencias: éstas asocian cada valor de la variable, con la cantidad de veces que se observa dicho valor. TABLAS DE DISTRIBUCION DE FRECUENCIAS Se puede definir a una distribución de frecuencias como el cuadro o tabla que presenta en forma ordenada a los distintos valores de una variable y sus correspondientes frecuencias. Para variable discreta: se construye una tabla simple. Si una variable continua es tratada como discreta, también podrá presentarse en éste tipo de tabla. Para variable continua: se construye una tabla con intervalos de clase. Este tipo de tabla también puede utilizarse para variable discreta con amplio recorrido. Mediante un ejemplo veremos la presentación de una tabla simple de distribución de frecuencias, (variable discreta). El número de días que no asistieron a trabajar durante un año, un grupo de 40 obreros fue el siguiente, de acuerdo al registro obtenido en el período considerado: ,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,, Nº de inasistencias (xi) Nº de obrer. (fi) Frec.ac. (Fi) Frec.rel.% (f ri) Frec.rel % acum. (Fri) ,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,, 0 1 1 2,5 2,5 1 2 3 5,0 7,5 2 4 7 10,0 17,5 3 12 19 30,0 47,5 4 10 29 25,0 72,5 5 7 36 17,5 90,0 6 4 40 10,0 100,0 ,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,, TOTAL 40 -100,0 ---- ,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,, En la primer columna (xi) se observan los valores que toma la variable “número de inasistencias por obrero”, ordenados en forma creciente, cuyo campo de variabilidad o dominio, para éste caso, es de 0 a 6. En la columna siguiente (fi), se ha colocado el número de obreros u observaciones correspondientes a cada valor de la variable, es decir la frecuencia absoluta que presenta cada valor de la misma. Si sumamos ésta columna tendremos el total de obreros cuyas inasistencias se estudia. Decimos entonces que la frecuencia absoluta está dada por el número de veces que se repite cada valor de la variable. La suma de las frecuencias absolutas es igual al total de observaciones, que simbolizamos con N o n, según se trate de una población o una muestra la que está en estudio. Luego: fi = n En el ejemplo anterior: 1 + 2 + 4 + 12 + 10 + 7 + 4 = 40 La frecuencia absoluta es siempre un número positivo comprendido entre 0 y n 0 fi n Luego en la columna tercera (Fi), sumamos para cada valor dado de la variable, las frecuencias absolutas de los valores menores o iguales al valor que se está considerando. Esto se denomina frecuencia acumulada. O sea: Fi Por ejemplo, hasta 2 inasistencias se acumularon 7 obreros, o sea 1 obrero con 0 inasistencia, 2 con 1 inasistencia y 4 con 2 inasistencias. En la columna cuarta (fri) calculamos el cociente de cada uno de los valores de la columna segunda (fi) respecto del total de obreros, por cien, o sea: fi 40 x 100. Llamaremos a estos valores frecuencia relativa porcentual. Es decir: fri = fi . 100 n La frecuencia relativa porcentual es un número positivo comprendido entre 0 y 100 0 fri 100 La suma de las frecuencias relativas porcentuales es siempre igual a 100. fri 100 Finalmente en la última columna efectuaremos el cociente de (Fi) sobre el total de observaciones por cien, lo que nos indica el peso relativo porcentual de los casos acumulados hasta cada uno de los valores de la variable y llamaremos a esta columna “frecuencias relativas porcentuales acumuladas”. Las frecuencias relativas porcentuales acumuladas para el último valor de la variable son siempre igual a 100. REPRESENTACIÓN GRÁFICA En general la representación gráfica de una tabla de frecuencias permite percibir con mayor claridad algunas características de la masa de datos que se investiga. Por ello, resulta bastante más fácil transmitir conclusiones a personas no habituadas a la interpretación de distribuciones de frecuencias cuando se utilizan gráficos estadísticos. Se utiliza un par de ejes de coordenadas. En el eje de las abscisas se representará la variable estudiada y en el eje de las ordenadas, las correspondientes frecuencias (absolutas o relativas). En el caso de una variable discreta, como la frecuencia corresponde a cada valor de la variable, se puede representar por un bastón vertical construyéndose de esta forma un “ gráfico de bastones”. Podemos decir entonces que el gráfico de bastones es la representación gráfica de las frecuencias de una variable discreta, mediante un gráfico de puntos, en un sistema de coordenadas cartesianas ortogonales cuyas abscisas son los valores de la variable y cuyas ordenadas son las frecuencias absolutas o relativas. Para el cuadro del ejemplo anterior, el gráfico sería: fi 12 11 10 9 8 7 6 5 4 3 2 1 0 1 2 3 4 5 6 inasistencias Gráfico de bastones El gráfico de frecuencias acumuladas, o “gráfico de escalones”, es la representación gráfica de las frecuencias acumuladas (absolutas o relativas), de una variable discreta mediante segmentos paralelos al eje de abscisas. Cada segmento se extiende entre dos valores consecutivos de la variable, siendo las respectivas ordenadas las frecuencias acumuladas correspondientes al valor de la variable que es abscisa del punto inicial del segmento. Fi 40 30 20 10 0 1 2 3 4 5 6 gráfico de escalones 7 inasistencias Como ya dijimos, los mismos tipos de gráficos se utilizan para representar las frecuencias relativas. PARA EL CASO CONTINUO Para el caso de variables continuas será necesario fijar intervalos de clase para llegar a un resumen efectivo de la información original que se presenta en una tabla de frecuencias para datos agrupados Los intervalos de clase o simplemente clases son cada una de las subdivisiones o intervalos en que se ha dividido el dominio o campo de variabilidad de una variable. Para ello en principio habrá que observar el mayor y el menor valor que toma la variable en estudio y obtener el rango. El rango se define como la diferencia que existe entre el mayor y el menor valor observado, que toma la variable en estudio. Por ejemplo si las remuneraciones por cátedra de un grupo de docentes fueran las siguientes: 103 093 083 113 119 078 069 113 075 153 132 106 111 128 078 089 101 106 079 110 118 095 131 105 089 081 096 146 068 093 069 137 109 101 098 086 150 149 150 070 128 129 116 087 069 086 103 085 100 109 123 114 106 106 126 132 102 093 097 106 111 141 126 114 114 099 063 079 099 067 087 103 087 116 063 085 095 087 084 097 106 109 140 113 118 106 136 073 086 106 108 105 113 069 107 098 069 064 068 078 El rango sería igual a: R = 153 - 63 = 90 Este intervalo que contiene a todos los valores registrados puede dividirse, por ejemplo en 10 intervalos de 10 $ cada uno. Se puede así construir una tabla de frecuencias donde en lugar de escribir los valores originales de la variable se los reemplaza por 10 intervalos de amplitud (h) 10, cada uno. Los valores colocados a la izquierda de cada intervalo de clase se denominan límite inferior de la clase y lo simbolizamos con L i. Los de la derecha son los límites superiores de las mismas y el símbolo es Ls. El límite superior de cada intervalo se obtiene, sumando la amplitud (h) a cada límite inferior. Para establecer la frecuencia de cada intervalo se cuentan los valores de la variable que caen en cada uno de ellos. Por ejemplo, agrupando las remuneraciones tendremos: INTERV. DE CLASE 60 - 70 70 - 80 80 - 90 90 - 100 100 - 110 110 - 120 120 - 130 130 – 140 140 – 150 150 - 160 fi 11 9 14 11 22 14 7 5 4 3 La decisión en cuanto a la cantidad de intervalos y a la amplitud de cada uno de ellos es arbitraria. La única recomendación que debemos hacer aquí es tratar de que no queden intervalos de clase con frecuencia nula. En general se aconseja que los intervalos no sean menos de cinco ni más de quince. Además como el rango total de los intervalos de clase debe incluir a todos los valores de la variable registrados, se aconseja redondear el rango calculado a un número entero superior para evitar que el menor o el mayor valor que toma la variable queden excluidos. En el ejemplo el rango era igual a 9 y fue redondeado a 10, decidiendo entonces hacer 10 intervalos de amplitud 10 cada uno. El menor valor de la variable era 63 y se empezó a construir a los intervalos desde el valor 60. El valor de la variable que coincida con un límite, por ejemplo 80 podría ubicarse en el segundo o tercer intervalo de clase. Libremente se puede decidir en cuál de los dos hacerlo, pero siguiendo siempre el mismo criterio a través de todo el proceso de agrupamiento. O sea si se decide ubicarlo en el segundo intervalo, cuando aparezca un valor de 100, se lo ubicará en el cuarto intervalo, si se tiene un valor de 150, se lo debe ubicar en el noveno intervalo. A través del agrupamiento de las observaciones en una tabla de distribución de frecuencias con intervalos de clase se pierde la información correspondiente a los valores individuales de la variable, ya que se da por supuesto que todas las observaciones de una clase se encuentran en el punto medio del intervalo. El punto medio o marca de clase de cada intervalo es el valor de la variable en el que se da por supuesto que se encuentran todas las observaciones del mismo. Se lo simboliza con xi. Se puede hallar sumando el límite inferior y el superior de cada intervalo y dividiendo por dos. Por ejemplo el punto medio o marca de clase del primer intervalo, de la tabla anterior, es: Xi = 60 + 70 = 65 2 Otra forma de encontrarlo es sumando al límite inferior la mitad de la amplitud, o sea: Xi = Li + h / 2 Para el ejemplo sería: 60 + 10/5 = 60 + 5 = 65 Como la mitad de la amplitud es una constante para todos los intervalos de ésta tabla, se puede obtener el punto medio de cada uno de ellos, sumándole 5 a cada límite inferior. Así tendremos: 60 + 5 = 65; 70 + 5 = 75; 80 + 5 = 85; etc., etc. REPRESENTACIÓN GRÁFICA Existen dos gráficos, llamados histograma, para representar la distribución de éste tipo de variable: • • para las frecuencias, ya sean absolutas o relativas para las frecuencias, absolutas acumuladas, o relativas acumuladas En el eje horizontal se pondrán los distintos intervalos de clase y en el eje vertical las correspondientes frecuencias (absolutas o absolutas acumuladas). Cuando, como en éste caso, se estudian variables continuas, las frecuencias se representan mediante áreas o superficies, pues la escala en la que están medidas las mismas permiten tomar valores en cualquier punto del eje horizontal del gráfico. El mismo nos permite, entre otras cosas, la identificación de valores típicos y atípicos de una distribución. Llamamos valor atípico al que se diferencia sustancialmente de los demás. Otro gráfico útil es el polígono de frecuencias, que para el caso del gráfico de frecuencias absolutas, la frecuencia del intervalo se representa por una ordenada en el punto medio del mismo. Para que quede cerrada la figura, ya que la superficie dentro del polígono de frecuencias es igual a la del histograma para la misma distribución, se coloca un punto medio inmediato anterior y otro inmediato posterior de lo que sería un intervalo anterior y posterior ficticio con frecuencia cero. Polígono de frecuencias fi 25 20 15 10 5 0 Histograma de frecuencias absolutas En el histograma de frecuencias acumuladas, (gráfica siguiente), éste polígono se denomina ojiva y es una línea que une los límites superiores de cada uno de los intervalos de clase. Esta línea empieza en lo que sería el límite superior de un intervalo inmediato anterior ficticio con frecuencia cero. La mayor utilidad de éste gráfico consiste en la comparación de la distribución empírica de los datos, proporcionada por la tabla de frecuencias, con una distribución estándar denominada distribución normal. ojiva Fi 120 100 80 60 40 20 0 Histograma de frecuencias acumuladas MEDICIÓN DE DATOS Las distribuciones de frecuencias aportan información preliminar de interés, acerca de una variable investigada en una población o en una muestra. Sin embargo, a menudo necesitamos una medida que caracterice o distinga a la distribución, en los siguientes aspectos: • • • en cuanto a su posición en cuanto a su dispersión en cuanto a su forma Como ya dijimos, cuando a éstos valores se los obtiene a partir de toda la población se denominan parámetros y si son calculados con los datos de una muestra se denominan estadísticos. a) las medidas de posición: nos indican la “posición”, que ocupa la distribución sobre el eje de las abscisas. También se las denomina de tendencia central porque muchas de ellas tienden a ubicarse en el centro de la distribución. b) las medidas de dispersión: nos reflejan cómo se distribuyen los valores de la variable a lo largo del eje de las abscisas. c) Entre las medidas de forma, tenemos: - las de asimetría: que indican la deformación horizontal que tiene la distribución. Una distribución perfectamente simétrica es aquella en la que las frecuencias equidistantes de la frecuencia máxima son iguales. - las de puntiagudez: expresan la altura relativa de la distribución. MEDIDAS DE POSICIÓN Se definen varios tipos de medidas de posición o tendencia central, siendo las más comunes: Medidas de Posición media aritmética moda mediana cuartiles deciles fractilas percentiles Medidas de orden Cada una tiene ventajas y desventajas, según los datos y el objetivo perseguido. El cálculo de las mismas difiere de acuerdo al tipo de variable con que se trabaja y presenta pequeñas modificaciones según se disponga de datos agrupados o no.- LA MEDIA ARITMÉTICA O simplemente media, o promedio, es el más conocido y quizás el más usado de los parámetros de posición por las ventajas que ofrece en algunos aspectos. Se _ denota con x, (léase “x barra”) y para un conjunto N de números x 1 , x 2, x 3, ..., x n se define por: _ i=n X = x1 + x2 + x3 + ... + xn = Xi N i=1 N i=n Media aritmética simple: x i i=1 N Es decir la media aritmética simple es la sumatoria de los valores de la variable xi, (variando i de 1 hasta n), dividido por el total de observaciones. La igualdad i = 1 indica que los valores (datos) deben ser sumados empezando por el primero y terminando por el enésimo como nos indica la igualdad i = n escrita encima del signo. Por ejemplo: la media aritmética de los números 8, 3, 5, 12 y 10 es: _ X = 8 + 3 + 5 + 12 + 10 = 7,6 5 Si los números x 1 , x 2 , ...x i se repiten diferente número de veces, o sea tienen frecuencias diferentes, (simbolizadas por f i), podemos agruparlos en una tabla simple de distribución de frecuencias. Es necesario tener en cuenta el diferente peso que los datos tienen en la distribución y en éste caso deberá aplicarse el concepto de media aritmética ponderada. Por ejemplo si tenemos los siguientes valores, correspondientes al número de animales por corral, o al número de árboles por parcela: xi 50 70 60 que se repite 3 veces que se repite 2 veces que se repite 1 vez * 50 60 70 Tot. fi * * * * * xi . fi 3 1 2 6 * 150 * 60 * 140 * 350 Los valores 3, 2 y 1 constituyen las respectivas ponderaciones de cada dato o valor observado. La media aritmética ponderada será: _ X = 50 x 3 + 70 x 2 + 60 = 58,33 58 6 O sea que en promedio cada parcela tiene 58 árboles, o cada corral en promedio tiene 58 animales. Reemplazando los valores numéricos por sus respectivos símbolos: _ X = X 1. f 1 + X 2. f 2 + X 3. f3 N _ X = xi. fi N Media aritmética ponderada Donde N es la frecuencia total (o sea el número total de casos, que en la tabla de distribución de frecuencias está dado por la sumatoria de las f i ). En el caso de datos numéricos continuos agrupados en intervalos de clase, el cálculo de la media aritmética es similar al caso anterior, es decir: _ X = Xi fi N Ahora bien, qué valor tomará xi en la fórmula de cálculo de la media aritmética. Ya hemos expresado que cuando se agrupan datos continuos en intervalos de clase, se pierde información original. Luego, para solucionar este problema, xi se calcula como el promedio entre los extremos de cada intervalo, es decir, xi representa el punto medio, (o marca de clase), de cada intervalo de clase. Calculemos la media aritmética en la siguiente tabla de distribución de frecuencias: Categoría fi 50 - 100 2 100 - 150 6 150 - 200 11 200 - 250 5 250 - 300 3 ____________________ TOTAL 27 xi 75 125 175 225 275 x i . fi 150 750 1925 1125 825 ___ 4775 _ X = 4.775 = 176,85 27 Significa que el valor promedio es de 176,85. Por supuesto que el valor que se obtiene debe estar comprendido entre el mínimo y el máximo de la serie, en éste caso entre 50 y 300. Características de la media aritmética: Como dijimos anteriormente es un valor comprendido entre el mínimo y el máximo valor de la variable en estudio. - Posee la misma unidad de medida que la variable considerada. - En su cálculo intervienen todos los valores de la variable estudiada. Esto se presenta como una ventaja ya que permite el tratamiento algebraico de la misma. - Otra ventaja es que resulta de fácil cálculo e interpretación. - - - No se la puede calcular cuando los datos están agrupados en una tabla de distribución de frecuencias con intervalos abiertos, (porque de los mismos no se puede obtener el punto medio). Obviamente esto es una desventaja. Se ve afectada o arrastrada por los valores extremos, lo que la hace poco significativa cuando éstos existen. Por lo tanto no se aconseja su cálculo en éstos casos. PROPIEDADES DE LA MEDIA ARITMÉTICA 1. “La suma de los desvíos de cada valor de la variable con respecto a la media aritmética es siempre igual a cero”. En símbolos: _ ( xi - x ) = 0 En general, entendemos por desvío, a la diferencia entre los valores de la variable y un valor fijo cualquiera. Cuando ese valor fijo es la media aritmética tendremos desvíos con respecto a ella. Por ejemplo: _ Xi Xi - X 2 2-5 =-3 3 3-5 =-2 5 5-5 = 0 7 7-5 = 2 8 8-5 = 3 _____________________ 25 -5 + 5 = 0 _ X = 25 = 5 5 _ X = 5 Veamos la demostración analítica de ésta importante propiedad: _ Xi - X _ X1 (X 1 - X) = d 1 _ X2 (X 2 - X) = d 2 _______ X3 (X 3 - X) = d 3 . . . . . . . . _ . Xn (X n - X) = d n _ ( X i - X) = d i Xi _ di = xi - Nx di = x i - N xi N di =xi - xi di =0 2.- “La suma de los cuadrados de los desvíos con respecto a la media aritmética, da un mínimo”. Es decir que cuando los desvíos son con respecto a la media, la suma de los cuadrados nos da un valor que será siempre menor que el valor que se obtiene cuando los desvíos y sus cuadrados se calculan respecto de cualquier otra constante distinta a la media. Por ejemplo: _ xi xi – x _ ( xi – x ) 2 (xi – 1) (xi – 1) 2 ( xi – 4) ( xi – 4) 2 -1 1 1 1 -2 4 3 0 0 2 4 -1 1 4 1 1 2 3 9 14 0 0 5 2 _ x=3 tomando, la constante: 1 constante: 4 Observamos que: _ (xi - x) = 2 2 (xi - 1) = 14 (xi - 5) = 5 2 2 Por medio de éste ejemplo hemos comprobado, que si hacemos la sumatoria de los desvíos al cuadrado con respecto a cualquier otro valor, menor o mayor que la media, ésta será siempre mayor que si lo hacemos con respecto al valor promedio. MODO O MODA Es el valor de la variable que se repite la mayor cantidad de veces, o sea, al que le corresponde la máxima frecuencia. En símbolos: Mº ^ x ó Si tenemos datos sin agrupar, bastará con identificar cuál es el valor de la variable que más se repite. Podremos tener series, con un modo es decir unimodales, con más de un modo, o sea bimodales, o que no tengan modo, llamadas amodales. Por ejemplo, para las siguientes series de datos el modo sería: a) 2 3 5 7 2 Mº = 2 b) 10 14 10 12 10 20 c) 23 24 25 30 45 54 14 45 14 Mº = 10 y 14 Sin Mº En el caso de pocos datos provenientes de una variable discreta, una vez agrupados es posible determinar inmediatamente el valor modal. Bastará con identificar al valor de la variable al que le corresponde la mayor frecuencia. Ejemplo: Nº de obreros Cantidad de establecimientos 10 11 12 13 14 44 84 73 189 32 Mirando la tabla, directamente podemos determinar el modo o valor modal fijándonos cual es la máxima frecuencia absoluta, (189 en éste caso), y luego a qué valor de la variable le corresponde, (13, en éste ejemplo). Por lo tanto: Mº = 13 obreros Esta medida de tendencia central está indicando que lo mas frecuente es que los establecimientos observados, tengan 13 obreros. En una tabla con intervalos de clase el modo se puede obtener gráfica y analíticamente. El siguiente es un ejemplo de una distribución de frecuencias referida a la producción de un grupo de establecimientos, (en kg). Peso (en kg) punto medio(xi) 50 100 150 200 250 300 TOTAL 100 150 200 250 300 350 75 125 175 225 275 325 fi 1 3 9 30 60 52 155 Fi 1 4 13 43 103 155 En primer término, vamos a determinar el intervalo con mayor frecuencia absoluta: es 250 – 300. Dicho intervalo se denomina intervalo de clase modal. Determinación gráfica: 1.- Se confecciona adyacentes. el histograma con la barra de mayor frecuencia y las 2.- Se trazan dos diagonales en el interior de la barra del intervalo modal, partiendo de los vértices de la barra hasta los vértices de las adyacentes. 3.- Se traza luego una línea perpendicular desde la intersección de las dos diagonales hasta el eje de las x, (escala horizontal). El punto donde se cortan será el valor de la variable al que le corresponde la máxima frecuencia, o sea el modo. En el ejemplo: ^ X 289 60 d2 d1 40 20 0 200 250 289 300 350 Determinación analítica: Se deriva la fórmula partiendo del dibujo geométrico que resulta de calcular gráficamente el modo. Mº = Li + d1 . h d1 + d2 Donde: Li = límite inferior del intervalo modal d1 = fi - f(i – 1) , o sea, diferencia entre la frecuencia absoluta del intervalo modal, menos la inmediata anterior. d2 = fi – f(i + 1), o sea, diferencia entre la frecuencia absoluta del intervalo modal, menos la inmediata posterior h = amplitud del intervalo modal MEDIANA La mediana es un estadístico de localización útil a veces en investigación biológica. Se define como el valor de la variable, (en una serie ordenada), que divide al conjunto de datos en dos subconjuntos con igual número de elementos. Se simboliza de la siguiente manera: Med o x En la siguiente muestra de cinco medidas: 14 15 16 19 23 Med = 16 ya que la tercera observación tiene el mismo número de observaciones a ambos lados. Podemos hacer visible la mediana fácilmente si pensamos en una ordenación de menor a mayor. Por ejemplo una fila de animales o personas, alineadas por sus estaturas. El animal o la persona mediana será el/la que tiene igual número de animales o personas a su derecha y a su izquierda. Su altura será la altura mediana de la muestra considerada. Esta cantidad se calcula fácilmente en una muestra ordenada de un número impar de individuos. Cuando el número es par, la mediana se calcula convencionalmente como el punto medio entre los valores que ocupan el lugar: n/2 y (n/2) + 1. En una muestra de cuatro medidas: 20 21 22 26 la mediana será el punto medio entre la segunda y la tercera medida, o sea: 21,5. También podemos definir a la mediana como aquel valor de la variable que cumple con la condición de superar a no mas de la mitad de las observaciones y ser superado por no más de la mitad de las observaciones. Simbólicamente para calcular la mediana hay que distinguir distintas situaciones: a) Cuando la serie es simple y la cantidad de observaciones es un número impar, es decir, n = número impar. Sea la serie simple: x = x1, x2 , x 3, ... ... , x n En éste caso hay que ordenar las observaciones de menor a mayor y luego localizar la observación central que será aquella que ocupe el lugar n+1 2 b) Cuando la serie es simple y la cantidad de observaciones es par. En ese caso hay dos valores centrales: los que ocupan la posición n/2 y (n/2) + 1. Como dijimos por convención se adopta el promedio simple de ambos como única mediana de la serie. O sea: Med = x(n/2) + x (n/2) + 1 2 c) Serie agrupada, con variable discreta: El procedimiento de cálculo resulta de practicar el análisis anterior para serie simple, pero teniendo en cuenta las ponderaciones que ahora aparecen. Hay que calcular el valor de n/2 y las frecuencias absolutas acumuladas. Luego se relaciona el valor n/2 con las frecuencias absolutas acumuladas para encontrar dos de estos valores entre los que esté comprendido el mismo. Supongamos que ese par de valores sean Fj – 1 y Fj y que satisface que: Fj – 1 < n/2 < Fj Ejemplo: xi 7 8 9 10 11 Total fi Fi 32 40 12 10 22 116 32 72 84 94 116 32 < n /2 < 72 Mna = 8 58 n/2 = 58 d) Distribución de variable continua Ejemplo: Intervalos 20 - 40 40 - 60 60 - 80 80 -100 100 -120 Total fi Fi 2 6 11 6 5 30 2 8 19 25 30 n/2 = 15 Los pasos para obtener el valor mediana, son: - Agregar la columna de frecuencias acumuladas ( Fi ). Obtener el punto medio de la distribución mediante la siguiente operación: n/2 = 30/2 = 15 - Ubicar en la columna de Fi ( frecuencias acumuladas), los valores entre los cuales se encuentra el n/2, (15 para nosotros), o sea entre 8 y 19, quiere decir que la mediana, en éste caso, se ubicará en una posición mayor que 8 y menor que 19. Por lo tanto ya sabemos que será un valor entre 60 y 80.- Determinado el intervalo en el cual cae la mediana sabemos que el valor será; el límite inferior (Li ) de ese intervalo más una cierta cantidad x, o sea: Med = Li + x No necesitamos incorporar las 11 observaciones del intervalo 60 – 80, sino que interpolamos esas frecuencias de la tercera clase, suponiendo que las frecuencias están distribuidas en ella por igual. Las observaciones cuyas frecuencias necesitamos incorporar surgen de la diferencia entre el punto medio del total de observaciones, (n/30), menos la frecuencia acumulada hasta el intervalo inmediato anterior al de la mediana, o sea: 15 - 8 = 7 Decimos: 11 observaciones -------------- 20 amplitud 7 “ -------------- x = 20 x 7 = 12,73 11 x = 12,73 Mna = Li + x Mna = 60 + 12,73 = 72,73 Mna = Li + n/2 - (F(i-1)) h fi Donde: Li = límite inferior del intervalo donde cae la mediana n/2 = total de observaciones dividido 2 Fi-1 = frecuencias acumuladas hasta el intervalo inmediato anterior al de la mediana fi = frecuencia absoluta del intervalo donde se encuentra la mediana h= amplitud del intervalo donde cae la mediana CUARTILES, DECILES Y PERCENTILES Son también parámetros de posición. El concepto de cada uno de ellos responde a un razonamiento similar al de la mediana. En la mediana buscábamos el valor de la variable que separa a la distribución en dos partes con igual número de elementos. Si nosotros pedimos en cambio, el valor de la variable que supere a no más de ¼ del total de las observaciones y que sea superado por no mas de ¾ del total de las observaciones, tendremos el primer cuartil ( Q1). Hay tres cuartiles que dividen la distribución en cuatro partes con igual número de elementos. Por supuesto que el Q2 es la mediana y así se lo designa generalmente. El tercer cuartil (Q3), o cuartil superior, es el valor situado de modo que las tres cuartas partes de los términos son inferiores y la cuarta parte mayores que él. El mecanismo para calcular los cuartiles es el mismo que utilizamos para el cálculo de la mediana. En la última tabla de distribución de frecuencias: N = 30 para ubicar la categoría donde se encuentra el Q1 hacemos: n/4 = 30/4 = 7,50 El valor 7,50 nos permite determinar que el mencionado cuartil se ubica en el intervalo 40 - 60. O sea que: Q1 = Li + xi Para averiguar el valor de x, efectuamos la interpolación como en la x La fórmula a utilizar para hallar el valor de Q1 es la siguiente: Q1 = Li + n/4 - F(i-1) h fi Q1 = 40 + 7,50 – 2 . 20 6 Q1 = 40 + 18,33 = 58,33 Este es el valor de la variable que está situado de modo que el 25% de los datos es menor o igual que el mismo y el 75% restante es igual o lo superan. Para averiguar el valor del Q3, debemos realizar en primer término el cálculo de: 3n 4 = 3 . 30 = 22,5 4 Este valor nos permitirá ubicar el intervalo donde se encuentra el Q 3. Para averiguar el valor exacto, aplicamos la fórmula ya conocida: Q3 = Li + 3.n/4 - F(i-1) . h fi Q3 = 80 + 22,5 - 19 . 20 = 91,67 6 Este, (91,67), es el valor de la variable que está situado de modo que el 75% de los datos son menores o iguales que él y el 25% restante son iguales o lo superan. El tercer cuartil es el tercer punto que vemos en el tramo correspondiente: 75% 25% _______________________ Q1 Q3 Deciles: Permiten estudiar a la distribución en tramos de 10%. Si tomamos el total de observaciones y lo dividimos por 10, nos ubicaremos en el lugar correspondiente al primer decil, simbolizado por: D1 10% 10% 10% 10% 0 D1 D2 D3 D4 D5 D6 D7 D8 D9 Se tienen 9 puntos sobre el eje de las x. El procedimiento para obtener cada uno de los deciles, es el mismo que para los cuartiles. D1 = Li + n/10 – F(i-1) . h fi Siguiendo con el ejemplo anterior, n/10 = 3, este valor, con el cual entro a la columna de F i, me ubica en el intervalo 40 – 60. D1 = 40 + 3 - 2 . 20 = 43,33 6 Significa que del total de observaciones, el 10% son valores inferiores o iguales a 43,33 y el 90% restante son iguales o lo superan. Percentiles: Permiten el estudio, aún más detallado de la distribución, ya que el análisis se hace por tramos del 1%. Para encontrar la ubicación de los percentiles, hacemos el siguiente cálculo: P1 n/100 P2 2 n/100 P82 82 n/100 Fácilmente se podrá advertir que el P75 = Q3 Por otra parte: P50 = D5 = Q2 = Mna A menos que una distribución sea muy extensa, no tiene objeto calcular los percentiles. En realidad, por lo general, sólo se usan los percentiles 10, 20, 30, etc., que son, por supuesto, los deciles 1, 2, 3, etc. MEDIDAS DE FORMA De asimetría : _ x x x asimétrica negativa _ x=x=x simétrica x x _ x asimétrica positiva El grado de asimetría de una distribución se conoce como sesgo, es decir cuanto se aparta de la simetría. Si la curva de frecuencias (polígono de frecuencias suavizado) tiene a la derecha una cola mas larga que a la izquierda, se dice sesgada a la derecha o de sesgo positivo. En caso contrario, sesgada a la izquierda o de sesgo negativo. Una medida de asimetría está dada por la diferencia: media aritmética – modo, dividida por el desvío estándar _ Sesgo = x - modo s ó _ Sesgo = 3( x - mediana) s Estos son llamados primer y segundo coeficientes de sesgo de Pearson, respectivamente. El signo de este coeficiente nos indicará si el sesgo es positivo o negativo. Cuando mas lejano este su valor del 0, la distribución se apartará mas de la simetría. En una distribución simétrica coinciden la media aritmética, la mediana y el modo. Cuando la distribución se vuelve asimétrica, a la media aritmética la afecta, no solo el hecho de que haya un exceso de frecuencia de un lado, sino también se ve arrastrada, por los valores atípicos, por lo cual se ubica hacia el extremo donde se encuentran éstos valores. La mediana divide a la curva en dos áreas iguales. No se presta para el tratamiento algebraico que estudiamos para la media aritmética. El valor de la mediana también cambia en dirección de la asimetría. El modo se ubica en el valor de la variable al que le corresponde la mayor frecuencia, (el máximo de la curva). El modo no es una medida útil, a menos que se base sobre bastantes términos para presentar una concentración bien definida. De puntiagudez: Leptocúrtica mesocúrtica platicúrtica Esta deformación tiene que ver con el cambio de la dispersión de los datos alrededor de un valor central, que en general es la media aritmética. La curtosis mide cuán puntiaguda es una distribución, en general con respecto a la normal. Si tiene un pico alto como en la figura de la izquierda, se dice leptocúrtica, mientras si es aplastada como la de la derecha, se dice platicúrtica. La distribución normal, (la del centro), no es ni muy puntiaguda, ni muy aplastada, se llama mesocúrtica. Una medida de curtosis, llamada coeficiente percentil de curtosis, basada en cuartiles y percentiles, está dada por: k = ______Q_______ P90 - P10 Donde: Q = rango semi – intercuartilico, o sea Q 3_ - Q 1 2 El valor teórico de curtosis para una distribución normal es de 0,263. Si en una curva, k es mayor al valor mencionado, la distribución es platicúrtica, si es menor a 0,263 es leptocúrtica. MEDIDAS DE DISPERSIÓN De la característica más importante que describe o resume un grupo de datos, o sea de su posición, ya hemos hablado. En ésta sección hablaremos de la segunda característica en orden de importancia, que describe un conjunto de datos: la dispersión La dispersión es la cantidad de variación, desperdigamiento o diseminación de los datos. Dos o más conjuntos de datos pueden diferir tanto en tendencia central como en dispersión o, pueden tener las mismas medidas de tendencia central, pero pueden tener grandes diferencias en términos de dispersión, como se muestra en el diagrama siguiente: Mayor concentración de los valores _ x Por ejemplo si los pesos correspondientes a tres animales son 169; 170 y 171 kg, su media es 170 kg. Pero si los pesos de los tres animales hubiesen sido 120; 170 y 220 kg, el peso medio también hubiera sido 170 kg. Para poder determinar si los datos del primer grupo son más parecidos entre sí que los del segundo, deberíamos tomar un punto de referencia y medir las diferencias entre cada valor observado y el punto de referencia establecido. Generalmente, el punto de referencia elegido corresponde a una medida de posición adecuada. En general, disponiendo de un punto de referencia podemos juzgar si una respuesta es extrema o no, a partir de la diferencia entre el punto-respuesta y el punto de referencia. Como ya sabemos, cuando el punto-respuesta corresponde al valor observado de una variable y el punto de referencia a una medida de posición, tomamos la diferencia como sinónimo de desviación. Debido a la propiedad de la media aritmética que dice: “La suma de las desviaciones de cada valor de la variable con respecto a la media aritmética es 0”; nos damos cuenta que el simple promedio de las desviaciones no nos sirve para determinar la variabilidad de un conjunto de datos; por ello será necesario recurrir a otros indicadores que actúen como medidas resúmenes. Por tanto, al manejar datos numéricos, es insuficiente resumir los datos con la mera presentación de algunas medidas descriptivas de la tendencia central. Los datos también se deben caracterizar en términos de su dispersión o variabilidad. Estos indicadores se conocen con el nombre de medidas de dispersión. Principales medidas de dispersión Medida de dispersión relativa Rango o recorrido de la variable ® Desviación media (MD) Desviación mediana (D M) Variancia ( 2 (x) ó S2 (x) ó V (x) ) Desvío estándar ( (x) ó S (x) ó D.S (x) ) Rango o desvío entre percentiles (D.P.) Rango o desvío semi-intercuartílico (D.S.Q.) Coeficiente de variación (C.V.) Rango: se denomina rango de un conjunto de observaciones a la diferencia entre el mayor y el menor valor de la variable. R=XM - Xm Es la más sencilla, pero también suele ser la más imperfecta de las medidas. Es completamente dependiente de los dos valores extremos que toma la variable. Es satisfactoria únicamente cuando la muestra es pequeña, prácticamente menor a 10 observaciones. Es muy utilizada en los estudios de control de procesos productivos para la confección de gráficos de control, dado que en éstos casos, los procesos son generalmente evaluados por muestras frecuentes y de reducido tamaño. No obstante, si se desea obtener el rango para datos agrupados, las formas de hacerlo es: R = marca de clase de la clase más alta - marca de clase de la clase más baja Ó R = Ls de la clase más alta - Li de la clase más baja DESVIACIÓN MEDIA: Se denomina también desviación promedio, y se la define como la sumatoria del valor absoluto de las desviaciones de los valores de la variable, con respecto a la media aritmética. (El valor absoluto de un número es el número sin signo y se denota con dos barras verticales). _ MD = xi - x N Si los datos están agrupados, y cada valor de la variable presenta una frecuencia fi, la desviación media se obtiene con la siguiente fórmula: _ MD = xi - x fi N No se usa con mucha frecuencia, porque al usar valores absolutos no es fácil de manipular algebraicamente. DESVIACIÓN MEDIANA En la fórmula anterior se reemplaza a la media aritmética por la mediana, obteniendo la siguiente: DMe = xi - Me N o si los datos están agrupados: DMe = x i - M e f i N Las desviaciones son definidas ahora, como diferencias entre las observaciones y la mediana. La utilización de la desviación media o de la desviación mediana depende de la naturaleza de los datos que intervienen en el estudio. VARIANZA Y DESVÍO ESTÁNDAR Dos medidas de dispersión que tienen en cuenta cómo se distribuyen todas las observaciones de los datos, son la varianza y su raíz cuadrada, la desviación estándar. Vimos que la manera más adecuada de estudiar la mayor o menor dispersión de los datos alrededor de un cierto valor de referencia es utilizar la desviación de cada uno de los valores individuales con respecto al valor de referencia establecido. Volvemos ahora a considerar las desviaciones con respecto a la media aritmética de un conjunto de datos. Mediante un artificio matemático, elevaremos cada desviación al cuadrado. Obtendremos así, promediando estas desviaciones elevadas al cuadrado, una nueva medida de dispersión ampliamente conocida y que se denomina varianza, Si hacemos uso de la propiedad de los mínimos cuadrados de la media, entonces, como medida de las diferencias promedio al cuadrado en torno a la media; la varianza debe ser menor que cualquier otra medida de diferencias promedio al cuadrado en torno a cualquier otro indicador de tendencia central. La varianza es la suma de las desviaciones con respecto a la media aritmética elevadas al cuadrado dividida por el número de observaciones. _ V(x) = (xi - x )² N Un valor de éste parámetro más alto que otro, para una misma variable, indica mayor dispersión y viceversa. A ésta fórmula se la denomina fórmula definicional, teórica o general. Ejemplo: para los tres valores de pesos de animales que hemos considerado anteriormente, obtendríamos la varianza de la siguiente manera: _ _ xi xi - x (xi - x)² 120 170 220 - 50 0 50 2.500 2.500 5.000 V(x) = 5.000 = 1.666,66 kg² 3 Vemos que al utilizar éste artificio matemático de elevar las desviaciones al cuadrado, nos ha quedado alterada la unidad de medida. Para evitar éste inconveniente se emplea como medida de dispersión la raíz cuadrada de la varianza, la que se conoce con el nombre de desviación estándar De acuerdo a lo establecido, podemos entonces decir que: La desviación estándar es la raíz cuadrada positiva de la varianza D.S. = V(x) Más adelante veremos el papel fundamental que juega la desviación estándar en la estadística. Obteniendo la varianza con la fórmula dada, exige el cálculo de los desvíos, que a veces es poco práctico. Hay una forma alternativa que evita éste cálculo y resulta de aplicar una fórmula que se obtiene desarrollando la fórmula de la Varianza, como sigue: _ V(x) = (x i - x)2 N _ _ V(x) = (x i)² - 2 x i x + (x)² N _ _ V(x) = x i² - 2x i xi + N (x)² N _ _ V(x) = xi² - 2 x xi + N x² N N N _ V(x) = x i² - x² N Ésta fórmula se denomina computacional o de trabajo. Cuando se tienen datos agrupados en una distribución de frecuencias, la única diferencia en el cálculo de las medidas de dispersión consiste en ponderar a cada desviación por su correspondiente frecuencia absoluta. Las fórmulas serían: _ V(x) = (x i - x )2 f i N o _ V(x) = xi fi - x 2 N 2 Propiedades de la varianza: a) la varianza de una variable es siempre no negativa, esto surge de la propia definición V(x) 0 b) la varianza de una constante es igual a 0 V(a) = 0 Si x = a, _ su media será: x = a; por lo tanto: V(a) = ( a - a)² = 0 N Gráficamente, no hay variabilidad. c) la varianza de una variable más o menos una constante es igual a la varianza de la variable. V( x a ) = V(x) ______ V(x-a) = (xi – a) - ( x - a )² N ____ x - a = ( xi – a) N _ V(x-a) = xi – a – x + a² N _ V(x-a) = xi - x² N ____ x - a = xi – N a N N ____ _ x–a=x–a V(x - a) = V(x) d) la varianza de una variable por una constante es igual al cuadrado de la constante por la varianza de la variable. V(x.a) = a V(x) __ x.a = (x.a) N __ V(x.a) = (xi.a - ax)² N __ x.a = axi N _ V(x.a) = a (xi - a x)² N __ _ x.a = a. x 2 2 V(x.a) = a 2 V(xi) e) la varianza de una variable dividida una constante es igual a la varianza de la variable sobre el cuadrado de la constante. V(xa) = V(x) a2 RANGO ENTRE PERCENTIL 10 – 90 Se define por: RP = P 90 - P 10 En éste caso se trabaja solo con el 80% de los datos. RANGO SEMI INTERCUARTIL Esta simple medida considera la extensión en el 50 % medio de los datos y, por tanto, no sufre ninguna influencia de los valores extremos que podrían ocurrir, es decir: RSI = Q 3 - Q 1 2 La desventaja de ésta medida es que solo mide el medio de la distancia entre el cuartil tres y el cuartil uno. COEFICIENTE DE VARIACIÓN La desviación estándar tiene todavía el problema que no permite comparaciones de la dispersión de dos o más distribuciones, especialmente cuando las variables de estas distribuciones tienen distintas unidad de medida. Por ejemplo, para la variable “x” expresada en $ que representa los salarios de un grupo de obreros, podemos tener un S que es igual a $260 y para una variable “w” expresada en kilogramos, (kg), que representa la producción de carne de un determinado establecimiento ganadero, su S es igual a 2.500 Kg. La comparación directa de ambos desvíos no es posible y no podríamos afirmar que los salarios tienen menor dispersión que la producción de carne porque posee un menor S. Para posibilitar la comparación, se define el Coeficiente de Variación que es el cociente entre: s . 100 _ x Por lo tanto: C.V. = D.S . 100 _ x El coeficiente de variación expresa la desviación estándar como un porcentaje de la media aritmética. Es una medida de dispersión relativa y, dado que surge como el cociente entre dos cantidades expresadas en la misma unidad de medida, es independiente de ella. Se debe hacer notar aquí que a medida que el coeficiente de variación disminuye, se observa una mayor homogeneidad de los datos o, lo que es lo mismo, los datos están más concentrados alrededor del promedio. En el ejemplo mencionado anteriormente, si el salario medio fuese de $400 y la producción media fuese 10.000Kg, la distribución de la producción de carne tendría menor dispersión que la de salarios a pesar de su mayor desvío estándar, dado que: C.V ( x ) = 260 $ . 100 = 65% 400 $ C.V.(x) = 2.500 Kg. 100 = 25% 10.000Kg Siempre se verifica que: 0 C.V. Además el coeficiente de variación es útil también al comparar dos o más conjuntos de datos, (distribuciones), que se miden en las mismas unidades de medida pero difieren a un grado tal que las comparaciones directas de las respectivas desviaciones estándar no es muy útil. Por ejemplo: si estuviéramos comparando la dispersión de los pesos de los animales recién nacidos y la de los pesos de otro grupo de animales adultos. Ahora veremos algunos ejemplos a fin de clarificar los pasos a seguir para obtener éstas que denominamos principales medidas de dispersión y su aplicación práctica. Ejemplos: Los siguientes datos corresponden al número de días en que faltaron al trabajo 15 personas empleadas en un aserradero, en un determinado período: 1 8 2 2 3 9 2 3 5 2 4 7 9 8 5 a) Obtenga el rango, la desviación mediana y la desviación media b) Obtenga variancia, desvío estándar y coeficiente de variación R = XMax - X min R = 9 – 1 = 8 días _ _ _ _ Xi fi Fi xi.fi xi - Med xi – Medfi xi - x xi- xfi (xi-x) (xi- x)² 1 2 3 4 5 6 7 8 9 1 1 4 5 2 7 1 8 2 10 0 10 1 11 2 13 2 15 1 8 6 4 10 0 7 16 18 3 2 1 0 1 2 3 4 5 3 8 2 0 2 0 3 8 10 3,66 2,66 1,66 0,66 0,34 1,34 2,34 3,34 4,34 3,66 10,64 3,32 0,66 0,68 0 2,34 6,68 8,68 _ (xi – x)² fi -3,66 13,1052 -2,66 6,7852 -1,66 2,4652 -0,66 0,1452 0,34 0,1166 1,34 1,7956 2,34 5,47 56 3,34 11,1556 4.34 18,8356 13,1052 27,1408 4,9304 0,1452 0,2332 0 5,4756 22,2112 37,6712 • 15 -- 70 -36 -36,66 --- 110,9128 ------------------------------------------------------------------------------------------------------------- D.Med. = xi - Med fi = 36 = 2,4 días N 15 _ D. M. = xi - x fi = 36,66 = 2,444 días N 15 _ V (x) = (xi - x )² fi = N 110,9128 = 7,394 días2 15 _ D. S. (x) = ( xi - x )² fi N __________ = 7,394 días2 = 2,72 días C. V. = D. S. . 100 = _ X 58,37 % A un grupo de operarios que participaron de un experimento se les pidió que realizaran diez actividades diferentes. Más tarde se evaluaron las mismas. El número de actividades bien realizadas fueron las siguientes: Nº ACT. 0 - 2 2 - 4 4 - 6 6 - 8 8 - 10 ---- fi Fi xi 1 2 7 8 2 20 1 3 10 18 20 -- 1 3 5 7 9 -- xi. fi 1 6 35 56 18 116 _ (xi - x) _ (xi - x)² _ (xi - x)² fi 4,8 -2,8 -0,8 1,2 3,2 -- 23,04 7,84 0,64 1,44 10,24 -- 23,04 15,68 4,48 11,52 20,48 75,20 _ x = 5,8 actividades V(x) = 75,20 = 3,76 actividades ² 20 D. S (x) = 3,76 act2 = 1,94 actividades C. V. = 1,94 5,8 . 100 = 33,43 % ANÁLISIS DE REGRESIÓN Hasta ahora hemos estudiado metodologías estadísticas para analizar la información de una variable, proporcionada por una o más muestras, utilizando las herramientas que nos brinda la estadística descriptiva. En la práctica observamos muchas veces que existe una relación entre dos o más variables. Por ejemplo entre la cantidad de alimento consumido y los litros de leche producidos, entre el peso de los animales y su edad, la edad de los árboles y su diámetro, etc. Ahora nos abocaremos a estudiar que pasa cuando tenemos dos variables y deseamos efectuar inferencias acerca de los cambios que se producen en una de ellas cuando cambia la otra. Para describir la forma de la relación que liga a estas dos variables utilizaremos los llamados modelos de regresión. Por ejemplo, supongamos que la variable x, (llamada independiente), define el precio de la carne, y la variable y, (llamada dependiente), los kilogramos de carne consumidos en nuestra provincia. Si descubrimos la relación que liga al precio de la carne con los kilogramos consumidos en el mercado podremos predecir la cantidad de carne que se venderá cuando se producen variaciones en los precios del bien. Asimismo cuando hablemos del grado de la relación que liga a dos variables también utilizaremos complementariamente el análisis de correlación, a través de un indicador del grado de intensidad de la relación entre las dos variables que es independiente de sus respectivas escalas de medición, llamado coeficiente de correlación lineal entre x e y, o coeficiente de correlación de Pearson. O sea: el análisis de regresión se utiliza en la predicción. Para el caso de dos variables se desarrolla un modelo que utiliza la variable independiente x, para obtener una mejor predicción de la otra variable: la variable dependiente y. Por ejemplo: cuánta pastura deberá consumir cada animal para obtener determinado peso; que cantidad de fertilizante se necesitará para obtener determinado rendimiento; la humedad relativa que habrá que mantener para evitar el desarrollo de pulgones. El análisis de correlación, por contraste con el de regresión, se utiliza para medir la fuerza de la asociación entre las variables. Por ejemplo: peso estatura. SIGNIFICADO DEL TÉRMINO REGRESIÓN Por los años 1800 surge el término “regresión” a partir de estudios realizados por Sir Francis Galton, un experto inglés en estudios de herencia, que fue uno de los primeros investigadores que estudió relaciones entre variables. El investigó la relación existente entre la altura de los hijos con respecto a la de sus padres. Observó que padres altos tenían hijos cuya altura era mayor a la altura promedio, pero no eran mas altos que sus padres. De la misma manera, padres bajos tenían hijos bajos pero no tan bajos como ellos. Las tendencias de las alturas de los hijos eran más hacia un cierto promedio de la población que hacia las alturas de sus respectivos padres. Galton expresó que las alturas de los hijos regresaban a un promedio y de allí surgió el término regresión. En la actualidad, la palabra regresión se utiliza para definir la naturaleza de la relación entre dos o más variables. A partir del concepto de que para cada valor de la variable x se genera una distribución de valores de la variable y, el modelo de regresión estima una recta promedio que denominaremos recta de regresión EL DIAGRAMA DE DISPERSION Para hallar la ecuación que relacione las variables, el primer paso es recoger los datos de las variables en consideración, y es conveniente presentarlos en una forma de más fácil interpretación visual. Anteriormente, cuando recopilamos información, desarrollamos varias gráficas, como histogramas, polígonos y ojivas, para la presentación de datos. En un análisis de regresión (que incluye una variable independiente y una dependiente), los valores individuales se trazan en una gráfica bidimensional llamada diagrama de dispersión. Cada valor se traza en sus coordenadas x e y particulares. Ejemplos: precio-kilogramos de carne consumidos; pastura-kilogramos de peso de los animales, edad-altura de las especies forestales, etc. Examinaremos si hay o no una relación entre dos variables y, si la hay, cómo se puede prever una mejor predicción de la existencia de la variable, y, dependiente. TIPOS DE MODELOS DE REGRESIÓN La naturaleza de la relación puede adoptar muchas formas, que van desde funciones matemáticas muy sencillas hasta las muy complicadas. La relación más simple consiste en una línea recta o relación lineal. En la figura siguiente se muestra un ejemplo de la relación lineal. a 0 El modelo para la línea recta (lineal) se puede representar como: y = a + bx donde a = ordenada al origen, o sea, intercesión real con el eje y, de la población b = pendiente real de la población En este modelo, la pendiente b de la recta representa el cambio unitario en y, por cambio unitario en x, es decir, representa la cantidad de cambio de y (positivo o negativo) para un cambio unitario particular en x. Por otra parte, la intercesión a con el eje y, representa un factor constante que está incluido en la ecuación. Representa el valor de y cuando x es igual a cero. El modelo estadístico es sólo una aproximación a la relación exacta entre las dos variables. La distribución de los valores x e y en el diagrama de dispersión influye en la selección del modelo matemático adecuado. DETERMINACION DE LA ECUACION PARA REGRESION LINEAL SIMPLE Una vez confeccionado el diagrama de dispersión y observado que los puntos tienen una tendencia lineal, trataremos de deducir los parámetros a y b a partir de los datos estadísticos de ésa distribución de frecuencias conocida. La técnica que posibilita la obtención de los parámetros para una relación funcional dada, se denomina: AJUSTAMIENTO. En general, las trayectorias lineales responden a la expresión a + bx, es decir que podemos escribir: yc = a + bx y representa a todos y cada uno de los puntos de la recta. Existen dos métodos para realizar el ajustamieto: El método libre: en el que, luego de confeccionado el diagrama de dispersión, el observador analiza el comportamiento de los datos para determinar el tipo de curva que mejor se ajusta a los mismos. Definido el tipo de curva, si por ejemplo esta es una recta se eligen dos puntos y se la traza. El inconveniente es que diferentes observadores tendrán diferentes rectas, porque es difícil de que coincidan a la hora de elegir la recta que mejor muestre el comportamiento del conjunto de puntos. El método de los mínimos cuadrados: es mas preciso, pues permite obtener la mejor recta de ajuste, o sea la que hace mínima la sumatoria de las distancias al cuadrado, de cada valor observado y el calculado. yo 0 x1 x2 yc _ y x3 Entre los valores observados y calculados ( yc e yo ) hay una diferencia o distancia . Lo ideal para nosotros sería encontrar una recta que pasara por todos los puntos de las observaciones, o sea, que dejara diferencias o residuos nulos. Esto sería posible si las observaciones estuvieran perfectamente alineadas (caso muy especial). Gráficamente sería: Normalmente esto no se da y debemos buscar aquella recta que deja los menores residuos posibles. Una forma de trabajar sería planteando las distintas rectas con las que podemos ajustar un diagrama y para cada una de ellas obtener la suma de los residuos que deja, y escoger la que tiene menor suma. Esto encierra el inconveniente de que puede haber compensaciones de residuos positivos y negativos, llevándonos a un resultado equívoco. Para obviarlo podríamos tomar la suma de los valores absolutos de los residuos y después comparar, pero la presencia del valor absoluto ocasiona algunas limitaciones algebraicas que convienen evitar. La tercera alternativa es trabajar con los cuadrados de los residuos y elegir la recta que posea menor suma de estos cuadrados. Este método se conoce como de “mínimos cuadrados” y se basa en hacer: di = mínimo; o sea: (Yo - Yc )² = mínimo Esto se basa en la segunda propiedad de la media aritmética. La ventaja es que vamos a obtener una única recta de ajustamiento cualquiera sea el observador y va minimizar la suma de los cuadrados de los desvíos, siendo por tanto, la mejor recta de ajuste, porque lleva implícita la idea de minimizar errores. Este es un método objetivo, no como el anterior que es subjetivo, por depender del observador. Para conocer el valor de los parámetros “a” y “b” con lo que conoceríamos la recta Yc y como x e y son conocidos, (porque son las observaciones). 1.- Multiplico todas las ecuaciones por el coeficiente de a y 1 = a + b x1 y 2 = a + b x2 y 3 = a + b x3 ... 2.- Sumo miembro a miembro yi = Na + b x i (1) 3.-Multiplico las n ecuaciones por el coeficiente de b y1 x1 = ax1 + bx21 y2 x2 = ax2 + bx22 y3 x3 = ax3 + bx23 .. .. yn xn = axn + bx 2n 4.-Sumo miembro a miembro yi xi = a xi + b x 2 i (2) 5.- Con (1) y (2) formo un sistema de ecuaciones normales, a partir del cual determinaremos el valor de los parámetros a y b. Para ello multiplicamos todos los términos de la primera ecuación por: x i N Este es un artificio para lograr el fin sin alterar el valor de la ecuación: y xi = N a xi + b xi xi N N N yi xi = a xi + b ( xi)2 N N (3) 6.- Se resta (3) de (2) yi xi = a xi + b xi 2 yi xi N = a xi + b ( xi)2 N - yi xi - yi xi = b xi 2 - b ( xi)2 N N 7.-Sacando común denominador: N yi xi - yi xi = N b xi 2 - b ( xi)² N N N yi xi - yi xi = b N xi ² - ( xi )² 8.-Queda determinado el valor de uno de los parámetros de la ecuación que es la pendiente o coeficiente angular b = N yi xi - yi xi N xi² - ( xi )² 9.- Tomando éste valor b y reemplazando en la primera ecuación del sistema de ecuaciones normales podemos determinar cuánto vale el segundo parámetro con lo cual quedaría definida la ordenada al origen. y i = N a + b xi yi = N a + N yi xi - yi xi xi N xi ² - ( xi )² Saco común denominador yi = Na [ N xi 2 - ( x i)2 ] + N yi x i N xi 2 - ( x i )2 - y i ( x i)² yi [N xi 2 - ( xi )2 ] = a N2 xi2 - a N ( xi)2 + N yi xi - yi (xi)² ] yi N xi 2 - yi ( xi)2 - N xi yi + yi ( xi)² = aN [N xi 2 - y i xi ] N (yi xi 2 - xi yi ) = a N [ N x i 2 - a = ( y i x i) ] yi xi 2 - x iy i x i N xi ² - ( xi )² Ó _ a = y donde - _ y = yi N _ b x _ x = xi N La ecuación de regresión se puede utilizar para predecir el valor Y para un valor dado de x. ERROR ESTÁNDAR DE ESTIMACIÓN Aunque el método de los mínimos cuadrados da por resultado una línea que ajusta en los datos con la mínima cantidad de variación, la ecuación de regresión no es perfecta para las predicciones, sobre todo cuando se toman las muestras de la población, excepto si todos los datos observados caen en la línea de regresión predicha. Así como no se puede esperar que todos los valores de los datos estén ubicados exactamente en su media aritmética, en la misma forma tampoco se puede esperar que todos los puntos de los datos caigan exactamente en la línea de regresión. Por tanto, la línea de regresión sirve sólo para predicción aproximada de un valor de y, para un valor dado de x. Entonces, se necesita desarrollar un estadístico que mida la variabilidad en los valores observados de Y y el valor calculado de Y , a partir de los valores predichos de Yo e Yc , en la misma forma que se desarrolló una medida de la variabilidad de cada observación en torno a su media. la medida de la variabilidad en torno a la línea de regresión se llama el error estándar de la estimación. Este error de estimación se obtiene haciendo la raíz cuadrada del promedio de la suma de los cuadrados de los desvíos, entre cada valor observado y la recta de estimación. ANALISIS DE CORRELACION Cuando la correlación es de tipo lineal, el análisis de correlación se realiza a través del coeficiente de correlación de Pearson, que se simboliza con la letra r, y se calcula de la siguiente manera: r= N x y - (x ) ( y)_______________ N x 2 - ( x ) 2 N y2 - ( y ) 2 El campo de variación del coeficiente de correlación de Pearson es de - 1 a 1, o sea: -1 r 1 Generalmente se dice que los coeficientes de correlación mayores de 0,7 indican fuerte correlación; de 0,3 a 0,7 correlación moderada y de menos de 0,3 débil o nula correlación. No obstante habrá que tener algunos cuidados ya que el simple criterio valorativo no es suficiente para juzgar el significado de la correlación, y menos afirmar que un coeficiente 0,93 indica correlación mas alta que un coeficiente 0,78; sin que antes se haya indicado, con toda claridad, si el mismo se obtuvo de una población o de una muestra y la naturaleza de la población y de las variables correlacionadas. Un índice de correlación nos indica tres cosas fundamentales: - la existencia o no de una relación entre las variables estudiadas - la dirección de esta relación, (si es que existe), positiva o negativa. - el grado o intensidad de esta relación, (el valor máximo es 1 y el mínimo 0, que es la no correlación). Coeficiente de determinación Es el coeficiente de correlación elevado al cuadrado, ( r2 ), e indica la proporción de la varianza de y que queda explicada por el conocimiento de x. El campo de variación de este coeficiente es de: 0 r2 1 r 2 = variación explicada variación total El coeficiente de indeterminación es: 1 - r 2 , e indica la proporción de la varianza de y que no queda explicada por el conocimiento de x. Gráficamente: yo var. no explicada var. total yc var. explicada _ y TEORÍA DE LA PROBABILIDAD Si todas las investigaciones se pudieran realizar observando o recogiendo información de todos los elementos que componen la población, el método estadístico se reduciría fundamentalmente en lo expuesto en la Estadística Descriptiva. Pero en la investigación muy rara vez se puede estudiar a todos los miembros de la población, por lo que se recurre a las muestras, a partir de las cuales el investigador, haciendo uso de las técnicas que le brinda la estadística inferencial proyecta los resultados obtenidos, a toda la población, explicitando el grado de precisión y de confianza que le merecen las mismas. La inferencia estadística está basada en la teoría matemática de la probabilidad. Antes de empezar a hablar de la misma, definiremos los fenómenos determinísticos y los aleatorios. Los fenómenos determinísticos son aquellos de un comportamiento exacto, perfectamente previsible. Por ejemplo si pongo al fuego un recipiente con agua, cuando este alcance 100º C hervirá; si un ser viviente deja definitivamente de consumir alimentos, en mayor o menor tiempo, morirá. Los fenómenos aleatorios, en cambio, son de resultado incierto, pueden presentarse de una forma u otra, sin que podamos saber de antemano qué forma final tendrán. Por ejemplo, si tiramos una moneda no sabemos de antemano, si caerá cara o cruz; ante la gestación de un ser viviente, éste podrá ser macho o hembra, si nos hacemos un análisis de sangre, podremos o no tener el número de glóbulos rojos que se considere normal para la edad y el sexo correspondiente, etc. Solamente cuando se trata de éste tipo de fenómenos, podremos hablar de probabilidad. Cuando los designamos con el nombre de aleatorios confirmamos nuestra incertidumbre acerca de sí el evento ocurrirá o no ocurrirá, en el momento que efectuamos la observación. Lo que se propone la teoría de probabilidad es asignar un valor a ésta incertidumbre, en otros términos cuantificar el azar. En éste momento se hace necesario definir algunos términos que utilizaremos al estudiar la teoría de probabilidad. Un experimento aleatorio es una operación realizada un cierto número de veces, bajo las mismas condiciones de experimentación. Un resultado no puede preverse cuando el experimento aleatorio se realiza una sola vez, pero si se repite un gran número de veces, los resultados responden a cierta “ley” de comportamiento regular y previsible. Llamamos evento aleatorio a cada uno de los resultados de un experimento aleatorio. Esto nos lleva al concepto de espacio probabilístico que es el conjunto que contiene todos los resultados posibles de un experimento aleatorio. Lo simbolizamos con ó , (letra griega omega). Para el caso de la gestación y la moneda, respectivamente, el espacio probabilístico sería: = macho, hembra = cara, cruz La formulación del espacio probabilístico es muy importante, ya que nos permite situarnos en el problema. Este espacio probabilístico puede estar compuesto por “eventos simples”, como en los ejemplos anteriores, es decir que los resultados están dados en su forma más sencilla. Ahora bien, entre los eventos simples podemos efectuar combinaciones que dan lugar a eventos compuestos. Por ejemplo, si tenemos dos bolilleros, con las bolillas 1 y 2 pintadas de blanco, el primero. El segundo bolillero tiene bolillas rojas, numeradas del 1 al 4. Si extraemos una bolilla de cada uno de ellos, podemos estar interesados en “todos los pares de bolillas en los que la suma sea un número par”. Este resultado está compuesto por un conjunto de resultados o eventos simples, y conforma un evento compuesto. Si designamos con A el evento compuesto, será: A = pares de bolillas cuya suma sea par y tendremos que el espacio probabilístico de A, sería: A = b1 r1, b2 r2 , b1 r3 , b2 r4 TEORIAS DE PROBABILIDAD Dijimos que los eventos tienen una probabilidad asociada, o sea una probabilidad de presentación. Desde muy antiguo se quiso llevar a una forma medible a ésta probabilidad, fundamentalmente a partir de los estudios de los matemáticos, orientados a examinar los juegos de azar. Hay varios enfoques para cuantificar la probabilidad de un evento, expresados en las siguientes teorías: Clásica o “a priori”: es la más antigua, se la debemos a Laplace, dice que la probabilidad (P) de un evento (A), o sea P(A) , es igual al número de casos favorables a A, dividido por el número total de casos igualmente posibles, es decir, los casos que son “favorables”, mas los casos que “no son favorables”: P(A) = casos favorables a “A” f+nf ( o sea todo el espacio) Definición a priori, en el sentido de que podemos determinar la probabilidad de los hechos sin necesidad de investigación empírica alguna. Por ejemplo si sabemos que un dado tiene 6 caras numeradas del 1 al 6, = 1, 2, 3, 4, 5, 6 y consideramos el evento “A”, como: A = presentación del número 3 Así, de 6 resultados posibles, sólo 1 es favorable al 3, por tanto: P(x=3) = 1/6 = 0,166 El problema de éste enfoque de la probabilidad reside en la exigencia de que los eventos deben ser igualmente posibles. Así, si la moneda es defectuosa no habría forma de calcular ésta probabilidad. Frecuencial o “a posteriori”: es también denominada empírica porque se determina por la vía experimental y de define como el cociente entre dos frecuencias: P (E) = f e Ft esta expresión P(E) es la probabilidad del evento E; fe es la frecuencia con que ocurre el evento E dentro de la población en la que investigamos su ocurrencia; ft es la frecuencia total, o sea la frecuencia de la ocurrencia, sumada a la frecuencia de su no-ocurrencia: suma que, naturalmente es igual a la frecuencia de la población. Este enfoque a posteriori se debe al ruso Kolmogorof. Por ejemplo: la probabilidad a priori de obtener un 1 al arrojar un dado es 1/6, pues el dado tiene 6 caras posibles y sólo una lleva escrito un 1. Para la definición a posteriori tendríamos que arrojar un dado una gran cantidad de veces. Por ejemplo, si tiramos el dado 60 veces, teóricamente tendríamos que sacar el 1, 10 veces, pero esto no suele suceder. Para lograr empíricamente hallar 1, una vez cada seis hay que tirar el dado muchas veces. ¿Cuántas?. En teoría una cantidad de veces infinita. En matemática se dice que cuando N tiende a , p es el límite de la probabilidad de una serie de tiradas. Por ejemplo, si yo tiro un dado 60 veces es posible que halle no 10, sino 8 veces un 1, entonces la probabilidad de hallar 1 en este caso será 8/60 = 0,133. Si lo tiro 600 veces tal vez salga 95/600 = 0,158 que es un valor muy cercano a 0,166. Esto se llama frecuencia relativa. En la práctica, la diferencia entre la definición a priori y la definición a posteriori no es vital. El enfoque de Laplace es una definición teórica y el de la probabilidad como frecuencia relativa es operacional. Axiomática: dice que la probabilidad de un evento A en el experimento aleatorio E, es el valor numérico que satisface los 3 axiomas siguientes: 1.- Sí A es un evento, luego: P(A) 0 para todo A 2.- Si representa el conjunto de todos los resultados posibles de un experimento aleatorio, luego: P() = 1 3.- P (A1 U A2 U ... ) = P (A1) + P (A2) + ..... si A1, A2, .... es una sucesión finita o infinita de eventos incompatibles o mutuamente excluyentes. El símbolo U implica la unión o suma de eventos. Eventos mutuamente excluyentes: son aquellos que no pueden presentarse conjuntamente. Por ejemplo un determinado animal no puede ser de dos razas diferentes a la vez, una especie vegetal no puede ser arbusto y gramínea a la vez, una persona no puede ser delgada y gorda a la vez, etc. Ejemplo: Un establecimiento tiene 30 empleados, de los cuales, 20 son varones y 10 son mujeres. Si se considera el experimento de seleccionar un empleado al azar de éste establecimiento, determine la probabilidad de que: a) sea elegido un varón b) sea elegida una mujer c) sea elegido un varón o una mujer Estos eventos son mutuamente excluyentes? Evento imposible: es aquel que no tiene ningún resultado favorable dentro del conjunto de resultados posibles de un experimento aleatorio. Se simboliza: P ( ) = 0 _ Evento complemento (A): de un evento A es el evento compuesto por todos los resultados que no contiene el evento A. _ Por definición, los eventos A y A son mutuamente excluyentes. Entonces: _ _ P(A o A) = P(A) + P(A) = 1 _ Luego, despejando P(A), se tiene: _ P(A) = 1 – P(A) Podemos decir que la probabilidad es un número que varía entre 0 y 1 ya que, considerando las dos situaciones extremas, tenemos: 0 P () = 0 y ≤ P(A) ≤ 1 P() = 1 Siendo el evento imposible y el evento seguro o cierto. Eventos no mutuamente excluyentes: son aquellos que tienen resultados en común. Supongamos que simbolizamos con A el hecho de ser flaco y con B el hecho de que ser alto. Si de un grupo de personas quisiéramos hallar la probabilidad de que al seleccionar una ésta sea flaca o alta. P(A o B) = P(A U B) = P(A) + P(B) - P(A B) El primer término de la suma representa la probabilidad de ocurrencia del evento A y el segundo término representa la probabilidad de ocurrencia del evento B. Pero cada uno, incluye los resultados de aparición conjunta de ambos eventos (A y B), o sea que la persona sea flaca y alta a la vez. Por éste motivo, el tercer término resta una vez la probabilidad de la intersección que, de otro modo, sería sumada dos veces. Ley de la multiplicación o probabilidad compuesta: Si A y B son dos hechos cualesquiera, la probabilidad de obtener ambos A y B es el producto de la probabilidad de un hecho por la probabilidad condicional de obtener el otro una vez que se ha obtenido el primero. P(A y B) = P (A) . P(B/A) El término “probabilidad condicional” significa que nosotros reconocemos que la probabilidad de A puede depender de sí B se presenta o no. Dos hechos son “independientes” cuando, y solo cuando, la probabilidad de un hecho A, habiéndose dado otro B, es igual a la probabilidad de A no habiéndose dado B, es decir sí: P(A/B) = P (A) y P(B/A) = P(B) Podemos decir que A y B son hechos “independientes”. En este caso la probabilidad compuesta de A y B sería su producto P(A y B) = P (A) . P (B) Ejemplo: Supongamos que la probabilidad de que una pequeña fábrica sea destruida por un incendio en un período de 12 meses es de 0,005, según cálculos efectuados por un organismo pertinente. Una compañía de seguros ofrece al propietario de la fábrica una póliza contra incendio por el término de un año valuando la misma en 80.000 pesos y cobrándole una prima de 500 pesos. ¿Cuál es la ganancia esperada de la compañía?. En primer lugar definimos la variable aleatoria y establecemos los distintos valores que asume. La variable aleatoria G = ganancia de la compañía, puede tomar los valores 500 pesos si la fábrica no sufre un accidente de incendio y – 79.950 pesos si se quema la fábrica durante el año que cubre la póliza. La función de probabilidad de G es entonces: Gi 500 -79.950 Total P(Gi) 0,995 0,005 1,000 Con esta información podemos calcular la ganancia esperada promedio de la compañía de seguros: E(G) = 500 . 0,995 + (-79.950). 0.005 = 97,75 pesos La compañía de seguros espera ganar 97,75 pesos, en promedio, con operaciones de este tipo. Distribuciones de probabilidad Es muy frecuente que a los distintos eventos de un espacio probabilístico, se les haga corresponder números pertenecientes al conjunto de los números reales. Así por ejemplo, si lanzamos dos monedas al mismo tiempo y simbolizándola con xi , definimos la variable como la aparición de cara. El espacio probabilístico será: = c c , c x , x c , x x A éste conjunto de resultados posibles, los podemos cuantificar asociándoles un número, de la siguiente manera: Resultados del experimento cc cx xc xx xi 2 1 1 0 Tenemos aquí una variable aleatoria, que la definimos así: Una variable aleatoria es aquella cuyos valores surgen asignando números, a los resultados de un experimento aleatorio. Como los eventos tienen probabilidad asociada, cada uno de los valores de la variable aleatoria tendrá, indirectamente, asociada la probabilidad del respectivo evento, surgiendo así la función de probabilidad. En nuestro caso: xi 0 1 2 -- Probabilidad ¼ 2/4 ¼ 4/4 = 1 Una función de probabilidad es aquella que surge al asignar probabilidades a cada uno de los valores de una variable aleatoria. Las probabilidades correspondientes a todos los valores posibles que toma la variable aleatoria es siempre igual a 1. Esto se debe a que surge de la cuantificación de todos los resultados posibles de un experimento aleatorio. Entonces, podemos afirmar que una de las condiciones que debe cumplir una función de probabilidad es que la suma de todas las probabilidades debe dar uno. A esto se le denomina condición de cierre. Generalmente, cuando consideramos una variable aleatoria y su correspondiente función de probabilidad, la media aritmética de esta variable se denomina esperanza matemática. La esperanza matemática de una variable aleatoria discreta, se calcula como la suma de cada valor que toma la variable multiplicado por su respectiva probabilidad. En símbolos: E (x) = xi p (xi ) La varianza de una variable aleatoria discreta, se define como la suma de los desvíos de cada valor que toma la variable aleatoria con respecto a la esperanza matemática, elevados al cuadrado y multiplicados por su respectiva probabilidad. En símbolos: V(x) = xi - Ex2 p(xi) Para las variables continuas hablamos de función de densidad: - f (x) dx = 1 La presencia de la integral, responde a que, gráficamente, cuando la variable es continua, la suma de todas las probabilidades equivale a calcular un área que es la que está debajo de la curva f(x) - + En éste gráfico el área rayada es igual a 1 Con la función de densidad podemos encontrar las probabilidades pero utilizando siempre integrales, ya que en el campo continuo dichas probabilidades están representadas por áreas, (superficies). El área bajo la curva y entre las rectas x = a y x = b, (área sombreada de la figura siguiente), da la probabilidad de que x se encuentre entre a y b, lo que se puede representar por: P(a X b). p(X) a b Además la variable aleatoria x tiene asociada una función de densidad de probabilidad: Si recordamos el concepto de función, veremos que dando valores a x podemos obtener los correspondientes valores de f(x) y representar gráficamente esta función de densidad de probabilidad en un eje de coordenadas cartesianas. Por ejemplo Sí x=0 Sí x=1/2 Sí x=1 Sí x=2 f(x)=1/2 .0 = 0 f(x)=1/2. ½ = ¼ f(x)=. 1 = ½ f(x)=1/2. 2 = 1 Resumimos los resultados obtenidos en la siguiente tabla: X 0 ½ 1 2 f(x) 0 ¼ ½ 1 Si la función de densidad de probabilidad consistiera en una curva, que es el caso más frecuente, se debe apelar al procedimiento matemático llamado integración. Que sirve para calcular áreas o superficies. Para variables aleatorias continuas también podemos definir y calcular una función de distribución que acumula probabilidades. La función de distribución será simbolizada con F(x) La función de distribución es siempre creciente, o a lo sumo se mantiene constante. Para calcular las probabilidades acumuladas, siempre comenzamos a calcular las correspondientes superficies desde el menor valor que asume la variable aleatoria, hasta el valor de X sobre el que queremos calcular la probabilidad. Ahora bien si deseamos calcular la probabilidad de que X tome valores entre un valor genérico a y otro b siendo a < b tenemos: a b Esta probabilidad puede calcularse como la diferencia entre la probabilidad acumulada hasta el valor b y la probabilidad acumulada hasta el valor a. Si a la probabilidad acumulada hasta el valor a, la denominamos F(a) y a la acumulada hasta el valor b, F(b). Entonces podemos escribir: f(x) F(a) a b F(b) xi MODELOS ESPECIALES DE DISTRIBUCIONES DE PROBABILIDADES DISTRIBUCIÓN BINOMIAL Se llama binomial a la población que ha sido clasificada en forma dicotómica, exhaustiva y mutuamente excluyente. O sea que es una población en la que solamente existen dos categorías de eventos. Por consiguiente, todos los eventos que constituyen la población caen dentro de una de las dos categorías y no existe evento alguno que no caiga dentro de esta clasificación dual. Por ejemplo, todos los eventos de la población “crías” caen en la categoría “machos” o en la categoría “hembras” y la población queda agotada con sólo esas dos categorías. La población de plantines de un vivero podrá clasificarse en ejemplares “sanos” o “enfermos”; una persona podrá ser, agresiva o no agresiva; un alumno podrá aprobar o no aprobar un examen, etc. En éstos casos de hechos discretos, si llamamos p (denominado éxito), a la probabilidad de que el hecho ocurra, y q, (denominado fracaso), a la posibilidad de que un hecho no ocurra, entonces la probabilidad de que un hecho ocurra x veces en n pruebas está dada por la siguiente fórmula, que se llama Distribución binomial: P(x) = Cnx p x q n – x En ésta expresión, naturalmente, p + q = 1, ya que existe completa certidumbre de que el hecho ocurrirá o no ocurrirá. En ésta fórmula los parámetros son: n y p n = al número de veces que se repite el experimento p = éxito q = 1 – p (fracaso) x puede tomar valores de 0 a n Esta distribución corresponde a n pruebas independientes, por lo tanto su probabilidad es constante de prueba a prueba. La probabilidad de que un hecho ocurra (p) y la probabilidad de que no ocurra (q) pueden ser iguales, en cuyo caso la distribución será simétrica. Por ejemplo: la probabilidad de acertar o no acertar la respuesta a una pregunta falso-verdadero. La probabilidad será 0,50 para cada uno de los eventos. Si las probabilidades no son iguales, la distribución binomial no es simétrica sino asimétrica. Por ejemplo la probabilidad de una pieza defectuosa (p) es 0,05, la de una sin defectos (q) es 0,95. Para éste último ejemplo si quisiéramos hallar la probabilidad de 0, 1 y 2 defectuosas elegidas al azar sobre 2 piezas ( n = 2). Tendríamos que hacer: 2 0,05 0 0,95 2 = 0,9025 P(x = 0) = 0 2 0,051 0,95 1 = 0,0950 P(x = 1) = 1 2 0,052 0,95 0 = 0,0025 P(x = 2) = 2 Naturalmente, la suma de todos los resultados posibles debe ser igual a 1,0. Una distribución de probabilidades binomial es una distribución teórica que puede generarse matemáticamente usando el método del desarrollo binomial. Sin embargo, en la práctica no es necesario efectuar estos cálculos, ya que se dispone de Tablas para la Distribución Binomial, (que se encuentran en el Anexo). Para hallar la probabilidad de encontrar 1 defectuosa sobre 2 piezas, (n = 2; x = 1), es necesario en primer lugar ubicar el valor de n = 2. Después correr un lugar hacia la derecha donde se encuentran los valores de x y de allí hacia abajo hasta encontrar el x = 1. Por último moverse horizontalmente por esa fila hasta el número que corresponda a la columna de p = 0,05. Como se puede observar, es el 0,0950. Del mismo modo se procede para encontrar los otros valores de x, ya que se mantienen los valores de los parámetros p y n. La distribución binomial, como toda distribución, tiene su media aritmética y su desviación estándar. La media aritmética de una distribución de probabilidades se llama esperanza matemática, cuyo símbolo es E(x), es decir el valor esperado para una variable aleatoria x. Se obtiene multiplicando el número de eventos n por la probabilidad de éxito (p), o sea: E(x) = n. p El desvío estándar, se calcula de la siguiente manera: _______ S=n.p.q DISTRIBUCIÓN DE POISSON Cuando en una distribución binomial de probabilidades, n es un número grande y la probabilidad del evento x es cercana a O; de modo que q = 1 – p, se aproxima a 1, la distribución tiene un enorme sesgamiento. En éstos casos de utiliza la distribución de Poisson, denominada también de los “casos raros”. Fue desarrollada por el matemático francés Poisson, en el siglo XIX. Es por tanto también, una distribución para variable aleatoria discreta. En la práctica se la utiliza, por ejemplo en el control de cantidad de ciertas bacterias, en física para contar la cantidad de partículas emitidas por una sustancia radioactiva, etc. La ecuación de ésta distribución, es la siguiente: p(x) = mx e -m X! En la que: p(x) = probabilidad de que ocurra el evento x m = media de la distribución, o sea: m = np e = base de los logaritmos naturales x! = factorial de x La solución de los casos en que es aplicable la distribución de Poisson, se facilita con el uso de las tablas, ( ver Anexo), que indican las probabilidades para distintos valores de x y de m. La esperanza y la varianza en una distribución de Poisson son: E(x) = V(x) = n.p Supongamos que se han realizado anotaciones sobre la cantidad de imperfecciones por panel de madera que debían repararse antes de fletarlos al comprador. La distribución de la cantidad de imperfecciones, (como ralladuras, superficies sin pulir adecuadamente, etc), se aproximaba a la distribución de Poisson. Es decir, una cantidad apreciable de paneles no tenían imperfecciones, algunos tenían una falla, muy pocos tenían dos, y así sucesivamente. La cantidad media de imperfecciones por panel, se calculó en 0,5. Si buscamos en la tabla, la probabilidad de ninguna imperfección, ubicando en la primer columna, x = 0 y el la parte superior = 0,5, tenemos que el valor es: 0,606531, para: P(X = 1) = 0,303265 P(x = 2) = 0,075816 P(x = 3) = 0,012636 P(x = 4) = 0,001580 Se ha recibido un pedido de compra por 1.000 paneles. El departamento de costos debe calcular el costo total de reparar los paneles, antes de comenzar la tarea. La experiencia anterior indicaba que la reparación de cada imperfección costó 10 centavos. El número de casos esperados, con: O imperfecciones es: 1.000 .0,606531 606 paneles 1 “ 303 paneles 2 “ 75 paneles 3 “ 12 paneles 4 “ 1 panel El costo será entonces: 606.0 = 0 75 . 20 centavos = 15,00 1.40cemtavos = 0,40 TOTAL: $ 49,30 303 . 10 centavos = 30,30 12 . 30 centavos = 3,60 DISTRIBUCIÓN NORMAL A partir de ejemplos de la vida cotidiana veremos como a menudo utilizamos la palabra normal. Cuando vemos caminar un animal decimos que está realizando un movimiento normal, hablamos además de peso normal, diámetro normal, conducta normal, altura normal, etc. Cuando utilizamos la palabra normal lo que se quiere decir es que a la mayoría de los seres, en situaciones similares les pasa lo mismo. Pero, siempre habrá un porcentaje mínimo de acontecimientos que no suceden de ésta manera, pero que tienen una baja probabilidad de ocurrencia. Las distribuciones de frecuencia de muchas variables educacionales, psicológicas, biológicas, etc., se aproximan mucho a un tipo de curva en forma de campana que se conoce como curva normal. Los errores de medición también suelen distribuirse de esta manera. Por todo ello, la curva normal se ha empleado como modelo matemático para explicar los fenómenos que empíricamente presentan distribuciones en forma de campana. Una aplicación muy importante de la distribución normal la veremos en el área del muestreo. Se ha descubierto que, independientemente de la forma de la población original, la distribución de las medias de las muestras extraídas de esa población estará distribuida normalmente. La importancia de éste descubrimiento será evidente cuando hablemos de muestreo. La ecuación de la curva normal es una compleja expresión matemática, que define toda esta familia de curvas, en función de la media y de la desviación estándar. En esta ecuación intervienen también como magnitudes constantes, el número pi (), que como sabemos representa la relación de la circunferencia al diámetro, y cuyo valor aproximado es de 3,1416 y el número e, que representa la base de los llamados logaritmos naturales o neperianos, cuyo valor aproximado es 2,7183. Esta función de probabilidad es de la forma: f(x) = _ 1 2 e-½( x - )2 Aquí aparece como símbolo de la media la letra griega mu () y como símbolo de la desviación estándar la letra griega minúscula () sigma Se trata de una distribución de variable continua. Es la más importante dentro de la estadística, por la gran cantidad de aplicaciones que posee. La forma gráfica es la de una campana cuyo eje pasa por el valor de la variable ( x = ) que es la media o valor esperado de la variable x. área = 1 _________________________ - Características de la distribución normal Tiene forma campanular, y se la llama también campana de Gauss. Es una distribución para variable aleatoria continua Es asintótica, es decir no toca el eje de las x Se distribuye de - a + El área bajo la curva es igual a uno Es simétrica Coinciden el valor de la media aritmética, mediana y modo ( = Mº = Med ) 68,26 % de los datos 2 95,44 % “ “ “ 3 99,73 % “ “ “ Construir una distribución normal aplicando la fórmula sería una tarea pesada, a causa de la gran cantidad de cálculos necesarios. Para facilitar la construcción y uso de la distribución normal se ha elaborado una Tabla de áreas bajo la Curva Normal, (ver Anexo), ésta ha sido estandarizada a fin de hacerla aplicable a cualquier problema que incluya una distribución normal. Cuando la distribución normal se expresa con la variable estandarizada, o sea cuando la media es igual a 0 y la desviación estándar es igual a 1, la curva normal toma el nombre de Curva Normal estandarizada o tipificada. Para utilizar la tabla, varios valores deben transformarse en una medida estándar, denominada valor z, que se halla mediante la fórmula: Z x - Cálculo de probabilidades como áreas bajo la curva normal En la Tabla de Areas bajo la Curva Normal, que figura en el Anexo, los valores de z que figuran allí (desviaciones estándar), aparecen expresados con dos cifras decimales, desde 0,00 hasta 5,00. A partir de 5,00 desviaciones estándar las áreas bajo la curva normal se vuelven infinitamente pequeñas y, por tanto, sin ningún valor práctico. Las áreas que se dan en la tabla y que corresponden a cada valor de z, deben leerse como probabilidades entre = 0 y los valores de z que se leen en el renglón y bajo la columna adecuada. Por ejemplo, cuando el valor de z es 1,00. Debemos buscar el valor 1 en la primera columna y luego avanzar horizontalmente hasta encontrar la columna del 00. Como se observa el valor del área es 0,3413. Esto significa que entre el eje vertical de la curva normal ( ) y z = 1 desviación estándar está comprendida el 34,13% del área total bajo la curva normal. Así: P(0 z 2,5) = 0,4938 P(0 z 0,47) = 0,1808 P(0 z 1,53) = 0,4370 Como se puede advertir es muy fácil encontrar el área bajo la curva normal entre dos valores cualesquiera de z, por medio de la suma o resta de áreas. Así por ejemplo, si quisiéramos determinar la probabilidad de que z se encuentre entre 0,75 y 2,75. Evidentemente el área pedida se obtiene restando del área comprendida entre y z = 2,75, el área comprendida entre y z = 0,75. En símbolos: P (0 z 2,75) - P (0 z 0,75) = 0,4970 – 0,2734 = 0,2236 Para utilizar la distribución normal como una aproximación de la distribución binomial, las variables aleatorias z se obtendrán por medio de la siguiente fórmula: Z = x - n.p ______ n.p.q Por ejemplo, si estuviéramos buscando la probabilidad de que la variable rendimiento de un cultivar, o rendimiento de carne, tome valores menores a un valor determinado, podría indicar la posibilidad de obtener rendimientos que no justifiquen el costo de la producción. Por otra parte si buscáramos la probabilidad de que la variable en estudio tome valores mayores a un valor determinado y la variable aleatoria fuera la cantidad de semillas de maleza en el suelo antes de la siembra, el encontrar esta probabilidad podría indicar si se necesitará o no aplicar herbicida. OTRAS DISTRIBUCIONES DE PROBABILIDAD PARA VARIABLES ALEATORIAS CONTINUAS LA DISTRIBUCIÓN CHI CUADRADO Esta distribución está estrechamente relacionada con la distribución normal. Supongamos que se tiene una población de N individuos y se quiere estudiar la altura de los mismos. La variable aleatoria altura es una variable continua que puede considerarse distribuida de manera muy similar a la distribución normal. Por lo tanto, si X = altura de personas de una cierta población Podemos decir que: X ~ N (µ, σ ) Esto es, X se distribuye normalmente con media µ y desviación estándar σ. Se decide seleccionar aleatoriamente un número n de individuos de esta población. A cada uno de los individuos seleccionados se les medirá la altura y obtendremos una seie de observacions que simbolizaremos como: X1, x2, x3, …….. xn Las observaciones muestrales también seguirán distribuyéndose de acuerdo a una distribución N(µ, σ). Si la muestra es representativa de la población de origen, es lógico suponer que las observaciones muestrales también son variables aleatorias con media µ y desviación estándar σ. Si transformamos estas variables normales (μ,σ) en variables normales estandarizadas, restando a cada una de ellas la media μ y dividiéndola por la desviación estándar σ, tendremos: z1= x1 – μ, z2 = x2 – μ z3 = x3 - μ, ……..zn = xn - μ σ σ σ σ Si ahora elevamos al cuadrado cada una de estas variables normales estandarizadas y las sumamos, obtendremos: ∑ z2i = (x1 – μ)2 + (x2 – μ)2 + (x3 – μ)2 + ……… + (xn – μ)2 = σ2 σ2 σ2 σ2 n ∑ z2i = ∑ (xi - μ)2 i=1 σ2 Esta suma de zi2 es lo que denominamos variable chi cuadrado y se simboliza: א2. Una distribución chi cuadrado se define como la suma de n variables normales estandarizadas elevadas al cuadrado. Por la propia definición de una variable chi cuadrado, su campo de variación es de 0 a ∞, ya que al ser una suma de cuadrados nunca puede tomar valores negativos. La representación gráfica de esta distribución es como la que se observa en la siguiente figura, siendo la curva menos asimétrica a medida que aumenta el tamaño de la muestra. Como el valor de la ∑ zi2 o de la variable chi cuadrado cambiará de muestra a muestra, se deduce que ∑ zi2 es una variable aleatoria. Supongamos que tenemos una población normal con media igual, μ = 50 y σ2= 100 y se extrae una muestra con los siguientes datos: X1 = 50; x2 = 57; x3 = 42; x4 = 63 y x5 = 32 Si se calcula en dicha muestra la ∑ zi2, esta será: ∑ zi2 = (50-50)2 + (57-50)2 + (42-50)2 + (63-50)2 + (32-50)2 100 100 100 100 100 = 0 + 49 + 64 + 169 + 324 = 606 = 6,06 100 100 Si ahora se extrae una segunda muestra cuyo valores son. X1 = 55; x2 = 44; x3 = 37; x4 = 40 y x5 = 52 Con estos valores se vuelve a computar ∑ zi2 ∑ zi2 = (55-50)2 + (44-50)2 + (37-50)2 + (40-50)2 + (52-50)2 100 = 25 + 36 + 169 + 100 + 4 = 334 = 3,34 100 100 Si se extraen todas las muestras posibles de dicha población normal, cada una tendrá su propio valor para la ∑ zi2. La distribución de probabilidad de la variable ∑ zi2 se denomina distribución chi cuadrado ( א2). El valor que toma la variable ∑zi2 no depende solamente de las observaciones muestrales sino que depende también del tamaño de la muestra: n. El tamaño de la muestra, que especifica la cantidad de sumandos independientes que intervienen en la definición de una variable chi cuadrado se denomina grados de libertad. En general, si la muestra tiene tamaño n, se dice que se tiene una variable chi cuadrado con n grados de libertad y se simboliza como: א2n La esperanza matemática de una variable chi cuadrado, es igual a sus correspondientes grados de libertad. Si la variable א2 surge de sumar n variables normales estandarizadas elevadas al cuadrado, sus grados de libertan serán n y: E( א2) = n La varianza de una variable א2 es el doble de sus grados de libertad: V ( א2) = 2 n LA DISTRIBUCIÓN t de STUDENT Una variable con distribución t de Student se define como el cociente entre una variable normal estandarizada y la raíz cuadrada positiva de una variable א2 dividida por sus grados de libertad. zi T = ------------------ ----------------------_____________________ √ 1 (z21 + z22 + ….. + z2n) │n i = 1,2,…, n Algunas propiedades de la distribución: La variable t varía de - ∞ a + ∞, exactamente como una distribución normal. Al igual que en el caso de una distribución normal estandarizada, la distribución t de Student es simétrica con respecto al 0. Una distribución t de Student presenta una mayor dispersión que la distribución normal por lo cual la correspondiente representación gráfica tiene la forma de una campana mas achatada. A medida que aumentan los grados de libertad, o sea el tamaño de la muestra, la distribución t de Student se va aproximando a la distribución normal. INFERENCIA ESTADÍSTICA El procedimiento que generalmente se sigue en cualquier investigación consiste en obtener resultados a partir de una muestra y luego generalizarlos a la población objetivo. Una población cualquiera queda perfectamente especificada por ciertas medidas denominadas parámetros poblacionales. Por ejemplo si el ingreso promedio de un peón de campo de la provincia de Formosa se calcula teniendo en cuenta a todos los peones de campo de la provincia, este ingreso promedio es un parámetro. Es evidente que los parámetros poblacionales son generalmente imposibles de calcular. En la práctica, casi siempre se trabaja con muestras de las que obtenemos los estadísticos muestrales. Si se toma una muestra de 100 peones de campo de la provincia de Formosa, y se les pregunta el ingreso y, en base a ésta información recogida se calcula un ingreso promedio, este promedio es un estadístico muestral. Uno de los objetivos principales del análisis estadístico consiste en utilizar estadísticos (como el promedio de la muestra, la desviación estándar de la muestra y la proporción de la muestra) que se obtienen con los datos de la muestra para estimar su verdadero valor en la población, a esto se denomina inferencia estadística. Como los estadísticos son variables aleatorias tienen una distribución asociada, por lo tanto necesitamos conocer y comprender la naturaleza aleatoria de los estadísticos muestrales, estudiar las propiedades estadísticas de la media y varianza muestrales y adquirir destrezas en el cálculo de probabilidades asociadas a estos estadísticos. Cuando se estudian las propiedades de los estadísticos muestrales se hace desde un punto de vista teórico, suponiendo poblaciones de tamaño infinito. Si se quieren observar estas propiedades a través de simulación, partiendo de poblaciones finitas, entonces se recurre a la técnica de muestreo con reposición, porque de esa forma se emula una población de tamaño infinito. DISTRIBUCIONES EN EL MUESTREO Supongamos que tenemos una población de 4 observaciones con valores: 1.-) 40 2.) 60 3.) 80 4.) 100 la media, μ = 70 Si de esta población con N = 4, queremos sacar muestras, con reemplazo de tamaño 2, (n =2), hay 16 posibles muestras que se podrían seleccionar (Nn=42=16), con los siguientes posibles resultados: Nº de muestras Muestra Valor de la muestra 1 1y1 40, 40 2 1y2 40, 60 3 1y3 40, 80 4 1y4 40 y 100 5 2y1 60 y 40 6 2y2 60 y 60 7 2y3 60 y 80 _ Media de la muestra xi _ x1 = 40 _ x2 = 50 _ x3 = 60 _ x4 = 70 _ x5 = 50 _ x6 = 60 _ x7 = 70 8 2y4 60 y 100 9 3y1 80 y 40 10 3y2 80 y 60 11 3y3 80 y 80 12 3y4 80 y 100 13 4y1 100 y 40 14 4y2 100 y 60 15 4y3 100 y 80 16 4y4 100 y 100 _ x8 = 80 _ x9 = 60 _ x10 = 70 _ x11 = 80 _ x12 = 90 _ x13 = 70 _ x14 = 80 _ x15 = 90 _ x16 = 100 ____________ μx = 70 = μ Consideremos ahora la tabla de frecuencias para la variable aleatoria media muestral y observemos que la densidad no es homogénea y que el valor mas probable es 70 que corresponde a la esperanza de la distribución original. Variable aleatoria 40 50 60 70 80 90 100 _ P(X = x) 1.1/16 2.1/16 3.1/16 4.1/16 3.1/16 2.1/16 1.1/16 La esperanza de la distribución de las medias muestrales es igual a la esperanza de la distribución de la variable aleatoria original μ = 70 = μx La varianza de la distribución de las medias es igual a la varianza de la distribución de la variable estudiada, dividida por el tamaño muestral usado, (en este caso n = 2). σ2x = σ2 = 0,625 n Por otra parte, si el muestreo se hace sin reemplazo, tendremos: Combinaciones de 4 elementos tomados de a 2; C42 = 6, que serian: 1 y 2, con media igual a 50 1 y 3, con media igual a 60 1 y 4, con media igual a 70 2 y 3, con media igual a 70 2 y 4, con media igual a 80 3 y 4, con media igual a 90 Tenemos así una población de medias muestrales, cuya media de las medias es también igual a 70. El conocimiento de las probabilidades de todas las medias posibles de muestras, conforma un modelo que se denomina distribución muestral. Xi 50 60 70 80 90 Pi 0,166 = 1/6 0,166 = 1/6 0, 333 = 2/6 0,166 = 1/6 0,166 = 1/6 __________ 1,000 Cuando el N de la población es grande, (igual a 100), y n mayor a 30, la distribución muestral se acerca mucho a la normal, y cada vez más, a medida que N y n aumentan. DISTRIBUCIÓN DEL MUESTREO DE MEDIAS Para muestreo con reposición, de población infinita. μx = μ y σx = σ √n Para mustreo sin reposición, de población finita de tamaño N mayor a n: _____ μx = μ y σx = σ √ N – n √n N – 1 ERROR ESTÁNDAR DE LA MEDIA Es una medida de variabilidad entre muestra y muestra. Es la desviación estándar de la media muestral Cuando la muestra se realiza con reemplazo: σx = σ √n Mayor tamaño de la muestra, menor desvío estándar Un establecimiento ganadero tiene 5.000 animales. Los litros de leche obtenidos tienen una distribución normal con μ = 25.000 y σ = 5.000. _ Si se seleccionan 100 animales y se calcula el x de leche. Qué se espera? Determinar la probabilidad de que la muestra de 100 animales tenga media 24.000 y 25.000 _ Z=x -μ σ En el muestreo: _ Z=x - μ σ √n Z = 24.000 - 25.000 = - 2,0 5.000 √100 P (24.000 ≤ z ≤ 25.000 = 0,4772 = 47,72 % El 47,74 % de todas las muestras posibles, tendrán un promedio entre 24.000 y 25.000. Determinar el porcentaje de animales con promedio entre 24.000 y 25.000 _ Z = x - μ = - 0,20 σ P (24.000 ≤ z ≤ 25.000) = 0,0793 = 7,93 % Determinar el intervalo que contiene al 95 % de las muestras _ Z=x–μ σ √n _ X=μ+zσ √n _ X = 25.000 + (1,96) 5.000 = 25.980 √ 100 _ X=μ–z σ √n _ X = 25.000 – (1,96) 5.000 = 24.020 √100 El 95 % de todas las medias muestrales de tamaño 100 estarían comprendidas en el intervalo 24.020 – 25.980 DISTRIBUCIÓN MUESTRAL RELACIONADA CON LA VARIANZA Consideremos todas las muestras posibles de n = 2, con reposición, de la población de cuatro plantas y su número de frutos. Ahora calculamos la varianza muestral para cada una de ellas. DISTRIBUCIÓN DEL MUESTREO DE PROPORCIONES Supongamos que una población es infinita y que la probabilidad de ocurrencia de un seceso (su éxito) es p, mientras la probabilidad de no ocurrencia es q = 1 – p. Por ejemplo la población de plantas, en que la probabilidad del evento “con fruto” es p = ½. Consideremos todas las muestras posibles de tamaño n de tal población y para cada una de ellas la proporción de éxitos: p Obtendremos una distribución del muestreo de proporciones cuya media μp y cuya desviación estándar σp vienen dadas por: μp = p y _____ ________ σp = √ pq/n = √p(1 – p)/n Para poblaciones grandes la distribución del muestreo está, muy aproximadamente, normalmente distribuida. Observen que la población está binomialmente distribuida. Estas ecuaciones son válidas también para una población finita en la que se hace muestreo con reposición. Para poblaciones finitas en que se haga muestreo sin reposición, las ecuaciones son las siguientes: μ= p y ___ σ = √ pq POBLACIONES NO NORMALES Teorema Central del Límite Dice que si se sacan repetidamente muestras de tamaño n de una población normal con media igual a y variancia a 2, la distribución muestral de las medias de la muestra será normal con una media igual a y una variancia 2 n También podemos enunciar éste teorema de la siguiente manera: “si se extraen al azar una gran cantidad de muestras de cualquier población (ya sea normal o asimétrica), las medias de éstas muestras se aproximarán a una distribución normal de probabilidades. La media de éstas medias muestrales se aproximará a la media de la población () En la realidad no es factible tomar miles de muestras sólo para calcular la media de la población. El costo y las limitaciones de tiempo obligan por lo general al investigador a circunscribirse a tomar una muestra de la población. Sobre la base de esta muestra, él podrá hacer una estimación puntual y dar los límites de confianza para la media de la población. Los límites de confianza de la media se fundan en una medida de la tendencia central y en una medida de dispersión. Ésta última se conoce como el error estándar de la media. Por lo tanto, la desviación estándar, que en este caso se llama error estándar es: x p n TEORÍA DE LA ESTIMACIÓN PROCEDIMIENTOS DE ESTIMACIÓN Los procedimientos de estimación se pueden dividir básicamente en dos tipos: Estimación puntual Estimación por intervalos Estimación puntual: La estimación puntual es un proceso mediante el cual se estima un parámetro en un punto, dando un valor específico como estimación. Estimación por intervalos: La estimación por intervalos es un procedimiento mediante el cual se puede afirmar, con una determinada probabilidad, que el intervalo (a, b) encierra el verdadero valor del parámetro. Para realizar una estimación por intervalos se hace la siguiente afirmación: P (a ≤ ө ≤ b) = 1 – α Donde a y b son variables aleatorias que dependen de cierto estimador puntual. El intervalo a, b se llama intervalo de confianza; b – a es una medida de precisión de la estimación y 1 – α es una medida de confianza con la que contamos paras efectuar la estimación. ESTIMACIÓN DEL PARÁMETRO MEDIA POBLACIONAL μ Estimación puntual _ La media de la muestra x es una estimación puntual de la media μ de la población. Estimación por intervalos _ Dada una muestra en particular donde se ha calculado x , se puede definir un intervalo alrededor del estadístico media muestral y establecer una cierta probabilidad de que μ esté comprendido en dicho intervalo. El parámetro es un valor constante, desconocido, pero fijo en algún lugar de la distribución de probabilidad poblacional correspondiente a la variable que se está estudiando. En la estimación por intervalos lo que cambian son los extremos del intervalo, pues su construcción depende de una variable aleatoria, (la media muestral) que cambia de valor en función de los elementos que fueron seleccionados en la muestra. El parámetro es una cantidad desconocida pero fija, el intervalo es aleatorio. El coeficiente de confianza es un valor fijado por el investigador antes de comenzar la estimación. Si decide trabajar con una confianza del 95 % para efectuar la estimación, esto quiere decir que: “Sobre 100 muestras aleatorias de un cierto tamaño n de una población, si en cada _ una se calcula la media muestral x y, a partir de ella se construyen 100 intervalos de confianza para el parámetro que se desea estimar, 95 contendrán el verdadero valor del parámetro poblacional, mientras que 5 no lo abarcarán”. Una vez fijado el coeficiente 1 – α, por ejemplo igual a 0,95, podemos buscar en la tabla de probabilidades correspondientes a la distribución normal los valores de z1 y z2, que definen un intervalo simjétrico de probabilidad igual a 0,95 alrededor de μ = 0. Z2 es un valor de la variable normal estandarizada que acumula una probabilidad igual a 0,975 y z1 es un valor de la misma variable que acumula una probabilidad de 0,025. Si buscamos en la tabla de probabilidades, vemos que z1 = - 1,96 y z2 = 1,96, entonces podemos escribir: _ P (-1,96 ≤ (x - μ) ≤ 1,96) = 0,95 σ ∕ √n Como estamos tratando de estimar el parámetro μ, despejamos de modo que quede en el centro del intervalo solo este parámetro. Obviando los pasos algebraicos previos, tendremos: _ _ P (x – 1,96 σ ≤ μ ≤ x + 1,96 σ ) = 0,95 √n √n Este es el intervalo de confianza para el parámetro μ, cuando trabajamos con una confianza del 95%. Si el tamaño de la muestra es suficientemente grande, no hay problema en seguir utilizando la distribución de probabilidad normal para medir la confianza de la estimación. En cambio, si la muestra es chica y no se puede por razones de costo o de tiempo u otras, aumentar su tamaño, para calcular la confianza de la estimación utilizaremos la distribución de probabilidad correspondiente a la variable t de Student. Intervalos de confianza para las medias de muestras grandes En la mayoría de las situaciones reales los parámetros, media y desviación estándar, no se conocen y tenemos que hacer la inferencia para los valores de la población a partir únicamente de los datos de la muestra. Para poder estimar la media de la población debemos especificar un intervalo dentro del cual podamos afirmar, con cierto grado de confianza conocido, que está la media de la población. Supongamos que para una muestra de n = 100 casos la media sea de 20. Como no tenemos la desviación estándar de la población, usamos para estimar, el error estándar de la distribución muestral. La s de la muestra que es s = 5. Tenemos Ahora tenemos todos los datos: = 20 N = 100 S=5 x = 0,5 Podemos establecer un intervalo de confianza que sea 95% y establecer los límites de confianza entre los cuales colocamos a la media de la población dado que sabemos que la distribución muestral de medias es normal. Gráficamente vemos que se el intervalo es 95%, quedan fuera de ese limite el 2,5 superior y el 2,5 inferior. Buscamos en la tabla de las áreas 0,500 – 0,025 = 0,475; a este valor corresponde un z = 1,96. Podemos ver que la media de la población con una certeza del 95%, estará entre los límites de la media muestral más o menos z por la variancia de la muestra, o sea: = 1,96 s n = 1,96 . 0,5 = 20 0,98 O sea que la media estará entre 19,01 y 20,98 Si queremos fijar límites más exactos, por ejemplo el 99%, buscamos en la tabla 0,500 – 0,005 = 0,495 tenemos una z de 2.58 y la media estará entre: 20 + 1,29 o sea, entre 18,71 y 21,29 Estos valores de z se usan convencionalmente siempre que sea una muestra grande o sea con un n 30 Estimaciones no sesgadas: se dice que un estadístico muestral no es sesgado cuando la media de una gran cantidad de valores muestrales obtenidos por muestreo repetido, se acerca al valor de la población o sea al parámetro. La media de la muestra es uno de ellos, sin embargo la variancia es sesgada. Cuando el número de casos de la muestra es chico hay que corregir ese sesgo, dividiendo por n-1. Grados de libertad: si n es el tamaño de la muestra, n – 1, es el número de grados de libertad, es decir la cantidad, de valores de la variable que tenemos libertad para cambiar. Por ejemplo, si tenemos 3 valores: 5, 6 y 7. Su media aritmética es 6, los desvíos de estos valores con respecto a la media son: - 1; 0 y 1. En consecuencia si se conocen dos cualesquiera de éstos desvíos, el desvío restante está determinado. O sea que dos desvíos pueden variar independientemente, por ello su grado de libertad es tan solo 2, (n – 1 = 2) Distribución de la media de la población para muestras pequeñas Distribución de la t de Student Cuando la muestra es pequeña, se utiliza un múltiplo t en vez de z. El concepto de múltiplo t fue ideado por un estadístico irlandés que escribía con el seudónimo de “Student”. El ideó una serie de múltiplos t para cada tamaño de muestra. Esta distribución se conoce como distribuciones t de Student. Es una distribución más aplanada que la distribución normal, mas platicúrtica, y esto depende del tamaño de la muestra; si n es muy pequeña la distribución de t será muy chata. Como dijimos anteriormente, hay una distribución de t para cada tamaño de muestra. Se usa igual que la distribución normal. ESTIMACIÓN DEL PARÁMETRO POBLACIONAL σ2 Existen situaciones prácticas, generalmente ligadas a la investigación industrial, en las que interesa estimar el parámetro variancia poblacional. Por ejemplo si se desea comprar una máquina para empaquetar semillas, se requiere que la misma mida con la mayor precisión posible. Estimación puntual El estimador lógico de σ2 es S2, pero este no es un estimador insesgado. Para obtener un estimador insesgado de σ2 tenemos que dividir la suma de los desvios por n – 1 en lugar de n. Estimación por intervalos El estadístico es el siguiente: (n – 1) S2 σ2 ~ אn-1 El intervalo de confianza para estimar σ2 es el siguiente: ESTIMACIÓN DEL PARÁMETRO PROPORCIÓN POBLACIONAL p Estimación puntual El mejor estimador puntual de P será, intuitivamente, la proporción muestral p. Esta proporción se obtiene: p =x n Donde la cantidad x significa el número total de éxitos en n pruebas binomiales y n el total de pruebas. La proporción muestral p es un estimador insesgado de P y posee varianza mínima cuando se lo compara con otros estimadores. Estimación por intervalos _ De acuerdo al teorema central del límite x tiene distribución aproximadamente normal cuando n es grande. Como n es una constante se puede pensar que p es también aproximadamente normal cuando n es grande, y esto es realmente así. Dado que x es una variable aleatoria, tenemos: E(x) = nP V(x) = nPQ Y como p =x n Cuando n es suficientemente grande podemos decir que p se distribuye normalmente con media P y varianza PQ _____ P ~ N (P, √PQ ) ) n Podemos estandarizar: Z = (p – P) ~ N(0,1) _____ √PQ ) n Haciendo los reemplazos y despejando tenemos: _____ _____ P (p – Z1 - α∕2 √ p(1-p) ≤ P ≤ p - Zα∕2 √ p(1-p ) = 1 – α І n І n Ejemplo: Una empresa dedicada al sondeo de opinión pública realiza una encuesta para averiguar la intención de voto hacia un candidato A, en una elección futura. Para ello toma una muestra al azar de 100 posibles votantes, de los cuales 59 opinan que se inclinan por el candidato A. Para estimar la proporción de simpatizantes del candidato A en la población, la empresa decide construir un intervalo estableciendo un coeficiente de confianza del 95 %. Los datos son: p = 59 = 0,59 100 q = 0,41 n = 100 De acuerdo al coeficiente de confianza establecido: Zα∕2 = - 1,96 Z1- α∕2 = 1,96 _________ ________ P (0,59 – 1,96. √ 0,59. 0,41 ≤ P ≤ 0,59 + 1,96. √0,59. 0,41 ) = 0,95 100 100 P ( 0,49 ≤ P ≤ 0,69 ) = 0,95 De acuerdo al resultado obtenido, la empresa puede asegurar que la proporción de simpatizantes del candidato A en la población será un valor comprendido entre el 49 % y el 69 % con una confianza del 95 %. DETERMINACIÓN DEL TAMAÑO DE LA MUESTRA PARA LA MEDIA La determinación del tamaño adecuado de la muestra es un procedimiento complicado, sujeto a restricciones de presupuesto, tiempo y facilidad de selección. El investigador por anticipado deberá decir la cantidad de error que estaría dispuesto a aceptar al estimar el promedio. También tendría que determinar anticipadamente la seguridad, (confianza), con la que desea trabajar para la estimación correcta del parámetro poblacional. Al determinar el tamaño de la muestra para estimar la media, se deben tener presentes estos requisitos junto con la información relacionada con la desviación estándar. Si se conoce σ, la estimación del intervalo de confianza para la media de la población se obtiene con la ecuación: X±Z σ √n Sabemos que: _ _ Z=x–μ por lo tanto: x - μ = Z σ σx √n _ La diferencia entre el estadístico x y el parámetro poblacional μ que se va estimar, es el error muestral, simbolizado con la letra e. Por lo tanto e, se puede definir como: e=Z σ √n Al resolver esta ecuación para n, se tiene: n = Z2 σ2 e2 Por tanto, para determinar el tamaño de la muestra, se deben conocer tres factores: El nivel de confianza deseado Z El error muestral permitido e La desviación estándar, σ Por ejemplo si se quiere estimar el ingreso promedio de la población con aproximación ± $5 del valor real y querría tener un 95 % de confianza en la estimación correcta de la media real y de acuerdo a estudios realizados el año anterior, se estima la desviación estándar en $21. Con esta información se puede determinar el tamaño de la muestra, de la siguiente manera: n = Z2 σ2 = (1,96)2 (21)2 = 67,8 e2 25 por lo tanto, n = 68 La regla empírica a utilizar para determinar el tamaño de la muestra es siempre redondear al siguiente entero a fin de sobresatisfacer ligeramente los criterios deseados. DETERMINACIÓN DEL TAMAÑO DE LA MUESTRA PARA UNA PROPORCIÓN Los métodos para determinar el tamaño de la muestra que se utiliza en la determinación de una proporción real son similares a los empleados en la estimación de la media. La estimación del intervalo de confianza en una proporción real p, se obtiene con: __________ p ± Z √ ps (1 – ps) | n Z = ps – p √p q │ n por lo tanto: n = Z2 p q e2 En la determinación del tamaño de la muestra para estimar una proporción, se necesitan tres factores: El nivel de confianza deseado Z El error muestral permitido e La proporción real de éxito estimada, p La proporción real, (verdadera), de éxito en la población p, es la cantidad que se querría estimar al tomar la muestra. Hay dos caminos disponibles para esto: - si la proporción real de éxito se puede estimar en base a los datos o experiencias pasadas, esta estimación se puede utilizar para. si no hay datos, se debe ser lo mas conservador posible, al estimar p, usando el valor de p que hace a la cantidad pq, lo mas grande posible. Por tanto cuando no se tiene conocimiento o estimación previos de la proporción p verdadera, se debería usar p = 0,5, como el medio mas conservador para estimar el tamaño de la muestra. ESTIMACIÓN Y DETERMINACIÓN DEL TAMAÑO DE MUESTRA PARA POBLACIONES FINITAS Cuando se muestrea sin reemplazo en poblaciones finitas, el factor de corrección de esa población finita, sirve para reducir el error estándar, por un factor (N – n) / (N – 1). Al estimar parámetros de una población finita se debe utilizar para el desarrollo de estimaciones del intervalo de confianza. Así pues, la estimación del intervalo de confianza para la media se convertiría: _ _____ X ± tn-1 S √N – n √n │N – 1 Y _____ _____ ps ± Z √ ps q √ N – n │ n │N – 1 Al estimar proporciones el error muestral seria: ____ _____ e = Z √ pq √ N – n │ n │N – 1 Mientras que al estimar medias, el error muestral sería: _____ e =Zσ√N–n √n │N – 1 Entonces, el tamaño necesario de la muestra se puede determinar con un procedimiento en dos etapas, primero se determinaría el tamaño de la muestra como lo vimos inicialmente, sin tener en cuenta el factor de corrección, (le llamamos no), y luego le aplicamos el factor de corrección: n o = Z2 σ 2 e2 n = __no______ no + N – 1 n FORMULACIÓN Y PRUEBA DE HIPÓTESIS ESTADÍSTICA INTRODUCCIÓN: El hombre reconoce cotidianamente situaciones que lo afectan, como la pérdida de cosechas, enfermedades, las contingencias climáticas, etc. Tomar acciones para evitar o prevenir estos problemas requiere comprender como funciona el sistema que los origina. En el proceso de comprensión existe un proceso de idealización que se llama técnicamente modelación, que tiene por objeto identificar los elementos que son relevantes y plantear sus relaciones. Si el sistema es correcto en el sentido que representa bien el sistema bajo estudio, se tendrá una herramienta valiosa para planificar acciones en el mundo real. Para que un modelo sea incorporado al patrimonio de la ciencia tiene antes que ser validado, es decir mostrar que las predicciones que se deducen de él son aceptables. Lo usual es realizar un experimento y observar el comportamiento del sistema y comparar los resultados obtenidos en estos estudios con los que se deducen del modelo. Si no hay diferencias significativas entre lo observado y lo esperado, entonces se dirá que el modelo es correcto para esa situación (o desde un punto de vista mas estricto: que el modelo es “provisoriamente” aceptable). El problema es definir que se entiende por diferencia significativa. No es simple establecer un criterio para decir si las discrepancias entre lo que se observa y lo que se espera es grande o pequeña. La idea es entonces: dado un modelo no validado, que se llama hipótesis científica, se debe seguir algún procedimiento para deducir alguna consecuencia cuya verificación o no, sirva para establecer la veracidad de la hipótesis científica. Si la o las consecuencias de la hipótesis científica se pueden visualizar como propiedades estadísticas de una variable aleatoria, será factible utilizar herramientas estadísticas para tomar una decisión sobre la veracidad del modelo. Para ello se debe expresar la hipótesis científica como una hipótesis estadística. Estas hipótesis consisten en una afirmación sobre uno o más parámetros de la distribución de la variable aleatoria en cuestión. Por ejemplo indicando que la esperanza de la distribución μ = 300 kg Conceptualmente la prueba estadística o prueba de hipótesis es sencilla: se examina un conjunto de datos muestrales y a partir de ellos se calcula un estadístico cuya distribución depende de la hipótesis planteada. Sobre la base de la distribución especificada para el estadístico y de su valor observado en la muestra, se decide el rechazo o no de la hipótesis estadística. Por ejemplo supongamos que establecemos la siguiente hipótesis y su correspondiente deducción con respecto a un aula de la Facultad, que está con las puertas cerradas: A: el aula está vacía (hipótesis) B: no se ve a nadie (deducción) Si miramos por el ojo de la cerradura y vemos a un alumno sentado en el banco, podemos sentirnos seguros al decir que la hipótesis es falsa. Deducción no se cumple --------------→ hipótesis falsa _ _ B -----------------------→ A Si miramos por el ojo de la cerradura y no vemos a nadie en el aula, decir que la hipótesis es verdadera es incorrecto. Deducción se cumple ------------------→ aceptar la hipótesis es una afirmación Incorrecta B -----------------------→ A es una afirmación incierta El hecho de mirar por el ojo de la cerradura equivale a mirar solo una parte del aula. Podemos asimilar esta situación con la inferencia estadística por cuanto debemos tomar una decisión en base a una información limitada, (muestra), respecto a la totalidad del aula, (población). Si la evidencia de la muestra lleva a la decisión de rechazar la hipótesis planteada estaremos mucho mas seguros de nuestra determinación que cuando no existan evidencias para su rechazo. HIPÓTESIS NULA Y ALTERNATIVA La hipótesis estadística es un supuesto que se establece sobre las características de una distribución poblacional. La hipótesis nula, (Ho), es un supuesto acerca de uno o más parámetros de la población que debe ser rechazado o no en base a la evidencia muestral. Se denomina nula en el sentido que supone que no existe diferencia real entre el verdadero valor del parámetro de la población de la que hemos obtenido la muestra y el valor hipotetizado. Ahora bien, si la evidencia presentada no es contundente, se decidirá no rechazo de la hipótesis nula. En caso contrario, se rechaza la hipótesis nula. Si la hipótesis nula es falsa, deberá existir otra hipótesis que sea verdadera. Esta hipótesis recibe el nombre de hipótesis alternativa. A la hipótesis alternativa la simbolizaremos: H1. PASOS DE LA PRUEBA DE HIPÓTESIS 1. 2. 3. 4. 5. Expresar la hipótesis nula expresar la hipótesis alternativa. especificar el nivel de significación, α determinar el tamaño de la muestra, n establecer los eventos que conducen al rechazo o no rechazo de la hipótesis nula mediante la definición de regiones de rechazo y no rechazo 6. realizar el muestreo “ad hoc”, según la planificación realizada previamente, para obtener las observaciones con las que se realizará la prueba. 7. finalmente calcular el valor del estadístico postulado y determinar si está dentro o fuera de la región de rechazo. En el primer caso se dice que se rechaza Ho y en el segundo que no. Ejemplo: Se desea probar si una nueva variedad de cierto cultivo logrado por un proceso de mejoramiento genético supera la base de 20qq/ha De acuerdo a los pasos enunciados precedentemente se tiene: planteo de la hipótesis estadística Ho: μ = μo (20 qq/ha) H1: μ > μo (20 qq/ha) para probar la hipótesis se planifica una experiencia consistente en repetir el cultivo de la nueva variedad en 30 parcelas de ¼ de hectárea cada una, y registrar sus rendimientos a cosecha elección del estadístico para la prueba e identificación de su función,(le llamaremos T. _ se tomará T(x1, ….,xn) = (x - μo) √ s2 │n Este estadístico, cuando μ = μo bajo el supuesto de normalidad para la variable en estudio, se distribuye como una t(n-1). Se fija el nivel de significación α, por ejemplo, en 0,05. Para el establecimiento de las zonas de aceptación y de rechazo, es necesario establecer el punto crítico (PC). El PC para T es el cuantil 0,95 de la distribución t con (n-1) grados de libertad y se denota como t(n-1);0,95. Si de acuerdo a la planificación hay 30 repeticiones, en la tabla t de Student se obtiene PC = 1,699, por lo tanto la zona de aceptación de Ho (ZA) y la de rechazo de la Ho (ZR), serán: ZA = ( - ∞, 1,699) y ZR = (1,699, ∞) De acuerdo a la planificación, al cabo de la cosecha se obtienen los siguientes resultados: _ X = 25 qq/ha y s = 4 qq/ha. Se calcula T y se observa a cuál de los intervalos definidos anteriormente pertenece. En función de ello se acepta o no la hipótesis, así: T = 25 - 20 = 6,847 4__ √10 Como T є ZR se concluye que se rechaza la hipótesis nula, por lo tanto la nueva variedad supera en promedio el rendimiento de 20 qq/ha. PRUEBA DE HIPÓTESIS PARA UNA PROPORCIÓN Ejemplo: El Instituto Pasteur de París y un Laboratorio desarrollaron una vacuna contra el SIDA. Luego de que los resultados en chimpancés resultaron positivos comenzó a probarse en seres humanos. Cincuenta voluntarios, hombres y mujeres de 18 a 55 años seleccionados minuciosamente entre mas de 600 candidatos debían ser todos sero-negativos, y con un alto riesgo de contraer la enfermedad. Previamente, en los chimpancés inoculados con la vacuna, se obtuvo una respuesta favorable en un 75% de los casos. Por ello se decidió que la vacuna podía ser considerada efectiva en seres humanos cuando ella prevenga de la enfermedad a más del 80 % de los pacientes tratados. La hipótesis nula, deberá expresarse: Ho) P ≤ 0,80 donde P es la proporción poblacional Los 50 voluntarios de la muestra serán inoculados con la vacuna y se les efectuará un seguimiento de un año luego de lo cual se obtendrán las primeras conclusiones. Evidentemente: H1 > 0,80 El estadístico para efectuar el test T será la proporción muestral p de personas que quedaron inmunizadas por su acción y las reglas de decisión determinarán en cuál de las dos regiones se posiciona el valor muestral. Debemos recordar nuevamente que se está decidiendo algo con respecto al parámetro poblacional p a partir de la información proporcionada por una muestra. En realidad, estamos mirando por el ojo de la cerradura y, en consecuencia, el investigador podrás cometer dos tipos de errores. Por una parte, podría rechazar la hipótesis nula diciendo que la vacuna es efectiva cuando en realidad no lo es. Esto muy peligroso en cuanto a la salud de los pacientes. Otro error que puede cometer consiste en no rechazar la hipótesis cuando en realidad es falsa. Estaría diciendo que la vacuna no es efectiva cuando en realidad lo es. Se pueden cometer dos tipos de errores: de tipo I y error de tipo II El error de tipo I es aquel que se comete al rechazar una hipótesis nula cuando ella es verdadera La probabilidad de cometer un error de tipo I se simboliza con α, conocida como p o nivel de significación de un test. El error de tipo II es aquel que se comete al no rechazar una hipótesis nula cuando en realidad es falsa La probabilidad de cometer un error de tipo II se simboliza con ß Cuando tratamos de reducir la probabilidad de cometer el error Tipo I (α), aumenta la probabilidad de cometer el error de Tipo II (ß). La única manera que tiene el investigador de disminuir ambos tipos de errores a la vez consiste en aumentar el tamaño de la muestra (n). PRUEBA DE HIPÓTESIS REFERIDA AL PARÁMETRO POBLACIONAL σ2 Un ingeniero asegura que las máquinas enfardadoras que produce, enfardan con muy poca variabilidad en el peso de los fardos. Dice que la misma es σ2 = 0,2. Un cliente, quien debe hacer una fuerte inversión, decide poner a prueba la hipótesis del fabricante, estableciendo las siguientes hipótesis: Ho ) σ2 ≤ 0,2 H1 ) σ2 > 0,2 Para probar esta hipótesis, selecciona una muestra de 15 días donde registra el peso. El cálculo de la varianza en su muestra dio S2 = 0,4. El estadístico utilizado es el siguiente: (n-1) S2 ~ א2 (n-1) σ2 Se distribuye como chi cuadrado con n-1 grados de libertad. De acuerdo a la hipótesis estadística establecida, la regla de decisión a seguir será: Rechazar Ho si: א2 = (n – 1) S2 > א2 (n-1) 1-α σ2o Si fijamos α = 0,05 el valor א20,95; 14 = 23,7 Calculamos ahora el valor del estadístico planeado para efectuar el test: (n – 1) S2 = 14 . 0,4 = 28 σ2o 0,2 Como podemos observar en el gráfico correspondiente, el estadístico utilizado como criterio para realizar el test, cae en la zona de rechazo de la hipótesis nula. La evidencia muestral parece indicar que el ingeniero estaba equivocado y que en realidad la enfardadora realiza el trabajo con bastante mas variabilidad de la que él cree. ANEXO I Tablas Estadísticas Tabla 1. Áreas bajo la curva de Gauss tipificada entre 0 y z 0.00 0.0 0.0000 0.1 0.0398 0.2 0.0793 0.3 0.1179 0.4 0.1554 0.5 0.1915 0.6 0.2257 0.7 0.2580 0.8 0.2881 0.9 0.3159 1.0 0.3413 1.1 0.3643 1.2 0.3849 1.3 0.4032 1.4 0.4192 1.5 0.4332 1.6 0.4452 1.7 0.4554 1.8 0.4641 1.9 0.4713 2.0 0.4772 2.1 0.4821 2.2 0.4861 2.3 0.4893 2.4 0.4918 2.5 0.4938 2.6 0.4953 2.7 0.4965 2.8 0.4974 2.9 0.4981 3.0 0.4987 0.01 0.0040 0.0438 0.0832 0.1217 0.1591 0.1950 0.2291 0.2611 0.2910 0.3186 0.3438 0.3665 0.3869 0.4049 0.4207 0.4345 0.4463 0.4564 0.4649 0.4719 0.4778 0.4826 0.4864 0.4896 0.4920 0.4940 0.4955 0.4966 0.4975 0.4982 0.4987 0.02 0.0080 0.0478 0.0871 0.1255 0.1628 0.1985 0.2324 0.2642 0.2939 0.3212 0.3461 0.3686 0.3888 0.4066 0.4222 0.4357 0.4474 0.4573 0.4656 0.4726 0.4783 0.4830 0.4868 0.4898 0.4922 0.4941 0.4956 0.4967 0.4976 0.4982 0.4987 0.03 0.0120 0.0517 0.0910 0.1293 0.1664 0.2019 0.2357 0.2673 0.2967 0.3238 0.3485 0.3708 0.3907 0.4082 0.4236 0.4370 0.4484 0.4582 0.4664 0.4732 0.4788 0.4834 0.4871 0.4901 0.4925 0.4943 0.4957 0.4968 0.4977 0.4983 0.4988 0.04 0.0160 0.0557 0.0948 0.1331 0.1700 0.2054 0.2389 0.2704 0.2995 0.3264 0.3508 0.3729 0.3925 0.4099 0.4251 0.4382 0.4495 0.4591 0.4671 0.4738 0.4793 0.4838 0.4875 0.4904 0.4927 0.4945 0.4959 0.4969 0.4977 0.4984 0.4988 0.05 0.0199 0.0596 0.0987 0.1368 0.1736 0.2088 0.2422 0.2734 0.3023 0.3289 0.3531 0.3749 0.3944 0.4115 0.4265 0.4394 0.4505 0.4599 0.4678 0.4744 0.4798 0.4842 0.4878 0.4906 0.4929 0.4946 0.4960 0.4970 0.4978 0.4984 0.4989 0.06 0.0239 0.0636 0.1026 0.1406 0.1772 0.2123 0.2454 0.2764 0.3051 0.3315 0.3554 0.3770 0.3962 0.4131 0.4279 0.4406 0.4515 0.4608 0.4686 0.4750 0.4803 0.4846 0.4881 0.4909 0.4931 0.4948 0.4961 0.4971 0.4979 0.4985 0.4989 0.07 0.0279 0.0675 0.1064 0.1443 0.1808 0.2157 0.2486 0.2794 0.3078 0.3340 0.3577 0.3790 0.3980 0.4147 0.4292 0.4418 0.4525 0.4616 0.4693 0.4756 0.4808 0.4850 0.4884 0.4911 0.4932 0.4949 0.4962 0.4972 0.4979 0.4985 0.4989 0.08 0.0319 0.0714 0.1103 0.1480 0.1844 0.2190 0.2517 0.2823 0.3106 0.3365 0.3599 0.3810 0.3997 0.4162 0.4306 0.4429 0.4535 0.4625 0.4699 0.4761 0.4812 0.4854 0.4887 0.4913 0.4934 0.4951 0.4963 0.4973 0.4980 0.4986 0.4990 0.09 0.0359 0.0753 0.1141 0.1517 0.1879 0.2224 0.2549 0.2852 0.3133 0.3389 0.3621 0.3830 0.4015 0.4177 0.4319 0.4441 0.4545 0.4633 0.4706 0.4767 0.4817 0.4857 0.4890 0.4916 0.4936 0.4952 0.4964 0.4974 0.4981 0.4986 0.4990 TABLA 2: PROBABILIDADES BINOMIALES p n k 10 11 20 21 22 30 31 32 33 40 41 42 43 44 50 51 52 53 54 55 60 61 62 63 64 65 66 70 71 72 73 74 75 76 77 80 81 82 83 84 85 86 0.05 0.10 0.15 0.20 0.25 0.30 0.35 0.40 0.45 0.50 0.9500 0.9000 0.8500 0.8000 0.7500 0.7000 0.6500 0.6000 0.5500 0.5000 0.0500 0.1000 0.1500 0.2000 0.2500 0.3000 0.3500 0.4000 0.4500 0.5000 0.9025 0.8100 0.7225 0.6400 0.5625 0.4900 0.4225 0.3600 0.3025 0.2500 0.0950 0.1800 0.2550 0.3200 0.3750 0.4200 0.4550 0.4800 0.4950 0.5000 0.0025 0.0100 0.0225 0.0400 0.0625 0.0900 0.1225 0.1600 0.2025 0.2500 0.8574 0.7290 0.6141 0.5120 0.4219 0.3430 0.2746 0.2160 0.1664 0.1250 0.1354 0.2430 0.3251 0.3840 0.4219 0.4410 0.4436 0.4320 0.4084 0.3750 0.0071 0.0270 0.0574 0.0960 0.1406 0.1890 0.2389 0.2880 0.3341 0.3750 0.0001 0.0010 0.0034 0.0080 0.0156 0.0270 0.0429 0.0640 0.0911 0.1250 0.8145 0.6561 0.5220 0.4096 0.3164 0.2401 0.1785 0.1296 0.0915 0.0625 0.1715 0.2916 0.3685 0.4096 0.4219 0.4116 0.3845 0.3456 0.2995 0.2500 0.0135 0.0486 0.0975 0.1536 0.2109 0.2646 0.3105 0.3456 0.3675 0.3750 0.0005 0.0036 0.0115 0.0256 0.0469 0.0756 0.1115 0.1536 0.2005 0.2500 0.0000 0.0001 0.0005 0.0016 0.0039 0.0081 0.0150 0.0256 0.0410 0.0625 0.7738 0.5905 0.4437 0.3277 0.2373 0.1681 0.1160 0.0778 0.0503 0.0313 0.2036 0.3281 0.3915 0.4096 0.3955 0.3602 0.3124 0.2592 0.2059 0.1563 0.0214 0.0729 0.1382 0.2048 0.2637 0.3087 0.3364 0.3456 0.3369 0.3125 0.0011 0.0081 0.0244 0.0512 0.0879 0.1323 0.1811 0.2304 0.2757 0.3125 0.0000 0.0005 0.0022 0.0064 0.0146 0.0284 0.0488 0.0768 0.1128 0.1563 0.0000 0.0000 0.0001 0.0003 0.0010 0.0024 0.0053 0.0102 0.0185 0.0313 0.7351 0.5314 0.3771 0.2621 0.1780 0.1176 0.0754 0.0467 0.0277 0.0156 0.2321 0.3543 0.3993 0.3932 0.3560 0.3025 0.2437 0.1866 0.1359 0.0938 0.0305 0.0984 0.1762 0.2458 0.2966 0.3241 0.3280 0.3110 0.2780 0.2344 0.0021 0.0146 0.0415 0.0819 0.1318 0.1852 0.2355 0.2765 0.3032 0.3125 0.0001 0.0012 0.0055 0.0154 0.0330 0.0595 0.0951 0.1382 0.1861 0.2344 0.0000 0.0001 0.0004 0.0015 0.0044 0.0102 0.0205 0.0369 0.0609 0.0938 0.0000 0.0000 0.0000 0.0001 0.0002 0.0007 0.0018 0.0041 0.0083 0.0156 0.6983 0.4783 0.3206 0.2097 0.1335 0.0824 0.0490 0.0280 0.0152 0.0078 0.2573 0.3720 0.3960 0.3670 0.3115 0.2471 0.1848 0.1306 0.0872 0.0547 0.0406 0.1240 0.2097 0.2753 0.3115 0.3177 0.2985 0.2613 0.2140 0.1641 0.0036 0.0230 0.0617 0.1147 0.1730 0.2269 0.2679 0.2903 0.2918 0.2734 0.0002 0.0026 0.0109 0.0287 0.0577 0.0972 0.1442 0.1935 0.2388 0.2734 0.0000 0.0002 0.0012 0.0043 0.0115 0.0250 0.0466 0.0774 0.1172 0.1641 0.0000 0.0000 0.0001 0.0004 0.0013 0.0036 0.0084 0.0172 0.0320 0.0547 0.0000 0.0000 0.0000 0.0000 0.0001 0.0002 0.0006 0.0016 0.0037 0.0078 0.6634 0.4305 0.2725 0.1678 0.1001 0.0576 0.0319 0.0168 0.0084 0.0039 0.2793 0.3826 0.3847 0.3355 0.2670 0.1977 0.1373 0.0896 0.0548 0.0313 0.0515 0.1488 0.2376 0.2936 0.3115 0.2965 0.2587 0.2090 0.1569 0.1094 0.0054 0.0331 0.0839 0.1468 0.2076 0.2541 0.2786 0.2787 0.2568 0.2188 0.0004 0.0046 0.0185 0.0459 0.0865 0.1361 0.1875 0.2322 0.2627 0.2734 0.0000 0.0004 0.0026 0.0092 0.0231 0.0467 0.0808 0.1239 0.1719 0.2188 0.0000 0.0000 0.0002 0.0011 0.0038 0.0100 0.0217 0.0413 0.0703 0.1094 TABLA 2 (CONTINUACIÓN) p n k 0.05 0.10 0.15 0.20 0.25 0.30 0.35 0.40 0.45 0.50 8 7 0.0000 0.0000 0.0000 0.0001 0.0004 0.0012 0.0033 0.0079 0.0164 0.0313 8 8 0.0000 0.0000 0.0000 0.0000 0.0000 0.0001 0.0002 0.0007 0.0017 0.0039 9 0 0.6302 0.3874 0.2316 0.1342 0.0751 0.0404 0.0207 0.0101 0.0046 0.0020 9 1 0.2985 0.3874 0.3679 0.3020 0.2253 0.1556 0.1004 0.0605 0.0339 0.0176 9 2 0.0629 0.1722 0.2597 0.3020 0.3003 0.2668 0.2162 0.1612 0.1110 0.0703 9 3 0.0077 0.0446 0.1069 0.1762 0.2336 0.2668 0.2716 0.2508 0.2119 0.1641 9 4 0.0006 0.0074 0.0283 0.0661 0.1168 0.1715 0.2194 0.2508 0.2600 0.2461 9 5 0.0000 0.0008 0.0050 0.0165 0.0389 0.0735 0.1181 0.1672 0.2128 0.2461 9 6 0.0000 0.0001 0.0006 0.0028 0.0087 0.0210 0.0424 0.0743 0.1160 0.1641 9 7 0.0000 0.0000 0.0000 0.0003 0.0012 0.0039 0.0098 0.0212 0.0407 0.0703 9 8 0.0000 0.0000 0.0000 0.0000 0.0001 0.0004 0.0013 0.0035 0.0083 0.0176 9 9 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0001 0.0003 0.0008 0.0020 10 0 0.5987 0.3487 0.1969 0.1074 0.0563 0.0282 0.0135 0.0060 0.0025 0.0010 10 1 0.3151 0.3874 0.3474 0.2684 0.1877 0.1211 0.0725 0.0403 0.0207 0.0098 10 2 0.0746 0.1937 0.2759 0.3020 0.2816 0.2335 0.1757 0.1209 0.0763 0.0439 10 3 0.0105 0.0574 0.1298 0.2013 0.2503 0.2668 0.2522 0.2150 0.1665 0.1172 10 4 0.0010 0.0112 0.0401 0.0881 0.1460 0.2001 0.2377 0.2508 0.2384 0.2051 10 5 0.0001 0.0015 0.0085 0.0264 0.0584 0.1029 0.1536 0.2007 0.2340 0.2461 10 6 0.0000 0.0001 0.0012 0.0055 0.0162 0.0368 0.0689 0.1115 0.1596 0.2051 10 7 0.0000 0.0000 0.0001 0.0008 0.0031 0.0090 0.0212 0.0425 0.0746 0.1172 10 8 0.0000 0.0000 0.0000 0.0001 0.0004 0.0014 0.0043 0.0106 0.0229 0.0439 10 9 0.0000 0.0000 0.0000 0.0000 0.0000 0.0001 0.0005 0.0016 0.0042 0.0098 10 10 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0001 0.0003 0.0010 11 0 0.5688 0.3138 0.1673 0.0859 0.0422 0.0198 0.0088 0.0036 0.0014 0.0005 11 1 0.3293 0.3835 0.3248 0.2362 0.1549 0.0932 0.0518 0.0266 0.0125 0.0054 11 2 0.0867 0.2131 0.2866 0.2953 0.2581 0.1998 0.1395 0.0887 0.0513 0.0269 11 3 0.0137 0.0710 0.1517 0.2215 0.2581 0.2568 0.2254 0.1774 0.1259 0.0806 11 4 0.0014 0.0158 0.0536 0.1107 0.1721 0.2201 0.2428 0.2365 0.2060 0.1611 11 5 0.0001 0.0025 0.0132 0.0388 0.0803 0.1321 0.1830 0.2207 0.2360 0.2256 11 6 0.0000 0.0003 0.0023 0.0097 0.0268 0.0566 0.0985 0.1471 0.1931 0.2256 11 7 0.0000 0.0000 0.0003 0.0017 0.0064 0.0173 0.0379 0.0701 0.1128 0.1611 11 8 0.0000 0.0000 0.0000 0.0002 0.0011 0.0037 0.0102 0.0234 0.0462 0.0806 11 9 0.0000 0.0000 0.0000 0.0000 0.0001 0.0005 0.0018 0.0052 0.0126 0.0269 1110 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0002 0.0007 0.0021 0.0054 11 11 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0002 0.0005 12 0 0.5404 0.2824 0.1422 0.0687 0.0317 0.0138 0.0057 0.0022 0.0008 0.0002 12 1 0.3413 0.3766 0.3012 0.2062 0.1267 0.0712 0.0368 0.0174 0.0075 0.0029 12 2 0.0988 0.2301 0.2924 0.2835 0.2323 0.1678 0.1088 0.0639 0.0339 0.0161 12 3 0.0173 0.0852 0.1720 0.2362 0.2581 0.2397 0.1954 0.1419 0.0923 0.0537 12 4 0.0021 0.0213 0.0683 0.1329 0.1936 0.2311 0.2367 0.2128 0.1700 0.1208 TABLA 2 (CONTINUACIÓN) p n k 0.05 0.10 0.15 0.20 0.25 0.30 0.35 0.40 0.45 0.50 12 5 0.0002 0.0038 0.0193 0.0532 0.1032 0.1585 0.2039 0.2270 0.2225 0.1934 12 6 0.0000 0.0005 0.0040 0.0155 0.0401 0.0792 0.1281 0.1766 0.2124 0.2256 12 7 0.0000 0.0000 0.0006 0.0033 0.0115 0.0291 0.0591 0.1009 0.1489 0.1934 12 8 0.0000 0.0000 0.0001 0.0005 0.0024 0.0078 0.0199 0.0420 0.0762 0.1208 12 9 0.0000 0.0000 0.0000 0.0001 0.0004 0.0015 0.0048 0.0125 0.0277 0.0537 12 10 0.0000 0.0000 0.0000 0.0000 0.0000 0.0002 0.0008 0.0025 0.0068 0.0161 12 11 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0001 0.0003 0.0010 0.0029 12 12 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0001 0.0002 13 0 0.5133 0.2542 0.1209 0.0550 0.0238 0.0097 0.0037 0.0013 0.0004 0.0001 13 1 0.3512 0.3672 0.2774 0.1787 0.1029 0.0540 0.0259 0.0113 0.0045 0.0016 13 2 0.1109 0.2448 0.2937 0.2680 0.2059 0.1388 0.0836 0.0453 0.0220 0.0095 13 3 0.0214 0.0997 0.1900 0.2457 0.2517 0.2181 0.1651 0.1107 0.0660 0.0349 13 4 0.0028 0.0277 0.0838 0.1535 0.2097 0.2337 0.2222 0.1845 0.1350 0.0873 13 5 0.0003 0.0055 0.0266 0.0691 0.1258 0.1803 0.2154 0.2214 0.1989 0.1571 13 6 0.0000 0.0008 0.0063 0.0230 0.0559 0.1030 0.1546 0.1968 0.2169 0.2095 13 7 0.0000 0.0001 0.0011 0.0058 0.0186 0.0442 0.0833 0.1312 0.1775 0.2095 13 8 0.0000 0.0000 0.0001 0.0011 0.0047 0.0142 0.0336 0.0656 0.1089 0.1571 13 9 0.0000 0.0000 0.0000 0.0001 0.0009 0.0034 0.0101 0.0243 0.0495 0.0873 13 10 0.0000 0.0000 0.0000 0.0000 0.0001 0.0006 0.0022 0.0065 0.0162 0.0349 13 11 0.0000 0.0000 0.0000 0.0000 0.0000 0.0001 0.0003 0.0012 0.0036 0.0095 13 12 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0001 0.0005 0.0016 13 13 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0001 14 0 0.4877 0.2288 0.1028 0.0440 0.0178 0.0068 0.0024 0.0008 0.0002 0.0001 14 1 0.3593 0.3559 0.2539 0.1539 0.0832 0.0407 0.0181 0.0073 0.0027 0.0009 14 2 0.1229 0.2570 0.2912 0.2501 0.1802 0.1134 0.0634 0.0317 0.0141 0.0056 14 3 0.0259 0.1142 0.2056 0.2501 0.2402 0.1943 0.1366 0.0845 0.0462 0.0222 14 4 0.0037 0.0349 0.0998 0.1720 0.2202 0.2290 0.2022 0.1549 0.1040 0.0611 14 5 0.0004 0.0078 0.0352 0.0860 0.1468 0.1963 0.2178 0.2066 0.1701 0.1222 14 6 0.0000 0.0013 0.0093 0.0322 0.0734 0.1262 0.1759 0.2066 0.2088 0.1833 14 7 0.0000 0.0002 0.0019 0.0092 0.0280 0.0618 0.1082 0.1574 0.1952 0.2095 14 8 0.0000 0.0000 0.0003 0.0020 0.0082 0.0232 0.0510 0.0918 0.1398 0.1833 14 9 0.0000 0.0000 0.0000 0.0003 0.0018 0.0066 0.0183 0.0408 0.0762 0.1222 14 10 0.0000 0.0000 0.0000 0.0000 0.0003 0.0014 0.0049 0.0136 0.0312 0.0611 14 11 0.0000 0.0000 0.0000 0.0000 0.0000 0.0002 0.0010 0.0033 0.0093 0.0222 14 12 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0001 0.0005 0.0019 0.0056 14 13 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0001 0.0002 0.0009 14 14 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0001 15 0 0.4633 0.2059 0.0874 0.0352 0.0134 0.0047 0.0016 0.0005 0.0001 0.0000 15 1 0.3658 0.3432 0.2312 0.1319 0.0668 0.0305 0.0126 0.0047 0.0016 0.0005 15 2 0.1348 0.2669 0.2856 0.2309 0.1559 0.0916 0.0476 0.0219 0.0090 0.0032 TABLA 2 (CONTINUACIÓN) p n k 0.05 0.10 0.15 0.20 0.25 0.30 0.35 0.40 0.45 0.50 15 3 0.0307 0.1285 0.2184 0.2501 0.2252 0.1700 0.1110 0.0634 0.0318 0.0139 15 4 0.0049 0.0428 0.1156 0.1876 0.2252 0.2186 0.1792 0.1268 0.0780 0.0417 15 5 0.0006 0.0105 0.0449 0.1032 0.1651 0.2061 0.2123 0.1859 0.1404 0.0916 15 6 0.0000 0.0019 0.0132 0.0430 0.0917 0.1472 0.1906 0.2066 0.1914 0.1527 15 7 0.0000 0.0003 0.0030 0.0138 0.0393 0.0811 0.1319 0.1771 0.2013 0.1964 15 8 0.0000 0.0000 0.0005 0.0035 0.0131 0.0348 0.0710 0.1181 0.1647 0.1964 15 9 0.0000 0.0000 0.0001 0.0007 0.0034 0.0116 0.0298 0.0612 0.1048 0.1527 15 10 0.0000 0.0000 0.0000 0.0001 0.0007 0.0030 0.0096 0.0245 0.0515 0.0916 15 11 0.0000 0.0000 0.0000 0.0000 0.0001 0.0006 0.0024 0.0074 0.0191 0.0417 15 12 0.0000 0.0000 0.0000 0.0000 0.0000 0.0001 0.0004 0.0016 0.0052 0.0139 15 13 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0001 0.0003 0.0010 0.0032 15 14 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0001 0.0005 15 15 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 16 0 0.4401 0.1853 0.0743 0.0281 0.0100 0.0033 0.0010 0.0003 0.0001 0.0000 16 1 0.3706 0.3294 0.2097 0.1126 0.0535 0.0228 0.0087 0.0030 0.0009 0.0002 16 2 0.1463 0.2745 0.2775 0.2111 0.1336 0.0732 0.0353 0.0150 0.0056 0.0018 16 3 0.0359 0.1423 0.2285 0.2463 0.2079 0.1465 0.0888 0.0468 0.0215 0.0085 16 4 0.0061 0.0514 0.1311 0.2001 0.2252 0.2040 0.1553 0.1014 0.0572 0.0278 16 5 0.0008 0.0137 0.0555 0.1201 0.1802 0.2099 0.2008 0.1623 0.1123 0.0667 16 6 0.0001 0.0028 0.0180 0.0550 0.1101 0.1649 0.1982 0.1983 0.1684 0.1222 16 7 0.0000 0.0004 0.0045 0.0197 0.0524 0.1010 0.1524 0.1889 0.1969 0.1746 16 8 0.0000 0.0001 0.0009 0.0055 0.0197 0.0487 0.0923 0.1417 0.1812 0.1964 16 9 0.0000 0.0000 0.0001 0.0012 0.0058 0.0185 0.0442 0.0840 0.1318 0.1746 16 10 0.0000 0.0000 0.0000 0.0002 0.0014 0.0056 0.0167 0.0392 0.0755 0.1222 16 11 0.0000 0.0000 0.0000 0.0000 0.0002 0.0013 0.0049 0.0142 0.0337 0.0667 16 12 0.0000 0.0000 0.0000 0.0000 0.0000 0.0002 0.0011 0.0040 0.0115 0.0278 16 13 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0002 0.0008 0.0029 0.0085 16 14 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0001 0.0005 0.0018 16 15 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0001 0.0002 16 16 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 17 0 0.4181 0.1668 0.0631 0.0225 0.0075 0.0023 0.0007 0.0002 0.0000 0.0000 17 1 0.3741 0.3150 0.1893 0.0957 0.0426 0.0169 0.0060 0.0019 0.0005 0.0001 17 2 0.1575 0.2800 0.2673 0.1914 0.1136 0.0581 0.0260 0.0102 0.0035 0.0010 17 3 0.0415 0.1556 0.2359 0.2393 0.1893 0.1245 0.0701 0.0341 0.0144 0.0052 17 4 0.0076 0.0605 0.1457 0.2093 0.2209 0.1868 0.1320 0.0796 0.0411 0.0182 17 5 0.0010 0.0175 0.0668 0.1361 0.1914 0.2081 0.1849 0.1379 0.0875 0.0472 17 6 0.0001 0.0039 0.0236 0.0680 0.1276 0.1784 0.1991 0.1839 0.1432 0.0944 17 7 0.0000 0.0007 0.0065 0.0267 0.0668 0.1201 0.1685 0.1927 0.1841 0.1484 17 8 0.0000 0.0001 0.0014 0.0084 0.0279 0.0644 0.1134 0.1606 0.1883 0.1855 17 9 0.0000 0.0000 0.0003 0.0021 0.0093 0.0276 0.0611 0.1070 0.1540 0.1855 TABLA 2 (CONTINUACIÓN) n k 0.05 0.10 0.15 p 0.20 0.25 0.30 0.35 0.40 0.45 0.50 17 10 0.0000 0.0000 0.0000 0.0004 0.0025 0.0095 0.0263 0.0571 0.1008 0.1484 17 11 0.0000 0.0000 0.0000 0.0001 0.0005 0.0026 0.0090 0.0242 0.0525 0.0944 17 12 0.0000 0.0000 0.0000 0.0000 0.0001 0.0006 0.0024 0.0081 0.0215 0.0472 17 13 0.0000 0.0000 0.0000 0.0000 0.0000 0.0001 0.0005 0.0021 0.0068 0.0182 17 14 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0001 0.0004 0.0016 0.0052 17 15 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0001 0.0003 0.0010 17 16 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0001 17 17 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 18 0 0.3972 0.1501 0.0536 0.0180 0.0056 0.0016 0.0004 0.0001 0.0000 0.0000 18 1 0.3763 0.3002 0.1704 0.0811 0.0338 0.0126 0.0042 0.0012 0.0003 0.0001 18 2 0.1683 0.2835 0.2556 0.1723 0.0958 0.0458 0.0190 0.0069 0.0022 0.0006 18 3 0.0473 0.1680 0.2406 0.2297 0.1704 0.1046 0.0547 0.0246 0.0095 0.0031 18 4 0.0093 0.0700 0.1592 0.2153 0.2130 0.1681 0.1104 0.0614 0.0291 0.0117 18 5 0.0014 0.0218 0.0787 0.1507 0.1988 0.2017 0.1664 0.1146 0.0666 0.0327 18 6 0.0002 0.0052 0.0301 0.0816 0.1436 0.1873 0.1941 0.1655 0.1181 0.0708 18 7 0.0000 0.0010 0.0091 0.0350 0.0820 0.1376 0.1792 0.1892 0.1657 0.1214 18 8 0.0000 0.0002 0.0022 0.0120 0.0376 0.0811 0.1327 0.1734 0.1864 0.1669 18 9 0.0000 0.0000 0.0004 0.0033 0.0139 0.0386 0.0794 0.1284 0.1694 0.1855 18 10 0.0000 0.0000 0.0001 0.0008 0.0042 0.0149 0.0385 0.0771 0.1248 0.1669 18 11 0.0000 0.0000 0.0000 0.0001 0.0010 0.0046 0.0151 0.0374 0.0742 0.1214 18 12 0.0000 0.0000 0.0000 0.0000 0.0002 0.0012 0.0047 0.0145 0.0354 0.0708 18 13 0.0000 0.0000 0.0000 0.0000 0.0000 0.0002 0.0012 0.0045 0.0134 0.0327 18 14 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0002 0.0011 0.0039 0.0117 18 15 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0002 0.0009 0.0031 18 16 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0001 0.0006 18 17 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0001 18 18 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 19 0 0.3774 0.1351 0.0456 0.0144 0.0042 0.0011 0.0003 0.0001 0.0000 0.0000 19 1 0.3774 0.2852 0.1529 0.0685 0.0268 0.0093 0.0029 0.0008 0.0002 0.0000 19 2 0.1787 0.2852 0.2428 0.1540 0.0803 0.0358 0.0138 0.0046 0.0013 0.0003 19 3 0.0533 0.1796 0.2428 0.2182 0.1517 0.0869 0.0422 0.0175 0.0062 0.0018 19 4 0.0112 0.0798 0.1714 0.2182 0.2023 0.1491 0.0909 0.0467 0.0203 0.0074 19 5 0.0018 0.0266 0.0907 0.1636 0.2023 0.1916 0.1468 0.0933 0.0497 0.0222 19 6 0.0002 0.0069 0.0374 0.0955 0.1574 0.1916 0.1844 0.1451 0.0949 0.0518 19 7 0.0000 0.0014 0.0122 0.0443 0.0974 0.1525 0.1844 0.1797 0.1443 0.0961 19 8 0.0000 0.0002 0.0032 0.0166 0.0487 0.0981 0.1489 0.1797 0.1771 0.1442 19 9 0.0000 0.0000 0.0007 0.0051 0.0198 0.0514 0.0980 0.1464 0.1771 0.1762 19 10 0.0000 0.0000 0.0001 0.0013 0.0066 0.0220 0.0528 0.0976 0.1449 0.1762 19 11 0.0000 0.0000 0.0000 0.0003 0.0018 0.0077 0.0233 0.0532 0.0970 0.1442 19 12 0.0000 0.0000 0.0000 0.0000 0.0004 0.0022 0.0083 0.0237 0.0529 0.0961 TABLA 2 (CONTINUACIÓN) n k 0.05 0.10 0.15 p 0.20 0.25 0.30 0.35 0.40 0.45 0.50 19 13 0.0000 0.0000 0.0000 0.0000 0.0001 0.0005 0.0024 0.0085 0.0233 0.0518 19 14 0.0000 0.0000 0.0000 0.0000 0.0000 0.0001 0.0006 0.0024 0.0082 0.0222 19 15 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0001 0.0005 0.0022 0.0074 19 16 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0001 0.0005 0.0018 19 17 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0001 0.0003 19 18 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 19 19 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 20 0 0.3585 0.1216 0.0388 0.0115 0.0032 0.0008 0.0002 0.0000 0.0000 0.0000 20 1 0.3774 0.2702 0.1368 0.0576 0.0211 0.0068 0.0020 0.0005 0.0001 0.0000 20 2 0.1887 0.2852 0.2293 0.1369 0.0669 0.0278 0.0100 0.0031 0.0008 0.0002 20 3 0.0596 0.1901 0.2428 0.2054 0.1339 0.0716 0.0323 0.0123 0.0040 0.0011 20 4 0.0133 0.0898 0.1821 0.2182 0.1897 0.1304 0.0738 0.0350 0.0139 0.0046 20 5 0.0022 0.0319 0.1028 0.1746 0.2023 0.1789 0.1272 0.0746 0.0365 0.0148 20 6 0.0003 0.0089 0.0454 0.1091 0.1686 0.1916 0.1712 0.1244 0.0746 0.0370 20 7 0.0000 0.0020 0.0160 0.0545 0.1124 0.1643 0.1844 0.1659 0.1221 0.0739 20 8 0.0000 0.0004 0.0046 0.0222 0.0609 0.1144 0.1614 0.1797 0.1623 0.1201 20 9 0.0000 0.0001 0.0011 0.0074 0.0271 0.0654 0.1158 0.1597 0.1771 0.1602 20 10 0.0000 0.0000 0.0002 0.0020 0.0099 0.0308 0.0686 0.1171 0.1593 0.1762 20 11 0.0000 0.0000 0.0000 0.0005 0.0030 0.0120 0.0336 0.0710 0.1185 0.1602 20 12 0.0000 0.0000 0.0000 0.0001 0.0008 0.0039 0.0136 0.0355 0.0727 0.1201 20 13 0.0000 0.0000 0.0000 0.0000 0.0002 0.0010 0.0045 0.0146 0.0366 0.0739 20 14 0.0000 0.0000 0.0000 0.0000 0.0000 0.0002 0.0012 0.0049 0.0150 0.0370 20 15 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0003 0.0013 0.0049 0.0148 20 16 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0003 0.0013 0.0046 20 17 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0002 0.0011 20 18 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0002 20 19 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 20 20 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 TABLA 3: PROBABILIDADES DE POISSON _ K 0.005 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09 0 0.9950 0.9900 0.9802 0.9704 0.9608 0.9512 0.9418 0.9324 0.9231 0.9139 1 0.0050 0.0099 0.0196 0.0291 0.0384 0.0476 0.0565 0.0653 0.0738 0.0823 2 0.0000 0.0000 0.0002 0.0004 0.0008 0.0012 0.0017 0.0023 0.0030 0.0037 3 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0001 0.0001 0.0001 _ k 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 0 0.9048 0.8187 0.7408 0.6703 0.6065 0.5488 0.4966 0.4493 0.4066 0.3679 1 0.0905 0.1637 0.2222 0.2681 0.3033 0.3293 0.3476 0.3595 0.3659 0.3679 2 0.0045 0.0164 0.0333 0.0536 0.0758 0.0988 0.1217 0.1438 0.1647 0.1839 3 0.0002 0.0011 0.0033 0.0072 0.0126 0.0198 0.0284 0.0383 0.0494 0.0613 4 0.0000 0.0001 0.0003 0.0007 0.0016 0.0030 0.0050 0.0077 0.0111 0.0153 5 0.0000 0.0000 0.0000 0.0001 0.0002 0.0004 0.0007 0.0012 0.0020 0.0031 6 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0001 0.0002 0.0003 0.0005 7 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0001 _ k 1.1 1.2 1.3 1.4 1.5 1.6 1.7 1.8 1.9 2.0 0 0.3329 0.3012 0.2725 0.2466 0.2231 0.2019 0.1827 0.1653 0.1496 0.1353 1 0.3662 0.3614 0.3543 0.3452 0.3347 0.3230 0.3106 0.2975 0.2842 0.2707 2 0.2014 0.2169 0.2303 0.2417 0.2510 0.2584 0.2640 0.2678 0.2700 0.2707 3 0.0738 0.0867 0.0998 0.1128 0.1255 0.1378 0.1496 0.1607 0.1710 0.1804 4 0.0203 0.0260 0.0324 0.0395 0.0471 0.0551 0.0636 0.0723 0.0812 0.0902 5 0.0045 0.0062 0.0084 0.0111 0.0141 0.0176 0.0216 0.0260 0.0309 0.0361 6 0.0008 0.0012 0.0018 0.0026 0.0035 0.0047 0.0061 0.0078 0.0098 0.0120 7 0.0001 0.0002 0.0003 0.0005 0.0008 0.0011 0.0015 0.0020 0.0027 0.0034 8 0.0000 0.0000 0.0001 0.0001 0.0001 0.0002 0.0003 0.0005 0.0006 0.0009 9 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0001 0.0001 0.0001 0.0002 _ K 2.1 2.2 2.3 2.4 2.5 2.6 2.7 2.8 2.9 3.0 0 0.1225 0.1108 0.1003 0.0907 0.0821 0.0743 0.0672 0.0608 0.0550 0.0498 1 0.2572 0.2438 0.2306 0.2177 0.2052 0.1931 0.1815 0.1703 0.1596 0.1494 2 0.2700 0.2681 0.2652 0.2613 0.2565 0.2510 0.2450 0.2384 0.2314 0.2240 3 0.1890 0.1966 0.2033 0.2090 0.2138 0.2176 0.2205 0.2225 0.2237 0.2240 4 0.0992 0.1082 0.1169 0.1254 0.1336 0.1414 0.1488 0.1557 0.1622 0.1680 5 0.0417 0.0476 0.0538 0.0602 0.0668 0.0735 0.0804 0.0872 0.0940 0.1008 6 0.0146 0.0174 0.0206 0.0241 0.0278 0.0319 0.0362 0.0407 0.0455 0.0504 7 0.0044 0.0055 0.0068 0.0083 0.0099 0.0118 0.0139 0.0163 0.0188 0.0216 8 0.0011 0.0015 0.0019 0.0025 0.0031 0.0038 0.0047 0.0057 0.0068 0.0081 9 0.0003 0.0004 0.0005 0.0007 0.0009 0.0011 0.0014 0.0018 0.0022 0.0027 10 0.0001 0.0001 0.0001 0.0002 0.0002 0.0003 0.0004 0.0005 0.0006 0.0008 11 0.0000 0.0000 0.0000 0.0000 0.0000 0.0001 0.0001 0.0001 0.0002 0.0002 12 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0001 TABLA 3 (CONTINUACION) K 3.1 3.2 3.3 3.4 3.5 3.6 3.7 3.8 3.9 4.0 0 0.0450 0.0408 0.0369 0.0334 0.0302 0.0273 0.0247 0.0224 0.0202 0.0183 1 0.1397 0.1304 0.1217 0.1135 0.1057 0.0984 0.0915 0.0850 0.0789 0.0733 2 0.2165 0.2087 0.2008 0.1929 0.1850 0.1771 0.1692 0.1615 0.1539 0.1465 3 0.2237 0.2226 0.2209 0.2186 0.2158 0.2125 0.2087 0.2046 0.2001 0.1954 4 0.1733 0.1781 0.1823 0.1858 0.1888 0.1912 0.1931 0.1944 0.1951 0.1954 5 0.1075 0.1140 0.1203 0.1264 0.1322 0.1377 0.1429 0.1477 0.1522 0.1563 6 0.0555 0.0608 0.0662 0.0716 0.0771 0.0826 0.0881 0.0936 0.0989 0.1042 7 0.0246 0.0278 0.0312 0.0348 0.0385 0.0425 0.0466 0.0508 0.0551 0.0595 8 0.0095 0.0111 0.0129 0.0148 0.0169 0.0191 0.0215 0.0241 0.0269 0.0298 9 0.0033 0.0040 0.0047 0.0056 0.0066 0.0076 0.0089 0.0102 0.0116 0.0132 10 0.0010 0.0013 0.0016 0.0019 0.0023 0.0028 0.0033 0.0039 0.0045 0.0053 11 0.0003 0.0004 0.0005 0.0006 0.0007 0.0009 0.0011 0.0013 0.0016 0.0019 12 0.0001 0.0001 0.0001 0.0002 0.0002 0.0003 0.0003 0.0004 0.0005 0.0006 13 0.0000 0.0000 0.0000 0.0000 0.0001 0.0001 0.0001 0.0001 0.0002 0.0002 14 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0001 _ K 4.1 4.2 4.3 4.4 4.5 4.6 4.7 4.8 4.9 5.0 0 0.0166 0.0150 0.0136 0.0123 0.0111 0.0101 0.0091 0.0082 0.0074 0.0067 1 0.0679 0.0630 0.0583 0.0540 0.0500 0.0462 0.0427 0.0395 0.0365 0.0337 2 0.1393 0.1323 0.1254 0.1188 0.1125 0.1063 0.1005 0.0948 0.0894 0.0842 3 0.1904 0.1852 0.1798 0.1743 0.1687 0.1631 0.1574 0.1517 0.1460 0.1404 4 0.1951 0.1944 0.1933 0.1917 0.1898 0.1875 0.1849 0.1820 0.1789 0.1755 5 0.1600 0.1633 0.1662 0.1687 0.1708 0.1725 0.1738 0.1747 0.1753 0.1755 6 0.1093 0.1143 0.1191 0.1237 0.1281 0.1323 0.1362 0.1398 0.1432 0.1462 7 0.0640 0.0686 0.0732 0.0778 0.0824 0.0869 0.0914 0.0959 0.1002 0.1044 8 0.0328 0.0360 0.0393 0.0428 0.0463 0.0500 0.0537 0.0575 0.0614 0.0653 9 0.0150 0.0168 0.0188 0.0209 0.0232 0.0255 0.0281 0.0307 0.0334 0.0363 10 0.0061 0.0071 0.0081 0.0092 0.0104 0.0118 0.0132 0.0147 0.0164 0.0181 11 0.0023 0.0027 0.0032 0.0037 0.0043 0.0049 0.0056 0.0064 0.0073 0.0082 12 0.0008 0.0009 0.0011 0.0013 0.0016 0.0019 0.0022 0.0026 0.0030 0.0034 13 0.0002 0.0003 0.0004 0.0005 0.0006 0.0007 0.0008 0.0009 0.0011 0.0013 14 0.0001 0.0001 0.0001 0.0001 0.0002 0.0002 0.0003 0.0003 0.0004 0.0005 15 0.0000 0.0000 0.0000 0.0000 0.0001 0.0001 0.0001 0.0001 0.0001 0.0002 _ K 5.1 5.2 5.3 5.4 5.5 5.6 5.7 5.8 5.9 6.0 0 0.0061 0.0055 0.0050 0.0045 0.0041 0.0037 0.0033 0.0030 0.0027 0.0025 1 0.0311 0.0287 0.0265 0.0244 0.0225 0.0207 0.0191 0.0176 0.0162 0.0149 2 0.0793 0.0746 0.0701 0.0659 0.0618 0.0580 0.0544 0.0509 0.0477 0.0446 3 0.1348 0.1293 0.1239 0.1185 0.1133 0.1082 0.1033 0.0985 0.0938 0.0892 4 0.1719 0.1681 0.1641 0.1600 0.1558 0.1515 0.1472 0.1428 0.1383 0.1339 5 0.1753 0.1748 0.1740 0.1728 0.1714 0.1697 0.1678 0.1656 0.1632 0.1606 6 0.1490 0.1515 0.1537 0.1555 0.1571 0.1584 0.1594 0.1601 0.1605 0.1606 7 0.1086 0.1125 0.1163 0.1200 0.1234 0.1267 0.1298 0.1326 0.1353 0.1377 TABLA 3 (CONTINUACION) K 8 9 10 11 12 13 14 15 16 17 5.1 5.2 5.3 5.4 5.5 5.6 5.7 5.8 5.9 6.0 0.0692 0.0731 0.0771 0.0810 0.0849 0.0887 0.0925 0.0962 0.0998 0.1033 0.0392 0.0423 0.0454 0.0486 0.0519 0.0552 0.0586 0.0620 0.0654 0.0688 0.0200 0.0220 0.0241 0.0262 0.0285 0.0309 0.0334 0.0359 0.0386 0.0413 0.0093 0.0104 0.0116 0.0129 0.0143 0.0157 0.0173 0.0190 0.0207 0.0225 0.0039 0.0045 0.0051 0.0058 0.0065 0.0073 0.0082 0.0092 0.0102 0.0113 0.0015 0.0018 0.0021 0.0024 0.0028 0.0032 0.0036 0.0041 0.0046 0.0052 0.0006 0.0007 0.0008 0.0009 0.0011 0.0013 0.0015 0.0017 0.0019 0.0022 0.0002 0.0002 0.0003 0.0003 0.0004 0.0005 0.0006 0.0007 0.0008 0.0009 0.0001 0.0001 0.0001 0.0001 0.0001 0.0002 0.0002 0.0002 0.0003 0.0003 0.0000 0.0000 0.0000 0.0000 0.0000 0.0001 0.0001 0.0001 0.0001 0.0001 k 6.1 6.2 6.3 6.4 6.5 6.6 6.7 6.8 6.9 7.0 0 0.0022 0.0020 0.0018 0.0017 0.0015 0.0014 0.0012 0.0011 0.0010 0.0009 1 0 0137 0.0126 0.0116 0.0106 0.0098 0.0090 0.0082 0.0076 0.0070 0.0064 2 0.0417 0.0390 0.0364 0.0340 0.0318 0.0296 0.0276 0.0258 0.0240 0.0223 3 0.0848 0.0806 0.0765 0.0726 0.0688 0.0652 0.0617 0.0584 0.0552 0.0521 4 0.1294 0.1249 0.1205 0.1162 0.1118 0.1076 0.1034 0.0992 0.0952 0.0912 5 0.1579 0.1549 0.1519 0.1487 0.1454 0.1420 0.1385 0.1349 0.1314 0.1277 6 0.1605 0.1601 0.1595 0.1586 0.1575 0.1562 0.1546 0.1529 0.1511 0.1490 7 0.1399 0.1418 0.1435 0.1450 0.1462 0.1472 0.1480 0.1486 0.1489 0.1490 8 0.1066 0.1099 0.1130 0.1160 0.1188 0.1215 0.1240 0.1263 0.1284 0.1304 9 0.0723 0.0757 0.0791 0.0825 0.0858 0.0891 0.0923 0.0954 0.0985 0.1014 10 0.0441 0.0469 0.0498 0.0528 0.0558 0.0588 0.0618 0.0649 0.0679 0.0710 11 0.0244 0.0265 0.0285 0.0307 0.0330 0.0353 0.0377 0.0401 0.0426 0.0452 12 0.0124 0.0137 0.0150 0.0164 0.0179 0.0194 0.0210 0.0227 0.0245 0.0263 13 0.0058 0.0065 0.0073 0.0081 0.0089 0.0099 0.0108 0.0119 0.0130 0.0142 14 0.0025 0.0029 0.0033 0.0037 0.0041 0.0046 0.0052 0.0058 0.0064 0.0071 15 0.0010 0.0012 0.0014 0.0016 0.0018 0.0020 0.0023 0.0026 0.0029 0.0033 16 0.0004 0.0005 0.0005 0.0006 0.0007 0.0008 0.0010 0.0011 0.0013 0.0014 17 0.0001 0.0002 0.0002 0.0002 0.0003 0.0003 0.0004 0.0004 0.0005 0.0006 18 0.0000 0.0001 0.0001 0.0001 0.0001 0.0001 0.0001 0.0002 0.0002 0.0002 19 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0001 0.0001 0.0001 0.0001 _ k 7.1 7.2 7.3 7.4 7.5 7.6 7.7 7.8 7.9 8.0 0 0.0008 0.0007 0.0007 0.0006 0.0006 0.0005 0.0005 0.0004 0.0004 0.0003 1 0.0059 0.0054 0.0049 0.0045 0.0041 0.0038 0.0035 0.0032 0.0029 0.0027 2 0.0208 0.0194 0.0180 0.0167 0.0156 0.0145 0.0134 0.0125 0.0116 0.0107 3 0.0492 0.0464 0.0438 0.0413 0.0389 0.0366 0.0345 0.0324 0.0305 0.0286 4 0.0874 0.0836 0.0799 0.0764 0.0729 0.0696 0.0663 0.0632 0.0602 0.0573 5 0.1241 0.1204 0.1167 0.1130 0.1094 0.1057 0.1021 0.0986 0.0951 0.0916 6 0.1468 0.1445 0.1420 0.1394 0.1367 0.1339 0.1311 0.1282 0.1252 0.1221 7 0.1489 0.1486 0.1481 0.1474 0.1465 0.1454 0.1442 0.1428 0.1413 0.1396 8 0.1321 0.1337 0.1351 0.1363 0.1373 0.1381 0.1388 0.1392 0.1395 0.1396 k 7.1 7.2 7.3 7.4 7.5 7.6 7.7 7.8 7.9 8.0 9 0.1042 0.1070 0.1096 0.1121 0.1144 0.1167 0.1187 0.1207 0.1224 0.1241 10 0.0740 0.0770 0.0800 0.0829 0.0858 0.0887 0.0914 0.0941 0.0967 0.0993 11 0.0478 0.0504 0.0531 0.0558 0.0585 0.0613 0.0640 0.0667 0.0695 0.0722 12 0.0283 0.0303 0.0323 0.0344 0.0366 0.0388 0.0411 0.0434 0.0457 0.0481 13 0.0154 0.0168 0.0181 0.0196 0.0211 0.0227 0.0243 0.0260 0.0278 0.0296 14 0.0078 0.0086 0.0095 0.0104 0.0113 0.0123 0.0134 0.0145 0.0157 0.0169 15 0.0037 0.0041 0.0046 0.0051 0.0057 0.0062 0.0069 0.0075 0.0083 0.0090 16 0.0016 0.0019 0.0021 0.0024 0.0026 0.0030 0.0033 0.0037 0.0041 0.0045 17 0.0007 0.0008 0.0009 0.0010 0.0012 0.0013 0.0015 0.0017 0.0019 0.0021 18 0.0003 0.0003 0.0004 0.0004 0.0005 0.0006 0.0006 0.0007 0.0008 0.0009 19 0.0001 0.0001 0.0001 0.0002 0.0002 0.0002 0.0003 0.0003 0.0003 0.0004 20 0.0000 0.0000 0.0001 0.0001 0.0001 0.0001 0.0001 0.0001 0.0001 0.0002 21 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0001 0.0001 Distribución T de Student 0,39 Densidad 0,29 0,19 0,10 0,00 -5,59 -2,80 0,00 2,80 5,59 Variable F n 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 40 60 120 0,75 0,8 0,85 0,9 0,95 0,975 0,99 0,995 0,9995 1 0,816 0,765 0,741 0,727 0,718 0,711 0,706 0,703 0,7 0,697 0,695 0,694 0,692 0,691 0,69 0,689 0,688 0,688 0,687 0,686 0,686 0,685 0,685 0,684 0,684 0,684 0,683 0,683 0,683 0,681 0,679 0,677 0,674 0,25 1,376 1,061 0,978 0,941 0,92 0,906 0,896 0,889 0,883 0,879 0,876 0,873 0,87 0,868 0,866 0,865 0,863 0,862 0,861 0,86 0,859 0,858 0,858 0,857 0,856 0,856 0,855 0,855 0,854 0,854 0,851 0,848 0,845 0,842 0,2 1,963 1,386 1,25 1,19 1,156 1,134 1,119 1,108 1,1 1,093 1,088 1,083 1,079 1,076 1,074 1,071 1,069 1,067 1,066 1,064 1,063 1,061 1,06 1,059 1,058 1,058 1,057 1,056 1,055 1,055 1,05 1,045 1,041 1,036 0,15 3,078 1,886 1,638 1,533 1,476 1,44 1,415 1,397 1,383 1,372 1,363 1,356 1,35 1,345 1,341 1,337 1,333 1,33 1,328 1,325 1,323 1,321 1,319 1,318 1,316 1,315 1,314 1,313 1,311 1,31 1,303 1,296 1,289 1,282 0,1 6,314 2,92 2,353 2,132 2,015 1,943 1,895 1,86 1,833 1,812 1,796 1,782 1,771 1,761 1,753 1,746 1,74 1,734 1,729 1,725 1,721 1,717 1,714 1,711 1,708 1,706 1,703 1,701 1,699 1,697 1,684 1,671 1,658 1,645 0,05 12,706 4,303 3,182 2,776 2,571 2,447 2,365 2,306 2,262 2,228 2,201 2,179 2,16 2,145 2,131 2,12 2,11 2,101 2,093 2,086 2,08 2,074 2,069 2,064 2,06 2,056 2,052 2,048 2,045 2,042 2,021 2 1,98 1,96 0,025 31,821 6,965 4,541 3,747 3,365 3,143 2,998 2,896 2,821 2,764 2,718 2,681 2,65 2,624 2,602 2,583 2,567 2,552 2,539 2,528 2,518 2,508 2,5 2,492 2,485 2,479 2,473 2,467 2,462 2,457 2,423 2,39 2,358 2,326 0,01 63,656 9,925 5,841 4,604 4,032 3,707 3,499 3,355 3,25 3,169 3,106 3,055 3,012 2,977 2,947 2,921 2,898 2,878 2,861 2,845 2,831 2,819 2,807 2,797 2,787 2,779 2,771 2,763 2,756 2,75 2,704 2,66 2,617 2,576 0,005 636,578 31,6 12,924 8,61 6,869 5,959 5,408 5,041 4,781 4,587 4,437 4,318 4,221 4,14 4,073 4,015 3,965 3,922 3,883 3,85 3,819 3,792 3,768 3,745 3,725 3,707 3,689 3,674 3,66 3,646 3,551 3,46 3,373 3,29 0,0005 A N E X O Indicadores II INDICADORES DE USO FRECUENTE TASAS, RAZONES Y PROPORCIONES Cuando se hace un recuento del número de veces que se presenta un hecho en una población, como por ejemplo: 30 casos de dengue 10 personas intoxicadas 40 alumnos repitentes Sabemos, que éstos números obtenidos se denominan “frecuencias absolutas”. Algunas veces los valores absolutos son suficientes para el análisis de un problema determinado, por ejemplo: 1 caso de viruela 1 caso de niño con problemas por sobredosis de droga Casos como los planteados anteriormente no se esperan que ocurran, (con frecuencia esperada = 0), por lo tanto, cualquier numero adquiere importancia y permite el análisis del problema. Pero, ¿Qué pasaría si se dice que en la Provincia de Formosa en el año 1.997, el total de repitientes del segundo año de la modalidad agropecuaria es igual a 15?. ¿Es éste un número de repitentes, alto o bajo?. Para contestar la pregunta se deben hacer comparaciones, por ejemplo, con otras modalidades. En el mismo año en la modalidad bachiller los repitentes fueron 620. Ahora se tiene un punto de referencia, pero, para sacar conclusiones, ¿son suficientes estas dos cifras absolutas? Repitentes de 2º año modalidad agropecuaria Repitentes de 2º año modalidad bachiller = 15 = 620 Es correcto decir que en el segundo año de la modalidad agropecuaria repiten menos que en la modalidad bachiller, pues es menor el numero de repitentes?. Absolutamente no. Es necesario el número de alumnos en cada modalidad y relacionar los repitentes con esa población en ambas modalidades. Los de matriculado para el segundo año son: Modalidad agropecuaria = 72 Modalidad bachiller = 4.041 Si relaciono el número de repitentes y los matriculados para el segundo año, tendré: 15 / 72 = 0,20833 620 / 4041 = 0,15342 El resultado de estos dos cocientes permitirán comparar la magnitud del problema del segundo año, en una y otra modalidad. Pero los resultados de estas divisiones son: 0,20833 y 0,15342 Aunque no se redondea en: 0,208 y 0,153 Estos números son difíciles de manejar para describir conclusiones, por ello se acostumbra a multiplicarlos por un que nos permita trabajar con un número entero. Este número ser 100, 1.000, 10.000 o 100.000 según la magnitud de numerador y el denominador. 0,208 x 100 = 20,8 % 0,153 x 100 = 15,3 % el problema y sacar factor de ampliación de ampliación puede la relación entre el TASA: éste termino se utiliza generalmente para referirse a aquellos cálculos que implican la probabilidad de ocurrencia de algún evento. Una tasa se expresa de la forma: a ------------- k a + b Donde: a = a la frecuencia con la cual se ha presentado un evento durante algún periodo especificado. a + b = al numero de personas expuestas al riesgo del evento durante el mismo periodo. K = a un factor de ampliación como 10, 100, 1.000, 10.000 o 100.000. El numerador de una tasa es una parte componente de del denominador. La tasa se multiplica por el factor de ampliación (K), para evitar resultados que comprendan números muy pequeños que puedan surgir en cálculo de las mismas, y facilitar su comprensión. El valor elegido de k depende de la magnitud del numerador y del denominador. O sea q la tasa relaciona el número de veces que se presenta, un hecho cualquiera, en la población de un área determinada, durante un periodo de tiempo también determinado, y la población correspondiente a esa área estimada a la mitad del periodo de tiempo. Lo fundamental en la construcción de una tasa, es relacionar un hecho con la población expuesta al riesgo de que el hecho ocurra. Las tasas se pueden clasificar en: - Generales o brutas - Especificas Tasas generales: son aquellas cuyo denominador es total de la población. Por ejemplo, la tasa de mortalidad que se obtiene de la siguiente manera: T.M.G. = total de defunciones de un lugar x, en un periodo z . 1000 Población del lugar x en, en el periodo z Tasas específicas: el denominador contiene un subgrupo de la población. Por ejemplo tasa de la mortalidad infantil, que se obtiene: T.M.I. = defunciones de un niño menor de un año, lugar x, periodo z . 1000 Nacidos vivos del lugar x, periodo z Según el tipo de riesgo que miden. Algunas de las tasas de uso mas frecuente son: a) las referidas especialmente a la educación: - Tasas de repitencia Tasas de escolarización Tasas de retención Tasas de desgranamiento Tasas de incorporación b) las referidas a las estadísticas vitales: - Tasas de natalidad Tasas de mortalidad Tasas de letalidad Se definen las primeras en la forma siguiente: Tasas de repitencia: relacionan el número estudiantes que permanecen en el mismo grado durante mas de un año lectivo, en un establecimiento determinado, con la misma matricula de ese mismo grado en igual ciclo lectivo y establecimiento educativo. Tasas de escolarización: relacionan la población en edad escolar que asiste efectivamente a un establecimiento escolar, en un año y lugar geográfico determinado, con la población en edad escolar en edad escolar en el mismo año y lugar geográfico. Tasas de retención: relacionan los alumnos pertenecientes a una cohorte que después de transitar los años de estudios correspondiente al plan, finalizan un nivel educativo en un establecimiento educativo determinado, con los alumnos matriculados en el primer año de estudio del mismo plan, en el mismo establecimiento educativo. Tasas de desgranamiento: relacionan los alumnos pertenecientes a una cohorte que no llegan a finalizar el nivel en los años de estudios correspondiente al plan, en un establecimiento educativo determinado con los alumnos matriculados en el primer año del estudio del mismo plan, en el mismo establecimiento educativo. Los alumnos pueden no llegar a completar el ciclo por repitencia, por abandono temporario o definitivo. Tasas de incorporación: relacionan el número de matriculados del primer año de un determinado nivel y establecimiento educativo en un año calendario determinado, con el número de egresados del último año del año lectivo anterior correspondiente al mismo establecimiento educativo. Tasas de mortalidad: relacionan el total de defunciones de un área geográfica determinada, en un año determinado, con la población de la misma área geográfica en igual periodo de tiempo. Por ejemplo la tasa de mortalidad materna, se obtiene: T.M.M. = muertes por causas maternas . k Nacidos vivos Esta tasa, es general o especifica? Tasa mortalidad por cáncer. T.M. por cáncer = números de muertes por cáncer . k Población total Tasas de morbilidad: relacionan los enfermos de un área geográfica y tiempos determinados, con la población total de la misma área geográfica en el mismo tiempo. Por ejemplo tasa de morbilidad por sarampión: T.M. sarampión = nº de enfermos de sarampión, área x, periodo z . k Población del área x, en el periodo z Las tasas de morbilidad más usuales son las de: - incidencia: que relacionan los casos nuevos de una determinada enfermedad en la unidad de tiempo, (generalmente un año), con la población del mismo lugar y tiempo. Por ejemplo: Tasa de incidencia de T.B.C. = casos nuevos de T.B.C. . K Población total - Prevalencia: se obtiene haciendo el total de casos de una determinada enfermedad en un tiempo determinado, con la población total. Ejemplo: T. de prev. De T.B.C. = total de casos de T.B.C. en un periodo determinado. k Población total De ataque: se obtiene relacionado el total de casos de un brote localizado, con la población expuesta al riesgo. Por ejemplo es posible que se presente un problema, planteado por la aparición inesperada de casos de una determinada patología, ya sea por una epidemia o un episodio de breve duración, en toda una comunidad o un sector pequeño de población como ser, asistentes a una comida, empleados de una fabrica, vecinos de un barrio. Por ejemplo: Nº de intoxicados en una determinada fiesta . k Asistentes a la fiesta Tasas de letalidad: relacionan las muertes ocurridas por determinada causa, en un área geográfica y año determinado, con los enfermos por la misma causa en iguala área geográfica y periodo de tiempo. Ejemplo: Muertes por sida, área x, tiempo z . k Enfermos de sida, área x tiempo z Se definen seguidamente un conjunto de tasas de uso frecuente en epidemiología. Tasas de usos frecuentes en epidemiología referidas a unidad de tiempo y lugar. Tasa de 1)AREA MATERNO INFANTIL Nupcialidad Natalidad Mortalidad fetal Numerador (numero de) Denominación (población) Personas que se casan Población estimada a mitad del periodo Nacidos vivos en 1 año Defunciones fetales Temprana Defunciones fetales de menos de 20 semanas de gestación. Intermedia Id. 20-27 semanas de estación. Tardía (o mortinalidad) Defunciones fetales de 28 semanas y más de gestación. Población estimada a mitad del periodo Por Observaciones 1.000 1.000 Numero de nacidos vivos 1.000 Id. 1.000 Id. 1.000 Número de nacidos vivos 1.000 Defunción fetal: Muerte del producto de la concepción que ocurre antes de su expulsión o extracción completa del cuerpo de la madre, independientemente del embarazo. Tasas de usos frecuentes en epidemiología referidas a unidad de tiempo y lugar. Tasa de Numerador (numero de) Denominación (población) Por Mortalidad perinatal Suma de: defunciones fetales tardías mas defunciones neonatales. Numero de nacidos vivos 1.000 Mortalidad infantil Muertes menores de 1 año Número de nacidos vivos 1.000 Mortalidad neonatal Defunciones de menos de 28 días Número de nacidos vivos mortalidad infantil tardía Defunciones de niños de 28 días, 11 meses Número de nacidos vivos 1.000 Mortalidad materna Muertes maternas Número de nacidos vivos 1.000 1.000 10.000 2)MORTALIDAD Muertes por todas las causas ocurridas en 1 año Población estimada al centro del periodo 1.000 Observaciones Los ingleses usan como numerador la suma de la mortalidad de la primera semana y como denominador el número total de nacidos (vivos y muertos). Tiene valor la relación porcentual que la mortalidad neonatal guarda con la mortalidad infantil Refleja mejor el peso de los factores ambientales Muerte materna: aquella por causa de muerte obstétrica de embarazo, parto o puerperio Tasas de usos frecuentes en epidemiología referidas a unidad de tiempo y lugar. Tasa de Numerador (numero de) Denominación (población) Mortalidad especifica por su edad Muertes en grupo de edad especifico Mortalidad por causa especifica de su edad Muertes por una causa determinada en su grupo de edad especifico Muertes por causas determinadas Población estimada en ese mismo grupo de edad al centro del periodo Población estimada en ese mismo grupo de edad al centro del periodo Número de enfermos por la misma causa Letalidad 3)MORBILIDAD incidencia Prevalencia Ataque Ataque secundario Casos nuevos en la unidad de tiempo (1 año habitualmente) Numero de casos existentes en un periodo o fecha determinados Total de casos secundarios Numero de casos secundarios Por Observaciones 1.000 100.000 100 1.000 Población estimada a mitad del periodo Población estimada para el mismo periodo o fecha 1.000 10.000 100.000 Población expuesta al riesgo (contactos) Población expuesta al riesgo (contactos) 100 Mide riesgo de morir entre enfermos. Es más bien una razón porcentual entre muertos y enfermos. No debe confundirse con tasa de mortalidad 100 1.000 10.000 100.000 1.000 100 1.000 Usada en epidemia o episodios de breve duración Usada en epidemias. El denominador puede circunscribirse a contactos susceptibles