UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERÍA UNIDAD DE CIENCIAS BÁSICAS JEAMMY JULIETH SIERRA HERNÁNDEZ (Director Nacional de Curso) 100403 – INFERENCIA ESTADÍSTICA Vol. 2 IBAGUÉ FEBRERO 2014 UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA CONTENIDO DIDÁCTICO DEL CURSO: 100403 –INFERENCIA ESTADISTICA COMITE DIRECTIVO Jaime Alberto Leal Afanador Rector Constanza Abadía García Vicerrectora Académica y de Investigación Gloria Herrera Vicerrector de Medios y mediaciones Pedagógicos Maribel Córdoba Guerrero Secretaria General Inferencia Estadística Tercera Versión Actualización por Jeammy Julieth Sierra Hernández Autores Primera Edición: Jorge Rondon Danis Brito Copyright Universidad Nacional Abierta y a Distancia ISBN 2012 Unidad de Ciencias Básicas UNAD 2 UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA CONTENIDO DIDÁCTICO DEL CURSO: 100403 –INFERENCIA ESTADISTICA 3 CAMPOS DE Básica CRÉDITOS: 2 TRABAJO INDEPENDIENTE: 72 TIPO DE CURSO Teórico CÓDIGO:100403 ACOMPAÑAMIENTO TUTORIAL: 24 FORMACIÓN Horas Horas OBJETIVO GENERAL: Que el estudiante comprenda, aplique y desarrolle la teoría y las técnicas de la inferencia estadística en diversos campos de su saber formativo, y que dicha aplicación se convierta en una herramienta de uso matemático para la toma de decisiones sobre hipótesis cuantitativas de datos, basado en la información extraída de una muestra. OBJETIVOS ESPECÍFICOS: Que el estudiante identifique las técnicas y procedimientos que se deben emplear para que las muestras sean representativas de la población que se pretende estudiar, de forma que los errores en la determinación de los parámetros de la población objeto de estudio sean mínimos. Que el estudiante comprenda el comportamiento de una población a partir del análisis metódico de una muestra aleatoria de la misma, y que entienda que la inferencia inductiva de los parámetros estadísticos que estime sobre dicha muestra, conlleva un error, el cual es posible de ser cuantificado. Conocer los criterios técnicos que hay que tener en cuenta antes de seleccionar un tamaño de muestra. Identificar el tipo de muestreo de acuerdo a los objetivos del estudio. Diferenciar y analizar las ventajas y desventajas de la estimación por intervalos de confianza y las pruebas de hipótesis. Determinar la prueba o técnica apropiada a aplicar en las diferentes pruebas de hipótesis paramétricas y No paramétricas. COMPETENCIA GENERAL DE APRENDIZAJE: Identificar un procedimiento adecuado para seleccionar de una población una parte de ella, con el fin de obtener resultados confiables y poder generalizar los resultados obtenidos a toda la población. Determinar los estadísticos necesarios para el análisis y solución de situaciones que implican conjuntos de datos de su disciplina de formación, por medio del UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA CONTENIDO DIDÁCTICO DEL CURSO: 100403 –INFERENCIA ESTADISTICA 4 conocimiento de la teoría elemental del muestreo y de las distribuciones muestrales. Plantear y desarrollar el proceso de la inferencia estadística para resolver problemas concretos de investigación en el ámbito de otras disciplinas. Aplicar apropiadamente los resultados teóricos y metodológicos de la inferencia estadística de estimación y prueba de hipótesis en el marco de la modelación. Habilidad para planear una investigación, diseño de instrumentos, definición de variables, recolección de la información, resumen y presentación de los datos. UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA CONTENIDO DIDÁCTICO DEL CURSO: 100403 –INFERENCIA ESTADISTICA 5 UNIDADES DIDÁCTICAS UNIDAD DOS: ......................................................................................................................................6 PRUEBA DE HIPÓTESIS, ANÁLISIS DE VARIANZAS Y ESTADÍSTICAS NO PARAMÉTRICAS ....................6 CAPITULO CUATRO: PRUEBAS DE HIPÓTESIS .................................................................................. 7 Conceptos Básicos ....................................................................................................................... 8 Pruebas para la Media y la Diferencia de medias con grandes muestras................................. 14 Pruebas para la proporción y la Diferencia de proporciones (siempre con grandes muestras). ................................................................................................................................................... 26 Pruebas para la media y la diferencia de medias (muestras pequeñas)................................... 34 Pruebas para la varianza ........................................................................................................... 44 CAPITULO CINCO: ANÁLISIS DE VARIANZA................................................................................... 47 Generalidades ........................................................................................................................... 49 Análisis de Varianza de un Factor ............................................................................................. 50 Comparación Múltiple de Medias (Pruebas “a Posteriori”) ...................................................... 60 Análisis de varianza con dos factores (diseño de bloques aleatorizados). ............................... 61 Análisis de varianza de dos factores con interacción. (Diseño factorial). ................................. 66 CAPITULO SEIS: PRUEBAS NO PARAMETRICAS ............................................................................. 80 Generalidades ........................................................................................................................... 82 Prueba de Bondad de Ajuste de Ji-cuadrado ..................................................................... 83 Prueba de Kolmogorov-Smirnov ............................................................................................... 87 Prueba de Wilcoxon .................................................................................................................. 89 Prueba de Mann-Whitney para muestras independiente y prueba de Kruskal-Wallis para comparar k muestras independientes ...................................................................................... 90 UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA CONTENIDO DIDÁCTICO DEL CURSO: 100403 –INFERENCIA ESTADISTICA UNIDAD DOS: PRUEBA DE HIPÓTESIS, ANÁLISIS DE VARIANZAS Y ESTADÍSTICAS NO PARAMÉTRICAS 6 UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA CONTENIDO DIDÁCTICO DEL CURSO: 100403 –INFERENCIA ESTADISTICA 7 CAPITULO CUATRO: PRUEBAS DE HIPÓTESIS Introducción En casos relacionados con situaciones especiales en las cuales se desea comprobar la efectividad de estándares preestablecidos, la técnica de prueba de hipótesis resultaba bastante apropiada, por cuanto permite comprobar con bastante certeza el grado de acierto en la fijación de éstos. Una hipótesis estadística se define como un supuesto hecho sobre algún parámetro de la población. Por ejemplo, los siguientes enunciados podrían ser tomados como hipótesis: - El ingreso promedio de los trabajadores de la fábrica es de $X. El rendimiento promedio de los empleados de dos fábricas es diferente. El promedio de duración de las bombillas es de 1.000 horas. El promedio de duración de las llantas es de 100.000 kilómetros. - Ya se ha recabado en muchas ocasiones, que el objetivo es tomar muestras para extraer alguna conclusión o inferencia sobre la población y que el único objetivo de examinar muestras, es que las poblaciones suelen ser demasiado grandes y costosas de estudiar. Objetivo general. Contrastar la validez de una hipótesis o conjetura que se haya planteado en relación con una situación determinada de la empresa, analizando errores estadísticos posibles en las pruebas de hipótesis Objetivos específicos. Examinar que se entiende por hipótesis y qué por prueba de hipótesis. Describir los pasos que se siguen para demostrar una hipótesis. Describir los errores estadísticos que se pueden presentar. Realizar pruebas en relación con una y dos medias poblacionales, con una y dos colas. Realizar pruebas con una y dos proporciones poblacionales. Realizar pruebas de hipótesis para datos que se encuentran en una escala nominal u ordinal con aplicación de la distribución chi cuadrado. UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA CONTENIDO DIDÁCTICO DEL CURSO: 100403 –INFERENCIA ESTADISTICA 8 Conceptos Básicos 16. DECISIONES ESTADÍSTICAS En la práctica, con frecuencia se tienen que tomar decisiones acerca de una población con base en información muestral. A tales decisiones se les llama decisiones estadísticas. Por ejemplo, tal vez se tenga que decidir, con base en datos muestrales, si determinado suero es realmente eficaz en la curación de una enfermedad, si un método educativo es mejor que otro, o bien si una moneda está alterada o no. 16.1. Hipótesis Hipótesis estadísticas: Cuando se trata de tomar una decisión es útil hacer suposiciones o proposiciones (o conjeturas) acerca de la población de que se trata. Muchos problemas de ingeniería, ciencia, y administración, requieren que se tome una decisión entre aceptar o rechazar una proposición sobre algún parámetro. A estas suposiciones, que pueden ser o no ciertas, se les llama hipótesis estadísticas. Estas hipótesis estadísticas son por lo general afirmaciones acerca de las distribuciones de probabilidad de las poblaciones. Este es uno de los aspectos más útiles de la inferencia estadística, puesto que muchos tipos de problemas de toma de decisiones, pruebas o experimentos en el mundo de la ingeniería, pueden formularse como problemas de prueba de hipótesis. Consultado en la Web de ITC (s.f). Otras definiciones “Una hipótesis estadística es una afirmación para verificar acerca de las características de una o más poblaciones”. Alvarado, J. & Obagi, J. (2008) “Una hipótesis estadística es una aseveración o conjetura acerca de la distribución de la población, afirmación que generalmente está asociada a un subconjunto del espacio del parámetro correspondiente al modelo probabilístico que representa la citada población”. Mayorga, J. (2004, p. 189) Una hipótesis estadística es un enunciado provisional referente a uno o más parámetros de una población o grupo de poblaciones. En el proceso de estadística inferencial hay dos tipos de hipótesis: UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA CONTENIDO DIDÁCTICO DEL CURSO: 100403 –INFERENCIA ESTADISTICA 9 1. Hipótesis nula, designada mediante Ho y se lee “H subcero”. La letra H significa hipótesis y el subíndice cero indica “no hay diferencia”. Por lo general en la hipótesis nula se plantea en términos de “no hay cambio”, “no hay diferencia”, se plantea con el objetivo de aceptarla o rechazarla. 2. Hipótesis alternativa, describe lo que se considerará si se rechaza la hipótesis nula. A menudo también se le denomina hipótesis de investigación, y se designa por H1, que se lee “h subuno” Otras definiciones Hipótesis Nula: Es la conjetura inicial, es la suposición que se hace sobre la base de la experiencia del pasado, el conocimiento a priori y las necesidades empresariales, es, en un comienzo la respuesta más lógica al problema que se ha planteado; es el valor que se asumiría como cierto de no poderse hacer la investigación. La aseveración se enuncia después de la abreviatura y Mayorga, J. (2004, p. 189). Hipótesis Alternativa: A toda hipótesis que difiera de la hipótesis dada se le llama hipótesis alternativa. Por ejemplo, si una hipótesis es p = 0.5, la hipótesis alternativa puede ser . La hipótesis alternativa a la hipótesis nula se denota H1. Murray, R. () 16.2. Prueba de hipótesis Prueba de hipótesis: Según Mayorga, prueba de hipótesis es una de las acepciones más comunes, al igual que Contraste de hipótesis o Docimacia, para lo que él prefiere llamar, como justifica en su libro, “juzgamiento de hipótesis”, que define como, “el proceso que culmina con una decisión de rechazar o de no rechazar una hipótesis con base en la información de una muestra aleatoria de una población para la cual se ha asumido un modelo probabilístico )”. cuya función de densidad es ( Si se supone que una hipótesis es verdadera, pero se encuentra que los resultados que se observan en una muestra aleatoria difieren marcadamente de los resultados esperados de acuerdo con la hipótesis (es decir, esperados con base sólo en la casualidad, empleando la teoría del muestreo), entonces se dice que las diferencias observadas son significativas y se estará inclinado a rechazar la hipótesis (o por lo menos a no aceptarla de acuerdo con la evidencia obtenida). Murray, R. () UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA CONTENIDO DIDÁCTICO DEL CURSO: 100403 –INFERENCIA ESTADISTICA 10 Una Prueba de hipótesis es el proceso para determinar si las muestras observadas difieren significativamente de los resultados esperados, ayudando así a decidir si se acepta o se rechaza la hipótesis. Pasos en una prueba de hipótesis La prueba de hipótesis consiste en aplicar técnicas estadísticas que permitan aceptar o rechazar una hipótesis. Este procedimiento se conoce como contraste de hipótesis. Las pruebas de hipótesis utilizan un procedimiento de cinco pasos, los cuales se mencionan a continuación: 1. Plantear las hipótesis nula y alternativa. Definiendo la lateralidad de la prueba. 2. Determinar el nivel de significancia. (valores aceptables de error I y II) 3. Estimar el valor estadístico de prueba. (a partir de la muestra) 4. Establecer la regla de decisión. (al comparar el valor crítico o teórico con el de prueba) 5. Tomar la decisión. PRUEBAS DE HIPÓTESIS Muestras Grandes (Z-normal) Muestras pequeñas n<30 (T-student) *Meias *Diferencia de Medias *Medias *Proporciones *Diferencia de Proporciones *Diferencia de Medias Varianza Gráfico 1. Pruebas de Hipótesis 16.3. Tipos de error. La hipótesis nula y alternativa son entonces aseveraciones sobre la población que compiten entre sí, en el siguiente sentido: ó la hipótesis nula (Ho) es verdadera, o lo es la hipótesis alternativa (H1), pero no ambas. En el caso ideal, el procedimiento de prueba de hipótesis debe conducir a la aceptación de Ho cuando sea verdadera y al rechazo de H1. Desafortunadamente no siempre es posible puesto que como las pruebas de hipótesis se basan en la información de la muestra, se debe considerar la posibilidad de cometer errores. La siguiente tabla muestra los dos tipos de errores que se pueden cometer: UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA CONTENIDO DIDÁCTICO DEL CURSO: 100403 –INFERENCIA ESTADISTICA 11 Tabla No.1 Tipos de errores DECISIÓN SOBRE Ho VERDADERA FALSA Aceptar H0 Correcta Rechazar H0 Error tipo I Nivel de significancia 1 Error tipo II Correcta 1 Potencia de la prueba Cuando se tiene una hipótesis esta puede ser verdadera o falsa y la decisión que se toma en la prueba es aceptar o rechazar la hipótesis. Si la decisión que se toma está de acuerdo con la realidad no se cometen errores, en este caso las dos buenas decisiones son: aceptar la hipótesis nula cuando es cierta o rechazar la hipótesis nula cuando es falsa. Pero cuando la decisión no está de acuerdo con la realidad se pueden comete r dos tipos de errores vistos anteriormente: rechazar la hipótesis nula cuando en realidad es cierta, llamado error tipo I representado por alfa ( ); aceptar la hipótesis nula cuando en realidad es falso, llamado error tipo II representado por beta ( ), llamados también nivel de significancia. El procedimiento utilizado consiste en limitarlos a un nivel preestablecido pequeño, generalmente 0.01 ó 0.05. Este planteamiento se le denomina la potencia de la prueba y se representa así: Probabilidad de cometer el error tipo I Probabilidad de rechazar Ho cuando es verdadera. Probabilidad de NO cometer el error tipo I (1 - ) Probabilidad de acertar la Ho cuando es verdadera. Probabilidad de cometer el error tipo II Probabilidad de aceptar Ho cuando es falsa. Probabilidad de NO cometer el error tipo II (1 - ) Probabilidad de rechazar Ho cuando es falsa. Toda prueba de hipótesis determina una región de rechazo de la hipótesis llamada región crítica, la cual depende del tipo de hipótesis que se pruebe y se determina utilizando un nivel de significancia . UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA CONTENIDO DIDÁCTICO DEL CURSO: 100403 –INFERENCIA ESTADISTICA 12 16.4. El Nivel mínimo o de rechazo. Al establecer una prueba de hipótesis una de las formas de llegar a una conclusión es a través de la comparación del valor crítico (o teórico) con el de prueba. Otra forma de poder tomar una decisión es, usar en lugar del valor crítico, es decir, observar la probabilidad de rechazar Ho cuando es verdadera (error tipo I), o como afirma Alvarado, J.A y Otros (2008), responder a la pregunta: ¿cuál es el riesgo que debo correr para poder rechazar Ho? Si ese riesgo es grande, no se puede rechazar Ho; si es pequeño se rechaza Ho. El p-valor El mínimo de rechazo recibe también el nombre de “valor p” en el cual Ho sería rechazado. Si el p-valor es menor que el nivel de significancia, la hipótesis nula se rechaza. Lo puede encontrar en algunos textos como p-value en inglés. Más adelante puede verse un ejemplo dónde se utiliza el p-value para rechazar la hipótesis nula. En una prueba de hipótesis unilateral derecha, no se puede rechazar la hipótesis nula Ho, si el estadístico de prueba (o calculado) es menor o igual que el teórico (tabulado). O lo mismo es, se rechaza la hipótesis nula cuando el valor calculado es mayor que el tabulado Una prueba de hipótesis es significativa si el p-value es menor que el nivel de significación, es decir: 𝑆𝑖 𝑝 − 𝑣𝑎𝑙𝑢𝑒 < 𝛼 𝑒𝑛𝑡𝑜𝑛𝑐𝑒𝑠 𝑙𝑎 𝑃𝑟𝑢𝑒𝑏𝑎 𝑒𝑠 𝑠𝑖𝑔𝑛𝑖𝑓𝑖𝑐𝑎𝑡𝑖𝑣𝑎 16.5. Lateralidad de las pruebas Dependiendo del planteamiento de la hipótesis alternativa (H1) se distingue dos tipos de pruebas: Pruebas bilaterales. Pruebas unilaterales Prueba Bilateral: El investigador desea comprobar la hipótesis de un cambio en el parámetro. El nivel de significancia se divide en dos y existen dos regiones de rechazo. UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA CONTENIDO DIDÁCTICO DEL CURSO: 100403 –INFERENCIA ESTADISTICA 13 Prueba de hipótesis: 𝐻 𝑃𝑎𝑟á𝑚𝑒𝑡𝑟𝑜 𝑥 𝐻 𝑃𝑎𝑟á𝑚𝑒𝑡𝑟𝑜 𝑥 Prueba Unilateral Derecha: El investigador desea comprobar la hipótesis de un aumento en el parámetro, en este caso el nivel de significancia se carga todo hacia el lado derecho, para definir las regiones de aceptación y de rechazo Prueba de hipótesis: 𝐻 𝑃𝑎𝑟á𝑚𝑒𝑡𝑟𝑜 ≤ 𝑥 𝐻 𝑃𝑎𝑟á𝑚𝑒𝑡𝑟𝑜 𝑥 Prueba Unilateral Izquierda: El investigador desea comprobar la hipótesis de una disminución en el parámetro, en este caso el nivel de significancia se carga todo hacia el lado izquierdo, para definir las regiones de aceptación y de rechazo. Prueba de hipótesis: 𝑃𝑎𝑟á𝑚𝑒𝑡𝑟𝑜 ≥ 𝑥 𝐻 𝑃𝑎𝑟á𝑚𝑒𝑡𝑟𝑜 < 𝑥 Ho Verdadera) Probabilidad 𝐻 1 /2 /2 valor crítico Región de rechazo Valor crítico Región de aceptación Gráfico No. 1. Prueba bilateral (o a dos colas) Región de rechazo UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA CONTENIDO DIDÁCTICO DEL CURSO: 100403 –INFERENCIA ESTADISTICA 14 Probabilidad Ho (Verdadera) 1 Valor crítico Región de rechazo Región de aceptación Probabilidad Gráfico No. 2. Prueba unilateral izquierda (inferior) Ho (verdadera) 1 Valor crítico Región de aceptación Región de rechazo Gráfico No. 3. Prueba unilateral derecha (superior) Pruebas para la Media y la Diferencia de medias con grandes muestras. 17. Prueba para la media y diferencia de medias (Muestras grandes ( ≥ ) En las pruebas para la media de población de muestra grande se distingue dos situaciones: Conocida la desviación estándar de la población. Desconocida la desviación estándar de la población. 17.1. Prueba para la media (conocida la desviación estándar poblacional). Cuando se tiene la oportunidad de conocer UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA CONTENIDO DIDÁCTICO DEL CURSO: 100403 –INFERENCIA ESTADISTICA 17.1.1. 15 Prueba bilateral (para la media) El procedimiento de prueba de hipótesis para pruebas bilaterales a cerca de la media de una población, cuando se considera el caso de muestra grande ≥ en que el teorema del límite central permite suponer que la media de la distribución muestral de medias se puede aproximar a una distribución normal de probabilidad, y la desviación estándar de la población es conocida, sigue la siguiente forma general: Muestra grande ( ≥ ) Planteamiento de hipótesis: H 0 : 0 H1 : 0 Estadístico de prueba para desviación estándar poblacional conocida: ̅− √ Ecuación No.1 Regla de rechazo a un nivel de significancia : Rechazar H0 si z -Z o si Z Z 2 2 Ejemplo La empresa coca cola ha establecido como política general para su producción en pequeña escala, un promedio ( ) de llenado para sus envases de 200 centímetros cúbicos con una desviación estándar ( ) de 16 centímetros cúbicos. Dado que recientemente se han contratado y diseñado nuevos métodos de producción, utilizando un nivel de significancia del 0.01, se desea probar la hipótesis, que el promedio de llenado sigue siendo de 200 centímetros cúbicos. Para tal efecto se tomó una muestra de 100 envases llenos, los cuales mostraron una media de llenado de 203.5 centímetros cúbicos. UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA CONTENIDO DIDÁCTICO DEL CURSO: 100403 –INFERENCIA ESTADISTICA 16 Paso 1: Planteamiento de hipótesis Planteamiento de la hipótesis nula: la media poblacional es 200 Planteamiento de la hipótesis alternativa: La media poblacional es diferente a 200. Estas hipótesis se expresan como sigue: Esta es una prueba de dos colas, debido a que la hipótesis alternativa ( ) es planteada en palabras de diferencia, es decir, la hipótesis no indica si la media es mayor o menor que 200. Paso 2: Nivel de significancia 𝜶 El nivel de significancia es de 0.01 que es el alfa ( ), la probabilidad de cometer el error de tipo uno, es decir la probabilidad de rechazar la hipótesis siendo verdadera. Para éste tipo de problema se utiliza la distribución normal estandarizada en Z. En los intervalos de confianza el alfa siempre se divide en dos, para distribuirlo en las dos colas, en las pruebas de hipótesis el alfa sólo se divide, si la prueba es a dos colas Paso 3: Estadístico de prueba (o calculado) El valor estadístico de prueba para este tipo de problema es utilizando la distribución normal estandarizada en Z: UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA CONTENIDO DIDÁCTICO DEL CURSO: 100403 –INFERENCIA ESTADISTICA 17 Paso 4: Estadístico teórico (o tabulado) y regla de decisión La formulación de la regla de decisión consiste en hallar el valor crítico de Z con una prueba de dos colas. En la tabla de la normal estándar (descargar tabla) se identifica el valor de Z correspondiente a una probabilidad igual 1−𝛼 2 1− 99 . El valor más cercano a 0,995 es 0.995059 que corresponde a un valor de Z igual a 2.58, que es el valor crítico para la prueba de hipótesis. Dado que es una prueba de dos colas, se tendrán dos valores críticos, tal como se indica en el siguiente gráfico: Gráfico No. 4. Prueba bilateral (a dos colas) La regla de decisión es aceptar la hipótesis nula (Ho), puesto que el valor estadístico de prueba (2.19) ha caído en la zona de aceptación de dicha hipótesis Prueba de hipótesis para la media (Bilateral) Paso 5: Tomar la Decisión Se concluye que el llenado de los envases cumple con las políticas generales de la empresa, y la diferencia de promedios se atribuye a variaciones aleatorias. UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA CONTENIDO DIDÁCTICO DEL CURSO: 100403 –INFERENCIA ESTADISTICA 17.1.2. 18 Prueba unilateral (para la media) Con anterioridad de dijo que la hipótesis alternativa indica una dirección ya sea “mayor que” o “menor que”, la prueba es de una cola. El procedimiento para demostrar la hipótesis es por lo general igual a la prueba de dos colas, excepto que el valor crítico es diferente. Ahora se modificará la hipótesis alternativa del problema anterior, sobre el llenado de los envases de una factoría de coca cola, pues se sospecha que el promedio de llenado está por encima de lo que la empresa determina (por eso en la hipótesis alterna se plantea una relación mayor que). Paso 1: Planteamiento de hipótesis H 0 : 200 H1 : 200 Paso 2: Nivel de significancia 𝜶 Igual al ejemplo anterior. Paso 3: Estadístico de prueba (o calculado) Igual al ejemplo anterior. Paso 4: Estadístico teórico (o tabulado) y regla de decisión El valor crítico cambia. En la tabla de la distribución normal se identifica el valor de Z correspondiente a una probabilidad igual 0,99. El valor más cercano a 0,99 corresponde a un valor de Z igual a 2.33, que es el valor crítico para la prueba de hipótesis. Dado que es una prueba de una cola, se tendrá el valor crítico, tal como se indica en la siguiente gráfica: Prueba de hipótesis para la media (unilateral) UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA CONTENIDO DIDÁCTICO DEL CURSO: 100403 –INFERENCIA ESTADISTICA 19 Gráfico No. 5. Prueba unilateral derecha (superior) Paso 5: Tomar la Decisión Igual, puesto que el valor estadístico de prueba está ubicado en la zona de aceptación de la hipótesis nula, es decir, se está diciendo que el promedio de llenado es de 200, tal como está planteada la hipótesis nula. 17.2. Prueba para poblacional). la media (desconocida la desviación estándar En la mayoría de los casos se desconoce la desviación estándar de la población , la cual debe calcularse en estudios previos o se estima utilizando la desviación estándar de la muestra (s). En estos casos se utiliza la desviación estándar de la muestra, quedando la fórmula para el estadístico de prueba así: ̅− √ Ecuación No.2 Ejemplo Una cadena grande de almacenes expide su propia tarjeta de crédito y Ud. desea saber si los saldos promedios por créditos de los clientes son mayores que 400 unidades monetarias. El nivel de significancia se fija en 0.05. Una revisión aleatoria de 172 clientes, reveló que el promedio por crédito de los clientes es de 407 unidades monetarias y la desviación estándar de la muestra es de 38 UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA CONTENIDO DIDÁCTICO DEL CURSO: 100403 –INFERENCIA ESTADISTICA 20 unidades monetarias. ¿Concluye UD. que la media poblacional es mayor que 400 unidades monetarias? Paso 1: Planteamiento de hipótesis H 0 : 400 H1 : 400 Dado que la hipótesis alternativa se enuncia “mayor que”, se aplica una cola a la derecha, y como la muestra es grande (n >= 30), se aplica la distribución normal estandarizada en Z. Paso 2: Nivel de significancia 𝜶 El nivel de significancia se fija en 0.05 Paso 3: Estadístico de prueba (o calculado) Z X 407 400 2.42 S 38 n 172 Probabilidad Paso 4: Estadístico teórico (o tabulado) y regla de decisión Ho (verdadera) 1- =0,95 = 0,05 200 |1,645 Región de aceptación Unidades monetarias de crédito Escala Z |2.42 Región de rechazo Gráfico No. 6. Prueba unilateral derecha (superior) El valor crítico es 1.645 y la ubicación del estadístico de prueba se encuentra en la zona de rechazo de la hipótesis nula, por lo tanto se acepta la hipótesis alternativa. UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA CONTENIDO DIDÁCTICO DEL CURSO: 100403 –INFERENCIA ESTADISTICA 21 Paso 5: Tomar la Decisión La decisión a tomar por Ud. es que el promedio de los créditos es mayor que 400 unidades monetarias con un grado de confianza del 95%. 17.3. Prueba para la diferencia de medias (desconocida la desviación estándar poblacional). En la mayor parte de los casos no se conoce la varianza o desviación estándar real de ninguna población. En general la única información que es posible obtener se relaciona con las medias muestrales ̅̅̅ y ̅̅̅, las varianzas muestrales y y las desviaciones estándar de las muestras y . Si se hacen las suposiciones que las muestras se obtienen de manera aleatoria e independiente a partir de las poblaciones respectivas que tiene una distribución normal y que las varianzas poblacionales son iguales, es decir, , se puede utilizar una prueba de distribución normal de varianzas combinadas para determinar si existe una diferencia significativa entre las dos poblaciones. Recordemos que para diferencias de medias se utiliza el siguiente estadístico de prueba: ̅̅̅̅ ̅̅̅̅ ( ̅ ̅ ) ( 2 √ 1 1 ) 2 2 2 Ecuación No.3 Ejemplo Una obra de construcción requiere un gran número de bloques de concreto. Dos empresas abastecedoras A y B licitan para su adjudicación, y dentro del pliego de condiciones se estipula que la resistencia mínima es de 1.000 unidades métricas a la resistencia, y el contrato se adjudicará a la empresa que mayor resistencia presente su producto. Paso 1: Planteamiento de hipótesis Se plantea la hipótesis nula (Ho) que no existe diferencia entre las resistencias medias a la compresión de los bloques de concreto. La hipótesis alternativa se plantea en términos que hay alguna diferencia significativa entre las dos resistencias medias a la compresión. Simbólicamente se expresa así: UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA CONTENIDO DIDÁCTICO DEL CURSO: 100403 –INFERENCIA ESTADISTICA 22 H0 : A B H1 : A B Dado que la hipótesis alternativa no indica una dirección específica, la prueba es de dos colas Paso 2: Nivel de significancia 𝜶 Se elige un nivel de significancia de 0.01. Esto equivale a cometer un error de tipo I. Se usará una distribución normal estandarizada en Z, razón por la cual se debe seleccionar una muestra que al menos contenga como mínimo 30 unidades de bloque, cada una de las empresas licitantes. Paso 3: Estadístico de prueba (o calculado) El estadístico de prueba a aplicar está dado por la siguiente fórmula: ̅ − ̅ 2 2 2 2 √ 1 1 Ecuación No.4 Suponga que Ud. Seleccionó una muestra de cada una de las empresas licitantes y determinó la resistencia a la compresión, con los siguientes resultados: Tabla No.2 Resultados de muestra Licitante A Licitante B = 1.070 X = 1.020 X n = 81 n = 64 S = 63 S = 57 El valor del estadístico de prueba es: Z X1 X 2 2 1 2 2 S S n1 n2 1.070 1.020 63 2 81 57 2 64 50 5.01 9.98827 UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA CONTENIDO DIDÁCTICO DEL CURSO: 100403 –INFERENCIA ESTADISTICA 23 Paso 4: Estadístico teórico (o tabulado) y regla de decisión Recuérdese que se seleccionó un nivel de significancia del 0.01 y se utilizará una prueba de dos colas. Los valores críticos y zonas de aceptación para las hipótesis se presentan en la siguiente figura: Probabilidad Ho (Verdadera) 0.01/2= 0.005 0.01/2=0.005 Resistencia ladrillos valor crítico -2.58| Región de rechazo |2.58 Región de aceptación |5.01 Región de rechazo Gráfico No. 7. Prueba bilateral (o a dos colas) Paso 5: Tomar la Decisión El valor Z calculado queda en el área de rechazo de la hipótesis nula, por lo tanto se concluye que la media poblacional de la resistencia a la compresión es diferente en las dos empresas y la diferencia no se debe al azar del muestreo, con un grado de confianza del 99%. 17.4. Prueba para la diferencia de medias (Muestras independientes desviación estándar poblacional conocida). ̅̅̅̅ ̅̅̅̅ ( ̅1 −̅2 )−( 1 − 2 ) 2 2 √ 1 2 1 2 Ecuación No.5 UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA CONTENIDO DIDÁCTICO DEL CURSO: 100403 –INFERENCIA ESTADISTICA Si − < Recuerde que < 24 entonces No se rechaza es el estadístico de prueba (o calculado) Ejemplo Un constructor está considerando dos lugares alternativos (dos comunidades) para construir un centro comercial. Como los ingresos de los hogares de la comunidad son una consideración importante en ésta selección, desea probar que el ingreso promedio de la primera comunidad excede al promedio de la segunda comunidad en cuando menos $1.500 diarios. Con la información de un censo realizado el año anterior sabe que la desviación estándar del ingreso diario de la primera comunidad es de $1.800 y la de la segunda es de $2.400 Para una muestra aleatoria de 30 hogares de la primera comunidad, encuentra que el ingreso diario promedio es de $35.500 y con una muestra de 40 hogares de la segunda comunidad el ingreso promedio diario es de $34.600. Pruebe la hipótesis con un nivel de confianza del 95 por ciento. Paso 1: Planteamiento de hipótesis − − ≥1 <1 Paso 2: Nivel de significancia 𝜶 Recordemos que el nivel de confianza es 95% Es decir 1 − 9 eso indica que: Paso 3: Estadístico de prueba (o calculado) El tamaño de las muestras es grande y las varianzas poblacionales son conocidas, por consiguiente la estadística de trabajo a utilizar la ecuación 5. UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA CONTENIDO DIDÁCTICO DEL CURSO: 100403 –INFERENCIA ESTADISTICA 25 Tabla No.3 Resultados de las comunidades Comunidad 1 Comunidad 2 ̅̅̅̅ ̅̅̅ 2 ( ̅ − ̅ 2 √ 1 1 2 2 2 )−1 − √1 2 2 −1 19 2 Paso 4: Estadístico teórico (o tabulado) y regla de decisión Para un nivel de confianza del 95 %, ya que es una prueba de unilateral izquierda, lo que se busca es el valor crítico que deja por encima un 95% de área, por tanto es lógico pensar que el valor será un Z negativo, en la tabla de la distribución normal se tiene un valor de Z de -1,64 (estadístico teórico o tabulado). Como puede observarse en el gráfico No.8, el estadístico de prueba se ubica en la zona de aceptación de la hipótesis nula. Probabilidad Ho (Verdadera) = 0.05 Valor crítico -1.64| Región de rechazo -1.195| Región de aceptación Gráfico No. 8. Prueba unilateral izquierda (cola inferior) UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA CONTENIDO DIDÁCTICO DEL CURSO: 100403 –INFERENCIA ESTADISTICA 26 Paso 5: Tomar la Decisión Por lo tanto, con una confiabilidad del 95 por ciento, la diferencia entre el ingreso promedio por hogar en las dos comunidades es mayor a $1.500 diarios. En una prueba de hipótesis la confiabilidad significa la probabilidad de no rechazar la hipótesis nula que es cierta, porque el nivel de confianza es la probabilidad que el estadístico de prueba se encuentre en la zona de aceptación. Pruebas para la proporción y la Diferencia de proporciones (siempre con grandes muestras). 18. Prueba de hipótesis para proporciones. Se entiende por proporción, la porción relativa o porcentaje que expresa la parte de la población o muestra que tiene un atributo particular de interés como el resultado comparativo de contar algo, Se cuenta el número de partes defectuosas; se cuenta el número de votantes por la preferencia de un candidato. Así la prueba de proporción implica niveles nominales de medida. 18.1. Prueba para una proporción Para demostrar una proporción muestral se requiere cumplir con ciertos principios binomiales, tales como: 1. 2. Los datos recolectados son el resultado de un conteo. El resultado de un experimento se clasifica en una de las dos categorías mutuamente excluyentes: un éxito o un fracaso. 3. La probabilidad de éxito se mantiene constante. 4. Los intentos para realizar cada experimento son independientes. 5. El tamaño de la muestra debe ser tan grande para que se dé la siguiente condición: (n)(p)>5 y (n)(1-p)>5 Para realizar una prueba de hipótesis a fin de evaluar la magnitud de la diferencia entre la proporción muestral p y la proporción poblacional (P), se puede usar el siguiente estadístico de prueba: UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA CONTENIDO DIDÁCTICO DEL CURSO: 100403 –INFERENCIA ESTADISTICA 27 PP P(1 P) n Z Ecuación No.6 Dónde: P es la proporción muestral. P es la proporción poblacional. n es el tamaño de la muestra. De otra manera, en lugar de examinar la proporción de éxitos en una muestra como en el caso anterior, es posible estudiar el número de éxitos en una muestra, para determinar el número de éxitos esperados o hipotéticos en la población, se utiliza el siguiente estadístico de prueba: Z X n p n p q Ecuación No.7 Dónde: X P es el número de éxitos en la muestra. es la proporción hipotética de éxitos. Ejemplo Suponga que para que lo elijan a Ud. como alcalde, es necesario que logre al menos el 80% de los votos del barrio donde vive. Dado su interés decide hacer una encuesta en el barrio con una muestra de 2.000 personas, para ver la posibilidad y 1.550 dieron respuesta favorable por sus aspiraciones. Pruebe la hipótesis de favorabilidad, con un nivel de significancia del 0.05. Antes de realizar el procedimiento de los cinco pasos, veamos si cumple la condición de: (n)(p)>5 (2.000)(0.8)>5 1.600>5 Cierto (n)(1-p)>5 (2.000)(0.2)>5 400>5 Cierto Paso 1: Planteamiento de hipótesis La hipótesis nula se plantea diciendo que Ud. sí tiene el 80% de favorabilidad de voto en su barrio y la hipótesis alternativa en que no alcanza a tener este UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA CONTENIDO DIDÁCTICO DEL CURSO: 100403 –INFERENCIA ESTADISTICA 28 porcentaje de favorabilidad de voto. Simbólicamente se expresa como sigue: Ho : P 0.80 H1 : P 0.80 Paso 2: Nivel de significancia 𝜶 La distribución de probabilidad a utilizar es la normal estandarizada en Z, con un nivel de significancia del 5%, con una cola a la izquierda. Paso 3: Estadístico de prueba (o calculado) Z PP P(1 P) n Dónde: P es la proporción muestral. P es la proporción poblacional. n es el tamaño de la muestra. P(1 P) P n Es el error estándar de la proporción poblacional. Reemplazando los diferentes valores en la ecuación se tiene: Z PP P(1 P) n 1.550 0.80 0.775 0.80 0.025 2.000 2.80 0.0089443 0.80(1 0.80) 0.00008 2.000 Paso 4: Estadístico teórico (o tabulado) y regla de decisión La regla de decisión se toma sobra la base de un valor critico calculado a partir de la tabla de distribución Z, con un área de 0.4500 (0.5000-0.0500) UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA CONTENIDO DIDÁCTICO DEL CURSO: 100403 –INFERENCIA ESTADISTICA 29 Gráfico No. 9. Prueba unilateral izquierda (cola inferior) Paso 5: Tomar la Decisión Como el valor Z (-2080) está en la región de rechazo de la hipótesis nula, entonces se acepta la hipótesis alternativa y se concluye la favorabilidad de voto es menos al 80%. Ejemplo Probar al nivel de significancia del 0.01 la aseveración que el 55% de las familias que planean adquirir una residencia en Melgar desea su ubicación en un condominio. Para su estudio Ud. toma una muestra aleatoria de 400 familias que planean comprar una residencia en Melgar, de las cuales 228 familias desean en un condominio. Paso 1: Planteamiento de hipótesis La hipótesis nula se plantea diciendo que el 55% de las familias desean adquirir residencia en un condominio en Melgar. Ho : P 0.55 H1 : P 0.55 Paso 2: Nivel de significancia 𝜶 La distribución de probabilidad a utilizar es la normal estandarizada en Z, con un nivel de significancia del 1%, con dos colas. UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA CONTENIDO DIDÁCTICO DEL CURSO: 100403 –INFERENCIA ESTADISTICA 30 Paso 3: Estadístico de prueba (o calculado) Z PP P(1 P) n 0.55 0.02 400 0.80 0.55(1 0.55) 0.0248747 400 280 Paso 4: Estadístico teórico (o tabulado) y regla de decisión La regla de decisión se toma sobre la base del siguiente gráfico: Gráfico No. 10. Prueba Bilateral (a dos colas) Paso 5: Tomar la Decisión La hipótesis nula que la proporción verdadera es del 55% no es rechazada a un nivel de significancia del 1%, concluyendo que el 55% de las familias planean adquirir residencia vacacional en Melgar lo desean en un condominio. 18.2. Prueba para diferencias entre dos proporciones Se presenta a continuación un ejemplo donde se emplea la prueba de proporción para dos poblaciones, utilizando el siguiente estadístico de prueba: Z ( P1 P2 ) P1 P2 PC (1 PC ) PC (1 PC ) n1 n2 Ecuación No.8 UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA CONTENIDO DIDÁCTICO DEL CURSO: 100403 –INFERENCIA ESTADISTICA 31 Dónde: n1 Es la cantidad seleccionada en una muestra. n2 Es la cantidad seleccionada en la otra muestra. PC X1 X 2 Es la media ponderada de las proporciones muestrales. n1 n2 X1 Es la cantidad de éxitos de la primera muestra. X2 Es la cantidad de éxitos de la segunda muestra. P1 yP2 Proporción de éxitos de la población uno y dos respectivamente. Ejemplo Una fábrica de perfumes ha desarrollado un nuevo producto. Varias pruebas de comparación indican que el perfume tiene un buen potencial en el mercado. Sin embargo el departamento de mercadotecnia y publicidad quieren planear una estrategia de manera que el producto llegue e impresione al sector más grande posible del público comprador. Una de las preguntas es si prefiera el perfume una proporción mayor de mujeres jóvenes o una proporción mayor de mujeres maduras. Por tanto, existen dos poblaciones: una que consta de mujeres jóvenes y otra de damas maduras. Se usó una prueba estándar de aroma. Se seleccionaron aleatoriamente damas y se les pidió que olieran varios perfumes, incluyendo el que suelen usar, y por supuesto el nuevo perfume. La persona que realiza la prueba es la única que conoce el nombre de los perfumes. Cada mujer selecciona el perfume que le agrada más. Paso 1: Planteamiento de hipótesis La hipótesis nula se plantea diciendo que no hay diferencia entre la proporción de mujeres jóvenes y maduras que prefieren el nuevo perfume. La hipótesis alternativa se plantea que las dos proporciones no son iguales. Ho : P1 P2 H1 : P1 P2 Se designa P subuno como la proporción de mujeres jóvenes y P subdos como la proporción de mujeres maduras. Paso 2: Nivel de significancia 𝜶 Se decidió un nivel de significancia del 0.05. UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA CONTENIDO DIDÁCTICO DEL CURSO: 100403 –INFERENCIA ESTADISTICA 32 Paso 3: Estadístico de prueba (o calculado) Los planes son tomar una muestra al azar de 100 mujeres jóvenes designada por n subuno y una muestra de 200 mujeres mayores designada como n subdos. Los resultados una vez hecha el experimento dio los siguientes resultados: de las 100 mujeres jóvenes 20 eligieron el nuevo perfume, designando este valor como X subuno; y de las 200 mujeres maduras 100 prefirieron el nuevo perfume, designando este valor como X subdos. La proporción ponderada, da como resultado: PC X1 X 2 20 100 120 0.40 n1 n2 100 200 300 Z P1 P2 PC (1 PC ) PC (1 PC ) n1 n2 20 100 0.30 100 200 5.0 0.06 0.40(1 0.40) 0.40(1 0.40) 100 200 Paso 4: Estadístico teórico (o tabulado) y regla de decisión Los valores críticos para un nivel de significancia del 5% son –1.96 y +1.96. Igual que en los otros casos, la siguiente grafica establece la regla de decisión: Gráfico No. 11. Prueba Bilateral (a dos colas) Paso 5: Tomar la Decisión El valor de Z calculado de –5.0 se encuentra en el área de rechazo de la hipótesis nula. Por tanto, la hipótesis que las proporciones son iguales se rechaza a un nivel del 5% de significancia. UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA CONTENIDO DIDÁCTICO DEL CURSO: 100403 –INFERENCIA ESTADISTICA 33 Ejemplo Dos lotes de frutas conformados cada uno por 250 unidades son tratados y almacenados en iguales condiciones salvo que el lote No 1 está a temperatura ligeramente inferior que el lote No 2. Pasado un tiempo se encuentra que el lote No 1 hay 225 frutas sanas y en el lote No 2 hay 200 sanas. Probar la hipótesis que la temperatura más baja favorece la conservación de las frutas al nivel de significación de 0.05. Paso 1: Planteamiento de hipótesis Ho : P1 P2 H1 : P1 P2 Paso 2: Nivel de significancia 𝜶 Utilizando la distribución de probabilidad normal con ensayo unilateral a la derecha con un nivel significativo de 0.05, el valor critico es de 1.645. Paso 3: Estadístico de prueba (o calculado) Z P1 P2 PC (1 PC ) PC (1 PC ) n1 n2 PC 0.90 0.80 0.10 3.13 0.0319 (0.85)(0.15) (0.85)(0.15) 250 250 X 1 X 2 225 200 0.85 n1 n2 250 250 Paso 4: Estadístico teórico (o tabulado) y regla de decisión Gráfico No. 12. Prueba unilateral superior (cola derecha) UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA CONTENIDO DIDÁCTICO DEL CURSO: 100403 –INFERENCIA ESTADISTICA 34 Paso 5: Tomar la Decisión Como 3.12>1.645 se rechaza la hipótesis nula y se acepta la hipótesis alternativa. La temperatura más baja favorece la conservación de las frutas. Pruebas para la media y la diferencia de medias (muestras pequeñas). 19. Pruebas de hipótesis para pequeñas muestras. Ahora veamos el caso en que las muestras son pequeñas, n 30 , pero donde la distribución muestral del estadístico de prueba se puede aproximar a una distribución t student. Dicha aproximación es posible cuando los valores subyacentes de la población son casi normalmente distribuidos, y cuando intervienen poblaciones donde las desviaciones estándar, aunque desconocidas, se sabe que son iguales. Habiendo estudiado pruebas para muestras grandes con todo detalle, podemos restringirnos a ejemplos en donde se aplique este tipo de distribución. 19.1. Prueba para media (pequeña muestra) Si también es razonable suponer que la población tiene una distribución normal de probabilidad, con la distribución t se puede hacer inferencia a cerca del valor de la media de la población. Ejemplo Una compañía de seguros revela que en promedio la investigación por demandas en accidentes y todos los trámites tiene un costo promedio de 60 unidades monetarias. Este costo se considera exagerado comparado con el de otras compañías del mismo tipo. A fin de evaluar el costo se seleccionó una muestra aleatoria de 26 demandas recientes y se realizó el estudio de costos. Se concluyó que el costo promedio es de 57 unidades monetaria con una desviación estándar de 10 unidades monetarias. Con un nivel de significancia del 0.01 se puede decir que ¿el estudio reveló un costo menor al establecido por la empresa? Paso 1: Planteamiento de hipótesis La hipótesis nula se plantea en el sentido que el costo promedio es de 60 UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA CONTENIDO DIDÁCTICO DEL CURSO: 100403 –INFERENCIA ESTADISTICA 35 unidades monetarias. La hipótesis alternativa que el costo es menor a 60 unidades monetarias. Esto se expresa en la siguiente forma: H 0 : 60 H 1 : 60 La prueba es de una cola a la izquierda, según el planteamiento de la hipótesis alternativa. Paso 2: Nivel de significancia 𝜶 Se usa un nivel de significancia del 0.01 con una distribución “t”, en consideración a que la muestra en menor a 30, es decir, es una pequeña muestra. Paso 3: Estadístico de prueba (o calculado) Utilizando los datos de la muestra, se utiliza la siguiente fórmula como estadístico de prueba: t X 57 60 1.530 S 10 n 26 Paso 4: Estadístico teórico (o tabulado) y regla de decisión Los valores críticos para la distribución “t” se encuentran en la tabla correspondiente (anexo D), con 25 grados de libertad (26 – 1), prueba de una cola a un nivel de significancia de 0.01, correspondiendo un valor crítico de 2.485. En el siguiente figura se indica el presente planteamiento: Gráfico No. 13. Prueba unilateral superior (cola derecha) Paso 5: Tomar la Decisión Puesto que –1.53 se encuentra en la región de aceptación de la hipótesis nula a UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA CONTENIDO DIDÁCTICO DEL CURSO: 100403 –INFERENCIA ESTADISTICA 36 un nivel del 1% de significancia, se concluye que los costos para los tramites de seguros de accidente no se han disminuido y se mantiene a un nivel promedio de costo de 60 unidades monetarias. Ejemplo Una empresa produce elementos con un promedio de 43 mm de largo. Un ajuste en las máquinas de producción supone que dicho estándar ha cambiado. Se quiere probar ésta hipótesis con un nivel de significancia del 0.02. Para afrontar el problema Ud. selecciona una muestra aleatoria de 12 elementos y procede a medir su largor con los siguientes resultados: Tabla No. 4. Selección muestra aleatoria Elemento 1 2 3 4 5 6 7 8 9 10 11 12 Medida 39 42 45 43 40 39 41 40 42 43 42 42 Plantea sus hipótesis: H 0 : 43 H1 : 43 Paso 1: Planteamiento de hipótesis Como hipótesis nula que no se ha producido un cambio en las dimensiones del producto. Como hipótesis alternativa que se ha producido un cambio en las características internas del producto debido a los ajustes en las máquinas. Paso 2: Nivel de significancia 𝜶 Se dispone a probar la hipótesis con un nivel de significancia del 0.02, utilizando la distribución “t” porque es una pequeña muestra, con 11 grados de libertad aplicando el principio de (n- 1) y cálculo para dos colas puesto que la hipótesis alternativa está planteada desde el punto de vista de “diferente”. Paso 3: Estadístico de prueba (o calculado) El estadístico de prueba a utilizar es el siguiente: UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA CONTENIDO DIDÁCTICO DEL CURSO: 100403 –INFERENCIA ESTADISTICA t 37 X S n Procede al cálculo de la media y la desviación estándar muestral: X X n X X 2 498 41.5 12 S n 1 35 1.78 11 Con la información anterior, aplica la fórmula del estadístico de prueba: t X 41.5 43.0 2.92 S 1.78 n 12 Paso 4: Estadístico teórico (o tabulado) y regla de decisión Para aplicar la regla de decisión, muestra en el siguiente gráfico el planteamiento anterior: Gráfico No. 14. Prueba Bilateral (a dos colas) Paso 5: Tomar la Decisión La hipótesis nula que la media poblacional es 43 mm se rechaza a un nivel de significancia del 0.02 y se acepta la hipótesis alternativa, concluyendo que los ajustes en las máquinas sí causaron un cambió en la calidad de control en el UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA CONTENIDO DIDÁCTICO DEL CURSO: 100403 –INFERENCIA ESTADISTICA 38 largor de los diferentes elementos que se producen. Anteriormente se analizó ampliamente la prueba de hipótesis para cuando las muestra son pequeñas, es decir, el tamaño de la muestra es menor a 30. A continuación se propone un ejercicio de aplicación, para que Ud. los desarrolle atendiendo las sugerencias dadas. 19.2. Prueba para dos medias muestrales (pequeña muestra) Una prueba que utiliza la distribución t también puede aplicarse para comparar dos medias muestrales que tienen las siguientes características: 1. 2. 3. 4. 5. Las poblaciones deben de distribuirse normalmente. Las poblaciones deben de ser independientes. Las varianzas de las poblaciones deben de ser iguales. Las muestras tienen menos de 30 observaciones. Las desviaciones estándar de las poblaciones no se conocen . Cuando se está frente a estas características, el estadístico de prueba a utilizar es el siguiente: t ( X 1 X 2 ) 1 2 S12 n1 1 S 22 n2 1 1 1 n1 n2 2 n1 n2 Ecuación No.9 Dónde: X1 y X 2 Las medias de las muestras n1 yn2 Los tamaños de las muestras S12 yS 22 Las varianzas de las muestras G.L. Grados de libertas, igual a = n1 n2 2 Ejemplo Se ha propuesto realizar un examen de estadística a dos grupos de estudiantes, con el propósito de saber si los grupos tienen similares conocimientos sobre pruebas de hipótesis. Para ello Ud. seleccionó el grupo A compuesto de 5 UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA CONTENIDO DIDÁCTICO DEL CURSO: 100403 –INFERENCIA ESTADISTICA 39 estudiantes de educación a distancia y el grupo B compuesto por 6 estudiantes de educación presencial, y los sometió a la prueba, dando como resultado los siguientes tiempos en minutos: Tabla No. 5. Prueba para dos grupos Educación a distancia 2 Educación presencial 3 4 7 9 5 3 8 2 4 3 Probar con un nivel de significancia del 0.10 si existe alguna diferencia de habilidad en los conocimientos de los dos grupos. Paso 1: Planteamiento de hipótesis Las hipótesis las plantea en los siguientes términos: Ho : 1 2 H1 : 1 2 La hipótesis nula consistente en que los dos grupos no tienen alguna diferencia en la habilidad de conocimiento, y la hipótesis alternativa en que existe diferencia entre los grupos sobre la habilidad en la aplicación de los conocimientos. Paso 2: Nivel de significancia 𝜶 Prueba la hipótesis con un nivel de significancia del 10%, utilizando la distribución t student porque las muestras son menores que 30, con 9 grados de libertad (5+6 – 2) y prueba de dos colas porque la hipótesis alternativa está planteada en función de “diferente”. Paso 3: Estadístico de prueba (o calculado) Para el cálculo del estadístico de prueba se requiere estimar las medias de los grupos y sus varianzas, los cuales se presentan en el siguiente cuadro: UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA CONTENIDO DIDÁCTICO DEL CURSO: 100403 –INFERENCIA ESTADISTICA 40 Tabla No.6. Resultados para los grupos de estudiantes t Grupo estudiantes a distancia Grupo presencial Media = 4 Media = 5 Varianza = 8.5 Varianza = 4.4 Muestra = 5 Muestra = 6 X1 X 2 S 2 1 n1 1 S n2 2 2 n1 n2 2 1 1 1 n2 n1 45 1 8.55 1 4.46 1 1 5 6 562 0.6620 Paso 4: Estadístico teórico (o tabulado) y regla de decisión Gráfico No. 15. Prueba Bilateral (a dos colas). Diferencia de dos medias Paso 5: Tomar la Decisión La decisión es no rechazar la hipótesis nula debido a que el valor del estadístico de prueba –06620 ha caído en la zona de aceptación de dicha hipótesis, concluyendo que no existe diferencia en la habilidad de aplicación de conocimientos entre los estudiantes a distancia y los estudiantes de presencial, con un nivel de significancia del 10%. UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA CONTENIDO DIDÁCTICO DEL CURSO: 100403 –INFERENCIA ESTADISTICA 41 19.3. Prueba de hipótesis para observaciones pareadas o relacionadas La característica principal para aplicar este tipo de prueba, es que las muestras sean dependientes y el tamaño de cada muestra sea inferior a 30 elementos seleccionados. Ejemplo Un grupo de alumnos registra un índice de puntuación en estadística, que se considera muy bajo para aceptarlos al siguiente nivel. Proceden a tomar un curso de nivelación, obteniendo los siguientes registros antes y después del curso. Con un nivel de significancia del 0.05 probar si el curso de nivelación mejoró las condiciones del grupo. Antes 128 105 119 140 98 123 127 115 122 145 Después 135 110 131 142 105 130 131 110 125 149 En estas condiciones hay un par de índices de eficiencia para cada miembro del grupo, antes y después del curso,; éste conjunto de pares es lo que se denomina muestra por pares. La prueba de hipótesis que se realiza para determinar si hay diferencia entre los índices antes y después del curso de nivelación, es lo que denomina prueba de diferencia por pares. Obsérvese que las dos muestras, una antes y una después, dependen entre sí, debido a que los mismos alumnos están en ambas pruebas, por tanto son dependientes. La muestra está constituida por la diferencia entre los registros de puntuación antes y después del programa. Así, la media de las diferencias entre los registros de rendimiento, se designa mediante d . Se presenta a continuación el procedimiento de la prueba: Paso 1: Planteamiento de hipótesis Ho : d 0 H1 : d 0 La hipótesis nula plantea que no hay diferencia de eficiencia después del curso. La hipótesis alternativa plantea que el programa de nivelación mejoró el nivel de los estudiantes. UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA CONTENIDO DIDÁCTICO DEL CURSO: 100403 –INFERENCIA ESTADISTICA 42 Paso 2: Nivel de significancia 𝜶 Se usa un nivel de significancia del 5%, la muestra seleccionada es de 10 estudiantes considerada pequeña muestra, la distribución de probabilidad a utilizar es la “t” student, con n – 1 grados de libertad. Paso 3: Estadístico de prueba (o calculado) El estadístico de prueba a utilizar es: t d Sd n Ecuación No.10 Dónde: d : es la media de la diferencia entre las observaciones por pares. S d : es la desviación estándar de las diferencias entre las observaciones por pares. n: es el número de observaciones por pares. G.L: son los grados de libertad (n –1) Para determinar el cálculo del estadístico de prueba se requiere conocer la media de las diferencias y su desviación estándar, para lo cual procedemos a su cálculo utilizando el siguiente cuadro: Tabla No. 7. Calculo estadístico sobre diferencia de medias Muestra 1 2 3 4 5 6 7 8 9 10 Sumas Registro antes 128 105 119 140 98 123 127 115 122 145 Registro después 135 110 131 142 105 130 131 110 125 149 Diferencia d 7 5 12 2 7 7 4 -5 3 4 46 Diferencia al cuadrado 49 25 144 4 49 49 16 25 9 16 386 UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA CONTENIDO DIDÁCTICO DEL CURSO: 100403 –INFERENCIA ESTADISTICA d 43 d 46 4.60 n 10 d d n 2 2 Sd n 1 386 462 10 10 1 4.40 Aplicando la fórmula, se obtiene: t d 4.6 3.30 Sd 4.4 n 10 Paso 4: Estadístico teórico (o tabulado) y regla de decisión El valor crítico de t para esta prueba de una cola a la derecha, es 1.833 que se obtiene en la tabla de la distribución “t” (anexo D), ubicando en la columna de la izquierda 9 grados de libertad y recorriendo a la derecha hasta la columna de una cola con 0.05 nivel de significancia. En la siguiente gráfica se indica lo expuesto: Gráfico No. 16. Prueba unilateral superior (cola derecha). Prueba de hipótesis por pares Paso 5: Tomar la Decisión Como el valor t (3.30) está en la región de rechazo de la hipótesis nula, entonces se acepta la hipótesis alternativa y se concluye que el programa de adiestramiento para los alumnos fue eficaz para aumenta su eficiencia. UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA CONTENIDO DIDÁCTICO DEL CURSO: 100403 –INFERENCIA ESTADISTICA 44 Pruebas para la varianza 20. Pruebas de hipótesis para la varianza Como su nombre lo indica, consiste en comparar tres o más medias de una muestra para identificar su homogeneidad o variabilidad. esta técnica estadística, normalmente es utilizada para analizar resultados en la investigación con diseños experimentales y cuasi-experimentales; muchas veces necesitamos comparar dos o más distribuciones que corresponden a variaciones de una misma variable dependiente, afectada por una o más variables independientes. Comparación de dos varianzas poblacionales Su utilidad radica en determinar si una población normal tiene más variación que otra población que se considera también normal. Como ejemplo se pueden mencionar, si dos máquinas dedicadas a producir cierto artículo de precisión pueden ser confiables en el control de calidad, es decir, el producto tiene el mismo largor, el mismo diámetro y las variaciones presentadas son similares. Ejemplo La tasa media de rendimiento de dos tipos de acciones se puede apreciar en el siguiente cuadro, se desea saber si el rendimiento promedio es diferente a un nivel de significancia del 0.10. Tabla No. 8. Tasa de rendimiento de las acciones Acciones Rendimiento promedio Desviación estándar Tamaño de la muestra Tipo A 56 12 7 Tipo B 58 5 8 Paso 1: Planteamiento de hipótesis Ho : 12 22 H1 : 12 22 La variación de los rendimientos promedios de las acciones es igual como la hipótesis nula. La variación de los rendimientos de las acciones es diferente como UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA CONTENIDO DIDÁCTICO DEL CURSO: 100403 –INFERENCIA ESTADISTICA 45 hipótesis alternativa. Paso 2: Nivel de significancia 𝜶 Se selecciona un nivel de significancia de 0.01 utilizando la distribución F. Paso 3: Estadístico de prueba (o calculado) El valor del estadístico de prueba sigue una distribución F, con la siguiente relación: S12 122 F 2 2 5.76 S2 5 Se acostumbra a colocar el mayor valor en el numerador, de tal forma que la relación siempre será por lo menos igual a uno. Paso 4: Estadístico teórico (o tabulado) y regla de decisión El valor crítico se obtiene del Anexo F, para lo cual se reproduce una parte de la tabla. Debido a que utiliza una prueba de dos colas, el nivel de significancia para cada cola será de: 0.10 0.05 . 2 2 Grados de libertad para el numerador: n – 1 = 7-1 = 6 Grados de libertad para el denominador: n – 1 = 8 – 1 = 7 Para encontrar el valor crítico, se incorpora parte de la tabla F: Tabla No. 9. Grados libertad numerador denominador GRADOS LIBERTAD NUMERADOR G.L 5 6 7 8 Denominador 1 2 3 4 5 6 7 8 9 10 230 19.3 9.01 6.26 5.05 4.39 3.97 3.69 3.48 3.33 234 19.3 8.94 6.16 4.95 4.28 3.87 3.58 3.37 3.22 2.7 19.4 8.89 6.09 4.88 4.21 3.79 3.50 3.29 3.14 239 19.4 8.85 6.04 4.82 4.15 3.73 3.44 3.23 3.07 UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA CONTENIDO DIDÁCTICO DEL CURSO: 100403 –INFERENCIA ESTADISTICA 46 Paso 5: Tomar la Decisión Dado que el valor de la distribución F (5.76) se encuentra a la derecha del valor crítico (3.87), se acepta la hipótesis alternativa y se concluye que los rendimientos promedios de las acciones son diferentes. Ejercicios propuestos A continuación se proponen dos ejercicios para que los desarrolle aplicando las sugerencias propuestas: 1. Se lanza una moneda 200 veces y se obtienen 105 caras. Si el nivel de significancia es de 1% probar la hipótesis que la probabilidad de caras es de ½ contra la hipótesis: a. b. c. Que es mayor de ½. Que es menor de ½. Que es diferente de ½. Sugerencia: En este caso utilice las propiedades de la distribución binomial donde: np 200 1 2 100 n p q 2001 2 1 2 7.07 Z X n p n p q 2. Un fabricante de un empaque para harinas garantiza que tiene una efectividad de 95% en la protección contra la humedad durante un período de 6 meses. Se observó una muestra de 100 paquetes encontrándose resultados positivos en 85 paquetes. Comprobar si la afirmación del fabricante es verdadera con un nivel de significancia de 0.05. Sugerencia: Utilizar prueba de una proporción. 3. Un fabricante de pastas alimenticias sostiene que el contenido medio de proteínas del producto es de 10.7. Un análisis de una muestra de 8 paquetes dio como resultado un contenido medio de 10% con una desviación de 1. ¿Se puede aceptar como verdadera la afirmación del fabricante a un nivel de 0.01? Sugerencia: Utilizar el siguiente estadístico de prueba: t X S n Un ensayo unilateral con cola a la izquierda con un nivel significativo de 0.01 el valor crítico con 7 grados de libertad es igual a –3.0 UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA CONTENIDO DIDÁCTICO DEL CURSO: 100403 –INFERENCIA ESTADISTICA 47 CAPITULO CINCO: ANÁLISIS DE VARIANZA Introducción. En esta unidad se prosigue con el análisis de pruebas de hipótesis. Recuerde que en capítulo anterior se examinó la teoría general de la prueba de hipótesis y se describió el caso en el que fue seleccionada una muestra grande a partir de la población. Se empleó la distribución Z como base para determinar si es razonable concluir que una media calculada a partir de una muestra, proviene de una población hipotética. Además se probó si dos medias muestrales provienen de poblaciones iguales. También se efectuaron pruebas de una y dos muestras para relaciones proporcionales utilizando la distribución normal como entidad estadística de prueba. Se utilizó la distribución t como entidad estadística de prueba para muestras pequeñas (con menos de 30 observaciones) Cuando se desea conocer la homogeneidad que existe entre tres o más medias muestrales, se procede a determinar la variabilidad entre esas medias, técnica que se conoce como “análisis de varianza”. Es decir, cuando productos o individuos son sometidos a tratamientos determinados para ver cómo éstos influyen en resultados o comportamientos, lo más aconsejable es utilizar la técnica de análisis de varianza. El objetivo del análisis de varianza es determinar cuáles son las variables independientes de importancia en un estudio, y en qué forma interactúan y afectan la respuesta. El Análisis de varianza en el siguiente forma. presente capitulo se encuentra dividido de la ANALISIS DE VARANIZA De un Factor De dos Factores Con interacción Gráfico No. 17. ANOVA UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA CONTENIDO DIDÁCTICO DEL CURSO: 100403 –INFERENCIA ESTADISTICA 48 Objetivo general. Reconocer la importancia principios en que se basa y campos de aplicación de la técnica de Análisis de Varianza. Objetivos específicos. Comprender la noción general del análisis de varianza. Realizar una prueba de hipótesis para determinar si dos varianzas muestrales provienen de poblaciones iguales. Probar e interpretar hipótesis aplicando el análisis simple de varianza. Establecer y organizar datos en una tabla de ANOVA de una y de dos direcciones. Plantear, probar e interpretar hipótesis de análisis de varianza de dos factores de diseño de bloque aleatorizado. Plantear, probar e interpretar hipótesis de análisis de varianza de dos factores con interacción o diseño de factorial. Definir los términos tratamientos y bloques. Dar a conocer el manejo de la herramienta de Análisis de varianza en Excel. UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA CONTENIDO DIDÁCTICO DEL CURSO: 100403 –INFERENCIA ESTADISTICA 49 Generalidades Como su nombre lo indica, el ANALISIS DE VARIANZA, se utiliza para probar hipótesis sobre la igualdad de tres o más medias poblacionales. Al comparar las varianzas muestrales, es posible sacar una conclusión o inferencia sobre los valores relativos de las medias poblacionales. 21. Comparación de más de dos poblaciones Del análisis de varianza, podemos decir que esta técnica estadística normalmente es utilizada para analizar resultados en la investigación con diseños experimentales y cuasi-experimentales; muchas veces necesitamos comparar dos o más distribuciones que corresponden a variaciones de una misma variable dependiente, afectada por una o más variables independientes. El análisis de varianza estudia la relación entre una variable cualitativa (o variable independiente) con más de dos categorías y una variable cuantitativa (o variable dependiente). Ejemplo Un agrónomo desea estudiar el rendimiento (en libras) de cuatro variedades diferentes de calabacitas. La variable cualitativa es el factor de este experimento, que en este caso es la variedad de calabacita, los niveles son cada una de las cuatro variedades. Y la variable cuantitativa es el rendimiento (en libras). El factor corresponde a la variable cualitativa y los niveles a las categorías de esa variable El análisis de varianza tiene como objetivo identificar, si hay evidencia de una diferencia significativa entre los niveles, basados en las medias muestrales. UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA CONTENIDO DIDÁCTICO DEL CURSO: 100403 –INFERENCIA ESTADISTICA 50 21.1. Variabilidad producto de factores controlables e incontrolables Teóricamente es posible dividir la variabilidad del resultado de un experimento en dos partes: la originada por factores o tratamientos que influyen directamente en el resultado del experimento, y la producida por el resto de factores desconocidos o no controlables, que se conoce con el nombre de error experimental. En el ejemplo anterior los factores desconocidos pueden ser: la humedad, la temperatura y plagas entre otros. 21.2. Tipos de modelos Modelo de efectos fijos: Un modelo de análisis de varianza es de efectos fijos cuando los resultados obtenidos sólo son válidos para esos determinados niveles del factor estudiado y lo que ocurra a otros niveles del factor puede ser diferente. Modelo de efectos aleatorios: Un modelo de análisis de varianza es de efectos aleatorios cuando los resultados obtenidos son válidos para cualquier nivel del factor estudiado. Modelo replicado: Un modelo es replicado si el experimento se repite varias veces para cada nivel del factor; en caso contrario se dice que el modelo es por unidad de casilla. 21.3. Supuestos Del Análisis De Varianza Para cada población la variable de respuesta está normalmente distribuida. La varianza de la variable respuesta es la misma para todas las poblaciones. Las observaciones deben ser independientes. Análisis de Varianza de un Factor El análisis de varianza simple se presenta cuando se tiene un solo factor estudiado en sus distintos niveles que influyen sobre una variable respuesta que mide el resultado del experimento, y el resto de los factores conforman el error experimental influyendo sobre la variable respuesta de manera no controlable. El factor se presenta con j niveles, y dentro de cada nivel se analiza una serie de observaciones del experimento en control (unidades experimentales) y su efecto sobre la variable respuesta, es decir, para cada nivel se repite el experimento varias veces (replicación). UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA CONTENIDO DIDÁCTICO DEL CURSO: 100403 –INFERENCIA ESTADISTICA 51 El análisis de varianza descompone la variabilidad del resultado de un experimento en componentes independientes (variación total descompuesta en variaciones particulares). Ejemplo Se puede considerar los rendimientos de un mismo cultivo en parcelas diferentes, que aunque labradas en las mismas condiciones, producen cosechas que son distintas. La variabilidad de rendimientos es producida por factores o tratamientos controlables (abono, riego, etc.), donde cada factor o tratamiento puede presentar diferentes niveles (diferentes cantidades o calidades de abono, distinta intensidad de riego); también puede ser producida por otros factores o tratamientos no controlables (humedad relativa, clima, plagas, etc.). Tabla No. 10. Observaciones Nivel1 X11 X21 . . . Xi1 por cada nivel Nivel 2 X12 X22 . . . Xi2 … Nivel j X1j X2j . . . Xij X ij : Observación i-ésima de la variable respuesta relativa al j-ésimo nivel de factor. En el ejemplo anterior, X ij es el rendimiento obtenido (variable respuesta) bajo el nivel j del factor (abono) en la observación i-ésima (Para cada nivel j de factor se repite el cálculo de rendimiento veces para recoger el efecto del error experimental). : Tamaño de la muestra para cada nivel (categorías de la variable cualitativa) En esta sección se considera el análisis de varianza de un solo factor, en el cual solo interviene en el experimento un solo tipo de tratamiento. Cuando se desea contrastar las hipótesis sobre la diferencia global entre tres o más medias de población, se aplica la distribución de probabilidad F encontrando en cociente de UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA CONTENIDO DIDÁCTICO DEL CURSO: 100403 –INFERENCIA ESTADISTICA 52 dos varianzas calculadas a partir de los datos experimentales. El modelo lineal en que se basa el método de análisis de varianza de un solo factor es: X iJ i ij Ecuación No.11 Dónde: Es la i-ésima observación del j-ésimo nivel experimental. La media de todas las observaciones de todas las poblaciones j del tratamiento. Es una constante. Efecto del tratamiento en la población j. Son variables aleatorias independientes. Error aleatorio asociado a la i-ésima observación del factor de la población j El efecto i del tratamiento o factor es la diferencia entre la gran media y la media J de la población en tratamiento J, esto es: i J . Ecuación No.12 Por consiguiente, si hay J tratamientos en un experimento, la suma de todos los J efectos de los tratamientos debe ser igual a cero: J J J J 1 J 1 J 1 i J J J 0 Ecuación No.13 El último término iK refleja la variabilidad dentro de cada una de las poblaciones en tratamiento, y su presencia se atribuye al proceso aleatorio, y se interpreta como lo resultante de la diferencia entre el resultado observado y la media de la población del tratamiento: iJ X ij j Ecuación No.14 El valor esperado o la esperanza de ij es igual a cero. UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA CONTENIDO DIDÁCTICO DEL CURSO: 100403 –INFERENCIA ESTADISTICA 53 El modelo se basa en las siguientes suposiciones: Admite que los errores aleatorios ij tienen una distribución normal para cada población en tratamiento J. Admite que los errores iJ se distribuyen independientemente tanto entre poblaciones en tratamiento como dentro de ellas. Acepta que la varianza 2 del error permanece constante para cada una de las poblaciones. Hipótesis del ANOVA de un factor. El análisis de varianza se usa para probar la igualdad de K medias poblacionales y la forma general del planteamiento de las hipótesis es: Dónde: j = Media de la j-ésima población. La media general de las muestra, está representada por X , y es la suma de todas las observaciones divida entre la cantidad total de las mismas, expresada de la siguiente forma: Media General: K X nj X j 1 i 1 ij nt Ecuación No.15 Dónde: nt n1 n2 ... nK Si el tamaño de cada muestra es n, nT kn , la ecuación de la media general se reduce a: K X nj X ij j 1 i 1 nt K nj K X ij j 1 i 1 n K X j 1 j K Ecuación No.16 En otras palabras, cuando los tamaños de muestra son iguales, la media general muestral es justamente el promedio de las medias de las K muestras. UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA CONTENIDO DIDÁCTICO DEL CURSO: 100403 –INFERENCIA ESTADISTICA 54 Si supone que se ha tomado una muestra aleatoria simple de tamaño n j de cada una de las K poblaciones, se tiene: X ij es la i-ésima observación del grupo, nivel j. n j es el número de observaciones del grupo, nivel j. n es el total del número de observaciones en todos los grupos combinados. K Es el número total de grupos, niveles del factor de interés. X j Media de la muestra del j - ésimo tratamiento. Pasos para la Realizar un análisis de varianza. 1. Establecer la hipótesis nula y alterna. 2. Establecer el nivel de significancia α 3. Realizar el ANOVA 4. Calcular el valor F o el valor crítico correspondiente al nivel de confianza fijado con los grados de libertad. 5. Hallar el estadístico de prueba 6. Tomar la decisión teniendo en cuenta que: A Rechaza H0 si Valor crítico B Gráfico No. 18. Distribución F. UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA CONTENIDO DIDÁCTICO DEL CURSO: 100403 –INFERENCIA ESTADISTICA 55 Ejemplo 1 Suponga que una empresa tiene tres dependencias diferentes en donde produce tubos de iluminación, y desea verificar el control de calidad en cuanto a duración se refiere de las bombillas, y para ello toma una muestra de 6 unidades de cada factoría y las somete a desgaste hasta que dejan de iluminar con los siguientes resultados en horas: Tabla No. 11. Observaciones por cada nivel Observación Planta 1 Planta 2 Planta 3 Total 1 85 71 59 2 75 75 64 3 82 73 62 4 76 74 69 5 71 69 75 6 85 82 67 79 74 66 73 X J 34 20 32 5.83 4.47 5.66 6 6 6 18 474 444 396 1314 2 J S SJ nJ n X J ! iJ La media general es igual a: 3 X X J 1 nJ J 79 74 66 219 73 18 3 Se observa que se obtienen las medias para cada tratamiento (79, 74 y 66) y una media general (73). Para llevar a cabo la prueba de la igualdad de las medias de la población, se subdivide la variación total en dos mediciones: Diferencia entre los grupos. Diferencia dentro de los grupos. La varianza de la muestra total se particiona en la varianza dentro de las plantas y la varianza entre las plantas, tal como se indica en el siguiente gráfico: Variación Total (VT) = Gráfico No. 18. Distribución F. Variación Dentro del Grupo (VDG) + Variación Entre Grupo (VEG) UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA CONTENIDO DIDÁCTICO DEL CURSO: 100403 –INFERENCIA ESTADISTICA Variación total (VT) k n VT X ij X j 1 i 1 X 3 J 1 i 1 2 Ecuación No.17 6 VT 56 ij X 85 73 75 73 ... 71 73 75 73 ... 2 2 2 2 2 59 732 64 732 946 Variación dentro del grupo (VDG) k n VDG X ij X j 2 j 1 i 1 Ecuación No.18 85 79 75 79 ... 71 742 75 742 ... VDG 2 2 j 1 I 1 59 66 64 66 .... 430 3 2 6 2 Variación entre grupos (VEG) K VEG n j X j X j 1 3 VEG n6 X X J 1 2 Ecuación No.19 679 73 674 73 666 73 516 2 2 2 2 Se debe comprobar que la variación total sea igual a la sumatoria de la variación entre y dentro de los grupos. Puesto que K es el total de niveles comparados, existen (K-1) grados de libertad asociados con la suma de cuadrados entre los grupos, niveles o tratamientos. Como cada uno de los K niveles contribuye con ( n j 1 ) grados de libertad, existen (n–k) grados de libertad asociados con la suma de cuadrados dentro de los grupos. Si cada suma de cuadrados se divide entre sus grados de libertad asociados, se obtienen tras varianzas o términos cuadráticos medios, como se indica en el UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA CONTENIDO DIDÁCTICO DEL CURSO: 100403 –INFERENCIA ESTADISTICA 57 siguiente cuadro: Tabla No. 12. Componentes del análisis de varianza Variación Entre tratamiento Suma cuadrados K n j 1 Dentro o error j k n X k X j X j 1 i 1 Total X X j X ij 2 2 n j 1 i 1 2 ij Grados libertad (K-1) Cuadrado medio (n-K) VDT B n k (n-1) VT n 1 Distribución F VET A K 1 A B Los resultados para el problema de análisis es el siguiente: Tabla No. 13. Resultados del análisis de varianza Variación Suma cuadrados Entre tratamiento 516 Grados libertad (K-1)= 2 Dentro o error 430 (n-K)=15 Total 946 (n-1)=17 Cuadrado medio Distribución F 516 258.00 2 430 28.67 15 258 8.99 28.67 En la Tabla de Distribución F se determina el correspondiente valor crítico para el numerador (k-1= 3-1=2) y el denominador (n-K = 18-3=15), con una probabilidad de error tipo 1 o un nivel de significancia del 5%, que corresponde a F0.05 3.68 , significando que si se tuviera que seleccionar un valor al azar de una distribución F con 2 grados de libertad en el numerador y 15 en el denominador, sólo el 5% de las veces se obtendría un valor mayor que 3.68. Además la teoría del análisis del varianza indica que si es cierta la hipótesis nula, la relación entre los cuadrados medios entre y dentro de los tratamientos sería un valor dentro de esa distribución, tal que se rechaza si, el valor de dicha relación es mayor que el valor crítico: El valor de la relación es superior al valor crítico, por tal razón se rechaza la hipótesis nula consistente en que las medias poblacionales sean iguales. Rechaza H0 si A Valor crítico B Para el caso la relación es igual a 8.99 mayor que el valor crítico 3.68, entonces se tienen pruebas suficientes para rechazar la hipótesis nula consistente en que las UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA CONTENIDO DIDÁCTICO DEL CURSO: 100403 –INFERENCIA ESTADISTICA 58 medias de las tres poblaciones son iguales. En otras palabras el análisis de varianza apoya la conclusión que las medias para la duración de las bombillas es diferente en las tres plantas. El gráfico para dicho planteamiento es el siguiente: Gráfico No. 19. Distribución F. Ejemplo: Análisis de varianza Suponga que dispone de un conjunto de árboles clasificados por altura (en metros) y por especie, según los siguientes datos: Tabla No. 14. Altura de árboles según especies Especie Altura Especie Altura Especie Altura A 8.52 B 8.52 A 8.13 B 6.45 A 6.43 E 7.17 C 7.41 A 6.21 A 8.40 A 7.15 E 7.07 C 8.87 B 8.73 B 8.83 A 6.12 D 7.55 B 8.53 B 8.91 E 6.54 D 7.84 C 8.81 D 7.74 C 8.59 D 7.40 C 8.65 C 7.41 B 8.19 C 8.81 B 8.94 B 8.56 Para ajustar la información a un modelo de análisis de varianza, se considera como variable respuesta la altura de los árboles en metros, y como único factor la variable cualitativa especie con cinco niveles (A, B, C, D, E). Dado que se tiene un UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA CONTENIDO DIDÁCTICO DEL CURSO: 100403 –INFERENCIA ESTADISTICA 59 modelo de un solo factor, se desea probar si las variadas especies de árboles tienen igual o diferente promedio de altura con un nivel de significancia del 1%. Primero se estiman las medias para cada una de las especies y la media total, conforme al siguiente cuadro: Tabla No. 15. Registro de estadísticos para diferentes especies Especie A Especie B Especie C Especie D Especie E Total 8.52 7.15 6.43 6.21 8.13 6.12 Sumas Promedio Observaciones 6.45 8.73 8.52 8.83 8.53 8.94 8.40 8.91 8.19 8.56 84.06 8.406 10 42.56 7.093 6 7.41 8.65 8.81 8.59 8.87 8.81 7.55 7.74 7.84 7.41 7.40 6.54 7.07 7.17 51.14 8.523 6 37.94 7.588 5 20.78 6.926 3 236.48 7.707 30 Gran media = nj 5 X X ij j 1 i 1 nt 8.52 7.15 ... 6.45 8.76 ... 7.41 8.65 ... .... 236.48 7.882666 30 30 Variación total (VT) = X k j 1 i 1 8.52 7.88 ... 6.12 7.88 ... 7.07 7.88 7.17 7.88 2 n X ij 2 2 2 2 24.0741867 Variación dentro del grupo (VDG) = X k n j 1 i 1 X j ij 2 8.52 7.09 ... 6.45 8.406 ... 7.41 8.523 .... 7.17 6.926 11.9584533 2 2 2 2 UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA CONTENIDO DIDÁCTICO DEL CURSO: 100403 –INFERENCIA ESTADISTICA 60 Variación entre grupos (VEG) = K n j 1 j X j X 7.093 7.88 8.406 7.88 .... 6.926 7.88 2 2 2 2 12.1157333 Para calcular el estadístico de prueba perteneciente a la distribución F , se resume en el siguiente cuadro: Tabla No. 16. Cálculos del cuadro de análisis de varianza Variación Entre tratamiento Dentro o error Total Suma cuadrados 12.1157333 11.9584533 24.0741867 Grados libertad (K-1)= 4 (n-K)=25 (n-1)=29 Cuadrado medio 3.0289 0.4783 Distribución F 6.332 En la tabla “F” determina el correspondiente valor crítico para el numerador (k-1= 5-1=4) y el denominador (n-K = 30-5=25), con una probabilidad de error tipo 1 o un nivel de significancia del 1%, que corresponde a F0.01 4.18 . Para el caso la relación es igual a 6.332 mayor que el valor crítico 4.18, entonces se tienen pruebas suficientes para rechazar la hipótesis nula consistente en que las medias de las cinco variedades de árboles son iguales. En otras palabras el análisis de varianza apoya la conclusión que las medias para la altura de las diferentes especies de árboles es diferente. Comparación Múltiple de Medias (Pruebas “a Posteriori”) Las pruebas "a posteriori" son un conjunto de pruebas para probar todas las posibles medias que podría ser diferente al rechazar la hipótesis. Existen varias, (Duncan, Newman-Keuls, LSD): todas ellas muy parecidas. Usan el rango (diferencia entre medias) de todos los pares de muestras como estadístico y dicho rango debe superar un cierto valor llamado mínimo rango significativo para considerar la diferencia significativa. La principal diferencia con respecto a la t-student radica en que usan MSE como estimador de la varianza, es decir un estimador basado en todas las muestras. UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA CONTENIDO DIDÁCTICO DEL CURSO: 100403 –INFERENCIA ESTADISTICA 61 Análisis de varianza con dos factores (diseño de bloques aleatorizados). Con frecuencia interesa analizar los efectos de dos tipos de factores o tratamientos. Suponga que un experimento incluye dos tipos de factores: el uno llamado C (lo que sugiere columna) consistente en K tratamientos diferentes, y el otro, denominado F (lo que sugiere fila) consistente en J tratamientos diferentes. Se admite que respecto al j-ésimo tratamiento de F y el K-ésimo tratamiento de C, existen cuatro componentes así: X ijK i j ijk Ecuación No.20 Dónde: − La varianza total de la muestra se particiona en la varianza entre las filas, varianza entre columnas, varianzas entre la j x k, y las varianzas del error aleatorio. Para este modelo, los cálculos del análisis de la varianza para las sumas de los cuadrados son idénticos a los realizados en el modelo de un solo factor, tan solo que se calculan variaciones para el factor de fila, de columna y para el error aleatorio. De manera análoga, los grados de libertad y los cuadrados medios son los mismos. A continuación se indica el cuadro resumen para el análisis de varianza de dos factores: Tabla No. 17. Análisis de varianza para dos factores Fuente de variación Entre los grupos o columnas (j) Suma de los cuadrados, SC Entre los bloques o filas (i) VEF c X i. X i 11 Error de muestreo, E VE X ij X . j X i. X Total, T VT X ij X j 1 i 1 C VEC r X . j X j 1 r c r j 1 i 1 2 2 c r 2 2 Grados de Media Libertad, gl MC cuadrática, Relación F c 1 MCA VEC c 1 F MCA MCE r 1 MCB VEF r 1 F MCB MCE MCE VE r 1c 1 r 1c 1 rc 1 UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA CONTENIDO DIDÁCTICO DEL CURSO: 100403 –INFERENCIA ESTADISTICA 62 La definición de los términos del cuadro son los siguientes: X ij Valor del bloque i - ésimo para el tratamiento del grupo i - ésimo. X i La media de todos los valores en el bloque i. X j La media de todos los valores para el tratamiento del grupo j. c r X j 1 i 1 ij X La sumatoria de los valores de todos los bloques y de todos los grupos, equivalent e al gran total. r El número de bloques. c El número de grupos. n Número total de observacio nes. Para contrastar los efectos de los factores en el modelo, se construye un estadístico que se compara los cuadrados medios, que bajo la hipótesis nula sigue una distribución F. Ejemplo Suponga que existen cuatro parcelas diferentes las cuales son sometidas sucesivamente a seis tipos de insumos y se piensa que la producción es afectada por el tipo de insumo y mantenimiento a que es sometida. Se desea probar los diferentes tratamientos afectan la producción por parcela, y la producción es la siguiente: Tabla No. 19. Rendimientos en kilos por parcela Tratamiento RENDIMIENTO EL KILOS Parcela 1 Parcela 2 Parcela 3 Parcela 4 Total Medias A B C D E F 70 77 76 80 84 78 61 75 67 63 66 68 82 88 90 96 92 98 74 76 80 76 84 86 287 316 313 315 326 330 71.75 79.00 78.25 78.75 81.50 82.50 Totales Medias 465 77.50 400 66.67 546 91.00 476 79.33 1.887 78.625 Los totales por grupo (parcelas) y sus correspondientes promedios, los totales y los promedios por tratamientos o bloques (insumo y manteniendo), así como la gran media se indican en el cuadro. Además de las estadísticas representadas en el cuadro, se tiene: r 6; c 4; n rc 24 UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA CONTENIDO DIDÁCTICO DEL CURSO: 100403 –INFERENCIA ESTADISTICA c X 63 r X j 1 i 1 ij rc 1.887 78,625 24 Para determinar los resultados del experimento de diseños de bloques aleatorizados con fines ilustrativos, se hacen los siguientes cálculos: Variación Total de Cuadrados: c r VT X ij X j 1 i 1 2 70 78,625 77 78,625 ... 86 78,625 2.295,63 2 2 2 Variación entre grupos o columnas: C VEC r X . j X j 1 2 Ecuación No.21 6 77.5 78,625 66.67 78,625 ... 79.33 78,625 1.787,46 2 2 2 Variación entre bloques o filas: r VEF c X i. X i 11 2 Ecuación No.22 VEF 4 71.75 78,625 79 78,625 ... 82.5 78,625 238,38 2 2 2 Variación del error de muestreo: c r VE X ij X . j X i. X j 1 i 1 Ecuación No.23 2 UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA CONTENIDO DIDÁCTICO DEL CURSO: 100403 –INFERENCIA ESTADISTICA 64 VE 70 77.5 71.75 78,625 2 77 77.50 79.00 78,6252 . . 86 - 79.33 - 82.50 78,625 244.79 2 Los medios o promedios cuadráticos, se calculan así: MCA VEC 1.787,46 595,82 c 1 4 1 MCB VEF 283.38 56,676 r 1 6 1 MCE VE 224.79 224.79 14,986 r 1c 1 6 14 1 15 Los cálculos anteriores se pueden resumir en el siguiente cuadro: Tabla No. 20. Resultados del análisis de varianza para dos factores Fuente Suma de Grados Cuadrado cuadrados libertad (varianza) Entre grupos 1.787.46 VEC 1.787.46 4-1=3 3 595,820 Entre Bloques 283.38 6-1=5 224.79 (6-1)(4-1)=15 2.295.63 (6)(4)-1=23 Error Total VEF 283.38 5 56,676 224.79 15 14,986 VE medio F 595.82 14,986 39,758 56,676 F 14,986 3,782 F UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA CONTENIDO DIDÁCTICO DEL CURSO: 100403 –INFERENCIA ESTADISTICA 65 Además de los registros anteriores, en las tablas ANOVA de los diferentes paquetes de software estadísticos, incluyen el p-valor que consiste en la probabilidad de obtener un estadístico F igual o mayor a la obtenida dado que la hipótesis nula sea verdadera, es decir, si el p- valor es menor que el nivel especificado de significancia , la hipótesis nula es rechazada. Para nuestro caso se utiliza la información contenida en el cuadro anterior. Si se desea probar las diferencias entre los rendimientos de las parcelas con un nivel de significancia del 5%, la regla de decisión consiste en rechazar la hipótesis nula H o : 1 2 3 4 si el valor F calculado es mayor que 3.29 (Ver tabla F con 3 grados de libertad en el numerador y 15 grados en el denominador). Para el caso F = 39,758 es mayor que el valor crítico 3.29, entonces se rechaza la hipótesis nula y se llega a la conclusión que existe evidencia de una diferencia entre la producción promedio de las diferentes parcelas, como se puede apreciar en el siguiente gráfico: Gráfico No. 20. Región de aceptación de hipótesis Como una verificación de la efectividad de la utilización de insumos, se puede probar la diferencia de efectividad de los diferentes insumos aplicados. La regla de decisión utilizando un nivel de significancia del 5%, sería la de rechazar la hipótesis nula H o : 1 2 3 4 5 6 si el valor F calculado excede a 2.90 (Ver anexo F con 5 grados de libertad en el numerados y 15 grados en el denominador). Para el caso el valor F = 3,782 es mayor al valor crítico, lo que se concluye que la utilización de los diferentes insumos, produce diferencia significativa entre los promedios de producción para las parcelas, y que la conformación de dichos bloques es ventajosa para reducir el error experimental, situación que se presenta en el siguiente gráfico: UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA CONTENIDO DIDÁCTICO DEL CURSO: 100403 –INFERENCIA ESTADISTICA 66 Gráfico No. 21. Región de aceptación de hipótesis Análisis de varianza de dos factores con interacción. (Diseño factorial). Se ha visto hasta ahora el análisis de varianza de una dirección o el modelo de diseño completamente aleatorizado, después el modelo de diseño de bloque aleatorizado, y en la presente sección el análisis de varianza de dos factores con interacción. Con el propósito de desarrollar el procedimiento de la prueba F, se define a continuación los siguientes términos: X ijk Valor de la k - ésima observació n del nivel i del factor A t del nivel j del factor B. X ij Suma de los valores de la celda ij (las observacio nes del nivel i del factor A y del nivel j del factor B. X i.. Suma de los valores de la hilera i del factor A. X.j. Suma de los valores de la columna j del factor B. GT Gran total de todos los valores en todas las hileras y columnas. r Número de niveles del factor A. c Número de niveles del factor B. n ' Número de valores(replicas) para cada celda. n Número total de observacio nes del experiment o (con n r.c.n ' Con fines ilustrativos se hacen planteamientos tanto conceptuales como de cálculos para la descomposición de la variación total necesaria para el desarrollo del procedimiento de la prueba F. Debido a la gran cantidad de cálculos se recomienda que dicho proceso sea llevado por el paquete de software analizado UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA CONTENIDO DIDÁCTICO DEL CURSO: 100403 –INFERENCIA ESTADISTICA 67 más adelante. Tabla resumen para el análisis de varianzas de dos vías con más de una observación por célula se resume en el siguiente cuadro: Tabla No. 21. Resumen de análisis de varianza de dos vías Fuente de variación Entre grupos de tratamiento A Entre grupos de tratamiento, B Interacción entre factores A y B. Suma de los cuadrados, SC 2 r X 2 GT VEGA i..' rcn' i 1 cn X .2j . j 1 rn' r c VEAB i 1 j 1 c X .2j . j 1 rn' Error de muestreo, E c VEGB r n' rcn' r i 1 X i2.. cn ' rcn' r c VE X ijk2 i 1 j 01 k 1 Total, T X ij2 GT 2 r c Media MC c 1 VEGA r 1 BEGB MCB c 1 VEABI MCC r 1c 1 r 1 cuadrática, MCA r 1c 1 Relación F MCA MCE MCB F MCE MCI F MCE F GT 2 n' c Grados de libertad, gl n' i 1 j 1 VT X ijk2 i 1 J 1 K 1 X ij2. n ' GT 2 rc n' 1 MCE VE rcn' 1 rcn' 1 rcn' Ejemplo Para ilustrar el modelo factorial de dos factores, suponga que UD como dueño y propietario de una cadena de supermercados está interesado en saber el efecto de la colocación de los estantes en la venta de un producto. Para ello estudia 4 posibles lugares distintos donde colocar los estantes: Colocación normal entre el pasillo(A), colocación ingreso del pasillo (B), colocación a la entrada del pasillo con impulsadora (C) y colocación normal con propaganda (D). Se toman ventas aleatorias en las jornadas de la mañana, tarde y noche y los resultados de las ventas semanales se resumen en la siguiente tabla: UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA CONTENIDO DIDÁCTICO DEL CURSO: 100403 –INFERENCIA ESTADISTICA Tabla No. 22. Colocación de productos en un estantes durante jornadas JORNADA COLOCACIÓN ESTANTE A B 45 56 50 63 57 69 65 78 70 75 78 82 365 423 60.83 70.50 Mañana Tarde Noche Totales Medias C 65 71 73 80 82 89 460 76.67 D 48 53 60 57 71 75 364 60.67 Totales 451 Medias 56,375 539 67,375 622 77,750 1.612 67,167 Se tiene la siguiente información: r 3 c4 X 1.. 451 n' 2 X 3.. 622 X 2.. 539 X .1. 365 X 11. 95 X 21. 122 X 31. 148 X .2. 423 X 12. 119 X 22. 147 X 31. 157 X .3. 460 X 13. 136 X 23. 153 X 33. 171 X .4. 364 X 14. 101 X 24. 117 X 34. 146 GT 1.612 r n' c X i 1 j 1 k 1 2 ijk 452 502 ... 752 111.550 X i2.. 4512 5392 6222 110.100,75 ' 42 i 1 cn r c X .2j . rn ' j 1 r c i 1 j 1 GT 2 rcn' 3652 4232 4602 3642 109.375 32 X ij2. n' 952 1192 ... 1462 111.292 2 1.6122 108.272.66 342 68 UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA CONTENIDO DIDÁCTICO DEL CURSO: 100403 –INFERENCIA ESTADISTICA Variación Total de Cuadrados: r c n' VT X ijk2 i 1 J 1 K 1 GT 2 rcn' 111.550 108.272.66 3.277.34 Variación entre grupos del tratamiento A: X i2.. GT VEGA ' 110.100.75 108.272.66 1.828.09 rcn' i 1 cn 2 r Variación entre grupos del tratamiento B: c X .2j . j 1 rn' VEGB GT 2 rcn' 109.375 108.272.66 1.102.34 Variación entre los factores A y B: r c VEAB i 1 j 1 X ij2 n' r i 1 X i2.. c X . j . GT cn ' j 1 rn' rcn' 2 2 111.292 - 110.100.75 - 109.375 108.272.66 88.91 Variación del error de muestreo: r c n' VT X ijk2 i 1 J 1 K 1 GT 2 rcn' 111.550 111.292 258 Para el cálculo de las varianzas se utilizan las siguientes relaciones: MCA VEGA 1.828.09 914.045 r 1 3 1 MCB BEGB 1.102.34 367.447 c 1 4 1 69 UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA CONTENIDO DIDÁCTICO DEL CURSO: 100403 –INFERENCIA ESTADISTICA MCC VEABI 88.91 14,818 r 1c 1 3 14 1 MCE VE 258 21.5 ' rc n 1 342 1 70 Los cálculos anteriores se resumen en el siguiente cuadro: Tabla No. 23. Resumen de análisis de varianza de dos vías Fuente de variación Suma de los cuadrados, SC Grados de libertad, gl Media cuadrática, MC Relación F Entre grupos de tratamiento A 1.828.09 3 1 2 914.045 42.51 Entre grupos de tratamiento, B 1.102.34 4 1 3 367.447 17.09 Interacción entre factores A y B. 88.91 14.818 0.69 Error de muestreo, E Total, T 258 3.277.34 3 14 1 6 342 1 12 342 1 23 21.5 Si utiliza un nivel de significancia del 0.05 y se prueba la diferencia entre las ventas en las diferentes jornadas (mañana, tarde, noche), la regla de decisión es la rechazar la hipótesis nula ( H 0 : 1 2 ... r ) si el valor calculado para F (42.51) es mayor que 3.49 (observar tabla F para 2 grados de libertad en el numerador y 12 grados de libertad en el denominador); se rechaza la hipótesis nula y se llega a la conclusión que existe evidencia que entre las diferentes jornadas las ventas en promedio son diferentes. Así mismo si utiliza un nivel de significancia de 0.05 para probar si existe alguna diferencia entre la ubicación de los estantes, la regla de decisión es rechazar la hipótesis nula ( H 0 : 1 2 ... c ), si el valor calculado F (17.09) es mayor que 3.49 (observar tabla F para 3 grados de libertad en el numerador y 12 grados de libertad en el denominador); se rechaza la hipótesis nula y se concluye que existe una diferencia entre los promedios de ventas para la colocación de los diferentes estantes en el almacén. Finalmente se puede probar si existe algún efecto de interacción entre el factor A (ventas en las diferentes jornadas) y el factor B (colocación de los estantes). Utilizando un nivel de significancia del 5%, la regla de decisión es rechazar la hipótesis nula ( ABij 0, para todo i y j ), si el valor calculado F (0.69) es mayor que 3.0 (observar tabla F para 6 grados de libertad en el numerador y 12 grados de UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA CONTENIDO DIDÁCTICO DEL CURSO: 100403 –INFERENCIA ESTADISTICA 71 libertad en el denominador); no se rechaza la hipótesis nula y se concluye que no existe evidencia de un efecto de interacción entre las jornadas del día y la colocación de los estantes. INTERPRETACIÓN DE LOS EFECTOS DE LA INTERACCIÓN Se ha realizado hasta ahora las pruebas para la significación del factor A, del factor B y de la interacción, corresponde entender en mejor forma el concepto de interacción, si se grafica las medias, empleando la siguiente fórmula: X ij X ij n' 95 47.5 2 119 2 136 2 101 50.5 2 122 2 147 2 153 2 117 2 148 74.0 2 157 78.5 2 171 85.5 2 146 73.0 2 X 11. X 21. 61.0 X 31. X 12. X 22. 73.5 X 32. 76.5 X 33. 58.5 X 34. X 13. X 14. X 23. X 24. Se procede a graficar las ventas semanales promedio de cada jornada y de cada colocación de la estantería, como se indica a continuación: Gráfico No. 22. Ventas de producto en tres jornadas UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA CONTENIDO DIDÁCTICO DEL CURSO: 100403 –INFERENCIA ESTADISTICA 72 Las cuatro líneas representan las colocaciones de las estanterías aparecen apuntando casi representando en la misma dirección, lo que significa que la diferencia en las ventas entre las cuatro colocaciones de los estantes es virtualmente la misma para las ventas de las diferentes jornadas. En otras palabras, no existe interacción entre los dos factores (jornada y estantería), como claramente se evidenció en la prueba F vista anteriormente. ¿Cuál es la interpretación si se presenta el efecto de interacción? En tal situación, algunos niveles del factor A responden mejor con ciertos niveles del factor B; por ejemplo, suponga que algunas colocaciones en los estantes fueran mejor para las jornadas. Si este fuera el caso, las líneas de la figura no estarían apuntando en la misma dirección que las hace casi paralelas y el efecto de interacción sería estadísticamente significativo, y por consiguiente, las diferencias entre las diferentes localizaciones de estantes no serían las mismas para las diferentes jornadas. UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA CONTENIDO DIDÁCTICO DEL CURSO: 100403 –INFERENCIA ESTADISTICA 73 EJERCICIOS COMPLEMENTARIOS 1. Un inspector de un distrito escolar quiere estudiar el ausentismo de los profesores de diversos grados escolares. Se seleccionaron muestras aleatorias de profesores en escuelas primarias, secundarias, y preparatorias, y el número de días de ausencia el año anterior fue como sigue: Primaria 7 4 10 6 5 Secundaria 13 14 9 8 7 10 Preparatoria 7 2 6 9 9 Con un nivel de significancia de .025, determine si hay una diferencia en el ausentismo entre los diversos grados. 2. El propietario de una distribuidora de combustible pretende investigar la rapidez con la cual le pagan sus facturas en tres áreas suburbanas. Se seleccionaron muestras de clientes en cada zona y se registró el número de días entre la entrega y el pago de la factura, con los siguientes resultados: Área 1 8 18 14 20 12 14 15 16 Área 2 10 16 28 25 7 17 Área 3 32 8 16 27 17 20 19 21 20 Con un nivel de significancia de .025, determine si hay una diferencia en la rapidez con que pagan las facturas en estas tres áreas. 3. Un agrónomo desea estudiar el rendimiento (en libras) de cuatro variedades diferentes de calabacitas. Se dividió una parcela en 16 lotes y se asignaron cuatro lotes al azar a cada variedad. Los resultados del experimento (en libras) fueron UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA CONTENIDO DIDÁCTICO DEL CURSO: 100403 –INFERENCIA ESTADISTICA Calabacita redonda 86 74 88 76 Calabacita común 40 48 54 46 Calabaza alargada 30 36 42 34 74 Calabacita rayada 48 54 42 56 Con un nivel de significancia de .01, determine si hay una diferencia en el rendimiento de las diferentes variedades de calabacitas. 4. Un distribuidor de automóviles nuevos quiere estudiar la cantidad de dinero aplicado a la compra de equipo opcional en automóviles de tamaño grande. Se seleccionó una muestra de 20 compras. Los sujetos se dividieron en las siguientes clasificaciones por edades: 18-24, 25-29, 30-39, 40-59, 60 y más. La cantidad de equipo opcional comprado (en miles de pesos) se organizó en grupos de edad como sigue: 18-24 6.31 4.27 5.75 25-29 7.64 5.36 3.85 6.24 Edad 30-39 8.37 9.26 10.16 6.48 7.86 40-59 11.23 10.64 8.32 9.00 7.53 60 y más 6.74 7.36 5.12 Con un nivel de significancia de .05, determine si hay una diferencia en la cantidad de dinero aplicado a la compra de equipo opcional en automóviles nuevos entre los diferentes grupos de edad. 5. Los alumnos de la clase de mercadotecnia calificaron el desempeño del profesor como excelente, bueno, malo y pésimo. Las calificaciones que dieron los estudiantes al profesor fueron comparadas con sus calificaciones finales del curso de mercadotecnia. Lógicamente, se pensaría que en general, los estudiantes que calificaron al profesor con excelente tendrían una calificación final mucho más alta que los que lo calificaron como bueno, malo o pésimo. Esto supondría también que quienes calificaron al docente como pésimo obtendrían las calificaciones mas bajas. Se seleccionaron muestras de calificaciones finales de los alumnos por cada tipo de calificación dada al maestro. Excelente 94 90 85 80 Calificaciones finales de la clase de Mercadotecnia Bueno Malo 75 70 68 73 77 76 83 78 88 80 Pésimo 68 70 72 65 74 UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA CONTENIDO DIDÁCTICO DEL CURSO: 100403 –INFERENCIA ESTADISTICA 68 65 75 65 Se pretende determinar si hay una diferencia estadística entre la calificación promedio obtenida por los estudiantes de acuerdo a la calificación otorgada al maestro. Utilice un nivel de significancia de .01 6. En un esfuerzo por determinar la más efectiva manera de enseñar principios de seguridad a un grupo de empleados de una compañía, cuatro diferentes métodos fueron tratados. Veinte empleados fueron asignados aleatoriamente a cuatro grupos. El primer grupo recibió instrucción programada en folletos y trabajaron a lo largo del curso a su propio paso. El segundo grupo atendió lecturas. El tercer grupo observó presentaciones en televisión, y el cuarto fue dividido en pequeños grupos de discusión. Al final de las sesiones, una prueba fue aplicada a los cuatro grupos. Los resultados fueron: Instrucción programada 6 7 6 5 6 Calificaciones Lecturas Televisión 8 5 8 6 8 7 9 6 8 5 Grupos de discussion 8 5 6 6 5 Pruebe en el nivel de significancia de .05 si hay o no diferencia entre las cuatro medias. 7. Una revista para consumidores está interesada en saber si existe o no alguna diferencia en la duración promedio de cuatro marcas diferentes de pilas para radios de transistores. Se probó una muestra aleatoria de cuatro pilas de cada marca, con los siguientes resultados (en horas): Marca 1 12 15 18 10 Marca 2 14 17 12 19 Marca 3 21 19 20 23 Marca 4 14 21 25 20 Con un nivel de significancia de .05, pruebe si hay alguna diferencia en la duración promedio de estas cuatro marcas de pilas para radios de transistores 8. Un psicólogo industrial querría determinar el efecto del consumo de bebidas alcohólicas sobre la capacidad mecanográfica de un grupo de secretarias. Se asignaron en forma aleatoria cinco secretarias a cada uno de los tres niveles UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA CONTENIDO DIDÁCTICO DEL CURSO: 100403 –INFERENCIA ESTADISTICA 76 de consumo y a cada una de las tres diferentes bebidas. Se dieron a cada secretaria las mismas instrucciones para mecanografiar la misma página. Se registró el número de errores cometido por cada secretaria con los siguientes resultados 1 onza Tequila Brandy 2 3 5 4 3 4 6 5 4 5 Ron 4 4 4 4 4 Consumo de alcohol 2 onzas Tequila Brandy Ron 7 5 9 5 6 4 6 4 8 3 4 2 9 7 11 Tequila 10 6 10 12 12 3 onzas Brandy 8 7 8 13 10 Ron 12 5 12 11 12 Con un nivel de significancia de .01, pruebe las siguientes hipótesis: Es diferente la cantidad de errores dependiendo de la cantidad de bebida. Es diferente la cantidad de errores dependiendo del tipo de bebida. Es diferente la cantidad de errores dependiendo de la interacción de las dos variables. 9. El gerente de menudeo de una cadena de tiendas desea determinar si la ubicación del producto tiene o no algún efecto sobre la venta de juguetes de peluche en forma de animales. Se van a considerar tres ubicaciones diferentes en el pasillo: frente, centro y atrás. Se seleccionó una muestra de 18 tiendas y se hizo una asignación aleatoria en seis tiendas para cada ubicación en el pasillo. Los juguetes estaban presentados en cuatro figuras de animales diferentes. Al final de un periodo de prueba de una semana las ventas de los productos fueron como sigue: osos 86 72 54 40 50 62 frente perros gatos 81 76 77 82 49 44 45 50 45 40 67 72 león 71 87 39 55 35 77 osos 20 32 24 18 14 16 centro perros gatos 16 19 36 32 20 23 22 18 10 13 20 16 león 24 29 28 15 18 13 osos 46 28 60 22 28 40 Atrás Perros gatos 51 56 24 20 65 68 18 16 33 34 36 36 Con un nivel de significancia de .01 pruebe las siguientes hipótesis: Las ventas en las diferentes ubicaciones del pasillo son diferentes Las ventas de las diferentes figuras de animales son diferentes Las ventas son diferentes debido a la interacción de las dos variables. león 56 21 66 19 30 41 UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA CONTENIDO DIDÁCTICO DEL CURSO: 100403 –INFERENCIA ESTADISTICA 77 10. El departamento de nutrición de cierta universidad lleva a cabo un estudio para determinar si hay diferencia o no en el contenido de ácido ascórbico entre tres diferentes marcas de concentrado de jugo de naranja. Se hacen cuatro pruebas de los tres tipos de concentrado de jugo de naranja que fue congelado durante tres periodos de tiempo diferentes (en días). Los resultados, en miligramos de ácido ascórbico por litro, son los siguientes: MARCA 0 RICA BUENA BARATA 52.6 49.8 56.0 49.6 52.5 51.8 54.2 46.5 48.0 48.4 52.0 53.6 TIEMPO ( DÍAS ) 3 49.4 49.2 42.8 53.2 48.8 44.0 44.0 42.4 48.0 47.0 48.2 49.6 7 42.7 40.4 49.2 42.0 48.5 45.2 48.8 47.6 44.0 43.2 43.3 47.6 Utilice un nivel de significancia de .05 para probar la hipótesis de que: Los contenidos de ácido ascórbico por marca de jugo son diferentes Los contenidos de ácido ascórbico por tiempo de congelamiento son diferentes Los contenidos de ácido ascórbico son diferentes debido a la interacción de las dos variables. 11. Se estudia el comportamiento de tres camadas de ratas bajo dos condiciones ambientales en una prueba de laberinto. Las calificaciones de error para las 48 ratas se registran a continuación: Camada Brillante Mezclada Lenta Ambiente 28 12 36 83 101 94 Libre 22 25 23 10 33 41 14 76 33 122 56 83 36 86 22 58 35 23 72 48 60 89 136 120 Restringido 25 32 91 31 35 83 126 110 38 64 153 128 93 19 99 118 87 140 Utilice un nivel de significancia de .05 para probar la hipótesis de que: Las calificaciones de error para las camadas son diferentes Las calificaciones de error para los ambientes son diferentes Las calificaciones de error son diferentes debido a la interacción de las dos variables 12. Considere la combinación de dos factores en la eliminación de mugre en cargas estándar de lavandería. El primer factor es la marca del detergente, X, Y o UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA CONTENIDO DIDÁCTICO DEL CURSO: 100403 –INFERENCIA ESTADISTICA 78 Z. El segundo factor es la temperatura del agua, caliente o tibia. El experimento se replica seis veces. La respuesta es el porcentaje de eliminación de mugre. Los datos son los siguientes: Marca X Y Z Temperatura 85 78 90 92 85 87 Caliente 88 75 78 92 60 88 80 72 76 76 70 68 82 75 86 88 76 55 Caliente 83 75 88 76 74 57 85 73 76 77 78 54 Utilice un nivel de significancia de .05 para probar la hipótesis de que: Los porcentajes de eliminación de mugre son diferentes dependiendo del detergente. Los porcentajes de eliminación de mugre son diferentes dependiendo de la temperatura. Los porcentajes de eliminación de mugre son diferentes debido a la interacción de las dos variables. 13. Los puntajes obtenidos en una prueba de rendimiento motor hecha a dos grupos de estudiantes que participan en deportes universitarios, el primer grupo está formado por estudiantes que practicaron deporte en la preparatoria, mientras que el segundo está formado por estudiantes que no practicaron deporte en la preparatoria. Los puntajes obtenidos por ambos grupos son los siguientes: GRUPO 1 GIMNASIA FUTBOL 55 56 59 40 63 59 58 70 50 52 52 43 69 28 77 37 60 51 GRUPO 2 FUTBOL GIMNASIA 55 58 86 48 56 58 65 54 32 51 55 42 79 45 45 32 Utilice un nivel de significancia de .01 para probar la hipótesis de que: El rendimiento motor es diferente dependiendo del grupo El rendimiento motor es diferente dependiendo del deporte El rendimiento motor es diferente debido a la interacción de las dos variables. 14. La asociación de egresados de la escuela “Mao Meno”, sospecha que sus miembros reciben en promedio un sueldo inferior al ingreso de los egresados de la escuela “Much A. Money”. Para comprobarlo se obtuvieron muestras de UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA CONTENIDO DIDÁCTICO DEL CURSO: 100403 –INFERENCIA ESTADISTICA 79 egresados de ambas escuelas. La información que se obtuvo fue la siguiente: (en miles de pesos) MAO MENO CRIMINOLOGÍA PSICOLOGÍA 5.0 3.2 5.5 3.5 4.5 4.5 3.5 8.2 7.5 6.6 MUCH A. MONEY PSICOLOGÍA CRIMINOLOGÍA 7.5 5.5 5.5 3.5 4.5 9.5 8.5 3.4 6.8 3.2 Utilice un nivel de significancia de .01 para probar la hipótesis de que: El ingreso es diferente dependiendo de la escuela El ingreso es diferente dependiendo de la carrera El ingreso es diferente debido a la interacción de las dos variables. 15. En una secundaria se formaron al azar dos grupos de estudiantes, formados por alumnos de todos los grados. En un grupo se utilizó un nuevo método de enseñanza. En el otro se utilizaron los métodos tradicionales. Las calificaciones al final del curso fueron las siguientes: MÉTODO TRADICIONAL PRIMERO SEGUNDO TERCERO 8 9 8.5 6.5 10 10 7 8 9 8 7 8.5 6 7.5 8 8 8 8 MÉTODO NUEVO PRIMERO SEGUNDO TERCERO 7.5 8 8 8.5 7 10 7.5 5 10 8 8 9 9 7 8.5 7.5 9 9 Utilice un nivel de significancia de .025 para probar la hipótesis de que: Las calificaciones son diferentes dependiendo del método Las calificaciones son diferentes dependiendo del grado Las calificaciones son diferentes debido a la interacción de las dos variable UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA CONTENIDO DIDÁCTICO DEL CURSO: 100403 –INFERENCIA ESTADISTICA 80 CAPITULO SEIS: PRUEBAS NO PARAMETRICAS Introducción Uno de los problemas más difíciles para el principiante y para el investigador experimentado, es decidir cuál de las pruebas estadísticas es la más adecuada para analizar un conjunto de datos. La aplicación de la estadística en el análisis de datos es muy amplia y las áreas en las que se aplica son diversas, desde las ciencias exactas hasta las ciencias sociales. La selección de la prueba estadística necesaria para el caso, depende de varios factores, en primer lugar se debe saber cuál es la escala con la que se están midiendo los datos que se analizarán, pues no se puede aplicar la misma prueba estadística para el caso en que la variable de interés sea el peso de un producto que cuando lo es la profesión del usuario de un producto. Queremos introducir en este parte la noción de pruebas no paramétricas como aquellas que no presuponen una distribución de probabilidad para los datos, por ello se conocen también como de distribución libre. En la mayor parte de ellas los resultados estadísticos se derivan únicamente a partir de procedimientos de ordenación y recuento, por lo que su base lógica es de fácil comprensión. Cuando trabajamos con muestras pequeñas (n < 10) en las que se desconoce si es válido suponer la normalidad de los datos, conviene utilizar pruebas no paramétricas, al menos para corroborar los resultados obtenidos a partir de la utilización de la teoría basada en la normal. En estas técnicas, solamente se necesitan conocimientos elementales de matemáticas, pues los métodos son relativamente más sencillos que en las pruebas paramétricas. En estas pruebas, también se tienen supuestos, pero son pocos y no tienen que ver con la naturaleza de la distribución de la población, por lo que a estas técnicas también se les conoce como de libre distribución. En general el único supuesto que se debe cumplir en la mayoría de las pruebas no paramétricas para confiar en ellas, es que la muestra haya sido seleccionada en forma probabilística. Las pruebas que se mencionarán son las que se podrían necesitar con mayor frecuencia, se mencionarán sus principales características y aplicaciones. UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA CONTENIDO DIDÁCTICO DEL CURSO: 100403 –INFERENCIA ESTADISTICA 81 Objetivo general. Contrastar la validez de hipótesis o conjetura sobre la relación entre variables y sobre las distribuciones de probabilidad teórica que adoptan dichas variables, sin sujetarse a los condicionamientos de la validez de supuestos paramétricos. Objetivos específicos. Examinar que se entiende por hipótesis y por prueba de hipótesis No paramétricas. Realizar pruebas No paramétricas para una variable y para datos pareados Realizar pruebas sobre la bondad de ajustes de variables a distribuciones de probabilidad teórica de carácter cuantitativas. Realizar pruebas de hipótesis para datos que se encuentran en una escala nominal u ordinal con aplicación de la distribución chi- cuadrado. Realizar pruebas sobre la relación entre dos y más variables poblacionales. UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA CONTENIDO DIDÁCTICO DEL CURSO: 100403 –INFERENCIA ESTADISTICA 82 Generalidades Las pruebas de hipótesis hacen inferencias respecto a los parámetros de la población, como la media. Estas pruebas paramétricas utilizan la estadística paramétrica de muestras que provinieron de la población que se está probando. Para formular estas pruebas, se hace suposiciones restrictivas sobre las poblaciones de las que se extraen las muestras. Por ejemplo: se suponía que las muestras eran grandes o que provenían de poblaciones normalmente distribuidas. Pero las poblaciones no siempre son normales. Los estadísticos han desarrollado técnicas útiles que no hacen suposiciones restrictivas respecto a la forma de las distribuciones de las poblaciones. Éstas se conocen como pruebas sin distribución, o pruebas no paramétricas. Las hipótesis de una probabilidad no paramétrica se refieren a algo distinto del valor de un parámetro de población Pruebas no paramétricas son procedimientos estadísticos que pueden utilizarse para contrastar hipótesis cuando no son posibles lo supuestos respecto a los parámetros o a las distribuciones poblacionales. Ventajas de los métodos no paramétricos. 1. No requieren que hagamos la suposición de que una población está distribuida en forma de curva normal u otra forma específica. 2. Generalmente, son más fáciles de efectuar y comprender. 3. Algunas veces, ni siquiera se requiere el ordenamiento o clasificación formal. Desventajas de los métodos no paramétricos. 1. Ignoran una cierta cantidad de información 2. A menudo, no son tan eficientes como las pruebas paramétricas. Cuando usamos pruebas no paramétricas, efectuamos un trueque: perdemos agudeza al estimar intervalos, pero ganamos la habilidad de usar menos información y calcular más rápidamente. UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA CONTENIDO DIDÁCTICO DEL CURSO: 100403 –INFERENCIA ESTADISTICA 83 Prueba de Bondad de Ajuste de Ji-cuadrado La pruebas de Bondad de Ajuste ji-cuadrado ( ) tiene como objetivo verificar si los datos de una muestra se asocian a una distribución teórica, para variables cuantitativas discretas y continuas. A continuación se establece la prueba χ 2 para bondad de ajuste. Supóngase que al realizar un experimento aleatorio n veces, se presentan los resultados con frecuencias observadas y de acuerdo con las leyes de las probabilidades, se espera que estos resultados se presenten con frecuencias . Una medida de las diferencias entre las frecuencias observadas y las esperadas está dada por el estadístico 2 definido por: ∑ ( − ) Ecuación No.24 = Frecuencias Observadas = Frecuencias Esperadas K= Número de observaciones Si las frecuencias observadas coinciden o se aproximan mucho a las esperadas, el valor estadístico tiende a cero. Por el contrario, si las frecuencias observadas difieren significativamente de las esperadas, el valor del estadístico será positivo y tan grande cuantos mayores sean las diferencias entre las frecuencias. Bajo estas condiciones se tiene que la región de rechazo es sólo la región derecha (cola derecha o unilateral superior), cuando la hipótesis son las siguientes: : Los datos provienen de una muestra al azar de una población distribuida de acuerdo a un modelo teórico. : Los datos no provienen de una población distribuida de acuerdo al modelo teórico. En una prueba de hipótesis usando Ji-cuadrado las frecuencias esperadas se calculan suponiendo que La hipótesis nula es cierta UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA CONTENIDO DIDÁCTICO DEL CURSO: 100403 –INFERENCIA ESTADISTICA 84 El estadístico de prueba se puede expresar, para fines de cálculo, como: ∑ ( − ) ∑ − Ecuación No.25 Con k – r grados de libertad. k: es el número de eventos o categorías r : es el número de restricciones (r ≥ 1 es siempre es una restricción, ya que ∑ ∑ , y cada parámetro que se estima con la información de la muestra es otra restricción más). En ocasiones, las frecuencias esperadas dan resultados menores que 1, y los investigadores frecuentemente hacen notar en la literatura que el estadístico no se distribuye como si las frecuencias esperadas son pequeñas. Por lo tanto ≥ 1 Si, en la práctica resultaran una o varias < 1 se juntan las categorías. El estadístico teórico es el valor de la Ji-cuadrado con k-r grados de libertad al nivel de significancia dado. El estadígrafo de prueba Ji cuadrado fue propuesto en 1900 por Karl Pearson, como una función de los cuadrados de las desviaciones entre las frecuencias observadas y sus respectivos valores esperados, ponderados por el recíproco de sus valores esperados. La demostración matemática está fuera del alcance de este curso, basta saber que se puede demostrar que el estadígrafo Ji cuadrado, en el muestreo repetitivo sigue una distribución que se puede aproximar con una distribución de probabilidad de la variable aleatoria Ji cuadrado, para n grande (n ≥ 50) y si las frecuencias esperadas para las k categorías son iguales o mayores a 5. UNCUYO (s.f.) Esta prueba de hipótesis utiliza un procedimiento de cinco pasos, los cuales se presentan a continuación: Plantear las hipótesis nula y alternativa. Determinar el nivel de significancia. Estimar el valor estadístico de prueba. Establecer la regla de decisión. Tomar la decisión. UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA CONTENIDO DIDÁCTICO DEL CURSO: 100403 –INFERENCIA ESTADISTICA 85 Ejemplo. Distribución de Poisson El administrador de un hospital ha estado estudiando el número de urgencias que llega a un hospital por día y sospecha que estas se distribuyen según un modelo de Poisson. También ha determinado que el número medio de urgencias por día es de 3. Para determinar si efectivamente el número de urgencias por día que llegan al hospital siguen la distribución de Poisson, se tomó una muestra al azar de 90 días de los archivos del hospital. Los datos se resumen en la siguiente tabla. Tabla No. 23. Número de urgencias que llegan por día al hospital. Número de Número de días urgencias por día 0 1 2 3 4 5 6 7 8 9 10 o mas 5 14 15 23 16 9 3 3 1 1 0 90 ¿Apoyan estos datos la sospecha del administrador? Use = 0.05. Paso 1: Plantear la hipótesis nula y alternativa : Los datos se distribuyen según el modelo de Poisson. Los datos no están distribuidos según el modelo de Poisson. Paso 2: Determinar el nivel de significancia. . = 0.05. Paso 3: Estimar el estadístico de prueba. Cálculos con y la tabla de la distribución Poisson, determinamos las UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA CONTENIDO DIDÁCTICO DEL CURSO: 100403 –INFERENCIA ESTADISTICA 86 probabilidades de Poisson para x= 0, 1, 2,…., 9; y para ≥ 1 ; restamos de 1 la suma de las probabilidades anteriores. Para obtener las frecuencias esperadas multiplicamos las probabilidades por n=90. Véase en la tabla No.24. Podemos ver que < en las tres últimas categorías, por lo tanto debemos unirlas quedando 9 categorías, así k=10; r=1 ya que el valor de , fue dado. El valor calculado de la Ji-cuadrada es: ∑ −9 9 −9 Tabla No. 24 Frecuencias esperadas. 0 1 2 3 4 5 6 7 8 9 10 o mas 5 14 15 23 16 9 3 3 1 1 0 90 ( ) 0,050 0,149 0,224 0,224 0,168 0,101 0,050 0,022 0,008 0,003 0,001 1,000 4,481 13,443 20,164 20,164 15,123 9,074 4,537 1,944 0,729 0,243 0,099 90 Paso 4: Establecer la Decisión Valor Critico: El valor de la ji-cuadrada teórica para 8 (k-r=9-1) grados de grados de libertad, a un nivel de significancia de 0.05 es 15.507 UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA CONTENIDO DIDÁCTICO DEL CURSO: 100403 –INFERENCIA ESTADISTICA 87 Paso 5: Toma de la Decisión Como el valor del estadístico de prueba no cae en la región de rechazo y es menor que el estadístico teórico concluimos, por tanto, que el número de urgencias que llegan por día al hospital sigue una distribución de Poisson con Prueba de Kolmogorov-Smirnov La única premisa que se necesita es que las mediciones se encuentren al menos en una escala de intervalo. Se necesita que la medición considerada sea básicamente continua. Además dicha prueba es aplicable cualquiera sea el tamaño de la muestra. La prueba Kolmogorov-Smirnov Compara las funciones de distribución teórica y empírica (sólo válido para variables continuas). Características de la prueba La prueba de K-S de una muestra es una hipótesis de bondad de ajuste. Esto es, se interesa en el grado de acuerdo entre la distribución de un conjunto de valores de la muestra y alguna distribución teórica específica. Determina si razonablemente puede pensarse que las mediciones muéstrales provengan de una población que tenga esa distribución teórica. En la prueba se compara la distribución de frecuencia acumulativa de la distribución teórica con la distribución de frecuencia acumulativa observada. Se determina el punto en el que estas dos distribuciones muestran la mayor divergencia. Se trata de un método no paramétrico sencillo para probar si existe una diferencia significativa entre una distribución de frecuencia observada y otra frecuencia teórica. Es otra medida de la bondad de ajuste de una distribución de frecuencia teórica. Se basa en la comparación de distribuciones acumuladas: la distribución acumulada de los datos observados y la distribución acumulada teórica correspondiente al modelo UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA CONTENIDO DIDÁCTICO DEL CURSO: 100403 –INFERENCIA ESTADISTICA 88 elegido. Hipótesis Ho: La distribución observada se ajusta a la distribución teórica. F(x) = Ft(x) para todo x. H1: La distribución observada no se ajusta a la distribución teórica. Ft(x): es la función teórica. Esta puede ser por ejemplo la función normal con cierta media y varianzas conocidas. Estadístico de prueba D = máxima Sn(x): es la función de distribución empírica. Tiene varias ventajas: es una prueba poderosa y fácil de utilizar, puesto que no requiere que los datos se agrupen de determinada manera. Es particularmente útil para juzgar qué tan cerca está la distribución de frecuencias observada de la distribución de frecuencias esperada, porque la distribución de probabilidad Dn depende del tamaño de muestra n, pero es independiente de la distribución de frecuencia esperada (Dn es una estadística de distribución libre). Para calcular la estadística K-S, simplemente se elige Dn (la desviación absoluta máxima entre las frecuencias observadas y teóricas). Una prueba K-S siempre debe ser una prueba de un extremo. Luego se busca el valor crítico en la tabla, para las n observaciones, considerando el nivel de significancia adoptado. Si el valor de la tabla es mayor que el valor de Dn, entonces aceptaremos la hipótesis nula. SUGERENCIAS: La prueba de Kolmogorov puede usarse con muestras muy pequeñas, en donde no se pueden aplicar otras pruebas paramétricas. Podemos usar la prueba de Kolmogorov para verificar la suposición de normalidad subyacente en todo análisis de inferencia. Si bien constituye una prueba de implementación sencilla, tenga en cuenta que carga con las desventajas de los métodos no paramétricos en general, en el sentido de producir resultados menos precisos que los procedimientos convencionales. UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA CONTENIDO DIDÁCTICO DEL CURSO: 100403 –INFERENCIA ESTADISTICA 89 Cuando trabaje con muestras pequeñas, recuerde usar la frecuencia cumulada experimental. Prueba de Wilcoxon 29.1. Wilcoxon de los rangos con signo Esta prueba nos permite comparar nuestros datos con una mediana teórica. Llamemos M0 a la mediana frente a la que vamos a contrastar nuestros datos, y sea X1, X2 .. Xn los valores observados. Se calcula las diferencias X1-M0, X2-M0, ..., Xn-M0. Si la hipótesis nula fuera cierta estas diferencias se distribuirían de forma simétrica en torno a cero. Para efectuar esta prueba se calculan las diferencias en valor absoluto |Xi-M0| y se ordenan de menor a mayor, asignándoles su rango (número de orden). Si hubiera dos o más diferencias con igual valor (empates), se les asigna el rango medio (es decir que si tenemos un empate en las posiciones 2 y 3 se les asigna el valor 2.5 a ambas). Ahora calculamos R+ la suma de todos los rangos de las diferencias positivas, aquellas en las que Xi es mayor que M0 y R- la suma de todos los rangos correspondientes a las diferencias negativas. Si la hipótesis nula es cierta, ambos estadísticos deberán ser parecidos, mientras que si nuestros datos tienen a ser más altos que la mediana M0, se reflejará en un valor mayor de R+, y al contrario si son más bajos. Se trata de contrastar si la menor de las sumas de rangos es excesivamente pequeña para ser atribuida al azar, o, lo que es equivalente, si la mayor de las dos sumas de rangos es excesivamente grande. 29.2. Wilcoxon para contrastar datos pareados El mismo razonamiento lo podemos aplicar cuando tenemos una muestra de parejas de valores, por ejemplo antes y después del tratamiento, que podemos denominar (X1,Y1), (X2,Y2), ... ,(Xn,Yn). De la misma forma, ahora calcularemos las diferencias X1-Y1, X2-Y2, ... , Xn-Yn y las ordenaremos en valor absoluto, asignándoles el rango correspondiente. Calculamos R+ la suma de rangos positivos (cuando Xi es mayor que Yi), y la suma de rangos negativos R-. Ahora la hipótesis nula es que esas diferencias proceden de una distribución simétrica en torno a cero y si fuera cierta los valores de R+ y R- serán parecidos. UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA CONTENIDO DIDÁCTICO DEL CURSO: 100403 –INFERENCIA ESTADISTICA 90 Prueba de Mann-Whitney para muestras independiente y prueba de Kruskal-Wallis para comparar k muestras independientes 30.1. Prueba de Mann-Whitney para muestras independientes La prueba de Mann-Whitney puede utilizarse para probar la hipótesis nula de que las medianas de dos poblaciones son iguales. Se supone que las dos poblaciones tienen la misma forma y dispersión, porque tales diferencias también podrían conducir al rechazo de la hipótesis nula. Es necesario que los valores de las dos muestras aleatorias independientes estén al menos en la escala ordinal. Las dos muestras se combinan en un conjunto ordenado, en el que cada valor muestral se identifica según el grupo muestral original. Los valores se clasifican entonces de menor a mayor, asignando el rango 1 al menor valor muestral observado. En caso de valores iguales, se les asigna el rango medio. Si la hipótesis nula es cierta, el promedio de los rangos de cada grupo muestral debería ser aproximadamente igual. 30.2. Prueba de Kruskal-Wallis para comparar k muestras independientes (o Prueba H de suma de rangos) Cuando se tiene interés o necesidad de probar una hipótesis nula en la que se afirma que k tratamientos son iguales o que k muestras aleatorias independientes provienen de poblaciones idénticas, siendo k > 2, la prueba estadística que se realizaría dentro de la estadística paramétrica sería el análisis de varianza de un sentido y para la prueba se utilizaría la distribución F; sin embargo, cuando la escala es ordinal o se desconfía del supuesto de que las muestras provienen de poblaciones con forma de distribución normal, se puede utilizar esta prueba para muestras independientes. La hipótesis alternativa sería que al menos dos poblaciones tienen una distribución diferente. La prueba de Kruskal-Wallis sirve para probar la hipótesis nula de que varias poblaciones tienen las mismas medianas. Así, es el equivalente no paramétrico del diseño completamente aleatorizado de un factor de análisis de varianza. Se supone que las diversas poblaciones tienen la misma forma y dispersión para que la hipótesis anterior sea aplicable, ya que diferencias en forma o dispersión podrían también conducir al rechazo de la hipótesis nula. Es necesario que los valores de las diversas muestras aleatorias independientes estén al menos en la escala ordinal. Las varias muestras son vistas primeramente como un conjunto de valores, y cada UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA CONTENIDO DIDÁCTICO DEL CURSO: 100403 –INFERENCIA ESTADISTICA 91 valor de este grupo combinado se clasifica de menor a mayor. En caso de valores iguales, se les asigna el rango medio. Si la hipótesis nula es cierta, el promedio de los rangos de cada grupo muestral debería ser más o menos igual. UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA CONTENIDO DIDÁCTICO DEL CURSO: 100403 –INFERENCIA ESTADISTICA 92 Ejercicios propuestos 1. Cinco antiguos pacientes son seleccionados aleatoriamente del ala A de un hospital y cuatro pacientes son seccionados del ala B. Los pacientes estuvieron los siguientes números de días: Ala A Ala B 13 10 4 9 2 7 10 8 6 Se debe efectuar una prueba U de Mann-Whitney para determinar si existe diferencia significativa entre la duración de las estancias en el hospital para las dos alas. ¿Cuál es la clasificación para la estancia de 13 días en el Ala A? R/ta: 9 días 2. Elija la muestra con la mayor suma de rangos si los elementos son clasificados de mayor a menor: Muestra A: 1 Muestra B: 5 Muestra C: 9 3 1 4 9 8 2 R/ta: 16 3. En una partida de Rol se lanza 200 veces un dado de cuatro caras obteniéndose 60 veces el número 1, 45 veces el número 2, 38 veces el número 3 y 57 veces el número 4. Se puede aceptar, a un nivel de confianza del 95%, que estos resultados corresponden a un dado homogéneo. R/ta: Se acepta de la hipótesis que los resultados corresponden a un dado homogéneo 4. En una encuesta preelectoral realizada a 500 personas se obtuvo la siguiente distribución en función de sus edades y de su intención de voto: Partido A B C D Edad 18 – 35 10 15 45 30 35 – 50 40 70 60 30 50 o más 60 90 35 15 UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA CONTENIDO DIDÁCTICO DEL CURSO: 100403 –INFERENCIA ESTADISTICA 93 A un nivel de confianza del 90% ¿Puede afirmarse que la intención de voto es independiente de la edad? R/ta: Se rechaza la hipótesis de independencia de las variables 5. Los tiempos de respuesta de 9 sujetos en una tarea de reconocimiento de palabras, previamente presentadas, han sido los siguientes: 115, 98, 123, 109, 112, 87, 118, 104, 116 A un nivel de confianza del 95% ¿Son compatibles estos resultados con la hipótesis de que el tiempo de reacción en esta tarea sigue una distribución Normal de media 110 y desviación típica 10? R/ta: Se acepta la hipótesis de normalidad de la variable. Autoevaluación 1. Los miembros de un equipo ciclista se dividen al azar en tres grupos que entrenan con métodos diferentes. El primer grupo realiza largos recorridos a ritmo pausado, el segundo grupo realiza series cortas de alta intensidad y el tercero trabaja en el gimnasio con pesas y se ejercita en el pedaleo de alta frecuencia. Después de un mes de entrenamiento se realiza un test de rendimiento consistente en un recorrido cronometrado de 9 Km. Los tiempos empleados fueron los siguientes: Método I 15 16 14 15 17 Método II Método III 14 13 15 16 14 13 12 11 14 11 A un nivel de confianza del 95% ¿Puede considerarse que los tres métodos producen resultados equivalentes? O por el contrario ¿Hay algún método superior a los demás? Solución: E estadístico de contraste vale: F = 13,4/ 1,43 = 9,37 El valor de la F teórica con 2 y 12 grados de libertad, a un nivel de confianza del 95% es 3,89. Por consiguiente se rechaza la hipótesis nula y se concluye UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA CONTENIDO DIDÁCTICO DEL CURSO: 100403 –INFERENCIA ESTADISTICA 94 que los tres métodos de entrenamiento producen diferencias significativas. (Tomado de problemas de análisis de datos Tema 14 Análisis de varianzas: José María Salinas) Test No Parámetro 2. En una partida de Rol se lanza 200 veces un dado de cuatro caras obteniéndose 60 veces el número 1, 45 veces el número 2, 38 veces el número 3 y 57 veces el número 4. Se puede aceptar, a un nivel de confianza del 95%, que estos resultados corresponden a un dado homogéneo. Solución: Paso 1: La hipótesis nula será que el dado es homogéneo, esto implica que la distribución de los números es uniforme, es decir que los cuatro números tienen una probabilidad de aparecer de 0,25. Paso 2: La hipótesis alternativa será que la distribución no es uniforme. Paso 3: Como la variable es discreta utilizaremos el test Ji-cuadrado de bondad de ajuste a una distribución. Paso 4: En la tabla siguiente se han realizado todos los cálculos necesarios, obteniéndose el valor 4,36 para el estadístico de contraste. xi np i)2/np i 1 2 3 4 200 ni pi Np i ni-np i (ni-np i)2 60 45 38 57 0,25 0,25 0,25 0,25 50 50 50 50 10 -5 -12 7 100 25 144 49 (ni2 0,5 2,88 0,98 4,36 Paso 5: Como el estadístico tenía 4 sumandos, buscamos en las tablas de la Ji- cuadrado con 3 grados de libertad el valor que deja por debajo una probabilidad de 0,95 y obtenemos que el valor crítico es 7,81. Como el valor del estadístico es inferior al valor crítico, aceptamos la hipótesis nula. Estos resultados son compatibles con el hecho de que el dado sea homogéneo. 3. En una encuesta preelectoral realizada a 500 personas se obtuvo la siguiente distribución en función de sus edades y de su intención de voto: UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA CONTENIDO DIDÁCTICO DEL CURSO: 100403 –INFERENCIA ESTADISTICA Partido A B C D 18 - 35 10 15 45 30 35 - 50 40 70 60 30 50 o más 60 90 35 15 A un nivel de confianza del 90% ¿Puede afirmarse que la intención de voto es independiente de la edad? Solución: 1º La hipótesis nula es que las dos variables son independientes. 2º La hipótesis alternativa es que hay relación entre ambas variables. 3º Se trata de un contraste de independencia entre dos variables, por consiguiente el estadístico de contraste a utilizar es el estadístico Jicuadrado para tablas de contingencia. 4º Las tablas siguientes presentan los cálculos del estadístico: Edad Partido 18 – 35 35 – 50 50 o más 40 60 A B C 10 15 70 90 D 45 60 35 30 30 15 100 200 200 110 175 140 75 500 A partir de las frecuencias marginales de la tabla anterior, se obtienen las frecuencias esperadas que aparecen a continuación: Edad Partido 18 – 35 A 22 B 35 C 28 D 15 35 – 50 44 70 56 30 50 o más 44 70 56 30 Por consiguiente las discrepancias entre frecuencias empíricas y frecuencias esperadas son: 95 UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA CONTENIDO DIDÁCTICO DEL CURSO: 100403 –INFERENCIA ESTADISTICA Los cuadrados de las discrepancias son: Partido A B C D Edad 18 – 35 35 – 50 144 16 400 0 289 16 225 0 50 o más 256 400 441 225 Dividiendo por las frecuencias esperadas se obtiene: Edad Partido 18 – 35 35 – 50 50 o más A 6,55 0,36 5,82 B C 11,43 0 5,71 10,32 0,29 7,88 D 15 0 7,5 43,30 0,65 26,91 70,86 Sumando, se obtiene el valor del estadístico 70,86. 5º Como la edad presenta tres intervalos y los partidos son cuatro, el estadístico tendrá (3 - 1)·(4 -1 ) = 6. Buscamos en las tablas de la distribución Ji-cuadrado con 6 grados de libertad el valor de la variable que deja por debajo una probabilidad de 0,9 encontramos que el valor crítico es 10,64. 6º Como el valor del estadístico es mayor que el valor crítico rechazamos la hipótesis nula de que ambas variables son independientes. 7º La edad cambia la intención de voto. 96 UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA CONTENIDO DIDÁCTICO DEL CURSO: 100403 –INFERENCIA ESTADISTICA 97 4. Los tiempos de respuesta de 9 sujetos en una tarea de reconocimiento de palabras, previamente presentadas, han sido los siguientes: 115, 98, 123, 109, 112, 87, 118, 104, 116 A un nivel de confianza del 95% ¿Son compatibles estos resultados con la hipótesis de que el tiempo de reacción en esta tarea sigue una distribución Normal de media 110 y desviación típica 10? Solución: 1º La hipótesis nula es que los datos proceden de una Normal (110, 10). 2º La hipótesis alternativa es que no siguen esa distribución Normal. 3º Como la variable es continua, y la hipótesis nula específica totalmente la distribución utilizaremos el test de Kolmogoroff-Smirnoff, cuyo estadístico de contraste es: max | Fn (xi ) - Mn(xi) | 4º los cálculos del estadístico se especifican en la siguiente tabla: xi zi 87 -2,3 Fn 0,0107 Mn 0,1111 |Fn -Mn | 0,1004 98 -1,2 0,1151 0,2222 0,1071 104 -0,6 0,2743 0,3333 0,059 109 -0,1 0,4602 0,4444 0,0158 112 0,2 0,5793 0,5556 0,0237 115 0,5 0,6915 0,6667 0,0248 116 0,6 0,7257 0,7778 0,0521 118 0,8 0,7881 0,8889 0,1008 123 1,3 0,9032 1 0,0968 5º Buscando en las tablas del test Kolmogoroff-Smirnoff para n = 9 el valor crítico para un nivel de confianza del 95% se obtiene 0,43001. 6º Como el valor del estadístico 0,1071 es menor que el valor crítico se acepta la hipótesis nula. 7º A un nivel de confianza del 95% no hay evidencia en contra de que el tiempo de reacción siga una distribución N(110, 10). (Tomado de problemas de análisis de datos Tema 14 Análisis de varianzas: José María Salinas) UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA CONTENIDO DIDÁCTICO DEL CURSO: 100403 –INFERENCIA ESTADISTICA 98 REFERENTES Alvarado, J. A., Obagi, J.J. (2008). Fundamentos de Inferencia Estadística. Pontificia Universidad Javeriana. Bogotá. D.C. Colombia. Extraído el 18 de octubre de 2012 de http://books.google.com.co/books?id=3uhUqvF0_84C&printsec=frontcover& dq=inferencia&source=bl&ots=DC7Ajfx6Os&sig=pOn4JMXwSC0qd0FmDBl poMGQLkg&hl=es&sa=X&ei=_2qAUKmEJaqG0QHT6YGwBw&ved=0CD0Q 6AEwAw Juárez, F., Villatoro, J. A. y López, E. K. (2002). Apuntes de Estadística Inferencial. México, D. F.: Instituto Nacional de Psiquiatría Ramón de la Fuente. Extraído el 10 de enero de 2012 de: http://rincondepaco.com.mx/Apuntes/Inferencial.pdf Mayorga, J. (2004). Inferencia Estadística. Universidad Nacional de Colombia. Bogotá. D. C. Colombia. Extraído el 18 de octubre de 2012 de http://books.google.com.co/books?id=bmCV6r_pQQUC&printsec=frontcover &dq=inferencia&source=bl&ots=KM2dtf_GYn&sig=vFmWR0tlvVlMGVrNUK n9MKRlr_I&hl=es&sa=X&ei=G2mAUK6qLIeo8gTa_oCwAw&redir_esc=y#v= onepage&q=prueba%20de%20hip%C3%B3tesis&f=false Universidad de UNCUYO. Inferencia Estadística. Facultad de Ciencias Agropecuarias. Argentina. En línea en: http://campus.fca.uncu.edu.ar:8010/pluginfile.php/17879/mod_resource/cont ent/1/Tema%2012-JI%20CUADRADO2013.pdf Web del Instituto Tecnológica De Chihuahua curso Estadística 1 ITC (s. f). Extraído el 18 de octubre de 2012 de: http://www.itch.edu.mx/academic/industrial/estadistica1/cap02.html.