Metodología para la solución de problemas sobre pruebas de hipótesis Básicamente existen dos grupos para la prueba de hipótesis: para muestras grandes y muestras pequeñas y a la vez cada tipo de muestra puede tener 3 tipos de prueba de significancia (cola superior, inferior y de 2 colas). Prueba de cola superior > Muestras grandes n es mayor de 30 Prueba de cola inferior < Prueba de dos colas ≠ Prueba de hipótesis Prueba de cola superior > Muestras pequeñas n es menor de 30 Prueba de cola inferior < Prueba de dos colas ≠ En todos los casos se utilizará la distribución normal (tabla z) solamente se utilizará la distribución t (tabla t) cuando la muestra sea pequeña y se desconozca la desviación estándar poblacional. Las distribuciones que se analizarán son: Distribución muestral para las medias y distribución muestral para la proporción. En sí, lo que cambiará de una a otra es en cálculo del error estándar. Los pasos para la solución suelen variar con cada autor, los siguientes son los que se tomarán para la solución de las actividades a realizar referentes al tema. Primer método de solución (utilizando escala estandarizada) 1. Interpretar correctamente hacia que distribución muestral se ajustan los datos del enunciado y verificar si la desviación estándar poblacional se conoce. Puede ser una distribución muestral para la medias o una distribución muestral para la proporción, La importancia es que esto nos define que fórmula escoger para el cálculo del error estándar que se utiliza en el paso 5: M. en I. Agustín Efraín Rodríguez Notario 1 2. Interpretar correctamente los datos del enunciado diferenciando los parámetros (provienen de la población) de los estadísticos (provienen de la muestra). Así mismo se debe determinar en este punto información implícita como el tipo de muestreo y si la población es finita o infinita. Las fómulas 6-1 y 7-4 son para poblaciones infinitas pero si la población es de tipo finita entonces hay que multiplcarlas por lo siguiente: En este paso ya podemos definir qué tipo de tabla usar, recuerde que si no se conoce la desviación estándar poblacional y el tamaño de muestra es menor que 30 se emplea la tabla t. Al no conocer la desviación estándar poblacional esta se puede estimar con la desviación estándar muestral o calcularla con los datos en el problema con la fórmula: 3. Establecer simultáneamente el ensayo de hipótesis y el planteamiento gráfico del problema. El ensayo de hipótesis está en función de parámetros ya que se quiere evaluar el universo de donde proviene la muestra. En este punto se determina el tipo de ensayo (unilateral o bilateral). El escoger la prueba adecuada depende mucho de lo que nos piden en el problema y es lo que se pretende evaluar acerca del parámetro, en pocas palabras es lo que se esta preguntando el investigador, si el parámetro M. en I. Agustín Efraín Rodríguez Notario 2 va en aumento o es mayor (cola superior), si el parámetro diminuye o es menor (cola inferior) o si solo cambio con respecto al valor original (dos colas). Recuerde dibujar simpre en este paso y colocar todos los datos disponibles, dividir la región de rechazo de la región de aceptación, esto depende del valor crítico que nos da de las tablas según el nivel de significancia del problema (alfa). Cuado se trata de una prueba de dos colas este valor de alfa hay que dividirlo entre dos. α = nivel de significancia Región de aceptación Región de rechazo Valor crítico (de la tabla de z o la tabla t) 4. Establecer la regla de decisión. Esta se puede establecer en función del valor crítico, el cual se obtiene dependiendo del valor de ∝ (Error tipo I o nivel de significancia) o en función del estadístico límite (valor en unidades reales, segundo método) de la distribución muestral. Cada una de las hipótesis deberá ser argumentada correctamente para tomar la decisión, la cual estará en función de la hipótesis nula o Ho Esta puede estar expresada según se utilice la región de aceptación o a la región de rechazo, ejemplo: α = 0.05 Región de aceptación Región de rechazo Zα = 1.645 M. en I. Agustín Efraín Rodríguez Notario 3 Regla de decisión en función de la región de aceptación: Si Zc < 1.645 no se rechaza H0 Regla de decisión en función de la región de rechazo: Si Zc > 1.645 se rechaza H0 Zc = es la que se obtiene en el paso 5 5. Cálculo. Empleando los datos del problema se obtiene Zc o tc dependiendo que tabla se use: La fórmula a usar dependiendo la tabla elegida es: 𝑧𝑐 = 𝑥̅ − 𝜇 𝜎 √𝑛 𝑡𝑐 = 𝑥̅ − 𝜇 𝑠 √𝑛 Si no les dan la desviación estándar poblacional entonces se puede estimar con la desviación estándar muestral. Es importante recordar que la parte de debajo de estas fórmulas representa el error estándar y dependiendo si es población finita o infinita, se ve afectado o no, por el multiplicador (ver paso 2) En el caso de las proporciones la formula sería: 𝑧𝑐 = 𝑝̅ − 𝑃 𝑝𝑞 𝑛 √ 6. Justificación y conclusión. El valor obtenido en el paso 5 se coloca en la gráfica del paso 3 y se observa en que región quedo. Ejemplo: suponga que se calculó Zc y nos dio 2.02 (ejemplo 1 de los problemas que copiaron en su libreta) 𝑧𝑐 = 𝑥̅ − 𝜇 71.8 − 70 = 2.02 𝜎 = 8.9 √𝑛 √100 α = 0.05 Región de rechazo Región de aceptación Zα = 1.645 Zc= 2.02 Como 2.02 >1.645 se rechaza H0 se confirma la regla de decisión del paso 4. M. en I. Agustín Efraín Rodríguez Notario 4 La conclusión se da en base a las unidades que se estén manejando y a lo que se esté analizando en el problema, se debe mencionar el nivel de significancia utilizado. En general la redacción de la conclusión es la siguiente: “Se concluye con un nivel de significancia de _______, (hipótesis aceptada)” Ejemplos: “Se concluye con un nivel de significancia del 0.05, la vida media hoy en día es mayor que 70 años” “Se concluye con un nivel de significancia del 0.04, la duración media de los focos no ha cambiado” “Se concluye con un nivel de significancia del 0.05, el peso promedio de las bolsas de palomitas es de 5.5 onzas” Segundo método de solución (en la escala de la variable original) Los pasos que cambian son: 4. Establecer la regla de decisión. En función del estadístico límite (valor en unidades reales) de la distribución muestral. Cada una de las hipótesis deberá ser argumentada correctamente para tomar la decisión, la cual estará en función de la hipótesis nula o Ho En vez de colocar el valor obtenido de la tabla (Zα) o tabla t (tα ) se calcula su valor real equivalente utilizando la fórmula: Puede ser (𝑧𝛼 ) ó (𝑡𝛼 ) a) Para media: 𝑣𝑎𝑙𝑜𝑟 𝑐𝑟í𝑡𝑖𝑐𝑜 = 𝜇 + (𝑧𝛼 )(𝜎) √𝑛 + para cola superior - para cola inferior ± para dos colas Solamente (𝑧𝛼 ) a) Para proporción: 𝑝𝑞 ) 𝑛 𝑣𝑎𝑙𝑜𝑟 𝑐𝑟í𝑡𝑖𝑐𝑜 = 𝑝 + (𝑧𝛼 ) (√ + para cola superior - para cola inferior ± para dos colas M. en I. Agustín Efraín Rodríguez Notario 5 Ejemplo: (tomado del ejemplo 1, el cual copiaron en su libreta) Datos: 𝜇 = 70 𝑎ñ𝑜𝑠 𝜎 = 8.9 𝑎ñ𝑜𝑠 𝑥̅ = 71.8 𝑎ñ𝑜𝑠 𝑛 = 100 𝑚𝑢𝑒𝑟𝑡𝑒𝑠 𝛼 = 0.05 𝑣𝑎𝑙𝑜𝑟 𝑐𝑟í𝑡𝑖𝑐𝑜 = 𝜇 + (𝑧𝛼 )(𝜎) 𝑣𝑎𝑙𝑜𝑟 𝑐𝑟í𝑡𝑖𝑐𝑜 = 70 + √𝑛 (1.645)(8.9) √100 = 71.46 𝑎ñ𝑜𝑠 α = 0.05 Región de aceptación Región de rechazo Zα = 1.645 equivale a escala real a 71.46 años Regla de decisión en función de la región de aceptación: ̅ < 71.46 años no se rechaza H0 Si 𝒙 Regla de decisión en función de la región de rechazo: ̅ > 71.46 años se rechaza H0 Si 𝒙 ̅ = es el estadístico muestral, dato del problema 𝒙 5. Cálculo. Comparación del valor crítico con el estadístico real Aquí ya no hay que calcular nada simplemente colocar en nuestra gráfica el dato del estadístico muestral que nos dieron como dato y se observa en que región quedo. α = 0.05 Región de aceptación M. en I. Agustín Efraín Rodríguez Notario Región de rechazo 71.46 años 71.8 años 6 6. Justificación y conclusión. Como la media de la muestral es de 71.8 años y es mayor al valor de la media muestral límite de 71.46 años por lo tanto se rechaza H0 y se llega a la misma conclusión. Tercer método de solución (Utilizando el valor p) 1. Interpretar correctamente hacia que distribución muestral se ajustan los datos del enunciado y verificar si la desviación estándar poblacional se conoce. 2. Interpretar correctamente los datos del enunciado diferenciando los parámetros (provienen de la población) de los estadísticos (provienen de la muestra). Así mismo se debe determinar en este punto información implícita como el tipo de muestreo y si la población es finita o infinita 3. Establecer simultáneamente el ensayo de hipótesis y el planteamiento gráfico del problema. El ensayo de hipótesis está en función de parámetros ya que se quiere evaluar el universo de donde proviene la muestra. En este punto se determina el tipo de ensayo (unilateral o bilateral). 4. La regla de decisión en este método es la siguiente y es igual para todos los problemas cuando se usa este método: 𝑆𝑖 𝑒𝑙 𝑣𝑎𝑙𝑜𝑟 𝑝 < 𝛼, 𝑠𝑒 𝑟𝑒𝑐ℎ𝑎𝑧𝑎 𝐻0 𝑆𝑖 𝑒𝑙 𝑣𝑎𝑙𝑜𝑟 𝑝 ≥ 𝛼, 𝑛𝑜 𝑠𝑒 𝑟𝑒𝑐ℎ𝑎𝑧𝑎 𝐻0 5. Cálculo. Empleando los datos del problema se obtiene Zc o tc dependiendo que tabla se use La fórmula a usar dependiendo la tabla elegida es: 𝑧𝑐 = 𝑥̅ − 𝜇 𝜎 √𝑛 𝑡𝑐 = 𝑥̅ − 𝜇 𝑠 √𝑛 Si no les dan la desviación estándar poblacional entonces se puede estimar con la desviación estándar muestral. Es importante recordar que la parte de debajo de estas fórmulas representa el error estándar y dependiendo si es población finita o infinita, se ve afectado o no, por el multiplicador (ver paso 2) M. en I. Agustín Efraín Rodríguez Notario 7 En el caso de las proporciones la formula sería: 𝑧𝑐 = 𝑝̅ − 𝑃 𝑝𝑞 𝑛 √ El valor obtenido se coloca en la gráfica del paso 3. Y se calcula el valor P de acuerdo a lo siguiente: Si la prueba es de cola superior entonces se busca el valor a la derecha de Zc o tc en la tabla de z o de t Valor P se obtiene de la tabla de z o t 𝑧𝑐 𝑜 𝑡𝑐 Si la prueba es de cola inferior entonces se busca el valor a la izquierda Zc o tc en la tabla de z o de t Valor P se obtiene de la tabla de z o t 𝑧𝑐 𝑜 𝑡𝑐 Si la prueba es de dos colas entonces se busca el valor ya sea a la derecha o izquierda de Zc o tc en la tabla de z o de t y se multiplica por 2 Valor P se obtiene de la tabla de z o t Valor P se obtiene de la tabla de z o t 𝑧𝑐 𝑜 𝑡𝑐 M. en I. Agustín Efraín Rodríguez Notario 8 En el caso de los ejemplos que copiaron en su libreta como primera actividad, los valores P son los siguientes: Ejemplo 1. 𝑥̅ − 𝜇 71.8 − 70 = = 2.02 𝜎 8.9 √𝑛 √100 Valor P = 0.0217 0.4785 𝑧𝑐 = 𝑧𝑐 = 2.02 𝑣𝑎𝑙𝑜𝑟 𝑝 = 0.50 − 0.4785 = 0.0217(𝑎𝑟𝑒𝑎 𝑎 𝑙𝑎 𝑑𝑒𝑟𝑒𝑐ℎ𝑎 𝑑𝑒𝑙 𝑣𝑎𝑙𝑜𝑟 𝑑𝑒 2.02) Ejemplo 2. 1 Valor P = 0.0505 1 2 Valor P = 0.0505 0.4495 𝑥̅ − 𝜇 788 − 800 𝑧𝑐 = 𝜎 = = −1.643 40 √𝑛 √30 2 𝑧𝑐 = +1.643 𝑧𝑐 = −1.643 𝑣𝑎𝑙𝑜𝑟 𝑝 = 2(0.50 − 0.4495) = 0.1010 (𝑎𝑟𝑒𝑎 𝑎 𝑙𝑎 𝑑𝑒𝑟𝑒𝑐ℎ𝑎 𝑑𝑒 + 1.64 𝑦 𝑎 𝑙𝑎 𝑖𝑧𝑞𝑢𝑖𝑒𝑟𝑑𝑎 𝑑𝑒𝑙 𝑣𝑎𝑙𝑜𝑟 𝑑𝑒 − 1.64) ó 𝑣𝑎𝑙𝑜𝑟 𝑝 = 0.0505 + 0505 = 0.1010 6. Justificación y conclusión. La regla de decisión en este método es la siguiente y es igual para todos los problemas: 𝑆𝑖 𝑒𝑙 𝑣𝑎𝑙𝑜𝑟 𝑝 < 𝛼, 𝑠𝑒 𝑟𝑒𝑐ℎ𝑎𝑧𝑎 𝐻0 𝑆𝑖 𝑒𝑙 𝑣𝑎𝑙𝑜𝑟 𝑝 ≥ 𝛼, 𝑛𝑜 𝑠𝑒 𝑟𝑒𝑐ℎ𝑎𝑧𝑎 𝐻0 Para el ejemplo 1 Para el 𝐸𝑙ejemplo 𝑣𝑎𝑙𝑜𝑟 𝑝1 = 0.0217 𝑦 𝑒𝑠 𝑚𝑒𝑛𝑜𝑟 𝑞𝑢𝑒 𝛼 = 0.05, Para el ejemplo 2 Para ejemplo 1 0.1010 𝑦 𝑒𝑠 𝑚𝑎𝑦𝑜𝑟 𝑞𝑢𝑒 𝛼 = 0.04, 𝐸𝑙el𝑣𝑎𝑙𝑜𝑟 𝑝= 𝑠𝑒 𝑟𝑒𝑐ℎ𝑎𝑧𝑎 𝐻0 𝑛𝑜 𝑠𝑒 𝑟𝑒𝑐ℎ𝑎𝑧𝑎 𝐻0 La conclusión es la misma en los ejemplos que copiaron en su libreta. NOTA: Para este último método solo consideraremos los problemas que utilicen la tabla z, esto porque con la tabla t no se pueden tener valores P exactos debido a que dicha tabla solo da unas cuantas probabilidades. Este método es el que utilizan la mayoría de los paquetes estadísticos de computadora. M. en I. Agustín Efraín Rodríguez Notario 9 Primer método de solución (utilizando escala estandarizada) Ejemplo 1. Una muestra aleatoria de 100 muertes registradas en Estados Unidos el año pasado muestra una vida promedio de 71.8 años. Suponga una desviación estándar poblacional de 8.9 años, ¿esto parece indicar que la vida media hoy en día es mayor que 70 años? Utilice un nivel de significancia de 0.05. Solución Paso 1 Se trata de una distribución muestral de medias con desviación estándar poblacional conocida. Paso 2. Datos: 𝜇 = 70 𝑎ñ𝑜𝑠 𝜎 = 8.9 𝑎ñ𝑜𝑠 𝑥̅ = 71.8 𝑎ñ𝑜𝑠 𝑛 = 100 𝑚𝑢𝑒𝑟𝑡𝑒𝑠 𝛼 = 0.05 Paso 3. Ensayo de hipótesis α = 0.05 𝐻0 : 𝜇 = 70 𝑎ñ𝑜𝑠 𝐻0 : 𝜇 > 70 𝑎ñ𝑜𝑠 Región de rechazo Región de aceptación 𝜇 = 70 Paso 4. Regla de decisión: 𝑧=0 Si Zc < 1.645 no se rechaza H0 Si Zc > 1.645 se rechaza H0 Zα = 1.645 Zc= 2.02 𝐶𝑜𝑛 𝛼 = 0.05 → 𝑧𝛼 = 1.645 Paso 5. Cálculos: 𝑧𝑐 = 𝑥̅ − 𝜇 71.8 − 70 = 2.02 𝜎 = 8.9 √𝑛 √100 Paso 6. Justificación y conclusión Como 2.02 >1.645 se rechaza H0 “Se concluye con un nivel de significancia del 0.05, la vida media hoy en día es mayor que 70 años” M. en I. Agustín Efraín Rodríguez Notario 10 Segundo método de solución (en la escala de la variable original) Ejemplo 1. Una muestra aleatoria de 100 muertes registradas en Estados Unidos el año pasado muestra una vida promedio de 71.8 años. Suponga una desviación estándar poblacional de 8.9 años, ¿esto parece indicar que la vida media hoy en día es mayor que 70 años? Utilice un nivel de significancia de 0.05. Solución Paso 1 Se trata de una distribución muestral de medias con desviación estándar poblacional conocida. Paso 2. Datos: 𝜇 = 70 𝑎ñ𝑜𝑠 𝜎 = 8.9 𝑎ñ𝑜𝑠 𝑥̅ = 71.8 𝑎ñ𝑜𝑠 𝑛 = 100 𝑚𝑢𝑒𝑟𝑡𝑒𝑠 𝛼 = 0.05 Paso 3. Ensayo de hipótesis α = 0.05 𝐻0 : 𝜇 = 70 𝑎ñ𝑜𝑠 Región de rechazo Región de aceptación 𝐻0 : 𝜇 > 70 𝑎ñ𝑜𝑠 𝜇 = 70 𝑎ñ𝑜𝑠 Paso 4. Regla de decisión: 71.46 años 71.8 años ̅ < 71.46 años no se rechaza H0 Si 𝒙 ̅ > 71.46 años se rechaza H0 Si 𝒙 Paso 5. Cálculos: 𝑣𝑎𝑙𝑜𝑟 𝑐𝑟í𝑡𝑖𝑐𝑜 = 𝜇 + 𝐶𝑜𝑛 𝛼 = 0.05 → 𝑧𝛼 = 1.645 (𝑧𝛼 )(𝜎) √𝑛 𝑣𝑎𝑙𝑜𝑟 𝑐𝑟í𝑡𝑖𝑐𝑜 = 70 + (1.645)(8.9) √100 = 71.46 𝑎ñ𝑜𝑠 Paso 6. Justificación y conclusión Como la media de la muestral es de 71.8 años y es mayor al valor de la media muestral límite de 71.46 años por lo tanto se rechaza H0 “Se concluye con un nivel de significancia del 0.05, la vida media hoy en día es mayor que 70 años” M. en I. Agustín Efraín Rodríguez Notario 11 Tercer método de solución (Utilizando el valor p) Ejemplo 1. Una muestra aleatoria de 100 muertes registradas en Estados Unidos el año pasado muestra una vida promedio de 71.8 años. Suponga una desviación estándar poblacional de 8.9 años, ¿esto parece indicar que la vida media hoy en día es mayor que 70 años? Utilice un nivel de significancia de 0.05. Solución Paso 1 Se trata de una distribución muestral de medias con desviación estándar poblacional conocida. Paso 2. Datos: 𝜇 = 70 𝑎ñ𝑜𝑠 𝜎 = 8.9 𝑎ñ𝑜𝑠 𝑥̅ = 71.8 𝑎ñ𝑜𝑠 𝑛 = 100 𝑚𝑢𝑒𝑟𝑡𝑒𝑠 𝛼 = 0.05 Paso 3. Ensayo de hipótesis 0.4785 Valor P = 0.0217 𝐻0 : 𝜇 = 70 𝑎ñ𝑜𝑠 𝐻0 : 𝜇 > 70 𝑎ñ𝑜𝑠 𝜇 = 70 𝑧𝑐 = 2.02 Paso 4. Regla de decisión: Paso 5. Cálculos: 𝑆𝑖 𝑒𝑙 𝑣𝑎𝑙𝑜𝑟 𝑝 < 𝛼, 𝑠𝑒 𝑟𝑒𝑐ℎ𝑎𝑧𝑎 𝐻0 𝑆𝑖 𝑒𝑙 𝑣𝑎𝑙𝑜𝑟 𝑝 ≥ 𝛼, 𝑛𝑜 𝑠𝑒 𝑟𝑒𝑐ℎ𝑎𝑧𝑎 𝐻0 𝑧𝑐 = 𝑥̅ − 𝜇 71.8 − 70 = 2.02 𝜎 = 8.9 √𝑛 √100 𝑣𝑎𝑙𝑜𝑟 𝑝 = 0.50 − 0.4785 = 0.0217(𝑎𝑟𝑒𝑎 𝑎 𝑙𝑎 𝑑𝑒𝑟𝑒𝑐ℎ𝑎 𝑑𝑒𝑙 𝑣𝑎𝑙𝑜𝑟 𝑑𝑒 2.02) Paso 6. Justificación y conclusión 𝐸𝑙 𝑣𝑎𝑙𝑜𝑟 𝑝 = 0.0217 𝑦 𝑒𝑠 𝑚𝑒𝑛𝑜𝑟 𝑞𝑢𝑒 𝛼 = 0.05, 𝑠𝑒 𝑟𝑒𝑐ℎ𝑎𝑧𝑎 𝐻0 “Se concluye con un nivel de significancia del 0.05, la vida media hoy en día es mayor que 70 años” M. en I. Agustín Efraín Rodríguez Notario 12