Capítulo III Pruebas de hipótesis medias, varianzas, proporciones Introducción Con mucha frecuencia el propósito de la investigación va más allá de describir el comportamiento de la variable en la muestra y debemos de generalizar o inferir los resultados obtenidos en la muestra a la población o universo. Los datos casi siempre son recolectados de una muestra y sus medidas importantes tales como la media muestral y la varianza muestral reciben el nombre de estadísticas. Por otro lado, las medidas representativas de la población, media poblacional y varianza poblacional, casi siempre desconocidos, reciben el nombre de parámetros. Un esquema puede ser el siguiente: X: variable estudiada INFERIR LOS RESULTADOS A LA POBLACION O UNIVERSO RECOLECCION DE DATOS EN LA MUESTRA PARAMETROS µ ESTADISTICAS X s 2 r [107] σ 2 ρ 105 El razonamiento de pruebas de hipótesis se emplea para responder preguntas como las siguientes: 1. 2. 3. 106 Años de experiencia han demostrado que en un examen de admisión a la Facultad de Educación de una universidad, los estudiantes obtienen en media 140 (sobre 240) puntos con desviación estándar de 10 puntos. En el examen de admisión2004, los postulantes a la Facultad de Educación han obtenido 160 puntos. Se puede afirmar que ¿estos estudiantes tuvieron un rendimiento significativamente por encima del promedio?. En los últimos años se ha observado que el coeficiente de correlación entre las notas del curso de inferencia estadística y del curso de metodología de la investigación de los estudiantes de Maestría en Educación de una universidad, es 0.65. ¿ La asociación observada es significativamente diferente de cero?. Un profesor del curso de matemáticas desea conocer la relación entre la creatividad y la ansiedad en alumnos de quinto y sexto año de secundaria. Al hacer la revisión bibliográfica encontró dos tendencias: una de las cuales se inclina a creer que el pensamiento creativo se relaciona inversamente con la ansiedad, y la otra, se inclina por la opinión que la creatividad no tiene nada que ver con la ansiedad. Por consiguiente, nuestro investigador todavía no ha tomado partido y trata de resolver sus dudas mediante un estudio empírico. Asimismo, ha encontrado que existen dos pruebas que miden con cierta validez ambas variables (creatividad y ansiedad) y que son: la prueba de Getzels y Jackson sobre el "Empleo de Objetos" y la prueba "Children's Manifest Anxiety Scale" de Castenada, Mc Candless y Palermo. El profesor sabe que son 20000 los alumnos de quinto y sexto de secundaria a quienes tendría que aplicar las pruebas de ansiedad y creatividad, pero sus recursos lo limitan a observar sólo 200. ¿ Si lleva a cabo su investigación en la muestra de estudiantes y obtiene el valor 0.87 para el coeficiente de correlación muestral entre las puntuaciones de ansiedad y creatividad, qué hará para llevar ese resultado a la población de 20000 estudiantes?. En este capítulo y en los siguientes responderemos preguntas como las planteadas mediante la metodología de pruebas de hipótesis, en relación con los siguientes parámetros básicos en una 2 población: µ (la media), (varianza), (proporción), y los siguientes parámetros básicos en dos poblaciones: µ1 − µ 2 (diferencia de medias), π 1 − π 2 (diferencia de proporciones), 1 / 2 (cocien- σ σ σ te de varianzas), (coeficiente de correlación). Se hacen pruebas de hipótesis para decidir, sobre la validez de una proposición o enunciado que se hace respecto a algún aspecto de una distribución de probabilidad, a partir de la información proporcionada por la muestra aleatoria. La decisión que se deba tomar se refiere a la veracidad o falsedad de una hipótesis. A continuación se presentan los conceptos fundamentales y la metodología para realizar una prueba de hipótesis. Formalización de conceptos fundamentales Los investigadores de educación y ramas afines saben que el enunciar una hipótesis no siempre implica un trabajo científico. Una hipótesis científica es el resultado de un pensamiento creativo y tal vez inspirado, mientras que la hipótesis estadística es la expresión de una fase de la comprobación empírica de la hipótesis científica. Hipótesis estadística Una hipótesis estadística es un enunciado o proposición respecto a uno o más parámetros de la población. Una hipótesis estadística 107 puede ser simple o compuesta. Es simple, cuando la proposición caracteriza completamente a la distribución de la variable aleatoria y en caso contrario se denomina hipótesis compuesta. A fin de probar una proposición, es preciso formular una hipótesis denominada nula conjuntamente con otra denominada hipótesis alternativa. Ejemplo 3.1 Durante los últimos semestres, el profesor de Estadística Aplicada a la Educación, ha registrado que el rendimiento medio es de 14 puntos para todos sus alumnos, con desviación estándar 2 puntos. Este año le ha tocado 40 alumnos sobresalientes porque su rendimiento medio ha sido de 17 puntos y el profesor los proclama como superiores a todos los alumnos que ha tenido a la fecha. De acuerdo a estos resultados se aceptará o se rechazará (una de las siguientes afirmaciones) la hipótesis que: H 0 H 1 :El rendimiento promedio de los estudiantes es menor o igual a 14 puntos. : El rendimiento promedio de los estudiantes es mayor a 14 puntos. A una de las afirmaciones, por ejemplo a H 0 , se le llama hipótesis nula. A la afirmación H 1 , que es opuesta a la hipótesis nula, se le llama hipótesis alternativa. En las investigaciones donde se utilizan pruebas de hipótesis, se parte del supuesto básico de que la hipótesis nula ( H 0 ) es verdadera (mientras no se demuestre lo contrario) y el investigador recogerá información de una muestra aleatoria, para poder decidir si rechaza o no la mencionada hipótesis. En caso de rechazarla, se acoge a otra hipótesis conocida como la hipótesis alternativa, ( H 1 ). Los datos de las muestras deben de ofrecer la posibilidad de 108 tomar dos decisiones respecto de la hipótesis nula. La hipótesis nula es verdadera o es falsa. Nunca puede concluirse con certeza, a partir de una muestra, que H 0 es verdadera o falsa ya que lo máximo que se puede afirmar es que H 0 tiene más probabilidad de ser cierta que falsa. Consecuencias de una decisión Como las pruebas de hipótesis se basan en información obtenida en una muestra aleatoria, es posible que se cometan errores. Estos errores pueden ser de dos tipos: Error Tipo I: Si la hipótesis nula, H 0 , es verdadera y lo confirmamos con los datos de la muestra, la decisión es correcta y no se comete ningún error al tomar la decisión de no rechazar la hipótesis nula. Pero, si la hipótesis nula, H 0 , es verdadera y los datos de la muestra conducen a rechazarla, la decisión es incorrecta, caso en el que se comete el denominado error tipo I. Error Tipo II: Si la hipótesis nula, H 0 , es falsa y los datos de la muestra lo confirman, no se comete error. Pero si H 0 es falsa y los datos de la muestran indican que no debe rechazarse, la decisión es incorrecta, caso en el que se comete el denominado error tipo II. Al rechazar o no una hipótesis nula hay 4 situaciones posibles con respecto a la correcta o incorrecta toma de decisión, que se traducen a continuación. A la probabilidad de cometer el error de tipo I se denota con Situación real La hipótesis nula es verdadera La hipótesis nula no es verdadera Rechazar la hipótesis nula error de tipo I P(I) = α Correcta No rechazar la hipótesis nula Correcta Decisión error de tipo II P(II) = β 109 α, mientras que a la probabilidad de cometer el error de tipo II se denota con β. α = P (Re chazar H /H β = P( Aceptar o o H /H o es verdadera) = P(I) o es falsa) = P(II). Nivel de significación de la prueba El nivel de significación, denominado también la probabilidad de cometer el error de Tipo I, es la probabilidad de rechazar la hipótesis nula siendo ésta verdadera, P( I ) = P(Re chazar H /H o o verdadero) = α . (3.1) Cuando no sea posible rechazar la hipótesis nula, será preferible indicar que "no existe suficiente información como para rechazar la hipótesis nula". Regla de Decisión Así como en el juicio se debe de tomar una decisión acerca del acusado: declararlo culpable o inocente, también en estadística inferencial debe tomarse una decisión acerca de la hipótesis nula: rechazarla o no rechazarla. Si se rechaza la hipótesis nula, es porque se encuentran (en la muestra) resultados significativamente diferentes a lo que debería ocurrir si la hipótesis nula fuera cierta. El no rechazar la hipótesis nula, quiere decir que los resultados no fueron significativamente diferentes de lo que se esperaba, bajo la suposición de que la hipótesis nula era cierta. En todo caso, siempre se debe establecer previamente un criterio para decidir acerca de la hipótesis nula, es decir, qué valores de la estadística de prueba (que se describirá en el siguiente paso) delimitan el rechazo de la hipótesis nula. En estadística, éste pro- 110 ceso se conoce como la determinación de la región de rechazo de la hipótesis nula. Región crítica o región de rechazo de la hipótesis nula La región crítica es la región de rechazo de la hipótesis nula. Se acostumbra determinar la región crítica examinando la gravedad del error tipo I. Reviste particular importancia especificar exactamente la región crítica, a fin de que los resultados de este paso no ejerzan ninguna duda en la ubicación y el tamaño de la región crítica. La ubicación de la región crítica se determina mediante la forma de la hipótesis alternativa. Esta hipótesis puede tomar tres formas, cada forma dicta una ubicación específica de la región crítica, como se muestra a continuación. El procedimiento consiste en observar una muestra aleatoria Signo en la hipótesis alternativa Tipo de la región crítica < ≠ > una región al lado dos regiones, una una región, lado izquierdo a cada lado derecho y a partir de la información que se obtenga se toma una decisión. Esta información generalmente aparece contenida en una expresión que se denomina estadística de prueba e indica, de alguna manera, el grado de discrepancia entre la hipótesis nula y los datos observados. Cuando el grado de discrepancia sea grande se rechazará la hipótesis nula, caso contrario no se rechazará. Para ilustrar, retomemos el ejemplo 3.1. Establecidas las hipótesis, parece razonable que si se desea probar hipótesis relativas a la media de una población, se elija la media muestral para analizar la compatibilidad de la muestra con la hipótesis nula. Si el valor x = 17 es grande con respecto a 14 (el grado de discrepancia entre la hipótesis nula y la muestra es grande), se po- 111 dría rechazar la hipótesis nula. El problema es determinar el rango de valores de x para los que, éstos puedan considerarse grandes. En general, el conjunto de valores de la estadística de prueba para los cuales se rechaza la hipótesis nula, se llama región de rechazo o región crítica. Por ejemplo, se podría tomarse como una región de rechazo el intervalo (16, ∞), de tal manera que si la media muestral encontrada cae en este intervalo, se debe rechazar la hipótesis nula. Esta decisión es razonable puesto que si la hipótesis nula es verdadera, la probabilidad de encontrar una media muestral mayor que 16, en el supuesto de normalidad, es: 16 − 14 X −u P X > 16 / u = 14 = P Z > P Z > = 1 − P (Z ≤ 6.32 ) =0.000. σ 2 40 n ( ) Luego, encontrar una media muestral en el intervalo (16, ∞) es un evento no consistente con la hipótesis nula, por lo que se tendrá que rechazar la hipótesis nula. Se podría tomar como otra región de rechazo el intervalo (14.2, ∞) y encontrar: X −µ 14.2 − 14 P X > 14.2 / µ = 14 = P Z > P Z > = 1 − P (Z ≤ 0.63) 2 σ 40 n =1- 0.7357=0.2643. ( ) En este caso se observa que existe la posibilidad (aunque pequeña) de encontrar un valor de la media muestral en el intervalo (14.2, ∞), aún cuando la hipótesis nula sea verdadera. Esto implica que podríamos equivocarnos al rechazar esta hipótesis cuando la media muestral cae en este intervalo. En el ejemplo analizado, lo que se debe es elegir una región de rechazo como el intervalo (a, ∞) adecuada, de tal manera que si la media muestral cae en este intervalo se rechace la hipótesis nula. El valor de la constante, a, se elige de tal manera que la probabili- 112 dad de equivocarnos al rechazar la hipótesis nula, siendo ésta verdadera, sea un valor α pequeño, es decir, sea la probabilidad de cometer el error tipo I o el denominado nivel de significación. Así se estaría tratando de evitar, en lo posible, el error de una decisión equivocada. Por ejemplo, si deseamos cometer el error de tipo I con probabilidad igual a α = 0.05, se puede escoger como región de rechazo, al intervalo (a, ∞), de manera que: 0.05 = P(Re chazar H /H o o es verdadera) a −u a − 14 6.32(a − 14) > P Z =0.05 = 1 − P Z ≤ 2 2 40 n = P (X > a / u = 14 ) = P Z > σ 6.32(a − 14) P Z ≤ = 0.95 . Usando la tabla normal se observa que: 2 6.32(a − 14) = 1.645 2 ⇒ a − 14 = 0.52 ⇒ a = 14.52 La decisión a tomar es: rechazar la hipótesis nula si la media muestral es mayor que 14.52. Luego, la estadística de prueba es la media muestral y la región de rechazo, al nivel de significación α = 0.05, es el intervalo (14.52, ∞). La probabilidad de equivocarse al rechazar la hipótesis nula, siendo ésta verdadera, es a lo más α = 0.05. Se observa que, la decisión de rechazar la hipótesis nula si x > 14.52 , es equivalente a rechazar la hipótesis nula, cuando x − 14 > 1.645 . Luego, en lugar del valor de la media muestral se 2 40 puede considerar el valor de la media muestral estandarizada, x − 14 2 , como la estadística de prueba y como región de rechazo 40 de la hipótesis nula, al intervalo (1.645, ∞). La decisión puede expresarse de la siguiente manera: rechazar la hipótesis nula si el valor estandarizado de la media mues113 tral, zc = x − 14 , cae en el intervalo (1.645, ∞). 2 40 Procedimiento de las pruebas de hipótesis Región de rechazo 1.645 Una vez que se tienen las ideas que apoyan la metodología de pruebas de hipótesis, vamos a presentar, el procedimiento que se sigue al realizar una prueba de hipótesis. Paso 1. Identificar el problema En general, los problemas de inferencia estadística plantean el estudio de uno o más parámetros. Entre los parámetros que se estudian con mayor frecuencia son los siguientes: El valor de la media de una variable aleatoria en la población, parámetro que ya hemos denominado con u. El valor de la diferencia de medias de una variable aleatoria en una misma población o en poblaciones diferentes, µ1 − µ 2 . 2 El valor de la varianza de una variable en la población, σ . El valor de la proporción de una variable en la población, π. El valor de la diferencia de proporciones de una misma población o de poblaciones diferentes, π1 − π2. El valor del cociente de varianzas de una variable en una misma población o en poblaciones diferentes, σ 1 / σ 2 . El valor del coeficiente de correlación poblacional para dos variables, ρ 12 . 114 Asociados a los parámetros existen estimadores de los parámetros que se han presentado en el capítulo anterior y que se resumen a continuación: Es necesario recordar que cuando se observa la muestra, el estimador de un parámetro, es una función de variables aleatorias y Parámetro Notación u σ µ −µ Nombre media poblacional X media muestral x varianza muestral s diferencia de medias muestrales x −x 2 2 diferencia de medias poblacionales X −X 2 cociente de varianzas poblacionales S /S diferencia de proporciones poblacionales P −P π −π 1 Notación S 1 1 Nombre Estimaciones con los valores de la muestra varianza poblacional 2 σ /σ Estimadores 2 1 2 2 1 2 1 2 2 cociente de varianzas muestrales diferencia de proporciones muestrales 2 1 2 2 2 1 2 s /s p−p 1 2 por lo tanto variable aleatoria, toma un valor y recibe el nombre de estimación del parámetro. Así por ejemplo, X 1 ,..., X n es una muestra aleatoria desde la población donde la variable aleatoria X tiene media µ y varianza σ 2. El estimador de la media poblacional, 1 n ∑ X i y si los valores observados de la muesn i =1 tra son x1 = 25, x2 = 30, x3 = 40, x4 = 20, x5 = 35 , el valor ob1 n 150 servado de la media muestral es, x = ∑ xi = = 30 y se de5 n i =1 µ, es la función X = nomina estimación de la media poblacional. Esta aclaración se hace extensiva para los otros parámetros, estimadores y sus correspondientes estimaciones. Paso 2. Plantear las hipótesis 115 Se plantean conjuntamente la hipótesis nula y la hipótesis alternativa. Hipótesis Nula La palabra "nula" trasmite la idea de " ninguna diferencia". Como regla general debemos comenzar con la afirmación: no hay razón para creer que la sospecha que se tiene sea verdadera. La hipótesis nula se expresa de alguna de las siguientes formas: Hipótesis Alternativa Al plantear esta hipótesis, generalmente, debe recordarse el propósito de la investigación: buscar evidencia H 0 : Parámetro = w zona de no rechazo de la hipótesis nula zona de rechazo De la hipótesis a w H 0 Zona de rechazo de la hipótesis nula a b : Parámetro ≥ w zona de no rechazo de la hipótesis nula w H Zona de rechazo de la hipótesis nula 0 : Parámetro ≤ w zona de no rechazo de la hipótesis nula w donde " w" es un valor conocido. 116 zona de rechazo de la hipótesis nula b que permita rechazar la hipótesis nula. Por lo general la hipótesis alternativa coincide con la sospecha que se tiene y es la negación de la hipótesis nula. Para los tres casos mencionados anteriormente las hipótesis alternativas son: H H H 1 : parámetro ≠ w 1 : parámetro < w 1 : parámetro > w En el caso de que la alternativa no indique ninguna dirección específica, se dice que la prueba es de dos colas o bilateral. Paso 3. Seleccionar la herramienta de análisis Por lo general, en estadística inferencial se encuentra más de una herramienta para enfrentar un mismo tipo de problema. Emplearemos herramientas del campo de la estadística conocido como estadística paramétrica. Algunas de las herramientas más usadas son: la media muestral X para inferir acerca de una media poblacional u, la diferencia de medias muestrales X 1 − X 2 para inferir acerca de una diferencia de medias poblacionales µ1 − µ 2 , la diferencia de proporciones muestrales P1 − P2 para inferir acerca de una diferencia de proporciones poblacionales π 1 − π 2 , el cociente de 2 2 varianzas muestrales S1 / S 2 para inferir acerca de un cociente de 2 2 varianzas poblacionales σ 1 / σ 2 . Paso 4. Seleccionar el modelo teórico Para cada herramienta de análisis tal como X , X 1 − X 2 , P1 − P2 , 2 2 S1 / S 2 , existe una distribución muestral teórica asociada. Ya se presentó en el capítulo 1, las distribuciones muestrales asociadas a la media muestral, a la diferencia de medias muestrales, a la diferencia de proporciones muestrales, al cociente de varianzas muestrales, las que usaremos en el presente capítulo. 117 Paso 5. Región de rechazo y análisis del nivel de significación Debe adoptarse un grado de riesgo de concluir erróneamente que H 0 es falsa con base en la evidencia suministrada por la muestra. Tal riesgo enunciado en forma de probabilidad se conoce como el nivel de significación del contraste de hipótesis o el riesgo. Una vez escogido el modelo para representar el comportamiento de la estadística muestral escogida para el análisis, determinar el nivel de significación es un problema de cálculo y de interpretación de la tabla de la distribución del correspondiente modelo. Sabemos que el nivel de significación de una prueba de hipótesis, denotado por α, es la probabilidad que existe de rechazar la hipótesis nula. En términos de las Figuras que se presentan a continuación, el nivel de significación es el área de la región de rechazo de la hipótesis nula. Generalmente se usan los valores: 0.05; 0.025; 0.001 y 0.0005 para α. En el caso de que la prueba de hipótesis alternativa sea de dos colas, α es la suma de las dos áreas de las regiones de rechazo. Es decir, si α = m% en una prueba de dos colas, entonces el área de cada una de las regiones de rechazo debe ser (m/2)%. A continuación veamos un ejemplo del manejo del nivel de significación cuando la estadística de prueba tiene distribución normal estándar. a) Cuando la hipótesis alternativa es H 1 : u > w y la probabilidad de rechazar la hipótesis nula siendo ésta verdadera es α = 0.05; se plantea que P (Z > z ) = 0.05 y en la tabla normal estándar se encuentra zteórico = 1.645 . Es decir P (Z > 1.645) = 0.05 , por lo que la región crítica es el intervalo (1.645, ∞). Figura 3.1 118 1.645 b) Cuando la hipótesis alternativa es H 1 : u < w y la probabilidad d e rechazar la hipótesis nula siendo verdadera es α = 0.05; se plantea que P (Z < z ) = 0.05 y en la tabla normal estándar se encuentra zteórico = −1.645. Es decir, P (Z < −1.645) = 0.05 , por lo que la región crítica es el intervalo (- ∞, -1.645 ). c) Cuando la hipótesis alternativa es H 1 : Figura 3.2 u ≠ w y la probabili- -1.645 dad de rechazar la hipótesis nula siendo verdadera es α = 0.05; se plantea P Z > z = P (Z > z ) + P (Z < − z ) = 0.05 y en la tabla normal estándar se encuentra zteórico = 1.96 . Es decir, P Z > 1.96 = P (Z > 1.96 ) + P (Z < −1.96 ) = 0.05 , por lo que la región crítica es el intervalo (-∞, -1.96) U(1.96, ∞). ( ( ) ) Paso 6. Decisión de área 0.025 -1.645 -1.645 0.025 de área 119 Una vez realizados los pasos anteriores, la decisión acerca de la hipótesis nula H 0 , es simplemente cuestión de mirar dónde cae el valor de x estandarizado (para lo cual se observa una muestra aleatoria) Según dónde quede ubicado el valor del estimador muestral habrá que: rechazar o no rechazar la hipótesis nula. A continuación se presenta un ejemplo para ilustrar el desarrollo de una prueba de hipótesis en el que se resume los pasos anteriores. Ejemplo 3.2 El Director Académico del centro pre universitario de la UNMSM tiene la percepción que el rendimiento académico durante el primer año de estudios en la universidad, de los alumnos ingresantes a través de la institución que dirige mejora año a año. Sabe que históricamente los alumnos han tenido un rendimiento promedio de 13 puntos con desviación estándar 1 punto. Para confirmar su percepción llevó a cabo un estudio, para el que escogió una muestra aleatoria de 100 sanmarquinos que ingresaron el año 2004 a través del centro pre universitario de la universidad y pidió al sistema de matrícula el rendimiento de cada uno de estos alumnos durante el año académico 2004. En dicha muestra el rendimiento promedio fue 14 puntos. Veamos si existe suficiente evidencia muestral para decir si es cierta la percepción del Director Académico. α = 0.05. Solución Paso 1: Planteamiento de las hipótesis Se trata de un problema de inferencia estadística acerca de la media poblacional. µ: " rendimiento académico promedio durante el primer año 120 de estudios en la UNMSM, de alumnos ingresantes a través del centro pre universitario de la universidad. Se plantea la hipótesis nula juntamente con la hipótesis alternativa. Hipótesis nula: Se plantea como que no pasa nada. Se debe de interpretar como: "el rendimiento medio u =13 puntos, es decir: Ho: µ = 13. Hipótesis alternativa: Debe plantearse como la posibilidad sobre la cual se tiene sospechas. En este caso, el Director Académico tiene la sospecha que el rendimiento promedio ha mejorado. Es decir, la hipótesis alternativa es: H a : µ: > 13 Como la hipótesis alternativa es de la forma ">", la prueba de hipótesis que se está planteando es unilateral o de una cola hacia el lado derecho y la región crítica será de la forma(a, ∞). Paso 2 Selección de la herramienta de análisis, del modelo y obtención de la región crítica La herramienta de análisis que se utilizará es la media muestral y su valor es x =14 puntos. Hemos visto en el capítulo 1 que el comportamiento de la media muestral X se puede modelar de una manera aproximada con la distribución normal. Puesto que la varianza de toda la población se supone conocida, usaremos el hecho que: Z= X −µ σ n tiene distribución N(0,1). Si se elige el nivel de significación del α =0 .05, el espacio muestral queda dividido en dos regiones disjuntas, la región de rechazo de la hipótesis nula y la región de no rechazo de la hipótesis 121 nula. En la tabla normal, el valor de z que cumple P (Z > z ) = 0.05 = α, es z = zteórico = 1.645. Luego, la región crítica o de rechazo de la hipótesis nula es el intervalo (1.645, ∞). Región de rechazo de H0 Paso 3. Tomar la 1.645 muestra y obtener zc Con la información de la muestra observada y bajo el supuesto de que la hipótesis nula es verdadera, la estadística de prueba toma el valor 10. Es decir: zc = x − µ0 14 − 13 = = 10, es el valor muestral estandariz ado. 1 σ 100 n Paso 4. Decidir Se puede ver que el valor muestral estandarizado o el valor de la estadística de prueba, zc = 10 , se ubica en la región de rechazo de la hipótesis nula, es decir pertenece al intervalo (1.645, ∞), por lo que la decisión es rechazar la hipótesis nula. Con un nivel de significación α = 0.05, existe evidencia para afirmar que es posible que la percepción del Director Académico sea cierta. Observación 1 Es importante señalar que los software´s estadísticos como el SPSS, reportan el nivel crítico de la prueba o p-value, en lugar de indi- 122 car un determinado valor del nivel de significación α. Esto facilita la lectura de los resultados y concede al investigador, sobre la base del valor de p-value, la libertad de rechazar o no la hipótesis nula. Es decir, la decisión: rechazar la hipótesis nula porque el valor de zc = 10 es mayor que el valor encontrado en la tabla normal, z = 1.96 ; es equivalente a la decisión: rechazar la hipótesis nula porque el nivel crítico de la prueba, P (Z > 10) = 0.00 , es menor que el valor del nivel de significación, α = 0.05 . Es decir, rechazar la hipótesis nula porque P (Z > 10 ) = 0.000 es menor que α = 0.05 . Esta es la regla que se usará toda vez que se trabaje con el software estadístico SPSS. Pruebas de hipótesis en poblaciones normales Pruebas de hipótesis en una población normal Vamos a presentar el procedimiento de pruebas de hipótesis en el supuesto de poblaciones normales, es decir bajo el supuesto que la variable aleatoria X tiene distribución normal con media u y 2 varianza σ . Los tópicos a ser tratados son: pruebas de hipótesis para la media poblacional, para la varianza poblacional, para la diferencia de medias, para la diferencia de proporciones y para el cociente de varianzas. Para la media poblacional cuando la varianza poblacional es conocida Supongamos que la variable aleatoria X tiene distribución normal 2 con media u y varianza σ conocida. En el capítulo anterior hemos visto que la distribución de la variable estandarizada, X −µ Z= , es N(0,1), donde X es la media muestral. Se usará σ n este resultado para ilustrar el procedimiento para contrastar hipótesis, cuando la hipótesis alternativa tiene el sentido ">". Los 123 pasos se resumen a continuación: Paso 1: Se plantean las dos hipótesis, nula y alternativa: H H 0 : µ = µ0 1 : µ > µ0 Paso 2: Se toma una muestra aleatoria de tamaño n y se obtiene el valor de la media muestral. Luego, se obtienen el valor de la estadística de prueba zc = x − u0 , que corresponde a una σ n distribución normal estándar cuando la hipótesis nula es verdadera. Paso 3: Se encuentra la región crítica para un nivel de significación prefijado, α, de manera que P (Z > zteórico ) = α . La región crítica será el intervalo ( zteórico , ∞), donde zteórico es el valor de la abscisa de la distribución normal estándar tal que el área de la derecha de la curva vale 0.05. Paso 4: Se rechaza la hipótesis nula frente a la hipótesis alternativa si el valor de zc obtenido en el paso 2 cae en la región de rechazo de la hipótesis nula, es decir, si cae en el intervalo ( zteórico , ∞). De la misma manera es posible indicar las reglas para los casos donde la hipótesis alternativa es: H 1 : µ < µ0 o H 1 : µ ≠ µ0 . En la siguiente tabla se resume los diversos casos de la prueba de hipótesis respecto de la media de una población normal con varianza conocida. Se incluye en cada caso la región de rechazo correspondiente. Ejemplo 3.3 124 Hipótesis Estadístico de prueba Regla de decisión Rechazar la hipótesis, H H H 0 : µ = µ0 : µ > µ0 1 zc = x − µ0 σ n 0 : u = u0 si zc > zteórico ó ( zteórico , ∞) con el SPSS: p _ value < α H H 0 1 : µ = µ0 : µ < µ0 zc = x − µ0 σ n zc < zteórico o (-∞, - zteórico ) Con el SPSS: p _ value < α H 0 : µ = µ0 zc = x − µ0 σ n zc > zteórico equivalentemente zc > zteórico ó zc < zteórico Con el SPSS: p _ value < α / 2 Usted es un inspector de escuelas públicas y realiza un experimento para investigar si la habilidad de lectura de estudiantes de quinto año de primaria. En una muestra aleatoria de 100 estudiantes de esta población encuentra una habilidad media de lectura igual a 70 palabras por minuto. Las notas nacionales sobre la habilidad de lectura, para los estudiantes del quinto año de primaria, muestran una distribución normal con media 75 palabras por minuto y una desviación estándar igual a 12. Todo puntaje por debajo de 75 se considera deficiente. ¿Es razonable considerar que la habilidad de lectura de los estudiantes de quinto de primaria es deficiente?. Use α = 0.05. Solución 125 Paso 1: Planteamiento de las hipótesis Se trata de un problema de inferencia estadística acerca de la media poblacional, con varianza poblacional conocida. µ: " el número promedio de palabras que leen por minuto los estudiantes de quinto año de primaria. Hipótesis nula: Se plantea como que no pasa nada. El número promedio de palabras que leen los estudiantes, u, es de 75 palabras por minuto, es decir: Ho: u = 75 Hipótesis alternativa: El número promedio de palabras que leen los estudiantes ha disminuido. Es decir, la hipótesis alternativa es: Ha: u < 75 Paso 2: Tomar la muestra y obtener el valor de zc Con la información de la muestra observada y bajo el supuesto de que la hipótesis nula es verdadera, la estadística de prueba toma el valor -5.1. Es decir: zc = x − µ 70 − 75 = = −5.10. σ 12 150 n Paso 3: encontrar la región crítica Como la hipótesis alternativa es de la forma "<", la prueba de hipótesis que se está planteando es unilateral o de una cola hacia el lado izquierdo, de la forma (-∞, a ), donde " a " es la abcisa de la distribución normal estándar y cumple P (Z < a ) = 0.05) . Si se elige el nivel de significación del α = 0.05, el espacio muestral queda dividido en dos regiones disjuntas como la siguiente: 126 En la tabla normal, el valor de z = zteórico que cumple P (Z < zteórico ) = 0.05 = α, es zteórico = -1.645. Luego, la región crítica es el intervalo: (-∞, -1.645). -1.645 Paso 4: Decisión El valor muestral estandarizado, zc = -5.1 encontrado en el paso 2, es menor que el valor teórico zteórico = -1.645; es decir, se cumple zc = −5.10 < zteórico = −1.645 , por lo que la decisión es rechazar la hipótesis nula. Con un nivel de significación α = 0.05, es posible que la habilidad de lectura de estudiantes de quinto año de primaria sea deficiente. Nivel crítico de una prueba( p _ value ) La manera cómo se encontró la región de rechazo dependió del valor del nivel de significación α escogido de antemano. El valor α proporciona una medida de la significación de la inferencia realizada; sin embargo éste no indica hasta qué grado la prueba es significativa. Así para las hipótesis: Ho: u = 75 Ha: u < 75, los valores estandarizados de la media muestral z = -5.10 y por ejemplo z = -2.5 son significativos al nivel de significación α = 0.05. Ambos valores caen en la región de rechazo de la prueba (∞, -1.645) El valor de la media muestral estandarizada z= -5.10, presen- 127 ta mayor evidencia para rechazar la hipótesis nula, que el valor de la media muestral estandarizada z= -2.5, porque la probabilidad de encontrar un valor de la media muestral menor que -5.1 es menor que la probabilidad de encontrar un valor menor que -2.5. El valor -5.1 indica que existe mayor discrepancia entre la media muestral y el valor uo señalado en la hipótesis nula. Así, una manera de medir el grado de discrepancia entre la media muestral observada y la hipótesis nula se obtiene calculando la probabilidad de observar un valor del estadístico de prueba más extremo que el valor estandarizado observado de la media muestral. A esta probabilidad se le llama nivel crítico de la prueba ( p _ value en el idioma inglés). Así, el nivel crítico de la prueba, cuando el valor de la media muestral estandarizada es z = -2.5, es P (Z ≤ −2.5) = 0.0062. Si la hipótesis nula es verdadera, la probabilidad de encontrar un valor de la media muestral estandarizada menor o igual a -2.5 es muy pequeña (0.0062) y menor al nivel de significación dado. Se decide aceptar que la hipótesis nula es falsa. Cuando el valor estandarizado de la media muestral es z = -5.1, el nivel crítico de la prueba o p _ value es P (Z ≤ −5.1)= 0.0000. Si la hipótesis nula es verdadera, la probabilidad de encontrar un valor de la media muestral estandarizada menor o igual a -5.1 es cero. No queda otro camino que rechazar la hipótesis nula. Cuanto menor sea el valor de p-value, mayor será la discrepancia entre los datos observados y la hipótesis nula. Para la media poblacional con varianza poblacional desconocida Se supone que la variable X tiene distribución normal con media u 2 y varianza σ desconocida. En este caso el procedimiento para realizar la prueba de la hipótesis H 0 : µ = µ0 frente a cualquiera de las alternativas: H 1 : µ > µ0 , H 1 : µ < µ0 , H 1 : µ ≠ µ0 , es similar al caso de varianza conocida, sólo que en lugar de usar la esta- 128 dística de prueba con valores zc = x − µ0 σ se usa la estadística de n x − µ0 s . Se ha visto en el capítulo 1 que la variable aleaprueba n X −µ t= S toria tiene distribución t-Student con ( n − 1 ) grados de n tc= libertad. Se usará este resultado para ilustrar el procedimiento para contrastar hipótesis, cuando la hipótesis alternativa tiene el sentido ">". Los pasos se resumen a continuación: Paso 1: Se plantean las dos hipótesis, nula y alternativa: H :µ =µ H 1 : µ > µ0 0 0 Paso 2: Se toma una muestra aleatoria de tamaño n y se obtiene el valor de la media muestral y finalmente se obtiene el valor de la estadística de prueba tc = x − µ0 . s n Paso 3: Se encuentra la región crítica, para el nivel de significación P(t( n −1) > tteórico ) = α , donde tteórico es el valor de la abcisa de la distribución t-Student con (n-1) grados de libertad, que deja de área al lado derecho de la curva. La región crítica es el intervalo ( tteórico , ∞). Paso 4: Se decide rechazar la hipótesis nula frente a la hipótesis alternativa si el valor de la estadística de prueba tc cae en la región ( tteórico , ∞). De la misma manera es posible indicar las reglas para los casos donde la hipótesis alternativa es: H 1 : µ < µ0 o H 1 : µ ≠ µ0 . En 129 la siguiente tabla se resume los diversos casos de la prueba de hipótesis respecto de la media de una población normal con varianza desconocida. Ejemplo 3.4 Hipótesis Estadística de prueba Regla de decisión Rechazar la hipótesis H H H : µ = µ0 : µ > µ0 1 0 H H 1 H H : µ = µ0 : µ ≠ µ0 1 0 : µ = µ0 : µ < µ0 0 tc = tc = tc = x − µ0 s n x − µ0 s n x − µ0 s n 0 : u = u0 , si tc > tteórico p _ value < α tc < tteórico p _ value < α tc > tteórico equivalentemente tc > tteórico ó tc < tteórico p _ value < α / 2 P (t( n −1) > tteórico ) = α El Director Académico del centro pre universitario de la UFV tiene la percepción de que el rendimiento académico durante el primer año de estudios en la universidad, de los alumnos ingresantes a través de la institución que dirige mejora año a año. Sabe que históricamente los alumnos han tenido un rendimiento promedio de 13 puntos. Para confirmar su percepción llevó a cabo un estudio, para el que escogió una muestra aleatoria de 20 alumnos que 130 ingresaron el año 2004 a través del centro pre universitario que dirige y pidió al sistema de matrícula el rendimiento de cada uno de estos alumnos durante el año académico 2004. Para dicha muestra obtuvo un rendimiento promedio de 14.5 puntos con desviación estándar 1.5 puntos. Veamos si existe suficiente evidencia muestral para decir si es cierta la percepción del Director Académico. α = 0.05. Solución Paso 1: Se plantean las hipótesis Se trata de un problema de inferencia estadística acerca de la media poblacional con varianza poblacional desconocida. u: " rendimiento académico promedio durante el primer año de estudios en la UFV, de alumnos ingresantes a través del centro pre universitario de la universidad. Hipótesis nula: El rendimiento medio es u=13 puntos, es decir: H 0 : u = 13 Hipótesis alternativa: Se tiene la sospecha que el rendimiento promedio ha mejorado. Es decir, la hipótesis alternativa es: H 1 : u > 13 Paso 2: Se toma la muestra y calcula tc Bajo el supuesto de que la hipótesis nula es verdadera, la estadística de prueba toma el valor 4.47, es decir: tc = x − µ0 14.5 − 13 = = 4.47. s 1.5 n 20 Paso 3: Se obtienen la región crítica 131 Para el nivel de significación α = 0.05 y prueba unilateral del sentido mayor, se cumple que P t(19 ) > tteórico = 0.05 . En la tabla t-Student, el valor de tteórico con 19 es: tteórico = 1.729. Luego, la región crítica es el intervalo (1.729, ∞). ( ) Paso 4: Decisión Se puede ver que el valor de tc = 4.47 cae en la región de rechazo de la hipótesis nula. Es decir: tc = 4.47 > tteórico = 1.729 , por lo que la decisión es rechazar la hipótesis nula. Con un nivel de significación α = 0.05, es posible que la percepción del Director Académico sea cierta. Ejemplo 3.5 Un estudiante de maestría investiga un método que supuestamente modifica la edad en la cual los niños comienzan a hablar, edad que históricamente es 11 meses. Aplicó su método y luego ha hecho el seguimiento a 19 niños y ha registrado las siguientes edades (en meses) en la que dichos niños pronunciaron las primeras palabras. 10 10 11 16 17 16 14 12 12 13 9 10 12 12 10 17 13 15 18 Al estudiante de maestría le preocupa: a) Identificar el problema. b) Plantear la hipótesis nula y la hipótesis alternativa. c) Para un nivel de significación 0.05, quiere saber si funcionó o no el método que aplicó. Solución Primero se realizan los cálculos auxiliares para obtener los valores de las estadísticas descriptivas media muestral x y desviación estándar muestral, s; para luego calcular el valor de la estadística de prueba, tc . Los estudiantes que necesitan mayores detalles re- 132 mitirse al libro: Estadística Descriptiva con auxilio del SPSS y Matlab (Gómez y et.al, 2005). Los cálculos auxiliares son: A continuación se detalla la solución. Edades xi Número de niños f i xi f i 1 4 1 4 2 1 1 2 2 1 19 9 40 11 48 26 14 15 32 34 18 247 9 10 11 12 13 14 15 16 17 18 x= s 2 = 1 k = 13 , ∑ fi = 247 n i =1 xi 19 1 k ∑ n − 1 i =1 (x − x) 2 i (x − x) (x − x) 2 i 2 i 16 9 4 1 0 1 4 9 16 25 fi 16 36 4 4 0 1 4 18 32 25 140 n = 19 es el tamaño de muestra. f i = 140 = 7.777 18 S = 2.7888 Paso 1: Planteamiento de las hipótesis Se trata de un problema de inferencia estadística acerca de la media poblacional con varianza poblacional desconocida. Así, µ : es la edad media en la que los niños pronuncian sus primeras palabras. Hipótesis nula: La edad promedio que históricamente los niños pronuncian sus primeras palabras es µ = 11 meses, es decir: H 0 : µ = 11 Hipótesis alternativa: La sospecha del estudiante de maestría y la información en la muestra nos dice que ese promedio ha sido 133 superado. Así la hipótesis alternativa es: H 1 : µ > 11 Como la hipótesis alternativa es de la forma ">", la prueba de hipótesis que se está planteando es unilateral o de una cola hacia el lado derecho. Paso 2: Con la información de la muestra y bajo el supuesto de que la hipótesis nula es verdadera, la estadística de prueba toma el valor 3.126, porque: tc = x − µ0 13 − 11 = = 3.126 s 2.7888 n 19 Paso 3: Para el nivel de significación α = 0.05, el valor de tteórico con 18 grados de libertad, se cumple la condición P (t(18) > tteórico ) = 0.05 = α, entonces tteórico = 1.734. Luego, la región de rechazo es el intervalo (1.734, ∞). Paso 4: Se puede ver que el valor del estadístico de prueba cumple, tc = 3.126 > tteórico = 1.734 , es decir, el estadístico de prueba se ubica en el intervalo (1.734, ∞). El investigador puede rechazar la hipótesis nula e indicar que existe un cambio significativo en la edad en que los niños pronuncian sus primeras palabras (con su nuevo método). En la mayoría de las investigaciones el tamaño de muestra es grande y los cálculos para encontrar el valor de tc son tediosos, por lo que hemos decidido apoyarnos en nuestro trabajo estadístico con el Software SPSS. En el libro Estadística Descriptiva con soporte del SPSS y Matlab (Gómez y colaboradores, 2005), dirigido a investigadores y estudiantes de educación, ciencias sociales y áreas afines; se explica con detalle todos los pasos a seguir desde la declaración de variables hasta el manejo de cada uno de los procedimientos estadísticos. A continuación, en cada uno de los proble- 134 mas que lo requiera, en el presente y en capítulos posteriores, se dará por entendido que el estudiante tiene alguna familiaridad con la declaración de variables y creación de base de datos y centraremos nuestra atención en los comandos del SPSS que se usarán para realizar los procedimientos estadísticos correspondientes. Ejemplo 3.6 Resolveremos el ejemplo 3.5 usando el auxilio del SPSS. A continuación se detallan los pasos a seguir. Paso 1: Es igual a la solución del problema 3.5. Paso 2: Con el auxilio del SPSS debemos de: a) b) Activar el SPSS. Crear el archivo DATOS1- niños y declarar la variable EDAD con los valores que ha tomado dicha variable en el ejemplo anterior. Luego se ejecutarán los siguientes comandos del SPSS que permitirán encontrar el valor de tc que luego se comparará con el valor de tteórico encontrado en la tabla t-Student. ANALIZE/COMPARE MEANS/ ONE-SAMPLE T-TEST/ llevar a TEST VARIABLE la variable creada EDAD/ en TEST VALUE colocar 11 (el valor de la media poblacional bajo la hipótesis nula)/ pulsar el comando OK. En el output del SPSS se lee el valor de tc = 3.126 . Paso 3: Es igual a la solución del problema 3.5. One-Sample Test Test Value = 11 T edad 3.126 135 Paso 4: Igual a la decisión tomada en el ejemplo 3.5. Se puede ver que el estadístico de prueba tc = 3.126 > tteórico = 1.734 , es decir, la estadística de prueba se ubica en el intervalo (1.734, ∞), que es la región de rechazo correspondiente al nivel de significación 0.05. El investigador puede rechazar la hipótesis nula e indicar que existe un cambio significativo en la edad en que los niños pronuncian sus primeras palabras (con su nuevo método). Cuando la variable aleatoria tiene cualquier distribución y con muestras grandes Cuando el tamaño de muestra que se toma es suficientemente grande (mayor que 30), aún cuando no se conozca la distribución de la variable X, por el teorema del límite central, los estadísticos: Z= X −µ σ n y t = X −µ S n tienen distribución aproximadamente normal y pueden usarse para probar hipótesis referentes a la media poblacional. Ejemplo 3.7 Antes de aplicar el Plan Huascarán en el distrito de Copa el rendimiento promedio de los estudiantes de primer año de primaria era de 12 puntos. Para determinar si el Plan ha sido efectivo en el incremento del rendimiento de los estudiantes, se observaron al azar a 96 estudiantes y se aplicó el Plan Huascarán durante un año académico, obteniéndose de rendimiento promedio 11.5 puntos con desviación estándar 2.8 puntos. Al nivel de significación 0.05 ¿se podría decir que existe evidencia que el rendimiento promedio ha disminuido?. 136 Solución Paso 1: La hipótesis nula indica que no existe diferencia en el rendimiento promedio, mientras que la hipótesis alternativa dice que aplicando el Plan Huascarán el rendimiento promedio ha disminuido. Así: H 0 : µ = 12 versus H1 : µ < 12 . Paso 2: La muestra usada es suficientemente grande, por lo que la media muestral tiene distribución aproximadamente normal y el valor de la estadística de prueba es -1.75, porque: zc = x − µ0 11.5 − 12 = = −1.75 s 2.8 n 96 Paso 3: Para α = 0.05, P (Z < zteórico ) = 0.05 = α, por lo que zteórico = 1.645. Luego, la región de rechazo es el intervalo (- ∞, -1.645). Paso 4: Como el valor del estadístico de prueba zc = -1.75 cae en el intervalo indicado se rechaza la hipótesis nula; existe evidencia de que el rendimiento académico de los estudiantes ha disminuido. Para la proporción π de una población grande En algunas situaciones el parámetro sobre el que se trata de evaluar la hipótesis es la proporción de elementos con cierta característica A (π) en una población. Por ejemplo, la proporción de estudiantes que desaprueban el curso de matemáticas, la proporción de estudiantes motivados, la proporción de padres de familia que asisten a la convocatoria realizada por el director del colegio. Específicamente se trata de probar la hipótesis: H0 : π = π 0 frente a una de las siguientes hipótesis alternativas: 137 H1 : π < π 0 H1 : π > π 0 H1 : π ≠ π 0 Se ha visto en el capítulo 1, que bajo la hipótesis nula, la expresión Z = P − π0 tiene distribución aproximadamente π 0 (1 − π 0 ) n N(0,1). A continuación se presenta el resumen de las hipótesis contrastadas, la estadística de prueba y la regla de decisión. donde P es el estimador del parámetro π , y p es el valor que toma la variable aleatortia P cuando se observa la muestra. Ejemplo 3.8 Hipótesis Estadístico de prueba Regla de decisión Rechazar la hipótesis : π = π , si H H H : π = π0 :π > π0 0 0 zc = p −π0 π 0 (1 − π 0 ) 0 0 zc > zteórico n con el SPSS: p _ value < α H H : π = π0 :π < π0 0 0 zc = p −π0 π 0 (1 − π 0 ) zc < zteórico n Con el SPSS: p _ value < α H :π = π H :π ≠ π 0 0 0 0 zc = p −π0 π 0 (1 − π 0 ) zc > zteórico n equivalentemente zc > zteórico ó zc < zteórico Con el SPSS: p _ value < α / 2 Hace tres años el Ministro de Educación afirmó que históricamente el 30% de alumnos que estudian en zonas rurales abandonan sus estudios al culminar el tercer año de primaria. En los últimos 138 dos años el gobierno ha realizado inversiones en infraestructura y docencia en dichas zonas rurales con la esperanza de revertir el resultado planteado por el Ministro. Con el fin de evaluar los cambios, después de dos años, se tomó una muestra aleatoria de 500 estudiantes de zonas rurales y se encontró que 100 de ellos abandonaron los estudios al culminar el tercer año de primaria. ¿Qué puede decirse de la afirmación del Ministro de Educación?. Usaremos α = 0.05. Solución Paso 1: La hipótesis nula indica que la proporción de estudiantes que abandona sus estudios es del 30%, mientras que la hipótesis alternativa dice que esa proporción ha disminuido. Así: H 0 : π = 0.30 versus H 1 : π < 0.30 , donde π 0 = 0.30 . Paso 2: La muestra usada es suficientemente grande, por lo que la proporción muestral tiene distribución aproximadamente normal. En la muestra que se observa se encontró p = 0.2 , por lo que el valor del estadístico de prueba es -4.88, porque: zc = p − π0 π 0 (1 − π 0 ) = n 0.2 − 0.3 = −4.88 0.3(0.7) 500 Paso 3: Para α=0.05, P (Z < zteórico ) = 0.05 =α, por lo que= zteórico -1.645. Luego, la región de rechazo es el intervalo (- ∞, -1.645). Paso 4: Como el valor del estadístico de prueba zc =-4.88 cae en el intervalo indicado, se rechaza la hipótesis nula. Cuando α = 0.05 , existe evidencia para afirmar que la proporción de estudiantes que abandonaron los estudios ha disminuido. El procedimiento indicado también vale cuando la población es pequeña y la muestra se realiza con reposición. Si la población es pequeña y la muestra se toma sin restitución, la región de re- 139 chazo se determina con la distribución binomial, tema que no se aborda en el presente libro. Pruebas de hipótesis en dos poblaciones normales: medias, varianzas y proporciones En muchos estudios, incluidos los educativos, es necesario comparar ciertas características en dos o más grupos de sujetos. Tal sería el caso, por ejemplo, si pensamos que un nuevo método de enseñanza puede tener un porcentaje mayor de alumnos aprobados que otro método de enseñanza estándar, o cuando nos planteamos si los niños de las distintas comunidades rurales tienen o no la misma altura. La elección de un método de análisis apropiado en este caso dependerá de la naturaleza de los datos y la forma en la que estos hayan sido obtenidos. Fundamentalmente, cuando se comparan dos o más grupos de observaciones pueden darse dos tipos de diseño: aquel en el que las observaciones se refieren a dos grupos independientes de individuos, o el caso en el que cada serie de datos se recoge en los mismos sujetos bajo condiciones diferentes. El tipo de metodología será distinto según el caso en el que nos encontremos. Otro aspecto a tener en consideración será el tipo y distribución de la variable. Generalmente, los métodos paramétricos requieren que las muestras de cada grupo provengan de una distribución aproximadamente normal con una variabilidad semejante, de modo que si los datos disponibles no verifican tales condiciones, puede resultar útil una transformación de los mismos (aplicación del logaritmo, raíz cuadrada, etc.) o, en todo caso, se debería recurrir a la utilización de procedimientos no paramétricos. Poblaciones independientes: igualdad de medias cuando se conocen las varianzas poblacionales 140 Si X e Y son variables aleatorias independientes con distribucio- ( ( ) ) 2 nes N µ1 , σ 1 y N µ2 , σ 22 respectivamente; entonces, las medias muestrales X 1 y X 2 , correspondientes a muestras de tamaño y n2 , n1 σ 2 1 y tienen las siguientes distribuciones N µ1 , n1 σ2 N µ2 , 2 . Luego, la variable aleatoria X 1 - X 2 estandarizada, n2 (X − X 2 )− (µ1 − µ2 ) , tiene distribución N (0,1). Z= 1 σ 12 σ 22 + n1 n2 A continuación se presentan los pasos a seguir para probar la hipótesis nula respecto a la igualdad de medias (equivalente a que la diferencia de medias es igual a cero), frente a la hipótesis alternativa que las medias son diferentes. Paso 1: Se plantea H 0 : µ1 = µ2 versus H 0 : µ1 ≠ µ2 . Paso 2: Si se conocen las varianzas poblacionales y si la hipótesis nula es verdadera; el valor de la estadística de prueba basado en los valores observados de las dos muestras independientes, x11,...., x1n1 de la variable X 1 y x21,...., x2,n 2 de la variable X 2 es: zc = (x − x ) 1 2 σ σ2 + 2 , donde x1 y x2 son los valores que toman n1 n2 2 1 las medias de las muestras observadas. ( ) Paso 3: Para α = 0.05, P Z > zteórico = 0.05 = α, entonces P ( Z < zteórico ) = 0.95 , por lo que zteórico = 1.96. Luego, la región de rechazo es el intervalo (- ∞, -1.96) o el interva141 lo (1.96, ∞). Paso 4: Si el valor del estadístico de prueba cae en uno de los intervalos de la región de rechazo, entonces, se rechaza la hipótesis nula. A continuación se presenta el resumen de las hipótesis contrastadas, la estadística de prueba y la regla de decisión. Ejemplo 3.9 En un sistema educativo se aplicaron dos métodos A y B para enseñar el curso de física. En un grupo de 80 estudiantes se aplicó el Hipótesis Estadística de prueba Regla de decisión Rechazar la hipótesis H 0 : µ1 = µ2 , si H 0 : µ1 = µ2 H1 : µ1 > µ2 H 0 : µ1 = µ2 H 1 : µ1 < µ2 zc = zc = (x − x ) 1 2 σ σ + n1 n2 2 1 (x − x ) 1 zc > zteórico 2 2 2 σ σ + n1 n2 2 1 2 2 con el SPSS: p _ value < α zc > zteórico con el SPSS: p _ value < α H 0 : µ1 = µ2 H 1 : µ1 ≠ µ2 zc = (x − x ) 1 2 σ σ + n1 n2 2 1 2 2 zc > zteórico equivalentemente zc > zteórico ó zc < zteórico con el SPSS: p _ value < α / 2 142 método A y en el otro de 120 se aplicó el método B. Las medias de las calificaciones obtenidas fueron 13 y 13.5 respectivamente. ¿Podemos admitir que los métodos de enseñanza no son diferentes y que las diferencias encontradas en las muestras se debe al azar?. Experiencias anteriores dicen que las variables X 1 y X 2 que representan los rendimientos con los métodos A y B respectivamente, tienen distribución normal con varianzas 3 y 3.5 y α = 0.05 . Solución Paso 1: La hipótesis nula indica que no existe diferencia entre el rendimiento promedio alcanzado aplicando con el método A y el rendimiento promedio alcanzado con el método B; mientras que la hipótesis alternativa dice que los rendimientos promedio son diferentes. Así: H 0 : µ1 = µ2 H1 : µ1 ≠ µ2 Paso 2: Con los valores de las medias muestras, los tamaños de muestra y la información respecto a las varianzas se encuentra que el valor del estadístico de prueba es -1.94. zc = (x − x ) 1 2 σ σ + n1 n2 2 1 2 2 = (13 − 13.5) 3 3.5 + 80 120 = -1.94. Paso 3: Para α = 0.05 , P ( Z > zteórico ) = 0.05 = α o P ( Z < zteórico ) = 0.95 , por lo que zteórico = 1.96 . Luego, la región de rechazo es el intervalo (- ∞, -1.96) ó el intervalo (1.96, ∞). Paso 4: Como el valor del estadístico de prueba zc =-1.94 no cae en el intervalo indicado, podemos decir que la diferencia encontrada entre las medias de las muestras, no es significativa al nivel de significación 0.05. 143 Poblaciones independientes: igualdad de medias cuando las varianzas poblacionales son desconocidas e iguales Si X e Y son variables aleatorias independientes con distribuciones N (µ1 , σ 2 ) y N (µ2 , σ 2 ) respectivamente; entonces, las medias muestrales X 1 y X 2 , correspondientes a muestras de tamaño σ2 n1 y n2 , tienen las siguientes distribuciones N µ1, y n1 σ2 N µ2 , . Luego, la variable aleatoria n2 Z= (X 1 X1 − ) − X 2 − (µ1 − µ2 ) , tiene distribución σ σ2 + n1 n2 2 X 2 estandarizada N (0,1) . Como la varianza poblacional es desconocida, tiene que ser estimada y en lugar de la variable estandarizada Z, se tiene la variable aleatoria: t= ( X 1 − X 2 ) − (µ1 − µ2 ) 1 1 S + n1 n2 , cuya distribución es t-Student con 2 p (n1 + n2 − 2 ) y se denota con t( n +n −2) . El estimador de la varian1 za poblacional es S p2 = 2 (n − 1)S + (n − 1)S n +n −2 2 1 1 1 1 2 2 . 2 Así, en lugar de la estadística de prueba zc = la estadística de prueba tc = ( x1 − x2 ) 1 1 s 2p + n1 n2 . s 2p = (x − x ) 1 2 σ2 σ2 + n1 n2 , se usa (n − 1)s + (n − 1)s n +n −2 2 1 1 1 2 2 2 es 2 la varianza combinada de las dos muestras, s12 y s22 son las estimaciones de las varianzas muestrales de tamaños n1 y n2 . A continuación se presenta el resumen de las hipótesis con144 trastadas, la estadística de prueba y la regla de decisión. Ejemplo 3.10 Un investigador en el campo educativo sostiene que el módulo didáctico empleado en la enseñanza de Matemáticas es uno de los factores que influye y determina en el proceso de enseñanza aprendizaje y por lo tanto, el módulo adoptado incidirá Hipótesis Estadística de prueba Regla de decisión Rechazar la hipótesis : u1 = u2 , si 0 H H H H H H H : µ1 = µ2 : µ1 > µ2 1 0 : µ1 = µ2 : µ1 < µ2 1 1 1 s 2p + n1 n2 : µ1 = µ2 : µ1 ≠ µ2 1 0 con el SPSS: p _ value < α ( x1 − x2 ) tc = 0 tc > tteórico ( x1 − x2 ) tc = tc < −tteórico 1 1 s 2p + n1 n2 con el SPSS: p _ value < α tc > tteórico ( x1 − x2 ) tc = 1 1 s 2p + n1 n2 equivalentemente tc > tteórico ó tc < −tteórico con el SPSS: p _ value < α H Para H Para H Para tteórico = t( 1 1 1 (n n : µ < µ , P(t(n n : µ1 > µ2 , P t( 1 2 1 + + 1 2 −2 2 −2 ) )= α donde t =t t ) > tteórico = α donde teórico ( n1+n2 − 2,1−α ) ) < tteórico teórico = − t( n1+n2−2,1−α ) : µ1 ≠ µ2 , P t( + −2 ) > tteórico = α / 2 donde n n n1+n2 −2,1−α / 2 ) ó 1 2 tteórico = −t( n1+n2−2,1−α / 2 ) . 145 en el rendimiento académico de los estudiantes. Para verificar su hipótesis decide realizar el siguiente experimento: durante un semestre se llevó a cabo el trabajo lectivo en dos grupos independientes de estudiantes de la misma carrera en la misma universidad, empleando dos módulos (A y B) de características bien diferenciadas, que fueron seleccionados aleatoriamente. Al final del curso se aplicó el mismo examen y se obtuvo las siguientes notas. Suponiendo que las muestras provienen de poblaciones normales con varianzas iguales, ¿los resultados encontrados por el profesor apoyan la hipótesis de investigación con nivel de significación 0.10?. Solución Método A 15 16 15 13 13 16 16 Método B 13 14 14 11 12 14 13 14 17 Paso 1: La hipótesis nula indica que no existe diferencia entre el rendimiento promedio alcanzado aplicando con el método A y el rendimiento promedio alcanzado con el método B; mientras que la hipótesis alternativa dice que los rendimientos promedio son diferentes. Así: H 0 : µ1 = µ2 H1 : µ1 ≠ µ2 Paso 2 Se explica con detalle la obtención de las media y varianzas de las muestras: Suponiendo que las varianzas poblaciones son iguales se estima con: 146 s 2p = (n − 1)s + (n − 1)s n +n −2 2 1 1 1 2 2 2 2 (x Notas de los estudiantes método A 1i − x1 = 8(2) + 6(1.333) = 1.7141 14 ) Notas de los estudiantes método B 2 x1i 0 1 0 4 4 1 1 1 4 16 x1 = 1 n1 135 = 15 ∑ x 1i = n1 i =1 9 s12 = 1 n1 ∑ n1 − 1 i =1 s22 = (x 1i − x1 ) 13 14 14 11 12 14 13 ---91 tc = ) 2 0 1 1 4 1 1 0 8 n1 = 9 16 =2 8 2 = 1 n2 91 = 13 ∑ n21 i =1 x2i = 7 1 n2 ∑ n2 − 1 i =1 2i − x2 x2 i 15 16 15 13 13 16 16 14 17 135 x2 = (x (x 2i − x 2 ( x1 − x2 ) 1 1 s 2p + n1 n2 ) n2 = 7 2 = 8 = 1.333 7 15 − 13 = 1 1 1.7141 + 9 7 = 3.031. Paso 3: Para α = 0.10 P t(n +n −2 ) > tteórico = α , con 14 grados de libertad, tteórico = t( n1+n 2 −2,1−α / 2 ) = t(14,0.975) = 1.761 ó tteórico = −t( n +n −2,1−α / 2) = t(14,0.975) = -1.761. Luego, la región de rechazo es el intervalo (- ∞, -1.761) ó el intervalo (1.761, ∞). 1 2 1 2 147 Paso 4: Como el valor del estadístico de prueba tc = 3.031 cae en el intervalo (1.761, ∞), podemos decir que la diferencia encontrada entre las medias muestrales es significativa al nivel de significación 0.10. Ejemplo 3.11 -1.76 1.76 Resolveremos el ejemplo 3.10 usando el auxilio del software estadístico SPSS. Solución Paso 1: La hipótesis nula indica que no existe diferencia entre el rendimiento promedio alcanzado aplicando con el método A y el rendimiento promedio alcanzado con el método B; mientras que en la hipótesis alternativa se postula que los rendimientos promedio son diferentes. Así: H 0 : µ1 = µ2 H1 : µ1 ≠ µ2 Paso 2: Con el auxilio del SPSS, se ejecutan los siguientes comandos. a) b) 148 Activar el SPSS. Abrir el archivo de DATOS2-métodos. Podrá observar que tenemos valores de dos variables: de la variable rendimiento de los estudiantes y de la variable grupo, donde se clasifica a los estudiantes según el método de enseñanza. En la variable grupo, se ha codificado con 1 a quienes recibieron la ense- c) ñanza con el método A y con el código 2 a quienes estudiaron con el método B. Ejecutar los siguientes comandos del SPSS que permitirán encontrar el valor de que luego se comparará con el valor de encontrado en la tabla t Student. ANALIZE/COMPARE MEANS/ INDEPENDENT-SAMPLE T-TEST/ llevar a TEST VARIABLE la variable creada RENDIMIENTO/ en GROUPING VARIABLE elegir GRUPO/ DEFINE GROUPS/ en grupo1 colocar 1 y en grupo2 colocar 2/ CONTINUE/ OK. En el output del SPSS se tiene el valor de tc = 3.031. Paso 3: p _ value debe compararse con α 2 = 0.05 , pues si p _ value / 2 < α / 2 se rechaza la hipótesis nula. Paso 4: Como el valor de p _ value = 0.009 es menor que < α / 2 , la decisión es rechazar la hipótesis nula. Es decir, podemos decir rendimiento Equal variances assumed t df Sig. (2-tailed) = 3.031 14 .009 p _ value que la diferencia encontrada entre las medias muestrales es significativa al nivel de significación 0.10. Poblaciones independientes: igualdad de medias cuando las varianzas poblacionales son desconocidas y diferentes Si X 1 e X 2 son variables aleatorias independientes con distribu- ( ) ( ) ciones N µ1 , σ 12 y N µ2 , σ 22 respectivamente; entonces, las me- 149 dias muestrales X 1 y X 2 , correspondientes a muestras de tama- σ2 ño n1 y n2 , tienen las siguientes distribuciones N µ1 , 1 y n1 2 σ N µ2 , 2 n2 . Si no se conocen las varianzas de las variables X 1 e X 2 , éstas 1 n1 ( 2 se estiman con s1 = n − 1 ∑ x1i − x1 i =1 1 estadística de prueba es, tc = )y 2 s22 = ( x1 − x2 ) s12 s22 + n1 n2 1 n2 ∑ n2 − 1 i =1 (x 2i − x 2 ) y la 2 . Los grados de libertad s12 s22 n1 + n2 de la estadística son k , donde: k = 2 s12 s22 n n 2 1 + n1 + 1 n2 + 1 2 2 −2. Si k ≥ 30 , el estadístico tc tiene distribución aproximadamente normal y el procedimiento es similar al caso donde se conocen las varianzas. Si las muestras son suficientemente grande ( n1 ≥ 30 y n2 ≥ 30 ) e independientes, para probar la hipótesis respecto a la igualdad de medias, se usa como valor de la estadística de prueba z= 150 (x − x ) , que corresponde a una variable cuya distribución 1 2 1 2 s s2 + 2 n1 n2 es normal estándar. Ejemplo 3. 12 Un investigador en el campo educativo sostiene que el módulo didáctico empleado en la enseñanza de Matemáticas es uno de los factores que influye y determina en el proceso de enseñanza aprendizaje y por lo tanto, el módulo adoptado incidirá en el rendimiento académico de los estudiantes. Para verificar su hipótesis decide realizar el siguiente experimento: durante un semestre se llevó a cabo el trabajo lectivo para dos grupos de estudiantes de la misma carrera en la misma universidad, empleando dos módulos (A y B) de características bien diferenciadas. Al final del curso se aplica Método A 15 16 15 13 13 16 16 14 Método B 13 18 14 17 12 17 13 17 el mismo examen y se obtuvo las siguientes notas. Suponiendo que las muestras provienen de poblaciones normales con varianzas diferentes. ¿Los resultados encontrados por el profesor apoyan la hipótesis de investigación?. Use nivel de significación 0.10. Solución Paso 1: La hipótesis nula indica que no existe diferencia entre el rendimiento promedio alcanzado aplicando el método A y el rendimiento promedio alcanzado con el método B; mientras que la hipótesis alternativa dice que los rendimientos promedio son diferentes. Así: H 0 : µ1 = µ2 H1 : µ1 ≠ µ2 Paso 2: Con el auxilio del SPSS, se ejecuta lo siguiente: 151 a) b) c) Activar el SPSS. Abrir el archivo de DATOS3-diferentes. ANALIZE/COMPARE MEANS/ INDEPENDENT-SAMPLE T-TEST/ llevar a TEST VARIABLE la variable creada RENDIMIENTO/ en GROUPING VARIABLE elegir GRUPO/ DEFINE GROUPS/ en grupo1 colocar 1 y en grupo2 colocar 2/ CONTINUE/ pulsar el comando OK. En el output del SPSS se tiene directamente el valor de F Sig. T df Sig. (2-tailed) p _ value rendimiento Equal variances not assumed .139 9.151 .892 tc = 0.139 con 9 grados de libertad. Sólo con fines didácticos, vamos a ejecutar los comandos: ANALIZE/COMPARE MEANS/ MEANS/ para DEPENDENT LIST elegir RENDIMIENTO y para INDEPENDENT LIST elegir GRUPO/ elegir OPTIONS/ seleccionar VARIANCA/ CONTINUE/ OK. grupo N Variance 1 2 Total 9 7 16 2.000 5.810 3.396 El output del SPSS nos muestra los siguientes resultados: con los que comprobaremos el valor de los grados de libertad: 152 s12 s22 n1 + n2 k= 2 s12 s22 n n 1 2 + n1 + 1 n2 + 1 2 2 [(2 9 )+ (5.81 7 )] 2 −2 = ( 2 9 ) + (5.81 7 ) 2 2 9 +1 − 2 = 9.15 7 +1 Paso 3: El valor de p _ value / 2 debe compararse con α 2 = 0.025 , pues si p _ value < α , se rechaza la hipótesis nula. Paso 4: Como el valor de p _ value = 0.892 no es menor que < α = 0.10, la decisión es no rechazar la hipótesis nula. Es decir, podemos decir que no existe información suficiente para rechazar la hipótesis nula con el nivel de significación 0.10. Poblaciones independientes: Pruebas de hipótesis para la diferencia de proporciones π 1 y π 2 En las poblaciones 1 y 2, con respectivas proporciones poblacionales π 1 y π 2 ( de estudiantes, profesores, etc., para ser más genéricos, de "unidades"), con determinados atributos; se desea contrastar la hipótesis nula H 0 : π 1 = π 2 con cualquiera de las hipótesis alternativas: H 1 : π 1 ≠ π 2 , H 1 : π 1 > π 2 ó H 1 : π 1 < π 2 . Los parámetros que son las proporciones poblacionales tienen como estimadores en cada una de las muestras: P1 = P2 = A y n1 B , donde es el número de elementos con el atributo de inn1 terés en la primera muestra y es el número de elementos con el mismo atributo en la segunda muestra. Cuando las muestras son ( P1 − P2 ) − (π 1 − π 2 ) suficientemente grandes, la estadística tiene 1 1 P (1 − P ) + n1 n2 distribución aproximadamente normal, donde P = n1P1 + n2 P2 . n1 + n2 Si la hipótesis nula es verdadera, una estimación común de 153 Hipótesis H 0 : π1 = π 2 H1 : π 1 > π 2 H 0 : π1 = π 2 H1 : π 1 < π 2 Estadístico de prueba zc = zc = H 0 : π1 = π 2 z = c H1 : π 1 ≠ π 2 p1 − p2 1 1 p (1 − p ) + n1 n2 p1 − p2 1 1 p (1 − p ) + n1 n2 p1 − p2 1 1 p (1 − p ) + n1 n2 Regla de decisión Rechazar la hipótesis H 0 : π 1 = π 2 , si zc > zteórico ó ( zteórico , ∞) con el SPSS: p _ value < α zc > zteórico ó ( zteórico , ∞) Con el SPSS: p _ value < α zc > zteórico equivalentemente zc > zteórico ó zc < zteórico Con el SPSS: p _ value < α π 1 = π 2 = π , es p = dística de prueba n1 p1 + n2 p2 y se puede usar como la estan1 + n2 p1 − p2 . A continuación se presenta 1 1 p (1 − p ) + n1 n2 el resumen para cada una de las posibles hipótesis alternativas y las respectivas regiones de rechazo. Ejemplo 3.13 200 estudiantes fueron divididos aleatoriamente en dos grupos, cada uno de 100. Los de la muestra 1 aprendieron determinado material en el cual se enuncia verbalmente el concepto de transiti- 154 vidad, a continuación de lo cual se dieron varios ejemplos de la situación. A los estudiantes del grupo 2 se les expuso ejemplos, tras de lo cual se enunció verbalmente el concepto de transitividad. Son dos las poblaciones subyacentes a las muestras y que hubieran podido participar en el experimento. Seguidamente se administró una prueba de ítems a los 200 estudiantes, para determinar si dominan el concepto de transitividad, pues, se desea saber si en estas dos poblaciones de estudiantes, las respectivas proporciones π 1 y π 2 que manejan la transitividad son o no iguales (el criterio es el número de respuestas correctas en la prueba de ítems). Al finalizar el experimento, 68 estudiantes de la muestra 1 y 54 estudiantes de la muestra 2 dominaban el concepto de transitividad. Veamos si existe diferencia en las proporciones poblacionales. Usemos α = 0.05 . Solución π 1 : proporción de estudiantes de la población 1 que manejan el concepto de transitividad. Se enunció el concepto y luego los ejemplos. π 2 : proporción de estudiantes de la población 2 que manejan el concepto de transitividad. Se enunció primero los ejemplos y luego el concepto. p1 : proporción de estudiantes de la muestra observada que manejan el concepto de transitividad, habiendo estudiado primero el concepto y luego los ejemplos. : p2 proporción de estudiantes de la muestra observada que manejan el concepto de transitividad, habiendo estudiado primero los ejemplos y luego el concepto. p1 = B 54 A 68 = = 0.68 y p2 = = = 0.54 n1 100 n1 100 p= 100(0.68) + 100(0.54) = 0.61 200 Paso 1: La hipótesis nula indica que no existe diferencia entre las proporciones poblacionales de los estudiantes que aprendieron el 155 concepto de transitividad con los dos métodos ya descritos. H 0 : π1 = π 2 H 0 : π1 ≠ π 2 Paso 2: Obtenemos el valor del estadístico de prueba: zc = p1 − p2 1 1 p (1 − p ) + n1 n2 = 0.68 − 0.54 1 1 0.61(0.39) + 100 100 = 0.14 =2.03 0.06897 Paso 3: Para α=0.05, P ( Z > zteórico ) = 0.05 = α o P ( Z < zteórico ) = 0.95 . En la tabla normal estándar el el valor de la abcisa que cumple con la condición es zteórico =1.96. Luego, la región de rechazo es el intervalo (- ∞, -1.96) ó el intervalo (1.96, ∞). Paso 4: Como el valor de zc = 2.03 cae en el intervalo (1.96, ∞), podemos decir que la diferencia encontrada entre las proporciones muestrales es significativa al nivel de significación 0.05. Podemos concluir, que si se enuncia el concepto en primer término y a continuación se presentan los ejemplos, se obtiene mejor rendimiento que si la exposición se hiciera en orden inverso. Poblaciones independientes: Pruebas de hipótesis para el cociente de varianzas Cuando probamos las hipótesis con respecto a la igualdad de medias de dos poblaciones normales independientes, en el primer caso se supone que las varianzas poblacionales eran conocidas. Trabajando rigurosamente, ese supuesto debió ser justificado. El procedimiento a seguir para esta prueba es el siguiente. Si X 1 e X 2 son variables aleatorias independientes con distribuciones N (µ1 , σ 12 ) y N µ2 , σ 22 respectivamente; se trata de pro- ( ) σ 12 = 1) σ 22 frente a la hipótesis alternativa H 0 : σ 12 ≠ σ 22 . Cuando la hipóte- bar la hipótesis nula H 0 : σ 12 = σ 22 (equivalentemente H 0 : 156 sis nula es verdadera, la estadística F = S12 tienen distribución S22 F-Snedecor con (n1 − 1)y (n2 − 1) grados de libertad. La estadística de prueba basada en los valores observados de dos muestras independientes, x11 ,...., x1n1 de la variable X 1 y Hipótesis Estadístico de prueba H1 : σ ≠ σ 2 1 Fc > F( n −1,n −1;1−α s12 Fc = 2 s2 H 0 : σ 12 = σ 22 2 2 Regla de decisión Rechazar la hipótesis H 0 : σ 12 = σ 22 , si 1 2 1 2 ó 2) Fc > F( n −1,n −1;1−α 2 ) 2 x21,...., x2,n 2 de la variable X 2 respectivamente, es: F c= s12 , que s2 se comparará con el valor teórico de la abscisa de la distribución F con (n1 − 1) y (n2 − 1) grados de libertad. Se rechaza la hipótesis nula, si el valor de la estadística calculada se encuentra ya sea en la cola inferior o en la cola superior correspondiente a α , de la distribución F-Snedecor, con (n1 − 1) 2 y (n2 − 1) grados de libertad. Ejemplo 3.14 Un investigador en el campo educativo sostiene que el módulo didáctico empleado en la enseñanza de Matemáticas es uno de los factores que influye y determina en el proceso de enseñanza aprenMétodo A 15 16 15 13 13 16 16 Método B 13 14 14 11 12 14 13 14 17 dizaje y por lo tanto, el módulo adoptado incidirá en el rendimiento académico de los estudiantes. Para verificar su hipótesis decidió realizar el siguiente experimento: durante un semestre llevó a cabo el trabajo lectivo para dos grupos de estudiantes de la misma carrera en la misma universidad, empleando dos módulos (A y B) 157 de características bien diferenciadas. Al final del curso aplicó el mismo examen a todos los estudiantes y obtuvo las siguientes notas. ¿Se puede decir que existe diferencia en la variabilidad de los rendimientos empleando los módulos A y B?. Supongamos normalidad en la distribución de las variables consideradas y usemos el nivel de significación 0.20. Solución Observamos que los datos corresponden al problema 3.10, por lo que, donde sea necesario, usaremos los resultados ya encontrados. Paso 1: La hipótesis nula indicará que no existe diferencia entre las varianzas de las dos poblaciones: H 0 : σ 12 = σ 22 H1 : σ 12 ≠ σ 22 Paso 2: Para obtener el valor de la estadística de prueba, tomamos del ejemplo 3.10 los valores de los tamaños de muestra n1 = 9 , n2 = 7 y los valores de las varianzas muestrales: s12 = 1 n2 ∑ n1 − 1 i =1 (x 1i − x1 ) = 168 = 2 2 2 y s2 = 1 n2 ∑ n2 − 1 i =1 (x 2i − x 2 ) 2 = 8 = 1.333 . Luego, obtenemos el valor de la estadística de prueba: 7 s2 2 f c = 12 = = 1.5 s2 1.33 ( ) Paso 3: Para α=0.02 P F(n1 −1,n2 −1) > f teórico = 0.01 = α / 2 . Si en el paso 2, siempre elegimos como numerador la mayor varianza, sólo se ( ) analiza P F(n1 −1,n2 −1) > f teórico = α / 2 y la región crítica se reduce al intervalo ( f teórico , ∞). En el presente problema, los grados de libertad son 8 y 6 respectivamente, entonces para P F(8,6 ) > f teórico = 0.10 tenemos ( 158 ) f teórico = 8.1, por lo que la región crítica es el intervalo (8.1, ∞). Paso 4: Como el valor del estadístico de prueba f c =1.5 no cae en el intervalo (8.1, ∞), podemos decir que la diferencia encontrada entre las proporciones muestrales no es significativa al nivel de significación 0.02. Podemos concluir, que fue razonable el supuesto considerado en el ejemplo 3.11 respecto a las varianzas poblacionales. Ejercicios Usted es un inspector de escuelas públicas y realiza un experimento para investigar si la habilidad de lectura de estudiantes de primer año de secundaria ha mejorado o no. En una muestra aleatoria de 185 estudiantes de esta población encuentra una habilidad media de lectura igual a 75 palabras por minuto. Las notas nacionales sobre la habilidad de lectura, para los estudiantes del primer año de secundaria, muestran una distribución normal con media 80 palabras por minuto y una desviación estándar igual a 12. Todo puntaje por debajo de 80 se considera deficiente. ¿Es razonable considerar que la habilidad de lectura de los estudiantes de quinto de secundaria es deficiente?. Suponga normalidad y α = 0.10. Use la metodología correspondiente para dar respuesta a la pregunta planteada. El Director Académico del centro pre universitario de la UFV tiene la percepción de que el rendimiento académico durante el primer año de estudios en la universidad, de los alumnos ingresantes a través de la institución que dirige ha sufrido cambios en los últimos años. Sabe que históricamente los alumnos han tenido un rendimiento promedio de 14 puntos. Para confirmar su percepción llevó a cabo un estudio, para el que escogió una muestra aleatoria de 150 alumnos que ingresaron el año 2004 a través del centro pre universitario y pidió al sistema de matrícula el rendimiento de cada uno de estos alumnos durante el año académico 2004. Para dicha muestra obtuvo de rendimiento pro- 159 medio 14.5 puntos con desviación estándar 0.5 puntos. ¿Existe evidencia muestral para decir si es cierta la percepción del Director Académico?. Suponga normalidad y α = 0.10. Use la metodología correspondiente para dar respuesta a la pregunta planteada. en ómnibus caminando x1 = 145 x2 = 135 Para determinar el efecto sobre el desarrollo psicológico de los escolares que tienen que viajar a la escuela en ómnibus de servicio público, se tomó una prueba de ansiedad a un grupo de 40 escolares que usan este sistema de transporte y a 30 escolares que van caminando al colegio. Se sabe que las desviaciones estándar en ambas poblaciones son 9 y 12 respectivamente. Los resultados de la prueba de ansiedad son los siguientes: Suponiendo normalidad, ¿se puede concluir que efectivamente el uso del ómnibus aumenta la ansiedad en los escolares?. Use α = 0.05. Usted es un inspector de escuelas públicas y realiza un experimento para investigar si la habilidad de lectura de estudiantes de segundo año de secundaria ha mejorado. En una muestra aleatoria de 95 estudiantes de esta población encuentra una habilidad media de lectura igual a 80 palabras por minuto. Las notas nacionales sobre la habilidad de lectura, para los estudiantes del segundo año de secundaria, muestran una distribución normal con media 78 palabras por minuto y una desviación estándar igual a 10. ¿Es razonable considerar que la habilidad de lectura de los estudiantes de quinto de secundaria ha mejorado?. Use α = 0.10. El Director Académico del centro pre universitario de la UFV tiene la percepción de que el rendimiento académico durante el primer año de estudios en la universidad, de los alumnos ingresantes a través de la institución que dirige mejora año a año. Sabe que históricamente los alumnos de primer año han teni- 160 do un rendimiento promedio de 13 puntos. Para confirmar su percepción llevó a cabo un estudio, para el que escogió una muestra aleatoria de 25 alumnos que ingresaron el año 2004 a través del centro pre universitario que dirige y pidió al sistema de matrícula el rendimiento de cada uno de estos alumnos durante el año académico 2004. Para dicha muestra obtuvo un rendimiento promedio de 13.9 puntos con desviación estándar 0.45 puntos. ¿Existe suficiente evidencia muestral para decir que es cierta la percepción del Director Académico?. Suponga normalidad y use α = 0.10 Antes de aplicar el Plan Huascarán en el distrito de Cajatambo, el rendimiento promedio de los estudiantes de primer año de primaria era de 12 puntos. Para determinar si el Plan ha sido efectivo en el incremento del rendimiento de los estudiantes, se observaron al azar a 150 estudiantes después de aplicar el plan durante un año académico, obteniéndose de rendimiento promedio 13.5 puntos con desviación estándar 2.1 puntos. Al nivel de significación 0.05 ¿se podría decir que existe evidencia de el rendimiento promedio ha aumentado?. Use la metodología correspondiente para dar respuesta a la pregunta planteada y de ser necesario suponga normalidad. Hace tres años el Ministro de Educación afirmó que históricamente la tasa de deserción estudiantil en el nivel primario es del 20%. En los últimos dos años el gobierno ha realizado programas especiales para que dicha tasa disminuya sustancialemte. La información del año pasado señala que la tasa de deserción fue del 17%. ¿Qué puede decirse de la afirmación del Ministro de Educación?. De ser necesario suponga normalidad y use a) α = 0.05 b) Use α = 0.10. Un investigador en el campo educativo sostiene que el módulo didáctico empleado en la enseñanza de Matemáticas es uno de los factores que influye y determina en el proceso de enseñanza aprendizaje y por lo tanto, el módulo adoptado incidirá en el rendimiento Método A 12 13 12 10 10 13 13 11 14 Método B 16 17 117 14 15 17 16 16 15 161 académico de los estudiantes. Para verificar su hipótesis decide realizar el siguiente experimento: durante un semestre se llevó a cabo el trabajo lectivo para dos grupos de estudiantes de la misma carrera en la misma universidad, empleando dos módulos (A y B) de características bien diferenciadas. Al final del curso se aplica el mismo examen y se obtuvo las siguientes notas: Suponiendo que las muestras provienen de poblaciones normales con varianzas iguales, ¿los resultados encontrados por el profesor apoyan la hipótesis de investigación?. Suponga normalidad de las variables consideradas y use nivel de significación 0.10. Un grupo de 350 estudiantes fueron divididos aleatoriamente en dos subgrupos de 100 y 150 estudiantes. Los de la muestra 1 aprendieron determinado material en el cual se enuncia verbalmente el concepto de transitivitas de "más alto que", a continuación de lo cual se dieron varios ejemplos de la situación; a los estudiantes del grupo 2 se les expuso ejemplos tras de lo cual se enunció verbalmente el concepto. Son dos poblaciones, subyacentes a las muestras y que hubieran podido participar en el experimento. Seguidamente se administró una prueba para determinar si dominan el concepto de transitividad, pues, se desea saber si en estas dos poblaciones de estudiantes, las respectivas proporciones π1 y π2 que manejan la transitividad son o no iguales (el criterio es el número de respuestas correctas en la prueba de ítems). Al finalizar el experimento, 62 estudiantes de la muestra 1 y 70 estudiantes de la muestra 2 dominaban el concepto de transitividad. ¿Existe diferencia en las proporciones poblacionales. Use α = 0.05. En una investigación conducida por una estudiante del doctorado en Educación las poblaciones fueron las siguientes: los estudiantes del tercer grado de primaria de colegios estatales, cuyas edades fluctuaban entre 8 años y 12 años de edad, residentes en el Cercado del Distrito del Callao, pertenecientes al estrato socioeconómico bajo, y los estudiantes del tercer grado de primaria de colegios particulares, cuyas edades fluctuaban entre 8 años y 12 años 162 de edad, residentes en el Cercado del Distrito del Callao, pertenecientes al estrato socioeconómico medio. Por el costo de la investigación, es decir, por razones económicas, administrativas y algo de dispersión geográfica se consideró conveniente trabajar con dos muestras aleatorias independientes, una de cada una de las poblaciones ya descritas. Las variables investigadas fueron los puntajes en las siguientes pruebas: Nivel de p. análisis fonémico (PAF) Nivel socio económico BAJO MEDIO Variables PAF PCF TEDE PCL MEDIA DESVIACIÓN ESTÁNDAR TAMAÑO MUESTRA 25.1 48.9 67.7 12.5 5.7 6.9 5.5 2.9 15 15 15 15 MEDIA DESVIACIÓN ESTÁNDAR TAMAÑO MUESTRA 27.5 56.5 91.1 15.4 3.1 6.9 5.5 3.2 18 18 18 18 Niveles de decodificación lectora (TEDE) Niveles de comprensión lectora (PCL) Nivel de p. con. fon' (PCF) Los resultados descriptivos de la investigación fueron los siguientes: a) b) Suponiendo normalidad se puede concluir que efectivamente: La media de los puntajes en el nivel de P. Análisis Fonémico (PAF) es superior en el estrato medio con respeto al estrato bajo?. Use α = 0.10. La media de los puntajes en el nivel de Decodificación Lectora (TEDE) es superior en el estrato medio con respeto al estrato bajo?. Use α = 0.10. 163 c) d) La media de los puntajes en el nivel de Comprensión Lectora (PCL) es superior en el estrato medio con respeto al estrato bajo?. Use α = 0.10. La media de los puntajes en el nivel de P.Con.Fon' (PCF) es Nivel socio económico BAJO MEDIO Variables PAF PCF TEDE PCL MEDIA DESVIACIÓN ESTÁNDAR TAMAÑO MUESTRA 25.1333 58.8333 3.5 3.0 5.1 3.0 35 35 35 35 MEDIA DESVIACIÓN ESTÁNDAR TAMAÑO MUESTRA 29.5333 65.3667 3.5 3.4 5.0 3.5 40 40 40 40 97.7000 14.3000 102.2667 16.0333 superior en el estrato medio con respeto al estrato bajo?. Use α = 0.10. Para la misma investigación descrita en el ejercicio 3.3, los resultados de otras dos muestras independientes fueron las siguientes: a) b) c) 164 Suponiendo normalidad se puede concluir que efectivamente: La media de los puntajes en el nivel de P. Análisis Fonético (PAF) es superior en el estrato medio con respeto al estrato bajo?. Use α = 0.10. La media de los puntajes en el nivel de Decodificación Lectora (TEDE) es superior en el estrato medio con respeto al estrato bajo?. Use α = 0.10. La media de los puntajes en el nivel de Comprensión lectora (PCL) es superior en el estrato medio con respeto al estrato bajo?. Use α = 0.10. d) La media de los puntajes en el nivel de P.Con.Fon' (PCF) es superior en el estrato medio con respeto al estrato bajo?. Use α = 0.10. En los ejercicios 3.10 y 3.11 haga las correspondientes pruebas de hipótesis para comparar las varianzas poblacionales en cada uno de los casos. Use α = 0.10. Si su decisión es contraria al supuesto que planteó con respecto a las varianzas, en cada uno de los ejercicios, a la luz de los resultados vuelva a resolverlos. En una investigación realizada por una estudiante del doctorado en Educación, la Población objetivo fueron los alumnos matriculados en las diferentes sedes del programa de Formación Docente Semi-escolarizado y autofinanciado de la Universidad Nacional Faustino Sánchez Carrión de Huacho, y que en 1997 fueron un total de 1500 alumnos. Por razones económicas, administrativas y de dispersión geográfica se consideró como población muestreada (objeto de la presente investigación) las sedes de Barranca, Huacho y Huaral. Las variables estudiadas fueron: Rendimiento en la prueba de comprensión lectora. Notas Sede Huacho Barranca Huaral Total número alumnos desviación estándar media muestral 18 7 5 2.80 1.68 1.29 12.0 13.5 13.0 30 Rendimiento promedio en cursos de humanidades. Rendimiento promedio en cursos de ciencias. A continuación se presentan los resultados de la prueba de comprensión lectora aplicada a las muestras aleatorias obtenidas de cada una de las sedes: 165 Suponiendo normalidad, se puede concluir con un nivel de significación: a) b) c) El rendimiento promedio de los estudiantes de la sede de Huacho es igual al rendimiento promedio de los estudiantes de la sede de Barranca?. El rendimiento promedio de los estudiantes de la sede de Huaral es igual al rendimiento promedio de los estudiantes de la sede de Barranca?. El rendimiento promedio de los estudiantes de la sede de Huacho es igual al rendimiento promedio de los estudiantes de la sede de Huaral?. En una investigación realizada por una estudiante del doctorado en Educación, la Población objetivo fueron los alumnos matriculados en las diferentes sedes del programa de Formación Docente Semi-escolarizado y autofinanciado de la Universidad Nacional Faustino Sánchez Carrión de Huacho, y que en 1997 fueron un total de 1500 alumnos. Por razones económicas, administrativas y de dispersión geográfica se consideró como población muestreada (objeto de la presente investigación) las sedes de Cajatambo, Churín y Copa. Las variables estudiadas fueron: Rendimiento en la prueba de comprensión lectora. Notas Sede Cajatambo Churín Copa Total 166 número alumnos desviación estándar media muestral 60 35 45 4.80 2.68 2.68 11.0 10.5 13.0 140 Rendimiento promedio en cursos de humanidades. Rendimiento promedio en cursos de ciencias. A continuación se presentan los resultados de la prueba de comprensión lectora aplicada a las muestras aleatorias obtenidas de cada una de las sedes. Suponiendo normalidad, se puede concluir con un nivel de significación: a) b) c) El rendimiento promedio de los estudiantes de la sede de Cajatambo es igual al rendimiento promedio de los estudiantes de la sede de Churín?. El rendimiento promedio de los estudiantes de la sede de Cajatambo es igual al rendimiento promedio de los estudiantes de la sede de Copa?. El rendimiento promedio de los estudiantes de la sede de Churín es igual al rendimiento promedio de los estudiantes de la sede de Copa?. En los ejercicios 3.13 y 3.14 haga las correspondientes pruebas de hipótesis para comparar las varianzas poblacionales en cada uno de los casos. Use Si su decisión es contraria al supuesto que planteó con respecto a las varianzas, en cada uno de los ejercicios, a la luz de los resultados vuelva a resolverlos. 167