Conceptos Relacionados con Pruebas de Hipótesis Juan Moncada Herrera Dpto. de Cs. Matemáticas y Fı́sica Universidad Católica de Temuco, Chile E-mail:[email protected] Temuco, 11 de enero de 2014 Conceptos relativos a Pruebas de Hipótesis Notación y simbologı́a n: ni : p: q: pi : X: X i: µ: S: Si : σ: σ2: σi2 : θ: θ̂: α: 1 − α: β: 1 − β: v−p: Tamaño de muestra. Tamaño de la muestra i. Parámetro de la distribución Bernoulli (y binomial). Probabilidad de éxito. Probabilidad de fracaso. Corresponde a 1 − p. Proporción de la población i. Media muestral obtenida a partir de la muestra X1 , X2 , . . . Xn . Promedio de la muestra i. Media poblacional. Desviación estándar (llamada también desviación tı́pica) de la muestra. Desviación tı́pica de la muestra i. Desviación tı́pica poblacional. Varianza poblacional. Varianza de la población i. Parámetro de una población. Estimador del parámetro θ. Nivel de significación. También conocida como probabilidad de error Tipo I. Nivel de confianza. Probabilidad de error Tipo II. Potencia de una prueba. Valor p. También conocido como p-value. 2 Conceptos relativos a Pruebas de Hipótesis 3 Índice 1. Introducción 4 2. Errores Tipo I y Tipo II 5 3. Reglas de decisión 5 3.1. La lógica de la Región Crı́tica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6 3.2. Uso del p-valor . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7 4. Protocolo para el contraste de hipótesis 8 4.1. Una muestra . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8 4.2. Dos muestras . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10 4.3. Más de dos muestras: Análisis de la Varianza . . . . . . . . . . . . . . . . . . . . 11 5. Un ejemplo de aplicación 12 5.1. El problema y los datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12 5.2. Descripción general de los datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12 5.3. Análisis de la información . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15 5.4. Principales resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16 Conceptos relativos a Pruebas de Hipótesis 1. 4 Introducción Una hipótesis estadı́stica es una afirmación acerca de uno o más parámetros (o acerca de una función de uno o más parámetros) poblacionales. En este sentido, las hipótesis estadı́sticas tienen una importante base aristotélica, en el sentido que tal afirmación puede ser verdadera o falsa. También es importante enfatizar que, a diferencia de un intervalo de confianza (que es un procedimiento esencialmente exploratorio), las hipótesis estadı́sticas se relacionan con procesos más bien confirmatorios. Aparte de la formulación, el proceso más relevante asociado a una hipótesis es la prueba o contraste de dicha hipótesis. Una prueba de hipótesis consiste en contrastar información muestral con información o conocimiento teórico bajo el cual se obtuvieron los datos. En este proceso, por lo tanto, existen dos posibles decisiones: rechazar la hipótesis, o bien no rechazar la hipótesis. Rechazar una hipótesis, a su vez, requiere de una Regla de decisión. Desde un punto de vista operacional, el proceso de prueba de hipótesis requiere de la formulación de dos hipótesis, las que en definitiva son las que se contrastan: la hipótesis nula, simbolizada por H0 , y la hipótesis alternativa, simbolizada por Ha . La prueba de hipótesis consiste, en consecuencia, en evaluar la información muestral a los efectos de rechazar o no rechazar la hipótesis nula. Por ejemplo, si en una población normal, de media µ y desviación tı́pica σ se sospecha que la media es igual a 12, entonces la hipótesis nula establecerá H0 : µ = 12. La hipótesis alternativa, en este caso, dependerá del conocimiento adicional que se tenga acerca de la población en estudio, y particularmente de la información o experiencia que se tenga acerca del parámetro µ. Por ejemplo, si no existe información adicional acerca de µ, la hipótesis alternativa establecerá que Ha : µ 6= 12. Pero si, por el contrario, información a priori permite establecer que la media poblacional podrı́a ser mayor que 12, entonces la hipótesis alternativa debe ser Ha : µ > 12. Las distintas formas de plantear una hipótesis alternativa dan origen a distintos tipo de pruebas de hipótesis. Especı́ficamente, si para un parámetro dado θ la hipótesis alternativa establece Ha : θ 6= θ0 , entonces se la prueba se dice que es bilateral (o de dos colas); si Ha : θ < θ0 , entonces la prueba se dice unilateral a izquierda (de una cola a izquierda); si Ha : θ > θ0 , la prueba se dice que es unilateral a derecha. Un principio básico de toda esta teorı́a es que la hipótesis nula se la considera verdadera, hasta que los datos no indiquen lo contrario. Conceptos relativos a Pruebas de Hipótesis 2. 5 Errores Tipo I y Tipo II Hay que tener presente que un procedimiento de prueba de hipótesis utiliza, entre otros elementos, información muestral para apoyar el proceso de decisión. Por lo tanto tal proceso no está excento de errores. En particular hay dos errores improtantes asociados a todo procedimiento de prueba de hipótesis: El error cometido al rechazar una hipótesis que no deberı́a rechazarse, que se denomina Error Tipo I, y el error cometido al no rechazar una hipótesis que sı́ deberı́a rechazarse. Este error se conoce como Error Tipo II. La probabilidad de cometer error Tipo I se simboliza por α, y se conoce también con el nombre de nivel de significación; la probabilidad de cometer error Tipo II se simboliza por β. Las cantidades 1−α y 1−β se conocen, respectivamente, como nivel de confianza y como potencia de la prueba. Ejemplo. Supóngase que se desea probar la hipótesis H0 : p = 0,5, siendo p el parámetro de una población Bernoulli. A tales efectos se extrajo una muestra aleatoria de tamaño n = 36 de esta población y se definió como regla de decisión rechazar H0 si el promedio muestral es inferior a 0.4, es decir, si X < 0,4. Se pide calcular la probabilidad de error Tipo I. Solución. Como la probabilidad de cometer error Tipo I es la probabilidad de rechazar una hipótesis dado que ella es verdadera, entonces lo que se pide determinar es P r(X < 0,4|p = 0,5). Como X bin(n = 36; p), entonces medinate la aproximación del µ q ¶ teorema de Lı́mite Central puede p(1−p) , lo que para p = 0,5 se reduce a concluirse que, de manera aproximada, X ∼ N p; n X ∼ N (0,5; 0,083). Por lo tanto α = P r(X < 0,4|p = 0,5) = 0, 1141, valor obtenido usando software. Notar que la probabilidad de error Tipo II requiere, necesariamente, de conocer una hipótesis alternativa. Si en el caso del ejemplo una hipótesis alternativa fuese Ha : p = 0,6, entonces la probabilidad de cometer error Tipo II serı́a: ¢ ¡ β = P r X ≥ 0,4|Ha ¢ ¡ Supuesto Ha verdadera, X ∼ N (0,6; 0,082), de modo que β = P r X ≥ 0,4|Ha = 0,9926. 3. Reglas de decisión Como ya se ha visto, una regla de decisión puede establecerse con anterioridad al proceso de prueba. En este caso tal regla de decisión define las condiciones, a priori, bajo las cuales se rechazará una hipótesis nula. Sin embargo esta forma de proceder no siempre es la más utilizada. Conceptos relativos a Pruebas de Hipótesis 6 En la comunidad cientı́fica suelen usarse, de manera muy frecuente, las dos reglas de decisión que a continuación se comentan de manera resumida. 3.1. La lógica de la Región Crı́tica En esta lógica se trata de construir una Región de rechazo o Región Crı́tica y resumir la información muestral en lo que se llama “Estadı́stico de prueba”. Ası́, la regla de decisión establece “Rechazar H0 si la información muestral, resumida en el estadı́stico de prueba supuesto H0 verdadera, pertenece a la Región Crı́tica”. En consecuencia, bajo este criterio se requiere de definir la región crı́tica y calcular el valor del estadı́stico de prueba bajo el supuesto de que H0 es verdadera. La región crı́tica consiste en un conjunto de valores de la distribución asociada al estadı́stico de prueba, los cuales representan una brecha importante respecto de lo que establece H0 . Los lı́mites de esta zona se denominan valores crı́ticos. Una Región crı́tica asociada a una hipótesis bilateral tiene dos valores crı́ticos, mientras que una región crı́tica asociada a una hipótesis unilateral, tendrá sólo un valor crı́tico. Ası́ entonces, la región crı́tica se construye sobre la base de la distribución muestral asociada al estadı́stico de prueba, del tipo prueba (unilateral o bilateral) y de la probabilidad de rechazar H0 cuando ella es verdadera, es decir, en base a la probabilidad de error Tipo I o nivel de significación α. Pero la distribución asociada al estadı́stico de prueba depende, obviamente, del parámetro (o parámetros) en estudio, y por lo tanto de la distribución en estudio. La tabla siguiente contiene la forma de los estadı́sticos de prueba para algunas hipótesis. n es el tamaño de muestra, para el caso de una población, y ni el tamaño de la muestra i−ésima. Hipótesis Estadı́stico de prueba H0 : µ = µ0 H0 : µ1 = µ2 H0 : p1 = p2 T = T = X − µ0 √ S/ n X − X2 p1 Sp / 1/n1 + 1/n2 pb1 − pb2 Z=p (1/n1 + 1/n2 )b p(1 − pb) Distribución asociada t−Student, con n − 1 g.l. t−Student, con n1 + n2 − 2 g.l. Normal estándar Como puede apreciarse, básicamente son dos las distribuciones que eventualmente definen la región crı́tica: la distribución t−Student y la distribución normal. En el caso de la distribución t−Student, para un nivel de significación α, un estadı́stico de prueba observado Tobs a partir de una muestra de tamaño n y una prueba unilateral a izquierda, la región crı́tica está dada por Rc = {T : Tobs < tα/2,n−1 }, donde tα/2,n−1 es el percentil de orden α/2 de una t−Student con Conceptos relativos a Pruebas de Hipótesis 7 n − 1 grados de libertad. La figura siguiente muestra una región crı́tica bilateral, en donde la probabilidad de error Tipo I aparace como un área sombreada. Ejemplo. A partir de una muestra aleatoria de tamaño n = 25 de una población normal, que arrojó una media muestral igual a 9,8 y una desviación estándar igual a 9,8, contrastar las hipótesis H0 : µ = 9,5 y Ha : µ 6= 9,5. Solución. Nótese que la prueba es bilateral y que el valor observado del estadı́stico de prueba X − µ0 √ = 1,875. También observar que la región crı́tica, para un nivel de significación es T = S/ n del 5 %, es Rc = {T : |Tobs | > t0,025,24 }. Usando software, se encuentra que los valores crı́ticos son −2,064 y 2,064. Es decir, la región crı́tica es el conjunto Rc = (−∞; −2,064] ∪ [2,064; ∞). Por lo tanto no deberı́a rechazarse la hipótesis nula, ya que el valor del estadı́stico de prueba no pertenece a esta región crı́tica. Si en lugar de usar un nivel de significación del 5 % se usa uno del 10 %, entonces la región crı́tica cambia a Rc = (−∞; −1,71] ∪ [1,71; ∞), en cuyo caso habrı́a que concluir que la muestra contiene suficiente evidencia como para rechazar H0 . En la sección Protocolo para el contraste de hipótesis se dan más antecedentes acerca de este y otros procedimientos de pruebas. 3.2. Uso del p-valor Un p − valor o valor − p asociado a un contraste de hipótesis es la probabilidad de encontrar tanta o más evidencia que la contenida en la muestra en contra de H0 . En otras palabras, es el menor nivel de significación al que se deberı́a rechazar una hipótesis nula con base en la información muestral disponible. De esta forma, un valor − p pequeño es indicador de que los datos contienen fuerte evidencia en contra de H0 . Es decir, cuanto menor sea el valor − p, mayor es la evidencia contenida en los datos en contra de H0 . Esta lógica en el análisis de hipótesis, y particularmente en el proceso de prueba de hipótesis, difiere radicalmente de aquella basada en la región crı́tica. En efecto, mientras en aquella el nivel de significación se fija a priori, en la lógica del valor − p el nivel de significación se determina a partir de los datos. Es decir, un valor − p es un nivel de significación a posteriori. La comunidad cientı́fica se ha puesto de acuerdo en ciertos Conceptos relativos a Pruebas de Hipótesis 8 umbrales del valor − p para el análisis de hipótesis. Los umbrales más utilizados son 0.05 y 0.01. Es ovbio que el uso de estos valores dependerá del área de estudio y de otras consideraciones que subyacen al tema de investigación. Ası́ por ejemplo, en investigación epidemiológica seguramente se utilizará un valor − p igual a 0.01 como umbral para rechazar una hipótesis, lo mismo en ingenierı́a de alta precisión. pero en estudios de tipo social, en los que los márgenes de error están sijetos a factores externos que a veces resulta difı́cil de controlar, es muy probable que valores del valor − p próximos al 5 % sean adecuados para apoyar el proceso de decisión. En la actualidad la mayorı́a de los software estadı́sticos proveen del valor − p, de modo que su cálculo se hace innecesario. Ejemplo. En base a la información del ejemplo anterior, el valor − p es v-p= 2P r[T24 > Tobs ] = 2P r[T24 > 1,875] = 0,073. Por lo tanto, como este valor es mayor a 0.05, entonces habrı́a que concluir que los datos contenidos en la muestra no son suficientes para apoyar el rechazo de H0 , independientemente del nivel de significación. Es importante insistir en que el nivel de significación y un valor − p no son lo mismo, aunque tienen interpretación similares y ambos ayudan de la misma forma a tomar decisiones respecto de rechazar o no una hipótesis. El valor − p es independiente del nivel de significación fijado previamente, dependiendo únicamente de los datos. En cambio, el uso del nivel de significación podrı́a “manipularse”, como ya se hizo, de modo de cambiar las decisiones. Cuando α se fijó en 5 %, la hipótesi nula no se rechazó; pero cuando α se fijó en 10 % sı́ se rechazó. En cambio el uso del valor − p siempre llevarı́a al rechazo de esta hipótesis. 4. Protocolo para el contraste de hipótesis 4.1. Una muestra 1. ¿Respecto de qué parámetro se efectuará el proceso inferencial? No son muchas las opciones: Sobre una proporción poblacional, sobre una media o sobre una varianza poblacional. Esto limita las cosas a dos poblaciones: la binomial (o Bernoulli) y la distribución normal. Estos aspectos distribucionales hay que tenerlos muy claros antes de proceder con la prueba de las hipótesis. 2. FORMULAR las hipótesis nula y alternativa. Esta parte necesita de un proceso de reflexión sobre las afirmaciones que se intentan corroborar, y no se trata simplemente de formular igualdades y desigualdades. Además, se debe tener presente que la hipótesis alternativa Conceptos relativos a Pruebas de Hipótesis 9 determina si la prueba será unilateral o bilateral. Las hipótesis nulas que pueden estudiarse en el caso de una muestra pueden ser: Para una media poblacional: H0 : µ = µ0 Para una proporción poblacinal: H0 : p = p0 Para una varianza poblacional: H0 : σ 2 = σ02 3. VERIFICAR que los datos de la muestra cumplen el supuesto de normalidad. Si los datos no evidencian provenir de una distribución normal, entonces hay que pensar en alternativas de solución. Entre ellas están: pruebas no parámetricas; categorizar la variable en estudio (agrupar sus valores en categorı́as) y luego estudiar la tabla de contingencia correspondiente; y también la transformación de la variable mediante alguna función normalizante (aunque esto último no es aconsejable, ya que se trata de “forzar”los datos a comportarse de una determinada manera). Una primera aproximación a la validación de este supuesto es el histograma, siempre que la muestra contenga una cantidad suficiente de datos como para construir un histograma. Una forma simétrica del histograma será un buen indicio a favor de la normalidad. Pero aun si el histograma resultase un buen indicador de simetrı́a, se DEBE efectuar una prueba de normalidad a los datos, y más aun si no ha sido posible construir un histograma. Entre las pruebas más comunes están las de KolmogorovSmirnov, la de Shapiro-Wilk (pensada para muestras de tamaño superior a 7 y menores o iguales a 2000), la de Lilliefors (una corrección de la prueba de Shapiro-Wilk),la prueba Chi-cuadrado, la de Anderson-Darling, la de Jarque-Bera, entre otras. Existen también pruebas gráficas, como los gráficos Q − Q y P − P . Una prueba de normalidad tiene como hipótesis nula a H0 : Los datos provienen de una población normal. Se buscará, entonces, no rechazar H0 . 4. Cuando la hipótesis a contrastar es H0 : µ = µ0 , y se ha verificado el supuesto de normalidad de los datos, se procede a efectuar la siguiente pregunta: ¿Se conoce o se desconoce la varianza poblacional? Si la varianza poblacional es conocida, entonces el estadı́stico de prueba sigue una distribución normal estándar. Por el contrario, si la varianza poblacional es desconocida, entonces el estadı́stico de prueba sigue una distribución t − Student con tantos grados de libertad como tamaño muestral menos 1. 5. La decisión estadı́stica. Esta decisión, como ya se comentara en secciones previas, puede hacerse en base al valor del estadı́stico de prueba, cuando H0 es verdadera, y a la región crı́tica. Especı́ficamente, rechaza H0 si el valor observado del estadı́stico de prueba pertenece a la región crı́tica. Otra forma de decidir es utilizando el p−value o valor−p, procedimiento descrito más arriba. Tener presente que el valor − p puede aparecer bajo diferentes nombres: probablidad, nivel de probabilidad, etc. Conceptos relativos a Pruebas de Hipótesis 10 6. La decisión de contexto. Se trata de responder al problema inicial. Habrá que evaluar las consecuencias de la decisión, y sobre la base de un proceso adecuado, razonado, debidamente contextualizado y ético, tomar la decisión que se supone correcta. 4.2. Dos muestras 1. ¿Respecto de qué parámetros se efectuará el proceso inferencial? Es decir, ¿qué parámetros se quiere comparar ? Debe tenerse presente que puede tratarse de comparar dos proporciones poblacionales, dos medias poblacionales o bien dos varianzas poblacionales. Esto nuevamente limita las cosas a dos poblaciones: la binomial (o Bernoulli) y la distribución normal. 2. FORMULAR las hipótesis nula y alternativa. Tener en cuenta que la hipótesis alternativa determina la lateralidad de la prueba. Las hipótesis nulas que pueden estudiarse en el caso de dos muestras pueden ser: Comparación de dos medias poblacionales: H0 : µ1 = µ2 Comparación de dos proporciones poblacinales: H0 : p1 = p2 Comparación de dos varianzas poblacionales: H0 : σ12 = σ22 3. VERIFICAR que los datos de cada muestra cumplen el supuesto de normalidad. Si los datos no evidencian provenir de una distribución normal, entonces hay que pensar en alternativas de solución. Entre ellas están: pruebas no parámetricas; categorizar la variable en estudio (agrupar sus valores en categorı́as) y luego estudiar la tabla de contingencia correspondiente; y también la transformación de la variable mediante alguna función normalizante (aunque esto último no es aconsejable, ya que se trata de “forzar”los datos a comportarse de una determinada manera). Una primera aproximación a la validación de este supuesto es el histograma, siempre que la muestra contenga una cantidad suficiente de datos como para construir un histograma. Una forma simétrica del histograma será un buen indicio a favor de la normalidad. Pero aún si el histograma resultase un buen indicador de simetrı́a, se DEBE efectuar una prueba de normalidad a los datos, y más aún si no ha sido posible construir un histograma. Entre las pruebas más comunes están las de Kolmogorov-Smirnov, la de Lilliefors, la de Shapiro-Wilk, la prueba Chi-cuadrado, la de Anderson-Darling, la de Jarque-Bera, entre otras. Existen también pruebas gráficas, como los gráficos P − P y Q − Q. Una prueba de normalidad tiene como hipótesis nula a H0 : Los datos provienen de una población normal. Se buscará, entonces, no rechazar H0 . 4. Si el contraste a estudiar es el de H0 : µ1 = µ2 , y se ha verificado el supuesto de normalidad de cada conjunto de datos, se procede a efectuar la siguiente pregunta: ¿Se conocen o se Conceptos relativos a Pruebas de Hipótesis 11 desconocen las varianzas poblacionales? Si las varianzas poblacionales son conocidas, entonces el estadı́stico de prueba sigue una distribución normal estándar. Por el contrario, si las varianzas poblacionales son desconocidas, entonces hay que formularse otra pregunta: ¿son homogéneas las varianzas poblacionales?. Esto implica efectuar una prueba de hipótesis (la prueba de homogeneidad de varianzas), en donde las hipótesis son H0 : σ12 = σ22 y H0 : σ12 6= σ22 . Esta prueba se basa en la distribución F-Fisher, conocida también como F-Snedecor. Si la respuesta es afirmativa, entonces el estadı́stico de prueba sigue una distribución t − Student con tantos grados de libertad como tamaño de muestra global menos 2 (es decir, n − 2). Si las varianzas poblacionales fueran no homogéneas, entonces se utiliza una corrección del estadı́stico de prueba, conocida como t-Welch, la que se encuentra implementada en la mayorı́a de los software. Nótese que la ausencia de homogeneidad no “interrumpe”el contraste. 5. La decisión estadı́stica. Esta decisión puedes hacerla en base al valor del estadı́stico de prueba, cuando H0 es verdadera, y a la región crı́tica. Especı́ficamente, rechaza H0 si el valor observado del estadı́stico de prueba pertenece a la región crı́tica. Otra forma de decidir es utilizando el p − value o valor − p, procedimiento descrito anteriormente. 6. La decisión de contexto. Se trata de responder al problema inicial. Habrá que evaluar las consecuencias de la decisión, y sobre la base de un proceso adecuado, razonado, debidamente contextualizado y ético, tomar la decisión que se supone correcta. 4.3. Más de dos muestras: Análisis de la Varianza 1. En esta situación las hipótesis son: H0 : µ1 = µ2 = ... = µp y Ha : µi 6= µj para algún i 6= j. 2. VERIFICAR que cada conjunto de datos cumple el supuesto de normalidad, mediante alguna prueba de normalidad, como las señaladas anteriormente. 3. Una vez que se ha verificado el supuesto de normalidad de cada conjunto de datos, se procede a efectuar la siguiente pregunta: ¿Son homogéneas las varianzas poblacionales? La prueba de la homogeneidad de varianzas puede hacerse por medio de la prueba de Bartlett o por medio de la prueba de Levenne (basada en medias), que son las pruebas más utilizadas. Si las varianzas poblacionales son homogéneas, entonces el estadı́stico de prueba sigue una distribución F −F isher. Por el contrario, si las varianzas poblacionales no son homogéneas, entonces el estadı́stico de prueba a utilizar es el estadı́stico de W elch. Conceptos relativos a Pruebas de Hipótesis 12 4. La decisión estadı́stica. Al igual que para los casos de una y dos muestras, esta decisión puedes hacerla en base al valor del estadı́stico de prueba, cuando H0 es verdadera, y a la región crı́tica, o bien en base al p − value o valor − p. 5. La decisión de contexto. Se trata de responder al problema inicial. Habrá que evaluar las consecuencias de la decisión, y sobre la base de un proceso adecuado, razonado, debidamente contextualizado y ético, tomar la decisión que se supone correcta. 5. 5.1. Un ejemplo de aplicación El problema y los datos En 1999 se realizó un estudio, en el contexto de una tesis de un programa de Magister en Educación, sobre la incidencia de una serie de factores en el rendimiento de alumnos de Primer Año de Educación Media del Liceo Comercial Tiburcio Saavedra de Temuco. Uno de los factores considerados fue el SEXO del estudiante, factor que se ha considerado para los propósitos de este ejemplo. Por su parte, el rendimiento estudiado aquı́ se resume en el Promedio en asignaturas del área cientı́fica (PRCS) del estudiante al finalizar su Primer Año de Educación Media. La información ha sido proporcionada por el autor del trabajo y su uso docente se enmarca en los lı́mites de la ética de la información, que suponemos por todos conocidos. La pregunta que se espera responder en este ejercicio es: ¿En qué medida el sexo del estudiante explica su rendimiento? Desde un punto de vista inferencial esto corresponde a contrastar las hipótesis: H0 : µ1 = µ2 v/s Ha : µ1 6= µ2 en donde µ1 : Promedio en ciencias de las mujeres, µ2 : Promedio en ciencias de los hombres. 5.2. Descripción general de los datos En lo que a composición por SEXo se refiere, os datos disponibles pueden resumirse en el siguiente cuadro. SEXO Hombre:216 Mujer :452 Conceptos relativos a Pruebas de Hipótesis 13 O bien por medio del siguiente gráfico: Antes de proceder a la prueba de las hipótesis anteriores, es necesario explorar la información a los efectos de verificar si ella cumple los supuestos que validan el uso de la metodologı́a. El principal supuesto es, como se dijera más arriba, el de normalidad. Una exploración gráfica de la información, tanto para mujeres como para hombres, se muestra a continuación. Puede apreciarse un importante grado de simetrı́a, lo que deberá confirmarse por medio de alguna prueba de bondad de ajuste. Hombres 40 Frecuencia 100 0 20 50 0 Frecuencia 60 150 Mujeres 3.5 4.5 5.5 Promedio General 6.5 3.5 4.5 5.5 Promedio General 6.5 Conceptos relativos a Pruebas de Hipótesis 14 Otro dispositivo gráfico que muchas veces puede servir a los mismos propósitos que el histograma en este contexto, es el box-plot. Esta representación gráfica suele ser incluso más informativa que el histograma, puesto que la mayorı́a de los software estadı́sticos tienen la posibilidad de integrar más de una representación en un mismo cuadro. El el rendimiento en ciencias, separados para los casos según la variable SEXO, se muestra utilizando precisamente esta representación. Nótese que además de evidenciar un importante grado de simetrı́a en la distribución de los promedios, estos gráficos también permiten explorar desde ya las posibles diferencias entre ambos grupos. Aquı́ tales diferencias pareciera que no son relevantes. 3.5 4.0 4.5 5.0 5.5 6.0 6.5 Rendimiento en Ciencias Hombre Mujer Retomando el tema de la normalidad, se usó el programa R para aplicar la prueba de ShapiroWilk a los datos. Esta prueba aplica bien incluso para muestras de tamaño iguales o superiores a 3, y especı́ficamente se utilza la corrección de Lilliefors. Los resultados fueron: SEXO: Hombre Shapiro-Wilk normality test data: dd[x, ] W = 0.9921, p-value = 0.2925 -------------------------------------------------------------------------------------SEXO: Mujer Shapiro-Wilk normality test data: dd[x, ] Conceptos relativos a Pruebas de Hipótesis 15 W = 0.9951, p-value = 0.1615 Para cada uno de los valores de la variable (o factor) SEXO, el programa entrega el estadı́stico de prueba y el valor−p correspondiente. En base a este último puede concluirse que no existe evidencia significativa en contra del supuesto de normalidad. Es decir, los datos indican provenir de una población con distribución normal. 5.3. Análisis de la información Ahora que se ha verificado que los datos cumplen el supuesto de normalidad, el siguiente paso será establecer si las varianzas poblacionales, que son desconocidas, son o no homogéneas. Los resultados de esta prueba, obtenidos con R, son los siguientes: F test to compare two variances data: subset(liceo, SEXO == "Mujer")$PRCS and subset(liceo, SEXO == "Hombre")$PRCS F = 0.8007, num df = 451, denom df = 215, p-value = 0.05335 alternative hypothesis: true ratio of variances is not equal to 1 95 percent confidence interval: 0.6330384 1.0031972 Notar, observando el valor−p, que puede concluirse que las varianzas son homogéneas. Por lo tanto, a los efectos de contrastar nuestras hipótesis iniciales, corresponde aplicar una prueba basada en la t−Student. Los resultados de este proceso, usando el programa R, son: Two Sample t-test data: PRCS by SEXO t = -1.7157, df = 666, p-value = 0.08668 alternative hypothesis: true difference in means is not equal to 0 95 percent confidence interval: -0.16144784 0.01087426 sample estimates: mean in group Hombre mean in group Mujer 4.918519 4.993805 En este conjunto de resultados, al igual que en los entregados más arriba, están todos los elementos para llevar a cabo el contraste y siguiendo cualquiera de las dos metodologı́as discutidas: Usando la lógica de la Región Crı́tica, o bien usando el criterio del valo−p. A los efectos Conceptos relativos a Pruebas de Hipótesis 16 de ilustrar la lógica de la Región Crı́tica, rescatamos el valor del estadı́stico de prueba, que es t = −1,7157. Por su parte, y por tratarse de una prueba bilateral, con un 5 % de significación, y con n1 + n2 − 2 = 666 g.l, los valores crı́ticos son −1,964 y 1,964. Como el valor observado del estadı́stico de prueba no pertenece a la Región crı́tica, entonces no hay razón suficiente como para rechazar H0 , y en consecuencia deberá concluirse que ella es verdadera. No obstante, si el nivel de significación fuese del 10 %, entonces los valores crı́ticos serı́an −1,647 y 1,647, en cuyo caso el valor observado del estadı́stico de prueba sı́ pertenece a la región crı́tica, y con este nivel de significación habrı́a que rechazar H0 . En la figura siguiente se ilustran los elementos correspondientes a este procedimiento de prueba. Por otro lado, en base al criterio del valor−p, la conclusión estadı́stica es que no existe evidencia suficiente como para rechazar H0 , ya que éste es mayor a 0.05. 5.4. Principales resultados Además de la conclusión estadı́stica obtenida a partir de los resultados de más arriba, la conclusión educacional es que no existe evidencia sificiente como para afirmar que las mujeres y los hombres tengan rendimientos distintos en asignaturas cientı́ficas. En otras palabras, las diferencias observadas en los datos se deben sólo a aspectos aleatorios y no son, por lo tanto, de tipo estructural. Temuco, 11 de enero de 2014