Conceptos Relacionados con Pruebas de Hipótesis

Anuncio
Conceptos Relacionados con
Pruebas de Hipótesis
Juan Moncada Herrera
Dpto. de Cs. Matemáticas y Fı́sica
Universidad Católica de Temuco, Chile
E-mail:[email protected]
Temuco, 11 de enero de 2014
Conceptos relativos a Pruebas de Hipótesis
Notación y simbologı́a
n:
ni :
p:
q:
pi :
X:
X i:
µ:
S:
Si :
σ:
σ2:
σi2 :
θ:
θ̂:
α:
1 − α:
β:
1 − β:
v−p:
Tamaño de muestra.
Tamaño de la muestra i.
Parámetro de la distribución Bernoulli (y binomial). Probabilidad de éxito.
Probabilidad de fracaso. Corresponde a 1 − p.
Proporción de la población i.
Media muestral obtenida a partir de la muestra X1 , X2 , . . . Xn .
Promedio de la muestra i.
Media poblacional.
Desviación estándar (llamada también desviación tı́pica) de la muestra.
Desviación tı́pica de la muestra i.
Desviación tı́pica poblacional.
Varianza poblacional.
Varianza de la población i.
Parámetro de una población.
Estimador del parámetro θ.
Nivel de significación. También conocida como probabilidad de error Tipo I.
Nivel de confianza.
Probabilidad de error Tipo II.
Potencia de una prueba.
Valor p. También conocido como p-value.
2
Conceptos relativos a Pruebas de Hipótesis
3
Índice
1. Introducción
4
2. Errores Tipo I y Tipo II
5
3. Reglas de decisión
5
3.1. La lógica de la Región Crı́tica . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
6
3.2. Uso del p-valor . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
7
4. Protocolo para el contraste de hipótesis
8
4.1. Una muestra . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
8
4.2. Dos muestras . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
10
4.3. Más de dos muestras: Análisis de la Varianza . . . . . . . . . . . . . . . . . . . .
11
5. Un ejemplo de aplicación
12
5.1. El problema y los datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
12
5.2. Descripción general de los datos . . . . . . . . . . . . . . . . . . . . . . . . . . . .
12
5.3. Análisis de la información . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
15
5.4. Principales resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
16
Conceptos relativos a Pruebas de Hipótesis
1.
4
Introducción
Una hipótesis estadı́stica es una afirmación acerca de uno o más parámetros (o acerca de
una función de uno o más parámetros) poblacionales. En este sentido, las hipótesis estadı́sticas
tienen una importante base aristotélica, en el sentido que tal afirmación puede ser verdadera o
falsa. También es importante enfatizar que, a diferencia de un intervalo de confianza (que es un
procedimiento esencialmente exploratorio), las hipótesis estadı́sticas se relacionan con procesos
más bien confirmatorios.
Aparte de la formulación, el proceso más relevante asociado a una hipótesis es la prueba o
contraste de dicha hipótesis. Una prueba de hipótesis consiste en contrastar información muestral
con información o conocimiento teórico bajo el cual se obtuvieron los datos. En este proceso, por
lo tanto, existen dos posibles decisiones: rechazar la hipótesis, o bien no rechazar la hipótesis.
Rechazar una hipótesis, a su vez, requiere de una Regla de decisión.
Desde un punto de vista operacional, el proceso de prueba de hipótesis requiere de la formulación de dos hipótesis, las que en definitiva son las que se contrastan: la hipótesis nula,
simbolizada por H0 , y la hipótesis alternativa, simbolizada por Ha . La prueba de hipótesis consiste, en consecuencia, en evaluar la información muestral a los efectos de rechazar o no rechazar
la hipótesis nula. Por ejemplo, si en una población normal, de media µ y desviación tı́pica σ
se sospecha que la media es igual a 12, entonces la hipótesis nula establecerá H0 : µ = 12. La
hipótesis alternativa, en este caso, dependerá del conocimiento adicional que se tenga acerca de
la población en estudio, y particularmente de la información o experiencia que se tenga acerca
del parámetro µ. Por ejemplo, si no existe información adicional acerca de µ, la hipótesis alternativa establecerá que Ha : µ 6= 12. Pero si, por el contrario, información a priori permite
establecer que la media poblacional podrı́a ser mayor que 12, entonces la hipótesis alternativa
debe ser Ha : µ > 12.
Las distintas formas de plantear una hipótesis alternativa dan origen a distintos tipo de
pruebas de hipótesis. Especı́ficamente, si para un parámetro dado θ la hipótesis alternativa
establece Ha : θ 6= θ0 , entonces se la prueba se dice que es bilateral (o de dos colas); si Ha : θ < θ0 ,
entonces la prueba se dice unilateral a izquierda (de una cola a izquierda); si Ha : θ > θ0 , la
prueba se dice que es unilateral a derecha.
Un principio básico de toda esta teorı́a es que la hipótesis nula se la considera verdadera,
hasta que los datos no indiquen lo contrario.
Conceptos relativos a Pruebas de Hipótesis
2.
5
Errores Tipo I y Tipo II
Hay que tener presente que un procedimiento de prueba de hipótesis utiliza, entre otros
elementos, información muestral para apoyar el proceso de decisión. Por lo tanto tal proceso no
está excento de errores. En particular hay dos errores improtantes asociados a todo procedimiento
de prueba de hipótesis: El error cometido al rechazar una hipótesis que no deberı́a rechazarse,
que se denomina Error Tipo I, y el error cometido al no rechazar una hipótesis que sı́ deberı́a
rechazarse. Este error se conoce como Error Tipo II. La probabilidad de cometer error Tipo I se
simboliza por α, y se conoce también con el nombre de nivel de significación; la probabilidad de
cometer error Tipo II se simboliza por β. Las cantidades 1−α y 1−β se conocen, respectivamente,
como nivel de confianza y como potencia de la prueba.
Ejemplo. Supóngase que se desea probar la hipótesis H0 : p = 0,5, siendo p el parámetro de
una población Bernoulli. A tales efectos se extrajo una muestra aleatoria de tamaño n = 36 de
esta población y se definió como regla de decisión rechazar H0 si el promedio muestral es inferior
a 0.4, es decir, si X < 0,4. Se pide calcular la probabilidad de error Tipo I.
Solución. Como la probabilidad de cometer error Tipo I es la probabilidad de rechazar una
hipótesis dado que ella es verdadera, entonces lo que se pide determinar es P r(X < 0,4|p = 0,5).
Como X bin(n = 36; p), entonces medinate la aproximación
del
µ q
¶ teorema de Lı́mite Central puede
p(1−p)
, lo que para p = 0,5 se reduce a
concluirse que, de manera aproximada, X ∼ N p;
n
X ∼ N (0,5; 0,083). Por lo tanto α = P r(X < 0,4|p = 0,5) = 0, 1141, valor obtenido usando
software.
Notar que la probabilidad de error Tipo II requiere, necesariamente, de conocer una hipótesis
alternativa. Si en el caso del ejemplo una hipótesis alternativa fuese Ha : p = 0,6, entonces la
probabilidad de cometer error Tipo II serı́a:
¢
¡
β = P r X ≥ 0,4|Ha
¢
¡
Supuesto Ha verdadera, X ∼ N (0,6; 0,082), de modo que β = P r X ≥ 0,4|Ha = 0,9926.
3.
Reglas de decisión
Como ya se ha visto, una regla de decisión puede establecerse con anterioridad al proceso
de prueba. En este caso tal regla de decisión define las condiciones, a priori, bajo las cuales se
rechazará una hipótesis nula. Sin embargo esta forma de proceder no siempre es la más utilizada.
Conceptos relativos a Pruebas de Hipótesis
6
En la comunidad cientı́fica suelen usarse, de manera muy frecuente, las dos reglas de decisión
que a continuación se comentan de manera resumida.
3.1.
La lógica de la Región Crı́tica
En esta lógica se trata de construir una Región de rechazo o Región Crı́tica y resumir
la información muestral en lo que se llama “Estadı́stico de prueba”. Ası́, la regla de decisión
establece “Rechazar H0 si la información muestral, resumida en el estadı́stico de prueba supuesto
H0 verdadera, pertenece a la Región Crı́tica”. En consecuencia, bajo este criterio se requiere de
definir la región crı́tica y calcular el valor del estadı́stico de prueba bajo el supuesto de que H0
es verdadera. La región crı́tica consiste en un conjunto de valores de la distribución asociada al
estadı́stico de prueba, los cuales representan una brecha importante respecto de lo que establece
H0 . Los lı́mites de esta zona se denominan valores crı́ticos. Una Región crı́tica asociada a
una hipótesis bilateral tiene dos valores crı́ticos, mientras que una región crı́tica asociada a una
hipótesis unilateral, tendrá sólo un valor crı́tico. Ası́ entonces, la región crı́tica se construye sobre
la base de la distribución muestral asociada al estadı́stico de prueba, del tipo prueba (unilateral
o bilateral) y de la probabilidad de rechazar H0 cuando ella es verdadera, es decir, en base a la
probabilidad de error Tipo I o nivel de significación α. Pero la distribución asociada al estadı́stico
de prueba depende, obviamente, del parámetro (o parámetros) en estudio, y por lo tanto de la
distribución en estudio. La tabla siguiente contiene la forma de los estadı́sticos de prueba para
algunas hipótesis. n es el tamaño de muestra, para el caso de una población, y ni el tamaño de
la muestra i−ésima.
Hipótesis
Estadı́stico de prueba
H0 : µ = µ0
H0 : µ1 = µ2
H0 : p1 = p2
T =
T =
X − µ0
√
S/ n
X − X2
p1
Sp / 1/n1 + 1/n2
pb1 − pb2
Z=p
(1/n1 + 1/n2 )b
p(1 − pb)
Distribución asociada
t−Student, con n − 1 g.l.
t−Student, con n1 + n2 − 2 g.l.
Normal estándar
Como puede apreciarse, básicamente son dos las distribuciones que eventualmente definen la
región crı́tica: la distribución t−Student y la distribución normal. En el caso de la distribución
t−Student, para un nivel de significación α, un estadı́stico de prueba observado Tobs a partir de
una muestra de tamaño n y una prueba unilateral a izquierda, la región crı́tica está dada por
Rc = {T : Tobs < tα/2,n−1 }, donde tα/2,n−1 es el percentil de orden α/2 de una t−Student con
Conceptos relativos a Pruebas de Hipótesis
7
n − 1 grados de libertad. La figura siguiente muestra una región crı́tica bilateral, en donde la
probabilidad de error Tipo I aparace como un área sombreada.
Ejemplo. A partir de una muestra aleatoria de tamaño n = 25 de una población normal, que
arrojó una media muestral igual a 9,8 y una desviación estándar igual a 9,8, contrastar las
hipótesis H0 : µ = 9,5 y Ha : µ 6= 9,5.
Solución. Nótese que la prueba es bilateral y que el valor observado del estadı́stico de prueba
X − µ0
√ = 1,875. También observar que la región crı́tica, para un nivel de significación
es T =
S/ n
del 5 %, es Rc = {T : |Tobs | > t0,025,24 }. Usando software, se encuentra que los valores crı́ticos
son −2,064 y 2,064. Es decir, la región crı́tica es el conjunto Rc = (−∞; −2,064] ∪ [2,064; ∞).
Por lo tanto no deberı́a rechazarse la hipótesis nula, ya que el valor del estadı́stico de prueba no
pertenece a esta región crı́tica. Si en lugar de usar un nivel de significación del 5 % se usa uno
del 10 %, entonces la región crı́tica cambia a Rc = (−∞; −1,71] ∪ [1,71; ∞), en cuyo caso habrı́a
que concluir que la muestra contiene suficiente evidencia como para rechazar H0 .
En la sección Protocolo para el contraste de hipótesis se dan más antecedentes acerca
de este y otros procedimientos de pruebas.
3.2.
Uso del p-valor
Un p − valor o valor − p asociado a un contraste de hipótesis es la probabilidad de encontrar
tanta o más evidencia que la contenida en la muestra en contra de H0 . En otras palabras, es
el menor nivel de significación al que se deberı́a rechazar una hipótesis nula con base en la
información muestral disponible. De esta forma, un valor − p pequeño es indicador de que los
datos contienen fuerte evidencia en contra de H0 . Es decir, cuanto menor sea el valor − p, mayor
es la evidencia contenida en los datos en contra de H0 . Esta lógica en el análisis de hipótesis, y
particularmente en el proceso de prueba de hipótesis, difiere radicalmente de aquella basada en la
región crı́tica. En efecto, mientras en aquella el nivel de significación se fija a priori, en la lógica
del valor − p el nivel de significación se determina a partir de los datos. Es decir, un valor − p es
un nivel de significación a posteriori. La comunidad cientı́fica se ha puesto de acuerdo en ciertos
Conceptos relativos a Pruebas de Hipótesis
8
umbrales del valor − p para el análisis de hipótesis. Los umbrales más utilizados son 0.05 y 0.01.
Es ovbio que el uso de estos valores dependerá del área de estudio y de otras consideraciones que
subyacen al tema de investigación. Ası́ por ejemplo, en investigación epidemiológica seguramente
se utilizará un valor − p igual a 0.01 como umbral para rechazar una hipótesis, lo mismo en
ingenierı́a de alta precisión. pero en estudios de tipo social, en los que los márgenes de error
están sijetos a factores externos que a veces resulta difı́cil de controlar, es muy probable que
valores del valor − p próximos al 5 % sean adecuados para apoyar el proceso de decisión. En la
actualidad la mayorı́a de los software estadı́sticos proveen del valor − p, de modo que su cálculo
se hace innecesario.
Ejemplo. En base a la información del ejemplo anterior, el valor − p es
v-p= 2P r[T24 > Tobs ] = 2P r[T24 > 1,875] = 0,073.
Por lo tanto, como este valor es mayor a 0.05, entonces habrı́a que concluir que los datos
contenidos en la muestra no son suficientes para apoyar el rechazo de H0 , independientemente
del nivel de significación.
Es importante insistir en que el nivel de significación y un valor − p no son lo mismo, aunque
tienen interpretación similares y ambos ayudan de la misma forma a tomar decisiones respecto
de rechazar o no una hipótesis. El valor − p es independiente del nivel de significación fijado
previamente, dependiendo únicamente de los datos. En cambio, el uso del nivel de significación
podrı́a “manipularse”, como ya se hizo, de modo de cambiar las decisiones. Cuando α se fijó en
5 %, la hipótesi nula no se rechazó; pero cuando α se fijó en 10 % sı́ se rechazó. En cambio el uso
del valor − p siempre llevarı́a al rechazo de esta hipótesis.
4.
Protocolo para el contraste de hipótesis
4.1.
Una muestra
1. ¿Respecto de qué parámetro se efectuará el proceso inferencial? No son muchas las opciones: Sobre una proporción poblacional, sobre una media o sobre una varianza poblacional.
Esto limita las cosas a dos poblaciones: la binomial (o Bernoulli) y la distribución normal. Estos aspectos distribucionales hay que tenerlos muy claros antes de proceder con la
prueba de las hipótesis.
2. FORMULAR las hipótesis nula y alternativa. Esta parte necesita de un proceso de reflexión
sobre las afirmaciones que se intentan corroborar, y no se trata simplemente de formular
igualdades y desigualdades. Además, se debe tener presente que la hipótesis alternativa
Conceptos relativos a Pruebas de Hipótesis
9
determina si la prueba será unilateral o bilateral. Las hipótesis nulas que pueden estudiarse
en el caso de una muestra pueden ser:
Para una media poblacional: H0 : µ = µ0
Para una proporción poblacinal: H0 : p = p0
Para una varianza poblacional: H0 : σ 2 = σ02
3. VERIFICAR que los datos de la muestra cumplen el supuesto de normalidad. Si los datos
no evidencian provenir de una distribución normal, entonces hay que pensar en alternativas
de solución. Entre ellas están: pruebas no parámetricas; categorizar la variable en estudio
(agrupar sus valores en categorı́as) y luego estudiar la tabla de contingencia correspondiente; y también la transformación de la variable mediante alguna función normalizante
(aunque esto último no es aconsejable, ya que se trata de “forzar”los datos a comportarse
de una determinada manera). Una primera aproximación a la validación de este supuesto
es el histograma, siempre que la muestra contenga una cantidad suficiente de datos como
para construir un histograma. Una forma simétrica del histograma será un buen indicio
a favor de la normalidad. Pero aun si el histograma resultase un buen indicador de simetrı́a, se DEBE efectuar una prueba de normalidad a los datos, y más aun si no ha sido
posible construir un histograma. Entre las pruebas más comunes están las de KolmogorovSmirnov, la de Shapiro-Wilk (pensada para muestras de tamaño superior a 7 y menores o
iguales a 2000), la de Lilliefors (una corrección de la prueba de Shapiro-Wilk),la prueba
Chi-cuadrado, la de Anderson-Darling, la de Jarque-Bera, entre otras. Existen también
pruebas gráficas, como los gráficos Q − Q y P − P .
Una prueba de normalidad tiene como hipótesis nula a H0 : Los datos provienen de una
población normal. Se buscará, entonces, no rechazar H0 .
4. Cuando la hipótesis a contrastar es H0 : µ = µ0 , y se ha verificado el supuesto de normalidad de los datos, se procede a efectuar la siguiente pregunta: ¿Se conoce o se desconoce
la varianza poblacional? Si la varianza poblacional es conocida, entonces el estadı́stico de
prueba sigue una distribución normal estándar. Por el contrario, si la varianza poblacional
es desconocida, entonces el estadı́stico de prueba sigue una distribución t − Student con
tantos grados de libertad como tamaño muestral menos 1.
5. La decisión estadı́stica. Esta decisión, como ya se comentara en secciones previas, puede
hacerse en base al valor del estadı́stico de prueba, cuando H0 es verdadera, y a la región
crı́tica. Especı́ficamente, rechaza H0 si el valor observado del estadı́stico de prueba pertenece a la región crı́tica.
Otra forma de decidir es utilizando el p−value o valor−p, procedimiento descrito más arriba. Tener presente que el valor − p puede aparecer bajo diferentes nombres: probablidad,
nivel de probabilidad, etc.
Conceptos relativos a Pruebas de Hipótesis
10
6. La decisión de contexto. Se trata de responder al problema inicial. Habrá que evaluar las consecuencias de la decisión, y sobre la base de un proceso adecuado, razonado,
debidamente contextualizado y ético, tomar la decisión que se supone correcta.
4.2.
Dos muestras
1. ¿Respecto de qué parámetros se efectuará el proceso inferencial? Es decir, ¿qué parámetros
se quiere comparar ? Debe tenerse presente que puede tratarse de comparar dos proporciones poblacionales, dos medias poblacionales o bien dos varianzas poblacionales. Esto
nuevamente limita las cosas a dos poblaciones: la binomial (o Bernoulli) y la distribución
normal.
2. FORMULAR las hipótesis nula y alternativa. Tener en cuenta que la hipótesis alternativa
determina la lateralidad de la prueba. Las hipótesis nulas que pueden estudiarse en el caso
de dos muestras pueden ser:
Comparación de dos medias poblacionales: H0 : µ1 = µ2
Comparación de dos proporciones poblacinales: H0 : p1 = p2
Comparación de dos varianzas poblacionales: H0 : σ12 = σ22
3. VERIFICAR que los datos de cada muestra cumplen el supuesto de normalidad. Si los
datos no evidencian provenir de una distribución normal, entonces hay que pensar en alternativas de solución. Entre ellas están: pruebas no parámetricas; categorizar la variable
en estudio (agrupar sus valores en categorı́as) y luego estudiar la tabla de contingencia
correspondiente; y también la transformación de la variable mediante alguna función normalizante (aunque esto último no es aconsejable, ya que se trata de “forzar”los datos a
comportarse de una determinada manera). Una primera aproximación a la validación de
este supuesto es el histograma, siempre que la muestra contenga una cantidad suficiente
de datos como para construir un histograma. Una forma simétrica del histograma será un
buen indicio a favor de la normalidad. Pero aún si el histograma resultase un buen indicador de simetrı́a, se DEBE efectuar una prueba de normalidad a los datos, y más aún si
no ha sido posible construir un histograma. Entre las pruebas más comunes están las de
Kolmogorov-Smirnov, la de Lilliefors, la de Shapiro-Wilk, la prueba Chi-cuadrado, la de
Anderson-Darling, la de Jarque-Bera, entre otras. Existen también pruebas gráficas, como
los gráficos P − P y Q − Q.
Una prueba de normalidad tiene como hipótesis nula a H0 : Los datos provienen de una
población normal. Se buscará, entonces, no rechazar H0 .
4. Si el contraste a estudiar es el de H0 : µ1 = µ2 , y se ha verificado el supuesto de normalidad
de cada conjunto de datos, se procede a efectuar la siguiente pregunta: ¿Se conocen o se
Conceptos relativos a Pruebas de Hipótesis
11
desconocen las varianzas poblacionales? Si las varianzas poblacionales son conocidas, entonces el estadı́stico de prueba sigue una distribución normal estándar. Por el contrario, si
las varianzas poblacionales son desconocidas, entonces hay que formularse otra pregunta:
¿son homogéneas las varianzas poblacionales?. Esto implica efectuar una prueba de hipótesis (la prueba de homogeneidad de varianzas), en donde las hipótesis son H0 : σ12 = σ22 y
H0 : σ12 6= σ22 . Esta prueba se basa en la distribución F-Fisher, conocida también como
F-Snedecor. Si la respuesta es afirmativa, entonces el estadı́stico de prueba sigue una distribución t − Student con tantos grados de libertad como tamaño de muestra global menos
2 (es decir, n − 2).
Si las varianzas poblacionales fueran no homogéneas, entonces se utiliza una corrección
del estadı́stico de prueba, conocida como t-Welch, la que se encuentra implementada en la
mayorı́a de los software.
Nótese que la ausencia de homogeneidad no “interrumpe”el contraste.
5. La decisión estadı́stica. Esta decisión puedes hacerla en base al valor del estadı́stico de
prueba, cuando H0 es verdadera, y a la región crı́tica. Especı́ficamente, rechaza H0 si el
valor observado del estadı́stico de prueba pertenece a la región crı́tica.
Otra forma de decidir es utilizando el p − value o valor − p, procedimiento descrito anteriormente.
6. La decisión de contexto. Se trata de responder al problema inicial. Habrá que evaluar las consecuencias de la decisión, y sobre la base de un proceso adecuado, razonado,
debidamente contextualizado y ético, tomar la decisión que se supone correcta.
4.3.
Más de dos muestras: Análisis de la Varianza
1. En esta situación las hipótesis son: H0 : µ1 = µ2 = ... = µp y Ha : µi 6= µj para algún
i 6= j.
2. VERIFICAR que cada conjunto de datos cumple el supuesto de normalidad, mediante
alguna prueba de normalidad, como las señaladas anteriormente.
3. Una vez que se ha verificado el supuesto de normalidad de cada conjunto de datos, se
procede a efectuar la siguiente pregunta: ¿Son homogéneas las varianzas poblacionales?
La prueba de la homogeneidad de varianzas puede hacerse por medio de la prueba de
Bartlett o por medio de la prueba de Levenne (basada en medias), que son las pruebas
más utilizadas.
Si las varianzas poblacionales son homogéneas, entonces el estadı́stico de prueba sigue una
distribución F −F isher. Por el contrario, si las varianzas poblacionales no son homogéneas,
entonces el estadı́stico de prueba a utilizar es el estadı́stico de W elch.
Conceptos relativos a Pruebas de Hipótesis
12
4. La decisión estadı́stica. Al igual que para los casos de una y dos muestras, esta decisión
puedes hacerla en base al valor del estadı́stico de prueba, cuando H0 es verdadera, y a la
región crı́tica, o bien en base al p − value o valor − p.
5. La decisión de contexto. Se trata de responder al problema inicial. Habrá que evaluar las consecuencias de la decisión, y sobre la base de un proceso adecuado, razonado,
debidamente contextualizado y ético, tomar la decisión que se supone correcta.
5.
5.1.
Un ejemplo de aplicación
El problema y los datos
En 1999 se realizó un estudio, en el contexto de una tesis de un programa de Magister en
Educación, sobre la incidencia de una serie de factores en el rendimiento de alumnos de Primer
Año de Educación Media del Liceo Comercial Tiburcio Saavedra de Temuco. Uno de los factores
considerados fue el SEXO del estudiante, factor que se ha considerado para los propósitos de este
ejemplo. Por su parte, el rendimiento estudiado aquı́ se resume en el Promedio en asignaturas
del área cientı́fica (PRCS) del estudiante al finalizar su Primer Año de Educación Media. La
información ha sido proporcionada por el autor del trabajo y su uso docente se enmarca en los
lı́mites de la ética de la información, que suponemos por todos conocidos.
La pregunta que se espera responder en este ejercicio es: ¿En qué medida el sexo del estudiante
explica su rendimiento? Desde un punto de vista inferencial esto corresponde a contrastar las
hipótesis:
H0 : µ1 = µ2 v/s Ha : µ1 6= µ2
en donde µ1 : Promedio en ciencias de las mujeres, µ2 : Promedio en ciencias de los hombres.
5.2.
Descripción general de los datos
En lo que a composición por SEXo se refiere, os datos disponibles pueden resumirse en el
siguiente cuadro.
SEXO
Hombre:216
Mujer :452
Conceptos relativos a Pruebas de Hipótesis
13
O bien por medio del siguiente gráfico:
Antes de proceder a la prueba de las hipótesis anteriores, es necesario explorar la información
a los efectos de verificar si ella cumple los supuestos que validan el uso de la metodologı́a. El
principal supuesto es, como se dijera más arriba, el de normalidad. Una exploración gráfica
de la información, tanto para mujeres como para hombres, se muestra a continuación. Puede
apreciarse un importante grado de simetrı́a, lo que deberá confirmarse por medio de alguna
prueba de bondad de ajuste.
Hombres
40
Frecuencia
100
0
20
50
0
Frecuencia
60
150
Mujeres
3.5
4.5
5.5
Promedio General
6.5
3.5
4.5
5.5
Promedio General
6.5
Conceptos relativos a Pruebas de Hipótesis
14
Otro dispositivo gráfico que muchas veces puede servir a los mismos propósitos que el histograma en este contexto, es el box-plot. Esta representación gráfica suele ser incluso más informativa que el histograma, puesto que la mayorı́a de los software estadı́sticos tienen la posibilidad de
integrar más de una representación en un mismo cuadro. El el rendimiento en ciencias, separados
para los casos según la variable SEXO, se muestra utilizando precisamente esta representación.
Nótese que además de evidenciar un importante grado de simetrı́a en la distribución de los promedios, estos gráficos también permiten explorar desde ya las posibles diferencias entre ambos
grupos. Aquı́ tales diferencias pareciera que no son relevantes.
3.5
4.0
4.5
5.0
5.5
6.0
6.5
Rendimiento en Ciencias
Hombre
Mujer
Retomando el tema de la normalidad, se usó el programa R para aplicar la prueba de ShapiroWilk a los datos. Esta prueba aplica bien incluso para muestras de tamaño iguales o superiores
a 3, y especı́ficamente se utilza la corrección de Lilliefors. Los resultados fueron:
SEXO: Hombre
Shapiro-Wilk normality test
data: dd[x, ]
W = 0.9921, p-value = 0.2925
-------------------------------------------------------------------------------------SEXO: Mujer
Shapiro-Wilk normality test
data: dd[x, ]
Conceptos relativos a Pruebas de Hipótesis
15
W = 0.9951, p-value = 0.1615
Para cada uno de los valores de la variable (o factor) SEXO, el programa entrega el estadı́stico
de prueba y el valor−p correspondiente. En base a este último puede concluirse que no existe
evidencia significativa en contra del supuesto de normalidad. Es decir, los datos indican provenir
de una población con distribución normal.
5.3.
Análisis de la información
Ahora que se ha verificado que los datos cumplen el supuesto de normalidad, el siguiente
paso será establecer si las varianzas poblacionales, que son desconocidas, son o no homogéneas.
Los resultados de esta prueba, obtenidos con R, son los siguientes:
F test to compare two variances
data: subset(liceo, SEXO == "Mujer")$PRCS and subset(liceo, SEXO == "Hombre")$PRCS
F = 0.8007, num df = 451, denom df = 215, p-value = 0.05335
alternative hypothesis: true ratio of variances is not equal to 1
95 percent confidence interval:
0.6330384 1.0031972
Notar, observando el valor−p, que puede concluirse que las varianzas son homogéneas. Por
lo tanto, a los efectos de contrastar nuestras hipótesis iniciales, corresponde aplicar una prueba
basada en la t−Student. Los resultados de este proceso, usando el programa R, son:
Two Sample t-test
data: PRCS by SEXO
t = -1.7157, df = 666, p-value = 0.08668
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
-0.16144784 0.01087426
sample estimates:
mean in group Hombre mean in group Mujer
4.918519
4.993805
En este conjunto de resultados, al igual que en los entregados más arriba, están todos los
elementos para llevar a cabo el contraste y siguiendo cualquiera de las dos metodologı́as discutidas: Usando la lógica de la Región Crı́tica, o bien usando el criterio del valo−p. A los efectos
Conceptos relativos a Pruebas de Hipótesis
16
de ilustrar la lógica de la Región Crı́tica, rescatamos el valor del estadı́stico de prueba, que es
t = −1,7157. Por su parte, y por tratarse de una prueba bilateral, con un 5 % de significación,
y con n1 + n2 − 2 = 666 g.l, los valores crı́ticos son −1,964 y 1,964. Como el valor observado del
estadı́stico de prueba no pertenece a la Región crı́tica, entonces no hay razón suficiente como
para rechazar H0 , y en consecuencia deberá concluirse que ella es verdadera. No obstante, si el
nivel de significación fuese del 10 %, entonces los valores crı́ticos serı́an −1,647 y 1,647, en cuyo
caso el valor observado del estadı́stico de prueba sı́ pertenece a la región crı́tica, y con este nivel
de significación habrı́a que rechazar H0 .
En la figura siguiente se ilustran los elementos correspondientes a este procedimiento de
prueba.
Por otro lado, en base al criterio del valor−p, la conclusión estadı́stica es que no existe
evidencia suficiente como para rechazar H0 , ya que éste es mayor a 0.05.
5.4.
Principales resultados
Además de la conclusión estadı́stica obtenida a partir de los resultados de más arriba, la
conclusión educacional es que no existe evidencia sificiente como para afirmar que las mujeres
y los hombres tengan rendimientos distintos en asignaturas cientı́ficas. En otras palabras, las
diferencias observadas en los datos se deben sólo a aspectos aleatorios y no son, por lo tanto, de
tipo estructural.
Temuco, 11 de enero de 2014
Descargar