PDF

Anuncio
Capítulo III
Pruebas de hipótesis
medias, varianzas, proporciones
Introducción
Con mucha frecuencia el propósito de la investigación va más allá
de describir el comportamiento de la variable en la muestra y debemos de generalizar o inferir los resultados obtenidos en la muestra a la población o universo.
Los datos casi siempre son recolectados de una muestra y sus
medidas importantes tales como la media muestral y la varianza
muestral reciben el nombre de estadísticas. Por otro lado, las medidas representativas de la población, media poblacional y varianza poblacional, casi siempre desconocidos, reciben el nombre de
parámetros. Un esquema puede ser el siguiente:
X: variable estudiada
INFERIR LOS RESULTADOS A
LA POBLACION O UNIVERSO
RECOLECCION DE
DATOS EN LA
MUESTRA
PARAMETROS
µ
ESTADISTICAS
X
s
2
r
[107]
σ
2
ρ
105
El razonamiento de pruebas de hipótesis se emplea para responder preguntas como las siguientes:
1.
2.
3.
106
Años de experiencia han demostrado que en un examen de
admisión a la Facultad de Educación de una universidad, los
estudiantes obtienen en media 140 (sobre 240) puntos con desviación estándar de 10 puntos. En el examen de admisión2004, los postulantes a la Facultad de Educación han obtenido 160 puntos. Se puede afirmar que ¿estos estudiantes tuvieron un rendimiento significativamente por encima del promedio?.
En los últimos años se ha observado que el coeficiente de correlación entre las notas del curso de inferencia estadística y
del curso de metodología de la investigación de los estudiantes de Maestría en Educación de una universidad, es 0.65. ¿
La asociación observada es significativamente diferente de
cero?.
Un profesor del curso de matemáticas desea conocer la relación entre la creatividad y la ansiedad en alumnos de quinto
y sexto año de secundaria. Al hacer la revisión bibliográfica
encontró dos tendencias: una de las cuales se inclina a creer
que el pensamiento creativo se relaciona inversamente con la
ansiedad, y la otra, se inclina por la opinión que la creatividad no tiene nada que ver con la ansiedad. Por consiguiente,
nuestro investigador todavía no ha tomado partido y trata de
resolver sus dudas mediante un estudio empírico.
Asimismo, ha encontrado que existen dos pruebas que miden con cierta validez ambas variables (creatividad y ansiedad) y que son: la prueba de Getzels y Jackson sobre el "Empleo de Objetos" y la prueba "Children's Manifest Anxiety
Scale" de Castenada, Mc Candless y Palermo.
El profesor sabe que son 20000 los alumnos de quinto y sexto
de secundaria a quienes tendría que aplicar las pruebas de
ansiedad y creatividad, pero sus recursos lo limitan a observar sólo 200. ¿ Si lleva a cabo su investigación en la muestra
de estudiantes y obtiene el valor 0.87 para el coeficiente de
correlación muestral entre las puntuaciones de ansiedad y
creatividad, qué hará para llevar ese resultado a la población
de 20000 estudiantes?.
En este capítulo y en los siguientes responderemos preguntas
como las planteadas mediante la metodología de pruebas de hipótesis, en relación con los siguientes parámetros básicos en una
2
población: µ (la media),
(varianza), (proporción), y los siguientes parámetros básicos en dos poblaciones: µ1 − µ 2 (diferencia
de medias), π 1 − π 2 (diferencia de proporciones), 1 / 2 (cocien-
σ
σ σ
te de varianzas), (coeficiente de correlación).
Se hacen pruebas de hipótesis para decidir, sobre la validez de una proposición o enunciado que se hace respecto a
algún aspecto de una distribución de probabilidad, a partir de
la información proporcionada por la muestra aleatoria. La decisión que se deba tomar se refiere a la veracidad o falsedad de una
hipótesis.
A continuación se presentan los conceptos fundamentales y
la metodología para realizar una prueba de hipótesis.
Formalización de conceptos fundamentales
Los investigadores de educación y ramas afines saben que el enunciar una hipótesis no siempre implica un trabajo científico. Una
hipótesis científica es el resultado de un pensamiento creativo y
tal vez inspirado, mientras que la hipótesis estadística es la expresión de una fase de la comprobación empírica de la hipótesis científica.
Hipótesis estadística
Una hipótesis estadística es un enunciado o proposición respecto
a uno o más parámetros de la población. Una hipótesis estadística
107
puede ser simple o compuesta. Es simple, cuando la proposición
caracteriza completamente a la distribución de la variable aleatoria y en caso contrario se denomina hipótesis compuesta.
A fin de probar una proposición, es preciso formular una hipótesis denominada nula conjuntamente con otra denominada
hipótesis alternativa.
Ejemplo 3.1
Durante los últimos semestres, el profesor de Estadística Aplicada a la Educación, ha registrado que el rendimiento medio es de
14 puntos para todos sus alumnos, con desviación estándar 2 puntos. Este año le ha tocado 40 alumnos sobresalientes porque su
rendimiento medio ha sido de 17 puntos y el profesor los proclama como superiores a todos los alumnos que ha tenido a la fecha.
De acuerdo a estos resultados se aceptará o se rechazará (una de
las siguientes afirmaciones) la hipótesis que:
H
0
H
1
:El rendimiento promedio de los estudiantes es menor o igual
a 14 puntos.
: El rendimiento promedio de los estudiantes es mayor a 14
puntos.
A una de las afirmaciones, por ejemplo a H 0 , se le llama hipótesis nula.
A la afirmación H 1 , que es opuesta a la hipótesis nula, se le
llama hipótesis alternativa.
En las investigaciones donde se utilizan pruebas de hipótesis, se parte del supuesto básico de que la hipótesis nula ( H 0 ) es
verdadera (mientras no se demuestre lo contrario) y el investigador recogerá información de una muestra aleatoria, para poder
decidir si rechaza o no la mencionada hipótesis. En caso de rechazarla, se acoge a otra hipótesis conocida como la hipótesis alternativa, ( H 1 ).
Los datos de las muestras deben de ofrecer la posibilidad de
108
tomar dos decisiones respecto de la hipótesis nula. La hipótesis
nula es verdadera o es falsa.
Nunca puede concluirse con certeza, a partir de una muestra,
que H 0 es verdadera o falsa ya que lo máximo que se puede afirmar es que H 0 tiene más probabilidad de ser cierta que falsa.
Consecuencias de una decisión
Como las pruebas de hipótesis se basan en información obtenida
en una muestra aleatoria, es posible que se cometan errores. Estos
errores pueden ser de dos tipos:
Error Tipo I: Si la hipótesis nula, H 0 , es verdadera y lo confirmamos con los datos de la muestra, la decisión es correcta y no
se comete ningún error al tomar la decisión de no rechazar la hipótesis nula. Pero, si la hipótesis nula, H 0 , es verdadera y los datos de la muestra conducen a rechazarla, la decisión es incorrecta,
caso en el que se comete el denominado error tipo I.
Error Tipo II: Si la hipótesis nula, H 0 , es falsa y los datos de
la muestra lo confirman, no se comete error. Pero si H 0 es falsa y
los datos de la muestran indican que no debe rechazarse, la decisión es incorrecta, caso en el que se comete el denominado error
tipo II.
Al rechazar o no una hipótesis nula hay 4 situaciones posibles con respecto a la correcta o incorrecta toma de decisión, que
se traducen a continuación.
A la probabilidad de cometer el error de tipo I se denota con
Situación real
La hipótesis nula
es verdadera
La hipótesis nula
no es verdadera
Rechazar la
hipótesis nula
error de tipo I
P(I) = α
Correcta
No rechazar la
hipótesis nula
Correcta
Decisión
error de tipo II
P(II) = β
109
α, mientras que a la probabilidad de cometer el error de tipo II se
denota con β.
α = P (Re chazar
H /H
β = P( Aceptar
o
o
H /H
o
es verdadera) = P(I)
o
es falsa) = P(II).
Nivel de significación de la prueba
El nivel de significación, denominado también la probabilidad de
cometer el error de Tipo I, es la probabilidad de rechazar la hipótesis nula siendo ésta verdadera,
P( I ) = P(Re chazar
H /H
o
o
verdadero) = α .
(3.1)
Cuando no sea posible rechazar la hipótesis nula, será preferible indicar que "no existe suficiente información como para rechazar la hipótesis nula".
Regla de Decisión
Así como en el juicio se debe de tomar una decisión acerca del
acusado: declararlo culpable o inocente, también en estadística
inferencial debe tomarse una decisión acerca de la hipótesis nula:
rechazarla o no rechazarla.
Si se rechaza la hipótesis nula, es porque se encuentran (en la
muestra) resultados significativamente diferentes a lo que debería ocurrir si la hipótesis nula fuera cierta. El no rechazar la hipótesis nula, quiere decir que los resultados no fueron significativamente diferentes de lo que se esperaba, bajo la suposición de que
la hipótesis nula era cierta.
En todo caso, siempre se debe establecer previamente un criterio para decidir acerca de la hipótesis nula, es decir, qué valores
de la estadística de prueba (que se describirá en el siguiente paso)
delimitan el rechazo de la hipótesis nula. En estadística, éste pro-
110
ceso se conoce como la determinación de la región de rechazo de
la hipótesis nula.
Región crítica o región de rechazo de la hipótesis nula
La región crítica es la región de rechazo de la hipótesis nula. Se
acostumbra determinar la región crítica examinando la gravedad
del error tipo I.
Reviste particular importancia especificar exactamente la región crítica, a fin de que los resultados de este paso no ejerzan
ninguna duda en la ubicación y el tamaño de la región crítica.
La ubicación de la región crítica se determina mediante la forma de la hipótesis alternativa. Esta hipótesis puede tomar tres formas, cada forma dicta una ubicación específica de la región crítica, como se muestra a continuación.
El procedimiento consiste en observar una muestra aleatoria
Signo en la
hipótesis alternativa
Tipo de la región
crítica
<
≠
>
una región al lado dos regiones, una una región, lado
izquierdo
a cada lado
derecho
y a partir de la información que se obtenga se toma una decisión.
Esta información generalmente aparece contenida en una expresión que se denomina estadística de prueba e indica, de alguna
manera, el grado de discrepancia entre la hipótesis nula y los datos observados. Cuando el grado de discrepancia sea grande se
rechazará la hipótesis nula, caso contrario no se rechazará.
Para ilustrar, retomemos el ejemplo 3.1. Establecidas las hipótesis, parece razonable que si se desea probar hipótesis relativas a la media de una población, se elija la media muestral para
analizar la compatibilidad de la muestra con la hipótesis nula.
Si el valor x = 17 es grande con respecto a 14 (el grado de discrepancia entre la hipótesis nula y la muestra es grande), se po-
111
dría rechazar la hipótesis nula. El problema es determinar el rango de valores de x para los que, éstos puedan considerarse grandes.
En general, el conjunto de valores de la estadística de prueba
para los cuales se rechaza la hipótesis nula, se llama región de
rechazo o región crítica.
Por ejemplo, se podría tomarse como una región de rechazo
el intervalo (16, ∞), de tal manera que si la media muestral encontrada cae en este intervalo, se debe rechazar la hipótesis nula. Esta
decisión es razonable puesto que si la hipótesis nula es verdadera,
la probabilidad de encontrar una media muestral mayor que 16,
en el supuesto de normalidad, es:

 


16 − 14 
X −u 
P X > 16 / u = 14 = P Z >
P Z >

 = 1 − P (Z ≤ 6.32 ) =0.000.
σ
2


 
40
n


 
(
)
Luego, encontrar una media muestral en el intervalo (16, ∞)
es un evento no consistente con la hipótesis nula, por lo que se
tendrá que rechazar la hipótesis nula.
Se podría tomar como otra región de rechazo el intervalo (14.2,
∞) y encontrar:

 


X −µ 
14.2 − 14 
P X > 14.2 / µ = 14 = P  Z >
P
Z
>
 
 = 1 − P (Z ≤ 0.63)
2
σ


 
40 
n  

=1- 0.7357=0.2643.
(
)
En este caso se observa que existe la posibilidad (aunque pequeña) de encontrar un valor de la media muestral en el intervalo
(14.2, ∞), aún cuando la hipótesis nula sea verdadera. Esto implica que podríamos equivocarnos al rechazar esta hipótesis cuando
la media muestral cae en este intervalo.
En el ejemplo analizado, lo que se debe es elegir una región
de rechazo como el intervalo (a, ∞) adecuada, de tal manera que si
la media muestral cae en este intervalo se rechace la hipótesis nula.
El valor de la constante, a, se elige de tal manera que la probabili-
112
dad de equivocarnos al rechazar la hipótesis nula, siendo ésta verdadera, sea un valor α pequeño, es decir, sea la probabilidad de
cometer el error tipo I o el denominado nivel de significación. Así
se estaría tratando de evitar, en lo posible, el error de una decisión
equivocada.
Por ejemplo, si deseamos cometer el error de tipo I con probabilidad igual a α = 0.05, se puede escoger como región de rechazo, al intervalo (a, ∞), de manera que:
0.05 = P(Re chazar


H /H
o
o
es verdadera)
 

a −u  
a − 14 
6.32(a − 14) 

>
P
Z
 =0.05
 
 = 1 − P Z ≤
2
2



 
40 
n 
= P (X > a / u = 14 ) = P Z > σ


6.32(a − 14) 

P Z ≤
 = 0.95 . Usando la tabla normal se observa que:
2


6.32(a − 14)
= 1.645
2
⇒ a − 14 = 0.52 ⇒ a = 14.52
La decisión a tomar es: rechazar la hipótesis nula si la media
muestral es mayor que 14.52.
Luego, la estadística de prueba es la media muestral y la región de rechazo, al nivel de significación α = 0.05, es el intervalo
(14.52, ∞). La probabilidad de equivocarse al rechazar la hipótesis
nula, siendo ésta verdadera, es a lo más α = 0.05.
Se observa que, la decisión de rechazar la hipótesis nula
si x > 14.52 , es equivalente a rechazar la hipótesis nula, cuando
x − 14
> 1.645 . Luego, en lugar del valor de la media muestral se
2
40
puede considerar el valor de la media muestral estandarizada,
x − 14
2
, como la estadística de prueba y como región de rechazo
40
de la hipótesis nula, al intervalo (1.645, ∞).
La decisión puede expresarse de la siguiente manera: rechazar la hipótesis nula si el valor estandarizado de la media mues113
tral, zc =
x − 14
, cae en el intervalo (1.645, ∞).
2
40
Procedimiento de las pruebas de hipótesis
Región de rechazo
1.645
Una vez que se tienen las ideas que apoyan la metodología de
pruebas de hipótesis, vamos a presentar, el procedimiento que se
sigue al realizar una prueba de hipótesis.
Paso 1. Identificar el problema
En general, los problemas de inferencia estadística plantean el estudio de uno o más parámetros. Entre los parámetros que se estudian con mayor frecuencia son los siguientes:
El valor de la media de una variable aleatoria en la población, parámetro que ya hemos denominado con u.
El valor de la diferencia de medias de una variable aleatoria
en una misma población o en poblaciones diferentes, µ1 − µ 2 .
2
El valor de la varianza de una variable en la población, σ .
El valor de la proporción de una variable en la población, π.
El valor de la diferencia de proporciones de una misma población o de poblaciones diferentes, π1 − π2.
El valor del cociente de varianzas de una variable en una misma población o en poblaciones diferentes, σ 1 / σ 2 .
El valor del coeficiente de correlación poblacional para dos
variables, ρ 12 .
114
Asociados a los parámetros existen estimadores de los parámetros que se han presentado en el capítulo anterior y que se resumen a continuación:
Es necesario recordar que cuando se observa la muestra, el estimador de un parámetro, es una función de variables aleatorias y
Parámetro
Notación
u
σ
µ −µ
Nombre
media poblacional
X
media muestral
x
varianza muestral
s
diferencia de
medias muestrales
x −x
2
2
diferencia de medias
poblacionales
X −X
2
cociente de varianzas
poblacionales
S /S
diferencia de
proporciones
poblacionales
P −P
π −π
1
Notación
S
1
1
Nombre
Estimaciones
con los valores
de la muestra
varianza poblacional
2
σ /σ
Estimadores
2
1
2
2
1
2
1
2
2
cociente de
varianzas
muestrales
diferencia de
proporciones
muestrales
2
1
2
2
2
1
2
s /s
p−p
1
2
por lo tanto variable aleatoria, toma un valor y recibe el nombre de
estimación del parámetro. Así por ejemplo, X 1 ,..., X n es una muestra aleatoria desde la población donde la variable aleatoria X tiene media µ y varianza σ 2. El estimador de la media poblacional,
1 n
∑ X i y si los valores observados de la muesn i =1
tra son x1 = 25, x2 = 30, x3 = 40, x4 = 20, x5 = 35 , el valor ob1 n
150
servado de la media muestral es, x = ∑ xi =
= 30 y se de5
n i =1
µ, es la función X =
nomina estimación de la media poblacional.
Esta aclaración se hace extensiva para los otros parámetros,
estimadores y sus correspondientes estimaciones.
Paso 2. Plantear las hipótesis
115
Se plantean conjuntamente la hipótesis nula y la hipótesis alternativa.
Hipótesis Nula La palabra "nula" trasmite la idea de " ninguna
diferencia". Como regla general debemos comenzar con la afirmación: no hay razón para creer que la sospecha que se tiene sea
verdadera.
La hipótesis nula se expresa de alguna de las siguientes
formas:
Hipótesis Alternativa Al plantear esta hipótesis, generalmente,
debe recordarse el propósito de la investigación: buscar evidencia
H 0 : Parámetro = w
zona de no rechazo
de la hipótesis nula
zona de rechazo
De la hipótesis
a
w
H
0
Zona de rechazo
de la hipótesis nula
a
b
: Parámetro ≥ w
zona de no rechazo
de la hipótesis nula
w
H
Zona de rechazo
de la hipótesis nula
0
: Parámetro ≤ w
zona de no rechazo
de la hipótesis nula
w
donde " w" es un valor conocido.
116
zona de rechazo
de la hipótesis nula
b
que permita rechazar la hipótesis nula. Por lo general la hipótesis
alternativa coincide con la sospecha que se tiene y es la negación
de la hipótesis nula. Para los tres casos mencionados anteriormente
las hipótesis alternativas son:
H
H
H
1
: parámetro ≠ w
1
: parámetro < w
1
: parámetro > w
En el caso de que la alternativa no indique ninguna dirección
específica, se dice que la prueba es de dos colas o bilateral.
Paso 3. Seleccionar la herramienta de análisis
Por lo general, en estadística inferencial se encuentra más de una
herramienta para enfrentar un mismo tipo de problema. Emplearemos herramientas del campo de la estadística conocido como
estadística paramétrica. Algunas de las herramientas más usadas
son: la media muestral X para inferir acerca de una media poblacional u, la diferencia de medias muestrales X 1 − X 2 para inferir
acerca de una diferencia de medias poblacionales µ1 − µ 2 , la diferencia de proporciones muestrales P1 − P2 para inferir acerca de una
diferencia de proporciones poblacionales π 1 − π 2 , el cociente de
2
2
varianzas muestrales S1 / S 2 para inferir acerca de un cociente de
2
2
varianzas poblacionales σ 1 / σ 2 .
Paso 4. Seleccionar el modelo teórico
Para cada herramienta de análisis tal como X , X 1 − X 2 , P1 − P2 ,
2
2
S1 / S 2 , existe una distribución muestral teórica asociada. Ya se presentó en el capítulo 1, las distribuciones muestrales asociadas a la
media muestral, a la diferencia de medias muestrales, a la diferencia de proporciones muestrales, al cociente de varianzas muestrales, las que usaremos en el presente capítulo.
117
Paso 5. Región de rechazo y análisis del nivel de
significación
Debe adoptarse un grado de riesgo de concluir erróneamente
que H 0 es falsa con base en la evidencia suministrada por la
muestra. Tal riesgo enunciado en forma de probabilidad se
conoce como el nivel de significación del contraste de hipótesis o
el riesgo.
Una vez escogido el modelo para representar el comportamiento de la estadística muestral escogida para el análisis, determinar el nivel de significación es un problema de cálculo y de interpretación de la tabla de la distribución del correspondiente
modelo. Sabemos que el nivel de significación de una prueba de
hipótesis, denotado por α, es la probabilidad que existe de rechazar la hipótesis nula. En términos de las Figuras que se presentan
a continuación, el nivel de significación es el área de la región de
rechazo de la hipótesis nula. Generalmente se usan los valores:
0.05; 0.025; 0.001 y 0.0005 para α.
En el caso de que la prueba de hipótesis alternativa sea de
dos colas, α es la suma de las dos áreas de las regiones de rechazo.
Es decir, si α = m% en una prueba de dos colas, entonces el área
de cada una de las regiones de rechazo debe ser (m/2)%.
A continuación veamos un ejemplo del manejo del nivel de
significación cuando la estadística de prueba tiene distribución
normal estándar.
a)
Cuando la hipótesis alternativa es H 1 : u > w y la probabilidad
de rechazar la hipótesis nula siendo ésta verdadera es α = 0.05;
se plantea que P (Z > z ) = 0.05 y en la tabla normal estándar se
encuentra zteórico = 1.645 . Es decir P (Z > 1.645) = 0.05 , por lo
que la región crítica es el intervalo (1.645, ∞).
Figura 3.1
118
1.645
b)
Cuando la hipótesis alternativa es H 1 : u < w y la probabilidad
d e
rechazar la hipótesis nula siendo verdadera es α = 0.05; se plantea que P (Z < z ) = 0.05 y en la tabla normal estándar se encuentra zteórico = −1.645. Es decir, P (Z < −1.645) = 0.05 , por lo
que la región crítica es el intervalo (- ∞, -1.645 ).
c)
Cuando la hipótesis alternativa es H 1 :
Figura 3.2
u ≠ w y la probabili-
-1.645
dad de rechazar la hipótesis nula siendo verdadera es α = 0.05;
se plantea P Z > z = P (Z > z ) + P (Z < − z ) = 0.05 y en la tabla normal estándar se encuentra zteórico = 1.96 . Es decir,
P Z > 1.96 = P (Z > 1.96 ) + P (Z < −1.96 ) = 0.05 , por lo
que la región crítica es el intervalo (-∞, -1.96) U(1.96, ∞).
(
(
)
)
Paso 6. Decisión
de área 0.025
-1.645
-1.645
0.025 de área
119
Una vez realizados los pasos anteriores, la decisión acerca de la
hipótesis nula H 0 , es simplemente cuestión de mirar dónde cae
el valor de x estandarizado (para lo cual se observa una muestra
aleatoria)
Según dónde quede ubicado el valor del estimador muestral
habrá que: rechazar o no rechazar la hipótesis nula.
A continuación se presenta un ejemplo para ilustrar el desarrollo de una prueba de hipótesis en el que se resume los pasos
anteriores.
Ejemplo 3.2
El Director Académico del centro pre universitario de la UNMSM
tiene la percepción que el rendimiento académico durante el primer año de estudios en la universidad, de los alumnos ingresantes a través de la institución que dirige mejora año a año. Sabe que
históricamente los alumnos han tenido un rendimiento promedio
de 13 puntos con desviación estándar 1 punto. Para confirmar su
percepción llevó a cabo un estudio, para el que escogió una muestra aleatoria de 100 sanmarquinos que ingresaron el año 2004 a
través del centro pre universitario de la universidad y pidió al sistema de matrícula el rendimiento de cada uno de estos alumnos
durante el año académico 2004. En dicha muestra el rendimiento
promedio fue 14 puntos. Veamos si existe suficiente evidencia
muestral para decir si es cierta la percepción del Director Académico. α = 0.05.
Solución
Paso 1: Planteamiento de las hipótesis
Se trata de un problema de inferencia estadística acerca de la media poblacional.
µ: " rendimiento académico promedio durante el primer año
120
de estudios en la UNMSM, de alumnos ingresantes a través del
centro pre universitario de la universidad. Se plantea la hipótesis
nula juntamente con la hipótesis alternativa.
Hipótesis nula: Se plantea como que no pasa nada. Se debe de
interpretar como: "el rendimiento medio u =13 puntos, es decir:
Ho: µ = 13.
Hipótesis alternativa: Debe plantearse como la posibilidad sobre
la cual se tiene sospechas. En este caso, el Director Académico tiene la sospecha que el rendimiento promedio ha mejorado. Es decir, la hipótesis alternativa es:
H a : µ: > 13
Como la hipótesis alternativa es de la forma ">", la prueba de
hipótesis que se está planteando es unilateral o de una cola hacia
el lado derecho y la región crítica será de la forma(a, ∞).
Paso 2 Selección de la herramienta de análisis, del modelo y
obtención de la región crítica
La herramienta de análisis que se utilizará es la media muestral y
su valor es x =14 puntos.
Hemos visto en el capítulo 1 que el comportamiento de la
media muestral X se puede modelar de una manera aproximada
con la distribución normal. Puesto que la varianza de toda la población se supone conocida, usaremos el hecho que:
Z=
X −µ
σ
n
tiene distribución N(0,1).
Si se elige el nivel de significación del α =0 .05, el espacio muestral queda dividido en dos regiones disjuntas, la región de rechazo de la hipótesis nula y la región de no rechazo de la hipótesis
121
nula.
En la tabla normal, el valor de z que cumple P (Z > z ) = 0.05 =
α, es z = zteórico = 1.645.
Luego, la región crítica o de rechazo de la hipótesis nula es el
intervalo (1.645, ∞).
Región de rechazo de H0
Paso 3. Tomar la
1.645
muestra y obtener
zc
Con la información de la muestra observada y bajo el supuesto de
que la hipótesis nula es verdadera, la estadística de prueba toma
el valor 10. Es decir:
zc =
x − µ0 14 − 13
=
= 10, es el valor muestral estandariz ado.
1
σ
100
n
Paso 4. Decidir
Se puede ver que el valor muestral estandarizado o el valor de la
estadística de prueba, zc = 10 , se ubica en la región de rechazo de
la hipótesis nula, es decir pertenece al intervalo (1.645, ∞), por lo
que la decisión es rechazar la hipótesis nula.
Con un nivel de significación α = 0.05, existe evidencia para
afirmar que es posible que la percepción del Director Académico
sea cierta.
Observación 1
Es importante señalar que los software´s estadísticos como el SPSS,
reportan el nivel crítico de la prueba o p-value, en lugar de indi-
122
car un determinado valor del nivel de significación α. Esto facilita
la lectura de los resultados y concede al investigador, sobre la base
del valor de p-value, la libertad de rechazar o no la hipótesis nula.
Es decir, la decisión: rechazar la hipótesis nula porque el valor de zc = 10 es mayor que el valor encontrado en la tabla normal, z = 1.96 ; es equivalente a la decisión: rechazar la hipótesis
nula porque el nivel crítico de la prueba, P (Z > 10) = 0.00 , es
menor que el valor del nivel de significación, α = 0.05 . Es decir,
rechazar la hipótesis nula porque P (Z > 10 ) = 0.000 es menor que
α = 0.05 . Esta es la regla que se usará toda vez que se trabaje con
el software estadístico SPSS.
Pruebas de hipótesis en poblaciones normales
Pruebas de hipótesis en una población normal
Vamos a presentar el procedimiento de pruebas de hipótesis en el
supuesto de poblaciones normales, es decir bajo el supuesto que
la variable aleatoria X tiene distribución normal con media u y
2
varianza σ .
Los tópicos a ser tratados son: pruebas de hipótesis para la
media poblacional, para la varianza poblacional, para la diferencia de medias, para la diferencia de proporciones y para el cociente de varianzas.
Para la media poblacional cuando la varianza poblacional es conocida
Supongamos que la variable aleatoria X tiene distribución normal
2
con media u y varianza σ conocida. En el capítulo anterior hemos visto que la distribución de la variable estandarizada,
X −µ
Z=
, es N(0,1), donde X es la media muestral. Se usará
σ
n
este resultado para ilustrar el procedimiento para contrastar hipótesis, cuando la hipótesis alternativa tiene el sentido ">". Los
123
pasos se resumen a continuación:
Paso 1: Se plantean las dos hipótesis, nula y alternativa:
H
H
0
: µ = µ0
1
: µ > µ0
Paso 2: Se toma una muestra aleatoria de tamaño n y se obtiene el valor de la media muestral. Luego, se obtienen el valor
de la estadística de prueba zc =
x − u0
, que corresponde a una
σ
n
distribución normal estándar cuando la hipótesis nula es verdadera.
Paso 3: Se encuentra la región crítica para un nivel de significación prefijado, α, de manera que P (Z > zteórico ) = α . La región crítica será el intervalo ( zteórico , ∞), donde zteórico es el valor de la
abscisa de la distribución normal estándar tal que el área de la
derecha de la curva vale 0.05.
Paso 4: Se rechaza la hipótesis nula frente a la hipótesis alternativa si el valor de zc obtenido en el paso 2 cae en la región de rechazo de la hipótesis nula, es decir, si cae en el intervalo ( zteórico , ∞).
De la misma manera es posible indicar las reglas para los casos donde la hipótesis alternativa es: H 1 : µ < µ0 o H 1 : µ ≠ µ0 . En
la siguiente tabla se resume los diversos casos de la prueba de
hipótesis respecto de la media de una población normal con varianza conocida. Se incluye en cada caso la región de rechazo correspondiente.
Ejemplo 3.3
124
Hipótesis
Estadístico de prueba
Regla de decisión
Rechazar la hipótesis,
H
H
H
0
: µ = µ0
: µ > µ0
1
zc =
x − µ0
σ
n
0
: u = u0 si
zc > zteórico ó ( zteórico , ∞)
con el SPSS:
p _ value < α
H
H
0
1
: µ = µ0
: µ < µ0
zc =
x − µ0
σ
n
zc < zteórico o (-∞, - zteórico )
Con el SPSS:
p _ value < α
H
0
: µ = µ0
zc =
x − µ0
σ
n
zc > zteórico
equivalentemente
zc > zteórico ó zc < zteórico
Con el SPSS:
p _ value < α / 2
Usted es un inspector de escuelas públicas y realiza un experimento para investigar si la habilidad de lectura de estudiantes de
quinto año de primaria. En una muestra aleatoria de 100 estudiantes de esta población encuentra una habilidad media de lectura
igual a 70 palabras por minuto. Las notas nacionales sobre la habilidad de lectura, para los estudiantes del quinto año de primaria, muestran una distribución normal con media 75 palabras por
minuto y una desviación estándar igual a 12. Todo puntaje por
debajo de 75 se considera deficiente. ¿Es razonable considerar que
la habilidad de lectura de los estudiantes de quinto de primaria es
deficiente?. Use α = 0.05.
Solución
125
Paso 1: Planteamiento de las hipótesis
Se trata de un problema de inferencia estadística acerca de la media poblacional, con varianza poblacional conocida.
µ: " el número promedio de palabras que leen por minuto los
estudiantes de quinto año de primaria.
Hipótesis nula: Se plantea como que no pasa nada. El número
promedio de palabras que leen los estudiantes, u, es de 75 palabras por minuto, es decir:
Ho: u = 75
Hipótesis alternativa: El número promedio de palabras que leen los
estudiantes ha disminuido. Es decir, la hipótesis alternativa es:
Ha:
u < 75
Paso 2: Tomar la muestra y obtener el valor de
zc
Con la información de la muestra observada y bajo el supuesto de
que la hipótesis nula es verdadera, la estadística de prueba toma
el valor -5.1. Es decir:
zc =
x − µ 70 − 75
=
= −5.10.
σ
12
150
n
Paso 3: encontrar la región crítica
Como la hipótesis alternativa es de la forma "<", la prueba de hipótesis que se está planteando es unilateral o de una cola hacia el
lado izquierdo, de la forma (-∞, a ), donde " a " es la abcisa de la
distribución normal estándar y cumple P (Z < a ) = 0.05) .
Si se elige el nivel de significación del α = 0.05, el espacio muestral queda dividido en dos regiones disjuntas como la siguiente:
126
En la tabla normal, el valor de z = zteórico que cumple
P (Z < zteórico ) = 0.05 = α, es zteórico = -1.645.
Luego, la región crítica es el intervalo: (-∞, -1.645).
-1.645
Paso 4: Decisión
El valor muestral estandarizado, zc = -5.1 encontrado en el paso
2, es menor que el valor teórico zteórico = -1.645; es decir, se cumple
zc = −5.10 < zteórico = −1.645 , por lo que la decisión es rechazar la
hipótesis nula. Con un nivel de significación α = 0.05, es posible
que la habilidad de lectura de estudiantes de quinto año de primaria sea deficiente.
Nivel crítico de una prueba( p _ value )
La manera cómo se encontró la región de rechazo dependió del
valor del nivel de significación α escogido de antemano. El valor
α proporciona una medida de la significación de la inferencia realizada; sin embargo éste no indica hasta qué grado la prueba es
significativa. Así para las hipótesis:
Ho: u = 75
Ha: u < 75,
los valores estandarizados de la media muestral z = -5.10
y por ejemplo z = -2.5 son significativos al nivel de significación α
= 0.05. Ambos valores caen en la región de rechazo de la prueba (∞, -1.645)
El valor de la media muestral estandarizada z= -5.10, presen-
127
ta mayor evidencia para rechazar la hipótesis nula, que el valor
de la media muestral estandarizada z= -2.5, porque la probabilidad de encontrar un valor de la media muestral menor que -5.1 es
menor que la probabilidad de encontrar un valor menor que -2.5.
El valor -5.1 indica que existe mayor discrepancia entre la media
muestral y el valor uo señalado en la hipótesis nula.
Así, una manera de medir el grado de discrepancia entre la
media muestral observada y la hipótesis nula se obtiene calculando la probabilidad de observar un valor del estadístico de prueba
más extremo que el valor estandarizado observado de la media
muestral. A esta probabilidad se le llama nivel crítico de la prueba ( p _ value en el idioma inglés).
Así, el nivel crítico de la prueba, cuando el valor de la media
muestral estandarizada es z = -2.5, es P (Z ≤ −2.5) = 0.0062. Si la
hipótesis nula es verdadera, la probabilidad de encontrar un valor de la media muestral estandarizada menor o igual a -2.5 es
muy pequeña (0.0062) y menor al nivel de significación dado. Se
decide aceptar que la hipótesis nula es falsa.
Cuando el valor estandarizado de la media muestral es
z = -5.1, el nivel crítico de la prueba o p _ value es P (Z ≤ −5.1)=
0.0000. Si la hipótesis nula es verdadera, la probabilidad de encontrar un valor de la media muestral estandarizada menor o igual
a -5.1 es cero. No queda otro camino que rechazar la hipótesis nula.
Cuanto menor sea el valor de p-value, mayor será la discrepancia entre los datos observados y la hipótesis nula.
Para la media poblacional con varianza
poblacional desconocida
Se supone que la variable X tiene distribución normal con media u
2
y varianza σ desconocida. En este caso el procedimiento para
realizar la prueba de la hipótesis H 0 : µ = µ0 frente a cualquiera
de las alternativas: H 1 : µ > µ0 , H 1 : µ < µ0 , H 1 : µ ≠ µ0 , es similar al
caso de varianza conocida, sólo que en lugar de usar la esta-
128
dística de prueba con valores
zc =
x − µ0
σ
se usa la estadística de
n
x − µ0
s
. Se ha visto en el capítulo 1 que la variable aleaprueba
n
X −µ
t=
S
toria
tiene distribución t-Student con ( n − 1 ) grados de
n
tc=
libertad.
Se usará este resultado para ilustrar el procedimiento para
contrastar hipótesis, cuando la hipótesis alternativa tiene el sentido ">". Los pasos se resumen a continuación:
Paso 1: Se plantean las dos hipótesis, nula y alternativa:
H :µ =µ
H 1 : µ > µ0
0
0
Paso 2: Se toma una muestra aleatoria de tamaño n y se obtiene el
valor de la media muestral y finalmente se obtiene el valor de la
estadística de prueba tc =
x − µ0
.
s
n
Paso 3: Se encuentra la región crítica, para el nivel de significación P(t( n −1) > tteórico ) = α , donde tteórico es el valor de la abcisa de la
distribución t-Student con (n-1) grados de libertad, que deja de
área al lado derecho de la curva.
La región crítica es el intervalo ( tteórico , ∞).
Paso 4: Se decide rechazar la hipótesis nula frente a la hipótesis
alternativa si el valor de la estadística de prueba tc cae en la región ( tteórico , ∞).
De la misma manera es posible indicar las reglas para los casos donde la hipótesis alternativa es: H 1 : µ < µ0 o H 1 : µ ≠ µ0 . En
129
la siguiente tabla se resume los diversos casos de la prueba de
hipótesis respecto de la media de una población normal con varianza desconocida.
Ejemplo 3.4
Hipótesis
Estadística de prueba
Regla de decisión
Rechazar la hipótesis
H
H
H
: µ = µ0
: µ > µ0
1
0
H
H
1
H
H
: µ = µ0
: µ ≠ µ0
1
0
: µ = µ0
: µ < µ0
0
tc =
tc =
tc =
x − µ0
s
n
x − µ0
s
n
x − µ0
s
n
0
: u = u0 , si
tc > tteórico
p _ value < α
tc < tteórico
p _ value < α
tc > tteórico
equivalentemente
tc > tteórico ó
tc < tteórico
p _ value < α / 2
P (t( n −1) > tteórico ) = α
El Director Académico del centro pre universitario de la UFV tiene la percepción de que el rendimiento académico durante el primer año de estudios en la universidad, de los alumnos ingresantes a través de la institución que dirige mejora año a año. Sabe que
históricamente los alumnos han tenido un rendimiento promedio
de 13 puntos. Para confirmar su percepción llevó a cabo un estudio, para el que escogió una muestra aleatoria de 20 alumnos que
130
ingresaron el año 2004 a través del centro pre universitario que
dirige y pidió al sistema de matrícula el rendimiento de cada uno
de estos alumnos durante el año académico 2004. Para dicha muestra obtuvo un rendimiento promedio de 14.5 puntos con desviación estándar 1.5 puntos. Veamos si existe suficiente evidencia
muestral para decir si es cierta la percepción del Director Académico. α = 0.05.
Solución
Paso 1: Se plantean las hipótesis
Se trata de un problema de inferencia estadística acerca de la media poblacional con varianza poblacional desconocida.
u: " rendimiento académico promedio durante el primer año
de estudios en la UFV, de alumnos ingresantes a través del centro
pre universitario de la universidad.
Hipótesis nula: El rendimiento medio es u=13 puntos, es decir:
H 0 : u = 13
Hipótesis alternativa: Se tiene la sospecha que el rendimiento promedio ha mejorado. Es decir, la hipótesis alternativa es:
H 1 : u > 13
Paso 2: Se toma la muestra y calcula
tc
Bajo el supuesto de que la hipótesis nula es verdadera, la estadística de prueba toma el valor 4.47, es decir:
tc =
x − µ0 14.5 − 13
=
= 4.47.
s
1.5
n
20
Paso 3: Se obtienen la región crítica
131
Para el nivel de significación α = 0.05 y prueba unilateral del sentido mayor, se cumple que P t(19 ) > tteórico = 0.05 . En la tabla t-Student, el valor de tteórico con 19 es: tteórico = 1.729. Luego, la región
crítica es el intervalo (1.729, ∞).
(
)
Paso 4: Decisión
Se puede ver que el valor de tc = 4.47 cae en la región de rechazo
de la hipótesis nula. Es decir: tc = 4.47 > tteórico = 1.729 , por lo que la
decisión es rechazar la hipótesis nula. Con un nivel de significación α = 0.05, es posible que la percepción del Director Académico
sea cierta.
Ejemplo 3.5
Un estudiante de maestría investiga un método que supuestamente
modifica la edad en la cual los niños comienzan a hablar, edad
que históricamente es 11 meses. Aplicó su método y luego ha hecho el seguimiento a 19 niños y ha registrado las siguientes edades (en meses) en la que dichos niños pronunciaron las primeras
palabras.
10 10 11 16 17 16 14 12 12 13 9 10 12 12 10 17 13 15 18
Al estudiante de maestría le preocupa: a) Identificar el problema. b) Plantear la hipótesis nula y la hipótesis alternativa. c)
Para un nivel de significación 0.05, quiere saber si funcionó o no el
método que aplicó.
Solución
Primero se realizan los cálculos auxiliares para obtener los valores de las estadísticas descriptivas media muestral x y desviación
estándar muestral, s; para luego calcular el valor de la estadística
de prueba, tc . Los estudiantes que necesitan mayores detalles re-
132
mitirse al libro: Estadística Descriptiva con auxilio del SPSS y Matlab
(Gómez y et.al, 2005).
Los cálculos auxiliares son:
A continuación se detalla la solución.
Edades
xi
Número
de niños f i
xi f i
1
4
1
4
2
1
1
2
2
1
19
9
40
11
48
26
14
15
32
34
18
247
9
10
11
12
13
14
15
16
17
18
x=
s
2
=
1 k
= 13 ,
∑ fi = 247
n i =1 xi
19
1 k
∑
n − 1 i =1
(x − x)
2
i
(x − x) (x − x)
2
i
2
i
16
9
4
1
0
1
4
9
16
25
fi
16
36
4
4
0
1
4
18
32
25
140
n = 19 es el tamaño de muestra.
f i = 140 = 7.777
18
S = 2.7888
Paso 1: Planteamiento de las hipótesis
Se trata de un problema de inferencia estadística acerca de la media
poblacional con varianza poblacional desconocida. Así, µ : es la edad
media en la que los niños pronuncian sus primeras palabras.
Hipótesis nula: La edad promedio que históricamente los niños
pronuncian sus primeras palabras es µ = 11 meses, es decir:
H 0 : µ = 11
Hipótesis alternativa: La sospecha del estudiante de maestría y
la información en la muestra nos dice que ese promedio ha sido
133
superado. Así la hipótesis alternativa es:
H 1 : µ > 11
Como la hipótesis alternativa es de la forma ">", la prueba de
hipótesis que se está planteando es unilateral o de una cola hacia
el lado derecho.
Paso 2: Con la información de la muestra y bajo el supuesto de
que la hipótesis nula es verdadera, la estadística de prueba toma
el valor 3.126, porque:
tc =
x − µ0
13 − 11
=
= 3.126
s
2.7888
n
19
Paso 3: Para el nivel de significación α = 0.05, el valor de tteórico con
18 grados de libertad, se cumple la condición P (t(18) > tteórico ) = 0.05 =
α, entonces tteórico = 1.734.
Luego, la región de rechazo es el intervalo (1.734, ∞).
Paso 4: Se puede ver que el valor del estadístico de prueba cumple, tc = 3.126 > tteórico = 1.734 , es decir, el estadístico de prueba
se ubica en el intervalo (1.734, ∞). El investigador puede rechazar
la hipótesis nula e indicar que existe un cambio significativo en la
edad en que los niños pronuncian sus primeras palabras (con su
nuevo método).
En la mayoría de las investigaciones el tamaño de muestra es
grande y los cálculos para encontrar el valor de tc son tediosos,
por lo que hemos decidido apoyarnos en nuestro trabajo estadístico con el Software SPSS. En el libro Estadística Descriptiva con soporte del SPSS y Matlab (Gómez y colaboradores, 2005), dirigido a
investigadores y estudiantes de educación, ciencias sociales y áreas
afines; se explica con detalle todos los pasos a seguir desde la declaración de variables hasta el manejo de cada uno de los procedimientos estadísticos. A continuación, en cada uno de los proble-
134
mas que lo requiera, en el presente y en capítulos posteriores, se
dará por entendido que el estudiante tiene alguna familiaridad
con la declaración de variables y creación de base de datos y centraremos nuestra atención en los comandos del SPSS que se usarán para realizar los procedimientos estadísticos correspondientes.
Ejemplo 3.6
Resolveremos el ejemplo 3.5 usando el auxilio del SPSS. A continuación se detallan los pasos a seguir.
Paso 1: Es igual a la solución del problema 3.5.
Paso 2: Con el auxilio del SPSS debemos de:
a)
b)
Activar el SPSS.
Crear el archivo DATOS1- niños y declarar la variable EDAD
con los valores que ha tomado dicha variable en el ejemplo anterior. Luego se ejecutarán los siguientes comandos del SPSS
que permitirán encontrar el valor de tc que luego se comparará con el valor de tteórico encontrado en la tabla t-Student.
ANALIZE/COMPARE MEANS/ ONE-SAMPLE T-TEST/
llevar a TEST VARIABLE la variable creada EDAD/ en TEST
VALUE colocar 11 (el valor de la media poblacional bajo la
hipótesis nula)/ pulsar el comando OK.
En el output del SPSS se lee el valor de tc = 3.126 .
Paso 3: Es igual a la solución del problema 3.5.
One-Sample Test
Test Value = 11
T
edad
3.126
135
Paso 4: Igual a la decisión tomada en el ejemplo 3.5.
Se puede ver que el estadístico de prueba tc = 3.126 > tteórico = 1.734 ,
es decir, la estadística de prueba se ubica en el intervalo (1.734, ∞),
que es la región de rechazo correspondiente al nivel de significación 0.05. El investigador puede rechazar la hipótesis nula e indicar que existe un cambio significativo en la edad en que los niños
pronuncian sus primeras palabras (con su nuevo método).
Cuando la variable aleatoria tiene cualquier distribución y con muestras grandes
Cuando el tamaño de muestra que se toma es suficientemente grande (mayor que 30), aún cuando no se conozca la distribución de la
variable X, por el teorema del límite central, los estadísticos:
Z=
X −µ
σ
n
y
t =
X −µ
S
n
tienen distribución aproximadamente normal y pueden usarse
para probar hipótesis referentes a la media poblacional.
Ejemplo 3.7
Antes de aplicar el Plan Huascarán en el distrito de Copa el rendimiento promedio de los estudiantes de primer año de primaria
era de 12 puntos. Para determinar si el Plan ha sido efectivo en el
incremento del rendimiento de los estudiantes, se observaron al
azar a 96 estudiantes y se aplicó el Plan Huascarán durante un
año académico, obteniéndose de rendimiento promedio 11.5 puntos con desviación estándar 2.8 puntos. Al nivel de significación
0.05 ¿se podría decir que existe evidencia que el rendimiento promedio ha disminuido?.
136
Solución
Paso 1: La hipótesis nula indica que no existe diferencia en el rendimiento promedio, mientras que la hipótesis alternativa dice que
aplicando el Plan Huascarán el rendimiento promedio ha disminuido. Así:
H 0 : µ = 12 versus H1 : µ < 12 .
Paso 2: La muestra usada es suficientemente grande, por lo que la
media muestral tiene distribución aproximadamente normal y el
valor de la estadística de prueba es -1.75, porque:
zc =
x − µ0 11.5 − 12
=
= −1.75
s
2.8
n
96
Paso 3: Para α = 0.05, P (Z < zteórico ) = 0.05 = α, por lo que zteórico = 1.645. Luego, la región de rechazo es el intervalo (- ∞, -1.645).
Paso 4: Como el valor del estadístico de prueba zc = -1.75 cae en
el intervalo indicado se rechaza la hipótesis nula; existe evidencia
de que el rendimiento académico de los estudiantes ha disminuido.
Para la proporción π de una población grande
En algunas situaciones el parámetro sobre el que se trata de evaluar la hipótesis es la proporción de elementos con cierta característica A (π) en una población. Por ejemplo, la proporción de estudiantes que desaprueban el curso de matemáticas, la proporción
de estudiantes motivados, la proporción de padres de familia que
asisten a la convocatoria realizada por el director del colegio.
Específicamente se trata de probar la hipótesis:
H0 : π = π 0
frente a una de las siguientes hipótesis alternativas:
137
H1 : π < π 0
H1 : π > π 0
H1 : π ≠ π 0
Se ha visto en el capítulo 1, que bajo la hipótesis nula, la expresión Z =
P − π0
tiene distribución aproximadamente
π 0 (1 − π 0 )
n
N(0,1). A continuación se presenta el resumen de las hipótesis contrastadas, la estadística de prueba y la regla de decisión.
donde P es el estimador del parámetro π , y p es el valor que
toma la variable aleatortia P cuando se observa la muestra.
Ejemplo 3.8
Hipótesis
Estadístico de prueba
Regla de decisión
Rechazar la hipótesis
: π = π , si
H
H
H
: π = π0
:π > π0
0
0
zc =
p −π0
π 0 (1 − π 0 )
0
0
zc > zteórico
n
con el SPSS:
p _ value < α
H
H
: π = π0
:π < π0
0
0
zc =
p −π0
π 0 (1 − π 0 )
zc < zteórico
n
Con el SPSS:
p _ value < α
H :π = π
H :π ≠ π
0
0
0
0
zc =
p −π0
π 0 (1 − π 0 )
zc > zteórico
n
equivalentemente
zc > zteórico ó zc < zteórico
Con el SPSS:
p _ value < α / 2
Hace tres años el Ministro de Educación afirmó que históricamente el 30% de alumnos que estudian en zonas rurales abandonan
sus estudios al culminar el tercer año de primaria. En los últimos
138
dos años el gobierno ha realizado inversiones en infraestructura y
docencia en dichas zonas rurales con la esperanza de revertir el
resultado planteado por el Ministro. Con el fin de evaluar los cambios, después de dos años, se tomó una muestra aleatoria de 500
estudiantes de zonas rurales y se encontró que 100 de ellos abandonaron los estudios al culminar el tercer año de primaria. ¿Qué
puede decirse de la afirmación del Ministro de Educación?. Usaremos α = 0.05.
Solución
Paso 1: La hipótesis nula indica que la proporción de estudiantes
que abandona sus estudios es del 30%, mientras que la hipótesis
alternativa dice que esa proporción ha disminuido. Así:
H 0 : π = 0.30 versus
H 1 : π < 0.30 , donde π 0 = 0.30 .
Paso 2: La muestra usada es suficientemente grande, por lo que la
proporción muestral tiene distribución aproximadamente normal.
En la muestra que se observa se encontró p = 0.2 , por lo que el
valor del estadístico de prueba es -4.88, porque:
zc =
p − π0
π 0 (1 − π 0 )
=
n
0.2 − 0.3
= −4.88
0.3(0.7)
500
Paso 3: Para α=0.05, P (Z < zteórico ) = 0.05 =α, por lo que= zteórico -1.645.
Luego, la región de rechazo es el intervalo (- ∞, -1.645).
Paso 4: Como el valor del estadístico de prueba
zc =-4.88 cae en el
intervalo indicado, se rechaza la hipótesis nula. Cuando α = 0.05 ,
existe evidencia para afirmar que la proporción de estudiantes que
abandonaron los estudios ha disminuido.
El procedimiento indicado también vale cuando la población
es pequeña y la muestra se realiza con reposición. Si la población
es pequeña y la muestra se toma sin restitución, la región de re-
139
chazo se determina con la distribución binomial, tema que no se
aborda en el presente libro.
Pruebas de hipótesis en dos poblaciones normales:
medias, varianzas y proporciones
En muchos estudios, incluidos los educativos, es necesario comparar ciertas características en dos o más grupos de sujetos. Tal
sería el caso, por ejemplo, si pensamos que un nuevo método de
enseñanza puede tener un porcentaje mayor de alumnos aprobados que otro método de enseñanza estándar, o cuando nos planteamos si los niños de las distintas comunidades rurales tienen o
no la misma altura.
La elección de un método de análisis apropiado en este caso
dependerá de la naturaleza de los datos y la forma en la que estos
hayan sido obtenidos. Fundamentalmente, cuando se comparan
dos o más grupos de observaciones pueden darse dos tipos de
diseño: aquel en el que las observaciones se refieren a dos grupos
independientes de individuos, o el caso en el que cada serie de
datos se recoge en los mismos sujetos bajo condiciones diferentes.
El tipo de metodología será distinto según el caso en el que nos
encontremos.
Otro aspecto a tener en consideración será el tipo y distribución de la variable. Generalmente, los métodos paramétricos requieren que las muestras de cada grupo provengan de
una distribución aproximadamente normal con una variabilidad semejante, de modo que si los datos disponibles no verifican
tales condiciones, puede resultar útil una transformación de los
mismos (aplicación del logaritmo, raíz cuadrada, etc.) o, en todo
caso, se debería recurrir a la utilización de procedimientos no paramétricos.
Poblaciones independientes: igualdad de medias cuando se conocen las
varianzas poblacionales
140
Si X e Y son variables aleatorias independientes con distribucio-
(
(
)
)
2
nes N µ1 , σ 1 y N µ2 , σ 22 respectivamente; entonces, las medias
muestrales X 1 y X 2 , correspondientes a muestras de tamaño
y
n2 ,

n1
σ 
2
1
 y
tienen las siguientes distribuciones N  µ1 ,
n1 

 σ2 
N  µ2 , 2  . Luego, la variable aleatoria X 1 - X 2 estandarizada,
n2 

(X − X 2 )− (µ1 − µ2 ) , tiene distribución N (0,1).
Z= 1
σ 12 σ 22
+
n1
n2
A continuación se presentan los pasos a seguir para probar la
hipótesis nula respecto a la igualdad de medias (equivalente a que
la diferencia de medias es igual a cero), frente a la hipótesis alternativa que las medias son diferentes.
Paso 1: Se plantea H 0 : µ1 = µ2 versus H 0 : µ1 ≠ µ2 .
Paso 2: Si se conocen las varianzas poblacionales y si la hipótesis
nula es verdadera; el valor de la estadística de prueba basado en
los valores observados de las dos muestras independientes,
x11,...., x1n1 de la variable X 1 y x21,...., x2,n 2 de la variable X 2 es:
zc =
(x − x )
1
2
σ
σ2
+ 2 , donde x1 y x2 son los valores que toman
n1 n2
2
1
las medias de las muestras observadas.
(
)
Paso 3: Para α = 0.05, P Z > zteórico = 0.05 = α, entonces
P ( Z < zteórico ) = 0.95 , por lo que zteórico = 1.96.
Luego, la región de rechazo es el intervalo (- ∞, -1.96) o el interva141
lo (1.96, ∞).
Paso 4: Si el valor del estadístico de prueba cae en uno de los intervalos de la región de rechazo, entonces, se rechaza la hipótesis
nula.
A continuación se presenta el resumen de las hipótesis contrastadas, la estadística de prueba y la regla de decisión.
Ejemplo 3.9
En un sistema educativo se aplicaron dos métodos A y B para enseñar el curso de física. En un grupo de 80 estudiantes se aplicó el
Hipótesis
Estadística de prueba
Regla de decisión
Rechazar la hipótesis
H 0 : µ1 = µ2 , si
H 0 : µ1 = µ2
H1 : µ1 > µ2
H 0 : µ1 = µ2
H 1 : µ1 < µ2
zc =
zc =
(x − x )
1
2
σ
σ
+
n1 n2
2
1
(x − x )
1
zc > zteórico
2
2
2
σ
σ
+
n1 n2
2
1
2
2
con el SPSS:
p _ value < α
zc > zteórico
con el SPSS:
p _ value < α
H 0 : µ1 = µ2
H 1 : µ1 ≠ µ2
zc =
(x − x )
1
2
σ
σ
+
n1 n2
2
1
2
2
zc > zteórico
equivalentemente
zc > zteórico ó zc < zteórico
con el SPSS:
p _ value < α / 2
142
método A y en el otro de 120 se aplicó el método B. Las medias de
las calificaciones obtenidas fueron 13 y 13.5 respectivamente. ¿Podemos admitir que los métodos de enseñanza no son diferentes y
que las diferencias encontradas en las muestras se debe al azar?.
Experiencias anteriores dicen que las variables X 1 y X 2 que representan los rendimientos con los métodos A y B respectivamente, tienen distribución normal con varianzas 3 y 3.5 y α = 0.05 .
Solución
Paso 1: La hipótesis nula indica que no existe diferencia entre el
rendimiento promedio alcanzado aplicando con el método A y el
rendimiento promedio alcanzado con el método B; mientras que
la hipótesis alternativa dice que los rendimientos promedio son
diferentes. Así:
H 0 : µ1 = µ2
H1 : µ1 ≠ µ2
Paso 2: Con los valores de las medias muestras, los tamaños de
muestra y la información respecto a las varianzas se encuentra
que el valor del estadístico de prueba es -1.94.
zc =
(x − x )
1
2
σ
σ
+
n1 n2
2
1
2
2
=
(13 − 13.5)
3 3.5
+
80 120
= -1.94.
Paso 3: Para α = 0.05 , P ( Z > zteórico ) = 0.05 = α o
P ( Z < zteórico ) = 0.95 , por lo que zteórico = 1.96 .
Luego, la región de rechazo es el intervalo (- ∞, -1.96) ó el intervalo (1.96, ∞).
Paso 4: Como el valor del estadístico de prueba zc =-1.94 no cae
en el intervalo indicado, podemos decir que la diferencia encontrada entre las medias de las muestras, no es significativa al nivel
de significación 0.05.
143
Poblaciones independientes: igualdad de medias cuando las varianzas
poblacionales son desconocidas e iguales
Si X e Y son variables aleatorias independientes con distribuciones N (µ1 , σ 2 ) y N (µ2 , σ 2 ) respectivamente; entonces, las medias
muestrales X 1 y X 2 , correspondientes a muestras de tamaño

σ2 
n1 y n2 , tienen las siguientes distribuciones N  µ1,  y
n1
 σ2 
N  µ2 ,  . Luego, la variable aleatoria
n2 

Z=
(X
1
X1 −
)
− X 2 − (µ1 − µ2 ) , tiene distribución
σ
σ2
+
n1 n2
2


X 2 estandarizada
N (0,1) .
Como la varianza poblacional es desconocida, tiene que ser
estimada y en lugar de la variable estandarizada Z, se tiene la variable aleatoria:
t=
( X 1 − X 2 ) − (µ1 − µ2 )
 1
1 
S  + 


 n1 n2 
, cuya distribución es t-Student con
2
p
(n1 + n2 − 2 ) y se denota con t( n +n −2) . El estimador de la varian1
za poblacional es S p2 =
2
(n − 1)S + (n − 1)S
n +n −2
2
1
1
1
1
2
2
.
2
Así, en lugar de la estadística de prueba zc =
la estadística de prueba tc =
( x1 − x2 )
1
1 
s 2p  + 


 n1 n2 
. s 2p =
(x − x )
1
2
σ2 σ2
+
n1 n2
, se usa
(n − 1)s + (n − 1)s
n +n −2
2
1
1
1
2
2
2
es
2
la varianza combinada de las dos muestras, s12 y s22 son las estimaciones de las varianzas muestrales de tamaños n1 y n2 .
A continuación se presenta el resumen de las hipótesis con144
trastadas, la estadística de prueba y la regla de decisión.
Ejemplo 3.10
Un investigador en el campo educativo sostiene que el módulo didáctico empleado en la enseñanza de Matemáticas es uno
de los factores que influye y determina en el proceso de enseñanza aprendizaje y por lo tanto, el módulo adoptado incidirá
Hipótesis
Estadística de prueba
Regla de decisión
Rechazar la hipótesis
: u1 = u2 , si
0
H
H
H
H
H
H
H
: µ1 = µ2
: µ1 > µ2
1
0
: µ1 = µ2
: µ1 < µ2
1
 1
1 
s 2p  + 


 n1 n2 
: µ1 = µ2
: µ1 ≠ µ2
1
0
con el SPSS:
p _ value < α
( x1 − x2 )
tc =
0
tc > tteórico
( x1 − x2 )
tc =
tc < −tteórico
 1
1 
s 2p  + 


 n1 n2 
con el SPSS:
p _ value < α
tc > tteórico
( x1 − x2 )
tc =
 1
1 
s 2p  + 
 n1 n2 
equivalentemente
tc > tteórico ó tc < −tteórico
con el SPSS:
p _ value < α
H
Para H
Para H
Para
tteórico = t(
1
1
1
(n n
: µ < µ , P(t(n n
: µ1 > µ2 , P t(
1
2
1
+
+
1
2
−2
2
−2
)
)= α donde t
=t
t
) > tteórico = α donde teórico ( n1+n2 − 2,1−α )
) < tteórico
teórico
= − t(
n1+n2−2,1−α )
: µ1 ≠ µ2 , P  t( + −2 ) > tteórico  = α / 2 donde
 n n

n1+n2 −2,1−α / 2 ) ó
1
2
tteórico = −t(
n1+n2−2,1−α / 2 ) .
145
en el rendimiento académico de los estudiantes. Para verificar su
hipótesis decide realizar el siguiente experimento: durante un semestre se llevó a cabo el trabajo lectivo en dos grupos independientes de estudiantes de la misma carrera en la misma universidad, empleando dos módulos (A y B) de características bien diferenciadas, que fueron seleccionados aleatoriamente. Al final del
curso se aplicó el mismo examen y se obtuvo las siguientes notas.
Suponiendo que las muestras provienen de poblaciones normales con varianzas iguales, ¿los resultados encontrados por el
profesor apoyan la hipótesis de investigación con nivel de significación 0.10?.
Solución
Método A
15
16
15
13
13
16
16
Método B
13
14
14
11
12
14
13
14
17
Paso 1: La hipótesis nula indica que no existe diferencia entre el
rendimiento promedio alcanzado aplicando con el método A y el
rendimiento promedio alcanzado con el método B; mientras que
la hipótesis alternativa dice que los rendimientos promedio son
diferentes. Así:
H 0 : µ1 = µ2
H1 : µ1 ≠ µ2
Paso 2 Se explica con detalle la obtención de las media y varianzas de las muestras:
Suponiendo que las varianzas poblaciones son iguales se estima con:
146
s 2p =
(n − 1)s + (n − 1)s
n +n −2
2
1
1
1
2
2
2
2
(x
Notas de los
estudiantes
método A
1i − x1
=
8(2) + 6(1.333)
= 1.7141
14
)
Notas de los
estudiantes
método B
2
x1i
0
1
0
4
4
1
1
1
4
16
x1 =
1 n1
135
= 15
∑
x
1i =
n1 i =1
9
s12 =
1 n1
∑
n1 − 1 i =1
s22 =
(x
1i − x1
)
13
14
14
11
12
14
13
---91
tc =
)
2
0
1
1
4
1
1
0
8
n1 = 9
16
=2
8
2
=
1 n2
91
= 13
∑
n21 i =1 x2i = 7
1 n2
∑
n2 − 1 i =1
2i − x2
x2 i
15
16
15
13
13
16
16
14
17
135
x2 =
(x
(x
2i − x 2
( x1 − x2 )
 1
1 
s 2p  + 


 n1 n2 
)
n2 = 7
2
=
8
= 1.333
7
15 − 13
=
1 1
1.7141 + 
9 7
= 3.031.
Paso 3: Para α = 0.10 P t(n +n −2 ) > tteórico  = α , con 14 grados de libertad, tteórico = t( n1+n 2 −2,1−α / 2 ) = t(14,0.975) = 1.761 ó tteórico = −t( n +n −2,1−α / 2) = t(14,0.975) = -1.761.
Luego, la región de rechazo es el intervalo (- ∞, -1.761) ó el
intervalo (1.761, ∞).
1
2
1
2
147
Paso 4: Como el valor del estadístico de prueba tc = 3.031 cae
en el intervalo (1.761, ∞), podemos decir que la diferencia encontrada entre las medias muestrales es significativa al nivel de significación 0.10.
Ejemplo 3.11
-1.76
1.76
Resolveremos el ejemplo 3.10 usando el auxilio del software estadístico SPSS.
Solución
Paso 1: La hipótesis nula indica que no existe diferencia entre el
rendimiento promedio alcanzado aplicando con el método A y el
rendimiento promedio alcanzado con el método B; mientras que
en la hipótesis alternativa se postula que los rendimientos promedio son diferentes. Así:
H 0 : µ1 = µ2
H1 : µ1 ≠ µ2
Paso 2: Con el auxilio del SPSS, se ejecutan los siguientes comandos.
a)
b)
148
Activar el SPSS.
Abrir el archivo de DATOS2-métodos. Podrá observar que
tenemos valores de dos variables: de la variable rendimiento
de los estudiantes y de la variable grupo, donde se clasifica a
los estudiantes según el método de enseñanza. En la variable
grupo, se ha codificado con 1 a quienes recibieron la ense-
c)
ñanza con el método A y con el código 2 a quienes estudiaron
con el método B.
Ejecutar los siguientes comandos del SPSS que permitirán
encontrar el valor de que luego se comparará con el valor de
encontrado en la tabla t Student.
ANALIZE/COMPARE MEANS/ INDEPENDENT-SAMPLE
T-TEST/ llevar a TEST VARIABLE la variable creada RENDIMIENTO/ en GROUPING VARIABLE elegir GRUPO/ DEFINE GROUPS/ en grupo1 colocar 1 y en grupo2 colocar 2/
CONTINUE/ OK.
En el output del SPSS se tiene el valor de tc = 3.031.
Paso 3: p _ value debe compararse con α
2
= 0.05 , pues si
p _ value / 2 < α / 2 se rechaza la hipótesis nula.
Paso 4: Como el valor de p _ value = 0.009 es menor que < α / 2 ,
la decisión es rechazar la hipótesis nula. Es decir, podemos decir
rendimiento
Equal variances
assumed
t
df
Sig. (2-tailed) =
3.031
14
.009
p _ value
que la diferencia encontrada entre las medias muestrales es significativa al nivel de significación 0.10.
Poblaciones independientes: igualdad de medias cuando las varianzas
poblacionales son desconocidas y diferentes
Si X 1 e X 2 son variables aleatorias independientes con distribu-
(
)
(
)
ciones N µ1 , σ 12 y N µ2 , σ 22 respectivamente; entonces, las me-
149
dias muestrales
X 1 y X 2 , correspondientes a muestras de tama-
 σ2 
ño n1 y n2 , tienen las siguientes distribuciones N  µ1 , 1  y
n1 

2
 σ
N  µ2 , 2
n2


 .

Si no se conocen las varianzas de las variables X 1 e X 2 , éstas
1
n1
(
2
se estiman con s1 = n − 1 ∑ x1i − x1
i =1
1
estadística de prueba es, tc =
)y
2
s22 =
( x1 − x2 )
 s12 s22 
 + 


 n1 n2 
1 n2
∑
n2 − 1 i =1
(x
2i − x 2
) y la
2
. Los grados de libertad
 s12   s22 
 n1  +  n2 
 

de la estadística son k , donde: k = 
2
 s12 
 s22 
 n 
 n
2
1

+
n1 + 1
n2 + 1
2
2
−2.
Si k ≥ 30 , el estadístico tc tiene distribución aproximadamente normal y el procedimiento es similar al caso donde se conocen
las varianzas.
Si las muestras son suficientemente grande ( n1 ≥ 30 y
n2 ≥ 30 ) e independientes, para probar la hipótesis respecto a la
igualdad de medias, se usa como valor de la estadística de prueba
z=
150
(x − x ) , que corresponde a una variable cuya distribución
1
2
1
2
s
s2
+ 2
n1 n2
es normal estándar.
Ejemplo 3. 12
Un investigador en el campo educativo sostiene que el módulo didáctico empleado en la enseñanza de Matemáticas es uno de los factores que influye y determina en el proceso de enseñanza aprendizaje y por lo tanto, el módulo adoptado incidirá en el rendimiento
académico de los estudiantes. Para verificar su hipótesis decide
realizar el siguiente experimento: durante un semestre se llevó a
cabo el trabajo lectivo para dos grupos de estudiantes de la misma carrera en la misma universidad, empleando dos módulos (A
y B) de características bien diferenciadas. Al final del curso se aplica
Método A
15
16
15
13
13
16
16
14
Método
B
13
18
14
17
12
17
13
17
el mismo examen y se obtuvo las siguientes notas.
Suponiendo que las muestras provienen de poblaciones normales con varianzas diferentes. ¿Los resultados encontrados por
el profesor apoyan la hipótesis de investigación?. Use nivel de significación 0.10.
Solución
Paso 1: La hipótesis nula indica que no existe diferencia entre el
rendimiento promedio alcanzado aplicando el método A y el rendimiento promedio alcanzado con el método B; mientras que la
hipótesis alternativa dice que los rendimientos promedio son diferentes. Así:
H 0 : µ1 = µ2
H1 : µ1 ≠ µ2
Paso 2: Con el auxilio del SPSS, se ejecuta lo siguiente:
151
a)
b)
c)
Activar el SPSS.
Abrir el archivo de DATOS3-diferentes.
ANALIZE/COMPARE MEANS/ INDEPENDENT-SAMPLE
T-TEST/ llevar a TEST VARIABLE la variable creada RENDIMIENTO/ en GROUPING VARIABLE elegir GRUPO/
DEFINE GROUPS/ en grupo1 colocar 1 y en grupo2 colocar
2/ CONTINUE/ pulsar el comando OK.
En el output del SPSS se tiene directamente el valor de
F
Sig.
T
df
Sig.
(2-tailed)
p _ value
rendimiento
Equal
variances not
assumed
.139
9.151
.892
tc = 0.139 con 9 grados de libertad.
Sólo con fines didácticos, vamos a ejecutar los comandos:
ANALIZE/COMPARE MEANS/ MEANS/ para DEPENDENT LIST elegir RENDIMIENTO y para INDEPENDENT LIST
elegir GRUPO/ elegir OPTIONS/ seleccionar VARIANCA/ CONTINUE/ OK.
grupo
N
Variance
1
2
Total
9
7
16
2.000
5.810
3.396
El output del SPSS nos muestra los siguientes resultados:
con los que comprobaremos el valor de los grados de libertad:
152
 s12   s22 
 n1  +  n2 

 

k=
2
 s12   s22 
 n  n 
1
2

+
n1 + 1
n2 + 1
2
2
[(2 9 )+ (5.81 7 )]
2
−2 =
( 2 9 ) + (5.81 7 )
2
2
9 +1
− 2 = 9.15
7 +1
Paso 3: El valor de p _ value / 2 debe compararse con α 2 = 0.025 ,
pues si p _ value < α , se rechaza la hipótesis nula.
Paso 4: Como el valor de p _ value = 0.892 no es menor que < α
= 0.10, la decisión es no rechazar la hipótesis nula. Es decir, podemos decir que no existe información suficiente para rechazar la
hipótesis nula con el nivel de significación 0.10.
Poblaciones independientes: Pruebas de hipótesis para la diferencia de
proporciones π 1 y π 2
En las poblaciones 1 y 2, con respectivas proporciones poblacionales π 1 y π 2 ( de estudiantes, profesores, etc., para ser más genéricos, de "unidades"), con determinados atributos; se desea contrastar la hipótesis nula H 0 : π 1 = π 2 con cualquiera de las hipótesis alternativas: H 1 : π 1 ≠ π 2 , H 1 : π 1 > π 2 ó H 1 : π 1 < π 2 .
Los parámetros que son las proporciones poblacionales tienen como estimadores en cada una de las muestras: P1 =
P2 =
A
y
n1
B
, donde es el número de elementos con el atributo de inn1
terés en la primera muestra y es el número de elementos con el
mismo atributo en la segunda muestra. Cuando las muestras son
( P1 − P2 ) − (π 1 − π 2 )
suficientemente grandes, la estadística
tiene
1 1 
P (1 − P ) + 
 n1 n2 
distribución aproximadamente normal, donde P =
n1P1 + n2 P2
.
n1 + n2
Si la hipótesis nula es verdadera, una estimación común de
153
Hipótesis
H 0 : π1 = π 2
H1 : π 1 > π 2
H 0 : π1 = π 2
H1 : π 1 < π 2
Estadístico de prueba
zc =
zc =
H 0 : π1 = π 2 z =
c
H1 : π 1 ≠ π 2
p1 − p2
1 1 
p (1 − p ) + 
 n1 n2 
p1 − p2
1 1
p (1 − p ) + 
 n1 n2 
p1 − p2
1 1 
p (1 − p ) + 
 n1 n2 
Regla de decisión
Rechazar la hipótesis
H 0 : π 1 = π 2 , si
zc > zteórico ó ( zteórico , ∞)
con el SPSS:
p _ value < α
zc > zteórico ó ( zteórico , ∞)
Con el SPSS:
p _ value < α
zc > zteórico
equivalentemente
zc > zteórico ó zc < zteórico
Con el SPSS:
p _ value < α
π 1 = π 2 = π , es p =
dística de prueba
n1 p1 + n2 p2
y se puede usar como la estan1 + n2
p1 − p2
. A continuación se presenta
1 1
p (1 − p ) + 
 n1 n2 
el resumen para cada una de las posibles hipótesis alternativas y
las respectivas regiones de rechazo.
Ejemplo 3.13
200 estudiantes fueron divididos aleatoriamente en dos grupos,
cada uno de 100. Los de la muestra 1 aprendieron determinado
material en el cual se enuncia verbalmente el concepto de transiti-
154
vidad, a continuación de lo cual se dieron varios ejemplos de la
situación. A los estudiantes del grupo 2 se les expuso ejemplos,
tras de lo cual se enunció verbalmente el concepto de transitividad. Son dos las poblaciones subyacentes a las muestras y que
hubieran podido participar en el experimento. Seguidamente se
administró una prueba de ítems a los 200 estudiantes, para determinar si dominan el concepto de transitividad, pues, se desea saber si en estas dos poblaciones de estudiantes, las respectivas proporciones π 1 y π 2 que manejan la transitividad son o no iguales
(el criterio es el número de respuestas correctas en la prueba de
ítems). Al finalizar el experimento, 68 estudiantes de la muestra 1
y 54 estudiantes de la muestra 2 dominaban el concepto de transitividad. Veamos si existe diferencia en las proporciones poblacionales. Usemos α = 0.05 .
Solución
π 1 : proporción de estudiantes de la población 1 que manejan el
concepto de transitividad. Se enunció el concepto y luego los
ejemplos.
π 2 : proporción de estudiantes de la población 2 que manejan el
concepto de transitividad. Se enunció primero los ejemplos y
luego el concepto.
p1 : proporción de estudiantes de la muestra observada que manejan el concepto de transitividad, habiendo estudiado primero el concepto y luego los ejemplos.
:
p2 proporción de estudiantes de la muestra observada que manejan el concepto de transitividad, habiendo estudiado primero los ejemplos y luego el concepto.
p1 =
B 54
A 68
=
= 0.68 y p2 = =
= 0.54
n1 100
n1 100
p=
100(0.68) + 100(0.54)
= 0.61
200
Paso 1: La hipótesis nula indica que no existe diferencia entre las
proporciones poblacionales de los estudiantes que aprendieron el
155
concepto de transitividad con los dos métodos ya descritos.
H 0 : π1 = π 2
H 0 : π1 ≠ π 2
Paso 2: Obtenemos el valor del estadístico de prueba:
zc =
p1 − p2
1 1
p (1 − p ) + 
 n1 n2 
=
0.68 − 0.54
1 
 1
0.61(0.39) 
+
100 100 
=
0.14
=2.03
0.06897
Paso 3: Para α=0.05, P ( Z > zteórico ) = 0.05 = α o P ( Z < zteórico ) = 0.95 .
En la tabla normal estándar el el valor de la abcisa que cumple
con la condición es zteórico =1.96.
Luego, la región de rechazo es el intervalo (- ∞, -1.96) ó el
intervalo (1.96, ∞).
Paso 4: Como el valor de zc = 2.03 cae en el intervalo (1.96, ∞),
podemos decir que la diferencia encontrada entre las proporciones muestrales es significativa al nivel de significación 0.05. Podemos concluir, que si se enuncia el concepto en primer término y a
continuación se presentan los ejemplos, se obtiene mejor rendimiento que si la exposición se hiciera en orden inverso.
Poblaciones independientes: Pruebas de hipótesis para el cociente de
varianzas
Cuando probamos las hipótesis con respecto a la igualdad de medias de dos poblaciones normales independientes, en el primer
caso se supone que las varianzas poblacionales eran conocidas.
Trabajando rigurosamente, ese supuesto debió ser justificado. El
procedimiento a seguir para esta prueba es el siguiente.
Si X 1 e X 2 son variables aleatorias independientes con distribuciones N (µ1 , σ 12 ) y N µ2 , σ 22 respectivamente; se trata de pro-
(
)
σ 12
= 1)
σ 22
frente a la hipótesis alternativa H 0 : σ 12 ≠ σ 22 . Cuando la hipóte-
bar la hipótesis nula H 0 : σ 12 = σ 22 (equivalentemente H 0 :
156
sis nula es verdadera, la estadística F =
S12
tienen distribución
S22
F-Snedecor con (n1 − 1)y (n2 − 1) grados de libertad.
La estadística de prueba basada en los valores observados de
dos muestras independientes, x11 ,...., x1n1 de la variable X 1 y
Hipótesis
Estadístico de prueba
H1 : σ ≠ σ
2
1
Fc > F( n −1,n −1;1−α
s12
Fc = 2
s2
H 0 : σ 12 = σ 22
2
2
Regla de decisión
Rechazar la hipótesis
H 0 : σ 12 = σ 22 , si
1
2
1
2
ó
2)
Fc > F( n −1,n −1;1−α
2
)
2
x21,...., x2,n 2 de la variable X 2 respectivamente, es: F c= s12 , que
s2
se comparará con el valor teórico de la abscisa de la distribución F
con (n1 − 1) y (n2 − 1) grados de libertad.
Se rechaza la hipótesis nula, si el valor de la estadística calculada se encuentra ya sea en la cola inferior o en la cola superior
correspondiente a α , de la distribución F-Snedecor, con (n1 − 1)
2
y (n2 − 1) grados de libertad.
Ejemplo 3.14
Un investigador en el campo educativo sostiene que el módulo
didáctico empleado en la enseñanza de Matemáticas es uno de los
factores que influye y determina en el proceso de enseñanza aprenMétodo A
15
16
15
13
13
16
16
Método B
13
14
14
11
12
14
13
14
17
dizaje y por lo tanto, el módulo adoptado incidirá en el rendimiento
académico de los estudiantes. Para verificar su hipótesis decidió
realizar el siguiente experimento: durante un semestre llevó a cabo
el trabajo lectivo para dos grupos de estudiantes de la misma carrera en la misma universidad, empleando dos módulos (A y B)
157
de características bien diferenciadas. Al final del curso aplicó el
mismo examen a todos los estudiantes y obtuvo las siguientes notas.
¿Se puede decir que existe diferencia en la variabilidad de los
rendimientos empleando los módulos A y B?. Supongamos normalidad en la distribución de las variables consideradas y usemos el nivel de significación 0.20.
Solución
Observamos que los datos corresponden al problema 3.10, por lo
que, donde sea necesario, usaremos los resultados ya encontrados.
Paso 1: La hipótesis nula indicará que no existe diferencia entre
las varianzas de las dos poblaciones:
H 0 : σ 12 = σ 22 H1 : σ 12 ≠ σ 22
Paso 2: Para obtener el valor de la estadística de prueba, tomamos
del ejemplo 3.10 los valores de los tamaños de muestra n1 = 9 ,
n2 = 7 y los valores de las varianzas muestrales:
s12 =
1 n2
∑
n1 − 1 i =1
(x
1i − x1
) = 168 = 2
2
2
y s2 =
1 n2
∑
n2 − 1 i =1
(x
2i − x 2
)
2
=
8
= 1.333 . Luego, obtenemos el valor de la estadística de prueba:
7
s2
2
f c = 12 =
= 1.5
s2 1.33
(
)
Paso 3: Para α=0.02 P F(n1 −1,n2 −1) > f teórico = 0.01 = α / 2 . Si en el paso
2, siempre elegimos como numerador la mayor varianza, sólo se
(
)
analiza P F(n1 −1,n2 −1) > f teórico = α / 2 y la región crítica se reduce
al intervalo ( f teórico , ∞).
En el presente problema, los grados de libertad son 8 y 6 respectivamente, entonces para P F(8,6 ) > f teórico = 0.10 tenemos
(
158
)
f teórico = 8.1, por lo que la región crítica es el intervalo (8.1, ∞).
Paso 4: Como el valor del estadístico de prueba f c =1.5 no cae en
el intervalo (8.1, ∞), podemos decir que la diferencia encontrada
entre las proporciones muestrales no es significativa al nivel de
significación 0.02. Podemos concluir, que fue razonable el supuesto
considerado en el ejemplo 3.11 respecto a las varianzas poblacionales.
Ejercicios
Usted es un inspector de escuelas públicas y realiza un experimento para investigar si la habilidad de lectura de estudiantes de
primer año de secundaria ha mejorado o no. En una muestra aleatoria de 185 estudiantes de esta población encuentra una habilidad media de lectura igual a 75 palabras por minuto. Las notas
nacionales sobre la habilidad de lectura, para los estudiantes del
primer año de secundaria, muestran una distribución normal con
media 80 palabras por minuto y una desviación estándar igual a
12. Todo puntaje por debajo de 80 se considera deficiente. ¿Es razonable considerar que la habilidad de lectura de los estudiantes
de quinto de secundaria es deficiente?. Suponga normalidad y α
= 0.10. Use la metodología correspondiente para dar respuesta a
la pregunta planteada.
El Director Académico del centro pre universitario de la
UFV tiene la percepción de que el rendimiento académico durante el primer año de estudios en la universidad, de los alumnos ingresantes a través de la institución que dirige ha sufrido
cambios en los últimos años. Sabe que históricamente los alumnos han tenido un rendimiento promedio de 14 puntos. Para confirmar su percepción llevó a cabo un estudio, para el que escogió
una muestra aleatoria de 150 alumnos que ingresaron el año 2004
a través del centro pre universitario y pidió al sistema de matrícula el rendimiento de cada uno de estos alumnos durante el año
académico 2004. Para dicha muestra obtuvo de rendimiento pro-
159
medio 14.5 puntos con desviación estándar 0.5 puntos. ¿Existe evidencia muestral para decir si es cierta la percepción del Director
Académico?. Suponga normalidad y α = 0.10. Use la metodología
correspondiente para dar respuesta a la pregunta planteada.
en ómnibus
caminando
x1 = 145
x2 = 135
Para determinar el efecto sobre el desarrollo psicológico de
los escolares que tienen que viajar a la escuela en ómnibus de servicio público, se tomó una prueba de ansiedad a un grupo de 40
escolares que usan este sistema de transporte y a 30 escolares que
van caminando al colegio. Se sabe que las desviaciones estándar
en ambas poblaciones son 9 y 12 respectivamente.
Los resultados de la prueba de ansiedad son los siguientes:
Suponiendo normalidad, ¿se puede concluir que efectivamente el uso del ómnibus aumenta la ansiedad en los escolares?. Use
α = 0.05.
Usted es un inspector de escuelas públicas y realiza un experimento para investigar si la habilidad de lectura de estudiantes
de segundo año de secundaria ha mejorado. En una muestra aleatoria de 95 estudiantes de esta población encuentra una habilidad
media de lectura igual a 80 palabras por minuto. Las notas nacionales sobre la habilidad de lectura, para los estudiantes del segundo año de secundaria, muestran una distribución normal con
media 78 palabras por minuto y una desviación estándar igual a
10. ¿Es razonable considerar que la habilidad de lectura de los estudiantes de quinto de secundaria ha mejorado?. Use α = 0.10.
El Director Académico del centro pre universitario de la
UFV tiene la percepción de que el rendimiento académico durante el primer año de estudios en la universidad, de los alumnos ingresantes a través de la institución que dirige mejora año a
año. Sabe que históricamente los alumnos de primer año han teni-
160
do un rendimiento promedio de 13 puntos. Para confirmar su percepción llevó a cabo un estudio, para el que escogió una muestra
aleatoria de 25 alumnos que ingresaron el año 2004 a través del
centro pre universitario que dirige y pidió al sistema de matrícula
el rendimiento de cada uno de estos alumnos durante el año académico 2004. Para dicha muestra obtuvo un rendimiento promedio de 13.9 puntos con desviación estándar 0.45 puntos. ¿Existe
suficiente evidencia muestral para decir que es cierta la percepción del Director Académico?. Suponga normalidad y use α = 0.10
Antes de aplicar el Plan Huascarán en el distrito de Cajatambo, el rendimiento promedio de los estudiantes de primer año de
primaria era de 12 puntos. Para determinar si el Plan ha sido efectivo en el incremento del rendimiento de los estudiantes, se observaron al azar a 150 estudiantes después de aplicar el plan durante
un año académico, obteniéndose de rendimiento promedio 13.5
puntos con desviación estándar 2.1 puntos. Al nivel de significación 0.05 ¿se podría decir que existe evidencia de el rendimiento
promedio ha aumentado?. Use la metodología correspondiente
para dar respuesta a la pregunta planteada y de ser necesario suponga normalidad.
Hace tres años el Ministro de Educación afirmó que históricamente la tasa de deserción estudiantil en el nivel primario es
del 20%. En los últimos dos años el gobierno ha realizado programas especiales para que dicha tasa disminuya sustancialemte. La
información del año pasado señala que la tasa de deserción fue
del 17%. ¿Qué puede decirse de la afirmación del Ministro de Educación?. De ser necesario suponga normalidad y use a) α = 0.05
b) Use α = 0.10.
Un investigador en el campo educativo sostiene que el módulo
didáctico empleado en la enseñanza de Matemáticas es uno de los
factores que influye y determina en el proceso de enseñanza aprendizaje y por lo tanto, el módulo adoptado incidirá en el rendimiento
Método A
12
13
12
10
10
13
13
11
14
Método B
16
17
117
14
15
17
16
16
15
161
académico de los estudiantes. Para verificar su hipótesis decide realizar el siguiente experimento: durante un semestre se llevó a cabo
el trabajo lectivo para dos grupos de estudiantes de la misma carrera en la misma universidad, empleando dos módulos (A y B)
de características bien diferenciadas. Al final del curso se aplica el
mismo examen y se obtuvo las siguientes notas:
Suponiendo que las muestras provienen de poblaciones
normales con varianzas iguales, ¿los resultados encontrados
por el profesor apoyan la hipótesis de investigación?. Suponga normalidad de las variables consideradas y use nivel de significación 0.10.
Un grupo de 350 estudiantes fueron divididos aleatoriamente en dos subgrupos de 100 y 150 estudiantes. Los de la muestra 1
aprendieron determinado material en el cual se enuncia verbalmente el concepto de transitivitas de "más alto que", a continuación de lo cual se dieron varios ejemplos de la situación; a los estudiantes del grupo 2 se les expuso ejemplos tras de lo cual se
enunció verbalmente el concepto. Son dos poblaciones, subyacentes a las muestras y que hubieran podido participar en el experimento. Seguidamente se administró una prueba para determinar
si dominan el concepto de transitividad, pues, se desea saber si en
estas dos poblaciones de estudiantes, las respectivas proporciones π1 y π2 que manejan la transitividad son o no iguales (el criterio es el número de respuestas correctas en la prueba de ítems). Al
finalizar el experimento, 62 estudiantes de la muestra 1 y 70 estudiantes de la muestra 2 dominaban el concepto de transitividad.
¿Existe diferencia en las proporciones poblacionales. Use α = 0.05.
En una investigación conducida por una estudiante del doctorado en Educación las poblaciones fueron las siguientes: los estudiantes del tercer grado de primaria de colegios estatales, cuyas
edades fluctuaban entre 8 años y 12 años de edad, residentes en el
Cercado del Distrito del Callao, pertenecientes al estrato socioeconómico bajo, y los estudiantes del tercer grado de primaria de colegios particulares, cuyas edades fluctuaban entre 8 años y 12 años
162
de edad, residentes en el Cercado del Distrito del Callao, pertenecientes al estrato socioeconómico medio.
Por el costo de la investigación, es decir, por razones económicas, administrativas y algo de dispersión geográfica se consideró conveniente trabajar con dos muestras aleatorias independientes, una de cada una de las poblaciones ya descritas.
Las variables investigadas fueron los puntajes en las siguientes pruebas:
Nivel de p. análisis fonémico (PAF)
Nivel socio
económico
BAJO
MEDIO
Variables
PAF
PCF
TEDE
PCL
MEDIA
DESVIACIÓN
ESTÁNDAR
TAMAÑO
MUESTRA
25.1
48.9
67.7
12.5
5.7
6.9
5.5
2.9
15
15
15
15
MEDIA
DESVIACIÓN
ESTÁNDAR
TAMAÑO
MUESTRA
27.5
56.5
91.1
15.4
3.1
6.9
5.5
3.2
18
18
18
18
Niveles de decodificación lectora (TEDE)
Niveles de comprensión lectora (PCL)
Nivel de p. con. fon' (PCF)
Los resultados descriptivos de la investigación fueron los siguientes:
a)
b)
Suponiendo normalidad se puede concluir que efectivamente:
La media de los puntajes en el nivel de P. Análisis Fonémico
(PAF) es superior en el estrato medio con respeto al estrato
bajo?. Use α = 0.10.
La media de los puntajes en el nivel de Decodificación Lectora (TEDE) es superior en el estrato medio con respeto al estrato bajo?. Use α = 0.10.
163
c)
d)
La media de los puntajes en el nivel de Comprensión Lectora
(PCL) es superior en el estrato medio con respeto al estrato
bajo?. Use α = 0.10.
La media de los puntajes en el nivel de P.Con.Fon' (PCF) es
Nivel socio
económico
BAJO
MEDIO
Variables
PAF
PCF
TEDE
PCL
MEDIA
DESVIACIÓN
ESTÁNDAR
TAMAÑO
MUESTRA
25.1333
58.8333
3.5
3.0
5.1
3.0
35
35
35
35
MEDIA
DESVIACIÓN
ESTÁNDAR
TAMAÑO
MUESTRA
29.5333
65.3667
3.5
3.4
5.0
3.5
40
40
40
40
97.7000 14.3000
102.2667 16.0333
superior en el estrato medio con respeto al estrato bajo?. Use
α = 0.10.
Para la misma investigación descrita en el ejercicio 3.3, los resultados de otras dos muestras independientes fueron las siguientes:
a)
b)
c)
164
Suponiendo normalidad se puede concluir que efectivamente:
La media de los puntajes en el nivel de P. Análisis Fonético
(PAF) es superior en el estrato medio con respeto al estrato
bajo?. Use α = 0.10.
La media de los puntajes en el nivel de Decodificación Lectora (TEDE) es superior en el estrato medio con respeto al estrato bajo?. Use α = 0.10.
La media de los puntajes en el nivel de Comprensión lectora
(PCL) es superior en el estrato medio con respeto al estrato
bajo?. Use α = 0.10.
d)
La media de los puntajes en el nivel de P.Con.Fon' (PCF) es
superior en el estrato medio con respeto al estrato bajo?. Use
α = 0.10.
En los ejercicios 3.10 y 3.11 haga las correspondientes pruebas de hipótesis para comparar las varianzas poblacionales en cada
uno de los casos. Use α = 0.10. Si su decisión es contraria al supuesto que planteó con respecto a las varianzas, en cada uno de
los ejercicios, a la luz de los resultados vuelva a resolverlos.
En una investigación realizada por una estudiante del doctorado en Educación, la Población objetivo fueron los alumnos matriculados en las diferentes sedes del programa de Formación Docente Semi-escolarizado y autofinanciado de la Universidad Nacional Faustino Sánchez Carrión de Huacho, y que en 1997 fueron
un total de 1500 alumnos.
Por razones económicas, administrativas y de dispersión geográfica se consideró como población muestreada (objeto de la presente investigación) las sedes de Barranca, Huacho y Huaral.
Las variables estudiadas fueron:
Rendimiento en la prueba de comprensión lectora.
Notas
Sede
Huacho
Barranca
Huaral
Total
número
alumnos
desviación
estándar
media
muestral
18
7
5
2.80
1.68
1.29
12.0
13.5
13.0
30
Rendimiento promedio en cursos de humanidades.
Rendimiento promedio en cursos de ciencias.
A continuación se presentan los resultados de la prueba de
comprensión lectora aplicada a las muestras aleatorias obtenidas
de cada una de las sedes:
165
Suponiendo normalidad, se puede concluir con un nivel de
significación:
a)
b)
c)
El rendimiento promedio de los estudiantes de la sede de
Huacho es igual al rendimiento promedio de los estudiantes
de la sede de Barranca?.
El rendimiento promedio de los estudiantes de la sede de
Huaral es igual al rendimiento promedio de los estudiantes
de la sede de Barranca?.
El rendimiento promedio de los estudiantes de la sede de
Huacho es igual al rendimiento promedio de los estudiantes
de la sede de Huaral?.
En una investigación realizada por una estudiante del doctorado en Educación, la Población objetivo fueron los alumnos matriculados en las diferentes sedes del programa de Formación Docente Semi-escolarizado y autofinanciado de la Universidad Nacional Faustino Sánchez Carrión de Huacho, y que en 1997 fueron
un total de 1500 alumnos.
Por razones económicas, administrativas y de dispersión geográfica se consideró como población muestreada (objeto de la presente investigación) las sedes de Cajatambo, Churín y Copa. Las
variables estudiadas fueron:
Rendimiento en la prueba de comprensión lectora.
Notas
Sede
Cajatambo
Churín
Copa
Total
166
número
alumnos
desviación
estándar
media
muestral
60
35
45
4.80
2.68
2.68
11.0
10.5
13.0
140
Rendimiento promedio en cursos de humanidades.
Rendimiento promedio en cursos de ciencias.
A continuación se presentan los resultados de la prueba de
comprensión lectora aplicada a las muestras aleatorias obtenidas
de cada una de las sedes.
Suponiendo normalidad, se puede concluir con un nivel de
significación:
a)
b)
c)
El rendimiento promedio de los estudiantes de la sede de
Cajatambo es igual al rendimiento promedio de los estudiantes de la sede de Churín?.
El rendimiento promedio de los estudiantes de la sede de
Cajatambo es igual al rendimiento promedio de los estudiantes de la sede de Copa?.
El rendimiento promedio de los estudiantes de la sede de
Churín es igual al rendimiento promedio de los estudiantes
de la sede de Copa?.
En los ejercicios 3.13 y 3.14 haga las correspondientes pruebas de hipótesis para comparar las varianzas poblacionales en cada
uno de los casos. Use Si su decisión es contraria al supuesto que
planteó con respecto a las varianzas, en cada uno de los ejercicios,
a la luz de los resultados vuelva a resolverlos.
167
Descargar