Subido por Miguel Tapia Ortiz

Inferencia estadística

Anuncio
Inferencia estadística
Población y parámetros
Definición:
Se denomina población o universo a la totalidad de personas u objetos que tienen una o más características
medibles o contables de naturaleza cualitativa o cuantitativa.
La característica medible o contable es una variable estadística cuyo valor, numérico o no numérico, es una
observación.
Si la variable estadística a estudiar es una sola, cada elemento de la población puede asociarse con una
observación. En este sentido, se denomina población al conjunto de valores posibles de la variable.
Si los elementos de la población se definen en forma aleatoria, entonces la variable estadística cuantitativa es
una variable aleatoria cuyos valores constituyen la población. En este caso, la distribución de la población es la
distribución de la variable aleatoria, entonces la media y la varianza de la variable aleatoria, vienen a ser la media
y la varianza de la población.
Si la variable aleatoria X tiene distribución f ( x) , se puede referir a la población f ( x) . Por ejemplo, si X
está normalmente distribuida se dice que la población está normalmente distribuida o que se tiene una
población normal.
Según el número de observaciones la población puede ser finita de tamaño N, o infinita.
Definición:
Se denominan parámetros a las medidas descriptivas que caracterizan a la distribución de la población. Algunos
parámetros poblacionales son:
Media: µ
Proporción: π o p
Varianza: σ
Desviación estándar: σ
2
En diversas aplicaciones estadísticas al estudiar una población, la variable aleatoria que la define puede tener
distribución conocida o no. La distribución de la población es conocida, si se conocen sus parámetros y su forma,
es decir si se conoce su distribución de probabilidad.
Si la distribución de la población es desconocida, podemos estar interesados en:
• Estimar sus parámetros, si se conoce su distribución, y
• Probar determinada suposición acerca de un valor determinado del parámetro, o probar la suposición acerca
del tipo de distribución de probabilidades de la población.
Muestra aleatoria
Una muestra aleatoria es un subconjunto de la población elegida, de tal manera que cada elemento de la
muestra tiene la misma probabilidad de ser elegida, en este caso se dice que la muestra es representativa de la
población.
Las muestras aleatorias se pueden obtener a través de algunas técnicas denominadas: Al azar simple, al azar
sistemático, estratificado y por grupos (o conglomerados).
Definición formal de muestra aleatoria
Dada una población f ( x) con media µ y varianza
σ 2 , se denomina muestra aleatoria de tamaño n de esa
población, a un conjunto de n variables aleatorias X 1 , X 2 ,.., X n tales que:
1) Son independientes.
Esto es, la distribución de probabilidad conjunta de la muestra aleatoria X 1 , X 2 ,.., X n se puede expresar
como
f ( x1 , x2 ,.., xn ) = f ( x1 ) ⋅ f ( x2 ) ⋅ ... ⋅ f ( xn )
2) Cada una de ellas está idénticamente distribuida.
Esto es, cada variable aleatoria X i tiene la misma media, varianza y distribución de la variable aleatoria X ,
es decir:
E ( X i ) = µ , V ( X i ) = σ 2 y f ( xi ) = f ( x) .
Estimación de parámetros.
Cuando se realiza una investigación estadística a menudo se sabe o se supone que la población (discreta o
continua), denotada por f ( x) , de la cual se selecciona una muestra aleatoria cuyo(s) parámetro(s) se intenta
determinar. Si el parámetro a determinar es θ , entonces, la distribución de la población será denotada por
f ( x,θ ) .
Los métodos de inferencia estadística consisten en seleccionar una muestra aleatoria de la población, de manera
que a partir de la información que se obtenga de la muestra:
1) Determinar el valor del parámetro desconocido θ (Estimación puntual o por intervalo), ó
2) Decidir si θ , ó una función de θ , es igual a algún valor dado θ0 de θ (Prueba de hipótesis).
Definición:
Se denomina estadística a cualquier función de las variables aleatorias que constituyen la muestra. Una
estadística es una variable aleatoria Y = H ( X 1 , X 2 ,.., X n ) , cuyo valor es el número real y = H ( x1 , x2 ,.., xn ) .
El término estadística se usa para referirse tanto a la función de la muestra, como al valor de esta función.
Algunas estadísticas importantes y sus valores calculados a partir de una muestra aleatoria son:
n
a) La media muestral X =
 Xi
i =1
n
n
, con valor x =
x
i =1
n
i
.
n
b) La varianza muestral S 2 =
 ( X i − X )2
i =1
n
n
, con valor s 2 =
 (x − x )
i =1
2
i
n
.
n
c) La proporción muestral (porcentaje de éxitos en la muestra) P̂ o P =
 Xi
i =1
n
n
, con valor p =
x
i =1
n
i
donde
X ∼ B(1, p) .
Estimación puntual de parámetros
Sea X 1 , X 2 ,.., X n una muestra aleatoria de tamaño n seleccionada de una población cuya distribución es
f ( x,θ ) , siendo θ el parámetro. Se denomina estimador puntual del parámetro θ a cualquier estadística
ˆ = H ( X , X ,.., X ) cuyo valor θˆ = H ( x , x ,.., x ) proporcionará una estimación del parámetro.
Θ
1
2
n
1
2
n
Un estimador puntual del parámetro θ es una variable aleatoria (función de la muestra) Θ̂ , mientras que una
estimación puntual es el valor numérico θˆ del estimador.
Ejemplo:
ˆ = X media muestral (variable aleatoria),
Un estimador puntual de la media poblacional θ es la estadística Θ
cuyo valor numérico θˆ = x es la estimación puntual del parámetro θ .
No toda función de la muestra es un buen estimador del parámetro, un buen estimador, es aquel que está más
cerca del parámetro que se estima. Este estimador debe cumplir con algunas propiedades, tales como:
insesgado, consistente y eficiente.
Estimador insesgado
ˆ = H ( X , X ,.., X ) es un estimador insesgado del parámetro θ sí
Se dice que la estadística Θ
1
2
n
ˆ ) =θ .
E (Θ
En caso contrario, se dice que es estimador sesgado. Luego, θˆ = H ( x1 , x2 ,.., xn ) es la estimación insesgada del
parámetro θ .
Ejemplo:
Sea X 1 , X 2 ,.., X n una muestra aleatoria de tamaño n extraída de una población cualquiera f ( x, µ , σ 2 ) ,
(discreta o continua), tal que E ( X ) = µ y V ( X ) = σ 2 . Entonces,
a) La media muestral X es un estimador insesgado de la media poblacional ya que
E( X ) = µ .
El valor x de X es la estimación insesgada de µ .
b) La proporción muestral P es un estimador insesgado de la proporción de éxitos p de una población
binomial, por que
E(P) = p .
c) La varianza muestral
n
S2 =
(X
i =1
i
− X )2
n
σ , ya que
2
es un estimador sesgado de la varianza poblacional
E(S 2 ) =
n −1 2
σ .
n
Sin embargo, la estadística,
n
S12 =
(X
i =1
es un estimador insesgado de la varianza poblacional
i
− X )2
n −1
σ 2 , por que
E ( S12 ) = σ 2
Estimador eficiente
Si hay dos o más estimadores puntuales insesgados de un parámetro θ , se denomina estimador más eficiente
a aquel estimador que tenga menor varianza. Esto es, si Θ̂1 y Θ̂ 2 son estimadores insesgado del parámetro θ
, entonces
ˆ ) < V (Θ
ˆ ).
Θ̂1 es más eficiente que Θ̂ 2 sí V ( Θ
1
2
Ejemplo
Sea X 1 , X 2 , X 3 y X 4 una muestra aleatoria de cualquier población con distribución f ( x, µ , σ 2 ) . Dados los
estimadores del parámetro µ :
ˆ =
a) Θ
1
X1 + X 2 + X 3 + X 4
4
y
ˆ = 4 X1 − X 3 + X 4
b) Θ
1
4
Identificar el estimador más eficiente.
Estimador consistente
Se dice que un estimador puntual Θ̂ es un estimador consistente del parámetro θ si la diferencia entre el
valor esperado del estimador y el parámetro disminuye a medida que aumenta el tamaño de la muestra. Esto
es,
Θ̂ es consistente ⇔
ˆ ) =θ y
lim E (Θ
n
n →∞
ˆ ) = 0.
lim V (Θ
n
n →∞
Error cuadrático medio (ECM)
Si Θ̂ es un estimador del parámetro θ , se define el error cuadrático medio (ECM) de Θ̂ como
2
2
2 ˆ
ˆ ) = E  (Θ
ˆ
ˆ  ˆ
ˆ


ECM (Θ
 − θ )  = V (Θ) +  E (Θ) − θ  = V (Θ) + b (Θ)
ˆ ) = sesgo
b (Θ
Nota:



ˆ ) = E (Θ
ˆ ) − θ se denomina sesgo de Θ̂ .
b(Θ
ˆ ) = 0 , entonces E (Θ
ˆ ) = θ , entonces Θ̂ es un estimador insesgado del parámetro θ .
Si b (Θ
Si el estimador es insesgado existe exactitud. Si la varianza es pequeña existe precisión.
Ejercicio
1) Calcular el ECM del ejemplo anterior.
2) El peso en kilo de los jamones vendidos por una empresa se distribuye N (θ , 4) . Se conoce que el peso
medio de los jamones vendidos supera los 5 kg. Si se toma una muestra aleatoria de tamaño 4 para
estimar θ . ¿Cuál de los siguientes estimadores de la media es mejor?:
ˆ = X1 + X 2
Θ
2
2
ˆ = X1 + X 2 + X 3
Θ
1
4
Nota: La raíz cuadrada positiva de la varianza del estimador
( V (Θˆ ) ) se denomina error estándar y se
ˆ ) . Luego, eee(θˆ) = V (θˆ) es el error estándar de estimación.
denota por eee(Θ
Ejemplos:
Estimación puntual de la media de una población normal N ( µ , σ 2 ) .
N
X
 Parámetro (media poblacional) : θ = µ =
i =1
i
N
n
 Estimador (media muestral): µˆ = X =
X
i =1
i
(Insesgado y consistente).
n
n
 Estimación de la media muestral: µˆ = x =
x
i
i =1
n
N
 Varianza del Estimador: V ( µˆ ) =
σ
2
n
σ2 =
,
(X
i =1
i
− X )2
N
n
 Estimación de la Varianza: Vˆ ( µˆ ) =
2
X
s
,
n
s X2 =
 (x − x )
i =1
2
i
n −1
2
X
s
n
 Error estándar de estimación: eee( µˆ ) =
Estimación puntual de una proporción p en una población con distribución Binomial B (1, p ) .
N
 Parámetro de una proporción θ = p =
X
i =1
N
n
 Estimador de una proporción: Pˆ =
X
i
i =1
n
n
 Estimación de una proporción: pˆ =
x
i =1
n
i
i
.
p(1 − p)
n
pˆ (1 − pˆ )
 Estimación de la Varianza: Vˆ ( Pˆ ) =
n
pˆ (1 − pˆ )
 Error estándar de estimación: eee( Pˆ ) =
n
 Varianza del Estimador: V ( Pˆ ) =
Uno de los métodos para determinar estimadores puntuales es el de máxima verosimilitud que se describe a
continuación.
Método de máxima verosimilitud
Supongamos que una población X está distribuida como f ( x,θ ) en donde θ es el parámetro que tratamos
de estimar. El procedimiento para determinar el estimador de máxima verosimilitud es como sigue:
1) Elegir una muestra aleatoria X 1 , X 2 ,.., X n de la población y determinar la distribución conjunta de la muestra
en sus valores observados respectivos x1 , x2 ,.., xn . Esta función del parámetro θ se conoce como función
de verosimilitud está dada por:
n
L (θ ) = f ( x1 , x2 ,.., xn , θ ) = ∏ f ( xi , θ ) = f ( x1 , θ ) ⋅ f ( x2 , θ ) ⋅ .. ⋅ f ( xn , θ )
i =1
2) El valor de θ que maximiza a la función L(θ ) , es la estimación de máxima verosimilitud (EMV) de θ . Este
valor denotaremos por
θˆ = H ( x1 , x2 ,.., xn )
ˆ = H ( X , X ,.., X ) es el estimador de máxima verosimilitud de θ .
La estadística correspondiente Θ
1
2
n
3) Sea l (θ ) = ln [ L (θ ) ] . En este caso el valor de θ que maximiza a l (θ ) es la solución θˆ de la ecuación:
∂l
= 0.
∂θ
4) Si la distribución de probabilidad de la población contiene k parámetro θ1 , θ 2 ,.., θ k la función de verosimilitud
está dada por:
n
L (θ1 , θ 2 ,.., θ k ) = ∏ f ( xi , θ1 , θ 2 ,.., θ k )
i =1
La estimación de máxima verosimilitud de cada parámetro θi es la solución θˆi , i = 1, 2,.., k , de la ecuación
respectiva:
Donde l = ln [ L (θ1 , θ 2 ,.., θ k ) ] .
∂l
∂l
∂l
= 0,
= 0,..,
=0,
∂θ1
∂θ 2
∂θ k
Distribuciones muestrales
Se denomina distribución muestral de una estadística a su distribución de probabilidad
Por ejemplo, a la distribución de probabilidad de la estadística media X , se le denomina distribución muestral
de la media.
Distribución muestral de la media X
Sea X 1 , X 2 ,.., X n , una muestra aleatoria de tamaño n escogida de una población f ( x) con media µ y con
varianza σ . Si X es la media muestral, entonces,
 E( X ) = µ
2
σ2

V (X ) =

 σ2 
X ≈ N  µ ,  , cuando n → ∞ . (T.L.C.)
n 

n
Nota:

Aproximación de X a la normal N  µ ,

σ2 
 es buena si n ≥ 30 , sin importar si la población es discreta o
n 
continua.
•
Si la muestra aleatoria es escogida de una población normal N ( µ , σ 2 ) entonces, la distribución de X es
•
 σ2 
exactamente normal N  µ ,
 , para cualquier tamaño de muestra, n ≥ 2 .
n 

σ2
La varianza de la media: V ( X ) =
es válida, si el muestreo es con o sin reemplazo en una población
n
infinita, o es con reemplazo en una población finita de tamaño N.
Si el muestreo es sin reemplazo en una población finita de tamaño N, entonces, la varianza de la distribución
de X es:
σ =
2
X
El coeficiente
σ 2  N −n


n  N −1 
N −n
se denomina factor de corrección para población finita. Observar que cuando
N −1
N → ∞ el factor de corrección tiende a uno.
Ejemplo
El número de automóviles por familia en una ciudad es una variable aleatoria X cuya distribución de
probabilidad es como sigue:
x
0
1
2
3
4
f ( x)
4/12
4/12
2/12
1/12
1/12
si se escoge al azar una muestra de 49 familias, ¿cuál es la probabilidad de que la media muestral de autos por
familia esté entre 1 y 2.
Ejemplo
Un auditor toma una muestra aleatoria de tamaño n=100 de un conjunto de 500 cuentas por cobrar. El auditor
sabe que las 500 cuentas por cobrar constituyen una población finita cuya desviación estándar es σ = $145 .
¿Cuál es la probabilidad de que la media muestral difiera de la media poblacional en más de $26?.
Ejercicio
Una empresa produce cereales de desayuno.
El verdadero peso medio de sus cajas de cereales es de 200 gramos y la desviación típica es de 60 gramos. La
distribución poblacional del peso es normal. Suponga que compra cuatro cajas, que puede considerarse que son
una muestra aleatoria de todas las que se producen.
a) ¿Cuál es el error típico de la media muestral del peso?
b) ¿Cuál es la probabilidad de que el contenido de estas cuatro cajas pese, en promedio, menos de 197 gramos?
c) ¿Cuál es la probabilidad de que el contenido de estas cuatro cajas pese, en promedio, más de 206 gramos?
d) ¿Cuál es la probabilidad de que el contenido de estas cuatro cajas pese, en promedio, entre 195 y 205 gramos?
e) Se eligen aleatoriamente dos de las cuatro cajas. ¿Cuál es la probabilidad de que el contenido de estas dos
cajas pese, en promedio, entre 195 y 205 gramos?.
Distribución muestral de la proporción
Sea X 1 , X 2 ,.., X n una muestra aleatoria de tamaño n extraída de la población de Bernoullí B (1, p ) , donde p
es el porcentaje de éxitos en la población y sea
X 1 + X 2 + .. + X n
n
la proporción de éxitos en la muestra, siendo, X = X 1 + X 2 + .. + X n una variable binomial B ( n, p ) , entonces.
P=

µP = p

σ P2 =

p (1 − p )
n
 p (1 − p ) 
P ≈ N  p,
 , cuando n → ∞ .
n


Nota:
• El error estándar de P es σ P =
p (1 − p )
.
n
Ejercicio
Se ha estimado que el 43 por ciento de los licenciados en administración de empresas cree que la asignatura
de ética empresarial es muy importante para impartir valores éticos a los estudiantes. Halle la probabilidad de
que más de la mitad de una muestra aleatoria de 80 licenciados crea eso.
Ejercicio
Una fábrica tiene 438 obreros, de los cuales 239 están preocupados por las futuras prestaciones sanitarias. Se
ha pedido a una muestra aleatoria de 80 de estos obreros que estime la proporción poblacional preocupada por
las futuras prestaciones sanitarias.
a) ¿Cuál es el error típico de la proporción muestral preocupada?
b) ¿Cuál es la probabilidad de que la proporción muestral sea inferior a 0,5?
c) ¿Cuál es la probabilidad de que la proporción muestral esté comprendida entre 0,5 y 0,6?
Ejemplo
La probabilidad de que un paciente se recupere de una rara enfermedad es 0.4. ¿Cuál es la probabilidad de que
en una muestra de 100 pacientes seleccionados de una población de 1.000 que sufren la enfermedad, más del
30% sobrevivan?.
Intervalos de Confianza (IC)
Una estimación puntual no nos dice cuán próximo está la estimación del verdadero valor del parámetro que se
estima, por lo tanto, no es muy significativa, sin no se tiene alguna medida del error que se comete en la
estimación. Es deseable tener cierto grado de confianza de que la estimación puntual se halle dentro de cierta
variación.
Sea X 1 , X 2 ,.., X n una muestra aleatoria de tamaño n escogida de una población f ( x,θ ) , con valores
ˆ = H ( X , X ,.., X ) un estimador del parámetro θ cuya
x , x ,.., x . Sea además, la variable aleatoria Θ
1
2
1
n
2
n
distribución de probabilidad sea conocida. Dado el número 1 − α , y a partir de la distribución de Θ̂ , se tiene
que
ˆ ≤ d ) = 1−α
P( θ − Θ
ˆ −d ≤θ ≤ Θ
ˆ + d ) = 1−α
P (Θ
Entonces,
θ ∈ θˆ − d ,θˆ + d 
Límite inferir de confianza
⇔ θˆ − d ≤ θ ≤ θˆ + d ,
Límite superior de confianza
es el intervalo para θ con (1 − α ) ⋅100% de confianza. Donde,
 (1 − α ) ⋅100% se denomina nivel de confianza del intervalo.
ˆ ) se denomina error de estimación, V (Θ
ˆ la varianza del estimador y k es el percentil
 d = k V (Θ
1 − α / 2 de la distribución del estimador Θ̂ .
Interpretación del intervalo de confianza:
Si a partir de los datos de una muestra aleatoria de tamaño n, hemos construido el intervalo θˆ − d ≤ θ ≤ θˆ + d
con (1 − α ) ⋅100% de confianza, por ejemplo, del 95% para el parámetro θ , si se seleccionan repetidamente
100 muestras de tamaño n, tendremos 100 intervalos semejantes al intervalo θˆ − d , θˆ + d  , y se confía que

95 de estos 100 intervalos contengan el parámetro θ .
Observación:
Es conveniente destacar que en estos intervalos deberían ocurrir las siguientes situaciones:

 Contener al parámetro poblacional ( θ ), con probabilidad alta.
 Tener longitud lo más pequeña posible, de tal forma que los valores probables del parámetro poblacional
sean lo más acotado posible.
 Reflejar la variación de muestra a muestra de las estimaciones puntuales.
Intervalo de confianza de (1 − α ) ⋅100% para la media µ de una distribución normal N ( µ , σ 2 ) ( σ
desconocida).
Sea X 1 , X 2 ,.., X n , una muestra aleatoria de tamaño n de X ∼ N ( µ , σ 2 ) . Por lo tanto, el intervalo de confianza
2
de (1 − α ) ⋅100% para la media µ de una distribución normal N ( µ , σ 2 ) ( σ desconocida), está dada por
2
µ ∈[x − d, x + d ],
donde d = tn −1,1−α / 2
sx
1 n
y s X2 =
( xi − x ) 2 .

n − 1 i =1
n
Ejemplo:
1) Los contenidos de una muestra aleatoria de 5 latas de café instantáneo de un productor han dado los
siguientes pesos netos (en gramos):
280
290
285
275
284
a) Encuentre un IC del 95% para la media de los contenidos en todas las latas de café del productor.
b) ¿Con qué nivel de confianza se estima que el contenido medio de café tenga los límites de confianza
277,432 y 288,168. Suponga una distribución normal.
a) X : “Peso neto de lata de café instantáneo”
µ : “Peso medio poblacional en latas de café instantáneo”
n = 5,
x = 282,8, s x = 5, 63, t4;0,975 = 2, 776
d = 2,776 ⋅
5, 63
= 6,989
5
El IC de 95% para µ es:
µ ∈ [ x − d , x + d ] = [ 282,8 − 6, 989; 282,8 + 6, 989 ] = [275,81; 289, 79]
b)
 1 − α / 2 = 0,95  1 − α = 0,9
282,8 − t4,1−α / 2 ⋅ 2,518 = 277, 43  t4,1−α /2 = 2,132
∴Para que el contenido medio esté en el intervalo [275,81; 289, 79] (gramos) debe considerarse un nivel de
confianza de 90%.
Determinación del tamaño de muestra para estimar la media poblacional µ
En el IC para la media µ de una distribución normal N ( µ , σ 2 ) ( σ desconocida), se tiene
2
[x − d, x + d ] ,
sx
depende de n y de la desviación estándar.
n
Interesa determinar el tamaño de muestra n para un IC de nivel (1 − α ) ⋅100% para estimar la media
donde d = tn −1,1−α /2 ⋅
poblacional con un error de estimación no superior a un valor predeterminado ( d 0 ) , esto es
d 0 ≥ d  d 0 ≥ d = z1−α /2 ⋅
sx
n
,
( n ≥ 30,
tn −1,1−α /2 ≈ z1−α /2 ) , entonces
2
z
⋅s 
n ≥  1−α /2 x 
 d0

n
Nota: Si el tamaño de la población es N (finito) y si
> 0, 05 entonces se debe corregir el tamaño de
N
n
muestra por n0 =
.
n
1+
N
Ejemplo:
Del ejemplo anterior, cuántas latas se debe tomar de muestra para que el IC de 95% para la media tenga un
error de estimación de 0,8.
2
2
z
⋅ s   1, 96 ⋅ 5, 63 
R: n ≥  1−α /2 x  = 
 = 190, 26 ≈ 191
0.8

 d0
 
Intervalo de confianza de (1 − α ) ⋅100% para la diferencia de medias ( µ X − µY ) poblacionales de dos
poblaciones normales con varianza común desconocida ( σ X = σ Y = σ desconocida).
2
2
2
Sean X 1 , X 2 ,.., X n , una muestra aleatoria de tamaño n de X ∼ N ( µ x , σ ) y Y1 , Y2 ,.., Ym , una muestra
2
aleatoria de tamaño n de Y ∼ N ( µ y , σ ) , X e Y son variable aleatoria independientes. Luego, un IC de
2
(1 − α ) ⋅100% para la diferencia de medias, µ x − µ y , está dado por
µ X − µY ∈ ( x − y ) − d , ( x − y ) + d  ,
donde d = tn+ m− 2,1−α /2 ⋅ sc ⋅
( n − 1) ⋅ sx2 + (m − 1) ⋅ s y2
1 1
1 n
+ , sc =
y s x2 =
( xi − x ) 2

n m
n+m−2
n − 1 i =1
Ejemplo:
2) Un encargado de compras de una cadena de restaurantes, tiene que escoger entre dos variedades de arroz
A y B. Selecciona dos muestras aleatorias independientes de 10 bolsas de arroz de 1 kg. de cada tipo de arroz
y encuentra los siguientes porcentajes de granos de arroz quebrados por kilo:
A:
B:
6
7
5
6
6
7
7
9
4
5
7
8
6
7
4
6
3
10
6
8
Estimar mediante un IC de 95% la diferencia promedio de porcentajes de granos quebrados por kilo de arroz
de las 2 variedades. ¿Se puede aceptar que no hay diferencias significativas entre las 2 medias
poblacionales?. Suponga que los porcentajes de granos por kilo de cada variedad se distribuye normal con
igual varianza.
R:
X : “Porcentaje de granos quebrados de arroz en bolsas de kilo del tipo A”.
Y : “Porcentaje de granos quebrados de arroz en bolsas de kilo del tipo B”.
µ x : “Porcentaje promedio poblacional de granos quebrados de arroz en bolsas de kilo del tipo A”.
µ y : “Porcentaje promedio poblacional de granos quebrados de arroz en bolsas de kilo del tipo B”.
n = 10,
y = 5, 4, s y = 1,35
m = 10,
x = 7,3, sx = 1, 49
n + m − 2 = 10 + 10 − 2 = 18, 1 − α / 2 = 1 − 0, 05 / 2 = 0,975  t0,975;18 = 2,101
sc =
(n − 1) ⋅ sx2 + (m − 1) ⋅ s y2
= (10 − 1) ⋅ (1,35) 2 + (10 − 1) ⋅ (1, 49) 2  /18 = 2, 021
n+m−2
1 1
1 1
d = tn+ m−2,1−α /2 ⋅ sc ⋅
+ = 2,101⋅ 2, 021 ⋅
+ = 1,336
n m
10 10
Luego, los límites del intervalo con 95% de confianza son
µ X − µY ∈ ( x − y ) − d , ( x − y ) + d  = [1,9 − 1,336;1,9 + 1,336]
µ x − µ y ∈ [ 0, 564;3, 236 ] ⇔ 0,564 ≤ µ x − µ y ≤ 3, 236
Como el IC no contiene al cero, podemos concluir que existen diferencias con un 5% de significancia.
Intervalo de confianza de (1 − α ) ⋅100% para una proporción ( p ) de una población binomial B(1, p) .
Sea X 1 , X 2 ,.., X n , una muestra aleatoria de tamaño n de X ∼ B(1, p) , donde p indica la proporción de
éxitos de la población. Entonces, si p̂ es la proporción de éxitos en una muestra aleatoria de tamaño n , el IC
de (1 − α ) ⋅100% para la proporción p es
donde d = z1−α /2 ⋅
pˆ (1 − pˆ )
.
n
p ∈ [ pˆ − d , pˆ + d ] ,
Determinación del tamaño de muestra para estimar una proporción p en una distribución Binomial
Para estimar una proporción p con un nivel (1 − α ) ⋅100% de confianza y un error de estimación no superior
a d0 el número necesario de observaciones está dado por la inecuación
pˆ (1 − pˆ )
d0 ≥ z1−α /2 ⋅
n
2

z

n ≥  1−α /2  pˆ (1 − pˆ ) .
 d0 
Ejemplo:
Una encuesta utilizó una muestra aleatoria de 600 electores que acaban de votar y encontró que 240 votaron a
favor del candidato A.
a) Estimar el porcentaje de electores a favor del candidato A en toda la población, utilizando un IC del 95%.
b) Si la proporción a favor del candidato A se estima en 40%. ¿Cuánto es el error de estimación, si se quiere
tener una confianza del 98%?.
c) Si con la misma muestra la proporción a favor de B se estima en 38% con una confianza del 98% que el error
de estimación no es mayor que 4,62%. ¿Se puede proclamar a A como ganador de la elección?.
d) ¿Qué tan grande se requiere el tamaño de muestra si se desea tener una confianza de 94% de que el error
de estimación no supere el 2%?.
R:
a)
X : “Vota por candidato A”.
Y : “Vota por candidato B”.
px : “Verdadera proporción de votantes por candidato A”.
p y : “Verdadera proporción de votantes por candidato B”.
240
= 0, 4
600
1 − α = 0,95  1 − α / 2 = 0,975, z0,975 = 1,96
n = 600,
pˆ x =
d = z1−α /2 ⋅
pˆ x (1 − pˆ x )
0, 4(1 − 0, 4)
= 1,96 ⋅
= 0, 0392
n
600
p ∈ [ pˆ x − d , pˆ x + d ] = [ 0, 4 − 0, 0392, 0, 4 + 0, 0392 ]
0,3608 ≤ px ≤ 0, 4392 .
Luego, el IC del 95% para votantes a favor del candidato A es
[0,3608;0, 4392] o px ∈ [36, 08%; 43,92%] .
b)
1 − α = 0,98  1 − α / 2 = 0,99, z0,99 = 2,33
d = z1−α /2 ⋅
pˆ x (1 − pˆ x )
0, 4(1 − 0, 4)
= 2,33 ⋅
= 0, 0466
n
600
Se concluye que para un n = 600 el error máximo de estimación es de 4,66% con un 98% de confianza.
c)
pˆ y = 0,38
pˆ y − d ≤ p y ≤ pˆ y + d
0,38 − 0,046 ≤ p y ≤ 0,38 + 0, 046
0,3338 ≤ p y ≤ 0, 4262
pˆ x = 0, 4
pˆ x − d ≤ px ≤ pˆ x + d
0, 4 − 0, 046 ≤ px ≤ 0, 4 + 0, 046
0,3534 ≤ px ≤ 0, 4460
El IC del 98% de la proporción de votantes a favor de A es [0,3534;0, 4460] o [35,34%;44,60%] y B
es [0,3338;0, 4262] o [33,38%;42,62%] . Comparando los intervalos, se observa que hay intersección
entre los intervalos para el candidato A y B, por lo que se dice que existe empate técnico.
d)
1 − α = 0,94  1 − α / 2 = 0,97, z0,97 = 1,88
2
2
z
⋅ pˆ x ⋅ (1 − pˆ x )   1,88 ⋅ 0, 4 ⋅ 0, 6 
n ≥  1−α / 2
 = 
 = 2.120, 64 ≈ 2.121


d0
0, 02


 
Intervalo de confianza de (1 − α ) ⋅100% para la diferencia de proporciones poblacionales ( p1 − p2 ) de dos
poblaciones binomiales B (1, p1 ) y B(1, p2 ) .
Sean p̂1 y p̂2 las proporciones de éxitos de dos muestra aleatoria de tamaño n1 y n2 , seleccionadas de dos
distribuciones de Bernoulli, B(1, p 1 ) y B (1, p 2 ) , de parámetros p 1 y p 2 respectivamente.
El IC de (1 − α ) ⋅100% para la diferencia de proporciones, p 1 − p2 , es:
p1 − p2 ∈ ( pˆ 1 − pˆ 2 ) − d , ( pˆ1 − pˆ 2 ) + d  ,
donde d = z1−α /2 ⋅
pˆ1 (1 − pˆ1 ) pˆ 2 (1 − pˆ 2 )
+
.
n1
n2
Ejemplo:
Un fabricante afirma que su nuevo producto popular lo prefieren más lo hombres que las mujeres. Para
comprobarlo toma una muestra aleatoria de 250 hombres y otra de 200 mujeres, y se encuentra que 175
hombres y 120 mujeres prefieren el nuevo producto. Utilizando un IC de 95% para la verdadera diferencia de
proporciones entre hombres y mujeres, ¿Se puede concluir que el fabricante tiene razón?.
R:
X : “Hombre prefiere el nuevo producto”.
Y : “Mujer prefiere el nuevo producto”.
p1 : “Verdadera proporción de hombres que prefieren el nuevo producto”.
p2 : “Verdadera proporción de mujeres que prefieren el nuevo producto”.
175
120
n1 = 250, n2 = 200, pˆ1 =
= 0, 7, pˆ 2 =
= 0, 6
250
200
1 − α = 0,95  1 − α / 2 = 0,975, z0,975 = 1,96
d = z1−α /2 ⋅
pˆ1 (1 − pˆ1 ) pˆ 2 (1 − pˆ 2 )
0, 7(1 − 0, 7) 0, 6(1 − 0, 6)
+
= 1,96 ⋅
+
= 0,0882
n
n
250
200
p1 − p2 ∈ ( pˆ1 − pˆ 2 ) − d , ( pˆ1 − pˆ 2 ) + d  = ( 0, 7 − 0, 6 ) − 0, 0882; ( 0, 7 − 0, 6 ) + 0, 0882 
p1 − p2 ∈ [ 0, 0118; 0,1882 ]
⇔
0,0118 ≤ p1 − p2 ≤ 0,1882 .
Como el IC no contiene al 0, se puede concluir que existen diferencias significativas al nivel 5%, entonces,
p1 − p2 > 0  p1 > p2 .
Es decir, el fabricante tiene razón, los hombres prefieren el nuevo producto popular más que las mujeres. Otra
forma, la proporción de preferencias de los hombres por el nuevo producto popular es mayor que las mujeres
con un 95% de confianza.
Intervalo de confianza para la varianza ( σ 2 )
Sea X 1 , X 2 ,.., X n , una muestra aleatoria de tamaño n , escogida de una población normal con varianza σ 2 ,
parámetro desconocido.
Un estimador puntual de la varianza σ 2 es la varianza muestral ( σˆ 2 = S x2 )
S X2 =
1 n
 ( X i − X )2
n − 1 i =1
cuyo valor sx2 (σˆ 2 ) es la estimación puntual de σ 2 . Luego, si sx2 es la varianza de una muestra aleatoria de
tamaño n seleccionada de una población normal, entonces, el intervalo de confianza de (1 − α ) ⋅100% para
σ 2 es:
( n − 1) s 2
χ12−α /2,n −1
≤σ2 ≤
( n − 1) s 2
χα2 / 2,n −1
Los valores, χα /2,n −1 y χ1−α /2,n−1 se hallan en la tabla chi-cuadrado con n − 1 grados de libertad y con áreas
2
2
acumuladas respectivas de α / 2 y 1 − α / 2 .
Ejemplo
Una máquina produce piezas metálicas en forma cilíndrica. Para estimar la variabilidad de los diámetros, se toma
una muestra aleatoria de 10 piezas producidas por la máquina encontrando los siguientes diámetros en
centímetros:
10,1 9,7 10,3 10, 4 9,9 9,8 9,9 10,1 10,3 9,9.
Encuentre un intervalo de confianza del 95% para la varianza de los diámetros de todas las piezas producidos
por la máquina. Suponga que los diámetros de las piezas se distribuyen según la normal.
Respuesta
n1 = 10,
s 2 = 0,056
1 − α = 0,95  1 − α / 2 = 0,975, α / 2 = 0, 025
2
2
χα2 /2,n −1 = χ0,025;9
= 2.7 y χ12−α /2,n −1 = χ0,975;9
= 19,02
Por lo tanto, el intervalo de confianza del 95% para la varianza σ 2 es:
9 ⋅ 0, 056
9 ⋅ 0, 056
≤σ2 ≤
19, 02
2, 7
2
0, 0265 ≤ σ ≤ 0,1867
Observar que el intervalo de confianza del 95 % para la desviación estándar o es:
0,1628 ≤ σ ≤ 0, 432
Intervalo de confianza para la razón de dos varianzas
Sean S12 y S 22 las varianzas de dos muestras aleatorias independientes de tamaños n1 y n2 seleccionadas de
dos poblaciones normales respectivas con varianzas σ 12 y σ 22 .
Un estimador puntual de la razón de las varianzas σ 12 / σ 22 es la estadística S12 / S 22 .
Si s12 y s22 las varianzas de dos muestras aleatorias independientes de tamaños n1 y n2 seleccionadas
respectivamente de dos poblaciones normales, entonces, el intervalo de confianza de (1 − α ) ⋅100% para
σ 12 / σ 22 es:
s12
σ 12 s12
F
≤
≤ F1−α /2, n2 −1,n1 −1
α / 2, n2 −1, n1 −1
σ 22 s22
s22
Nota: Fα , n ,m =
1
F1−α ,m,n
Ejemplo
Se quiere comparar la variabilidad de todas las ventas mensuales de una compañía A con la variabilidad de su
competidora la compañía B. Se sabe que todas las ventas de A y de B se distribuyen normalmente. Se han
tomado dos muestras aleatorias de ventas; una de 8 meses de A y otra de 6 meses de B obteniéndose las
siguientes ventas:
Muestra de A: 17, 23, 21, 18, 22, 20, 21, 19.
Muestra de B: 13, 16, 14, 12, 15, 14.
Mediante un intervalo de confianza del 95% para σ 12 / σ 22 . ¿Se puede concluir que son iguales las varianzas de
todas las ventas de las compañías A y B?.
Respuesta
n1 = 8,
s12 = 4,13
n2 = 6,
s22 = 2
1 − α = 0,95  1 − α / 2 = 0,975, α / 2 = 0, 025
F1−α /2,n2 −1,n1 −1 = F0,975;5;7 = 6,85 y Fα /2,n2 −1,n1 −1 = 1/ F0,975;7;5 = 1/ 5, 29 = 0.189
Por lo tanto, el intervalo de confianza del 95% para la varianza σ 12 / σ 22 es:
0,390 ≤
Dado que el cociente
σ 12
≤ 14,145
σ 22
σ 12
= 1∈ [ 0,390;14,145] , se concluye que no hay diferencias significativas entre las
σ 22
varianzas de todas las ventas de A y B.
Pruebas de Hipótesis
Introducción
El objetivo principal es disponer de métodos que se utilizan para tomar decisiones sobre poblaciones, a partir
de una muestra aleatoria escogida al azar de esa población. Para tomar decisiones estadísticas se debe partir
de afirmaciones o conjeturas con respecto a la población en la cual estamos interesados. Tales supuestos
pueden ser verdaderos o no. Un supuesto hecho sobre una población o sus parámetros debe ser sometido a
comprobación utilizando la muestra aleatoria, con el objetivo de saber si contradice o no tal supuesto.
Se denomina hipótesis estadística a cualquier afirmación o conjetura que se hace respecto de una distribución,
respecto a su forma, tipo de distribución o respecto al valor de uno o más de sus parámetros.
Por ejemplo, son hipótesis estadísticas:
a)
b)
La longitud media de un tipo de objetos es 20 cm.
La proporción de objetos defectuosos no supera el 10%.
c)
La varianza de longitud de las varillas es de 0,25 cm2.
Se denomina hipótesis simple a cualquier hipótesis estadística que especifique la forma de la distribución y el
valor de su (s) parámetro(s). De lo contrario, se denomina hipótesis compuesta.
Ejemplo:
Sea X : “Ingreso mensual de un empleado”, una variable aleatoria tal que X ∼ N (µ ,900) .
1) µ = µ0 = 500 (hipótesis simple)
2) µ ≠ µ0 = 500
ó
µ < µ0 = 500
ó
µ > µ0 = 500 (hipótesis compuesta)
Se denomina hipótesis nula, denotada por H 0 , la hipótesis aceptada provisionalmente como verdadera y cuya
validez se comprueba experimentalmente. Toda hipótesis nula va acompañada de una hipótesis alternativa.
La hipótesis alternativa, se denota H A
Ejemplo:
1) H 0 : θ = θ 0 v / s H A : θ ≠ θ 0 .
2) H 0 : θ ≤ θ 0
3) H 0 : θ > θ 0
o H1 , es la hipótesis que se acepta cuando H 0 se rechaza.
v / s H A : θ > θ0 .
v / s H A : θ ≤ θ0 .
Prueba de hipótesis estadística.
La Prueba de hipótesis estadística es un proceso que nos conduce a la decisión de aceptar o rechazar la hipótesis
nula H 0 , en contraposición a la hipótesis alternativa y en base a una muestra aleatoria tomada de la población
en estudio.
La aceptación de la hipótesis significa que los datos no proporcionan evidencia suficiente para refutarla. El
rechazo significa que los datos de la muestra la refutan.
Tipos de Pruebas de hipótesis.
El tipo de prueba depende de la hipótesis alternativa.
Del ejemplo anterior:
1) Se denomina prueba bilateral o de 2 colas.
2) Se denomina prueba unilateral de cola derecha.
3) Se denomina prueba unilateral de cola izquierda.
Error tipo I y II, y nivel de significancia
Al tomar la decisión de aceptar o rechazar la hipótesis nula, H 0 : θ = θ 0 , en base a una muestra aleatoria elegida
de la población en estudio, se pueden tomar 4 posibles decisiones.
Decisión
H 0 Verdadera
H 0 Falsa
Decisión correcta: 1− β
Rechazar H 0 Error tipo I: α
Aceptar H 0 Decisión correcta: 1 − α Error tipo II: β
Donde α = P( Error tipo I)=P(Rechazar H 0 H 0 Verdadera) y
β = P( Error tipo II)=P(Aceptar H 0 H 0 Falsa).
Se denomina nivel de significación de una prueba de hipótesis a la probabilidad de cometer un error de tipo I.
La potencia de una prueba, calculada por 1 − β , es la probabilidad de tomar la decisión acertada de rechazar
H 0 cuando esta es falsa.
Es natural, esperar que las probabilidades de los 2 tipos de errores (I y II) sea lo más pequeña posible.
Pasos para realizar una prueba de hipótesis:
1) Planteamiento de la hipótesis nula y alternativa.
2) Construcción del estadístico de prueba de la hipótesis nula.
3) Determinación de la región de rechazo (depende de la distribución del estadístico de prueba, del nivel de
significancia ( α ) y la hipótesis alternativa ( H A ).
4) Tomar decisión respecto de la hipótesis nula, observando si el estadístico de prueba pertenece o no a la
región de rechazo.
5) Interpretar la decisión en el contexto del problema planteado.
Prueba de hipótesis para una media
2
Sea X ∼ N ( µ , σ 2 ) , µ0 un valor de prueba conocido y sea X y S X estimadores de µ y σ obtenidos de una
2
muestra aleatoria de tamaño n . Pasos para realizar la prueba de hipótesis para una media:
P1)
Plantear Hipótesis: H 0 : µ = µ0 v/s H1 : µ ≠ µ0 ;
P2)
Estadístico de prueba: T0 =
P3)
Establecer nivel de significancia: α .
P4)
Región de rechazo de H 0 :
i)
ii)
iii)
P5)
P6)
n ( X − µ0 )
SX
H 2 : µ > µ0 ;
H 3 : µ < µ0 .
∼ tn −1 .
H 0 v/s H 1  R1 = ( −∞, −t1−α / 2, n −1 ) ∪ ( t1−α /2,n −1 , ∞ ) .
H 0 v/s H 2  R2 = ( t1−α ,n −1 , ∞ ) .
H 0 v/s H 3  R3 = ( −∞, −t1−α ,n −1 ) .
Decisión: Si t0 ∈ Ri , i = 1, 2,3 entonces H 0 se rechaza al nivel de significancia α .
Conclusión: Se debe interpretar la decisión tomada en P5).
Ejemplo:
Las cajas de cereal procesadas por una fábrica deben tener un contenido promedio de 160 gramos. Por una
queja ante el SERNAC de que tales cajas de cereal tienen menos contenido, un inspector tomó una muestra
aleatoria de 10 cajas, encontrando los siguientes pesos de cereal en gramos:
157
157
163
158
161
159
¿Es razonable que el inspector multe al fabricante?. Utilice
distribución normal.
R: Sea
162
159
158
156
α = 0,05 y suponga que los contenidos tienen
X : “Peso de las cajas de cereal”
µ : “Peso medio poblacional (verdadero) de las cajas de cereal”
n = 10,
x = 159, sx = 2,309,
µ0 = 160
1 − α = 0,95 .
P1)
Plantear Hipótesis: H0 : µ = µ0 = 160 grs. v/s H3 : µ < µ0 = 160 grs. .
P2)
Estadístico de prueba: t0 =
P3)
n ( x − µ0 )
10 (159 − 160 )
=
= −1,37 .
sx
2,309
Establecer nivel de significancia: α = 0,05 .
P4)
Región de rechazo de H 0 :
H 0 v/s H 3  R3 = ( −∞, −t1−α ,n −1 ) = ( −∞, −t0,95;9 ) = ( −∞, −1,833 ) .
P5)
P6)
Decisión: t0 = −1,37 ∉ R3 = ( −∞, −1,833) .
Conclusión: No se rechaza H 0 , es decir, el inspector no multará al fabricante con un 95% de confianza.
Otra forma, con un 95% de confianza el peso medio de las cajas no es menor que 160 grs.
Prueba de hipótesis para la diferencia de medias
2
Sean X ∼ N ( µ x , σ ) y Y ∼ N ( µ y , σ ) , dos poblaciones independientes con varianza común desconocida.
2
Dadas dos muestras aleatorias de X e Y de tamaños n y m, respectivamente, obtenemos los estimadores de
X , Y , S 2X , S Y2 y la varianza común Sc . Luego, la prueba de hipótesis para la diferencia de medias sigue los
siguientes pasos:
Plantear Hipótesis: H 0 : µ1 − µ2 = 0 v/ s H1 : µ1 − µ2 ≠ 0 ;
P1)
H 2 : µ1 − µ2 > 0 ;
H 3 : µ1 − µ2 < 0 .
X −Y
(n − 1) ⋅ S X2 + (m − 1) ⋅ SY2
∼ tn+ m−2 , donde Sc =
.
n+m−2
1 1
Sc
+
n m
P2)
Estadístico de prueba: T0 =
P3)
Establecer nivel de significancia: α .
P4)
Región de rechazo de H 0 :
H 0 v/s H 1  R1 = ( −∞, −t1−α / 2,n + m − 2 ) ∪ ( t1−α /2, n + m − 2 , ∞ ) .
i)
H 0 v/s H 2  R2 = ( t1−α ,n + m − 2 , ∞ ) .
ii)
H 0 v/s H 3  R3 = ( −∞, −t1−α ,n + m − 2 ) .
iii)
P5)
Decisión: Si t0 ∈ Ri , i = 1, 2,3 entonces H 0 se rechaza al nivel de significancia α .
P6)
Conclusión: Se debe interpretar la decisión tomada en P5).
Ejemplo:
Una medicina A se ha aplicado a 10 pacientes aquejados de cierta enfermedad. Otra medicina B es aplicada a
otros 9 pacientes aquejados de la misma enfermedad. Los tiempos de recuperación en días de los pacientes
fueron los siguientes:
A:
B:
6
7
5
6
6
7
7
9
4
5
7
8
6
7
4
6
3
8
6
Utilizando α = 5% y suponiendo poblaciones normales con varianza común desconocida, ¿son iguales los
tiempos medios de ambas medicinas?.
R: X : “Tiempo de recuperación de pacientes con medicina A”.
Y : “Tiempo de recuperación de pacientes con medicina B”.
µ x : “Verdadero promedio del tiempo de recuperación de pacientes con medicina A”.
µ y : “Verdadero promedio del tiempo de recuperación de pacientes con medicina B”.
n = 10,
x = 5, 4, sx2 = 1,822
m = 9,
y = 7, s y2 = 1,5
n + m − 2 = 10 + 9 − 2 = 17,
sc =
(n − 1) ⋅ sx2 + ( m − 1) ⋅ s y2
n+m−2
1 − α / 2 = 1 − 0, 05 / 2 = 0,975  t1−α /2,n + m − 2 = t0,975;17 = 2,11
=
[(10 − 1) ⋅1,822 + (9 − 1) ⋅1,5] /17 = 1, 29
P1)
Plantear Hipótesis: H 0 : µ1 − µ2 = 0 v/s H1 : µ1 − µ2 ≠ 0
P2)
Estadístico de prueba: t0 =
P3)
x−y
5, 4 − 7
=
= −2, 694 .
1 1
1 1
sc
+
1, 29
+
n m
10 9
Establecer nivel de significancia: α = 0,05 .
P4)
Región de rechazo de H 0 : H 0 v/s H 1 
R1 = ( −∞, −t1−α /2,n + m − 2 ) ∪ ( t1−α /2,n + m − 2 , ∞ ) = ( −∞, −2,11) ∪ ( 2,11, ∞ ) .
Decisión: t0 = −2, 694 ∈ R1 = ( −∞, −2,11) ∪ ( 2,11, ∞ ) .
P5)
Conclusión: Se rechaza H 0 al nivel α = 0,05 , es decir, existen diferencias significativas entre los
tiempos de recuperación de los pacientes tratados con la medicina A y B. Otra forma, con un 95% de
confianza los tiempos de recuperación son distintos entre los pacientes tratados con la medicina A y B.
P6)
Prueba de hipótesis para una proporción
Sea X 1 , X 2 ,.., X n , una muestra aleatoria de tamaño n de una población de Bernoulli, X ∼ B(1, p) , donde el
parámetro desconocido p es la proporción de éxitos en la población y p̂ = x es la proporción de éxitos de la
muestra. Sea p0 el valor de prueba para p conocido. Entonces, se debe seguir los siguientes pasos para la
prueba de hipótesis para una proporción:
P1)
Plantear Hipótesis: H 0 : p = p0
P2)
Estadístico de prueba: Z 0 =
P3)
Establecer nivel de significancia: α .
P4)
Región de rechazo de H 0 :
i)
ii)
iii)
v/s H1 : p ≠ p0 ;
H 2 : p > p0 ;
H 3 : p < p0 .
Pˆ − p0
≈ N (0,1) .
p0 (1 − p0 )
n
H 0 v/s H 1  R1 = ( −∞, − z1−α /2 ) ∪ ( z1−α /2 , ∞ ) .
H 0 v/s H 2  R2 = ( z1−α , ∞ ) .
H 0 v/s H 3  R3 = ( −∞, − z1−α ) .
P5)
Decisión: Si z0 ∈ Ri , i = 1, 2,3 entonces H 0 se rechaza al nivel de significancia α .
P6)
Conclusión: Se debe interpretar la decisión tomada en P5).
Ejemplo:
Un fabricante afirma que el 30% de todos sus consumidores prefieren su producto. Con el fin de evaluar está
afirmación, se tomó una muestra de 400 consumidores y encontró que 100 de ellos prefieren dicho producto.
¿Es ésta, suficiente evidencia para inferir que el porcentaje de preferencia del producto no es 30%. Utilice
α = 0,01 .
R: Sea X : “Persona que prefiere el producto”
p : “Proporción poblacional (verdadera) de personas que prefieren el producto”
n = 400,
P1)
pˆ =
100
= 0, 25,
400
Plantear Hipótesis:
p0 = 0,3 , 1 − α / 2 = 1 − 0, 01 / 2 = 0, 995  z0,995 = 2,575
H 0 : p = p0 = 0,3 v/s H1 : p ≠ p0 = 0,3
P3)
pˆ − p0
0, 25 − 0,3
=
= −2,18 .
p0 (1 − p0 )
0,3(1 − 0,3)
400
n
Establecer nivel de significancia: α = 0,01 .
P4)
Región de rechazo de H 0 : H 0 v/s H 1 
P2)
Estadístico de prueba: z0 =
R1 = ( −∞, − z1−α /2 ) ∪ ( z1−α /2 , ∞ ) = ( −∞, −2,575) ∪ ( 2,575, ∞ )
P5)
P6)
Decisión: z0 = −2,18 ∉ R1 = ( −∞, −2,575 ) ∪ ( 2,575, ∞ ) .
Conclusión: No se rechaza H 0 , es decir, el fabricante tiene la razón. Otra forma, el 30% de los
consumidores prefieren el producto con un 99% de confianza.
Prueba de hipótesis para la diferencia de proporciones
Sea X 1 , X 2 ,.., X n , y Y1 , Y2 ,.., Ym , dos muestras aleatorias independientes de tamaño n y m seleccionadas de
dos poblaciones de Bernoulli, X ∼ B (1, p1 ) y Y ∼ B (1, p2 ) respectivamente, donde los parámetros
desconocidos p1 y p2 son las proporciones poblacionales de éxitos. Sean p̂1 y p̂2
las proporciones
muestrales de éxitos, n y m ≥ 30 , entonces los pasos a seguir para la prueba de hipótesis para la diferencia
entre dos proporciones está dada por:
P1)
Plantear Hipótesis: H 0 : p1 − p2 = 0 v/s H1 : p1 − p2 ≠ 0 ; H 2 : p1 − p2 > 0 ;
P2)
Estadístico de prueba: Z 0 =
P3)
Establecer nivel de significancia: α .
P4)
Región de rechazo de H 0 :
Pˆ1 − Pˆ2
1 1 
pˆ c (1 − pˆ c )  + 
n m
≈ N (0,1) , donde pˆ c =
H 3 : p1 − p2 < 0 .
npˆ1 + mpˆ 2
n+m
H 0 v/s H 1  R1 = ( −∞, − z1−α /2 ) ∪ ( z1−α /2 , ∞ ) .
i)
H 0 v/s H 2  R2 = ( z1−α , ∞ ) .
ii)
H 0 v/s H 3  R3 = ( −∞, − z1−α ) .
iii)
P5)
Decisión: Si z0 ∈ Ri , i = 1, 2,3 entonces H 0 se rechaza al nivel de significancia α .
P6)
Conclusión: Se debe interpretar la decisión tomada en P5).
Ejemplo:
Un patrocinador de programa de T.V. afirma que el programa representa un atractivo mayor para los
televidentes hombres que para las mujeres, pero el personal piensa que el porcentaje es igual. Si una muestra
aleatoria de 300 hombres y 400 mujeres reveló que 120 hombres y 120 mujeres estaban viendo el programa de
T.V. ¿Puede considerarse significativa la diferencia al nivel α = 0,05 ?.
R: Sea X : “Hombre que prefiere el programa de T.V.”
Y : “Mujer que prefiere el programa de T.V.”
pH : “Verdadera proporción de hombres que prefieren el programa de T.V”.
pM : “Verdadera proporción de mujeres que prefieren el programa de T.V”.
n = 300,
pˆ H = 120
300 = 0, 4,
m = 400,
pˆ M = 120
400 = 0,3,
H 0 : pH − pM = 0 v/s H 2 : pH − pM > 0
P1)
Plantear Hipótesis:
P2)
Estadístico de prueba:
z0 =
300*0, 4 + 400*0.3
= 0,34
300 + 400
1 − α = 0,95  z0,95 = 1, 645
pˆ c =
pˆ H − pˆ M
1 1 
pˆ c (1 − pˆ c )  + 
n m
=
0, 4 − 0,3
1 
 1
+
0,34(1 − 0,34) 

 300 400 
= 2,764 ,
P3)
Establecer nivel de significancia: α = 0,05 .
P4)
Región de rechazo de H 0 :
P5)
Decisión: z0 = 2, 764 ∈ R2 = (1, 645, ∞) .
P6)
Conclusión: Se rechaza H 0 , es decir, existen diferencias significativas al nivel 5%. Otra forma, con un
95% de confianza la proporción de hombres que prefieren el programa es mayor que las mujeres.
H 0 v/s H 1  R2 = ( z1−α , ∞ ) = (1, 645, ∞)
Prueba de hipótesis para la varianza
Sea X 1 , X 2 ,.., X n , una muestra aleatoria independiente de tamaño n seleccionada de una población normal
con media µ y varianza σ
2
. La prueba de hipótesis para la varianza, consta de los siguientes pasos:
H 0 : σ 2 = σ 02
P1)
Plantear Hipótesis:
P2)
Estadístico de prueba: X 0 =
P3)
Establecer nivel de significancia: α .
P4)
Región de rechazo de H 0 :
( n − 1) S 2 ∼ χ 2
α , n −1
2
H 2 : σ 2 > σ 02 ; H3 : σ 2 < σ 02 .
σ0
H 0 v/s H 1  R1 = ( 0, χα2 /2,n −1 ) ∪ ( χ12−α /2,n −1 , ∞ ) .
i)
ii)
iii)
P5)
P6)
H1 : σ 2 ≠ σ 02 ;
v/s
H 0 v/s H 2  R2 = ( χ12−α ,n −1 , ∞ ) .
H 0 v/s H 3  R3 = ( 0, χα2 ,n −1 ) .
Decisión: Si x0 ∈ Ri , i = 1, 2,3 entonces H 0 se rechaza al nivel de significancia α .
Conclusión: Se debe interpretar la decisión tomada en P5).
Ejemplo:
En un proceso de fabricación, se plantea la hipótesis que la desviación estándar de las longitudes de cierto tipo
de tornillo es 2.0 mm En una muestra de diez tornillos elegidos al azar del proceso de producción se han
encontrado las siguientes longitudes en milímetros:
71, 66, 64, 72, 69, 67, 70, 68, 65, 69.
Con estos datos, ¿se justifica la suposición que la desviación estándar verdadera es 2.00 mm?
Use el nivel de significación α = 0,05 y suponga que la distribución de las longitudes es normal.
R:
Sea X : “Longitud de tornillos”.
σ 2 : “Verdadera variabilidad de la longitud de los tornillos”.
s 2 = 6, 77
P1)
P2)
P3)
Plantear Hipótesis:
H0 : σ 2 = 4
Estadístico de prueba: X 0
v/s
H1 : σ 2 ≠ 4
n − 1) S 2 (10 − 1) 6, 77
(
=
=
= 15, 23
σ 02
Establecer nivel de significancia: α = 0,05 .
4
R1 = ( 0, χα2 /2,n −1 ) ∪ ( χ12−α /2,n −1 , ∞ )
P4)
(
) (
2
2
Región de rechazo de H 0 : H 0 v/s H 1  R1 = 0, χ 0.025;9
∪ χ 0,975;9
,∞
R1 = ( 0; 2, 7 ) ∪ (19, 02; ∞ )
)
.
P5)
Decisión: Si X 0 ∉ R1 ⇔ 15, 23 ∉ ( 0; 2, 7 ) ∪ (19, 02; ∞ ) , entonces H 0 no se rechaza.
P6)
Conclusión: Se concluye que la desviación estándar de la población es igual a 2mm .
Prueba de hipótesis para la razón de varianzas
2
Sea S x2 y S y las varianzas de dos muestras aleatorias independientes de tamaño n y m seleccionadas de dos
2
poblaciones normales con varianzas σ x2 y σ y . La prueba de hipótesis para razón de varianzas, consta de los
siguientes pasos:
σ x2
H 0 : 2 = 1 v/s
σy
P1)
Plantear Hipótesis:
P2)
Estadístico de prueba: F0 =
P3)
Establecer nivel de significancia: α .
S x2
∼ Fn −1,m −1
S y2
σ x2
H1 : 2 ≠ 1 ;
σy
σ x2
H 2 : 2 > 1;
σy
σ x2
H3 : 2 < 1 .
σy
P4)
Región de rechazo de H 0 :
i)
ii)
iii)
H 0 v/s H 1  R1 = ( 0, Fα /2,n −1,m −1 ) ∪ ( F1−α / 2,n −1,m −1 , ∞ ) .
H 0 v/s H 2  R2 = ( F1−α , n −1,m −1 , ∞ ) .
H 0 v/s H 3  R3 = ( 0, Fα ,n −1,m −1 ) .
Decisión: Si f 0 ∈ Ri , i = 1, 2,3 entonces H 0 se rechaza al nivel de significancia α .
Conclusión: Se debe interpretar la decisión tomada en P5).
P5)
P6)
Nota: Fα , n ,m =
1
F1−α ,m,n
Ejemplo:
Una compañía diseña un nuevo proceso de moldeo para reducir la variabilidad en el diámetro de las piezas
producidas. Se cree que la varianza del nuevo proceso es menor que la del proceso antiguo. Para una muestra
de 8 piezas del proceso antiguo y una muestra de 6 piezas del nuevo proceso se obtienen los siguientes
diámetros en milímetros:
Antiguo:
Nuevo :
17
13
23
16
21
14
18
12
22
15
20
14
21
19
¿Confirman los datos que la varianza de los diámetros con el nuevo proceso es menor que el antiguo proceso?.
Suponga poblaciones normales y α = 0,05 .
R: Sea
X : “Diámetro de las piezas producidas con el antiguo proceso”.
Y : “Diámetro de las piezas producidas con el nuevo proceso”.
σ X2 : “Valor verdadera de la variabilidad de diámetro de piezas producidas con el antiguo proceso”.
σY2 : “Valor verdadera de la variabilidad de diámetro de piezas producidas con el nuevo proceso”.
sx2 = 4.125,
s y2 = 2
P1)
σ x2
σ x2
Plantear Hipótesis: H 0 : 2 = 1 v/s H 2 : 2 > 1 .
σy
σy
P2)
Estadístico de prueba: f 0 =
P3)
Establecer nivel de significancia: α = 0,05 .
P4)
Región de rechazo de H 0 : H 0 v/s H 2  R2 = F1−α ;n −1, m −1 , ∞ = F0,95;7,5 , ∞ = ( 4,88; ∞ ) .
P5)
Decisión: Si f 0 = 2, 065 ∉ R2 = ( 4,88; ∞ ) , no se rechaza H 0 .
P6)
sx2 4,125
=
= 2, 065
s y2
2
(
) (
)
Conclusión: No se rechaza H 0 , es decir, con un 95% de confianza la varianza de los diámetros con el
nuevo proceso es igual que el antiguo proceso.
Descargar