Inferencia estadística. Estimación de la media

Anuncio
Unidad 12: INFERENCIA ESTADÍSTICA.
ESTIMACIÓN DE LA MEDIA
INTRODUCCIÓN
Uno de los problemas más sencillos de la estadística
inductiva es el de estimar el valor de la media de una
población a partir de una muestra. La estimación se realiza
de forma aproximada (mediante un intervalo) y con una
cierta inseguridad (asignando un “nivel de confianza” al
resultado). El tamaño de la muestra influye en la finura de la
estimación. Para realizar este proceso, se echa mano de la
curva normal.
La distribución normal, como sabes, fue descrita por primera
vez por De Moivre (en 1733) y redescubierta por Gauss más
de medio siglo después. El propio Gauss justificó su
omnipresencia mediante unos razonamientos que son el
antecedente del teorema central del límite que estudiaremos
en esta unidad.
1
REFLEXIONA Y RESUELVE
Lanzamiento de varios dados
La distribución de probabilidad
lanzamiento de un dado correcto es:
correspondiente
al
Si lanzamos dos dados y promediamos sus resultados (por
ejemplo, un 3 y un 5 promedian un 4), la distribución de
probabilidad es:
2
El promedio de los resultados de tres dados se distribuye
así:
Y el de cuatro dados, así:
Vamos a comparar la media y la desviación típica de estas
cuatro distribuciones:
3
MEDIA
DESVIACIÓN TÍPICA
3,5
3,5
3,5
3,5
1,71
1,21
0,98
0,86
UN DADO
DOS DADOS (promedio)
TRES DADOS (promedio)
CUATRO DADOS (promedio)
Es evidente, a la vista de la tabla anterior que las cuatro
medias son iguales mientras que la desviación típica es tanto
menor cuanto más dados participan.
Comprueba en la tabla anterior que:
DESV. TÍPICA PARA n DADOS =
(n = 2,
DESV. TÍPICA PARA UN DADO
n
n =3
A
continuación,
comparamos
representándolas juntas:
ó
n = 4)
las
cuatro
gráficas
4
Mirando las gráficas, justifica estas afirmaciones:
- Cuantos más dados intervienen, más se parece la
distribución de sus promedios a la curva normal.
- Todas las distribuciones tienen la misma media.
- Cuantos más dados intervienen, menor desviación
típica tiene la distribución.
12.1.DISTRIBUCIÓN
TÉCNICAS BÁSICAS.
NORMAL.
REPASO
DE
Como vimos al inicio de esta unidad y como se ratificará en
los apartados siguientes, al tratar con las medias
muestrales aparece con mucha frecuencia la distribución
normal. Vamos a realizar un escueto repaso del cálculo de
probabilidades en distribuciones normales.
Utilización de la tabla de la normal N(0,1)
En la distribución N(0,1), a la variable se la suele
representar por la letra Z. La tabla que aparece a
continuación nos da las probabilidades p(Z ≤ k) para valores
de k de 0 a 4, de centésima en centésima. A estas
probabilidades se las llama F(k):
F(k) = p(Z ≤ k)
5
El valor de k se busca así:
Unidades y décimas en la columna de la izquierda.
Centésimas en la fila de arriba.
El número que nos da la tabla es el valor de:
F(k) = p(Z ≤ k)
6
Ejemplos:
p(Z ≤ 0, 83) = F(0, 83) = 0, 7967
p(Z ≤ 2,3) = F(2,30) = 0, 9893
p(Z ≤ 1) = F(1, 00) = 0, 8413
Recíprocamente, si conocemos el valor de la probabilidad
F(k), se puede saber el valor de k.
Ejemplos:
p(Z ≤ k) = F(k) = 0, 7190 → k = 0, 58
p(Z ≤ k) = F(k) = 0, 8643 → k = 1,1
p(Z ≤ k) = F(k) = 0, 5560 → k = 0,14
Recordemos que en una distribución de variable continua las
probabilidades puntuales son nulas: p(X = k) = 0 .
Por tanto, p(X ≤ k) = p(X < k)
Cálculo de probabilidades en una N(0,1)
• Si k ≥ 0 , las probabilidades p(Z ≤ k) = p(Z < k) = F(k) se
encuentran directamente en las tablas.
• p(Z ≥ k) = 1 − p(Z < k) = 1 − F(k)
• Para abscisas negativas, p(Z ≤ −k) = p(Z ≥ k) = 1 − F(k)
7
Las restantes probabilidades se pueden obtener a partir de
las anteriores como se ve en los siguientes ejemplos:
1. p(Z ≥ 1, 86) = 1 − p(Z < 1, 86) = 1 − F(1, 86) = 1 − 0, 9686 =
= 0, 0314
2. p(0,18 ≤ Z ≤ 1,29) = F(1,29) − F(0,18) = 0, 9015 − 0, 5714 =
= 0,3301
3. p( −0, 56 ≤ Z ≤ 1, 9) = F(1, 90) − F( −0, 56) = 0, 9713 − 1 − F(0, 56)  =
= 0, 9713 − 1 − 0, 7123 = 0, 9713 − 0,2877 = 0, 6836
8
4. p( −1, 83 < Z < −1) = p(1 < Z < 1, 83) = F(1, 83) − F(1, 00) =
= 0, 9664 − 0, 8413 = 0,1251
Ejercicio 1 (pág. 277)
Halla las siguientes probabilidades en una distribución
N(0,1):
a) p(Z > 2, 8)
b) p(Z ≤ −1, 8)
c) p(Z > −1, 8)
d) p(1, 62 ≤ Z ≤ 2,3)
e) p(1 ≤ Z ≤ 2)
f) p( −0, 61 ≤ Z ≤ 1, 4)
g) p( −1 ≤ Z ≤ 2)
h) p( −2,3 ≤ Z ≤ −1, 7)
i) p( −2 ≤ Z ≤ −1)
Ejercicio 2 (pág. 277)
Calcula el valor de k (exacta o aproximadamente) en cada uno
de los siguientes casos:
a) p(Z ≤ k) = 0, 5
b) p(Z ≤ k) = 0, 8729
c) p(Z ≤ k) = 0, 9
d) p(Z ≤ k) = 0,33
e) p(Z ≤ k) = 0,2
f) p(Z > k) = 0,12
g) p(Z ≥ k) = 0, 9971
h) p(Z ≥ k) = 0, 6
9
Cálculo de probabilidades en una N( µ , σ )
Se puede demostrar que si una variable X sigue una
distribución normal con media µ y desviación típica σ ,
X−µ
entonces la variable Z =
sigue una distribución normal
σ
con media 0 y desviación típica 1. Es decir:
Si X es N(µ , σ) ⇒ Z =
X−µ
es N(0,1)
σ
Al proceso de pasar de una variable X que es N(µ , σ) a una
X−µ
variable Z =
que es N(0,1) se le llama tipificación de la
σ
variable. Las probabilidades de la variable tipificada se
pueden calcular mirando en las tablas.
Ejercicio resuelto 1 (pág. 278)
En una distribución N(66,8), calcular:
a) p(X < 70)
b) p(X > 80)
Si X es N(66, 8) ⇒ Z =
c) p(70 < X < 80)
X − 66
es N(0,1)
8
a) p ( X < 70 )
 X − 66 70 − 66 
p ( X < 70 ) = p 
<
 = p ( Z < 0, 5 ) = F(0, 5) =
8
8


= 0, 6915
10
b) p ( X > 80 )
 X − 66 80 − 66 
p ( X > 80 ) = p 
>
 = p ( Z > 1, 75 ) = 1 − F(1, 75) =
8
8


= 1 − 0, 9599 = 0, 0401
c) p(70 < X < 80)
 70 − 66 X − 66 80 − 66 
p ( 70 < X < 80 ) = p 
<
<
=
8
8
8


= p ( 0, 5 < Z < 1, 75 ) = F(1, 75) − F(0, 5) =
= 0, 9599 − 0, 6915 = 0,2684
Ejercicio 3 (pág. 278)
En una distribución
probabilidades:
a) p(X ≤ 20)
N(18,4),
halla
b) p(X ≥ 16, 5)
d) p(19 ≤ X ≤ 23)
las
siguientes
c) p(X ≤ 11)
e) p(11 ≤ X < 25)
Ejercicio 4 (pág. 278)
En una distribución N(6 , 0,9), calcula k para que se den las
siguientes igualdades:
a) p(X ≤ k) = 0, 9772
b) p(X ≤ k) = 0, 8
c) p(X ≤ k) = 0,3
d) p(X ≥ k) = 0, 6331
11
12.2.LA
MUESTRALES
DISTRIBUCIÓN
DE
LAS
MEDIAS
Recordemos los resultados que obtuvimos al inicio de la
unidad, en donde nos interesábamos por las medias de las
puntuaciones obtenidas al lanzar dos, tres o cuatro dados.
El resultado del lanzamiento de un dado puede considerarse
un individuo de una población infinita: lanzar un dado
indefinidamente. Lanzar un dado cuatro veces (o lanzar
cuatro dados) puede ser considerado como una muestra de
tamaño cuatro de esa población.
Según ese punto de vista, la experiencia que hemos descrito
al inicio de esta unidad puede resumirse así:
Si de la distribución “resultado obtenido al lanzar un dado”
extraemos muestras de tamaños n = 2, n = 3, n = 4, …, la
distribución de sus correspondientes medias se parece a una
distribución normal tanto más cuanto mayor sea n. Además,
al aumentar n (el número de dados):
- La media se mantiene constante.
- La desviación típica va disminuyendo.
12
Veamos ahora otro ejemplo:
Supongamos que tenemos la siguiente variable aleatoria:
X: años que lleva funcionando cada una de las empresas
de un grupo de 5.
Los valores de X son: X = {4, 6, 8, 10, 12}
µ=
4 + 6 + 8 + 10 + 12 40
=
= 8 años
5
5
Tomemos en ese grupo de 5 empresas muestras de tamaño 2.
Las muestras de tamaño 2 posibles y sus correspondientes
medias serían:
Muestras
de tamaño 2
Medias
muestrales
Muestras
de tamaño 2
Medias
muestrales
4,4
4,6
4,8
4,10
4,12
6,4
6,6
6,8
6,10
6,12
8,4
8,6
8,8
4
5
6
7
8
5
6
7
8
9
6
7
8
8,10
8,12
10,4
10,6
10,8
10,10
10,12
12,4
12,6
12,8
12,10
12,12
9
10
7
8
9
10
11
8
9
10
11
12
13
Las medias muestrales obtenidas constituyen una nueva
variable aleatoria a la que llamaremos X .
X = {4, 5, 6, 7 , 8, 9, ..., 8, 9, 10, 11, 12}
La distribución de las medias muestrales viene dada por las
medias muestrales y sus probabilidades respectivas. Las
podemos ver en la tabla y gráfica siguientes:
De esta nueva variable X podremos obtener su media y su
desviación típica. A la media la llamaremos
desviación típica la llamaremos
µX =
µX
y a la
σX .
4 + 5 + 6 + 7 + ... + 12 200
=
= 8 años
25
25
Se puede concluir que la media de las medias muestrales, µX ,
coincide con la media de la población,
µ:
µX = µ
14
Si obtenemos quién es
σ y quién es σX
se verá que:
σ
n
σX =
Como vemos, la desviación típica de la distribución
correspondiente a las medias muestrales, se reduce al
aumentar el tamaño de las muestras. Por ello, cuanto mayor
sea el tamaño de la muestra, mejor será la inferencia
realizada acerca de la media poblacional. Esto es, cuanta
mayor información se extraiga de la población, más probable
será acertar sobre sus características.
Los resultados de los ejemplos anteriores se generalizan
para cualquier distribución según el siguiente teorema.
Teorema Central del Límite
Dada una población de media
µ
y desviación típica
σ,
no
necesariamente normal, la distribución de las medias de
las muestras de tamaño n:
• Tiene la misma media,
µ , que la población.
• Su desviación típica es
σ
n
y, por consiguiente,
disminuye al aumentar n.
• Cuando n ≥ 30

σ 
X ∼ N µ,

n

es prácticamente normal. Esto es:
15
Es importante señalar que este teorema es válido
cualquiera que sea la distribución de la población de
partida, tanto si es discreta como continua.
El grado de aproximación de la distribución de las medias
muestrales a la correspondiente normal depende del tipo
de partida y del valor de n.
- Si la población de partida es normal, también lo
será la distribución de las medias muestrales,
cualquiera que sea el valor de n. Es decir:
Si

σ 
X es N ( µ , σ ) ⇒ X es N  µ ,

n

- Aunque la población de partida no sea normal, la
distribución de las medias muestrales puede ser
muy parecida a la normal, incluso para valores
pequeños de n (como hemos visto en los ejemplos
anteriores), pero para n > 30 es seguro que se
consigue una gran aproximación a la normal
cualquiera que sea la distribución de partida.
16
Ejemplo 1
El tiempo que tardan los clientes en ser atendidos en un
cajero automático de un banco sigue una distribución normal
de media 3 minutos y desviación típica de 1,2 minutos. Se
observa una muestra aleatoria de 50 clientes. ¿Cuál es la
probabilidad de que el tiempo medio que estén en el cajero
no supere los tres minutos y medio?
X: tiempo que tardan los clientes en ser atendidos en un
cajero automático.
X es N (3, 1,2 )
µ = 3 minutos
σ = 1,2 minutos
Tenemos una muestra aleatoria de tamaño n = 50
X : tiempo medio de permanencia en un cajero
(
X es N µ X , σ X
)
µX = µ = 3
σX =
σ
n
=
1, 2
50
= 0,17
 X − 3 3, 5 − 3 
p X < 3, 5 = p 
<
 = p ( Z < 2, 94 ) =
 0,17
0,17


Z es N(0,1)
(
)
= F(2, 94) = 0, 9984
17
Ejemplo 2
Una máquina se encarga de llenar cajas de cereales. La
cantidad de cereales depositada en cada caja sigue una
distribución normal de desviación típica 25 g. ¿Cuál debe de
ser el peso medio del contenido de las cajas si, en una
muestra aleatoria de 100 cajas, la probabilidad de que el
peso medio sea superior a 505 g es de 0,023?
X: peso de las cajas de cereales.
X es N ( µ , 25 )
µ es desconocida
σ = 25 gramos
Tenemos una muestra aleatoria de tamaño n = 100
X : peso medio muestral
(
X es N µ X , σ X
)
µX = µ
σX =
σ
n
=
25
100
= 2,5
Tenemos que encontrar el valor de µ sabiendo que:
(
)
p X > 505 = 0, 023
 X − µ 505 − µ 

505 − µ 
0, 023 = p X > 505 = p 
>
 = pZ >
=
 2, 5

2,
5
2,
5




(
)
Z es N(0,1)
 505 − µ 
= 1 −F

 2, 5 
18
 505 − µ 
F
 = 1 − 0, 023 = 0, 977
2,
5


k
F (k ) = 0, 977
⇒
¿k ?
505 − µ
=2
2, 5
(Buscar en las tablas)
⇒
µ = 500 g
Ejemplo 3
La duración en minutos de las llamadas recibidas en un
despacho profesional tiene una duración media de µ = 3, 5
minutos y una desviación típica de σ = 1, 4 minutos. Un día
determinado se elige una muestra de 49 llamadas, ¿cuál es la
probabilidad de que la duración media oscile entre 3 y 4
minutos?
X: duración en minutos de las llamadas recibidas en un
despacho profesional.
X es una v. a. con µ = 3, 5 minutos y σ = 1, 4 minutos
Tenemos una muestra de tamaño n = 49
X : duración media muestral de las llamadas
(
Hemos de calcular p 3 < X < 4
)
Como n >30, podemos aplicar el Teorema central del límite, y
así tendremos que:
19


σ 
1, 4 
X ∼ N µ,
 = N (3, 5 , 0,2 )
 = N  3, 5 ,
n
49 


 3 − 3, 5 X − 3, 5 4 − 3, 5 
p 3 < X < 4 = p
<
<
 = p ( −2, 5 < Z < 2, 5 ) =
0,2
0,2
0,2


Z ∼ N(0,1)
(
)
= F(2, 5) − F( −2, 5) = F(2, 5) − 1 − F(2, 5)  = 2F(2, 5) − 1 =
= 2 ⋅ 0, 9938 − 1 = 0, 9876
Ejercicios: 5,6 y 10 pág. 294, 11 pág. 295
12.3.- EN QUÉ
INFERENCIAL
CONSISTE
LA
ESTADÍSTICA
Vamos a analizar tres situaciones:
PROBLEMA 1. Las estaturas de los soldados de un
regimiento tienen una media µ = 175 y una desviación típica
σ = 5 . ¿Cuál es la probabilidad de que la estatura media de
los 32 soldados que deben hacer guardia esa noche esté
comprendida entre 174,4 y 175,6 cm?
CONOCEMOS
La media µ de la
población. En el
regimiento: µ = 175
NOS PREGUNTAMOS
La media x de una
muestra. En una guardia:
¿ p 174, 4 ≤ x ≤ 175, 6 ?
(
)
20
PROBLEMA 2. La estatura media de los 32 soldados que han
sido seleccionados para hacer guardia es x = 175 cm. ¿Cuál
es la probabilidad de que la media, µ , de todos los soldados
del regimiento esté en el intervalo (174,4 , 175,6)?
CONOCEMOS
La media x de una
muestra. En una
guardia: x = 175
NOS PREGUNTAMOS
La media µ de la
población. En el
regimiento:
¿ p (174, 4 ≤ µ ≤ 175, 6 ) ?
PROBLEMA 3. Afirman que la media de las estaturas de los
soldados de un regimiento es µ = 175 . Para comprobarlo,
extraemos una muestra de 32 soldados y calculamos su
media, x = 175, 8 . Es razonable admitir la hipótesis de que
µ = 175 ?
CONOCEMOS
La media x de una
muestra: x = 175, 8
NOS PREGUNTAMOS
¿Es admisible la
afirmación de que
µ = 175 ?
En el PROBLEMA 1, conocemos la población. A partir de
ahí pretendemos deducir el comportamiento de las
muestras. Esto lo hemos aprendido a hacer en el
apartado anterior, basándonos en el teorema central del
límite.
En el PROBLEMA 2, conocemos una muestra y, a partir
de ella, pretendemos deducir aspectos de la población.
En concreto, pretendemos inferir el valor de la media
21
de la población a partir del conocimiento de la media de
una muestra.
Este es el típico problema de estadística inferencial:
estimar el valor de un parámetro de la población a
partir de una muestra. Nos dedicaremos a él en el resto
de esta unidad.
En el PROBLEMA 3, tenemos una afirmación, una
hipótesis: la media de la población es µ = 175 . Pero no
tenemos garantías de que sea cierto. Para contrastarlo,
extraemos una muestra y, a partir de su resultado,
x = 175, 8 , debemos decidir si la hipótesis es o no
admisible.
Este problema es otra situación de estadística
inferencial: la teoría de la decisión (contrastes de
hipótesis) que trataremos en la unidad 14.
Estimación puntual
Desconocemos los cocientes intelectuales de los alumnos de
una universidad, pero disponemos de los datos de una
muestra de 200 de estos individuos.
Calculamos x = 108 (media del cociente intelectual de los
individuos de la muestra).
Parece razonable estimar que la media µ de la población
será, aproximadamente, igual que la media de la muestra,
108. Pero, ¿cómo de aproximadamente?
Los parámetros de la población se pueden estimar a partir de
los de la muestra. Así:
22
• La media muestral, x , sirve para estimar la media
poblacional, µ .
• La desviación típica muestral, s, es un estimador de la
desviación típica poblacional, σ .
La estimación puntual (el valor de µ es aproximadamente x ),
sirve de poco mientras desconozcamos cuál es el grado de
aproximación de x a µ . Por ese motivo se procede a la
estimación mediante un intervalo.
Estimación por intervalos
A partir de una muestra aleatoria de tamaño n, podemos
estimar el valor de un parámetro de la población del
siguiente modo:
• Dando un intervalo dentro del cual confiamos que esté
el parámetro. Se llama intervalo de confianza.
• Hallando la probabilidad de que tal cosa ocurra. A dicha
probabilidad se la llama nivel de confianza.
En este curso sólo haremos estimaciones referentes a la
media (en lo que queda de esta unidad) y a la proporción (en
la unidad 13), de modo que haremos aseveraciones del
siguiente tipo:
- Estimamos, con un nivel de confianza del 95%, que
los ingresos medios mensuales de esta población
están comprendidos entre 956 € y 1040 €.
- El intervalo de confianza de la proporción de
daltónicos de esta población es (0,023 , 0,031), y
esto lo sabemos con un nivel de confianza del 99%.
23
Cuanto mayor sea el tamaño de la muestra, mayor eficacia
tendremos en nuestra estimación. Esta eficacia se
manifiesta de dos formas:
- En el tamaño del intervalo (cuanto más pequeño,
más precisos estamos siendo).
- En el nivel de confianza (más nivel de confianza
significa más seguridad en la estimación).
Tamaño de la muestra, longitud del intervalo y nivel de
confianza son tres variables estrechamente relacionadas que
manejaremos continuamente a lo largo de la unidad.
En cada caso deberemos obtener una de ellas después de
haber fijado las otras dos.
En el siguiente apartado estudiaremos con más detalle los
conceptos de intervalo de confianza y nivel de confianza.
12.4.- INTERVALO
CONFIANZA
DE
CONFIANZA,
NIVEL
DE
La estimación por intervalo de un parámetro poblacional
consiste en determinar, basándose en la información de la
muestra, un intervalo en el cual probablemente se encuentre
dicho parámetro. Este intervalo suele ir acompañado de una
medida que refleja la confianza que se tiene acerca de que el
verdadero valor del parámetro se encuentra en dicho
intervalo, y se llama nivel de confianza.
Por ejemplo, si la dueña de una tienda estima que el gasto
medio diario de sus clientes se encuentra entre 5 y 7 €,
24
entonces la estimación realizada es mediante el intervalo
(5,7).
Si este intervalo está dado con un nivel de confianza, por
ejemplo, del 90%, se está expresando que la dueña de la
tienda confía en un 90% en que el gasto medio de sus
clientes se encuentra entre 5 y 7 €.
El nivel de confianza, expresado en tanto por uno, se
designa por 1 − α , e indica la confianza que se tiene acerca
de que el verdadero valor del parámetro se encuentra en
dicho intervalo.
Un nivel de confianza de 0,90 o del 90% indica que, si se
construyen todos los intervalos de confianza posibles, el
90% de ellos contendrán el verdadero valor del
parámetro que se desea estimar, y, por tanto, un 10% de
los intervalos no lo contendrán.
Ahora bien, si se toman 100 muestras aleatorias de tamaño n
de una misma población y se calculan los límites de confianza
para cada muestra, se espera que el 90% de los intervalos
así construidos contengan el verdadero valor del parámetro,
y el 10% restante no lo contengan.
Pero en la práctica sólo se dispondrá de un intervalo de
confianza y no se sabe si está dentro de los del 90% o de los
del 10%. Por eso se habla de un nivel de confianza del 90%.
25
Ejercicio:
Supóngase que los intervalos (3,2, 6,5) y (2,9, 6,8) son
intervalos de confianza del 95 y del 99% de un parámetro de
la población. ¿Qué interpretación se puede dar a cada uno de
ellos?
Llamamos intervalo de confianza al intervalo que, con una
cierta probabilidad contenga el parámetro que se está
estimando.
Llamamos nivel de confianza a la probabilidad de que el
intervalo de confianza contenga al verdadero valor del
parámetro. Se le denota por 1 − α .
26
A cada nivel de confianza le corresponde un zα llamado valor
2
crítico correspondiente a la distribución normal N(0,1) y que
cumple:


p  −zα ≤ z ≤ zα  = 1 − α
2 
 2
Ejemplo
Calculemos el valor crítico correspondiente a un nivel de
confianza del 99%.
1 − α = 0, 99
⇒
α = 0, 01
⇒
α 0, 01
=
= 0, 005
2
2


p  −zα ≤ z ≤ zα  = 1 − α = 0, 99
 2
2 


p  Z ≤ zα  = 0, 995

2 
⇒
zα = 2, 575
2
27
Ejercicio
a) Calcular el valor crítico correspondiente a un nivel de
confianza del 95%.
b) Completar la siguiente tabla:
Niveles de
confianza
Valores críticos:
zα
2
99,73%
99%
98%
96%
95,45%
95%
90%
80%
68,27%
50%
12.5.- INTERVALO DE CONFIANZA PARA LA MEDIA
µ DE UNA POBLACIÓN CON DESVIACIÓN TÍPICA σ
CONOCIDA:
Población normal:
Consideremos una población que sigue una distribución
normal N(µ , σ) con desviación típica conocida. Se toma una
muestra aleatoria de tamaño n y se obtienen una media
muestral x .
Se desea encontrar un intervalo que tenga un nivel de
confianza 1 − α de contener a la media µ de la población.
28
Vimos anteriormente que a cada nivel de confianza 1 − α le
corresponde un zα llamado valor crítico correspondiente a la
2
distribución normal N(0,1) que cumple:


p  −zα ≤ z ≤ zα  = 1 − α
2 
 2
σ 

X es N  µ ,

n

⇒
Z=
X−µ
es N(0,1)
σ
n




x−µ
p  −zα ≤
≤ zα  = 1 − α
σ
2 
 2
n



σ
σ 
p  −zα ⋅
≤ x − µ ≤ zα ⋅
 =1−α
n
n
 2
2


σ
σ 
p  −x − zα ⋅
≤ −µ ≤ −x + zα ⋅
 =1−α
n
n

2
2

σ
σ 
p  x + zα ⋅
≥ µ ≥ x − zα ⋅
 =1−α
n
n

2
2


σ
σ 
p  x − zα ⋅
≤ µ ≤ x + zα ⋅
 =1−α
n
n

2
2

29
Por tanto, el intervalo para la media poblacional µ a un
nivel de confianza 1 − α es:

σ
 x − zα ⋅
n

2
,
σ 
x + zα ⋅

n
2

Ejemplo
Una máquina se encarga de llenar cajas de cereales de 500 g.
El peso de estas cajas sigue una distribución normal con
desviación típica de 4 g. En una muestra aleatoria simple de
50 cajas se obtuvo un peso medio de 498 g. Hallar un
intervalo de confianza del 95% para el peso medio de todas
las cajas llenadas por esa máquina.
La población sigue una distribución N ( µ , 4 ) , y la muestra de
tamaño n = 50 tiene una media muestral x = 498 g . Si el nivel
de confianza es 0,95, entonces:
1 − α = 0, 95
⇒
α = 0, 05
⇒
α 0, 05
=
= 0, 025
2
2
30


α
p  Z ≤ zα  = 1 − = 1 − 0, 025 = 0, 975
2

2 
El intervalo para la media poblacional
confianza del 95 % es el siguiente:
⇒
zα = 1, 96
2
µ
con un nivel de

4
4 
σ
σ  
x
−
z
⋅
,
x
+
z
⋅
, 498 + 1,96 ⋅

α
α
 =  498 − 1,96 ⋅
=
n
n
50
50


2
2
 
= ( 498 − 1,11 , 498 + 1,11 ) = ( 496,89 , 499,11 )
Se tiene el 95% de confianza de que el peso medio de las
cajas de cereales se encuentre entre 496,89 y 499,11
gramos. Además, se sabe que el 95% de todos los intervalos
de confianza construidos contendrán el verdadero valor de
µ.
Ejercicio
El salario, en miles de euros, de los empleados de una
multinacional, es una variable normal de media µ y desviación
típica 0,3. Se toma una muestra aleatoria simple de 36
empleados para los que se obtiene un sueldo medio de 2230
€. Se pide:
31
a) Determina un intervalo de confianza para µ a un nivel
de confianza igual a 0,90.
b) Halla la amplitud del intervalo de confianza si el nivel de
confianza es igual a 0,99.
Población no normal (n>30):
Como n>30, sabemos que por el Teorema central del límite
σ 
X−µ

que X ∼ N  µ ,
 . Por tanto, Z = σ ∼ N(0,1) .
n

n
El intervalo aproximado para la media poblacional µ a un
nivel de confianza 1 − α es el mismo que para una
población normal. Esto es:

σ
x
−
z
⋅

α
n

2
,
x + zα ⋅
2
σ 

n
Ejemplo
Una muestra de 49 automóviles de una empresa de alquiler
dio como resultado que por término medio recorren 140 km a
la semana. Por experiencias de otras ocasiones se sabe que
el número de kilómetros semanales recorridos por toda la
flota de automóviles tiene una desviación típica de 30 km.
Construir un intervalo con un nivel de confianza de 0,95 para
la media poblacional, es decir, para el número medio de
kilómetros semanales recorridos por toda la flota de
automóviles.
32
Se tienen los siguientes datos:
Muestra
Población
n = 49 automóviles
µ?
x = 149 km
σ = 30 km
1 − α = 0, 95
Nivel de confianza:
α 0, 05
⇒ α = 0, 05 ⇒
=
= 0, 025
2
2


α
p  Z ≤ zα  = 1 − = 1 − 0, 025 = 0, 975
2
2 

⇒
zα = 1, 96
2
El intervalo para la media poblacional µ con un nivel de
confianza del 95% es el siguiente:

σ
σ  
30
30 
x
−
z
⋅
,
x
+
z
⋅
=
140
−
1,
96
⋅
,
140
+
1,
96
⋅

α
α
 
=
n
n
49
49


2
2
 
= (140 − 8, 4 , 140 + 8, 4 ) = (131,6 , 148, 4 )
Se tiene el 95% de confianza de que el número medio de
kilómetros recorridos a la semana por toda la flota estará
comprendido entre 131,6 y 148,4.
33
Ejercicio 1
Una empresa que se dedica al transporte de viajeros por
carretera entre Madrid y Alicante, sabe que la duración del
trayecto se distribuye según una distribución de desviación
típica 15 minutos. Sabiendo que el tiempo medio que tardan
en realizar ese trayecto 64 autobuses es de 3 horas y 45
minutos, obtener un intervalo de confianza del 90% para el
tiempo medio del trayecto.
Ejercicio 2
Una población
σ = 3 . En una
media x . Si
poblacional es
utilizó?
sigue una distribución con desviación típica
muestra de tamaño n = 100 se obtuvo una
el intervalo de confianza para la media
(14,30 , 15,70), ¿qué nivel de confianza se
12.6.- INTERVALO DE CONFIANZA PARA LA MEDIA
µ DE UNA POBLACIÓN CON DESVIACIÓN TÍPICA
DESCONOCIDA (muestras grandes n>30):
Cuando σ no es conocida, para poder obtener el intervalo de
confianza para la µ , utilizaremos la desviación típica de la
muestra. La llamaremos s.
2
s=
∑ ( xi − x )
n −1
Así, el intervalo aproximado para la media poblacional µ
con un nivel de confianza 1 − α será:
34

s
x
−
z
⋅

α
n

2
,
x + zα ⋅
2
s 

n
Ejercicio
La vida media de una muestra de 121 bombillas es de 3000
horas y la desviación típica es de 220 horas. Calcula un
intervalo de confianza para la media poblacional con un nivel
de confianza del 99%.
12.7.- RELACIÓN ENTRE NIVEL DE CONFIANZA,
ERROR ADMISIBLE Y TAMAÑO DE LA MUESTRA
El tamaño de la muestra influye en la precisión del intervalo
y en la probabilidad de error que se cometa en la estimación.
En determinadas circunstancias, para un nivel de confianza
dado, interesa fijar la amplitud del intervalo de confianza o
bien fijar el máximo error que se está dispuesto a cometer.
Pues bien, estas cuestiones se pueden controlar
determinando el tamaño muestral necesario.
Tamaño de la muestra para estimar la media µ de una
población con σ conocida:
El intervalo de confianza para la media µ en una población
con σ conocida es:

σ
x
−
z
⋅
α

n

2
,
σ 
x + zα ⋅

n
2

35
σ
, tendremos que el máximo error de la
n
2
estimación viene dado por:
Como x − µ < zα ⋅
E = zα ⋅
2
σ
n
Despejando n de esta última igualdad, se obtiene el tamaño
muestral para cometer un error prefijado en la estimación:
n ⋅ E = zα ⋅ σ
⇒
n ⋅ E2 = zα 2 ⋅ σ2
2
2
zα 2 ⋅ σ2
n=
2
E2
36
Ejemplo
El cociente intelectual, CI, de una determinada población se
distribuye según una ley normal de media µ desconocida y
desviación típica σ = 10 . Encontrar el tamaño muestral
necesario para obtener un intervalo, con un nivel de
confianza del 98%, para el cociente intelectual medio µ de la
población considerada, de tal forma que el máximo error
cometido en la estimación sea 3.
E =3
σ = 10
Coeficiente de confianza: 1 − α = 0, 98
1 − α = 0, 98
⇒
α = 0, 02


α
p  Z ≤ zα  = 1 − = 0, 99
2

2 
zα 2 ⋅ σ2
n=
2
E2
⇒
⇒
α 0, 02
=
= 0, 01
2
2
zα = 2,33
2
2,332 ⋅ 102
=
= 60,32
32
Aproximadamente se necesita seleccionar una muestra de
tamaño n = 61.
37
Tamaño de la muestra para estimar la media µ de una
población con σ desconocida (n>30):
El intervalo de confianza para la media µ era en este caso:

s
 x − zα ⋅
n

2
,
x + zα ⋅
2
s 

n
Razonando como antes, el error máximo al hacer la
estimación será:
E = zα ⋅
2
s
n
z α 2 ⋅ s2
n=
2
E2
Ejercicio
Un sociólogo está estudiando la duración del noviazgo en un
área rural. Para ello seleccionó una muestra aleatoria
formada por 56 familias y obtuvo que la duración media de
su noviazgo fue de 3,4 años, con una desviación típica de 1,2
años.
a) Halla un intervalo de confianza para la duración media
del noviazgo de la población de familias del área rural
considerado al nivel de confianza del 95%.
b) ¿Cuál debería ser el tamaño de la muestra para estar
seguro, al nivel de confianza del 90%, de que el error
máximo cometido es 0,05?
Ejercicios: 23, 28 y 30 pág. 296, 31 pág. 297.
38
Descargar