Inferencia estadística. Estimación de una proporción

Anuncio
Unidad 13: INFERENCIA ESTADÍSTICA.
ESTIMACIÓN DE UNA PROPORCIÓN
INTRODUCCIÓN
En la unidad anterior aprendimos a estimar la media de una
población a partir de la media muestral, con la ayuda de la
distribución normal. Cabe señalar que esto sólo es posible
cuando la muestra de que se dispone es lo suficientemente
grande. Para muestras pequeñas, la curva normal falla y hay
que recurrir a otra distribución que no estudiaremos este
curso, llamada t de Student (Student era el seudónimo que
utilizaba su inventor, Gosset, un químico que trabajaba en la
fábrica de cerveza Guinness. Recurrió a un seudónimo
porque en su empresa no le permitían publicar resultados de
investigaciones científicas utilizando su propio nombre).
Pues bien, hay otros parámetros que, ocasionalmente, deben
ser estimados mediante muestras. En esta unidad nos
dedicaremos a uno de ellos: la proporción de individuos de un
colectivo que posee una cierta cualidad (o, lo que es
equivalente, la probabilidad de que ocurra un cierto suceso).
La distribución de las probabilidades de los distintos valores
de una proporción se realiza con la ayuda de la distribución
binomial y ésta, a su vez, puede ser sustituida en ciertos
casos por la normal. De modo que, también en esta unidad,
volveremos a hacer uso de la distribución normal para
realizar estimaciones.
1
13.1.- DISTRIBUCIÓN BINOMIAL. REPASO
TÉCNICAS BÁSICAS PARA EL MUESTREO
DE
Si en una experiencia aleatoria destacamos un suceso A y
prestamos atención, exclusivamente, a si ocurre A o su
contrario, A , se trata de un experiencia dicotómica. Al
suceso A se le suele llamar éxito, y a su probabilidad, p. La
probabilidad de su contrario es q.
()
Es decir, p ( A) = p , p A = 1 − p = q .
Ejemplo: Si el 3% de las personas son daltónicas y llamamos
A al suceso “una persona es daltónica”, se tiene p ( A) = 0, 03
()
y p A = 1 − 0, 03 = 0, 97 .
Distribución binomial
Se repite n veces una experiencia dicotómica. Nos
preguntamos por el número, x, de éxitos. La variable X es
una variable discreta y puede tomar los valores 0, 1, 2, 3,…, n
La distribución de probabilidad de la variable X se llama
distribución binomial B(n,p).
La probabilidad de que x tome el valor k es:
n 
p ( X = k ) =   pk qn −k
k 
p es la probabilidad de éxito en cada una de las experiencias.
n es el número de veces que se realiza la experiencia.
Los parámetros de esta distribución son µ = np , σ = npq
2
Si en el ejemplo anterior tomamos al azar 7 personas y nos
preguntamos por el número de ellas que son daltónicas,
entonces se trata de una distribución binomial con n = 7 y
p = 0, 03 . Es decir, X es B(7, 0,03).
7
p (2 daltónicas ) = p ( X = 2 ) =   0, 032 ⋅ 0, 97 5 = 0, 01623
2
Los parámetros de esta distribución son:
µ = np = 7 ⋅ 0, 03 = 0,21
σ = npq = 7 ⋅ 0, 03 ⋅ 0, 97 = 0, 4513
La distribución binomial se aproxima a la normal
Una distribución binomial se parece a una normal tanto más
cuanto mayor es el producto np (o nq si q < p ).
Cuando np y nq son ambos mayores que 3, la aproximación es
bastante buena. Y si superan a 5, la aproximación es casi
perfecta.
3
Naturalmente, la curva normal a la cual se aproxima la
binomial B(n, p) tiene la misma media µ = np y la misma
desviación típica σ = npq :
(
B(n, p) ≈ N np, npq
)
En la aproximación de ambas distribuciones hay que tener en
cuenta que la binomial es discreta y la normal, continua.
Cálculo de probabilidades en una binomial mediante la
aproximación a la normal
La variable X se distribuye B(n, p), µ = np , σ = npq .
(
)
La variable X’ se distribuye N np, npq .
Si np ≥ 5 y nq ≥ 5 , estas dos distribuciones son casi idénticas
salvo que X es discreta (toma valores 0, 1, 2, …, n) mientras
que X’ es continua. Esta diferencia se aprecia cuando
calculamos probabilidades, que hemos de averiguarlas del
siguiente modo:
p ( X = k ) p (k − 0, 5 < X' < k + 0, 5 )
El área de la parte gris, de base 1,
es aproximadamente igual a la longitud de la barra roja
4
Como X es discreta y toma valores puntuales: 0, 1, 2, …, k, …,
al pasar a X’ continua, se le asocia un intervalo unidad
centrado en el punto correspondiente:
p ( a ≤ X < b ) = p ( a − 0, 5 < X' < b − 0, 5 )
k → k − 0, 5 , k + 0, 5  
p ( a < X ≤ b ) = p ( a + 0, 5 < X' < b + 0, 5 )
Ejercicio resuelto 1 (pág. 301)
Una máquina fabrica tornillos. El 5% de ellos son
defectuosos. Se empaquetan en cajas de 400. Calcular la
probabilidad de que en una caja haya más de 30 defectuosos.
X: número de tornillos defectuosos en una caja de 400.
X es binomial con n = 400 y p = 0,05
B(400, 0,05)
Sus parámetros son:
µ = np = 400 ⋅ 0, 05 = 20
σ = npq = 400 ⋅ 0, 05 ⋅ 0, 95 = 4,36
La distribución X es muy parecida a una normal X’.
X’ es N(20, 4,36)
 X'− 20 30, 5 − 20 
p ( X > 30 ) p ( X' ≥ 30, 5 ) = p 
≥
=
4,36
4,36


Z es N(0,1)
= p(Z ≥ 2, 41) = 1 − F(2, 41) = 1 − 0, 9920 = 0, 008
5
Ejercicio 2 (pág. 301)
Si tenemos un dado correcto y lo lanzamos 50 veces:
a) ¿Cuál es la probabilidad de que “el 1” salga más de 10
veces?
b) ¿Cuál es la probabilidad de que salga “múltiplo de 3” al
menos 20 veces?
13.2.- DISTRIBUCIÓN
MUESTRALES
DE
LAS
PROPORCIONES
Supongamos que tenemos una población en la que vamos a
estudiar una determinada característica C. Llamaremos p a
la proporción de individuos que posee esa característica.
Si consideramos todas las posibles muestras de tamaño n
que se pueden extraer de esa población, en cada una de ellas
habrá una proporción, p , de individuos con esa
característica. Con estas p tenemos una nueva distribución,
la distribución de las proporciones muestrales.
La media y la desviación típica de esta distribución son:
µp = p
σp =
pq
n
Dem:
X = número de individuos de la muestra que tienen la
característica C.
6
X es B(n,p)
(
Si np ≥ 5 y nq ≥ 5 , entonces X ∼ N np, npq
)
número de individuos de la muestra con la característica C x
p =
=
número de individuos de la muestra
n
La distribución de p será como la de X, pero con los
parámetros media y desviación típica divididos por n. Por
tanto:

p ∼ N  np ,
n


npq 
pq 
 = N  p,



n 
n



Ejemplo
Se sabe que el 40% de los estudiantes de segundo de
Bachillerato de una determinada provincia son aficionados al
fútbol. Si se elige una muestra de 200 estudiantes, ¿cuál es
la probabilidad de que el porcentaje de aficionados de dicha
muestra oscile entre el 35 y el 45%?
n = 200
p = 0,4 (proporción de estudiantes de 2º de Bach. de una
determinada provincia que son aficionados al fútbol)
p ∼ N  µ = p, σ =


pq 

n 
σ=
0, 4 ⋅ 0, 6
= 0, 035
200
p ∼ N ( 0, 4 , 0, 035 )
7
 0,35 − 0, 4 p − 0, 4 0, 45 − 0, 4 
<
<
p 0,35 < p < 0, 45 = p 
=
0, 035
0, 035 
 0, 035
(
)
Z ∼ N(0,1)
= p ( −1, 43 < Z < 1, 43) = F(1, 43) − F( −1, 43) = F(1, 43) − [1 − F(1, 43) ] =
= 2F(1, 43) − 1 = 2 ⋅ 0, 9236 − 1 = 0, 8472
El porcentaje de aficionados al fútbol se encontrará entre el
35 y el 45% en aproximadamente el 84,72% de las muestras
de 200 estudiantes de segundo de Bachillerato de dicha
provincia.
Ejercicio 1
En una fábrica se sabe que el 70% de los trabajadores son
hombres. En una muestra aleatoria de 60 trabajadores, ¿qué
media y qué desviación típica tiene la distribución muestral
de la proporción de hombres seleccionados?
Ejercicio 2
Según los datos que maneja la asociación de empresarios de
una ciudad, el 20% de las personas realiza sus compras de
alimentación de forma habitual en pequeños comercios o
galerías comerciales de barrio, mientras que el 80% restante
lo hace en grandes superficies. En una muestra elegida al
azar de 50 personas, ¿cuál es la probabilidad de que la
proporción de personas que realicen sus compras en el
pequeño comercio sea:
8
a) superior al 25%;
b) inferior al 22%;
c) que esté comprendido entre el 17 y el 23%.
13.3.- INTERVALO DE CONFIANZA
PROPORCIÓN O UNA PROBABILIDAD
PARA
UNA
Considerada una población binomial con parámetro p y una
muestra aleatoria de tamaño n, se desea estimar mediante
un intervalo de confianza el parámetro poblacional p
mediante la información facilitada por la proporción
muestral p .
Sabemos que si n es grande:

p ∼ N  p,


pq 
n 

Como p es desconocido, se utiliza p como estimación puntual
de p, y así
p − p p − p
z=
∼ N(0,1)
pq
pq
n
n
Se demuestra que el intervalo de confianza para la
proporción poblacional p a un nivel de confianza 1 - α es:

pq
pq
 p − zα ⋅
, p + zα ⋅

n
n
2
2





9
Ejercicio 1
En una región se seleccionó aleatoriamente una muestra de
150 personas. A todas ellas se les preguntó si eran
fumadoras y 90 contestaron negativamente. Determina un
intervalo de confianza del porcentaje de fumadores de dicha
región con un nivel de confianza del 95 %.
Ejercicio 2
Para estudiar la proporción de estudiantes que practican
deporte, se pregunta a 300 de ellos, dando respuesta
positiva 189. Halla el intervalo de confianza del 98% para la
proporción.
13.4.- TAMAÑO DE LA MUESTRA PARA ESTIMAR LA
PROPORCIÓN p DE UNA POBLACIÓN
El intervalo de confianza para la proporción p de una
población con muestras grandes es:

pq
pq
 p − zα ⋅
, p + zα ⋅

n
n
2
2





10
Como p − p < zα ⋅
2
pq
, tendremos que el máximo error de la
n
estimación viene dado por:
pq
n
E = zα ⋅
2
zα 2 ⋅ pq
n=
2
E2
Ahora bien, esta expresión requiere un valor de p que, a
1
falta de otra información, se supondrá igual a .
2
Ejercicio 1
Se desea conocer el tamaño de una muestra para realizar un
sondeo para estimar la proporción de votantes del partido
político TOJU (TOdosJUntos), de tal forma que el máximo
error de la estimación sea de 0,05, y con una confianza del
95%.
11
E = 0, 05
n = ¿?
Nivel de confianza: 1 − α = 0, 95
⇒
zα = 1, 96
2
1
(Como no hay información, suponemos que p = q = )
2
zα 2 ⋅ pq
n=
2
E2
1, 962 ⋅ 0, 5 ⋅ 0, 5
=
= 384,16
0, 052
Por tanto, la muestra deberá contener al menos 385
personas.
Ejercicio 2
En una universidad se toma al azar una muestra de 100
alumnos y se encuentra que han aprobado todas las
asignaturas 62. Se pide:
a) Con un nivel de confianza del 95%, un intervalo para
estimar el porcentaje de alumnos que aprueban todas
las asignaturas.
b) A la vista del resultado anterior se pretende repetir la
experiencia para conseguir una cota de error de 0,03,
con el mismo nivel de confianza. ¿Cuántos individuos ha
de tener la muestra?
12
Descargar