MUESTREO E INFERENCIA ESTADISTICA-ByN-Pro

Anuncio
MUESTREO E INFERENCIA ESTADISTICA
1.- INTRODUCCIÓN
Llamaremos población a cualquier conjunto de elementos, sean personas o cosas, del que
se quiere estudiar alguna característica. Normalmente no es posible estudiar una
característica en toda la población, y hay que recurrir a una parte o subconjunto de la
población que se le llama muestra.
La Inferencia es la parte de la estadística encargada de estudiar métodos para a partir de
la información que nos suministra una muestra obtener conclusiones generales del
comportamiento de la población o poblaciones objeto de investigación. Es una parte muy
amplia de la Estadística, por tanto solamente podremos dar unas nociones básicas.
2.- MUESTREO
El muestreo se encarga de cómo hay que elegir la muestra para que los resultados sean
extrapolables a toda la población, de forma que cometamos el menos error posible.
 TIPOS DE MUESTREO
Podemos distinguir varios tipos de muestreo. Los más destacados son los siguientes:

 Atendiendo a la manera de elegir los elementos de la muestra podemos distinguir:
 Muestro aleatorio o probabilistico: Si cada individuo de la población tiene la misma
posibilidad de ser elegido para formar parte de la muestra.
 Muestreo no aleatorio: Puede depender de la subjetividad del que elige la muestra
(intencional u opinático) o ya sea porque se elige la muestra por razones de comodidad
(sin norma).
El muestreo puede ser además con o sin reemplazamiento según que un mismo individuo
pueda formar parte en la muestra más de una vez. El mas utilizado es el muestreo aleatorio,
dentro del cual podemos distinguir los siguientes tipos:

 Muestreo Aleatorio Simple: Se realiza tomando los n elementos de la muestra al azar
con reemplazamiento. Es el más importante y utilizado.

 Muestreo Sistemático: Consiste en elegir un elemento al azar y los siguientes n – 1
N
elementos se eligen de k en k sumando la fracción
(fracción de muestreo).
n
 Por ejemplo: Queremos elegir 5 elementos de 100, como f  100 5  20 es la fracción
de muestreo, números los individuos del 1 al 100 y sorteamos un número entre los 20
primeros, si sale 7 los elegidos serán 7, 27, 47, 67, y 87.

 Muestreo estratificado: Se divide a la población en estratos o subgrupos homogéneos.
Se llama afijación al reparto del tamaño de la muestra entre los diferentes estratos,
pudiendo ser uniforme (todos los estratos tienen el mismo número de elementos en la
muestra) o proporcional (cada estrato tiene un número de elementos en la muestra
proporcional a su tamaño).
 Por ejemplo: Si decidiéramos hacer un estudio sobre la incidencia del tabaco en nuestro
centro, podríamos razonar de la siguiente forma:
Nuestro centro tiene 2000 alumnos, y los podemos dividir en cuatro estratos, 720 en 3º de
ESO, 700 en 4º de ESO, 340 en 1º de Bachillerato, y 240 en 2º de Bachillerato. Si
deseamos tomar una muestra de 100 alumnos, bastaría tomar un número igual de alumnos
de cada estrato, es decir 25, si utilizamos afijación uniforme.
Sin embargo, es más representativo elegir de cada estrato, y en número proporcional a su
tamaño, los elementos que compondrán la muestra, mediante una afijación proporcional.
Si 3º de ESO representa al 36% del alumnado, el 36% de la muestra (es decir 36 alumnos)
se elegirán de este estrato por muestreo aleatorio simple, 35 para 4º de ESO, y así hasta
completar los 100 elementos de la muestra.
Ejercicio:
En un instituto de enseñanza secundaria en que se ofertan los siguientes tipos de enseñanza:




Ciclos de grado superior: 110 alumnos.
Bachillerato: 162 alumnos.
Ciclos de grado medio: 210 alumnos
2º ciclo de enseñanza secundaria obligatoria: 338 alumnos.
Se pretende valorar las faltas de ortografía que cometen los alumnos del centro mediante
una prueba-dictado de un texto. La prueba se pasará a una muestra de 50 alumnos, para
minimizar el costo en tiempo y medios. Decide, mediante el muestreo estratificado con
afijación proporcional, el tamaño de la muestra que debemos tomar de cada estrato.
Dividimos la población en cuatro estratos: ciclos de grado superior, ciclos de grado medio,
bachillerato y 2º ciclo de enseñanza secundaria obligatoria. Como el número total de alumnos
son 820 y la muestra debe estar formada por 50 alumnos, el cálculo del número de alumnos
que se han de tomar de cada estrato es:
110
7
Ciclos de grado superior: 50·
820
210
 13
Ciclos de grado medio: 50·
820
162
 10
Bachillerato: 50·
820
2º ciclo de Enseñanza Secundaria
338
 20
Obligatoria: 50·
820
3.- ESTIMACION PUNTUAL Y POR INTERVALOS DE
CONFIANZA
Hay que tener en cuenta que los datos que obtenemos a partir de una muestra no son los
de la población y que por lo tanto los parámetros obtenidos son estimaciones de los reales.
Existen dos formas de estimar los valores de los parámetros poblacionales: mediante la
estimación puntual se dan valores aproximados de los parámetros de la población mientras
que la estimación por intervalos de confianza proporciona, a partir de la información
recogida en la muestra, un intervalo que contenga con una determinada probabilidad al
parámetro objeto de nuestro interés.
A la hora de la notación, hay que distinguir entre los parámetros de la población (o
reales) y los de la muestra (estimaciones), aunque normalmente se llaman parámetros
solamente a los de la población y estadísticos a los de la muestra. Se utilizan las letras
griegas μ para la media y  para la desviación típica de la población, mientras que para la
media de la muestra utilizamos x y para la desviación típica  x .
3.1.- ESTIMACIÓN PUNTUAL
 DISTRIBUCIÓN MUESTRAL DE MEDIAS
Notaremos por X a la variable aleatoria que asigna a cada muestra su media muestral. Si
tomamos una muestra aleatoria simple de una población el valor esperado para la media
muestral (media de las medias) es la media de la población μ y la desviación típica de la
media muestral es

n
.
 Por ejemplo: Consideremos una población formada por cuatro estudiantes y las notas que
obtuvieron en el ultimo examen: 8, 9, 5 y 6.

La media de esta distribución es:

8956
7
4
y la desviación típica
(8  7)2  (9  7) 2  (5  7) 2  (6  7) 2
10
5
.


4
4
2
Si ahora consideramos todas las muestras de tamaño dos y las medias de estas muestras,
obtenemos una nueva variable X , que viene expresada en la tabla:
Muestra 8-8 8-9 8-5 8-6 9-8 9-9 9-5 9-6 5-8 5-9 5-5 5-6 6-8 6-9 6-5 6-6
Media
8
8.5 6.5 7
8.5 9
7
7.5 6.5 7
5
5.5 7
7.5 5.5 6
Su media seria igual a la media poblacional:
x 
8  8.5  6.5  7  8.5  9  7  7.5  6.5  7  5  5.5  7  7.5  5.5  6
7
16
Su desviación típica es igual a la desviación típica poblaciones dividida entre
x 
n:
52 
(8  7)2  (8.5  7)2  ...  (6  7)2
20
5
.




16
16
4
2
n
Además, se puede afirmar que si la población de partida sigue una distribución normal
N (  ,  ) la distribución de las medias sigue también una N (  ,
tipificada Z 

n
) y por tanto la variable
X 
tiene una distribución normal estándar.
 n
A partir del Teorema Central del Límite podemos deducir que cuando tomamos una
muestra de tamaño suficientemente “grande” podemos considerar que la media muestral
sigue una distribución normal N (  ,

) . Lo más importante de este resultado es que no
n
depende de que la distribución de la población sea normal o no.
En la práctica se admite que cualquier muestra en la que n  30 puede considerarse
“grande” y se utiliza la normal.
Ejercicios:
Los estudiantes de un instituto dedican una media de 250 minutos al día de estudio, con una
desviación típica de 50. Tomamos una muestra de 49 alumnos. Calcula la probabilidad de
que la media del tiempo que dedican los alumnos al estudio se encuentre entre 249 y 251
minutos. Calcula la misma probabilidad si la muestra que tomamos es de tamaño 400.
Sabemos que la distribución muestral de medias, para tamaños “grandes” de la muestra sigue

50
)  N (250, ) . La probabilidad que nos piden es:
una distribución normal N (  ,
7
n
P(249  X  251)  P(0,14  Z  0,14)  2P(Z  0,14) 1  0,1114 . Si ahora la muestra es
de tamaño 400, la variable aleatoria X se distribuye según N (250, 2´5) ; y la probabilidad
que nos piden es: P(249  X  251)  P(0, 4  Z  0, 4)  2P(Z  0, 4) 1  0,3108 .
La distribución de las calificaciones de los alumnos de 2° de bachillerato tiene una media de
5’5 puntos y una desviación típica de 3 ¿Cuál es la probabilidad de que la media de una
muestra de 40 alumnos sea menor que 5?
Sabemos que como n = 40 la variable aleatoria de las medias sigue una normal
3
X  N (5´5,
)  N (5´5, 0´47) , por lo tanto
40
5  5´5
P( X  5)  P( Z 
)  P( Z  1´06)  1  P( Z  1´06)  1 0´8554  0´1445 .
0´47
 DISTRIBUCIÓN MUESTRAL DE PROPORCIONES
Supongamos que queremos estudiar en una determinada población una variable aleatoria
discreta que solo puede tomar dos valores éxito y fracaso con una probabilidad de éxito p. Lo
que tratamos de estimar es qué proporción de esta población tiene uno de estos dos valores.
Notaremos por P̂ a la variable aleatoria que nos mide la proporción de individuos que
toman uno de esos valores. Podemos deducir entonces que si el tamaño de la muestra es
suficientemente grande la distribución muestral de la proporción sigue una normal
p(1  p)
N ( p,
).
n
Esta aproximación es tanto mejor cuanto mayor sea n y más próximo sea p a 0,5.
 Por ejemplo: El porcentaje de familias españolas con un solo hijo es del 20 %. Si
consideramos una muestra de 1000 familias, calcula la probabilidad de que el menos el 21 %
de estas familias tenga un solo hijo.
En este caso, n = 1000 y p = 0,2; por tanto la variable aleatoria que mide las proporciones P̂
0´2·0´8
sigue una distribución normal N (0´2,
)  N (0´2, 0´0126) .
1000
0´21  0´2
)  1  P( Z  0´79)  0, 2148.
Luego P( Pˆ  0´21)  1  P( Z 
0´0126
3.2.- ESTIMACIÓN POR INTERVALOS DE CONFIANZA
Ya dijimos que un intervalo de confianza es un intervalo en el que sabemos que se
encuentra un parámetro con un nivel de confianza (probabilidad de que el parámetro a
estimar se encuentre en el intervalo de confianza) especifico. El nivel de confianza lo
notaremos por 1   .
Llamaremos error de estimación ( e ) al radio de anchura del intervalo de confianza. Este
valor nos dice en qué margen de la media muestral se encuentra la media poblacional al nivel
de confianza asignado.
 INTERVALO DE CONFIANZA PARA LA MEDIA
Para calcular el intervalo de confianza para la media de la población en el caso de una
población con media desconocida y desviación típica conocida, a partir de un nivel de
confianza determinado 1   , llamaremos z 2 al valor de la distribución normal estándar
N (0,1) tal que P( z 2  Z  z 2 )  1   .
 Por ejemplo: Si 1    0´95 , entonces

 0, 025 . Luego si z 2 deja a su derecha un
2
área igual a 0,025, a su izquierda dejará un área igual a 1 - 0,025 = 0,975, y buscando en las
tablas de la N (0,1) , tenemos que z 2  1,96 .
En este caso, n = 1000 y p = 0,2; por tanto la variable aleatoria que mide las proporciones P̂
0´2·0´8
sigue una distribución normal N (0´2,
)  N (0´2, 0´0126) .
1000

 

El intervalo de confianza para la media de la población μ es:  x  z 2
, x  z 2
.
n
n

El error máximo que cometemos por tanto con esta estimación sería e  z 2

. A partir
n
de esta expresión podemos determinar el tamaño de la muestra mínimo para cada nivel de
2
 z 2   
confianza: n  
 .
e


 Por ejemplo: Para estimar el número medio de hijos de las familias españolas,
consideramos una muestra de 1000 personas y encontramos que esta muestra tiene una media
de 2,1 hijos y una desviación típica de 0,5. Calcula un intervalo de confianza al 99% para la
media de hijos de las familias españolas.
Si 1    0´99 , entonces

 0, 005 . Luego si z 2 deja a su derecha un área igual a 0,005, a
2
su izquierda dejará un área igual a 1 - 0,005 = 0,995, y buscando en las tablas de la N (0,1) ,
tenemos que z 2  2,575 .
0´5
0´5 

Por lo tanto el intervalo buscado es  2´1  2´575
, 2´1  2´575
  (2´0592, 2´1408)
1000
1000 

 INTERVALO DE CONFIANZA PARA LA PROPORCIÓN
De igual forma, podemos construir un intervalo de confianza para la proporción a un

p(1  p)
p(1  p) 
, p  z 2
nivel de confianza 1   de la siguiente forma:  p  z 2
 .
n
n


El error máximo que cometemos con esta estimación sería e  z 2
p(1  p)
.
n
Ejercicios:
1.- Sabemos que el tiempo medio de espera en las colas de un banco es de 15 min. Con una
desviación típica de 5 minutos. Si tomamos al azar un grupo de 35 clientes:
a) ¿Cuál es la probabilidad de que el tiempo medio de espera del grupo fuera menos de 17
minutos? ¿Cuál es la probabilidad de que estuviera entre 12 y 16 minutos?
b) ¿Entre qué valores se encontraría el tiempo medio con una seguridad del 95%? ¿Y del
99%?
Sabemos que la distribución muestral de medias sigue una distribución normal
5
N (15,
)  N (15, 0´845) . Por lo tanto:
35
P( X  17)  P( Z 
17  15
)  P( Z  2´36)  0.9909 .
0´845
P(12  X  16)  P(3,55  Z  1,18)  P(Z  1,18)  (1  P(Z  3,55))  0,8810 1 0,9998  0,8808
Los intervalos de confianza pedidos son:
5
5 

Al 95%: 15  1´96
,15  1´96
  (13´35,16´65) .
35
35 

5
5 

Al 99%: 15  2´575
,15  2´575
  (12´82,17´17) .
35
35 

2.- En la tabla siguiente se muestran los pesos en gramos de 16 cajas de cereal
seleccionadas en un proceso de llenado con el propósito de verificar el contenido medio:
506
514
508
505
499
493
503
496
504
506
510
502
497
509
512
496
Si el peso de cada caja es una variable aleatoria normal con una desviación estándar =5
gramos, obtener para la media μ los intervalos de confianza estimados para los niveles de
confianza 90%, 95% y 99%.
Los intervalos para cada uno de los niveles de confianza son:
Confianza
90%
95%
99%
Valor de z 2
1,645
1,96
2,575
Límite inferior
501,69
501,30
500,53
Límite superior
505,81
506,20
506,97
3.- El Ayuntamiento de Granada, para planificar su política social, ha hecho en un barrio
una encuesta, basada en un muestreo aleatorio a 36 adultos, sobre los ingresos medios
mensuales, obteniéndose 438 € de media y una desviación típica de 72 €. Estimar el valor
medio de los ingresos en dicho barrio con un intervalo de confianza del 95% y del 99% y
calcular el error que se comete.
Los intervalos de confianza que nos piden son:
72
72 

Al 95%:  438  1´96
, 438  1´96
  (414´18, 461´52) .
36
36 

72
72 

Al 99%:  438  2´575
, 438  2´575
  (407´1, 468´9) .
36
36 

4.- “El Corte Inglés” desea conocer cuanto gastan de media los poseedores de una de sus
tarjetas, a lo largo de un mes. Ha diseñado un muestra de 1000 clientes, y sabe por
experiencia que la desviación típica poblacional es de 150 €. Si desea tener una confianza
del 99% en la estimación, ¿cuál será el error máximo que cometerá?
El error que cometemos viene dado por e  z 2

n
 2´575
150
 12´21
1000
5.- Se desea establecer, con un nivel de confianza del 95%, el peso medio de las naranjas
de un barco que acaba de atracar, de forma que el error no sobrepase los 15 gramos. Si la
desviación típica (conocida por numerosos casos anteriores) es de 60 gr., ¿cuántas
naranjas deberán ser escogidas al azar para poder establecer dicha media?
Tenemos que: e  z 2

2
60
60 

 15  1´96
 n  1´96   61´46  n  62
15 
n
n

6.-En una muestra aleatoria de 1000 personas, están a favor del divorcio el 65%. Halla
con un 99% de confianza el intervalo para la proporción real en la población. En una
encuesta realizada un año antes nos había salido un 69% de favorables al divorcio. ¿Cae
este valor dentro del intervalo de la actual encuesta?
El
intervalo
de
confianza
para
la
proporción
es:

0´65·0´35
0´65·0´35 
, 0´65  2´575
 0´65  2´575
   0´612, 0´688  . El valor 0´69 no entra
1000
1000


dentro del intervalo de confianza.
7.- En un colegio hay 2000 alumnos distribuidos en 5 cursos así: 400 en primero, 380 en
segundo, 520 en tercero, 360 en cuarto y 340 en quinto. Se quiere seleccionar una muestra de
100 alumnos usando la técnica de muestreo aleatorio estratificado, con afijación proporcional
y considerando cada curso como estrato. ¿Como se seleccionaría esa muestra?
100
 20
De primero: 400·
2000
100
 19
De segundo: 380·
2000
100
 26
De tercero: 520·
2000
100
 18
De cuarto: 360·
2000
100
 17
De quinto: 340·
2000
8.- La altura de los individuos de una ciudad sigue una distribución normal de media 170 cm
y desviación típica 10 cm. Si tomamos una muestra de 25 individuos.
a) Halla la probabilidad la muestra tenga una altura media entre 158 cm. y 170 cm.
b) Halla la probabilidad de que la muestra tenga una altura media superior a 172 cm.
c) Halla un intervalo para las alturas, centrado en la media, que contenga al 90% de los
individuos.
Sabemos que la distribución muestral de medias sigue una distribución normal
10
N (170,
)  N (170, 2) . Por lo tanto:
25
P(158  X  170)  P(6  Z  0)  P(Z  0)  (1  P(Z  6))  0,5 1 1  0,5
P( X  172)  1  P( Z 
172  170
)  1  P( Z  2)  1  0´9772  0´0228 .
2
10
10 

El intervalo de confianza pedido es: 170  1´645
,170  1´645
  (166´71,173´29) .
25
25 

9.- Si las notas de Historia en las pruebas de acceso a la Universidad siguen una distribución
normal N(5, 2) y elegimos al azar una muestra de 100 estudiantes:
a) ¿Qué probabilidad hay de que la nota media en Historia de estos 100 alumnos esté entre
4´5 y 5?
b) Si la muestra hubiera sido de 1000 estudiantes, ¿qué probabilidad tendríamos de que la
nota media estuviera entre 4´5 y 5?
c) ¿Por qué es mayor el segundo resultado?
Sabemos que la distribución de medias sigue una distribución N (5,
2
)  N (5, 0´2) . Por lo
100
tanto: P(4´5  X  5)  P(2´5  Z  0)  P(Z  0)  (1 P(Z  2´5))  0,5 1  0´9938  0, 4938
2
)  N (5, 0´0632) ,
1000
entonces P(4´5  X  5)  P(7´9  Z  0)  0,5 . El segundo valor es más grande ya que cuanto
más grande es el tamaño de la muestra es más probable que la media de la muestra esté más
cerca de la media de la población de era 5.
Si cambiamos el tamaño de la muestra tendríamos una N (5,
10.- Un fabricante de bombillas sabe que la desviación típica de la duración de las bombillas
es de 90 horas. Tomada una muestra de tamaño 100, se encontró que la media era 1200
horas. Halla un intervalo, con el 95% de confianza, para la duración media de las bombillas.
El
intervalo
de
confianza
90
90 

,1200  1´96
1200  1´96
  (1182´36,1217´64) .
100
100 

pedido
es:
11.- Se ha tomado una muestra aleatoria de 100 individuos a los que se les ha medido el nivel
de glucosa en sangre, obteniéndose una media muestral de 110 mg/cc. Se sabe que la
desviación típica de la población es de 20 mg/cc.
a) Obtener un intervalo de confianza al 90% para el nivel de glucosa en sangre en la
población.
b) ¿Qué error máximo se comete en la estimación anterior?
20
20 

El intervalo de confianza pedido es: 110  1´645
,110  1´645
  (106´7,113´3) , y
100
100 

20
el error que cometemos es: e  1´645
 3´3 .
100
12.- La media de las estaturas de una muestra aleatoria de 400 personas es de 1,75 m. Se sabe
que las estaturas de las personas de esa ciudad es una variable aleatoria que sigue una
distribución normal con varianza  = 0´16 m2.
a) Construye un intervalo del 95% de confianza, para la media de las estaturas de la
población.
b) ¿Cual seria el mínimo tamaño muestral necesario para que pueda decirse que la verdadera
media de las estaturas está a menos de 2 cm de la media muestral con una confianza del
90%?
0´4
0´4 

El intervalo de confianza pedido es: 1´75  1´96
,1´75  1´96
  (1´71,1´79) , y el
400
400 

2
0´4
0´4 

tamaño muestral necesario es: 0´02  1´645
 n  1´645
  1082´41  n  1083
0´02 
n

13.- La media de la edad de los alumnos que se presentan a selectividad es de 18´1 años y la
desviación típica de 0´6 años.
a) De los alumnos anteriores se elige una muestra al azar una muestra de 100. ¿Cual es la
probabilidad de que la media de edad de la muestra esté comprendida entre 17.9 y 18.2 años?
b) ¿Qué tamaño ha de tener la muestra de esa población para que su media esté comprendida
entre 17´9 y 18´3 años con una confianza del 99,5 %?
0´6
)  N (18´1, 0´06) .
100
P(17´9  X  18´2)  0,951. El tamaño de la muestra necesario es:
Sabemos que la distribución de medias sigue una distribución N (18´1,
Por lo tanto:
e  z 2

n
2
 18´1  17´9  2´81
0´6
0´6 

 n   2´81   71´06  n  72
0´2 
n

14.- Se sabe que el tiempo de reacción a un determinado estímulo se distribuye según una ley
normal de media desconocida y desviación típica de 0.15 s. Observada una muestra de
tamaño 9, se ha obtenido una media muestral de 0.85 s.
a) Halla un intervalo de confianza para la media de la población con un nivel de confianza
del 99%.
b) Con qué nivel de confianza se debería construir un intervalo para la media de manera que
los límites de dicho intervalo fuesen 0´768 y 0´932?
0´15
0´15 

Al 99% de confianza el intervalo es:  0´85  2´575
,0´85  2´575
  (0´721,0´979) y
9
9 

0´15
el nivel de confianza 0´768  0´85  z 2
 z 2  1´64  1    90% .
9
15.- Las ventas mensuales de electrodomésticos de una tienda se distribuyen según una ley
normal de  = 550 euros. En un estudio de ventas de 9 meses se ha encontrado un intervalo
de confianza para la media mensual de ventas cuyos extremos son 2800 y 3520 euros.
a) ¿Cual ha sido la media de las ventas en estos nueve meses?
b) ¿Cual es el nivel de confianza de este intervalo?
La
media
es:
2800  3160  z 2
x
2800  3520
 3160
2
y
el
nivel
de
confianza
550
 z 2  1´96  1    95% .
9
16.- El tiempo de vida de un tipo de insecto sigue una distribución normal con media
desconocida y desviación típica de 25 días. Para estimar la vida media se hace un
seguimiento a la duración de la vida de una muestra de n insectos. Calcula el valor de n para
que el intervalo de confianza de esta media, con mi nivel de confianza del 95 %, tenga una
amplitud como máximo de 5 días.
La amplitud del intervalo viene dada por

25
A  2e  2 z 2
 5  2·1´96
 n  384´16  n  385
n
n
Descargar