Document

Anuncio
11. Muestreo
1
INFERENCIA ESTADÍSTICA
Proceso y resultado de extraer conclusiones
respecto a una población a partir de una o más
muestras.
obtención de la
muestra
conclusiones
P
M
2
¿Cuántos peces hay en un lago?
Pere Grima
[email protected]
Pesca-repesca / captura-recaptura
Si pudiéramos ver lo que hay
dentro...
Pescamos, marcamos y los
soltamos
“Capturem un cert nombre de peixos, no ho fem
pescant-los de la forma habitual, sinó que s’utilitzen
tècniques normalment amb descàrregues
elèctriques, que els deixa estabornits una estona i
suren a la superfície, i se’ls pot agafar, marcar-los i
deixar-los anar una altre vegada”. Pere Grima
15 peces
Los peces marcados se dispersan...
Volvemos a pescar
Hipótesis. Cálculos
Primera Muestra
Segunda Muestra
N: Número total de peces
C: Capturados
M: Marcados
R: Aparecen marcados
Estimación:
M R
=
N C
M·C
N̂ =
R
15·15
N̂ = 75
=
3
Si pudiéramos ver lo que hay dentro...
La realidad:
2
1
5
14
12
3
4
16
8
11
32
41
42
24
9
18
25
43
30
44
37
26
47
55
66
62
65
58
63
54
59
48
19
20
57
64
61
56
52
46 53
36
17
10
35
23
67
60
51
34
29
13
7
50
40
28
22
15
6
39
33
27
21
31
38
45
49
Hay 67 peces. Error del 12% sobre el valor real.
¿Qué significa que N está “alrededor de” 75? ¿Tenemos un buen
estimador? ¿Cuál es la calidad de la estimación si: N = 1000, M = 100, C =
100? ... Simulando 10.000 veces con Minitab:
Peces que se
hallan marcados
en la repesca
Frecuencia
absoluta
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
23
3
14
35
141
279
533
860
1183
1378
1454
1202
1066
744
494
296
170
75
46
16
10
1
Porcentaje
Porcentaje
acumulado
Estimación
tamaño
población
0,03
0,14
0,35
1,41
2,79
5,33
8,6
11,83
13,78
14,54
12,02
10,66
7,44
4,94
2,96
1,7
0,75
0,46
0,16
0,1
0,01
0,03
0,17
0,52
1,93
4,72
10,05
18,65
30,48
44,26
58,8
70,82
81,48
88,92
93,86
96,82
98,52
99,27
99,73
99,89
99,99
100
10000
5000
3333
2500
2000
1667
1429
1250
1111
1000
909
833
769
714
667
625
588
556
526
500
435
≅ 80 %
+ 429
- 231
Haciendo gráficos
80%
1400
1400
1200
1200
1000
1000
800
600
800
600
400
400
200
200
0
0
1
2
3
4
5
6
7
8
9 10 11 12 13 14 15 16 17 18 19 20 21 22 23
Peces que se hallan marcados en la repesca
7
80%
1600
Frecuencia
Frecuencia
1600
13
0
500
769
1000
1500
2000
Tamaño estimado
2500
3000
1429
M·C Es un estimador
N̂ =
R sesgado
ECOLOGÍA CON NÚMEROS.
Una introducción a la ecología con problemas y
ejercicios de simulación
Josep Piñol y Jordi Martínez-Vilalta. Lynx
Edicions. Bellaterra (Barcelona), 2006(pág. 49)
Marcaje y recaptura: Applet
¿Se puede mejorar?
¿Se puede calcular un estimador que no tenga sesgo?
¿Cómo varía la calidad del estimador al aumentar M y/o C?
¿Y si se hacen varias repescas?
Charles J. Kreps: “Ecological Methodology”. Ed.
Addison Wesley, 1999.
“How Many Fish are in the Pond?” de Roger W Johnson
(http://ts.rsscse.org.uk/gtb/contents.html )
(Selección de la revista Teaching Statistics).
Editado por William J. Sutherland: “Ecological Census
Techniques”.
Con bolas....
¿Cuantos garbanzos hay en 1 kg?
• Contarlos
• Pesar 100 y hacer
la proporción
• Pesca i repesca
¿Cuántos taxis hay en Barcelona?
http://www.taxibarcelona.cat/tabid/308/Default.aspx
Sin repesca....
¡Los taxis están numerados
correlativamente!
Sólo con la intuición...
Estás esperando un taxi bajo la lluvia. Ves como pasan 7 taxis ocupados
con los siguientes números:
16 28 45 48 68 72 81
Suponiendo que los taxis están numerados de 1 a N, y que todos están en
servicio. ¿Cómo usar la muestra anterior para estimar N, el número total de
taxis en la ciudad?
Tamaño de la población: N
Media:
N 2X − 1
=
X
Mediana:
Ejemplo:
1, 2, 3, 4, 5, 6, 7, 8, 9, 10
Media = Mediana = 5,5
En nuestra muestra:
16
Mediana: 48
28
45
48
Estimaciones:
68
72
81
Nˆ 1 : 2 X − 1 = 2 ⋅ 51,14 − 1 ≅ 101
Media: 51,14
¿Inconveniente de este método?
Puede dar una estimación evidentemente falsa...
Ejemplo: 3, 4, 6, 15
Media:
7
Mediana: 5
N̂ 1 : 2 X − 1 = 2 ⋅ 7 − 1 = 13
Solucionando el inconveniente
Supongamos que los valores son:
8, 14, 22, 27, 35
?
1
2
3
4
5
6
7
8
9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42
"calcular el promig de les distanciesventre observacions i afegir aquets promig a la
última observació."
1
2
3
4
7
5
6
7
8
+
9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41
5
+
7
+
4
+
7
5
¡Este es un estimador excelente! (UMVUE)
=
6
El promedio de les diferencias es:
X ( 1) : Primer valor, ordenados de menor a mayor
X ( n ) : Último valor, ordenados de menor a mayor
Por tanto:
N̂ = X ( n ) +
X( n )
n
−1
Comprobemos que funciona
20 números al
azar. ¿Cuántas
papeletas?
El mayor valor :
Mejor estimación:
1101 +
1101
−1=
1155
20
Caso práctico
10.467 +
10.467
− 1=
10.989
20
Otras situaciones similares
“Digital Dice” de P.L. Nahin.
Capítulo 12 se titula: “How
many runners in a Marathon” y
trata este tema."
Roger W. Johnson: «Estimating the Size of a Population».
Teaching Statistics
Iceberg y estadística
• Calidad y costos
Costos de la calidad
Costos de la no calidad
Costos totales de la calidad
• El tratamiento de los costes en los proyectos Seis Sigma
Hay mucho más de lo que se ve
Porcentajes
Sondeos electorales
Medias
Control de
Calidad:
¿Qué podemos
hacer para mejorar?
Previsiones:
¿Cuánta electricidad
se gastará mañana?
Estudios
sociològicos:
¿Qué quieren
los jovenes?
Investigación
médica:
¿Es mejor una
nueva medicina?
Estudios de
mercado:
¿Qué quieren los
consumidores?
Economía:
¿Cuánto
aumentan los
precios?
Biologia:
Animales en
extinción
Fiabilidad:
Cada cuando se
deben revisar
las piezas de un
avión?
Epidemiología
A finales de 1831 llega a Inglaterra una ola de
cólera asiático. Los brotes de cólera ocurrieron
4 veces entre 1831 y 1854, y nada logró
contener su propagación. En 1853 hubo brotes
en ciudades industrializadas. Un total de
10.500 personas murieron de cólera.
John Snow (1813-1858) obstetra,
anestesiólogo y padre de la
epidemiología moderna.
El cólera es una enfermedad aguda,
diarreica, provocada por por la bacteria
Vibrio cholerae.
Cólera
Contagionistas
Sostenían que el cólera se
adquiría por el contacto con
el enfermo o con sus vestidos
y pertenencias.
Teoría
“miasmática”
Postulaba que ciertas condiciones
atmosféricas, en especial los
vientos, transmitían de un lugar
a otro las “miasmas”
En 1849 John
Snow postuló
una innovadora
hipótesis: el
cólera se
transmite
mediante la
ingestión de una
“materia
mórbida”.
En 1854 estalla una epidemia en Londres. En el Soho, a finales de agosto en un
pequeño sector llamado Golden Square , se produce el brote de cólera más
violento. En tres días, 127 personas murieron. Hasta alcanzar los 500 el 19 de
septiembre. La mortalidad hubiese sido mucho mayor si la población no
hubiera huido.
Snow solicitó una
lista a la oficina del
registro general
para analizar las
muertes por cólera
para la semana que
finalizó el 2 de
Septiembre de
1854.
Entrevistó a las familias de las
víctimas, sobre el origen del agua
de consumo y luego representó
los casos que ocurrieron y la
ubicación de las bombas de agua
en un mapa .
Su investigación lo llevó a una
bomba de agua en la esquina de
Broad Street y Cambridge Street
como el epicentro de la epidemia.
Muchas muertes habían tenido
lugar a corta distancia de la
bomba de la cual habitualmente
consumían agua. Snow se dio
cuenta que la mayoría de los
casos habían ocurrido en un radio
de 250 yardas de la bomba de
agua de Broad Street.
Mapa original del Dr. John Snow. Los puntos muestran los casos de cólera
durante la epidemia ocurrida en Londres en 1854. Las cruces representan
los pozos de agua de los que bebieron los enfermos.
Solo se presentaron 10 muertes
en casas situadas mas cerca de
otras bombas de agua.
“As soon as I became acquainted with the situation and extent of this irruption of
cholera, I suspected some contamination of the water of the much-frequented streetpump in Broad Street, near the end of Cambridge Street…”
“There were only ten deaths
in houses situated decidedly
nearer to another streetpump. In five of these cases
the families of the deceased
persons informed me that
they always sent to the pump
in Broad Street, as they
preferred the water to that of
the pumps which were
nearer.”
“In three other cases, the deceased were children who
went to school near the pump in Broad Street...”
“I had an interview with the Board of Guardians of St James's parish, on the evening of
the 7th inst [Sept 7], and represented the above circumstances to them. In consequence
of what I said, the handle of the pump was removed on the following day.”
http://matrix.msu.edu/~johnsnow/index.php
http://www.ph.ucla.edu/epi/snow/snowpub.html
El pozo de Broad Street tenía 100 años de
antigüedad. En 1850 el agua potable llegaba por
tubería a todas las casas del área. El aporte era
intermitente (2 horas diarias) y el agua debía
acumularse en cisternas. El agua tenía mal sabor, y
la población no tomaba agua de las cisternas.
En cambio, el agua de la bomba de Broad Street era
clara y de buen sabor.
¿Cómo se contaminó la fuente? Un caso fatal en un infante que residía en la
casa más cercana a la bomba precedió a la epidemia. El párroco Henry
Whitehead, asistente de Snow en la investigación, descubrió que los desechos
fecales del bebé eran eliminados en una fosa séptica localizada a menos de 3
pies de la bomba. Una inspección reveló evidencia incontrovertible de
transmisión de materia fecal de la fosa séptica hacia el pozo. Fue reparada y
puesta en servicio de nuevo unos meses después. Hasta noviembre de 1866:
una nueva epidemia determinó su cierre en forma definitiva...
Experimentos realizados por Louis Pasteur demostraron que son
microorganismos presentes en el ambiente y no miasmas los que producen
enfermedades como el cólera. Tres décadas después de la muerte de Snow,
Robert Koch aisló y cultivó Vibrio cholerae, “la materia mórbida”.
Un principio epidemiológico
que se ilustra en la
investigación del Snow es que
a pesar de que se desconocía
el agente causal , la epidemia
podía haberse prevenido al
eliminar el vehículo de
transmisión, esto es evitando
el acceso al agua
contaminada.
Erradicación de la Viruela
Intoxicación por metilmercurio
Fiebre reumática y cardiopatía reumática.
Enfermedades por deficiencia de yodo
Tabaco, asbesto y cáncer de pulmón
Fractura de cadera y falta de estrógenos
«La epidemiología es algo
más que el total de los
hechos establecidos.
Incluye el ordenamiento
metódico de estos en
cadenas de evidencia que
se extienden mas allá de
los limites de observación
directa.»
John Snow, 1854
Problema de estimación:
¿Por qué una encuesta de 1500 personas permite predecir
bastante bien el resultado de una elección con 10 millones de
votantes? ¿Cómo se consigue? ¿Cómo se mide la precisión del
resultado?
Problema de test de hipótesis:
Las normas de calidad exigen que, en un lote de 5000 bombillas,
a lo sumo el 3% pueden durar menos de 1000 horas.
En un estudio de control de calidad de una fabrica de bombillas
sería muy costoso examinar cada una. Se decide usar una muestra
de 500 bombillas. Si obtenemos el 3,2% de bombillas defectuosas,
¿deberíamos declarar el lote completo defectuoso?
35
Problema de estimación:
Se busca precisar una característica totalmente
desconocida de la población a partir de los datos
obtenidos sobre una muestra.
Estimar el porcentaje de la población (20 millones) que
votará al político gilipollas de turno a partir de una muestra de
1500 votantes.
O estimar la duración promedio de las bombillas del lote
de 5000, a partir de una muestra de 500.
36
Problema de test de hipótesis:
Se busca comprobar alguna información sobre la
población a partir de los datos obtenidos de una
muestra.
François Hollande obtendrá más del 65% de los votos.
Menos del 3% de las bombillas del lote de 5000 duran
menos de 1000 horas.
Las bombillas duran más de 1000 horas en promedio.
37
Muestra aleatoria simple con
reemplazo
Supongamos una población de tamaño N
donde cierta característica se distribuye como la
variable aleatoria X. Una muestra aleatoria
simple con reemplazo de n observaciones de
la variable aleatoria X es un conjunto de
variables aleatorias X1, X2, ..., Xn
independientes e idénticamente distribuidas
(iid).
Cada una de ellas tiene la misma distribución de
38
probabilidad que la variable aleatoria X.
Observa que las probabilidades de escoger
cualquier elemento de la población para
formar parte de la muestra son iguales (1/N)
y que además las extracciones son
independientes.
Se puede escoger por azar varias veces al
mismo elemento. Pero si la población N es
muy superior al tamaño n de la muestra
esa probabilidad es despreciable. En ese
caso una muestra con reposición es
equivalente a una muestra sin reposición.
39
Trabajaremos siempre con reposición.
Ejemplo: Sea una población compuesta por 5
unicornios con las siguientes longitudes de
cuerno: 6, 8, 10, 12 y 14. Escribamos todas las
muestras aleatorias con reemplazo posibles de
tamaño 2. En total serán: 52 = 25.
Segundo elemento de la muestra
Primer
elemento
de la
muestra
6
8
10
12
14
6
6,6
6,8
6,10
6,12
6,14
8
10
8,6
8,8
8,10
8,12
8,14
10,6
10,8
10,10
10,12
10,14
12
12,6
12, 8
12,10
12,12
12,14
14
14,6
14,8
14,10
14,12
14,14
40
En el ejemplo la variable aleatoria X de la
población puede tomar los valores 6, 8, 10, 12
y 14, cada uno con probabilidad 1/5. Es decir la
variable aleatoria X tiene una densidad de
probabilidad discreta uniforme.
Una muestra consta de n = 2 observaciones de
esa variable aleatoria X. Podemos interpretarla
como una variable aleatoria bidimensional
(X1, X2), donde X1 y X2 son independientes y
están idénticamente distribuidas (iid). De hecho,
cada una de ellas tiene la misma distribución de
probabilidad que la variable aleatoria X.
41
Estadísticos
Cualquier función de las variables aleatorias
observadas se denomina estadístico:
T ( X 1 , X 2 ,..., X n )
Los dos estadísticos mas conocidos son
la media muestral y la varianza muestral.
x
s
2
La raíz cuadrada de la varianza muestral es
la desviación estándar muestral.
s
42
Los parámetros poblacionales son fijos,
no aleatorios.
Por ejemplo, la media de la población anterior es:
µ = (6 + 8 + 10 + 12 + 14) / 5 = 10.
Mientras que los estadísticos son
variables aleatorias (su valor depende de
la muestra seleccionada: los estadísticos
calculados para distintas muestras darán,
en general, resultados distintos).
Por ejemplo, la media de la muestra (6, 6) es:
x = (6 + 6) / 2 = 6.
Y la media de la muestra (6, 12) es:
x = (6 + 12) / 2 = 9. Etc...
43
Como estos estadísticos son variables aleatorias,
podemos entonces hablar de sus distribuciones.
Si tomamos una muestra de tamaño n y
calculamos la media de esta muestra obtenemos
un valor x determinado.
Si repetimos este mismo experimento un gran
número de veces obtendremos una gran cantidad
de valores distintos para x .
A partir de esta “variedad” de valores distintos
obtenidos para la media muestral, podemos
obtener la distribución de probabilidad de la misma:
la distribución de la media muestral.
44
Calculemos para el ejemplo anterior todas las
medias muestrales posibles de tamaño n=2:
donde i = 1, ..., 25 es ahora el
índice de las posibles muestras.
Medias
muestrales
Primer
elemento
de la
muestra
Segundo elemento de la muestra
6
8
10
12
14
6
6
7
8
9
10
8
10
7
8
9
10
11
8
9
10
11
12
12
9
10
11
12
13
14
10
11
12
13
14
xi
45
La distribución de medias muestrales es:
P
5/25
4/25
4/25
3/25
3/25
2/25
2/25
1/25
6
1/25
7
8
9
10
11
12
13
14
x
46
Como x es una variable aleatoria y ya conocemos
su distribución, podemos calcular su esperanza,
la media de medias muestrales:
25
1
250
E(x) =
xi =
= 10
∑
25 i =1
25
Y observa que coincide con la media
poblacional:
6 + 8 + 10 + 12 + 14
= 10
E(x) = µ =
5
¿Ocurre siempre?
47
Dada una muestra de tamaño n, el valor xi (i=1,...,n)
será uno de los posibles valores que puede tomar la
variable aleatoria Xi. ¿Cuál es su valor esperado?
Como Xi se distribuye como X:
E( X i ) = E( X ) = µ
La distribución de la media muestral será:
1 n
1 n
1 n
E(x) = E( ∑ X i ) = ∑ E( X i ) = ∑ µ = µ
n i =1
n i =1
n i =1
De modo que:
E (x ) = µ
Cuando se cumple la igualdad, se dice que
el estimador x de µ es insesgado.
48
Calculemos ahora para el ejemplo de los
unicornios todas las varianzas muestrales posibles:
2
1
2
2
si = ∑ ( x j − xi )
2 j =1
Varianzas
muestrales
Primer
elemento
de la
muestra
donde i = 1, ..., 25 es el índice
de las posibles muestras.
Segundo elemento de la muestra
2
i
s
6
8
10
12
14
6
0
1
4
9
16
8
10
1
0
1
4
9
4
1
0
1
4
12
9
4
1
0
1
14
16
9
4
1
0
49
Hemos obtenido de nuevo una distribución,
ahora la distribución de varianzas muestrales:
P
8/25
5/25
6/25
4/25
2/25
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
s2
50
Como s2 es una variable aleatoria y ya
conocemos su distribución, podemos calcular su
esperanza, la media de las varianzas muestrales:
25
1
2
2
E (s ) =
si =100 / 25 = 4
∑
25 i =1
La varianza
poblacional es:
Observa que ahora: E ( s ) ≠ σ
2
2
Decimos entonces que el estimador s2 de σ2
es sesgado.
51
Definamos el estimador cuasivarianza o seudovarianza
muestral:
n
Solo se distingue
1
2
2
s* =
(x j − x)
de la varianza muestral
n − 1 j =1
en dividir entre (n-1)
en vez de n.
Cuasivarianzas
Segundo elemento de la muestra
∑
muestrales
Primer
elemento
de la
muestra
2
*
6
8
10
12
14
6
0
2
8
18
32
8
10
2
0
2
8
18
8
2
0
2
8
12
18
8
2
0
2
14
32
18
8
2
0
s
52
Tendremos ahora que:
25
1
2
2
E ( s* ) =
s*i =200 / 25 = 8
∑
25 i =1
De modo que la cuasivarianza muestral es un
estimador insesgado para la varianza poblacional:
E (s ) = σ
2
*
2
53
Resumiendo: dada una población de tamaño N, tenemos como
parámetros de una variable aleatoria X de nuestro interés a la media
poblacional y la varianza poblacional.
1
1 N
µ = E ( X ) = ( x1 + x2 + ... + xN ) = ∑ xi
N
N i =1
Sea una muestra con reposición de tamaño n de la población:
La media muestral:
será un estimador insesgado de la media poblacional.
La varianza muestral:
n
1
s 2 = ∑ ( x j − x )2
n j =1
será un estimador sesgado de la varianza poblacional.
Y la cuasivarianza muestral:
54
será un estimador insesgado de la varianza poblacional.
Muestreo desde una población normal
Sea X una variable aleatoria que se distribuye en una
población como una normal con media µ y varianza σ2, es
decir N(µ, σ). Tomemos una muestra aleatoria de tamaño n
de esta población normal. ¿Cuál será la varianza muestral de
la distribución muestral de x ?
Primero observemos que:
Var ( X i ) = Var ( X ) = σ
2
De modo que la varianza de la distribución de la media muestral
será:
1 n 2 σ2
1 n  1 n
Var ( x ) = Var  ∑ xi  = 2 ∑Var ( xi ) = 2 ∑ σ =
n i =1
n
 n i =1  n i =1
Var (aX + b) = a 2Var ( X )
Y además suponemos independencia
entre las variables Xi
55
Si la muestra aleatoria x1, x2, ..., xn se toma a partir de
una población normal con media µ y varianza σ2, la
media muestral tendrá distribución normal con media µ y
varianza σ2/n, N(µ, σ/√n).
Vemos entonces que la distribución de la media muestral
tiene una dispersión menor alrededor de la media
poblacional y cuanto más grande es la muestra, menor es
la varianza.
Nota: La desviación típica de la distribución muestral suele ser
denominada: error típico de tal estadístico (v.g., “error típico de la
media”, etc.)
Veamos varios ejemplos en los que iremos variando el
tamaño n de las muestras.
56
Distribución muestral de la media. Ejemplo 1
Distribución poblacional
subyacente (dist. Normal):
400
La línea (en este y sucesivos ejemplos) es una curva
normal
Media = 100
Varianza = 225
300
Desv. típica = 15
200
100
Desv. típ. = 4.75
Media = 99.9
Distribución muestral de la
media:
Tamaño muestral =10
N = 3600.00
0
0
6.
11 .0
4
11 .0
2
11 .0
0
11 .0
8
10 .0
6
10 .0
4
10 .0
2
10 .0
0
10
.0
98
.0
96
.0
94
.0
92
.0
90
.0
88
.0
86
.0
84
.0
82
N10
En este y sucesivos gráficos: Número de muestras
de tamaño n, extraídas de la distribución poblacional
Media = 100
Varianza = 225/10 =22.5
Desv.típica =
22.5 = 57
4.74
Distribución muestral de la media. Ejemplo 2
Distribución poblacional
subyacente (dist. Normal):
500
Media = 100
Varianza = 225
400
Desv. Típica = 15
300
200
Distribución muestral de la
media:
100
Desv. típ. = 3.36
Tamaño muestral = 20
Media = 100.0
N = 3600.00
0
0
4.
11
0
2.
11
0
0.
11
0
8.
10
0
6.
10
0
4.
10
0
2.
10
0
0.
10
.0
98
.0
96
.0
94
.0
92
.0
90
.0
88
N20
Media = 100
Varianza = 225/20 = 11.3
Desv. típica = 3.35
58
Distribución muestral de la media. Ejemplo 3
Distribución poblacional
subyacente (dist. Normal):
700
Media = 100
600
Varianza = 225
500
Desv. Típica = 15
400
300
Distribución muestral de la
media:
200
Desv. típ. = 2.12
100
Media = 99.95
N = 3600.00
0
25
9.
10
25
7.
10
25
5.
10
25
3.
10
25
1.
10
5
.2
99
5
.2
97
5
.2
95
5
.2
93
N50
Tamaño muestral = 50
Media = 100
Varianza = 225/50 = 4.5
Desv. típica = 2.12
59
Distribución muestral de la media
Supongamos ahora que la distribución poblacional
subyacente es arbitraria, pero que seguimos
conociendo la media poblacional µ y la varianza
poblacional σ 2 .
En este caso, también la media de la distribución
muestral de medias es µ
2
/n
σ
Y la varianza de la distribución muestral de medias es
La forma de la distribución muestral de la media también
tiende a ser normal. En concreto, la distribución de la media
muestral se acercará más y más a la distribución normal
(con media µ y varianza σ2/n) a medida que aumenta el
tamaño n de cada muestra.
60
Veamos aparecer la distribución normal a partir de
una población uniforme
•
Aunque una variable aleatoria no
posea distribución normal, ciertos
estadísticos/estimadores calculados
sobre muestras elegidas al azar sí que
poseen una distribución normal.
•
Es decir, tengan las distribución que
tengan nuestros datos, los ‘objetos’
que resumen la información de una
muestra, posiblemente tengan
distribución normal.
•
Como ilustración mostramos una
variable aleatoria poblacional que
presenta valores distribuidos más o
menos uniformemente sobre el
intervalo 150-190. Como es de esperar
la media es cercana a 170. El
histograma no se parece en nada a
una distribución normal con la misma
media y desviación típica (curva en
negro).
61
• A continuación elegimos
aleatoriamente muestras de n = 10
observaciones de la población y
calculamos el promedio.
• Para cada muestra de n = 10
obtenemos entonces una nueva
medida, la media muestral.
• Observa que las nuevas cantidades
están más o menos cerca de la
media de la variable original que era
170.
• Repitamos el proceso un número
elevado de veces y pintemos la
distribución de la nueva variable
aleatoria «media muestral», como
hicimos en anteriores ejemplos.
Muestra
1ª
2ª
3ª
185
190
179
174
169
163
167
170
167
160
159
152
172
179
178
183
175
183
188
159
155
178
152
165
152
185
185
175
152
152
173
169
168 …
62
• La distribución de las medias
muestrales es aproximadamente
normal.
• La media de esta nueva variable
(promedio o esperanza muestral)
es muy parecida a la de la
variable original.
• Las observaciones de la nueva
variable están menos dispersas.
Además la desviación típica es
aproximadamente ‘raíz de 10’
veces más pequeña. Llamamos
error estándar a la desviación
típica de esta nueva variable.
63
Distribuciones para muestras grandes
y teorema central del límite
Cuando el tamaño de la muestra es grande,
independientemente de que la variable aleatoria de
nuestro interés en la población se distribuya o no como
una normal, podemos derivar un número de propiedades
gracias al TEOREMA CENTRAL DEL LIMITE.
Dada una v.a. cualquiera, si extraemos muestras de tamaño n, y
calculamos los promedios muestrales, entonces:
Dichos promedios tienen distribución aproximadamente normal.
La media de los promedios muestrales es la misma que la de la variable
original.
La desviación típica de los promedios disminuye en un factor “raíz de n”
(error estándar).
Las aproximaciones anteriores se hacen exactas cuando n tiende a infinito.
Este teorema justifica la importancia de la distribución normal.
Sea lo que sea lo que midamos, cuando se promedie sobre una muestra 64
grande (n > 30) nos va a aparecer de manera natural la distribución normal.
Teorema central del límite
Sea x1, x2, ..., xn una muestra aleatoria de
observaciones tomadas de la misma distribución y sea
E(Xi) = µ y Var(Xi) = σ2.
Entonces la distribución muestral de la variable
(x − µ)
aleatoria:
Zn =
σ/ n
converge a la normal standard N(0, 1) cuando n tiende
a infinito.
El TCL se cumple aún cuando la distribución desde la que se
toman las observaciones no sea normal. Esto significa que si
nosotros nos aseguramos que el tamaño de la muestra es grande,
entonces podemos usar la variable Zn para responder preguntas
acerca de la población de la cual provienen las observaciones.
65
Distribución muestral de la media. Ejemplo 4
q p p −1 − qx
f ( x) =
x e , x≥0
Γ( p )
Distribución poblacional
subyacente (dist. Gamma):
Media = 100
Varianza = 100
E[ X ] =
p
q
p
Var[ X ] = 2
q
0.045
0.04
0.035
0.03
0.025
0.02
0.015
0.01
0.005
0
80
85
90
95
100
105
110
115
120
66
Distribución muestral de la media. Ejemplo 4
Distribución poblacional
subyacente (dist. GAMMA):
500
Media = 100
Varianza = 100
400
300
200
Distribución muestral de la
media:
100
Desv. típ. = 3.12
Tamaño muestral = 10
Media = 100.0
N = 3600.00
0
0
0.
11
0
8.
10
0
6.
10
0
4.
10
0
2.
10
0
0.
10
.0
98
.0
96
.0
94
.0
92
.0
90
DISGAMMA
Media = 100
Varianza = 100/10 = 10
Desv. típica =
10 = 3.16
67
Distribución muestral de la media. Ejemplo 5
Distribución poblacional (dist.
EXPONENCIAL):
Media = 0.1 = 1/λ
Varianza = 0.01 = 1/λ2
12
10
8
6
4
2
0
0
0.1
0.2
0.3
0.4
0.5
0.6
68
Distribución muestral de la media. Ejemplo 5a
Distribución poblacional (dist.
EXPONENCIAL):
400
Media = 0.1=1/λ
Varianza = 0.01 = 1/λ2
300
200
100
Desv. típ. = .03
Distribución muestral de la
media:
Media = .100
N = 3600.00
0
44
.2
31
.2
19
.2
06
.2
94
.1
81
.1
69
.1
56
.1
44
.1
31
.1
19
.1
06
.1
94
.0
81
.0
69
.0
56
.0
44
.0
31
.0
EXPON10
Observad que la dist. muestral se aproxima a la normal
Tamaño muestral = 10
Media = 0.1
Varianza = 0.01/10 = 0.001
Desv. típica = 0.03
69
Distribución muestral de la media. Ejemplo 5b
500
Distribución poblacional (dist.
EXPONENCIAL):
400
Media = 0.1 = 1/λ
Varianza = 0.01 = 1/λ2
300
200
100
Desv. típ. = .02
Media = .099
N = 3600.00
0
94
.1
81
.1
69
.1
56
.1
44
.1
31
.1
19
.1
06
.1
94
.0
81
.0
69
.0
56
.0
44
.0
EXPON20
Observad que la distribución muestral se aproxima
más a la normal (al elevar el tamaño muestral).
Distribución muestral de la
media:
Tamaño muestral = 20
Media = 0.1
Varianza = 0.01/20 = 0.0005
Desv. típica = 0.022
70
Algunas distribuciones usadas en inferencia
Distribución Ji-Cuadrado o Chi-cuadrado o χ2 de
Pearson con “n” grados de libertad.
Sean X1 , X2 , ... ,Xn n variables aleatorias continuas
independientes tal que Xi = N (0,1) con i = 1, ..., n
(i.i.d.). Definamos la variable aleatoria:
n
Y = ∑ Xi ≡ χ
2
i =1
Su densidad de probabilidad
será:
2
n
fY ( y ) =
y
n
y
−1 −
2
2
e
n
2 Γ 
2
n
2
,
x≥0
71
La función gamma es:
∞
α −y
(
)
Γ α + 1 = ∫ y e dy
0
1. E [Y ] = n
Var [Y ] = 2n
2. ϕY (t ) = (1 − 2it )
n
−
2
fY ( y )
Var [Y ] = 2n
E [Y ] = n
y
72
TABLA DE
χ2
orden percentílico
n
0.99
0.975
1
2
3
4
5
grados de libertad
0.025
0.01
p
χ 2n
valores acumulados de χ2n
73
(
1
)
n
−
s
Distribución muestral del estadístico
2
σ
2
*
Cuando las distribución de la que obtenemos
la varianza muestral es normal, el estadístico
anterior se distribuye según la distribución
chi-cuadrado con n -1 grados de libertad.
Es fácil de demostrar
74
Si X se distribuye como N ( µ , σ )
Tipificando
n
2
X
χ
≡
∑ i n
i =1
2
⇒
x−x
σ
se distribuye como N (0,1)
(
x − x)
⇒
2
σ
2
se distribuye como χ1
2
n
n
1
2
2
2
2
(x − x ) ⇒ ∑ (x − x ) = (n − 1)s*
s* =
∑
n − 1 i =1
i =1
(n − 1) s
2
*
σ2
se distribuye como χ n2−1
75
Otra distribución que aparece en inferencia es la
t-Student, tn
Student era el seudónimo de W.S. Gosset, un pionero
estadista que trabajó en la Cervecería Guiness de Dublín.
Sea X v.a.c. tal que X ~ N (0,1)
Y v.a.c. tal que Y ~ χ2n
Con función de densidad de probabilidad:
t2 
 n + 1 
Γ
1 + 
n
 2 
f T (t ) =
n
πnΓ 
2
E [t ] = 0
−
X
tn ≡
Y
n
n +1
2
, t ∈ℜ
n
Var [t ] =
n−2
76
TABLA DE LA DISTRIBUCION DE t (Student)
orden percentílico
n
1
2
3
4
5
t.55
t.60
t.99
t.995
valores
acumulados de tp
grados de libertad
tp
77
x−µ
Distribución muestral de
s/ n
Cuando la distribución de la que obtenemos las
medias muestrales es normal, el estadístico anterior,
se distribuye según la distribución t de Student con
tn-1 grados de libertad.
Cuando la distribución de la que obtenemos las
medias muestrales no es normal, el estadístico
anterior, se distribuye como una normal tipificada para
valores de n > 30.
Nota: comparar con el teorema central del límite.
78
La distribución F de Fisher o F-Snedecor es otra
distribución que aparece con frecuencia en
inferencia:
sea X v.a.c. tal que X ~ χ2n
Y v.a.c. tal que Y ~ χ2m independientes
X
Definamos Z = n
Y
m
≡ F (n, m)
n+m
n m Γ
 n −1
n+m
−
2  2

f Z ( z) =
z ( n + m) 2 ,
n m
Γ Γ 
2  2 
n/2
n/2
z≥0
79
m
E [Z ] =
m−2
2m ( n + m − 2)
V [Z ] =
2
n( m − 2) ( m − 4)
2
(m,n)
80
Distribución muestral del estimador
s /σ
s /σ
2
x*
2
y*
2
x
2
y
Cuando las distribuciones de la que obtenemos las
varianzas muestrales son normales:
N (µ x ,σ x ) y N (µ y ,σ y )
y extraemos dos muestras de tamaño n y m
respectivamente. El estadístico anterior se distribuye
según la distribución F de Fisher con n - 1 grados de
libertad en el numerador y m -1 grados de libertad en
el denominador, Fn-1, m-1.
81
Estimación
Sea θ una característica, un parámetro poblacional
cuyo valor se desea conocer a partir de una muestra.
Sea θˆ un estadístico ( función de la muestra ) que
utilizamos para estimar el valor de θ .
Observa que el estadístico:
θˆ = T ( X 1 , X 2 ,..., X n )
es una función que depende de la muestra y lo
llamaremos estimador. El valor concreto de θˆ es la
estimación.
Hay dos tipos básicos de estimación: puntual y por
intervalo de confianza.
82
-Estimación puntual
Provee un solo valor, un valor concreto para la estimación.
Un estimador puntual es simplemente un estadístico
(media aritmética, varianza, etc.) que se emplea para
estimar parámetros (media poblacional, varianza
poblacional, etc.).
Por ejemplo, cuando obtenemos una media aritmética a
partir de una muestra, tal valor puede ser empleado como
un estimador para el valor de la media poblacional.
Algunos autores comparan los estimadores con los
lanzamientos en una diana: el círculo central sería el valor
real del parámetro.
83
-Por intervalo
Determina dos valores (límites de confianza) entre
los que acepta puede estar el valor del estimador.
Hablaremos de nivel de confianza 1-α cuando en el intervalo se
encuentre el valor del estimador con probabilidad 1-α.
– Observa que la probabilidad de error (no contener al parámetro) es α.
– En general el tamaño del intervalo disminuye con el tamaño muestral y
aumenta con 1-α.
– En todo intervalo de confianza hay una noticia buena y otra mala:
• La buena: hemos usado una técnica que en % alto de casos acierta.
• La mala: no sabemos si ha acertado en nuestro caso.
84
Métodos de estimación puntual
Hemos visto que un estimador de la media poblacional es
la media muestral y de la varianza poblacional es la cuasivarianza
muestral. Pero, ¿cómo determinar un estimador cuando no
se trata de la media o la varianza?
Por ejemplo, supongamos una población con función densidad:
f ( x) =
θ
1+θ
(1 + x)
x ≥ 0, θ > 0
¿Cómo estimar
el parámetro θ?
Método de los momentos
Método de máxima verosimilitud
Método de mínimos cuadrados
(Lo veremos más adelante en el tema
de regresión)
85
Método de los momentos
Si una distribución tiene k parámetros, el procedimiento
consiste en calcular los primeros k momentos muestrales de la
distribución y usarlos como estimadores de los
correspondientes momentos poblacionales.
La media poblacional µ es el primer momento de la
distribución alrededor del origen. La media muestral x es el
promedio aritmético de las observaciones muestrales x1, x2, ...,
xn. El método de los momentos toma a la media muestral como
una estimación de la media poblacional.
De la misma manera, la varianza de una variable aleatoria es σ2
y se denomina segundo momento alrededor de la media. La
cuasivarianza muestral s2* se usa como un estimador de la
varianza poblacional de la distribución.
86
Recordemos que el momento muestral centrado en el origen
de orden r se define como:
n
1
mr = ∑ xir
n i =1
Para el ejemplo anterior, los momentos de primer orden centrados
en el origen de la población y la muestra son respectivamente:
θ
Igualando:
1 
∫−∞ x (1 + x)1+θ dx = θ − 1 1 1 n
= ∑ xi
⇒
n
θ − 1 n i =1
1

m1 = ∑ xi

n i =1
n
ˆ
θ = n +1
Luego podemos usar como
estimador:
∑ xi
+∞
i =1
87
Método de máxima verosimilitud
Sea X una variable aleatoria cuya distribución de
probabilidad depende del parámetro desconocido θ.
Sea la función de densidad de probabilidad de la población
f(x, θ). Se toma una muestra aleatoria x1, x2, ..., xn de
observaciones independientes y se calcula la densidad
conjunta de la muestra: la función de verosimilitud y se
expresa como:
L(x1,...,xn , θ ) = f(x1, θ ) ⋅ f(x2 , θ ) ⋅ ... ⋅ f(xn , θ )
n
L(x1,...,xn , θ ) = ∏ f ( xi , θ )
i =1
88
Si de una población cualquiera hemos obtenido una muestra
particular, es razonable pensar que la muestra obtenida era
la que mayor probabilidad tenía de ser escogida.
L
Función
máxima
verosimilitud
θˆ
MV
θˆ
Valor del estimador máxima
verosimilitud
89
Si los valores posibles de θ son discretos, el procedimiento es
evaluar L(x,θ) para cada valor posible y elegir el valor de θ para
el cual L alcanza su máximo.
Por otro lado, si L(x,θ) es diferenciable se puede maximizar L
sobre el rango de valores posibles de θ obteniéndose
condiciones de primer y segundo orden.
En la práctica es más fácil maximizar el logaritmo de la función
de verosimilitud. Como la función logaritmo es una
transformación monótona, maximizar L(x,θ) es equivalente a
maximizar Ln(L(x,θ)).
90
Ejemplo: Sea una urna con bolas rojas y blancas en proporciones
desconocidas. Extraemos 10 bolas con reemplazo (n = 10) y
obtenemos 3R y 7B. Llamemos p a la proporción de R en la urna.
L( p ) = p (1 − p ) PR
3
7
10
3, 7
10!
= p (1 − p )
3!7!
3
7
∂L( p )
10!
2
6
= p (1 − p ) (3 − 10 p )
=0
∂p
3!7!
Soluciones:
p=0
Imposible porque
hemos extraído 3R
p=1
Imposible porque
hemos extraído 7B
p = 3/10
Que además
hace máxima
la función L(p)
∂ 2 L( p )
∂p 2
<0
91
p =3 / 10
Volvamos al ejemplo:
f ( x) =
i =1
1+θ
(1 + x)
θn
n
L(x1,...,xn , θ ) = ∏ f ( xi , θ ) =
θ
n
∏ (1 + x )
1+θ
x ≥ 0, θ > 0
Construimos la función
verosimilitud
i
i =1
n
Ln L(x1,...,xn , θ ) = nLnθ − (1 + θ )∑ Ln(1 + xi )
i =1
Extraemos logaritmos
a ambos lados
∂Ln L(x1,...,xn , θ ) n n
Derivamos e igualamos
= − ∑ Ln(1 + xi ) = 0
∂θ
θ i =1
a cero para encontrar
el máximo de la función
n
⇒ θˆ = n
Observemos que no
Ln(1 + xi )
∑
i =1
coincide con el estimador
que nos propone el método
∂ 2 Ln L(x1,...,xn , θ )
n
=− 2 <0
2
de los momentos.
ˆ
∂θ
θ
92
θ =θˆ
95
96
Propiedades deseables en los estimadores
Los dos procedimientos que repasamos hace un momento
(más el método de mínimos cuadrados que veremos luego)
eligen a la media muestral como estimador del parámetro µ.
Sin embargo, otras veces obtenemos estimadores distintos
para el mismo parámetro, como ocurre con σ2. O como
hemos visto para el caso del parámetro θ del ejemplo.
En esos casos, ¿cuál es el mejor estimador?
1. Ausencia de sesgo
2. Consistencia
3. Eficiencia
4. Suficiencia
97

1. Estimador insesgado. Diremos que θ es un
estimador insesgado de θ si:
[]
E θˆ = E [T ( X 1 ,..., X n )] = θ
Vimos que la media muestral es un estimador
insesgado de la media poblacional.
Vimos que la varianza muestral no es un estimador
insesgado de la varianza poblacional, es sesgado.
b(θ ) = E [θˆ]− θ
se llama sesgo de
θˆ
Recuerda que construimos la cuasivarianza, que sí es
un estimador insesgado de la varianza poblacional.
98
Sea una población N(µ, σ) y construyamos los estimadores de
varianza: varianza muestral y cuasivarianza muestral.
n
1
2
2
ˆ
θ1 = s = ∑ ( x j − x )
n j =1
n
1
2
θˆ2 = s*2 =
(
)
x
x
−
∑
j
n − 1 j =1
Vimos que si la población es normal, entonces el estimador:
(n − 1) s*2
σ2
se distribuye como χ n2−1
E[θˆ2 ] = E[ s*2 ] =
σ2
n −1
E[ χ n2−1 ] = σ 2
2
−
−
σ
1
1
n
n
2
2
ˆ
ˆ
σ =σ −
E[θ 2 ] =
E[θ1 ] =
n
n
n

sesgo
99
Propiedades en muestras grandes
Muchos estimadores no tienen buenas propiedades
para muestras pequeñas, pero cuando el tamaño
muestral aumenta, muchas de las propiedades
deseables pueden cumplirse. En esta situación se
habla de propiedades asintóticas de los estimadores.
Como el estimador va a depender del tamaño de la
muestra, vamos a expresarlo utilizando el símbolo θˆn
Por ejemplo, el sesgo puede depender del tamaño de
la muestra. Si el sesgo tiende a cero cuando el tamaño
de la muestra crece hasta infinito, decimos que el
estimador es asintóticamente insesgado.
100
Ausencia de sesgo asintótico
Definición: Un estimador θˆn se dice que es
asintóticamente insesgado si:
lim E[ θˆn ] = θ
n →∞
o equivalentemente:
lim [ E[θˆn ] − θ ] = 0
n →∞
101
2. Consistencia. Se dice que un estimador es
consistente si se cumple que
(
)
lim P θˆn − θ > ε = 0
n →∞
o
(
)
lim P θˆn − θ ≤ ε = 1
n →∞
E[θˆn ] → θ Var[θˆn ] → 0
Es decir, a medida que se incrementa el tamaño muestral, el
estimador se acerca más y más al valor del parámetro. La
“consistencia” es una propiedad asintótica.
Tanto la media muestral como la cuasivarianza son
estimadores consistentes. La varianza muestral también es
un estimador consistente de la varianza poblacional, dado
que a medida que el tamaño muestral n se incrementa, el
sesgo disminuye.
102
Ejemplo: supongamos que la población es no normal y de media
desconocida. Construyamos estadísticos media muestral:
Para cada tamaño muestral n tenemos:
E ( xn ) = µ
Var ( xn ) =
σ2
n
Por el teorema de Chebychev:
(
)
1
P xn − E ( xn ) ≤ k Var ( xn ) ≥ 1 − 2
k
σ2
P( xn − µ ≤ ε ) ≥ 1 − 2 ⇒ lim P ( xn − µ ≤ ε ) = 1
n →∞
nε
con k =
n
σ
ε
La media muestral es un estimador
103
consistente de la media poblacional.
3. Eficiencia. Idea: Utilizar las varianzas de los estimadores
insesgados como una forma de elegir entre ellos.
La varianza de una variable aleatoria mide la dispersión
alrededor de la media. Menor varianza para una variable
aleatoria significa que, en promedio, sus valores fluctúan poco
alrededor de la media comparados con los valores de otra
variable aleatoria con la misma media y mayor varianza. Menor
varianza implica mayor precisión y entonces el estimador que
tenga menor varianza es claramente más deseable porque, en
promedio, está mas cerca del verdadero valor de θ.
[]
Si E θˆ = θ , decimos que θˆ es un estimador insesgado
eficiente o de varianza mínima para θ , si cualquier otro
~
estimador insesgado de θ , digamos θ , verifica que:
~
ˆ
Var (θ ) ≤ Var (θ )
104
Sean θˆ1 y
parámetro θ.
θˆ2 dos estimadores insesgados del
Si Var ( θˆ1) < Var ( θˆ2 ) decimos que
eficiente que θˆ2 .
θˆ1
es más
El cociente Var ( θˆ1) / Var ( θˆ2 ) se llama eficiencia
relativa.
Entre todos los estimadores insesgados de θ, el que tenga
menor varianza es el estimador insesgado de mínima
varianza. Pero, ¿cómo podemos encontrarlo?
105
Cota de Cramér-Rao:
Sea una población con densidad de probabilidad
f(x, θ), entonces se cumple que:
Var [θˆ] ≥
− (1 + b' (θ ) )
 ∂ 2 ln f ( x, θ ) 
nE 

2
∂
θ


2
Si un estimador tiene una varianza que coincide con la cota
de Cramér-Rao se dice que es un estimador eficiente.
Si además en insesgado, se dice que es un estimador de
eficiencia absoluta o completa.
106
Ejemplo: Sea una población que se distribuye normalmente
con desviación típica conocida y media desconocida. Como
estimador utilizaremos la media muestral. Sabemos que
la distribución del estimador es también una normal con
la misma media µ y varianza σ 2 / n . Luego el estimador
es insesgado: b(θ) = 0. Calculemos la cota de Cramér-Rao (CCR).
 ( x − θ )2 
1
1
( x − θ )2
exp−
−
f ( x, θ ) =
; Ln f ( x, θ ) = Ln
2
2
σ
σ
2
2
σ 2π
σ
π
2


1
∂Ln f ( x, θ ) x − θ ∂ 2 Ln f ( x, θ )
= 2 ;
=− 2
2
σ
σ
∂θ
∂θ
 ∂ 2 Ln f ( x, θ ) 
1
 1 
=
−
=
−
E
E

2
2
 σ 2 
θ
σ
∂


σ2
−1
; Var ( x ) = CCR
=
CCR =
2
n
 ∂ ln f ( x, θ ) 
nE 

2
θ
∂


107
Eficiencia asintótica
Cuando trabajamos con estimadores consistentes, el
rango de valores de θ para el cual un estimador es más
eficiente que otro, disminuye a medida que n crece. En
el límite cuando n tiene a infinito la distribución de
todos los estimadores consistentes colapsa en el
verdadero parámetro θ. Entonces deberíamos preferir
aquel estimador que se aproxime más rápidamente (es
decir, aquel cuya varianza converge más rápido a
cero)
108
En términos intuitivos, un estimador consistente es
asintóticamente eficiente, si para muestras grandes su
varianza es menor que la de cualquier otro estimador
consistente.
Definición: un estimador consistente θˆ1 se dice que es
asintóticamente eficiente si para cualquier otro
estimador θˆ2 el
Var (θˆ2 ) 
lim 
 >1
n → ∞ Var (θ
ˆ1 ) 

∀θ
109

4. Suficiencia. Diremos que θ es un estimador
suficiente del parámetro θ si dicho estimador basta por
sí solo para estimar θ. Si el conocimiento pormenorizado
de los elementos la muestra no añade ninguna
información sobre θ.
Ejemplo: Supongamos una población binomial de la que
desconocemos la proporción θ = p. Extraemos una muestra
de tamaño n = 50.
 1 si es éxito
xi = 
 0 si es fracaso
50
T1 ( X ) = ∑ xi = 35; T2 ( X ) = max{ xi } = 1
i =1
Estimador suficiente, p aprox. 35/50.
110
Error cuadrático medio (ECM)
Consideremos dos estimadores, uno insesgado y el
otro sesgado pero con una varianza bastante menor,
de modo que en promedio puede estar más cerca de la
verdadera media que el estimador insesgado.
En esta situación podríamos admitir algo de sesgo con
la intención de obtener una mayor precisión en la
estimación (menor varianza del estimador).
Una medida que refleja este compromiso (“trade off”)
entre ausencia de sesgo y varianza es el ECM.
111
El error cuadrático medio de un estimador se define como
ECM (θˆ) = E[( θˆ - θ )2] . Esto es la esperanza de la desviación
al cuadrado del estimador con respecto al parámetro de interés.
Si θˆ1 , θˆ2 son dos estimadores alternativos de θ y ECM ( θˆ1) <
ECM ( θˆ2 ) entonces θˆ1 se dice que es eficiente en el sentido
del ECM comparado con θˆ2 . Si los dos son insesgados,
entonces θˆ1 es más eficiente.
Entre todos los posibles estimadores de θ, aquel que tenga el
menor ECM es el llamado estimador de mínimo error
cuadrático medio.
ECM = Var( θˆ) + sesgo2.
es decir que el ECM es igual a la suma de la varianza más el
sesgo al cuadrado.
112
(
)
2

ECM (θˆ) = E[(θˆ − θ ) ] = E θˆ − E (θˆ) + E (θˆ) − θˆ  =


2
Constante
Variable aleatoria
0


2
2
ˆ
ˆ
ˆ
E[(θ − E (θ ) ) ] + E[(E (θ ) − θ ) ] + 2(θˆ − E (θˆ) )E[ E (θˆ) − θ ]

constante
2
ˆ
ˆ
= Var (θ ) + [b(θ )]
θˆ1
θˆ2
E (θˆ2 )
θ = E (θˆ1 )
sesgo θ2
Compromiso
entre varianza y
sesgo de los
estimadores.
113
Ejemplos: Supongamos una población de la que conocemos
la media y la varianza (= 100). Tomemos muestras n = 10.
Consideremos los dos estimadores de la media siguientes:
n
n
1
1
θˆ1 = x = ∑ xi ; θˆ2 =
xi
∑
n i =1
n + 1 i =1


2
100
σ

ˆ
(
)
⇒
ECM
θ
=
=
= 10
1
2
n
10
n
1
σ 
ˆ
ˆ
Var (θ1 ) = 2 ∑ Var (θ1 ) =
n i =1
n 
n
1
E[θˆ1 ] = ∑ E[ xi ] = µ
n i =1


2
2
2
+ 1000
µ
σ
µ
n
+

ˆ
(
)
=
θ
ECM
⇒
=
1
2
2 
n
(
1
)
121
n
+
1
σ
n

Var (θˆ2 ) =
Var (θˆ1 ) =
2 ∑
(n + 1) i =1
(n + 1) 2 
n
1
n
=
[
]
µ
E[θˆ2 ] =
E
x
∑
i
n +1
n + 1 i =1
Dependiendo de la media de la población nos interesará tomar un estimador 114
u otro.
Propiedades de los estimadores de máxima
verosimilitud
Los estimadores máximo verosímiles son:
Asintóticamente insesgados
Asintóticamente normales
Asintóticamente eficientes
Invariantes bajo transformaciones biunívocas
Si ∃ estimador suficiente, θˆMV es suficiente
115
116
117
118
119
120
121
122
123
Pregunta:
¿Qué porcentaje de hogares españoles tienen
ordenador con conexión a Internet?
¿Definición clara?:
¿Qué es un hogar?
¿Piso de estudiantes?
¿Apartamento en la playa?...
¿Muestra representativa?
Resultado:
42,8 %
Estimación
puntual
42,8 %
¿Si volviéramos
a realizar el
estudio, volvería
a salir 42,8%?
± 3,2 %
Margen
de error
Intervalo de confianza del 95 %
Dice la verdad el
95 % de les veces
¡Empate técnico!
El País, 18 febrer 2006. Pàgina 18
«Però curiosament, sembla que les persones que redacten els titulars no entenen el significat
d’aquests conceptes clau. Per exemple, aquí el titular destaca que el PP redueix la seva distancia al
PSOE a 1,6 punts... Però el text diu que l’error és del 2%, i això vol dir que, amb la confiança que ho
han calculat, el valor real podria estar 2 punts amunt o 2 punts avall del que ha sortit. Que l’error sigui
del 2% vol dir que si ho tornessin a fer, perfectament podria sortir 1 punt el PP per davant del PSOE. El
titular correcte seria que no s’han detectat diferències significatives entre el PP i el PSOE». Pere Grima
Consumo de cannabis
El País, 7 febrer 2003
«El consum de cànnabis ha augmentat en un 0,5% (que queda
dins el mar- ge d’error). Realment no podem afirmar que hagi
augmentat, potser s’ha mantingut o fins i tot ha disminuït una
mica!» Pere Grima
¿Aumenta el consumo?
«El artículo periodístico anterior está basado en
este estudio. Que dice que el margen de error
es de ±2,36%. ¡Y el consumo de éxtasis, heroína,
cocaína y tabaco se ha reducido menos de un
1%, según el diario!»
Pere Grima
Tamaño de la muestra
Tamaños de muestra para estimación de proporciones con una confianza del 95 %
Tamaño de la
población
±1%
Márgen de error
±2%
±3%
±4%
500
1.000
1.500
2.000
2.500
476
906
1.298
1.656
1.984
414
706
924
1.092
1.225
341
517
624
696
748
3.000
3.500
4.000
4.500
5.000
2.286
2.566
2.824
3.065
3.289
1.334
1.425
1.501
1.566
1.623
6.000
7.000
8.000
9.000
10.000
3.693
4.049
4.365
4.647
4.899
15.000
20.000
25.000
50.000
100.000
500.000
1.000.000
1.500.000
2.000.000
50.000.000
±5%
± 10 %
273
376
429
462
485
218
278
306
323
333
81
88
91
92
93
788
818
843
863
880
501
513
522
530
536
341
347
351
354
357
94
94
94
95
95
1.715
1.788
1.847
1.896
1.937
906
926
942
954
965
546
553
559
563
567
362
365
367
369
370
95
95
95
96
96
5.856
6.489
6.939
8.057
8.763
2.070
2.144
2.191
2.291
2.345
997
1.014
1.024
1.045
1.056
578
583
587
594
597
375
377
379
382
383
96
96
96
96
96
9.423
9.513
9.543
9.558
9.602
2.390
2.396
2.398
2.399
2.401
1.065
1.066
1.067
1.067
1.068
600
600
600
601
601
384
384
385
385
385
97
97
97
97
97
p = q = 0,5. Valores redondeados por exceso.
«Un dels aspectes més destacats
d’aquesta taula és que la grandària
de la mostra no augmenta
proporcionalment amb la grandària
de la població.
Fixem-nos per exemple en un
marge d’error del 4%: si la població
és de 1.000 individus necessitem
una mostra de 376, però si
multipliquem per 10 la grandària de
la població, la de la mostra no es
multiplica ni per 2, i si a continuació
multipliquem la població per 100, la
mostra es queda pràcticament
igual. A moltes persones els hi costa
entendre això. No entenen perquè
es necessita la mateixa grandària de
mostra per una població de
500.000 individus que per una de
50 milions». Pere Grima
Tamaño de la muestra
Cuchara para catar la sopa
a diario
Olla para la sopa a diario
Cuchara para catar la sopa
con invitados
Olla para la sopa con invitados
Asegurar la representatividad
Estimación por intervalos de
confianza.
En este caso, en lugar de indicar simplemente un único valor
como estimación del parámetro poblacional θ, lo que haremos
es ofrecer un intervalo de valores en el que se tiene cierta
probabilidad (confianza) de que se encuentre el verdadero
valor de θ.
θˆ − ε < θ < θˆ + ε
Intervalo de confianza: Es el intervalo de las estimaciones
(probables) sobre el parámetro. Límites de los intervalos de
confianza: Son los dos valores extremos del intervalo de
confianza. Amplitud del intervalo o margen de error...
131
Ahora bien, ¿cuán grande debe de ser el intervalo de
confianza? Evidentemente, si decimos que el intervalo de
confianza va de menos infinito a más infinito, seguro que
acertamos...Pero eso no es muy útil. El caso extremo
contrario es la estimación puntual, donde la amplitud del
intervalo es nula.
La idea es crear unos intervalos de confianza de manera que
sepamos en qué porcentaje de casos el valor del parámetro
poblacional estará dentro del intervalo crítico.
Es decir, dar una medida de bondad de la estimación, la
probabilidad de que el valor real θ se encuentre dentro del
intervalo.
Coeficiente
P (θˆ − ε < θ < θˆ + ε ) = 1 − α
o grado de
confianza
Nivel de significación (N. S.)
132
¿Y cómo fijamos tal probabilidad? Usualmente se asume un
porcentaje del 95%. Al calcular un intervalo de confianza al
95%, ello quiere decir que el 95% de las veces que repitamos
el proceso de muestreo (y calculemos el estadístico), el valor
del parámetro poblacional estará dentro de tal intervalo. A ese
usual nivel de significación se le denomina confianza casi
significativa.
Otros casos usuales son:
confianza significativa: 99%.
confianza muy significativa: 99.5%
133
134
Intervalos de confianza para la media:
Supongamos que la población sigue una distribución normal,
con cierta media µ y cierta desviación típica σ. Utilizaremos como
estimador puntual para la media poblacional la media muestral x .
Sabemos que:
(1). La media de la distribución muestral de medias es la media
poblacional µ.
(2). La varianza de la distribución muestral de medias es σ2/n. O lo
que es lo mismo, la desviación típica de la distribución muestral
de medias es σ /√n.
Veremos dos casos para calcular intervalos de confianza:
(1) Conocemos la desviación típica σ y (2) no la conocemos.
135
(1) La población es normal y conocemos σ :
1 n
x = ∑ xi
n i =1
(
x ≡ N µ ,σ / n
)
Sabemos cómo se distribuye la variable aleatoria
muestral y a partir de esa distribución podemos
determinar el intervalo de confianza.
Tipificamos la variable:
x−µ
z=
≡ N (0,1)
σ/ n
Supongamos que deseamos tener un nivel de
significación α.
136
N (0,1)
α/2
α/2
1-α
-zα/2
0
zα/2
x−µ


< zα / 2  = 1 − α
P − zα / 2 <
σ/ n


σ
σ


P x −
zα / 2 < µ < x +
zα / 2  = 1 − α
n
n


137
Así, una estimación puntual de la media poblacional µ
se obtendría de una muestra de n elementos haciendo
la media muestral. Mientras que un intervalo de confianza
con nivel de significación α sería:
x−
σ
n
zα / 2 < µ < x +
σ
n
zα / 2
Nota: Observa que podemos determinar el tamaño
necesario de una muestra para obtener una
amplitud del intervalo de confianza determinada.

σ
n =  zα / 2 

ε
2
Semiamplitud
del
138
intervalo
Ejemplo: n = 100 x = 20 σ = 5 Confianza = 0.95 ⇒ α = 0.05
Buscamos en las tablas N(0,1) los valores de z que
dejan 0.05 / 2 = 0.025 de probabilidad por abajo y
0.05 / 2 = 0.025 de probabilidad por arriba:
− z0.025 = −1.96 y z0.025 = +1.96
x−
x+
σ
n
σ
n
zα / 2
zα / 2
5
= 20 −
1.96 = 19.02
100
5
= 20 +
1.96 = 20.98
100
⇒ µ ∈ (19.02; 20.98)
139
Observemos cómo a medida que el tamaño muestral
aumenta, la amplitud del intervalo disminuye.
(Evidentemente, esto es general, no sólo para la media.)
Veamos, un ejemplo. Supongamos que deseamos 1 - α =
0.95:
Caso 1. Media muestral =10, varianza poblacional = 4, tamaño
muestral =12.
2
2 

P 10 + (−1.96) ⋅
< µ < 10 + 1.96 ⋅ =
=
) 0.95
 P ( 8.87 < µ < 11.13
12
12 

Caso 2. Media muestral =10, varianza poblacional = 4, tamaño
muestral = 20.
2
2 

< µ < 10 + 1.96 ⋅ =
=
P 10 + (−1.96) ⋅
) 0.95
 P ( 9.12 < µ < 10.88
20
20 

140
Supongamos ahora que deseamos que 1 - α = 0.99. En tal caso,
tendremos más seguridad de que el parámetro de interés se halle
en los límites del intervalo. El problema es que incrementar la
confianza aumenta la amplitud del intervalo.
Caso 1. Media muestral = 10, varianza poblacional = 4, tamaño
muestral = 12. Intervalo al 95%
2
2 

P 10 + (−1.96) ⋅
< µ < 10 + 1.96 ⋅ =
=
) 0.95
 P ( 8.87 < µ < 11.13
12
12 

Caso 2. Media muestral = 10, varianza poblacional =4, tamaño
muestral = 12. Intervalo al 99%
2
2 

P 10 + (−2.57) ⋅
< µ < 10 + 2.57 ⋅ =
=
) 0.99
 P ( 8.52 < µ < 11.48
12
12 

141
(2) Población normal y desconocemos σ :
Por el tema anterior sabemos que la distribución muestral
del estadístico:
x−µ
s/ n
no es una distribución normal, sino una distribución t de
Student con n -1 grados de libertad.
x−µ


P − tα / 2 <
< tα / 2  = 1 − α
s/ n


s
s


P x −
tα / 2 < µ < x +
tα / 2  = 1 − α
n
n


142
En definitiva, para la media (cuando conocemos la varianza
poblacional), tenemos :
x−
σ
n
zα / 2 < µ < x +
σ
n
zα / 2
Pero si no conocemos la varianza poblacional (el caso
realista), tenemos como intervalo:
s
s
x−
tα / 2 < µ < x +
tα / 2
n
n
143
Distribución de la población desconocida y n > 30
Si n es grande (n > 30), la distribución del estadístico
x−µ
s/ n
será prácticamente una distribución normal N(0,1). Y el
intervalo de confianza será:
x−
σ
n
zα / 2 < µ < x +
σ
n
zα / 2
Nota: Observa, en particular, que para n > 30 la distribución t de Student
es prácticamente una normal.
144
Intervalo de confianza para las varianzas:
Población ≅ N ( µ , σ )
n
1
2
2
Estimador : s* =
( xi − x )
∑
n − 1 i =1
(n − 1) s
Vimos que
σ
2
*
2
≡χ
2
n −1
Intervalo de confianza:
(n − 1) s
χ
2
*
2
n −1;α / 2
≤σ ≤
2
(n − 1) s
χ
2
*
2
n −1;1−α / 2
145
Ejemplo:
χ2
30 ; 0.975
n = 31
↓
n -1 = 30
s* = 4
α = 0.05
= 47.0 ; χ 302 ; 0.025 = 16.8 de las tablas de χ 2
2
×
30 × 4 2
30
4
≤σ 2 ≤
⇒ 10.21 ≤ σ 2 ≤ 28.57
47.0
16.8
Si se desea estimar σ = √σ2 ⇒ 3.20 ≤ σ ≤ 5.35
146
Resumen: Procedimiento para determinar el
intervalo de confianza
1. Fijar el nivel de significación ⇒ α
2. Conociendo la distribución
f (θˆ) en el muestreo
de
θˆ
una estimación puntual, hallar los percentiles x α/2 y x
f (x )
y poseyendo
1- α/2
de
f (θˆ)
0.4
α /2
α /2
θˆ
LCi
d
0.2
θ =αb/ 2
α /2
d
LCs
Si f (θˆ) es simétrica el intervalo
de confianza es simétrico en
x y en probabilidad.
0.0
0.0
θˆ
1.5
3.0
4.5
Si f (θˆ) es asimétrica el intervalo
de confianza es simétrico en
probabilidad solamente.
147
Intervalo
148
149
Si
Si
¿Se conoce valor de σ?
No
¿Es grande n?
n>30
No
Si
¿Es aproximadamente
normal la población?
Si
No
No
¿Se conoce valor de σ?
Usar s de la muestra
para estimar σ
X ± zα / 2
σ
n
X ± zα / 2
Usar s
de la muestra
para estimar σ
s
n
X ± zα / 2
σ
n
X
± tα / 2
s
n
Aumentar tamaño
de la muestra
para determinar un
estimado de intervalo
151
152
153
154
155
156
157
158
159
160
161
162
163
Intervalo de confianza para diferencia de medias muestrales
164
165
166
167
Intervalo de confianza para σ12/σ22.
168
169
Intervalo de confianza para la proporción poblacional.
170
171
173
174
175
Aleatoriedad D. J. Bennett (pág. 88):
176
encuestas con respuesta aleatorizada
y encuestas sesgadas
pag.189-190
margen de error: cap. 11
177
Aleatoriedad D. J. Bennett (pág. 97):
178
Descargar