Tema 3: Estimación puntual

Anuncio
Tema 3: Estimación puntual
Estadı́stica Aplicada (Bioquı́mica). Profesora: Amparo Baı́llo
Tema 3: Estimación puntual
1
Muestra aleatoria y estadı́sticos
Objetivo: Estudiar una v.a. numérica X en una población a partir
de la información contenida en una muestra aleatoria de individuos
de esa población.
Una muestra aleatoria (simple) de tamaño n de X es una colección
X1 , . . . , Xn tal que
• cada Xi tiene la misma distribución de probabilidad que X ;
• las v.a. X1 , . . . , Xn son independientes entre sı́.
Extraeremos información acerca de la distribución de probabilidad
de X , que es desconocida, a partir de la muestra X1 , . . . , Xn de X .
Si X es una v.a. discreta, la función de masa de la muestra es
P(x1 , . . . , xn ) = P{X1 = x1 , . . . , Xn = xn } = P(x1 ) · · · P(xn ).
Si X es continua con densidad f , la función de densidad de la
muestra es f (x1 , . . . , xn ) = f (x1 ) · · · f (xn ).
Estadı́stica Aplicada (Bioquı́mica). Profesora: Amparo Baı́llo
Tema 3: Estimación puntual
2
Un primer paso para analizar la muestra aleatoria suele ser
simplificar la información contenida en ella.
Un estadı́stico es una función real T = T (X1 , . . . , Xn ) de la
muestra X1 , . . . , Xn .
Un estadı́stico es una variable aleatoria porque depende de la
muestra aleatoria. Por tanto, podemos estudiar su esperanza
E (T ), su varianza V (T ) y, en general, su distribución de
probabilidad (que dependerá de la de X ).
Por ejemplo,
• T (X1 , . . . , Xn ) = máx(X1 , . . . , Xn )
n
1X
• T (X1 , . . . , Xn ) =
Xi = X̄
n
i=1

 1 si más de la mitad de los Xi
−1 si más de la mitad de los Xi
• T (X1 , . . . , Xn ) =

0 en cualquier otro caso
Estadı́stica Aplicada (Bioquı́mica). Profesora: Amparo Baı́llo
es mayor que 1000
es menor que 500
Tema 3: Estimación puntual
3
Media, varianza y cuasivarianza muestrales
Algunos estadı́sticos muy utilizados:
n
1X
• Media muestral X̄ =
Xi
n
i=1
n
• Varianza muestral VX =
n
1X 2
1X
(Xi − X̄ )2 =
Xi − X̄ 2
n
n
i=1
• Cuasi-varianza muestral S 2 =
i=1
1
n−1
n
X
(Xi − X̄ )2
i=1
X̄ es una medida de centralización, localización o posición de la
muestra, es decir, da una idea del valor central alrededor del cual
se reparten los valores X1 , . . . , Xn .
VX y S 2 son medidas de la dispersión o variabilidad de la muestra
respecto a la media X̄ .
Estadı́stica Aplicada (Bioquı́mica). Profesora: Amparo Baı́llo
Tema 3: Estimación puntual
4
Antes de la observación:

 X̄
V
X1 , . . . , Xn −→
 X
T = T (X1 , . . . , Xn )
son v.a.’s
Si tomo observaciones concretas de la población:

 x̄
vx
x1 , . . . , xn −→
son números.

t = T (x1 , . . . , xn )
Si tomo nuevas observaciones de la población:

 x̃¯
ṽx
x̃1 , . . . , x̃n −→
son otros números.

t̃ = T (x̃1 , . . . , x̃n )
Estadı́stica Aplicada (Bioquı́mica). Profesora: Amparo Baı́llo
Tema 3: Estimación puntual
5
Ejemplo 3.1: Se sabe que una solución estándar de glucosa es 5.05
mM. Cinco estudiantes de un grupo de prácticas de Bioquı́mica la
analizan mediante el método de la glucosa oxidasa obteniendo
5.12
4.96
5.21
5.18
5.26 .
Otros cinco estudiantes del otro grupo de prácticas obtienen
5.17
5.23
4.95
Estadı́stica Aplicada (Bioquı́mica). Profesora: Amparo Baı́llo
4.99
5.03 .
Tema 3: Estimación puntual
6
Propiedades:
•
•
•
•
•
Sea X1 , . . . , Xn una muestra aleatoria de una v.a. X con E (X ) = µ
y V (X ) = σ 2 . Entonces
E (X̄ ) = µ (la media muestral es un estimador insesgado de la
σ2
media poblacional) y V (X̄ ) =
.
n
√
√
La desviación tı́pica de X̄ , σ/ n, o su estimación, s/ n, reciben
el nombre de error tı́pico (standard error) de la media muestral.
n−1 2
E (VX ) =
σ .
n
E (SX2 ) = σ 2 .
σ
Si X ∼ N(µ, σ), entonces X̄ ∼ N µ, √ .
n
Para una v.a. X con cualquier distribución de probabilidad, µ < ∞
y σ < ∞, el Teorema Central del
Lı́mite
(TCL) establece que X̄
σ
sigue aproximadamente una N µ, √ .
n
La aproximación de X̄ a la normal se considera válida para n ≥ 30
y es tanto mejor cuanto mayor es n.
Estadı́stica Aplicada (Bioquı́mica). Profesora: Amparo Baı́llo
Tema 3: Estimación puntual
7
Ejemplo 3.2: Tomo 50 muestras de tamaño n = 10 cada una de
una N(3,1). Calculo las 50 medias muestrales correspondientes y
obtengo
3,17
2,18
3,17
3,27
3,08
3,24
3,38
3,21
2,86
3,10
3,11
2,48
2,80
2,89
2,49
3,16
3,47
2,93
2,95
3,31
2,60
3,07
2,97
2,72
2,85
2,99
2,62
3,06
3,64
3,16
2,61
3,13
2,81
3,05
3,22
2,72
2,83
2,78
3,28
2,89
2,86
3,20
2,97
2,64
3,00
3,58
3,12
3,21
2,91
3,17
2
1.5
1
0.5
0
1.5
2
2.5
Promedio = 2,99
3
3.5
4
4.5
Desviación tı́pica = 0,28
Estadı́stica Aplicada (Bioquı́mica). Profesora: Amparo Baı́llo
Tema 3: Estimación puntual
8
Ejemplo 3.2 (cont.): Tomo 50 muestras de tamaño n = 30 cada
una de una exp(1/2). Calculo las 50 medias muestrales
correspondientes y obtengo
2,34
1,75
1,50
2,34
1,90
2,12
1,63
2,30
1,76
1,67
1,74
2,00
3,06
1,72
2,05
2,68
1,54
1,95
2,43
1,81
2,77
1,99
1,91
2,08
2,01
1,72
2,16
1,81
2,21
2,18
1,93
2,03
2,33
2,63
1,38
2,51
2,00
1,92
2,32
2,34
2,00
1,81
2,05
1,76
1,72
1,36
2,36
1,52
2,74
2,28
1.4
1.2
1
0.8
0.6
0.4
0.2
0
1
1.5
Promedio = 2,04
2
2.5
3
3.5
Desviación tı́pica = 0,37
Estadı́stica Aplicada (Bioquı́mica). Profesora: Amparo Baı́llo
Tema 3: Estimación puntual
9
Código para comprobar el TCL (muestras de una exponencial): (no es necesario
mirarlo)
IlustracionTCLexp.R
# Distribución de la media muestral (comprobación del TCL)
N = 20 # Número de muestras aleatorias
n = 30 # Tama~
no de cada muestra aleatoria
# Generación de N muestras de tama~
no n.
# Muestras de exponenciales de parámetro lambda
lambda = 1
X = rexp(N*n,rate = lambda)
X = matrix(X,nrow=N,ncol=n) # Ordeno las observaciones en una matriz N*n
m = rowMeans(X) # Calculo las medias muestrales por filas. Obtengo N medias
t = seq(1/lambda-5/sqrt(n*lambda),1/lambda+5/sqrt(n*lambda),0.01)
d = dnorm(t,mean=1/lambda,sd=1/sqrt(n*lambda))
H = hist(m,freq=FALSE)
hist(m,freq=FALSE,cex.axis=1.5,xaxs="i",main="",xlab="",ylab="",
xlim=c(min(t),max(t)),ylim=c(0,max(c(d,H$intensities))))
lines(t,d,type="l",lwd=3,col="red",xlab="",ylab="")
title(main=paste("Histograma de medias para N=",bquote(.(N)),
"\n muestras de tama~
no n=",bquote(.(n))," de una
exp(",bquote(.(lambda)),")"),font.main=1,cex.main=1.5)
Estadı́stica Aplicada (Bioquı́mica). Profesora: Amparo Baı́llo
Tema 3: Estimación puntual
10
Inferencia paramétrica
La distribución de la v.a. X de interés no suele ser conocida. Pero
es habitual suponer que pertenece a una familia paramétrica de
distribuciones (Poisson, normal, . . . ). En ese caso, para determinar
totalmente la distribución de X basta especificar el valor de uno o
varios parámetros (λ para la Poisson, µ y σ para la normal).
Notación en inferencia paramétrica:
Parámetro: θ
Espacio paramétrico: Θ, conjunto de posibles valores del parámetro
Si X es discreta: función de masa Pθ .
Si X es continua: función de densidad fθ .
Partes de la inferencia paramétrica:
• Estimación puntual
• Estimación por intervalos de confianza
• Contrastes de hipótesis paramétricas
Estadı́stica Aplicada (Bioquı́mica). Profesora: Amparo Baı́llo
Tema 3: Estimación puntual
11
Estimación puntual de parámetros
Sea X1 , . . . , Xn una muestra aleatoria de una v.a. X con función de
distribución Fθ , donde θ es un parámetro desconocido que toma
valores en el espacio paramétrico Θ.
La estimación puntual consiste en decidir cuál es el valor de θ ∈ Θ
más plausible teniendo en cuenta el modelo paramétrico de
distribución supuesto para X y los valores observados x1 , . . . , xn de
la muestra.
Un estimador puntual de una función g (θ) es un estadı́stico
T = T (X1 , . . . , Xn ) que, a cada observación x1 , . . . , xn de la
muestra, le asigna una estimación T (x1 , . . . , xn ) de g (θ).
El estimador puntual del parámetro θ se denota frecuentemente
con θ̂.
Estadı́stica Aplicada (Bioquı́mica). Profesora: Amparo Baı́llo
Tema 3: Estimación puntual
12
embriones
muertos
0
1
2
3
4
5
6
7 o más
Frecuencia
relativa
Probabilidad
Poisson
0.405
0.366
0.168
0.042
0.013
0.003
0.003
0
e λ̂
e λ̂ λ̂
e λ̂ λ̂2 /2
e λ̂ λ̂3 /3!
e λ̂ λ̂4 /4!
e λ̂ λ̂5 /5!
e λ̂ λ̂6 /6!
e λ̂ λ̂7 /7!
0.3
Frecuencia
relativa
0.2
Distribución
de Poisson
0.1
No
Recuento
de hembras
125
113
52
13
4
1
1
0
309
0.0
No embriones
muertos
0
1
2
3
4
5
6
7 o más
Total
0.4
Ejemplo 3.3: Un método para estudiar las sustancias que causan
mutaciones consiste en matar a ratones hembra 17 dı́as después de
aparearse y examinar sus úteros en busca de embriones muertos.
La tabla que sigue proporciona datos de 309 hembras.
Estadı́stica Aplicada (Bioquı́mica). Profesora: Amparo Baı́llo
0
1
2
3
4
Tema 3: Estimación puntual
5
6
7
8
9
13
Estimación por el método de máxima verosimilitud
Sea X1 , . . . , Xn una muestra aleatoria de una población X cuya
distribución de probabilidad depende del parámetro desconocido
θ = (θ1 , . . . , θk ). Si X es discreta su función de masa se denota
por Pθ y, si es continua, su densidad es fθ .
La función de verosimilitud L expresa lo verosı́mil que es el valor de
un parámetro θ en base a la muestra observada x1 , . . . , xn
Pθ (x1 ) · · · Pθ (xn ) si X es discreta
L(θ) = L(θ; x1 , . . . , xn ) =
fθ (x1 ) · · · fθ (xn )
si X es continua
La estimación de máxima verosimilitud (EMV) de θ = (θ1 , . . . , θk )
es θ̂ = (θ̂1 , . . . , θ̂k ), los valores de θ ∈ Θ que maximizan L(θ).
Es el método más habitual para estimar parámetros de un modelo
de probabilidad.
Estadı́stica Aplicada (Bioquı́mica). Profesora: Amparo Baı́llo
Tema 3: Estimación puntual
14
Distribución
X ∼ Bernoulli(p)
X ∼ Poisson(λ)
X ∼ exp(λ)
X ∼ N(µ, σ)
EMV
p̂ = x̄
λ̂ = x̄
λ̂ = 1/x̄
µ̂ = x̄ , σ̂ 2 = vx
Observación: Si θ̂ es el EMV de θ entonces g (θ̂) es el EMV de
g (θ) para cualquier función g .
Ejemplo 3.3 (cont.): λ̂ = x̄ = 0.91586
No embriones
muertos
0
1
2
3
4
5
6
7 o más
Frecuencia
relativa
0.405
0.366
0.168
0.042
0.013
0.003
0.003
0
Estadı́stica Aplicada (Bioquı́mica). Profesora: Amparo Baı́llo
Probabilidad
Poisson
0.400
0.367
0.169
0.051
0.012
0.002
0.000
0.000
Tema 3: Estimación puntual
15
EmbrionesRaton.R (no es necesario mirarlo)
Valores = seq(0,9)
Frec = c(125,113,52,13,4,1,1,0,0,0)
n = sum(Frec)
m = sum(Valores*Frec)/n
barplot(Frec/n,names=Valores,space=0)
MasaPoisson= dpois(Valores,m)
lines(Valores+0.5,MasaPoisson,type="l",col="red",lwd=2)
points(Valores+0.5,MasaPoisson,pch=19,col="red",cex=2)
legend(x=4.5,y=0.35,c(paste("Frecuencia\n relativa\n"),
paste("Distribución\n de Poisson")),
col=c("grey","red"),cex=1.2, bty="n",lty=c(1,1),
lwd=c(10,2),text.font=1)
Estadı́stica Aplicada (Bioquı́mica). Profesora: Amparo Baı́llo
Tema 3: Estimación puntual
16
Ejemplo 2.15 (cont.): Una genetista pesó 28 corderos hembra al
nacer. Todos los corderos nacieron en abril, todos eran de la misma
raza (Rambouillet) y todos fueron nacimientos de un solo cordero
(no habı́a gemelos). La dieta y otras condiciones experimentales
fueron las mismas para todos los progenitores. Los pesos fueron:
4.3
5.5
5.4
5.8
5.2
5.3
5.5
6.1
6.2
4.0
3.6
4.9
6.7
4.9
5.8
4.5
5.3
5.2
5.6
4.8
4.9
4.9
5.0
5.4
4.7
5.3
5.2
4.7
0.4
Frecuencia
relativa
0.2
Distribución
normal
0.0
Si suponemos que X = peso de
un cordero al nacer sigue una
distribución N(µ,σ), los e.m.v.
de los parámetros son µ̂ = x̄ =
5.168 y σ̂ 2 = 0.413.
0.6
Pesos de corderos al nacer
3.5 4.0 4.5 5.0 5.5 6.0 6.5 7.0
Estadı́stica Aplicada (Bioquı́mica). Profesora: Amparo Baı́llo
Tema 3: Estimación puntual
17
PesoCordero.R (no es necesario mirarlo)
# Pesos de corderos Rambouillet al nacer:
Pesos = c(4.3,5.2,6.2,6.7,5.3,4.9,4.7,
5.5,5.3,4.0,4.9,5.2,4.9,5.3,
5.4,5.5,3.6,5.8,5.6,5.0,5.2,
5.8,6.1,4.9,4.5,4.8,5.4,4.7)
n = length(Pesos) # Tama~
no muestral
m = mean(Pesos) # Media muestral
v = (n-1)*var(Pesos)/n # Varianza muestral
t = seq(m-5*v,m+5*v,0.1)
d = dnorm(t,m,sqrt(v))
hist(Pesos,freq=FALSE,col="skyblue",cex.axis=1.5,xaxs="i",xlab="",ylab
="",
main="Pesos de corderos al nacer",cex.main=1.5,font.main=1)
lines(t,d,type="l",col="red",lwd=2)
legend(x=5.7,y=0.65,c(paste("Frecuencia \n relativa\n"),
paste("Distribución \n normal")),
col=c("skyblue","red"),cex=1.2, bty="n",lty=c(1,1),
lwd=c(10,2),text.font=1)
Estadı́stica Aplicada (Bioquı́mica). Profesora: Amparo Baı́llo
Tema 3: Estimación puntual
18
Ejemplo 2.16 (cont.): El 18 de diciembre de 1997 nacieron 44
bebés en un hospital de Brisbane, Australia. Las horas de
nacimiento de los 44 bebés aparecieron en el periódico local.
Consideramos los tiempos (en minutos) entre un nacimiento y el
siguiente.
0.020
Tiempos entre nacimientos
Distribución
exponencial
0.010
0.000
Si suponemos que X = “tiempo entre un nacimiento y el
siguiente” sigue una distribución exp(λ), el e.m.v. de λ es
λ̂ = 1/x̄ = 1/32.49 = 0.03.
Frecuencia
relativa
0
50
100
150
Estadı́stica Aplicada (Bioquı́mica). Profesora: Amparo Baı́llo
Tema 3: Estimación puntual
19
Babyboom.R (no es necesario mirarlo)
Datos = read.table("Datos_babyboom.txt",header=F)
# Tiempos de los nacimientos en minutos contados desde la medianoche:
T = Datos$V4
n = length(T)
# Tiempos ENTRE los nacimientos (tiempo entre un nacimiento y el
siguiente):
X = T[seq(2,n)]-T[seq(1,n-1)]
m = mean(X) # Media muestral
hist(X,freq=FALSE,col="skyblue",cex.axis=1.5,xaxs="i",xlab="",ylab="",
main="Tiempos entre nacimientos",cex.main=1.5,font.main=1)
t = seq(0,170,1)
d = dexp(t,rate=1/m)
lines(t,d,type="l",col="red",lwd=3)
legend(x=50,y=0.02,c(paste("Frecuencia \n relativa\n"),
paste("Distribución \n exponencial")),
col=c("skyblue","red"),cex=1.2, bty="n",lty=c(1,1),
lwd=c(10,3),text.font=1)
Estadı́stica Aplicada (Bioquı́mica). Profesora: Amparo Baı́llo
Tema 3: Estimación puntual
20
Descargar