Tema 3: Estimación puntual Estadı́stica Aplicada (Bioquı́mica). Profesora: Amparo Baı́llo Tema 3: Estimación puntual 1 Muestra aleatoria y estadı́sticos Objetivo: Estudiar una v.a. numérica X en una población a partir de la información contenida en una muestra aleatoria de individuos de esa población. Una muestra aleatoria (simple) de tamaño n de X es una colección X1 , . . . , Xn tal que • cada Xi tiene la misma distribución de probabilidad que X ; • las v.a. X1 , . . . , Xn son independientes entre sı́. Extraeremos información acerca de la distribución de probabilidad de X , que es desconocida, a partir de la muestra X1 , . . . , Xn de X . Si X es una v.a. discreta, la función de masa de la muestra es P(x1 , . . . , xn ) = P{X1 = x1 , . . . , Xn = xn } = P(x1 ) · · · P(xn ). Si X es continua con densidad f , la función de densidad de la muestra es f (x1 , . . . , xn ) = f (x1 ) · · · f (xn ). Estadı́stica Aplicada (Bioquı́mica). Profesora: Amparo Baı́llo Tema 3: Estimación puntual 2 Un primer paso para analizar la muestra aleatoria suele ser simplificar la información contenida en ella. Un estadı́stico es una función real T = T (X1 , . . . , Xn ) de la muestra X1 , . . . , Xn . Un estadı́stico es una variable aleatoria porque depende de la muestra aleatoria. Por tanto, podemos estudiar su esperanza E (T ), su varianza V (T ) y, en general, su distribución de probabilidad (que dependerá de la de X ). Por ejemplo, • T (X1 , . . . , Xn ) = máx(X1 , . . . , Xn ) n 1X • T (X1 , . . . , Xn ) = Xi = X̄ n i=1 1 si más de la mitad de los Xi −1 si más de la mitad de los Xi • T (X1 , . . . , Xn ) = 0 en cualquier otro caso Estadı́stica Aplicada (Bioquı́mica). Profesora: Amparo Baı́llo es mayor que 1000 es menor que 500 Tema 3: Estimación puntual 3 Media, varianza y cuasivarianza muestrales Algunos estadı́sticos muy utilizados: n 1X • Media muestral X̄ = Xi n i=1 n • Varianza muestral VX = n 1X 2 1X (Xi − X̄ )2 = Xi − X̄ 2 n n i=1 • Cuasi-varianza muestral S 2 = i=1 1 n−1 n X (Xi − X̄ )2 i=1 X̄ es una medida de centralización, localización o posición de la muestra, es decir, da una idea del valor central alrededor del cual se reparten los valores X1 , . . . , Xn . VX y S 2 son medidas de la dispersión o variabilidad de la muestra respecto a la media X̄ . Estadı́stica Aplicada (Bioquı́mica). Profesora: Amparo Baı́llo Tema 3: Estimación puntual 4 Antes de la observación: X̄ V X1 , . . . , Xn −→ X T = T (X1 , . . . , Xn ) son v.a.’s Si tomo observaciones concretas de la población: x̄ vx x1 , . . . , xn −→ son números. t = T (x1 , . . . , xn ) Si tomo nuevas observaciones de la población: x̃¯ ṽx x̃1 , . . . , x̃n −→ son otros números. t̃ = T (x̃1 , . . . , x̃n ) Estadı́stica Aplicada (Bioquı́mica). Profesora: Amparo Baı́llo Tema 3: Estimación puntual 5 Ejemplo 3.1: Se sabe que una solución estándar de glucosa es 5.05 mM. Cinco estudiantes de un grupo de prácticas de Bioquı́mica la analizan mediante el método de la glucosa oxidasa obteniendo 5.12 4.96 5.21 5.18 5.26 . Otros cinco estudiantes del otro grupo de prácticas obtienen 5.17 5.23 4.95 Estadı́stica Aplicada (Bioquı́mica). Profesora: Amparo Baı́llo 4.99 5.03 . Tema 3: Estimación puntual 6 Propiedades: • • • • • Sea X1 , . . . , Xn una muestra aleatoria de una v.a. X con E (X ) = µ y V (X ) = σ 2 . Entonces E (X̄ ) = µ (la media muestral es un estimador insesgado de la σ2 media poblacional) y V (X̄ ) = . n √ √ La desviación tı́pica de X̄ , σ/ n, o su estimación, s/ n, reciben el nombre de error tı́pico (standard error) de la media muestral. n−1 2 E (VX ) = σ . n E (SX2 ) = σ 2 . σ Si X ∼ N(µ, σ), entonces X̄ ∼ N µ, √ . n Para una v.a. X con cualquier distribución de probabilidad, µ < ∞ y σ < ∞, el Teorema Central del Lı́mite (TCL) establece que X̄ σ sigue aproximadamente una N µ, √ . n La aproximación de X̄ a la normal se considera válida para n ≥ 30 y es tanto mejor cuanto mayor es n. Estadı́stica Aplicada (Bioquı́mica). Profesora: Amparo Baı́llo Tema 3: Estimación puntual 7 Ejemplo 3.2: Tomo 50 muestras de tamaño n = 10 cada una de una N(3,1). Calculo las 50 medias muestrales correspondientes y obtengo 3,17 2,18 3,17 3,27 3,08 3,24 3,38 3,21 2,86 3,10 3,11 2,48 2,80 2,89 2,49 3,16 3,47 2,93 2,95 3,31 2,60 3,07 2,97 2,72 2,85 2,99 2,62 3,06 3,64 3,16 2,61 3,13 2,81 3,05 3,22 2,72 2,83 2,78 3,28 2,89 2,86 3,20 2,97 2,64 3,00 3,58 3,12 3,21 2,91 3,17 2 1.5 1 0.5 0 1.5 2 2.5 Promedio = 2,99 3 3.5 4 4.5 Desviación tı́pica = 0,28 Estadı́stica Aplicada (Bioquı́mica). Profesora: Amparo Baı́llo Tema 3: Estimación puntual 8 Ejemplo 3.2 (cont.): Tomo 50 muestras de tamaño n = 30 cada una de una exp(1/2). Calculo las 50 medias muestrales correspondientes y obtengo 2,34 1,75 1,50 2,34 1,90 2,12 1,63 2,30 1,76 1,67 1,74 2,00 3,06 1,72 2,05 2,68 1,54 1,95 2,43 1,81 2,77 1,99 1,91 2,08 2,01 1,72 2,16 1,81 2,21 2,18 1,93 2,03 2,33 2,63 1,38 2,51 2,00 1,92 2,32 2,34 2,00 1,81 2,05 1,76 1,72 1,36 2,36 1,52 2,74 2,28 1.4 1.2 1 0.8 0.6 0.4 0.2 0 1 1.5 Promedio = 2,04 2 2.5 3 3.5 Desviación tı́pica = 0,37 Estadı́stica Aplicada (Bioquı́mica). Profesora: Amparo Baı́llo Tema 3: Estimación puntual 9 Código para comprobar el TCL (muestras de una exponencial): (no es necesario mirarlo) IlustracionTCLexp.R # Distribución de la media muestral (comprobación del TCL) N = 20 # Número de muestras aleatorias n = 30 # Tama~ no de cada muestra aleatoria # Generación de N muestras de tama~ no n. # Muestras de exponenciales de parámetro lambda lambda = 1 X = rexp(N*n,rate = lambda) X = matrix(X,nrow=N,ncol=n) # Ordeno las observaciones en una matriz N*n m = rowMeans(X) # Calculo las medias muestrales por filas. Obtengo N medias t = seq(1/lambda-5/sqrt(n*lambda),1/lambda+5/sqrt(n*lambda),0.01) d = dnorm(t,mean=1/lambda,sd=1/sqrt(n*lambda)) H = hist(m,freq=FALSE) hist(m,freq=FALSE,cex.axis=1.5,xaxs="i",main="",xlab="",ylab="", xlim=c(min(t),max(t)),ylim=c(0,max(c(d,H$intensities)))) lines(t,d,type="l",lwd=3,col="red",xlab="",ylab="") title(main=paste("Histograma de medias para N=",bquote(.(N)), "\n muestras de tama~ no n=",bquote(.(n))," de una exp(",bquote(.(lambda)),")"),font.main=1,cex.main=1.5) Estadı́stica Aplicada (Bioquı́mica). Profesora: Amparo Baı́llo Tema 3: Estimación puntual 10 Inferencia paramétrica La distribución de la v.a. X de interés no suele ser conocida. Pero es habitual suponer que pertenece a una familia paramétrica de distribuciones (Poisson, normal, . . . ). En ese caso, para determinar totalmente la distribución de X basta especificar el valor de uno o varios parámetros (λ para la Poisson, µ y σ para la normal). Notación en inferencia paramétrica: Parámetro: θ Espacio paramétrico: Θ, conjunto de posibles valores del parámetro Si X es discreta: función de masa Pθ . Si X es continua: función de densidad fθ . Partes de la inferencia paramétrica: • Estimación puntual • Estimación por intervalos de confianza • Contrastes de hipótesis paramétricas Estadı́stica Aplicada (Bioquı́mica). Profesora: Amparo Baı́llo Tema 3: Estimación puntual 11 Estimación puntual de parámetros Sea X1 , . . . , Xn una muestra aleatoria de una v.a. X con función de distribución Fθ , donde θ es un parámetro desconocido que toma valores en el espacio paramétrico Θ. La estimación puntual consiste en decidir cuál es el valor de θ ∈ Θ más plausible teniendo en cuenta el modelo paramétrico de distribución supuesto para X y los valores observados x1 , . . . , xn de la muestra. Un estimador puntual de una función g (θ) es un estadı́stico T = T (X1 , . . . , Xn ) que, a cada observación x1 , . . . , xn de la muestra, le asigna una estimación T (x1 , . . . , xn ) de g (θ). El estimador puntual del parámetro θ se denota frecuentemente con θ̂. Estadı́stica Aplicada (Bioquı́mica). Profesora: Amparo Baı́llo Tema 3: Estimación puntual 12 embriones muertos 0 1 2 3 4 5 6 7 o más Frecuencia relativa Probabilidad Poisson 0.405 0.366 0.168 0.042 0.013 0.003 0.003 0 e λ̂ e λ̂ λ̂ e λ̂ λ̂2 /2 e λ̂ λ̂3 /3! e λ̂ λ̂4 /4! e λ̂ λ̂5 /5! e λ̂ λ̂6 /6! e λ̂ λ̂7 /7! 0.3 Frecuencia relativa 0.2 Distribución de Poisson 0.1 No Recuento de hembras 125 113 52 13 4 1 1 0 309 0.0 No embriones muertos 0 1 2 3 4 5 6 7 o más Total 0.4 Ejemplo 3.3: Un método para estudiar las sustancias que causan mutaciones consiste en matar a ratones hembra 17 dı́as después de aparearse y examinar sus úteros en busca de embriones muertos. La tabla que sigue proporciona datos de 309 hembras. Estadı́stica Aplicada (Bioquı́mica). Profesora: Amparo Baı́llo 0 1 2 3 4 Tema 3: Estimación puntual 5 6 7 8 9 13 Estimación por el método de máxima verosimilitud Sea X1 , . . . , Xn una muestra aleatoria de una población X cuya distribución de probabilidad depende del parámetro desconocido θ = (θ1 , . . . , θk ). Si X es discreta su función de masa se denota por Pθ y, si es continua, su densidad es fθ . La función de verosimilitud L expresa lo verosı́mil que es el valor de un parámetro θ en base a la muestra observada x1 , . . . , xn Pθ (x1 ) · · · Pθ (xn ) si X es discreta L(θ) = L(θ; x1 , . . . , xn ) = fθ (x1 ) · · · fθ (xn ) si X es continua La estimación de máxima verosimilitud (EMV) de θ = (θ1 , . . . , θk ) es θ̂ = (θ̂1 , . . . , θ̂k ), los valores de θ ∈ Θ que maximizan L(θ). Es el método más habitual para estimar parámetros de un modelo de probabilidad. Estadı́stica Aplicada (Bioquı́mica). Profesora: Amparo Baı́llo Tema 3: Estimación puntual 14 Distribución X ∼ Bernoulli(p) X ∼ Poisson(λ) X ∼ exp(λ) X ∼ N(µ, σ) EMV p̂ = x̄ λ̂ = x̄ λ̂ = 1/x̄ µ̂ = x̄ , σ̂ 2 = vx Observación: Si θ̂ es el EMV de θ entonces g (θ̂) es el EMV de g (θ) para cualquier función g . Ejemplo 3.3 (cont.): λ̂ = x̄ = 0.91586 No embriones muertos 0 1 2 3 4 5 6 7 o más Frecuencia relativa 0.405 0.366 0.168 0.042 0.013 0.003 0.003 0 Estadı́stica Aplicada (Bioquı́mica). Profesora: Amparo Baı́llo Probabilidad Poisson 0.400 0.367 0.169 0.051 0.012 0.002 0.000 0.000 Tema 3: Estimación puntual 15 EmbrionesRaton.R (no es necesario mirarlo) Valores = seq(0,9) Frec = c(125,113,52,13,4,1,1,0,0,0) n = sum(Frec) m = sum(Valores*Frec)/n barplot(Frec/n,names=Valores,space=0) MasaPoisson= dpois(Valores,m) lines(Valores+0.5,MasaPoisson,type="l",col="red",lwd=2) points(Valores+0.5,MasaPoisson,pch=19,col="red",cex=2) legend(x=4.5,y=0.35,c(paste("Frecuencia\n relativa\n"), paste("Distribución\n de Poisson")), col=c("grey","red"),cex=1.2, bty="n",lty=c(1,1), lwd=c(10,2),text.font=1) Estadı́stica Aplicada (Bioquı́mica). Profesora: Amparo Baı́llo Tema 3: Estimación puntual 16 Ejemplo 2.15 (cont.): Una genetista pesó 28 corderos hembra al nacer. Todos los corderos nacieron en abril, todos eran de la misma raza (Rambouillet) y todos fueron nacimientos de un solo cordero (no habı́a gemelos). La dieta y otras condiciones experimentales fueron las mismas para todos los progenitores. Los pesos fueron: 4.3 5.5 5.4 5.8 5.2 5.3 5.5 6.1 6.2 4.0 3.6 4.9 6.7 4.9 5.8 4.5 5.3 5.2 5.6 4.8 4.9 4.9 5.0 5.4 4.7 5.3 5.2 4.7 0.4 Frecuencia relativa 0.2 Distribución normal 0.0 Si suponemos que X = peso de un cordero al nacer sigue una distribución N(µ,σ), los e.m.v. de los parámetros son µ̂ = x̄ = 5.168 y σ̂ 2 = 0.413. 0.6 Pesos de corderos al nacer 3.5 4.0 4.5 5.0 5.5 6.0 6.5 7.0 Estadı́stica Aplicada (Bioquı́mica). Profesora: Amparo Baı́llo Tema 3: Estimación puntual 17 PesoCordero.R (no es necesario mirarlo) # Pesos de corderos Rambouillet al nacer: Pesos = c(4.3,5.2,6.2,6.7,5.3,4.9,4.7, 5.5,5.3,4.0,4.9,5.2,4.9,5.3, 5.4,5.5,3.6,5.8,5.6,5.0,5.2, 5.8,6.1,4.9,4.5,4.8,5.4,4.7) n = length(Pesos) # Tama~ no muestral m = mean(Pesos) # Media muestral v = (n-1)*var(Pesos)/n # Varianza muestral t = seq(m-5*v,m+5*v,0.1) d = dnorm(t,m,sqrt(v)) hist(Pesos,freq=FALSE,col="skyblue",cex.axis=1.5,xaxs="i",xlab="",ylab ="", main="Pesos de corderos al nacer",cex.main=1.5,font.main=1) lines(t,d,type="l",col="red",lwd=2) legend(x=5.7,y=0.65,c(paste("Frecuencia \n relativa\n"), paste("Distribución \n normal")), col=c("skyblue","red"),cex=1.2, bty="n",lty=c(1,1), lwd=c(10,2),text.font=1) Estadı́stica Aplicada (Bioquı́mica). Profesora: Amparo Baı́llo Tema 3: Estimación puntual 18 Ejemplo 2.16 (cont.): El 18 de diciembre de 1997 nacieron 44 bebés en un hospital de Brisbane, Australia. Las horas de nacimiento de los 44 bebés aparecieron en el periódico local. Consideramos los tiempos (en minutos) entre un nacimiento y el siguiente. 0.020 Tiempos entre nacimientos Distribución exponencial 0.010 0.000 Si suponemos que X = “tiempo entre un nacimiento y el siguiente” sigue una distribución exp(λ), el e.m.v. de λ es λ̂ = 1/x̄ = 1/32.49 = 0.03. Frecuencia relativa 0 50 100 150 Estadı́stica Aplicada (Bioquı́mica). Profesora: Amparo Baı́llo Tema 3: Estimación puntual 19 Babyboom.R (no es necesario mirarlo) Datos = read.table("Datos_babyboom.txt",header=F) # Tiempos de los nacimientos en minutos contados desde la medianoche: T = Datos$V4 n = length(T) # Tiempos ENTRE los nacimientos (tiempo entre un nacimiento y el siguiente): X = T[seq(2,n)]-T[seq(1,n-1)] m = mean(X) # Media muestral hist(X,freq=FALSE,col="skyblue",cex.axis=1.5,xaxs="i",xlab="",ylab="", main="Tiempos entre nacimientos",cex.main=1.5,font.main=1) t = seq(0,170,1) d = dexp(t,rate=1/m) lines(t,d,type="l",col="red",lwd=3) legend(x=50,y=0.02,c(paste("Frecuencia \n relativa\n"), paste("Distribución \n exponencial")), col=c("skyblue","red"),cex=1.2, bty="n",lty=c(1,1), lwd=c(10,3),text.font=1) Estadı́stica Aplicada (Bioquı́mica). Profesora: Amparo Baı́llo Tema 3: Estimación puntual 20