Cap´ıtulo 4 Estimación puntual

Capı́tulo 4 Estimación puntual El objetivo que se marca la Estadı́stica es adaptar un modelo de comportamiento a distintas caracterı́sticas de una población, para poder estimarlas. Para ello partimos del conocimiento de cada caracterı́stica en una muestra a la que pedimos sea suficientemente representativa. Se puede definir esta representatividad de distintas maneras, y cada una llevarı́a a un concepto diferente de muestra. La definición que consideraremos en este capı́tulo (y que utilizaremos en los sucesivos) es la más sencilla y habitual. Una vez tomada una muestra representativa, se decide tomar cierto modelo para la caracterı́stica estudiada, que supondremos es numérica. Si esta caracterı́stica, X, es de tipo de discreto, la consideraremos como una variable aleatoria, y ası́ adaptaremos un modelo con distribución dada por una función de masa P . Si X es de tipo continuo, el modelo vendrá dado por una función de masa, f . Para abreviar, diremos que estamos estudiando una población X con función de masa P (o función de densidad f ). 1. Muestra aleatoria. Parámetro y estimador Definición 1.1. Una muestra aleatoria de tamaño N , de una población X con función de masa P (o función de densidad f ), es un vector aleatorio (X1 � X2 � . . . � XN ) donde: a) La distribución marginal de cada Xi viene dada por P (o por f ). b) X1 , . . . , XN son independientes. Veamos cómo, con esta definición, podemos tomar siempre una muestra aleatoria como una muestra representativa de la población estudiada. a) Cada Xi representa el valor de X en el elemento i–ésimo de la muestra. b) El hecho de que cada distribución marginal venga dada por la misma distribución significa, informalmente, que todos los elementos de la población tienen la misma oportunidad de aparecer en la muestra. Con otras palabras: la probabilidad de que un valor aparezca en la observación i–ésima depende sólo de la probabilidad que dicho valor tiene en la población, de manera que cada observación representa por igual a la población. 67 68 CAPÍTULO 4. ESTIMACIÓN PUNTUAL c) Suponer que las observaciones sean independientes, es cómodo para el desarrollo teórico del modelo del muestreo. Ası́, si (X1 � . . . � XN ) es una muestra aleatoria de una población X, la función de masa de la muestra vendrá dada por: caso discreto: P (x1 � . . . � xN ) = P (x1 ) · · · · · P (xN ) caso continuo: f (x1 � . . . � xN ) = f (x1 ) · · · · · f (xN ) . Esta independencia la podemos entender de dos maneras: – de un modo exacto, significa que cada vez que observamos un elemento lo devolvemos a la población (“reemplazamiento”); – de una manera aproximada, significa que el tamaño de la población es muy grande en comparación con el de la muestra, de modo que la composición de la población se altera muy poco al faltarle algunos elementos (los ya observados). Nota: Conviene distinguir entre los conceptos de “muestra aleatoria” y “muestra”. La primera es un vector aleatorio, con su función de masa (o densidad, según el tipo). La segunda es una colección de números, x1 � . . . � xN , que entenderemos como una “realización” del vector aleatorio (X1 � . . . � XN ). En adelante, en general, usaremos letras mayúsculas para referirnos a variables, y minúsculas para valores de las mismas. Por supuesto desconocemos P (o f ), pues de conocerla el problema no serı́a tal. Precisamente, nuestro objetivo es ganar información sobre P (o f ) a partir de las observaciones X1 � . . . � XN . Para ello, una buena idea es resumir la información aportada por los datos muestrales. Lo mejor serı́a que estos resúmenes no perdiesen nada de la información contenida en la muestra. Esta necesidad nos lleva a la definición de estadı́stico: Definición 1.2. Un estadı́stico es una función real T de la muestra aleatoria (X1 � . . . � XN ). En particular, un estadı́stico es una variable aleatoria, T (X1 � . . . � XN ), y, en consecuencia, podemos hablar de su esperanza, varianza, . . . . Algunos de los más utilizados, en todo tipo de situaciones, son: N 1 � Xi Media muestral: X̄ = N i=1 N 1 � Varianza muestral: VX = (Xi − X̄)2 N i=1 N 1 � 2 Cuasi–varianza muestral: SX = (Xi − X̄)2 . N − 1 i=1 Propiedades: Sea (X1 � . . . � XN ) una muestra aleatoria de una población X con esperanza µ y varianza σ 2 , entonces: a) E[X̄] = µ; σ2 b) V (X̄) = ; N 2 c) E[SX ] = σ2; d) E[VX ] = NN−1 σ 2 . 1. MUESTRA ALEATORIA. PARÁMETRO Y ESTIMADOR 69 Ejercicio 1 Demostrar las propiedades anteriores. Solución: Basta aplicar las definiciones en cada caso, en efecto: N N � �1 � 1 � 1 Xi = E[Xi ] = Nµ = µ ; E[X̄] = E N i=1 N i=1 N V (X̄) = V N N � �1 � 1 � Xi = 2 V (Xi ) N i=1 N i=1 (por independencia) σ2 1 2 N σ = ; N2 N N � � � 1 � �� 1 2 ] = E (Xi − X̄)2 = (Xi − µ + µ − X̄)2 E E[SX N − 1 i=1 N −1 i=1 = �� 1 E (Xi − µ)2 + N (X̄ − µ)2 + 2(µ − X̄) (Xi − µ) = N −1 i=1 i=1 N N � �� 1 (Xi − µ)2 − N (X̄ − µ)2 E N −1 i=1 N = � � �� σ2 � 1 �� 1 � 2 Nσ − N = σ2 ; E (Xi − µ)2 − N E (X̄ − µ)2 = = N − 1 i=1 N −1 N N E[VX ] = E 1.1. � �N − 1 � N −1 2 = (Xi − X̄)2 = E SX σ2 . N N i=1 N �� Inferencia paramétrica El problema que tenemos planteado es el desconocimiento de la disribución concreta que sigue la población X. En la mayorı́a de casos este desconocimiento será parcial, y, por ejemplo, tendremos cierta sospecha del tipo de función de masa o de densidad que buscamos: una binomial, una Poisson, una normal, . . . . Ası́, será habitual suponer que la población sigue cierto modelo de probabilidad del que nos faltará conocer algún parámetro. De la resolución de este tipo de problemas se encarga la Inferencia paramétrica. En general, la situación será la siguiente: La población, X, sigue cierta distribución, de la que conocemos la forma de su función de masa P (o de su función de densidad, f ). En ella aparece un parámetro, θ, desconocido (que puede ser de una o más dimensiones). El conjunto de posibles valores del parámetro se denomina espacio paramétrico, y lo representaremos por Θ. Si la caracterı́stica que estudiamos es discreta, representaremos a su función de masa por Pθ ; y si es continua, a su función de densidad por fθ . En ambos casos, para resaltar el objetivo de nuestro problema: resolver o estimar el valor del parámetro desconocido θ. La función de masa (o densidad) de la muestra aleatoria será de la forma: caso discreto: Pθ (x1 � . . . � xN ) = Pθ (x1 ) · · · · · Pθ (xN ) caso continuo: fθ (x1 � . . . � xN ) = fθ (x1 ) · · · · · fθ (xN ) . 70 CAPÍTULO 4. ESTIMACIÓN PUNTUAL La Inferencia paramétrica se divide en tres grandes partes, dependiendo de la naturaleza del problema a resolver, y del tipo de solución que demos: A. estimación puntual; B. estimación por intervalos de confianza; C. contraste de hipótesis paramétricas; y dedicaremos sendos capı́tulos a cada una de ellas. Terminamos esta introducción a la Inferencia paramétrica, ocupándonos de una cuestión que quedó en el aire: no perder demasiada información con los estadı́sticos. Más en concreto, introducido en el lenguaje el concepto de parámetro, θ, lo que nos gustarı́a es utilizar estadı́sticos sencillos que conserven toda la información sobre θ que lleva la muestra (X1 � . . . � XN ). Motivamos este último cometido con el siguiente ejemplo. Ejemplo 32 La probabilidad de obtener cara al lanzar una moneda es un valor desconocido, θ, entre 0 y 1 (espacio paramétrico Θ = (0� 1)). Si al suceso cara le asignamos el valor 1, y a su contrario, cruz, el valor 0, y lanzamos la moneda N veces, obtenemos una muestra aleatoria (X1 � . . . � XN ) de una población, X, con función de masa Pθ (x) = θx (1 − θ)1−x x = 0� 1 ( distribucción de Bernoulli ) . La función de masa de la muestra es: Pθ (x1 � . . . � xN ) = θx1 (1 − θ)1−x1 · · · · · θxN (1 − θ)1−xN = θ �N i=1 xi �N (1 − θ)N − i=1 xi . Parece claro, en este caso, que el estadı́stico N � T (X1 � . . . � XN ) = Xi = “número de caras obtenidas” i=1 contiene tanta información sobre θ como la descripción detallada del resultado de los N lanzamientos. Observando que T ∼ B(N ; θ), será fácil obtener la probabilidad de una muestra (x1 � . . . � xN ) condicionada por el hecho de que el estadı́stico T ha tomado el valor t (han salido t caras en los N lanzamientos): P (x1 � . . . � xN | T = t) = P (T = t | x1 � . . . � xN ) Pθ (x1 � . . . � xN ) Pθ (T = t) �N P (T = t | x1 � . . . � xN ) θ i=1 xi (1 − θ)N − = �N � θt (1 − θ)N −t t  N �  θ t �1−θ)N −t 1  si = xi = t  N t N θ �1−θ)N −t ( ( i=1 t) t) = N �    0 si xi �= t . �N i=1 xi i=1 Es decir, la distribución de la muestra (X1 � . . . � XN ) condicionada por T = t no depende del parámetro θ. Intuitivamente, esto significa que lo que queda de la muestra, una vez extraı́da la información contenida en T , no nos va a decir nada más sobre θ. En este sentido se introduce el siguiente concepto. 2. ESTIMACIÓN PUNTUAL 71 Definición 1.3. Sea (X1 � . . . � XN ) una muestra aleatoria de una población X con función de masa Pθ (o función de densidad fθ ). Un estadı́stico, T , es suficiente para θ cuando la distribución de (X1 � . . . � XN ) condicionada por T = t no depende de θ. A pesar de la claridad del concepto, es muy difı́cil utilizar esta definición para decidir si un estadı́stico es suficiente. En primer lugar hay que conjeturar qué estadı́stico T puede ser suficiente, y después obtener la distribución condicionada, que será casi siempre difı́cil. Afortunadamente hay una caracterización sencilla alternativa: Propiedad: Sea (X1 � . . . � XN ) una muestra aleatoria de una población X con función de masa Pθ �o función de densidad fθ ). Un estadı́stico T es suficiente para θ si y sólo si: � � Pθ (x1 � . . . � xN ) = g T (x1 � . . . � xN )� θ h(x1 � . . . � xN ) �o la correspondiente identidad para el caso continuo). En el caso del lanzamiento de la moneda, se tendrı́a la siguiente sencilla comprobación: Pθ (x1 � . . . � xN ) = θ con �N i=1 xi (1 − θ)N − T (x1 � . . . � xN ) = �N i=1 xi � = g(T (x1 � . . . � xN )� θ) h(x1 � . . . � xN ) N i=1 xi g(T (x1 � . . . � xN )� θ) = θT �x1 �...�xN ) (1 − θ)N −T �x1 �...�xN ) h(x1 � . . . � xN ) = 1 . 2. Estimación puntual Supongamos dada una caracterı́stica X y aceptemos que sigue cierto modelo dado por una función de masa Pθ (o de densidad fθ ), de la que desconocemos el valor del parámetro θ dentro de un espacio paramétrico Θ. El objetivo de la estimación puntual es tomar un valor plausible para el parámetro θ. Para ello se considera una muestra aleatoria (X1 � . . . � XN ) de la población X, y a partir de una realización de la misma, esto es, una colección de datos x1 � . . . � xN , se decidirá el valor para la estimación del parámetro. Definición 2.1. Sea (X1 � . . . � XN ) una muestra aleatoria de una población X con función de masa Pθ (o función de densidad fθ ), donde θ ∈ Θ. Un estimador puntual de g(θ) es una función T que a cada posible muestra (x1 � . . . � xN ) le hace corresponder una estimación T (x1 � . . . � xN ) de g(θ). Observaciones: a) Habitualmente se buscará estimar θ (esto es, g(θ) = θ), pero puede interesarnos estimar alguna función de θ (por ejemplo θ2 ). Por esta razón hablaremos de estimadores puntuales de g(θ). b) Evidentemente, T (X1 � . . . � XN ) es una variable aleatoria (o un vector aleatorio si g(θ) tiene más de una dimensión). En realidad, un estimador puntual no es más que un estadı́stico con un objetivo concreto: acercarse lo más posible al verdadero valor de g(θ). Según nos convenga usaremos la notación T (X1 � . . . � XN ) o simplemente T . c) La definición dada de estimador puntual es muy general, y engloba tanto estimadores razonables como otros completamente absurdos. Lo siguiente que haremos es mostrar propiedades deseables para un estimador razonable, eliminando, ası́, estimadores indeseables. 72 CAPÍTULO 4. ESTIMACIÓN PUNTUAL Definición 2.2. El error cuadrático medio de un estimador T para estimar g(θ) se define como:  N � � �    (caso discreto) T (x1 � . . . � xN ) − g(θ)2 Pθ (x1 ) · · · · · Pθ (xN ) � � i=1 � Eθ (T − g(θ))2 = � �   T (x1 � . . . � xN ) − g(θ)2 fθ (x1 ) · · · · · fθ (xN ) dx1 . . . dxN (caso continuo)  � Es claro que un estimador será más efectivo cuánto más pequeño sea su error cuadrático medio. El siguiente desarrollo nos aporta una fórmula sencilla para el cálculo de este error: � � � � Eθ (T − g(θ))2 = Eθ (T − Eθ [T ] + Eθ [T ] − g(θ))2 � � = Eθ (T − Eθ [T ])2 + (Eθ [T ] − g(θ))2 = Vθ (T ) + (Sesgo(T ))2 siendo Sesgo(T ) = Eθ [T ] − g(θ). De esta última igualdad vemos que podemos reducir el error cuadrático medio, bien reduciendo la varianza del estimador, bien reduciendo su sesgo para estimar g(θ). Podemos eliminar completamente el sesgo al trabajar con estimadores insesgados. Definición 2.3. Un estimador T es insesgado (o centrado) para estimar g(θ), si verifica: Eθ [T ] = g(θ) para todo θ ∈ Θ . Al considerar sólo estimadores insesgados podemos estar eliminando otros estimadores valiosos (a pesar de no ser insesgados). No obstante tenemos una ventaja adicional, pues para un estimador insesgado su error cuadrático medio es simplemente Vθ (T ). De este modo, dentro de los estimadores insesgados buscarı́amos el de varianza mı́nima. Este cometido es muy interesante, pero excede el nivel de este curso. Es sencillo encontrar ejemplos de estimadores insesgados. Ejemplo 33 Sea (X1 � . . . � XN ) una muestra aleatoria de una población X con distribución N (µ ; σ). En este caso θ = (µ� σ), y tenemos: T1 (X1 � . . . � XN ) = X̄ es un estimador insesgado de g1 (θ) = µ, ya que Eθ [X̄] = µ; 2 (cuasi-varianza) es insesgado para estimar g2 (θ) = σ 2 , ya que Eθ [X̄] = σ 2 . T1 (X1 � . . . � XN ) = SX Otra propiedad bastante razonable a exigir a un estimador T es que, cuanto mayor sea el tamaño muestral N , más se acerque la estimación T (x1 � . . . � xN ) al verdadero valor de g(θ). Esto nos lleva al siguiente concepto: Definición 2.4. Un estimador T es consistente para estimar g(θ) si, para todo θ ∈ Θ: � lı́m FT (t) = 0 para t < g(θ) N →∞ lı́m FT (t) = 1 N →∞ para t > g(θ) donde FT es la función de distribución de T (X1 � . . . � XN ). 3. MÉTODOS DE CONSTRUCCIÓN DE ESTIMADORES 73 La idea es que, a medida que aumenta el tamaño muestral, más se concentra la distribución de la variable aleatoria T (X1 � . . . � XN ) alrededor del verdadero valor de g(θ) (sea cual sea), y, en consecuencia, las estimaciones T (x1 � . . . � xN ) cada vez se acercan más a dicho valor. Calcular la función de distribución de T suele ser difı́cil, por lo que es difı́cil ver, a partir de la definición, cuándo un estimador va a ser consistente. Afortunadamente tenemos una propiedad, más fácil de comprobar en muchas situaciones, que nos permite afirmar si un estimador es consistente. Propiedad: Si T es un estimador que verifica: i. lı́m Eθ [T ] = g(θ), para todo θ ∈ Θ, N →∞ ii. lı́m Vθ (T ) = 0, para todo θ ∈ Θ, N →∞ entonces es consistente. Ejemplo 34 Sea (X1 � . . . � XN ) una muestra aleatoria de una población X ∼ N (µ � σ), θ = (µ� σ). El estimador T1 (X1 � . . . � XN ) = X̄ es consistente para estimar g1 (θ) = µ, ya que: lı́m Eθ [T1 ] = N →∞ lı́m Vθ (T1 ) = N →∞ 3. lı́m Eθ [X̄] = lı́m µ = µ = g1 (θ) N →∞ N →∞ σ2 = 0. N →∞ N lı́m Vθ (X̄) = lı́m N →∞ Métodos de construcción de estimadores Vamos a mostrar dos sencillos métodos de construcción de estimadores puntuales razonables, aplicables a cualquier situación. Empezaremos con el método de los momentos, y posteriormente, pasaremos al más utilizado: el método de máxima verosimilitud. 3.1. Método de los momentos Definición 3.1. Sea (X1 � . . . � XN ) una muestra aleatoria de una población X con función de masa Pθ (o función de densidad fθ ), con parámetro desconocido θ = (θ1 � . . . � θk ) ∈ Θ. El estimador de θ por el método de los momentos es el formado por los valores θ�1 , . . . , θ�k que se obtienen al resolver, en las variables θ1 � . . . � θk , el sistema de ecuaciones:  N 1 �    E [X] = Xi θ   N i=1  .. .. .. . . .   N  � 1   Xk  Eθ [X k ] = N i=1 i donde, Eθ [X j ] se denomina momento de orden j. La justificación de este método es sencilla: parece razonable pensar que los momentos de la población se parecerán a los respectivos momentos de la muestra. Se plantean entonces tantas ecuaciones como componentes tenga el parámetro a estimar. No obstante, este método presenta serios incovenientes. Por ejemplo, es posible obtener estimaciones fuera del espacio paramétrico. 74 CAPÍTULO 4. ESTIMACIÓN PUNTUAL 3.2. Método de máxima verosimilitud Es el método más utilizado para construir estimadores puntuales. Se basa, también, en una idea muy sencilla, y tiene la ventaja de no presentar los inconvenientes que a veces surgen con el método de los momentos. Motivamos el método con el siguiente ejemplo. Ejemplo 35 Sabemos que en una urna hay, entre negras y blancas, un total de 4 bolas, pero desconocemos la composición exacta. Sea θ la proporción de, por ejemplo, bolas blancas. Es claro cuál es el espacio paramétrico en este caso, pues θ puede tomar los valores: 0; 1/4 ; 1/2 ; 3/4 ; 1. Para obtener más información se extraen de la urna 2 bolas, con reemplazamiento (para tener independencia en las observaciones). Supongamos que la primera bola ha sido blanca y la segunda negra, es decir la muestra obtenida ha sido (B� N ). La probabilidad que tenı́amos de obtener esta muestra, dependiendo de la composición de la urna, esto es de la proporción θ, era:  0 si θ = 0      3/16 si θ = 1/4 1/4 si θ = 1/2 Pθ (B� N ) =   3/16 si θ = 3/4    0 si θ = 1 La idea del método de máxima verosimilitud es tomar como estimación de θ aquel valor que daba más probabilidad a la muestra obtenida, en este caso θ� = 1/2. Definición 3.2. �Método de máxima verosimilitud) Sea (X1 � . . . � XN ) una muestra aleatoria de una población X con función de masa Pθ (o función de densidad fθ ), con parámetro desconocido � de θ es el formado por los valores θ = (θ1 � . . . � θk ) ∈ Θ. El estimador de máxima verosimilitud, θ, � � (θ1 � . . . � θk ) que maximizan la que llamaremos función de verosimilitud de la muestra obtenida, que se define por: � (caso discreto) Pθ (x1 ) · . . . · Pθ (xn ) L(θ) = L(θ ; x1 � . . . � xN ) = fθ (x1 ) · . . . · fθ (xn ) (caso continuo) Observaciones: a) La función de verosimilitud expresa la probabilidad (o la densidad) que los diferentes valores de θ dan a la muestra obtenida. Lo que hacemos, por tanto, es maximizar esa probabilidad (o densidad). b) De la misma definición, vemos que la estimación de máxima verosimilitud siempre es un valor del espacio paramétrico. c) Para no tener que manejar productos, en muchas ocasiones es más cómodo encontrar el estimador de máxima verosimilitud considerando log(L(θ)), en lugar de L(θ). Puesto que la función 3. MÉTODOS DE CONSTRUCCIÓN DE ESTIMADORES 75 log(x) es monótona creciente, log(L(θ)) se hace máxima (y mı́nima) en los mismos puntos que L(θ). La ventaja es que basta despejar θ1 , . . . , θk del sistema de ecuaciones:  ∂ log(L(θ))   = 0   ∂θ1  .. .. .. . . .    ∂ log(L(θ))   = 0 ∂θk Por supuesto hay que tener precaución con este procedimiento, pues el punto crı́tico obtenido no tiene por qué corresponder a un máximo. Además, puede ocurrir que la función de verosimilitud se maximice en un extremo, en cuyo caso no tiene por qué dar un punto crı́tico, es decir, no obtendrı́amos nada con este procedimiento. � será el d) Obsérvese, por último, que si θ� es el estimador de máxima verosimilitud, entonces g(θ) de g(θ). Si, por ejemplo, hemos obtenido X̄ como estimador de máxima verosimilitud para θ, entonces X̄ 2 lo será para θ2 . Ejercicio 2 Dada una muestra aleatoria de tamaño N de una población X, calcular los estimadores � y por el de máxima verosimilitud, θ, � en los puntuales para θ por el método de los momentos, θ, siguientes casos: a) X ∼ Bernoulli de parámetro p; b) X ∼ Poisson (λ); c) X ∼ Exponencial (λ); d) X ∼ N (µ ; σ), (σ conocido); e) X ∼ N (µ ; σ), (µ conocido); f) X ∼ N (µ ; σ). Solución: Planteamos ambos métodos en cada caso, y utilizamos, para cuando haga falta, la igualdad E[X 2 ] = V [X] + E[X]2 , que se deduce inmediatamente de la definición de varianza de una variable aleatoria. a) X ∼ Bernoulli de parámetro p. Queremos estimar el parámetro desconocido p ∈ (0� 1), siendo la función de masa: Pp (x) = px (1 − p)x x = 0� 1 . Método de los momentos. Puesto que el parámetro es de una dimensión, se considera solo el primer momento. El momento de orden 1 de la población, Ep [X], es su esperanza, p, y el de la muestra es la media muestral x̄. Tomamos pues el estimador p� = x̄ . 76 CAPÍTULO 4. ESTIMACIÓN PUNTUAL Método de máxima verosimilitud. La función de verosimilitud es: L(p) = L(p ; x1 � . . . � xN ) = px1 (1 − p)x1 · · · · · pxN (1 − p)xN = p � xi (1 − p)N − � xi . Tomamos, para simplificar cálculos, su logaritmo y lo maximizamos: � � � �� xi log(1 − p) log(L(p)) = xi log(p) + N − � � � d log(L(p)) xi N − xi xi − N p = − = . dp p 1−p p(1 − p) � xi = x̄. Además, Al igualar a cero la derivada se obtiene un punto crı́tico para p = N1 un simple análisis del signo de la derivada nos muestra que ésta es positiva para p < x̄, y negativa para p > x̄* . Por tanto, este punto crı́tico corresponde a un máximo, por lo que tomamos como estimador de máxima verosimilitud: p� = x̄ . b) X ∼ Poisson (λ). Queremos estimar el parámetro desconocido λ > 0, siendo la función de masa: Pλ (x) = λx e−λ x� x = 0� 1� 2� . . . . Método de los momentos. El momento de orden 1 de la población, Eλ [X], es su esperanza, λ, y el de la muestra es la media muestral x̄. Tomamos pues el estimador de momentos � = x̄ . λ Método de máxima verosimilitud. La función de verosimilitud para una muestra dada es: L(λ) = con logaritmo: log(L(λ)) = �� λ � xi � e−N λ xi � � �� xi log(λ) − N λ − log xi �) . El último término asusta, pero no hay problema porque es una constante. Al derivar e igualar a cero obtenemos: � 1 � d log(L(λ)) xi = − N = 0 ⇐⇒ λ = xi = x̄ . dλ λ N De nuevo, es fácil ver que este punto crı́tico corresponde a un máximo, por lo que tomaremos como estimador de máxima verosimilitud: � � = x̄ . λ En efecto, positivo, al ser el espacio paramétrico el intervalo �0� 1). Por otra parte, � el denominador es siempre � � p < x̄ = �1 xi equivale a N p < xi , quedando el numerador positivo. Por contra, p > x̄ equivale a N p > xi , quedando el numerador negativo. 3. MÉTODOS DE CONSTRUCCIÓN DE ESTIMADORES 77 c) X ∼ Exponencial (λ). Queremos estimar el parámetro desconocido λ > 0, siendo la función de densidad: fλ (x) = λe−λx x > 0. Método de los momentos. El momento de orden 1 de la población, Eλ [X], es su esperanza, 1/λ, y el de la muestra es la media muestral x̄. Tomamos pues el estimador de momentos �= 1. λ x̄ Método de máxima verosimilitud. La función de verosimilitud para una muestra dada es: L(λ) = λN e−λ � con logaritmo: log(L(λ)) = N log(λ) − Al derivar e igualar a cero obtenemos: N �� d log(L(λ)) = − xi = 0 dλ λ xi �� ⇐⇒ � xi λ . 1 N λ= � = . x̄ xi Obsérvese que λ > 0 y que cada dato, xi , de una muestra correspondiente a esta población es positivo. Es fácil, entonces, ver que este punto crı́tico corresponde a un máximo, por lo que tomaremos como estimador de máxima verosimilitud: �= 1. λ x̄ d) X ∼ N (µ ; σ), (σ conocido). Queremos estimar el parámetro desconocido µ ∈ �, siendo la función de densidad para esta población: � � (x − µ)2 1 exp − fµ (x) = √ � para todo x ∈ �. 2σ 2 σ 2π Método de los momentos. El momento de orden 1 de la población, Eµ [X], es su esperanza, µ, y el de la muestra es la media muestral x̄. Tomamos pues el estimador de momentos µ � = x̄ . Método de máxima verosimilitud. La función de verosimilitud para una muestra dada es: � � � � �N 1 (xi − µ)2 √ exp − L(µ) = 2σ 2 σ 2π con logaritmo: √ � (xi − µ)2 2 �� 2σ 2 √ xi − 2 xi µ + N µ 2 = −N log(σ 2π) − . 2σ 2 log(L(µ)) = −N log(σ 2π) − 78 CAPÍTULO 4. ESTIMACIÓN PUNTUAL Al derivar, respecto de µ, e igualar a cero obtenemos: � d log(L(µ)) xi N µ − 2 = 0 ⇐⇒ = 2 dµ σ σ µ = x̄ . Este punto crı́tico corresponde a un máximo (¿por qué?), por lo que tomaremos como estimador de máxima verosimilitud: µ � = x̄ . e) X ∼ N (µ ; σ), (µ conocido). Ahora el parámetro desconocido es σ > 0, siendo la función de densidad para esta población: � � (x − µ)2 1 fσ (x) = √ exp − � para todo x ∈ �. 2σ 2 σ 2π Método de los momentos. El momento de orden 1 de la población, E[X], es su esperanza, µ. Ası́, la primera ecuación planteada en el método de los momentos no nos dice nada del parámetro que intentamos estimar, σ. Tomamos entonces el momento de orden 2: E[X 2 ] = V [X] + E[X]2 = σ 2 + µ2 . Por otra parte, el momento de orden 2 de la muestra es σ 2 + µ2 = 1 � 2 xi N 1 � 2 xi . La ecuación quedarı́a: N Tomamos pues el estimador de momentos para g(σ) = σ 2 1 � 2 σ �2 = x i − µ2 . N Nótese que en este caso podemos obtener estimadores absurdos. Si, por ejemplo, sabemos que µ = 5 y la muestra es (3� 3� 6), obtendrı́amos σ �2 = −7, que es un valor absurdo. Método de máxima verosimilitud. La función de verosimilitud para una muestra dada es: � � � � �N 1 (xi − µ)2 √ L(σ) = exp − 2σ 2 σ 2π con logaritmo: √ log(L(σ)) = −N log(σ 2π) − � Al derivar, respecto de σ, e igualar a cero obtenemos: � −N d log(L(σ)) (xi − µ)2 = 0 ⇐⇒ = + dσ σ σ3 (xi − µ)2 . 2σ 2 σ2 = 1 � (xi − µ)2 . N Este punto crı́tico corresponde a un máximo (¿por qué?), por lo que tomaremos como estimador de máxima verosimilitud para g(σ) = σ 2 : 1 � σ �2 = (xi − µ)2 . N 3. MÉTODOS DE CONSTRUCCIÓN DE ESTIMADORES 79 f) X ∼ N (µ ; σ). En este último caso, se desconocen ambos parámetros de la población, y ası́ estimaremos: θ = (µ� σ), con µ ∈ � y σ > 0. La función de densidad es: � � (x − µ)2 1 exp − fθ (x) = √ � para todo x ∈ �. 2σ 2 σ 2π Método de los momentos. Tenemos que considerar dos ecuaciones (pues hay 2 parámetros): µ = x̄ σ 2 + µ2 = Obtenemos como solución para el sistema: µ = x̄ y σ2 = N 1 � 2 x . N i=1 i N 1 � 2 1 � (xi − x̄)2 xi − x̄2 = varianza muestral = N N i=1 de manera que, el estimador de momentos para g(µ� σ) = (µ� σ 2 ), vendrá dado por: µ � = x̄ � N 1 � (xi − x̄)2 . σ � = N i=1 2 Nótese que ahora, el estimador para σ 2 no puede producir resultados absurdos. Método de máxima verosimilitud. La función de verosimilitud para una muestra dada es: � � � � �N 1 (xi − µ)2 √ exp − L(µ� σ) = 2σ 2 σ 2π con logaritmo: √ log(L(µ� σ)) = −N log(σ 2π) − que conviene escribir como: √ log(L(µ� σ)) = −N log(σ) − N log( 2π) − � � (xi − µ)2 ; 2σ 2 x2i − 2 �� xi µ + N µ 2 ; 2σ 2 El sistema planteado, igualando a cero las derivadas parciales respecto a cada una de las variables, es: � ∂ log(L(µ� σ)) xi N µ − 2 =0 = 2 ∂µ σ σ � −N (xi − µ)2 ∂ log(L(µ� σ)) = + =0 ∂σ σ σ3 � µ = x̄ � con solución: σ 2 = N1 (xi − x̄)2 . Tomamos esta solución como estimación de máxima verosimilitud al dar un máximo: N 1 � 2 (xi − x̄)2 . µ � = x̄ � σ � = N i=1 80 CAPÍTULO 4. ESTIMACIÓN PUNTUAL Problemas 1. Sea (X1 � . . . � XN ) una muestra aleatoria de una población X con función de densidad: fθ (x) = e−x+θ si x > θ � (θ ∈ �) . a) Hallar el estimador por el método de los momentos de θ. b) Estudiar si el estimador encontrado en el apartado anterior es insesgado para estimar el parámetro θ. 2. Sea (X1 � . . . � XN ) una muestra aleatoria de una población X con función de densidad: fθ (x) = � −x2 � x exp θ2 2θ2 si x > 0 � (θ > 0) . Hallar el estimador de máxima verosimilitud de θ. 3. Sea (X1 � . . . � XN ) una muestra aleatoria de una población X con función de densidad: fθ (x) = θ � 1 �θ+1 x si x > 1 � (θ > 1) . a) Hallar el estimador de máxima verosimilitud de θ. b) Hallar el estimador de θ por el método de los momentos. 4. Se toma una muestra aleatoria de tamaño N de una población cuya función de densidad es: f (x) = � (log x − µ)2 � exp − 2σ 2 xσ 2π 1 √ si x > 0 donde µ puede ser cualquier número real y σ es mayor que cero. Hallar los estimadores de máxima verosimilitud de µ y σ 2 . 5. En una gran piscifactorı́a hay una proporción desconocida de peces de cierta especie A. Para obtener información sobre dicha proporción, vamos a ir sacando peces al azar. a) Si la proporción de peces de la especie A es p, ¿cuál es la probabilidad de que el primer pez de la especie A sea el décimo que extraemos? b) Tres personas realizan, independientemente unas de otras, el proceso de sacar peces al azar hasta encontrarse con el primero de tipo A: La primera persona obtiene el primer pez tipo A en la décima extracción; la segunda, en la decimoquinta extracción; y en la decimoctava extracción, la tercera. Escribir la función de verosimilitud y obtener la estimación de máxima verosimilitud de p. 6. Para estudiar la proporción p de caballos afectados por la peste equina se les va a someter a una prueba. Sabemos que la prueba será positiva si el animal está enfermo; si está sano, hay una probabilidad 0.04 de que la prueba resulte positiva. a) Halla la relación entre la probabilidad p de estar enfermo y la probabilidad q de dar positivo en la prueba. 3. MÉTODOS DE CONSTRUCCIÓN DE ESTIMADORES 81 b) Calcula el estimador de máxima verosimilitud de p si 500 ejemplares son sometidos a la prueba y resulta positiva en 95 casos. c) Si realmente hay un 20 % de caballos afectados por la epidemia, ¿cuál es la probabilidad de que la prueba resulte positiva en al menos 95 ejemplares de los 500? 7. La distancia X entre un árbol cualquiera y el árbol más próximo a él en un bosque sigue una distribución de Rayleigh con función de densidad fθ (x) = 2θx exp(−θx2 ) si x ≥ 0 (θ > 0) . a) Obtener los estimadores de máxima verosimilitud de θ y de g(θ) = Eθ [X] = basados en muestras de tamaño N . 1 � π � 12 � 2 θ b) Obtener el estimador de θ por el método de los momentos. 8. El coseno X del ángulo con el que se emiten los electrones en un proceso radiactivo es una variable aleatoria con densidad fθ (x) = 1 + θx 2 si − 1 ≤ x ≤ 1 (−1 ≤ θ ≤ 1) . Consideramos una muestra aleatoria (X1 � . . . � XN ) de esta variable aleatoria. a) Obtener el estimador de θ por el método de los momentos. b) Calcular la varianza de este estimador y demostrar que es consistente para estimar θ. 9. Se considera una muestra aleatoria (X1 � . . . � XN ) de una población con densidad 1 fθ (x) = e−x/θ θ si x > 0 (θ > 0) . a) Obtener el estimador de máxima verosimilitud de θ y θ2 . b) Consideramos ahora el estimador T = X1 + 2X2 . 3 ¿Es T insesgado para estimar θ? Hallar la varianza de T , sabiendo que la varianza poblacional es θ2 . 10. La lectura de voltaje dada por un voltı́metro conectado a un circuito eléctrico, es una variable aleatoria con distribución uniforme en el intervalo (θ� θ + 1), siendo θ el verdadero valor (desconocido) del voltaje. Sea (X1 � . . . � XN ) una muestra aleatoria de lecturas de dicho voltı́metro. a) Demostrar que la media muestral X̄ es un estimador sesgado de θ, y calcular el sesgo. b) Calcular el error cuadrático medio de X̄. c) Obtener, a partir de X̄, un estimador insesgado de θ. 82 CAPÍTULO 4. ESTIMACIÓN PUNTUAL 11. Disponemos de una variable aleatoria de una población con función de densidad fθ (x) = θ x2 si x ≥ θ (θ > 0) . Calcular el estimador de máxima verosimilitud de θ y de 1/θ. 12. Se obtiene una muestra aleatoria (X1 � . . . � XN ) de una población con función de densidad fθ (x) = θxθ−1 si x ∈ (0� 1) (θ > 0) . Para estimar θ, calcúlese: a) un estadı́stico suficiente; b) el estimador de máxima verosimilitud; c) el estimador por el método de los momentos. 13. Supongamos que se realizan N observaciones independientes de una variable aleatoria X, con función de densidad 1 1 fθ (x) = x θ −1 si 0 ≤ x ≤ 1 (θ �= 0) . θ a) Obtener el estimador de θ por el método de los momentos. b) Obtener el estimador de máxima verosimilitud de θ. c) Obtener el estimador de máxima verosimilitud de Pθ (X < 1/2). 14. El error (en centigramos) que se comete al pesar un objeto en una balanza puede considerarse como una variable aleatoria con distribución N (µ = 0 ; σ = 15). a) Calcular la probabilidad de que el error cometido (en valor absoluto) en una pesada sea inferior a 20 centigramos. b) Si se quiere que el error medio cometido (en valor absoluto) sea inferior a 5 centigramos con probabilidad 0.9, ¿cuál es el número mı́nimo de pesadas que hemos de realizar? 15. Vamos a clasificar las personas de un paı́s según dos caracterı́sticas: color de los ojos (oscuros o claros) y sexo (hombre o mujer). Las dos caracterı́sticas son independientes. a) Obtenemos una muestra al azar de la población con los siguientes resultados: 200 150 350 300 mujeres de ojos claros; hombres con ojos claros; mujeres con ojos oscuros; hombres de ojos oscuros. Obtener la estimación de máxima verosimilitud de p = P {hombre} y q = P {ojos claros}. b) Después de muchas horas de intenso trabajo llegamos a saber con exactitud que p = 0.4 y q = 0.6. Si tomamos 8 personas al azar de ese paı́s, ¿cuál es la probabilidad de encontrar alguna mujer de ojos oscuros? Y si la muestra que tomamos es de 200 personas, ¿cuál es la probabilidad de que haya más de 60 mujeres de ojos oscuros?

Cap´ıtulo 4 Estimación puntual

Documentos relacionados

Productos

Apoyo

Cap´ıtulo 4 Estimación puntual

Documentos relacionados

Añadir este documento a la recogida (s)

Añadir a este documento guardado

Sugiéranos cómo mejorar StudyLib