Capı́tulo 4 Estimación puntual El objetivo que se marca la Estadı́stica es adaptar un modelo de comportamiento a distintas caracterı́sticas de una población, para poder estimarlas. Para ello partimos del conocimiento de cada caracterı́stica en una muestra a la que pedimos sea suficientemente representativa. Se puede definir esta representatividad de distintas maneras, y cada una llevarı́a a un concepto diferente de muestra. La definición que consideraremos en este capı́tulo (y que utilizaremos en los sucesivos) es la más sencilla y habitual. Una vez tomada una muestra representativa, se decide tomar cierto modelo para la caracterı́stica estudiada, que supondremos es numérica. Si esta caracterı́stica, X, es de tipo de discreto, la consideraremos como una variable aleatoria, y ası́ adaptaremos un modelo con distribución dada por una función de masa P . Si X es de tipo continuo, el modelo vendrá dado por una función de masa, f . Para abreviar, diremos que estamos estudiando una población X con función de masa P (o función de densidad f ). 1. Muestra aleatoria. Parámetro y estimador Definición 1.1. Una muestra aleatoria de tamaño N , de una población X con función de masa P (o función de densidad f ), es un vector aleatorio (X1 � X2 � . . . � XN ) donde: a) La distribución marginal de cada Xi viene dada por P (o por f ). b) X1 , . . . , XN son independientes. Veamos cómo, con esta definición, podemos tomar siempre una muestra aleatoria como una muestra representativa de la población estudiada. a) Cada Xi representa el valor de X en el elemento i–ésimo de la muestra. b) El hecho de que cada distribución marginal venga dada por la misma distribución significa, informalmente, que todos los elementos de la población tienen la misma oportunidad de aparecer en la muestra. Con otras palabras: la probabilidad de que un valor aparezca en la observación i–ésima depende sólo de la probabilidad que dicho valor tiene en la población, de manera que cada observación representa por igual a la población. 67 68 CAPÍTULO 4. ESTIMACIÓN PUNTUAL c) Suponer que las observaciones sean independientes, es cómodo para el desarrollo teórico del modelo del muestreo. Ası́, si (X1 � . . . � XN ) es una muestra aleatoria de una población X, la función de masa de la muestra vendrá dada por: caso discreto: P (x1 � . . . � xN ) = P (x1 ) · · · · · P (xN ) caso continuo: f (x1 � . . . � xN ) = f (x1 ) · · · · · f (xN ) . Esta independencia la podemos entender de dos maneras: – de un modo exacto, significa que cada vez que observamos un elemento lo devolvemos a la población (“reemplazamiento”); – de una manera aproximada, significa que el tamaño de la población es muy grande en comparación con el de la muestra, de modo que la composición de la población se altera muy poco al faltarle algunos elementos (los ya observados). Nota: Conviene distinguir entre los conceptos de “muestra aleatoria” y “muestra”. La primera es un vector aleatorio, con su función de masa (o densidad, según el tipo). La segunda es una colección de números, x1 � . . . � xN , que entenderemos como una “realización” del vector aleatorio (X1 � . . . � XN ). En adelante, en general, usaremos letras mayúsculas para referirnos a variables, y minúsculas para valores de las mismas. Por supuesto desconocemos P (o f ), pues de conocerla el problema no serı́a tal. Precisamente, nuestro objetivo es ganar información sobre P (o f ) a partir de las observaciones X1 � . . . � XN . Para ello, una buena idea es resumir la información aportada por los datos muestrales. Lo mejor serı́a que estos resúmenes no perdiesen nada de la información contenida en la muestra. Esta necesidad nos lleva a la definición de estadı́stico: Definición 1.2. Un estadı́stico es una función real T de la muestra aleatoria (X1 � . . . � XN ). En particular, un estadı́stico es una variable aleatoria, T (X1 � . . . � XN ), y, en consecuencia, podemos hablar de su esperanza, varianza, . . . . Algunos de los más utilizados, en todo tipo de situaciones, son: N 1 � Xi Media muestral: X̄ = N i=1 N 1 � Varianza muestral: VX = (Xi − X̄)2 N i=1 N 1 � 2 Cuasi–varianza muestral: SX = (Xi − X̄)2 . N − 1 i=1 Propiedades: Sea (X1 � . . . � XN ) una muestra aleatoria de una población X con esperanza µ y varianza σ 2 , entonces: a) E[X̄] = µ; σ2 b) V (X̄) = ; N 2 c) E[SX ] = σ2; d) E[VX ] = NN−1 σ 2 . 1. MUESTRA ALEATORIA. PARÁMETRO Y ESTIMADOR 69 Ejercicio 1 Demostrar las propiedades anteriores. Solución: Basta aplicar las definiciones en cada caso, en efecto: N N � �1 � 1 � 1 Xi = E[Xi ] = Nµ = µ ; E[X̄] = E N i=1 N i=1 N V (X̄) = V N N � �1 � 1 � Xi = 2 V (Xi ) N i=1 N i=1 (por independencia) σ2 1 2 N σ = ; N2 N N � � � 1 � �� 1 2 ] = E (Xi − X̄)2 = (Xi − µ + µ − X̄)2 E E[SX N − 1 i=1 N −1 i=1 = �� � � 1 E (Xi − µ)2 + N (X̄ − µ)2 + 2(µ − X̄) (Xi − µ) = N −1 i=1 i=1 N N � �� 1 (Xi − µ)2 − N (X̄ − µ)2 E N −1 i=1 N = � � �� σ2 � 1 �� � 1 � 2 Nσ − N = σ2 ; E (Xi − µ)2 − N E (X̄ − µ)2 = = N − 1 i=1 N −1 N N E[VX ] = E 1.1. � �N − 1 � N −1 2 = (Xi − X̄)2 = E SX σ2 . N N i=1 N �� Inferencia paramétrica El problema que tenemos planteado es el desconocimiento de la disribución concreta que sigue la población X. En la mayorı́a de casos este desconocimiento será parcial, y, por ejemplo, tendremos cierta sospecha del tipo de función de masa o de densidad que buscamos: una binomial, una Poisson, una normal, . . . . Ası́, será habitual suponer que la población sigue cierto modelo de probabilidad del que nos faltará conocer algún parámetro. De la resolución de este tipo de problemas se encarga la Inferencia paramétrica. En general, la situación será la siguiente: La población, X, sigue cierta distribución, de la que conocemos la forma de su función de masa P (o de su función de densidad, f ). En ella aparece un parámetro, θ, desconocido (que puede ser de una o más dimensiones). El conjunto de posibles valores del parámetro se denomina espacio paramétrico, y lo representaremos por Θ. Si la caracterı́stica que estudiamos es discreta, representaremos a su función de masa por Pθ ; y si es continua, a su función de densidad por fθ . En ambos casos, para resaltar el objetivo de nuestro problema: resolver o estimar el valor del parámetro desconocido θ. La función de masa (o densidad) de la muestra aleatoria será de la forma: caso discreto: Pθ (x1 � . . . � xN ) = Pθ (x1 ) · · · · · Pθ (xN ) caso continuo: fθ (x1 � . . . � xN ) = fθ (x1 ) · · · · · fθ (xN ) . 70 CAPÍTULO 4. ESTIMACIÓN PUNTUAL La Inferencia paramétrica se divide en tres grandes partes, dependiendo de la naturaleza del problema a resolver, y del tipo de solución que demos: A. estimación puntual; B. estimación por intervalos de confianza; C. contraste de hipótesis paramétricas; y dedicaremos sendos capı́tulos a cada una de ellas. Terminamos esta introducción a la Inferencia paramétrica, ocupándonos de una cuestión que quedó en el aire: no perder demasiada información con los estadı́sticos. Más en concreto, introducido en el lenguaje el concepto de parámetro, θ, lo que nos gustarı́a es utilizar estadı́sticos sencillos que conserven toda la información sobre θ que lleva la muestra (X1 � . . . � XN ). Motivamos este último cometido con el siguiente ejemplo. Ejemplo 32 La probabilidad de obtener cara al lanzar una moneda es un valor desconocido, θ, entre 0 y 1 (espacio paramétrico Θ = (0� 1)). Si al suceso cara le asignamos el valor 1, y a su contrario, cruz, el valor 0, y lanzamos la moneda N veces, obtenemos una muestra aleatoria (X1 � . . . � XN ) de una población, X, con función de masa Pθ (x) = θx (1 − θ)1−x x = 0� 1 ( distribucción de Bernoulli ) . La función de masa de la muestra es: Pθ (x1 � . . . � xN ) = θx1 (1 − θ)1−x1 · · · · · θxN (1 − θ)1−xN = θ �N i=1 xi �N (1 − θ)N − i=1 xi . Parece claro, en este caso, que el estadı́stico N � T (X1 � . . . � XN ) = Xi = “número de caras obtenidas” i=1 contiene tanta información sobre θ como la descripción detallada del resultado de los N lanzamientos. Observando que T ∼ B(N ; θ), será fácil obtener la probabilidad de una muestra (x1 � . . . � xN ) condicionada por el hecho de que el estadı́stico T ha tomado el valor t (han salido t caras en los N lanzamientos): P (x1 � . . . � xN | T = t) = P (T = t | x1 � . . . � xN ) Pθ (x1 � . . . � xN ) Pθ (T = t) �N P (T = t | x1 � . . . � xN ) θ i=1 xi (1 − θ)N − = �N � θt (1 − θ)N −t t N � θ t �1−θ)N −t 1 si = xi = t N t N θ �1−θ)N −t ( ( i=1 t) t) = N � 0 si xi �= t . �N i=1 xi i=1 Es decir, la distribución de la muestra (X1 � . . . � XN ) condicionada por T = t no depende del parámetro θ. Intuitivamente, esto significa que lo que queda de la muestra, una vez extraı́da la información contenida en T , no nos va a decir nada más sobre θ. En este sentido se introduce el siguiente concepto. 2. ESTIMACIÓN PUNTUAL 71 Definición 1.3. Sea (X1 � . . . � XN ) una muestra aleatoria de una población X con función de masa Pθ (o función de densidad fθ ). Un estadı́stico, T , es suficiente para θ cuando la distribución de (X1 � . . . � XN ) condicionada por T = t no depende de θ. A pesar de la claridad del concepto, es muy difı́cil utilizar esta definición para decidir si un estadı́stico es suficiente. En primer lugar hay que conjeturar qué estadı́stico T puede ser suficiente, y después obtener la distribución condicionada, que será casi siempre difı́cil. Afortunadamente hay una caracterización sencilla alternativa: Propiedad: Sea (X1 � . . . � XN ) una muestra aleatoria de una población X con función de masa Pθ �o función de densidad fθ ). Un estadı́stico T es suficiente para θ si y sólo si: � � Pθ (x1 � . . . � xN ) = g T (x1 � . . . � xN )� θ h(x1 � . . . � xN ) �o la correspondiente identidad para el caso continuo). En el caso del lanzamiento de la moneda, se tendrı́a la siguiente sencilla comprobación: Pθ (x1 � . . . � xN ) = θ con �N i=1 xi (1 − θ)N − T (x1 � . . . � xN ) = �N i=1 xi � = g(T (x1 � . . . � xN )� θ) h(x1 � . . . � xN ) N i=1 xi g(T (x1 � . . . � xN )� θ) = θT �x1 �...�xN ) (1 − θ)N −T �x1 �...�xN ) h(x1 � . . . � xN ) = 1 . 2. Estimación puntual Supongamos dada una caracterı́stica X y aceptemos que sigue cierto modelo dado por una función de masa Pθ (o de densidad fθ ), de la que desconocemos el valor del parámetro θ dentro de un espacio paramétrico Θ. El objetivo de la estimación puntual es tomar un valor plausible para el parámetro θ. Para ello se considera una muestra aleatoria (X1 � . . . � XN ) de la población X, y a partir de una realización de la misma, esto es, una colección de datos x1 � . . . � xN , se decidirá el valor para la estimación del parámetro. Definición 2.1. Sea (X1 � . . . � XN ) una muestra aleatoria de una población X con función de masa Pθ (o función de densidad fθ ), donde θ ∈ Θ. Un estimador puntual de g(θ) es una función T que a cada posible muestra (x1 � . . . � xN ) le hace corresponder una estimación T (x1 � . . . � xN ) de g(θ). Observaciones: a) Habitualmente se buscará estimar θ (esto es, g(θ) = θ), pero puede interesarnos estimar alguna función de θ (por ejemplo θ2 ). Por esta razón hablaremos de estimadores puntuales de g(θ). b) Evidentemente, T (X1 � . . . � XN ) es una variable aleatoria (o un vector aleatorio si g(θ) tiene más de una dimensión). En realidad, un estimador puntual no es más que un estadı́stico con un objetivo concreto: acercarse lo más posible al verdadero valor de g(θ). Según nos convenga usaremos la notación T (X1 � . . . � XN ) o simplemente T . c) La definición dada de estimador puntual es muy general, y engloba tanto estimadores razonables como otros completamente absurdos. Lo siguiente que haremos es mostrar propiedades deseables para un estimador razonable, eliminando, ası́, estimadores indeseables. 72 CAPÍTULO 4. ESTIMACIÓN PUNTUAL Definición 2.2. El error cuadrático medio de un estimador T para estimar g(θ) se define como: N � � � (caso discreto) T (x1 � . . . � xN ) − g(θ)2 Pθ (x1 ) · · · · · Pθ (xN ) � � i=1 � Eθ (T − g(θ))2 = � � T (x1 � . . . � xN ) − g(θ)2 fθ (x1 ) · · · · · fθ (xN ) dx1 . . . dxN (caso continuo) � Es claro que un estimador será más efectivo cuánto más pequeño sea su error cuadrático medio. El siguiente desarrollo nos aporta una fórmula sencilla para el cálculo de este error: � � � � Eθ (T − g(θ))2 = Eθ (T − Eθ [T ] + Eθ [T ] − g(θ))2 � � = Eθ (T − Eθ [T ])2 + (Eθ [T ] − g(θ))2 = Vθ (T ) + (Sesgo(T ))2 siendo Sesgo(T ) = Eθ [T ] − g(θ). De esta última igualdad vemos que podemos reducir el error cuadrático medio, bien reduciendo la varianza del estimador, bien reduciendo su sesgo para estimar g(θ). Podemos eliminar completamente el sesgo al trabajar con estimadores insesgados. Definición 2.3. Un estimador T es insesgado (o centrado) para estimar g(θ), si verifica: Eθ [T ] = g(θ) para todo θ ∈ Θ . Al considerar sólo estimadores insesgados podemos estar eliminando otros estimadores valiosos (a pesar de no ser insesgados). No obstante tenemos una ventaja adicional, pues para un estimador insesgado su error cuadrático medio es simplemente Vθ (T ). De este modo, dentro de los estimadores insesgados buscarı́amos el de varianza mı́nima. Este cometido es muy interesante, pero excede el nivel de este curso. Es sencillo encontrar ejemplos de estimadores insesgados. Ejemplo 33 Sea (X1 � . . . � XN ) una muestra aleatoria de una población X con distribución N (µ ; σ). En este caso θ = (µ� σ), y tenemos: T1 (X1 � . . . � XN ) = X̄ es un estimador insesgado de g1 (θ) = µ, ya que Eθ [X̄] = µ; 2 (cuasi-varianza) es insesgado para estimar g2 (θ) = σ 2 , ya que Eθ [X̄] = σ 2 . T1 (X1 � . . . � XN ) = SX Otra propiedad bastante razonable a exigir a un estimador T es que, cuanto mayor sea el tamaño muestral N , más se acerque la estimación T (x1 � . . . � xN ) al verdadero valor de g(θ). Esto nos lleva al siguiente concepto: Definición 2.4. Un estimador T es consistente para estimar g(θ) si, para todo θ ∈ Θ: � lı́m FT (t) = 0 para t < g(θ) N →∞ lı́m FT (t) = 1 N →∞ para t > g(θ) donde FT es la función de distribución de T (X1 � . . . � XN ). 3. MÉTODOS DE CONSTRUCCIÓN DE ESTIMADORES 73 La idea es que, a medida que aumenta el tamaño muestral, más se concentra la distribución de la variable aleatoria T (X1 � . . . � XN ) alrededor del verdadero valor de g(θ) (sea cual sea), y, en consecuencia, las estimaciones T (x1 � . . . � xN ) cada vez se acercan más a dicho valor. Calcular la función de distribución de T suele ser difı́cil, por lo que es difı́cil ver, a partir de la definición, cuándo un estimador va a ser consistente. Afortunadamente tenemos una propiedad, más fácil de comprobar en muchas situaciones, que nos permite afirmar si un estimador es consistente. Propiedad: Si T es un estimador que verifica: i. lı́m Eθ [T ] = g(θ), para todo θ ∈ Θ, N →∞ ii. lı́m Vθ (T ) = 0, para todo θ ∈ Θ, N →∞ entonces es consistente. Ejemplo 34 Sea (X1 � . . . � XN ) una muestra aleatoria de una población X ∼ N (µ � σ), θ = (µ� σ). El estimador T1 (X1 � . . . � XN ) = X̄ es consistente para estimar g1 (θ) = µ, ya que: lı́m Eθ [T1 ] = N →∞ lı́m Vθ (T1 ) = N →∞ 3. lı́m Eθ [X̄] = lı́m µ = µ = g1 (θ) N →∞ N →∞ σ2 = 0. N →∞ N lı́m Vθ (X̄) = lı́m N →∞ Métodos de construcción de estimadores Vamos a mostrar dos sencillos métodos de construcción de estimadores puntuales razonables, aplicables a cualquier situación. Empezaremos con el método de los momentos, y posteriormente, pasaremos al más utilizado: el método de máxima verosimilitud. 3.1. Método de los momentos Definición 3.1. Sea (X1 � . . . � XN ) una muestra aleatoria de una población X con función de masa Pθ (o función de densidad fθ ), con parámetro desconocido θ = (θ1 � . . . � θk ) ∈ Θ. El estimador de θ por el método de los momentos es el formado por los valores θ�1 , . . . , θ�k que se obtienen al resolver, en las variables θ1 � . . . � θk , el sistema de ecuaciones: N 1 � E [X] = Xi θ N i=1 .. .. .. . . . N � 1 Xk Eθ [X k ] = N i=1 i donde, Eθ [X j ] se denomina momento de orden j. La justificación de este método es sencilla: parece razonable pensar que los momentos de la población se parecerán a los respectivos momentos de la muestra. Se plantean entonces tantas ecuaciones como componentes tenga el parámetro a estimar. No obstante, este método presenta serios incovenientes. Por ejemplo, es posible obtener estimaciones fuera del espacio paramétrico. 74 CAPÍTULO 4. ESTIMACIÓN PUNTUAL 3.2. Método de máxima verosimilitud Es el método más utilizado para construir estimadores puntuales. Se basa, también, en una idea muy sencilla, y tiene la ventaja de no presentar los inconvenientes que a veces surgen con el método de los momentos. Motivamos el método con el siguiente ejemplo. Ejemplo 35 Sabemos que en una urna hay, entre negras y blancas, un total de 4 bolas, pero desconocemos la composición exacta. Sea θ la proporción de, por ejemplo, bolas blancas. Es claro cuál es el espacio paramétrico en este caso, pues θ puede tomar los valores: 0; 1/4 ; 1/2 ; 3/4 ; 1. Para obtener más información se extraen de la urna 2 bolas, con reemplazamiento (para tener independencia en las observaciones). Supongamos que la primera bola ha sido blanca y la segunda negra, es decir la muestra obtenida ha sido (B� N ). La probabilidad que tenı́amos de obtener esta muestra, dependiendo de la composición de la urna, esto es de la proporción θ, era: 0 si θ = 0 3/16 si θ = 1/4 1/4 si θ = 1/2 Pθ (B� N ) = 3/16 si θ = 3/4 0 si θ = 1 La idea del método de máxima verosimilitud es tomar como estimación de θ aquel valor que daba más probabilidad a la muestra obtenida, en este caso θ� = 1/2. Definición 3.2. �Método de máxima verosimilitud) Sea (X1 � . . . � XN ) una muestra aleatoria de una población X con función de masa Pθ (o función de densidad fθ ), con parámetro desconocido � de θ es el formado por los valores θ = (θ1 � . . . � θk ) ∈ Θ. El estimador de máxima verosimilitud, θ, � � (θ1 � . . . � θk ) que maximizan la que llamaremos función de verosimilitud de la muestra obtenida, que se define por: � (caso discreto) Pθ (x1 ) · . . . · Pθ (xn ) L(θ) = L(θ ; x1 � . . . � xN ) = fθ (x1 ) · . . . · fθ (xn ) (caso continuo) Observaciones: a) La función de verosimilitud expresa la probabilidad (o la densidad) que los diferentes valores de θ dan a la muestra obtenida. Lo que hacemos, por tanto, es maximizar esa probabilidad (o densidad). b) De la misma definición, vemos que la estimación de máxima verosimilitud siempre es un valor del espacio paramétrico. c) Para no tener que manejar productos, en muchas ocasiones es más cómodo encontrar el estimador de máxima verosimilitud considerando log(L(θ)), en lugar de L(θ). Puesto que la función 3. MÉTODOS DE CONSTRUCCIÓN DE ESTIMADORES 75 log(x) es monótona creciente, log(L(θ)) se hace máxima (y mı́nima) en los mismos puntos que L(θ). La ventaja es que basta despejar θ1 , . . . , θk del sistema de ecuaciones: ∂ log(L(θ)) = 0 ∂θ1 .. .. .. . . . ∂ log(L(θ)) = 0 ∂θk Por supuesto hay que tener precaución con este procedimiento, pues el punto crı́tico obtenido no tiene por qué corresponder a un máximo. Además, puede ocurrir que la función de verosimilitud se maximice en un extremo, en cuyo caso no tiene por qué dar un punto crı́tico, es decir, no obtendrı́amos nada con este procedimiento. � será el d) Obsérvese, por último, que si θ� es el estimador de máxima verosimilitud, entonces g(θ) de g(θ). Si, por ejemplo, hemos obtenido X̄ como estimador de máxima verosimilitud para θ, entonces X̄ 2 lo será para θ2 . Ejercicio 2 Dada una muestra aleatoria de tamaño N de una población X, calcular los estimadores � y por el de máxima verosimilitud, θ, � en los puntuales para θ por el método de los momentos, θ, siguientes casos: a) X ∼ Bernoulli de parámetro p; b) X ∼ Poisson (λ); c) X ∼ Exponencial (λ); d) X ∼ N (µ ; σ), (σ conocido); e) X ∼ N (µ ; σ), (µ conocido); f) X ∼ N (µ ; σ). Solución: Planteamos ambos métodos en cada caso, y utilizamos, para cuando haga falta, la igualdad E[X 2 ] = V [X] + E[X]2 , que se deduce inmediatamente de la definición de varianza de una variable aleatoria. a) X ∼ Bernoulli de parámetro p. Queremos estimar el parámetro desconocido p ∈ (0� 1), siendo la función de masa: Pp (x) = px (1 − p)x x = 0� 1 . Método de los momentos. Puesto que el parámetro es de una dimensión, se considera solo el primer momento. El momento de orden 1 de la población, Ep [X], es su esperanza, p, y el de la muestra es la media muestral x̄. Tomamos pues el estimador p� = x̄ . 76 CAPÍTULO 4. ESTIMACIÓN PUNTUAL Método de máxima verosimilitud. La función de verosimilitud es: L(p) = L(p ; x1 � . . . � xN ) = px1 (1 − p)x1 · · · · · pxN (1 − p)xN = p � xi (1 − p)N − � xi . Tomamos, para simplificar cálculos, su logaritmo y lo maximizamos: � � � �� � xi log(1 − p) log(L(p)) = xi log(p) + N − � � � d log(L(p)) xi N − xi xi − N p = − = . dp p 1−p p(1 − p) � xi = x̄. Además, Al igualar a cero la derivada se obtiene un punto crı́tico para p = N1 un simple análisis del signo de la derivada nos muestra que ésta es positiva para p < x̄, y negativa para p > x̄* . Por tanto, este punto crı́tico corresponde a un máximo, por lo que tomamos como estimador de máxima verosimilitud: p� = x̄ . b) X ∼ Poisson (λ). Queremos estimar el parámetro desconocido λ > 0, siendo la función de masa: Pλ (x) = λx e−λ x� x = 0� 1� 2� . . . . Método de los momentos. El momento de orden 1 de la población, Eλ [X], es su esperanza, λ, y el de la muestra es la media muestral x̄. Tomamos pues el estimador de momentos � = x̄ . λ Método de máxima verosimilitud. La función de verosimilitud para una muestra dada es: L(λ) = con logaritmo: log(L(λ)) = �� λ � xi � e−N λ xi � � �� xi log(λ) − N λ − log xi �) . El último término asusta, pero no hay problema porque es una constante. Al derivar e igualar a cero obtenemos: � 1 � d log(L(λ)) xi = − N = 0 ⇐⇒ λ = xi = x̄ . dλ λ N De nuevo, es fácil ver que este punto crı́tico corresponde a un máximo, por lo que tomaremos como estimador de máxima verosimilitud: � � = x̄ . λ En efecto, positivo, al ser el espacio paramétrico el intervalo �0� 1). Por otra parte, � el denominador es siempre � � p < x̄ = �1 xi equivale a N p < xi , quedando el numerador positivo. Por contra, p > x̄ equivale a N p > xi , quedando el numerador negativo. 3. MÉTODOS DE CONSTRUCCIÓN DE ESTIMADORES 77 c) X ∼ Exponencial (λ). Queremos estimar el parámetro desconocido λ > 0, siendo la función de densidad: fλ (x) = λe−λx x > 0. Método de los momentos. El momento de orden 1 de la población, Eλ [X], es su esperanza, 1/λ, y el de la muestra es la media muestral x̄. Tomamos pues el estimador de momentos �= 1. λ x̄ Método de máxima verosimilitud. La función de verosimilitud para una muestra dada es: L(λ) = λN e−λ � con logaritmo: log(L(λ)) = N log(λ) − Al derivar e igualar a cero obtenemos: N �� � d log(L(λ)) = − xi = 0 dλ λ xi �� ⇐⇒ � xi λ . 1 N λ= � = . x̄ xi Obsérvese que λ > 0 y que cada dato, xi , de una muestra correspondiente a esta población es positivo. Es fácil, entonces, ver que este punto crı́tico corresponde a un máximo, por lo que tomaremos como estimador de máxima verosimilitud: �= 1. λ x̄ d) X ∼ N (µ ; σ), (σ conocido). Queremos estimar el parámetro desconocido µ ∈ �, siendo la función de densidad para esta población: � � (x − µ)2 1 exp − fµ (x) = √ � para todo x ∈ �. 2σ 2 σ 2π Método de los momentos. El momento de orden 1 de la población, Eµ [X], es su esperanza, µ, y el de la muestra es la media muestral x̄. Tomamos pues el estimador de momentos µ � = x̄ . Método de máxima verosimilitud. La función de verosimilitud para una muestra dada es: � � � � �N 1 (xi − µ)2 √ exp − L(µ) = 2σ 2 σ 2π con logaritmo: √ � (xi − µ)2 2 �� � � 2σ 2 √ xi − 2 xi µ + N µ 2 = −N log(σ 2π) − . 2σ 2 log(L(µ)) = −N log(σ 2π) − 78 CAPÍTULO 4. ESTIMACIÓN PUNTUAL Al derivar, respecto de µ, e igualar a cero obtenemos: � d log(L(µ)) xi N µ − 2 = 0 ⇐⇒ = 2 dµ σ σ µ = x̄ . Este punto crı́tico corresponde a un máximo (¿por qué?), por lo que tomaremos como estimador de máxima verosimilitud: µ � = x̄ . e) X ∼ N (µ ; σ), (µ conocido). Ahora el parámetro desconocido es σ > 0, siendo la función de densidad para esta población: � � (x − µ)2 1 fσ (x) = √ exp − � para todo x ∈ �. 2σ 2 σ 2π Método de los momentos. El momento de orden 1 de la población, E[X], es su esperanza, µ. Ası́, la primera ecuación planteada en el método de los momentos no nos dice nada del parámetro que intentamos estimar, σ. Tomamos entonces el momento de orden 2: E[X 2 ] = V [X] + E[X]2 = σ 2 + µ2 . Por otra parte, el momento de orden 2 de la muestra es σ 2 + µ2 = 1 � 2 xi N 1 � 2 xi . La ecuación quedarı́a: N Tomamos pues el estimador de momentos para g(σ) = σ 2 1 � 2 σ �2 = x i − µ2 . N Nótese que en este caso podemos obtener estimadores absurdos. Si, por ejemplo, sabemos que µ = 5 y la muestra es (3� 3� 6), obtendrı́amos σ �2 = −7, que es un valor absurdo. Método de máxima verosimilitud. La función de verosimilitud para una muestra dada es: � � � � �N 1 (xi − µ)2 √ L(σ) = exp − 2σ 2 σ 2π con logaritmo: √ log(L(σ)) = −N log(σ 2π) − � Al derivar, respecto de σ, e igualar a cero obtenemos: � −N d log(L(σ)) (xi − µ)2 = 0 ⇐⇒ = + dσ σ σ3 (xi − µ)2 . 2σ 2 σ2 = 1 � (xi − µ)2 . N Este punto crı́tico corresponde a un máximo (¿por qué?), por lo que tomaremos como estimador de máxima verosimilitud para g(σ) = σ 2 : 1 � σ �2 = (xi − µ)2 . N 3. MÉTODOS DE CONSTRUCCIÓN DE ESTIMADORES 79 f) X ∼ N (µ ; σ). En este último caso, se desconocen ambos parámetros de la población, y ası́ estimaremos: θ = (µ� σ), con µ ∈ � y σ > 0. La función de densidad es: � � (x − µ)2 1 exp − fθ (x) = √ � para todo x ∈ �. 2σ 2 σ 2π Método de los momentos. Tenemos que considerar dos ecuaciones (pues hay 2 parámetros): µ = x̄ σ 2 + µ2 = Obtenemos como solución para el sistema: µ = x̄ y σ2 = N 1 � 2 x . N i=1 i N 1 � 2 1 � (xi − x̄)2 xi − x̄2 = varianza muestral = N N i=1 de manera que, el estimador de momentos para g(µ� σ) = (µ� σ 2 ), vendrá dado por: µ � = x̄ � N 1 � (xi − x̄)2 . σ � = N i=1 2 Nótese que ahora, el estimador para σ 2 no puede producir resultados absurdos. Método de máxima verosimilitud. La función de verosimilitud para una muestra dada es: � � � � �N 1 (xi − µ)2 √ exp − L(µ� σ) = 2σ 2 σ 2π con logaritmo: √ log(L(µ� σ)) = −N log(σ 2π) − que conviene escribir como: √ log(L(µ� σ)) = −N log(σ) − N log( 2π) − � � (xi − µ)2 ; 2σ 2 x2i − 2 �� � xi µ + N µ 2 ; 2σ 2 El sistema planteado, igualando a cero las derivadas parciales respecto a cada una de las variables, es: � ∂ log(L(µ� σ)) xi N µ − 2 =0 = 2 ∂µ σ σ � −N (xi − µ)2 ∂ log(L(µ� σ)) = + =0 ∂σ σ σ3 � µ = x̄ � con solución: σ 2 = N1 (xi − x̄)2 . Tomamos esta solución como estimación de máxima verosimilitud al dar un máximo: N 1 � 2 (xi − x̄)2 . µ � = x̄ � σ � = N i=1 80 CAPÍTULO 4. ESTIMACIÓN PUNTUAL Problemas 1. Sea (X1 � . . . � XN ) una muestra aleatoria de una población X con función de densidad: fθ (x) = e−x+θ si x > θ � (θ ∈ �) . a) Hallar el estimador por el método de los momentos de θ. b) Estudiar si el estimador encontrado en el apartado anterior es insesgado para estimar el parámetro θ. 2. Sea (X1 � . . . � XN ) una muestra aleatoria de una población X con función de densidad: fθ (x) = � −x2 � x exp θ2 2θ2 si x > 0 � (θ > 0) . Hallar el estimador de máxima verosimilitud de θ. 3. Sea (X1 � . . . � XN ) una muestra aleatoria de una población X con función de densidad: fθ (x) = θ � 1 �θ+1 x si x > 1 � (θ > 1) . a) Hallar el estimador de máxima verosimilitud de θ. b) Hallar el estimador de θ por el método de los momentos. 4. Se toma una muestra aleatoria de tamaño N de una población cuya función de densidad es: f (x) = � (log x − µ)2 � exp − 2σ 2 xσ 2π 1 √ si x > 0 donde µ puede ser cualquier número real y σ es mayor que cero. Hallar los estimadores de máxima verosimilitud de µ y σ 2 . 5. En una gran piscifactorı́a hay una proporción desconocida de peces de cierta especie A. Para obtener información sobre dicha proporción, vamos a ir sacando peces al azar. a) Si la proporción de peces de la especie A es p, ¿cuál es la probabilidad de que el primer pez de la especie A sea el décimo que extraemos? b) Tres personas realizan, independientemente unas de otras, el proceso de sacar peces al azar hasta encontrarse con el primero de tipo A: La primera persona obtiene el primer pez tipo A en la décima extracción; la segunda, en la decimoquinta extracción; y en la decimoctava extracción, la tercera. Escribir la función de verosimilitud y obtener la estimación de máxima verosimilitud de p. 6. Para estudiar la proporción p de caballos afectados por la peste equina se les va a someter a una prueba. Sabemos que la prueba será positiva si el animal está enfermo; si está sano, hay una probabilidad 0.04 de que la prueba resulte positiva. a) Halla la relación entre la probabilidad p de estar enfermo y la probabilidad q de dar positivo en la prueba. 3. MÉTODOS DE CONSTRUCCIÓN DE ESTIMADORES 81 b) Calcula el estimador de máxima verosimilitud de p si 500 ejemplares son sometidos a la prueba y resulta positiva en 95 casos. c) Si realmente hay un 20 % de caballos afectados por la epidemia, ¿cuál es la probabilidad de que la prueba resulte positiva en al menos 95 ejemplares de los 500? 7. La distancia X entre un árbol cualquiera y el árbol más próximo a él en un bosque sigue una distribución de Rayleigh con función de densidad fθ (x) = 2θx exp(−θx2 ) si x ≥ 0 (θ > 0) . a) Obtener los estimadores de máxima verosimilitud de θ y de g(θ) = Eθ [X] = basados en muestras de tamaño N . 1 � π � 12 � 2 θ b) Obtener el estimador de θ por el método de los momentos. 8. El coseno X del ángulo con el que se emiten los electrones en un proceso radiactivo es una variable aleatoria con densidad fθ (x) = 1 + θx 2 si − 1 ≤ x ≤ 1 (−1 ≤ θ ≤ 1) . Consideramos una muestra aleatoria (X1 � . . . � XN ) de esta variable aleatoria. a) Obtener el estimador de θ por el método de los momentos. b) Calcular la varianza de este estimador y demostrar que es consistente para estimar θ. 9. Se considera una muestra aleatoria (X1 � . . . � XN ) de una población con densidad 1 fθ (x) = e−x/θ θ si x > 0 (θ > 0) . a) Obtener el estimador de máxima verosimilitud de θ y θ2 . b) Consideramos ahora el estimador T = X1 + 2X2 . 3 ¿Es T insesgado para estimar θ? Hallar la varianza de T , sabiendo que la varianza poblacional es θ2 . 10. La lectura de voltaje dada por un voltı́metro conectado a un circuito eléctrico, es una variable aleatoria con distribución uniforme en el intervalo (θ� θ + 1), siendo θ el verdadero valor (desconocido) del voltaje. Sea (X1 � . . . � XN ) una muestra aleatoria de lecturas de dicho voltı́metro. a) Demostrar que la media muestral X̄ es un estimador sesgado de θ, y calcular el sesgo. b) Calcular el error cuadrático medio de X̄. c) Obtener, a partir de X̄, un estimador insesgado de θ. 82 CAPÍTULO 4. ESTIMACIÓN PUNTUAL 11. Disponemos de una variable aleatoria de una población con función de densidad fθ (x) = θ x2 si x ≥ θ (θ > 0) . Calcular el estimador de máxima verosimilitud de θ y de 1/θ. 12. Se obtiene una muestra aleatoria (X1 � . . . � XN ) de una población con función de densidad fθ (x) = θxθ−1 si x ∈ (0� 1) (θ > 0) . Para estimar θ, calcúlese: a) un estadı́stico suficiente; b) el estimador de máxima verosimilitud; c) el estimador por el método de los momentos. 13. Supongamos que se realizan N observaciones independientes de una variable aleatoria X, con función de densidad 1 1 fθ (x) = x θ −1 si 0 ≤ x ≤ 1 (θ �= 0) . θ a) Obtener el estimador de θ por el método de los momentos. b) Obtener el estimador de máxima verosimilitud de θ. c) Obtener el estimador de máxima verosimilitud de Pθ (X < 1/2). 14. El error (en centigramos) que se comete al pesar un objeto en una balanza puede considerarse como una variable aleatoria con distribución N (µ = 0 ; σ = 15). a) Calcular la probabilidad de que el error cometido (en valor absoluto) en una pesada sea inferior a 20 centigramos. b) Si se quiere que el error medio cometido (en valor absoluto) sea inferior a 5 centigramos con probabilidad 0.9, ¿cuál es el número mı́nimo de pesadas que hemos de realizar? 15. Vamos a clasificar las personas de un paı́s según dos caracterı́sticas: color de los ojos (oscuros o claros) y sexo (hombre o mujer). Las dos caracterı́sticas son independientes. a) Obtenemos una muestra al azar de la población con los siguientes resultados: 200 150 350 300 mujeres de ojos claros; hombres con ojos claros; mujeres con ojos oscuros; hombres de ojos oscuros. Obtener la estimación de máxima verosimilitud de p = P {hombre} y q = P {ojos claros}. b) Después de muchas horas de intenso trabajo llegamos a saber con exactitud que p = 0.4 y q = 0.6. Si tomamos 8 personas al azar de ese paı́s, ¿cuál es la probabilidad de encontrar alguna mujer de ojos oscuros? Y si la muestra que tomamos es de 200 personas, ¿cuál es la probabilidad de que haya más de 60 mujeres de ojos oscuros?