Tema 10 Estimación puntual. Inferencia estadı́stica sobre los parámetros de poblaciones normales 10.1 Conceptos generales • Población: es el conjunto de todos los individuos o elementos objeto de estudio. • Muestra: es un subconjunto representativo de la población. • Tamaño muestral: es el número de elementos que forman la muestra. Se llama muestreo al proceso por el cual extraemos una muestra de una población. Dependiendo del tipo de muestreo utilizado para extraer la muestra se distinguen distintos tipos de muestreo. Citaremos, a continuación, algunos de ellos: • Muestreo aleatorio simple: Una muestra aleatoria simple de tamaño n se consigue eligiendo n elementos de la población al azar y sin reposición, esto es, se elige uno, de los que quedan se elige otro, y ası́ sucesivamente hasta obtener los n elementos que forman la muestra. • Muestreo aleatorio con reposición: Similar al muestreo aleatorio simple, pero introduciendo de nuevo el elemento elegido entre los seleccionables. Como consecuencia, un mismo elemento puede estar repetido en la muestra. • Muestreo estratificado: Cuando la población se encuentra dividida de alguna forma en varios estratos o grupos, se hace un muestreo aleatorio simple en cada uno de ellos. Se llama afijación al criterio en función del cual elegimos el número de elementos de cada estrato. Algunos de estos criterios son: – Uniforme: igual número de elementos de cada grupo. 1 – Proporcional: se elige de cada grupo una cantidad de elementos proporcional al número total de elementos del grupo. – Proporcional y óptima: se elige de cada grupo una cantidad de elementos proporcional a la varianza del grupo y al número de elementos que lo componen. • Muestreo sistemático: El primer elemento se elige al azar, y los demás en cierto orden predeterminado. En lo que sigue trabajaremos bajo las hipótesis del muestreo aleatorio simple. 10.2 Distribuciones asociadas al muestreo en poblaciones Normales Definición 10.2.1.– Una variable aleatoria X se dice que sigue una distribución normal de parámetros µ y σ 2 , µ ∈ R, σ 2 > 0, y se denota por X ∼ N (µ, σ 2 ), si su función de densidad es: 1 x−µ 2 1 f (x) = √ e− 2 ( σ ) σ 2π ∀x∈R •Propiedades: 1. f es simétrica respecto a x = µ. 2. Se verifica que si Z = X−µ , σ entonces Z ∼ N (0, 1). 3. E[X] = µ y V ar[X] = σ 2 . 4. P [Z ≤ −z] = 1 − P [Z ≤ z] para cualquier z ∈ R. Se denota por z1−α al valor tal que P [Z ≤ z1−α ] = 1 − α y recibe el nombre de cuantil 1 − α de la distribución. Definición 10.2.2.– Si X1 , . . . , Xn son variables aleatorias independientes idénticamente distribuidas, según una distribución N (0, 1), entonces X = X12 + . . . + Xn2 es una variable aleatoria que sigue una distribución Chi-cuadrado con n grados de libertad. Lo denotaremos X ∼ χ2n Denotaremos por χ2n,1−α al valor tal que P [X ≤ χ2n,1−α ] = 1 − α Definición 10.2.3.– Sean X ∼ N (0, 1) e Y ∼ χ2n , X e Y independientes, entonces la variable T = √X sigue una distribución T-Student con n grados de libertad. Y /n Lo denotaremos como T ∼ tn . 2 • Propiedades: • Denotaremos por tn,1−α a aquel valor tal que P [T ≤ tn,1−α ] = 1−α. Se verifica que, tn,1−α = −tn,α . • Si T ∼ tn , entonces lim T ∼ N (0, 1). La aproximación es buena para n ≥ 30. n→+∞ Definición 10.2.4.– Sean X ∼ χ2n e Y ∼ χ2m , X e Y independientes, entonces sigue una distribución F-Snedecor con n y m grados de libertad. Lo F = YX/n /m denotaremos como F ∼ Fn,m Denotaremos por fn,m,1−α al valor tal que P [F ≤ fn,m,1−α ] = 1 − α. Se verifica que fn,m,α = 1/fm,n,1−α . 10.2.1 Distribución de la media muestral Definición 10.2.5.– Sea X1 , . . . , Xn una muestra aleatoria simple procedente de una variable aleatoria X. Se define la media muestral como: X= X1 + . . . + X n n Teorema 10.2.6.– Si X1 , . . . , Xn es una muestra aleatoria simple procedente de una variable aleatoria X con media µ y varianza σ 2 , se tiene que: E[X] = µ y 2 V ar[X] = σn . Definición 10.2.7.–q Se define la desviación tı́pica de la muestra (error estándar de la media) como V ar(X) = √σn . Teorema 10.2.8.– Sea X1 , . . . , Xn una muestra aleatoria simple procedente de una variable aleatoria X ∼ N (µ, σ 2 ). Entonces σ2 X ∼ N µ, n En consecuencia: Z= X − µ√ n ∼ N (0, 1) σ Teorema 10.2.9.– (Teorema Central del Lı́mite). Si X1 , . . . , Xn es una muestra aleatoria simple de una variable aleatoria X, de distribución no especificada, con media µ y varianza σ 2 finita, entonces: X −µ lim p ∼ N (0, 1) n→∞ σ 2 /n Una consecuencia de este resultado es que si n es suficientemente grande, sea cual sea la distribución de X, se verifica que X ≈ N (µ, σ 2 /n). Usualmente la aproximación es buena para valores de n mayores que 30. 3 10.2.2 Distribución de la varianza muestral Definición 10.2.10.– Si X1 . . . Xn es una muestra aleatoria simple procedente de una variable aleatoria X, se define la varianza muestral como Pn (Xi − X)2 2 S = i=1 n y la cuasivarianza muestral como Pn (Xi − X)2 2 Sc = i=1 n−1 Se definen también la√desviaciónptı́pica muestral y la cuasidesviación tı́pica muestral como S = S 2 y Sc = Sc2 , respectivamente. Se verifica que (n − 1)Sc2 = nS 2 S2 = y Pn i=1 n Xi2 −X 2 Teorema 10.2.11.– Sea X1 , . . . , Xn una muestra aleatoria simple procedente de una población N (µ, σ 2 ) de media y varianzas desconocidas. Entonces: 1. X y Sc2 son independientes. 2. Si Y = (n−1)Sc2 , σ2 3. Si Y = nS 2 , σ2 entonces Y ∼ χ2n−1 entonces Y ∼ χ2n−1 Proposición 10.2.12.– Sea X1 , . . . , Xn una muestra aleatoria simple procedente de una población N (µ, σ 2 ) de media y varianzas desconocidas. Entonces: 1. X−µ √ n Sc 2. X−µ S 10.2.3 √ ∼ tn−1 n − 1 ∼ tn−1 Distribución de la diferencia de medias muestrales Sea X1 , . . . , Xn una muestra aleatoria simple procedente de una variable aleatoria X e Y1 , . . . , Ym una muestra aleatoria simple procedente de una variable aleatoria Y , 2 tales que X e Y son independientes y X ∼ N (µX , σX ) e Y ∼ N (µY , σY2 ). Entonces, 2 si σX = σY2 (ambas desconocidas) (X − Y ) − (µX − µY ) q (n−1)Sc2 +(m−1)Sc2 X Y n+m−2 4 1 n + 1 m ∼ tn+m−2 2 si σX 6= σY2 (ambas desconocidas) (X − Y ) − (µX − µY ) q 2 ∼ tg Sc2 Sc Y X + m n siendo S2 cX g= 10.2.4 n (Sc2 /n)2 X n+1 2 + Sc2 Y m + (Sc2 /m)2 Y m+1 −2 Distribución del cociente de varianzas muestrales Sea X1 , . . . , Xn una muestra aleatoria simple procedente de una variable aleatoria X e Y1 , . . . , Ym una muestra aleatoria simple procedente de una variable aleatoria 2 Y , tales que X e Y son independientes y además X ∼ N (µX , σX ) e Y ∼ N (µY , σY2 ). Entonces: 2 Sc2X /σX ∼ Fn−1,m−1 Sc2Y /σY2 2 = σY2 , entonces: En el caso en que σX Sc2X ∼ Fn−1,m−1 Sc2Y 10.3 Estadı́sticos y estimadores Definición 10.3.1.– Dada una variable aleatoria X que mide una caracterı́stica en una población, un parámetro es una caracterización numérica de la distribución de la población que determina total o parcialmente la función de densidad (o de probabilidad) de la variable aleatoria X. Ejemplo 10.3.2.– • Si X ∼ P(λ), la distribución está determinada cuando se conoce el valor de λ. • Si X ∼ N (µ, σ 2 ), es necesario conocer los valores de µ y de σ 2 para determinar la distribución. Definición 10.3.3.– Dado un parámetro θ, se llama espacio paramétrico al conjunto de valores admisibles para el parámetro. Lo denotaremos por Θ. Definición 10.3.4.– Sea X una variable aleatoria cuya función de densidad o de probabilidad es f (x; θ) y X1 , . . . , Xn una muestra aleatoria simple procedente de X. Un estadı́stico es una función de la muestra que no depende del parámetro θ. Lo denotaremos por T (X1 , . . . , Xn ). 5 Ejemplo 10.3.5.– Si X ∼ N (µ, σ 2 ) con µ y σ 2 desconocidas, las siguientes funciones son estadı́sticos: T1 (X1 , . . . , Xn ) = X1 +···+Xn n T2 (X1 , . . . , Xn ) = X12 +···+Xn2 n T3 (X1 , . . . , Xn ) = max{X1 , . . . , Xn } Sin embargo T4 (X1 , . . . , Xn ) = X1 + · · · + X n no es un estadı́stico. nσ Nótese que un estadı́stico es función de la muestra y por lo tanto una variable aleatoria. Definición 10.3.6.– Un estadı́stico T (X1 , . . . , Xn ) se dice que es un estimador de θ si toma valores en el espacio paramétrico de θ. Para una realización concreta de la muestra x1 , . . . , xn , el valor T (x1 , . . . , xn ) se llama estimación de θ. Ejemplo 10.3.7.– Si X es una variable aleatoria que sigue una distribución N (µ, σ 2 ) y X1 , . . . , Xn es una muestra aleatoria simple de X, entonces: Θ ≡ {(µ, σ 2 )|µ ∈ R, σ 2 ∈ R+ − {0}} n • X = X1 +···+X es un estimador de µ, pero no de σ 2 porque puede tomar n valores negativos. n X (Xi − X)2 es un estimador de σ 2 , y también de µ si bien, en el • S 2 = i=1 n segundo caso, se puede intuir que serı́a un estimador bastante malo. 10.3.1 Propiedades deseables en los estimadores Entre las propiedades deseables de un buen estimador se encuentran las siguientes: Carencia de sesgo, Consistencia, Eficiencia y Suficiencia • Carencia de Sesgo Un buen estimador deberı́a, en promedio, determinar el verdadero valor del parámetro. Definición 10.3.8.– Se dice que T es un estimador insesgado de θ si E[T ] = θ. En otro caso se dice que T es un estimador sesgado y se llama sesgo de T a |E[T ]−θ|. Ejemplo 10.3.9.– Sea X una variable aleatoria de la que sabemos que E[X] = µ y V ar(X) = σ 2 . Entonces: • X es un estimador insesgado de µ. • S 2 es un estimador sesgado de σ 2 . • Sc2 es un estimador insesgado de σ 2 . 6 • Consistencia Es deseable que a medida que aumente el tamaño de la muestra mejoren las estimaciones obtenidas. Definición 10.3.10.– Diremos que T es un estimador consistente de cara a estimar el parámetro θ si ∀ > 0 lim P (|T − θ| < ε) = 1 n→∞ Teorema 10.3.11.– Sea T un estimador del parámetro θ. Si se verifica que lim E[T ] = θ n→∞ y lim V ar(T ) = 0 n→∞ entonces T es un estimador consistente para θ. Ejemplo 10.3.12.– • Si X es una variable aleatoria tal que E(X) = µ, entonces X es un estimador consistente de µ. • Si X ∼ N (µ, σ 2 ) entonces S 2 y Sc2 son estimadores consistentes de σ 2 . • Eficiencia Definición 10.3.13.– Sean T1 y T2 dos estimadores insesgados de θ. Diremos que T1 es más eficiente que T2 si V ar(T1 ) < V ar(T2 ). Entre los estimadores insesgados de θ, será preferible tomar el de menor varianza. • Suficiencia Un estadı́stico sintetiza en un número toda la información contenida en la muestra. Serı́a pues interesante que en ese proceso de sı́ntesis no se perdiera la información que la muestra contiene acerca del valor del parámetro. Ejemplo 10.3.14.– Si X ∼ Be(p) y tomamos una muestra aleatoria simple de tamaño tres, X1 , X2 , X3 el conjunto de los posibles valores muestrales es: Λ = {(0, 0, 0), (0, 0, 1), (0, 1, 0), (1, 0, 0), (0, 1, 1), (1, 0, 1), (1, 1, 0), (1, 1, 1)} Al aplicar el estadı́stico T (X1 , X2 , X3 ) = X1 + X2 + X3 a cada una de estas muestras se obtiene el valor 0, 1, 2 ó 3. Puesto que p representa la probabilidad de éxito en cada realización de X parece razonable estimar p como la proporción de éxitos obtenidos en las n realizaciones del experimento, y para ello necesitamos conocer el número de éxitos que aparecen en la muestra. Si consideramos el anterior estadı́stico T = X1 + X2 + X3 podemos observar que si conocemos su valor sabremos inmediatamente el número de éxitos que hay en la muestra. En cambio esto no ocurre si 7 consideramos el estadı́stico T1 = X1 · X2 · X3 , por lo que no podrı́amos utilizarlo si lo que queremos hacer es estimar el valor de p. Esto se debe a que, mientras T conserva la información que la muestra posee acerca de p, no ocurre lo mismo con T1 . La cuestión fundamental está en si, de cara a estimar un parámetro determinado, el estadı́stico con el que estemos trabajando conserva la información que la muestra contiene acerca de dicho parámetro. Esto se recoge en la siguiente definición. Definición 10.3.15.– Diremos que un estadı́stico T (X1 , . . . , Xn ) es suficiente de cara a estimar el parámetro θ si la distribución conjunta de la muestra, condicionada al valor del estadı́stico, no depende de θ. Esto es, si la variable de la que procede la muestra es discreta entonces P (X1 = x1 ; X2 = x2 ; . . . ; Xn = xn |T =t ) no depende de θ para ningún valor de t y si es continua entonces f (x1 , . . . , xn |T =t ) no depende de θ para ningún valor de t. Teorema 10.3.16.– Sea X una variable aleatoria continua (discreta) con función de densidad f (x, θ) (o de probabilidad P [X = x, θ], si X es discreta) y X1 , . . . , Xn una muestra aleatoria simple procedente de X. El estadı́stico T = T (X1 , . . . , Xn ) es un estadı́stico suficiente de cara a estimar el parámetro θ, si la función de densidad (probabilidad) conjunta de la muestra se puede descomponer como: f (X1 , . . . , Xn ; θ) = g(T, θ) · h(X1 , . . . , Xn ) ó P [X1 = x1 , X2 = x2 . . . , Xn = xn ; θ] = g(T, θ) · h(X1 , X2 , . . . , Xn ), donde g depende de θ y del estadı́stico T , y h depende sólo de la muestra o bien es una constante. Ejemplo 10.3.17.– Si X1 , . . . , Xn es una muestra aleatoria simple de una variable X, entonces P • Si X ∼ Be(p), el estadı́stico T = Xi es suficiente para estimar p. • Si X ∼ P(λ), entonces T (X1 , X2 , . . . , Xn ) = n X Xi es suficiente para estimar i=1 λ. 2 • Si X ∼ N (0, σ ), entonces T (X1 , . . . , Xn ) = n X Xi2 es suficiente para estimar i=1 σ2. 10.3.2 Métodos de construcción de estimadores • Método de Máxima Verosimilitud. Ejemplo 10.3.18.– Se realizan cinco lanzamientos de una moneda obteniendose (cccxc). Sabemos que El número de cruces obtenido sigue una distribución B(5, p) 8 y deseamos estimar el valor de p. El valor que le asignamos es aquel que haga más factible el resultado obtenido que, en este caso, podemos intuir que serı́a p = 1/5. Analı́ticamente, sea Xi el resultado obtenido en la tirada i-ésima. Entonces: P [X1 = c, X2 = c, X3 = c, X4 = x, X5 = c] = P [X1 = c] · P [X2 = c] · P [X3 = c] · P [X4 = x] · P [X5 = c] = p · (1 − p)4 Para hacerlo máximo derivamos respecto a p, igualamos a cero y obtenemos p = 1/5. Ejemplo 10.3.19.– En unas elecciones queremos estimar la proporción p de votantes que votarán por una determinada candidatura A. El hecho de que un elector vote o no a dicha candidatura se puede modelar mediante una variable aleatoria X que vale 1 si el elector vota A y 0 si no le vota. Se tiene entonces que X ∼ Be(p), siendo p la probabilidad de votar a A, luego P [X = k] = pk (1 − p)1−k k = 0, 1 . Para realizar la estimación elegiremos una muestra de 15 votantes; para una tal muestra, la función de probabilidad conjunta es P [X1 = x1 , X2 = x2 , . . . , X15 = x15 ; p] = 15 Y pxi (1 − p)1−xi = p P xi · (1 − p)15− P xi i=1 Supongamos P15que de los 15 votantes, 3 manifiestan su intención de votar por A y, por tanto, i=1 xi = 3. Buscamos el valor de p que hace máxima la probabilidad de obtener la muestra observada, esto es, que haga máximo p3 (1 − p)12 . Derivando e igualando a cero, se obtiene como estimación p̂ = 00 2. Formalizamos ahora estas ideas para el caso general: Sea X una variable aleatoria con función de densidad f (x; θ) o distribución de probabilidad P [X = x; θ] y sea X1 , X2 , . . . , Xn una muestra aleatoria simple. La distribución conjunta de X1 , X2 , . . . , Xn será: f (x1 , x2 , . . . , xn ; θ) = n Y f (xi ; θ) i=n ó P [X1 = x1 , . . . , Xn = xn ; θ] = n Y P [Xi = xi ; θ] i=1 según se trate de una variable aleatoria continua o discreta. En ambos casos, esta función puede considerarse como una función de θ para cada realización concreta, x1 , x2 , . . . , xn , de la muestra. Desde esta perspectiva, la llamaremos función de verosimilitud, y para referirnos a ella la denotaremos como V (x1 , x2 , . . . , xn ; θ). 9 Definición 10.3.20.– Llamaremos estimador de máxima verosimilitud para el parámetro θ a aquel estadı́stico que maximiza la función de verosimilitud. Como maximizar V (x1 , x2 , . . . , xn ; θ) es equivalente a maximizar LnV (x1 , x2 , . . . , xn ; θ) y suele ser más cómodo esta última expresión, elegiremos un estimador θ̂ tal que d dθ LnV = 0 y θ=θ̂ d2 dθ2 LnV < 0 θ=θ̂ Propiedades de los estimadores de máxima verosimilitud • Son consistentes. • Son asintóticamente normales, esto es: T̂ − E[T̂ ] n→∞ q −→ N (0, 1) V ar(T̂ ) • Si T es un estimador suficiente de θ, el estimador de máxima verosimilitud de θ es función de T • (Teorema de Zehna). Si θ̂ es un estimador de máxima verosimilitud de θ, entonces g(θ̂) es un estimador de máxima verosimilitud de g(θ). • No son en general insesgados. • Son asintóticamente eficientes, de varianza mı́nima. Ejemplo 10.3.21.– • Dada X ∼ Be(p) y X1 , . . . , Xn una m.a.s. procedente de X, el estimador de máxima verosimilitud de p viene dado por p̂ = X. Sea X1 , . . . , Xn una muestra aleatoria simple. Como P [X = k] = pk (1 − p)1−k si k = 0, 1, entonces: V (x1 , . . . , xn ; p) = n Y P [Xi = xi ] = p P xi (1 − p) P (1−xi ) , i=1 hX i xi Ln(p) + (1 − xi ) Ln(1 − p), P P P d xi (1 − xi ) xi LnV = − = 0 ⇐⇒ p = = X. dp p 1−p n LnV = X Luego p̂ = X. 10 • Dada X ∼ P(λ) y X1 , . . . , Xn una m.a.s. procedente de X, el estimador de máxima verosimilitud de λ viene dado por λ̂ = X Al ser P [X = k] = e−λ λk , k! V (x1 , . . . , xn ; p) = n Y P [Xi = xi ] = i=1 n Y e−λ λxi i=1 X xi ! P λ = Q xi Lnλ − Ln Y X 1 d LnV = −n + xi = 0 ⇐⇒ λ̂ = dλ λ P LnV = −nλ + xi xi ! e−nλ , xi !, xi = X. n • Dada X ∼ Exp(λ) y X1 , . . . , Xn una m.a.s. procedente de X, el estimador de máxima verosimilitud de λ viene dado por λ̂ = 1/X En el caso de la distribución exponencial, f (x, λ) = λe−λx x > 0 busquemos un estimador de máxima verosimilitud (E.M.V.) para λ. Partimos de X1 , X2 , . . . , Xn una muestra aleatoria simple (m.a.s) entonces: V (x1 , . . . , xn ; λ) = n Y f (xi ) = i=1 n Y λe−λxi = λn e−λ P xi , i=1 LnV = nLnλ − λ X xi , d n X 1 LnV = − xi = 0 ⇐⇒ λ̂ = . dλ λ X • Dada X ∼ N (µ, σ 2 ) con µ, σ 2 desconocidos y X1 , . . . , Xn una m.a.s. procedente de X, el estimador de máxima verosimilitud de (µ, σ 2 ) viene dado por ! n X (µ̂, σˆ2 ) = X , (xi − X)2 /n i=1 (x − µ)2 2σ 2 e busquemos un estimador de máxima verosimili− 1 Como f (x) = √ σ 2π tud (E.M.V.) para µ y σ 2 . Sea X1 , X2 , . . . , Xn una muestra aleatoria simple (m.a.s) entonces: V (x1 , . . . , xn ; µ, σ) = n Y i=1 f (xi ) = n Y i=1 1 √ σ 2π (xi − µ)2 − 2σ 2 e = 1 √ (σ 2π)n n n n 1 X LnV = − Ln2π − Lnσ 2 − 2 (xi − µ)2 , 2 2 2σ i=1 11 1 X (xi − µ)n 2 e 2σ , − n X 1 X d LnV = − 2 (xi − µ) = 0 ⇐⇒ (xi − µ) = 0 =⇒ µ̂ = X, dµ σ i=1 n d n 1 X (xi − µ)2 = 0, LnV = − 2 + 4 dσ 2 2σ 2σ i=1 ⇐⇒ sustituyendo µ por su valor X n X n 1 X n (xi − X)2 = 2 =⇒ σ̂ 2 = 4 2σ i=1 2σ (xi − X)2 i=1 n . • Método de los Momentos Definición 10.3.22.– Dada una variable aleatoria X cuya distribución depende de un parámetro θ, se define el momento poblacional de orden j de X como mj (θ) = Eθ [X j ] Definición 10.3.23.– Dada una variable aleatoria X y una muestra aleatoria X1 , . . . , Xn procedente de X, se define el momento muestral de orden j de X como m̂j = n X Xj i i=1 n Supongamos que tenemos una variable aleatoria X cuya distribución depende de un parámetro θ. Si queremos estimar una función q(θ) del parámetro, el método de los momentos consiste en expresar q(θ) como una función continua de los r primeros momentos poblacionales, esto es, q(θ) = g(m1 (θ), . . . , mr (θ)) una vez hecho esto, se sustituyen en dicha función los momentos poblacionales por los correspondientes momentos muestrales, resultando q̂M (θ) = g(m̂1 , . . . , m̂r ) •Propiedades: Los estimadores obtenidos mediante el método de los momentos: 1. Son asintóticamente normales, esto es: T̂ − E[T̂ ] n→∞ q −→ N (0, 1) V ar(T̂ ) 2. Son consistentes. 3. No son, en general, insesgados. 12 10.3.3 Algunos estimadores usuales La siguiente tabla recoge estimadores para los parámetros de algunas de las distribuciones más usuales. Distribución Estimador Be(p) p̂ = X Ge(p) p̂ = 1/X P(λ) λ̂ = X N (µ, σ 2 ) µ̂ = X Exp(λ) 10.4 σˆ2 = S 2 (No insesgado) σˆ2 = Sc2 (Insesgado) λ̂ = 1/X Estimación por intervalos Nuestro objetivo en esta sección es encontrar un intervalo aleatorio del que podamos afirmar, con una probabilidad prefijada, que contiene el verdadero valor del e esto es, parámetro bajo estudio. En lo que sigue denotaremos a la muestra por X, e X = (X1 , . . . , Xn ). Definición 10.4.1.– Sea X una variable aleatoria cuya función de distribución e ≤ l2 (X) e para depende de un parámetro θ, y l1 , l2 dos estadı́sticos tales que l1 (X) e Un intervalo l1 (X), e l2 (X) e se dice que es un intervalo aleatocualquier muestra X. rio de lı́mite inferior l1 y lı́mite superior l2 . e e Definición 10.4.2.– Un intervalo aleatorio l1 (X), l2 (X) se dice que es un intervalo de confianza para θ a nivel de confianza (1 − α) · 100% con 0 < α < 1 si h i e < θ < l2 (X) e = 1 − α. P l1 (X) 10.4.1 Construcción de intervalos de confianza El procedimiento general para la construcción de un intervalo de confianza para un parámetro θ es el siguiente: • Buscamos una función T que dependa de la muestra y del parámetro θ, que sea continua y monótona en θ, pero que su distribución no dependa de θ. 13 • Determinamos dos números reales 1 y 2 tales que P [1 < T < 2 ] = 1 − α. • A partir del intervalo mediante transformaciones algebraicas obtene (1 , 2 ) y h i e l2 (X) e tal que P l1 (X) e < θ < l2 (X) e = 1 − α, con mos un intervalo l1 (X), e l2 (X) e es un intervalo de confianza, al (1 − α)100%, para θ. lo cual l1 (X), Análogamente se definen los intervalos de confianza unilaterales, esto es, intervae e ∞ como aquellos que verifican P [θ < l2 ] = 1 − α los de la forma −∞, l2 (X) ó l1 (X), ó P [θ > l1 ] = 1 − α. La siguiente tabla recoge los intervalos de confianza más usuales para los parámetros de una y/o dos poblaciones normales. En el caso de intervalos para una población, el tamaño muestral se denota por n mientras que en el caso de intervalos para dos poblaciones, el tamaño de la muestra obtenida de la primera población se denota por nx y el tamaño de la muestra de la segunda población se denota por ny . Supondremos también que las varianzas de las poblaciones bajo estudio son desconocidas y por lo tanto se estiman a partir de la cuasivarianza muestral. Intervalos de confianza, en poblaciones normales, al 100(1 − α)% Parámetro Casos Intervalo σ Sc √ n X± µ 2 · tn−1,1− α2 (n−1)Sc2 χ2n−1,1− α (n−1)Sc2 χ2n−1, α , 2 µx − µy σx = σy desconocidas ∗ µx − µy σx 6= σy desconocidas ∗∗ (X − Y ) ± q 1 nx (X − Y ) ± σy2 /σx2 Sc2y + q 2 ∗ Sp2 = (nx −1)Sc2x +(ny −1)Sc2y nx +ny −2 ∗∗ g= + 1 ny · Sp · tnx +ny −2,1− α2 + Sc2y ny Sc2y Sc2x fny −1,nx −1,1− α 2 Sc x nx 2 Sc2x nx 1 2 Sc y ny · tg,1−α/2 , S 2 fnx −1,ny −1,1− α2 cx !2 2 /n )2 2 /n )2 (Sc y (Sc x x + ny +1 nx +1 y −2 Nota: El valor de g que se obtiene con la expresión al pie de tabla no será, en 14 general, un valor entero. Por este motivo, en la práctica, se suele redondear el valor obtenido al entero más próximo. 10.5 Contrastes de hipótesis estadı́sticas Se sospecha acerca de un posible vertido de una sustancia contaminante en un rı́o por lo que es necesario estudiar si la concentración en el agua de dicha sustancia supera los lı́mites admisibles. Como no es posible analizar la totalidad del agua se toman varias muestras en puntos repartidos uniformemente a lo largo del rı́o midiendo, a continuación, la concentración de la sustancia contaminante en las muestras recogidas. Nótese que no interesa estimar la concentración media, sino conocer si dicha concentración supera los lı́mites admisibles. Para responder a la pregunta anterior necesitaremos plantear y resolver un contraste de hipótesis adecuado. Hipótesis estadı́stica: es una afirmación con respecto a alguna caracterı́stica desconocida de la población. Definición: se llama hipótesis nula, y se denota por H0 , a la hipótesis bajo estudio. La realización de un contraste sobre H0 supone la contraposición de esta hipótesis frente a otra hipótesis alternativa que se denota H1 . Definición: Una hipótesis se dice que es simple cuando asigna valor a todos los parámetros implicados, no dejando ningún grado de libertad. En caso contrario, se dice que la hipótesis es compuesta. Ejemplos: sea X ∼ N (µ, σ 2 ) Hipótesis simples Hipótesis compuestas µ = 10 µ ≤ 10 σ2 = 9 µ 6= 10 X ∼ N (4, 9) X ∼ N (4, σ 2 ) Definición: un contraste de hipótesis consiste en el establecimiento de una hipótesis nula y una hipótesis alternativa. Por ejemplo, dada una variable aleatoria X ∼ N (µ, σ 2 ), podemos plantear el contraste H0 : µ = 10 H1 : µ < 10 La resolución de un contraste, que posteriormente veremos cómo se realiza, da como resultado una de las dos decisiones siguientes: • Rechazar H0 : cuando, a partir de los datos experimentales, se tiene evidencia significativa de que H1 es cierta. 15 • No rechazar H0 : cuando, a partir de los datos experimentales, no se tiene evidencia significativa de que H1 sea cierta. Ahora bien, como la decisión se toma a partir de una muestra podemos equivocarnos, siendo posibles cada una de las siguientes situaciones: No rechazar H0 Rechazar H0 H0 cierta Correcto Error de Tipo I H0 falsa Error de Tipo II Correcto Se denota por α a la probabilidad de cometer un Error de Tipo I y se denota por β a la probabilidad de cometer un Error de Tipo II; esto es: i h P No rechazar H0 |H0 es falsa = β P Rechazar H0 |H0 es cierta = α ¿Se pueden controlar los errores? Lo ideal serı́a que ambas probabilidades fueran cero o estuvieran muy próximas a cero. Aunque una probabilidad no es complementaria de la otra, esto es, en general α + β 6= 1, suele ocurrir que cuando una disminuye la otra aumenta por lo que, en general, no podremos lograr que ambas sean tan pequeñas como queramos. En la práctica lo que se suele hacer es fijar α como un valor pequeño. De este modo, la probabilidad de cometer un error de tipo I será pequeña y estará controlada. Definición: se llama test de hipótesis a un estadı́stico T unido a una regla de decisión, que dependerá del α fijado, y permitirá rechazar o no H0 . La regla de decisión será: Rechazo H0 ⇔ “T verifica una condición”. El recorrido de T queda dividido en dos partes: Región de aceptación: valores de T que hacen que se no se rechace H0 . Región crı́tica o de rechazo: valores de T que hacen que se rechace H0 . Definición: Una hipótesis alternativa unilateral es aquella de la forma θ < θ0 o bien de la forma θ > θ0 mientras que una hipótesis bilateral es de la forma θ 6= θ0 , siendo θ el parámetro sobre el cual se realiza el contraste y θ0 el valor de prueba. Generalmente se toma como H0 una hipótesis simple y como H1 una hipótesis compuesta (unilateral o bilateral). Si H1 es compuesta la probabilidad de cometer un Error de Tipo II, β, depende del parámetro θ, esto es, β = β(θ) y representa la probabilidad de cometer un Error de Tipo II para cada valor θ de la hipótesis alternativa. Esto nos lleva a la siguiente definición: Definición: Se define la función potencia del test como ρ(θ) = 1 − β(θ). Representa la probabilidad de rechazar H0 cuando es falsa y conviene que sea lo mayor posible. 16 Contrastes de hipótesis, sobre poblaciones normales, a nivel de significación α Contrastes sobre una población Contrastes sobre µ con σ desconocida Hipótesis Región Crı́tica H0 : µ = µ0 H1 : µ 6= µ0 |X − µ0 | ≥ H0 : µ = µ0 H1 : µ > µ0 X ≥ µ0 + Sc √ n · tn−1,1−α H0 : µ = µ0 H1 : µ < µ0 X ≤ µ0 − Sc √ n · tn−1,1−α Hipótesis H0 : σ 2 = σ02 H1 : σ 2 6= σ02 Sc √ n · tn−1,1− α2 Contrastes sobre σ 2 Región Crı́tica Sc2 ≥ σ02 χ2n−1,1− α ó Sc2 ≤ 2 n−1 H0 : σ 2 = σ02 H1 : σ 2 > σ02 Sc2 ≥ H0 : σ 2 = σ02 H1 : σ 2 < σ02 σ02 χ2n−1,1−α n−1 Sc2 ≤ 17 σ02 χ2n−1,α n−1 σ02 χ2n−1, α 2 n−1 Contrastes de hipótesis, sobre poblaciones normales, a nivel de significación α Contrastes sobre dos poblaciónes independientes 2 = σ 2 desconocidas∗ Contrastes sobre diferencias de medias con σX Y Hipótesis Región Crı́tica∗ q H0 : µx − µy = δ0 |X − Y − δ0 | ≥ Sp · n1x + n1y · tnx +ny −2,1− α2 H1 : µx − µy 6= δ0 H0 : µx − µy = δ0 H1 : µx − µy > δ0 X − Y ≥ δ0 + Sp · q 1 nx + 1 ny · tnx +ny −2,1−α H0 : µx − µy = δ0 H1 : µx − µy < δ0 X − Y ≤ δ0 − Sp · q 1 nx + 1 ny · tnx +ny −2,1−α 2 6= σ 2 desconocidas∗∗ Contrastes sobre diferencias de medias con σX Y Hipótesis Región Crı́tica∗ r H0 : µx − µy = δ0 H1 : µx − µy 6= δ0 |X − Y − δ0 | ≥ r H0 : µx − µy = δ0 H1 : µx − µy > δ0 X − Y ≥ δ0 + r H0 : µx − µy = δ0 H1 : µx − µy < δ0 X − Y ≤ δ0 − + Sc2y ny · tg,1−α/2 Sc2x nx + Sc2y ny · tg,1−α Sc2x nx + Sc2y ny · tg,1−α Sc2x nx Contrastes sobre varianzas de dos poblaciones Hipótesis Región Crı́tica ∗S2 p H0 : σx2 = σy2 H1 : σx2 6= σy2 Sc2x Sc2y ≥ fnx −1,ny −1,1− α2 o bien H0 : σx2 = σy2 H1 : σx2 > σy2 Sc2x Sc2y H0 : σx2 = σy2 H1 : σx2 < σy2 = (nx −1)Sc2x +(ny −1)Sc2y nx +ny −2 Sc2x Sc2y ∗∗ g 2 Sc x nx = ≤ ≥ fnx −1,ny −1,1−α ≤ + 1 fny −1,nx −1,1−α 2 Sc y ny !2 2 /n )2 2 /n )2 (Sc y (Sc x x + ny +1 nx +1 y 18 Sc2x Sc2y −2 1 fny −1,nx −1,1− α 2 10.6 Intervalos de confianza y contrastes de hipótesis en poblaciones grandes Sea X1 , . . . , Xn una muestra aleatoria simple de una variable aleatoria X, con E(X) = µ y V ar(X) = σ 2 , que no necesariamente se ajusta a una distribución normal. El Teorema Central del Lı́mite nos asegura que, si el tamaño muestral n es muy grande, la variable X sigue una distribución que es aproximadamente normal con media E(X) = µ y varianza √ V ar(X) = σ 2 / n. En esta situación, un intervalo de confianza para el parámetro µ, con nivel de signifiX − µ√ n ∼ N (0, 1), vendrı́a cación (1 − α) · 100%, que se obtiene a partir del estadı́stico σ dado por Sc Sc X − √ · z1−α/2 , X + √ · z1−α/2 n n . De manera similar, si se desea resolver el contraste Ho : µ = µ0 H1 : µ 6= µ0 con nivel de significación α se rechazará la hipótesis nula si |X − µ0 | ≥ 10.7 Sc √ n · z1−α/2 . Uso del p-valor en la resolución de contrastes Cuando resolvemos un contraste de hipótesis mediante un paquete de software, la decisión sobre la hipótesis nula se toma a partir de un parámetro denominado p-valor. De manera general, se rechaza la hipótesis nula nula cuando el p-valor proporcionado con el programa es inferior a la significación del contraste. ¿Qué es realmente el p-valor y por qué debemos rechazar la hipótesis nula cuando el p-valor es inferior a la significación del contraste? Vamos a ver un ejemplo para entenderlo mejor. Supongamos que un amigo nos dice que tiene poderes de adivinación y es capaz de acertar, en el 90% de los casos, el resultado que se va a obtener al lanzar una moneda. Como es amigo nuestro, le concedemos el beneficio de la duda pero decidimos ponerle a prueba: vamos a lanzar una moneda 50 veces y le pedimos que, previamente a cada lanzamiento, haga una predicción sobre el resultado que se va a obtener. Tras hacer los 50 lanzamientos, encontramos que su predicción ha sido acertada únicamente en 30 de los 50 lanzamientos. Si realmente tuviera fuera capaz de acertar el resultado del lanzamiento en el 90% de las ocasiones, el número de aciertos en los 50 lanzamientos serı́a una variable aleatoria X ∼ B(50, 0.9). ¿Cuál serı́a entonces la probabilidad de que, al hacer los 50 lanzamientos, acertara como mucho el resultado de 30 lanzamientos? Para responder a la pregunta tenemos que calcular P (X ≤ 30) que resulta ser igual a 0.00000002. Ası́ pues, si realmente 19 es cierto que puede adivinar el resultado en el 90% de las ocasiones, la probabilidad de que al hacer nuestro experimento acierte como mucho en 30 acasiones serı́a extremadamente pequeña, tanto que debemos concluir que su afirmación no es cierta. Lo que hemos hecho, en realidad, es plantear el contraste de hipótesis: H0 : p = 0.9 H1 : p < 0.9 El p-valor correspondiente a este contraste para la muestra recogida, en la que se han producido 30 aciertos de 50 lanzamientos, es la probabilidad de obtener un resultado tan desfavorable a H0 , al menos, como el observado en la muestra. En nuestro caso, 0.00000002. Si la significación del contraste es α = 0.05, al ser el p-valor obtenido inferior a la significación podemos decir que tenemos evidencia para rechazar la hipótesis nula, esto es, podemos afirmar que no es cierto que pueda predecir el resultado del lanzamiento con una eficacia del 90%. Ahora bien, ¿y si hubiera acertado el resultado de 44 de los 50 lanzamientos? En ese caso, si estuviera diciendo la verdad, que acierte a lo más 44 de los lanzamientos es algo bastante probable (nótese que P (X ≤ 44) = 0.383877) por lo que no tendrı́amos evidencia para negar su afirmación. Por tanto, como ya se ha dicho antes, de manera general al resolver un contraste de hipótesis tendremos evidencia para afirmar que la hipótesis alternativa es cierta, para un nivel de significación α, cuando el p-valor obtenido sea menor o igual que la significación del contraste. En caso contrario, no podremos afirmar que la hipótesis alternativa es correcta. 20 10.8 Ejercicios 1. Sea X una variable aleatoria uniformemente distribuida en (0, β), donde β es desconocido, y sea X1 , . . . , Xn una m.a.s. de X. Consideremos el estimador U = max{X1 , . . . , Xn } cuya función de densidad viene dada por i. Comprobar que es un estimador sesgado de β. ii. Estimar β, utilizando un estimador insesgado, a partir de la muestra: 0.53 0.73 1.54 2.48 1.3 0.2 iii. Demostrar que el estimador U es consistente para β. ( fU (x) = nxn−1 βn 0 si si x ∈ (0, β) x∈ / (0, β) 2. Sea X1 , X2 , X3 , X4 una muestra aleatoria de tamaño cuatro de una población cuya distribución es exponencial de parámetro θ desconocido. De los siguientes estadı́sticos, ¿cuáles son insesgados de θ−1 ? T1 = 61 (X1 + X2 ) + 31 (X3 + X4 ) T2 = X1 +2X2 +3X3 +4X4 5 T3 = X1 +X2 +X3 +X4 4 ¿Cuál tiene varianza mı́nima? 3. Los resultados que se muestran a continuación son relativos a las temperaturas de funcionamiento de dos procesadores: procesador 1 procesador 2 tamaño muestral 10 9 media 44.67 47.24 varianza 2.87 8.94 Supuesto que las caracterı́sticas bajo estudio siguen distribuciones normales independientes con distintas varianzas, calcular un intervalo de confianza al 90% para la diferencia de temperaturas medias de ambos procesadores. 4. Se quiere probar la efectividad de un antitérmico (reductor de la fiebre). Con tal fin se tomó la temperatura a 10 niños afectados de gripe, antes y después de la administración del antitérmico resultando una media de las diferencias de temperaturas (antes-después) de D = 1.58 y una cuasidesviación tı́pica de las diferencias Scd = 0.71. Suponiendo que la caracterı́stica bajo estudio sigue una distribución normal, calcular un intervalo de confianza al 90% para la diferencia de medias. 5. El Ayuntamiento de una ciudad se encuentra interesado en estimar la cantidad promedio de dinero que la población se gasta, al cabo del mes, en espectáculos. Se realizó una encuesta a 16 personas elegidas al azar obteniéndose (en euros) los siguientes datos: 15.00, 17.50, 16.30, 14.80, 14.20, 18.90, 13.50, 17.40, 16.80, 15.20, 15.80, 18.40, 13.40, 14.60, 15.50, 16.30. Si se supone que la cantidad de dinero gastada en un mes es una variable aleatoria que sigue una distribución normal, obtener los intervalos de confianza para la cantidad promedio real al 90%, 95% y 98%. Obtener un intervalo de confianza para la varianza con nivel de confianza del 98%. 21 6. Un laboratorio afirma que un calmante de su fabricación quita la jaqueca en 14 minutos (o menos), en los casos corrientes. Con el fin de comprobar estadı́sticamente esta afirmación, se eligen al azar 18 pacientes con jaqueca y se toma como variable de respuesta en el experimento el tiempo transcurrido entre la administración del calmante y el momento en que desaparece la jaqueca. Los resultados observados en la muestra de pacientes han sido X = 19 y S = 7. ¿Se puede rechazar, al 5% de significación, la afirmación del laboratorio?. (Suponer normalidad) 7. El voltaje de salida en cierto circuito eléctrico debe ser igual a 130, según se especifica en las instrucciones. Una muestra de 40 lecturas independientes para este circuito reflejó una media muestral de 128.6 y una desviación tı́pica de 2.1. ¿Se encuentra dicho circuito en perfecto estado? (Suponer normalidad y utilizar un nivel de significación del 5%). 8. De los datos experimentales se deduce que la duración de una pila sigue una distribución normal. El fabricante asegura que el tiempo medio de vida es de 15 horas de duración. Temiendo que la duración pueda ser menor, se toma una muestra de 10 pilas, obteniendo los siguientes datos (duración en horas) 14, 14.5, 15, 15.5, 13, 16.5, 10, 15.5, 14, 14 Decidir si, en base a los datos muestrales, debemos rechazar o no la afirmación del comerciante con un nivel de significación de 0.05. 9. Distintas mediciones de la cantidad de cierto producto obtenidas para dos tipos de suelo dieron los siguientes resultados: Suelo tipo A nA = 30 YA = 1.65 SA = 0.26 Suelo tipo B nB = 35 YB = 1.43 SB = 0.22 ¿Difieren los dos suelos con respecto a la cantidad promedio del producto? (Suponer normalidad y un nivel de significación del 1%). 10. Una compañı́a farmacéutica realizó un experimento para comprobar los tiempos promedio (en dı́as) necesarios para recuperarse del resfriado común. En este experimento se compararon personas que tomaron una dosis diaria de vitamina C con personas que tomaron un placebo. El estudio se hizo a 35 personas en cada grupo, obteniéndose los siguientes datos: Tratamiento Media Desviación Con placebo 7.3 2.9 Con vitamina C 4.6 1.2 Supuesto normalidad, y con un nivel de significación de 1%, ¿se puede afirmar que el tiempo de recuperación promedio cuando se toma placebo supera en más de un dı́a al tiempo de recuperación promedio cuando se ingiere vitamina C? 11. Los siguientes datos fueron recabados para verificar si existe diferencia sistemática en los pesos obtenidos con dos balanzas diferentes: 22 Peso en gramos Muestra de roca Muestra de roca Muestra de roca Muestra de roca Muestra de roca Muestra de roca Muestra de roca Muestra de roca Muestra de roca Muestra de roca 1 2 3 4 5 6 7 8 9 10 Balanza I 11.23 14.36 8.33 10.50 23.42 9.15 13.47 6.47 12.40 19.38 Balanza II 11.27 14.41 8.35 10.52 23.41 9.17 13.52 6.46 12.45 19.35 Suponiendo normalidad probar, con nivel de significación α = 0.05, si la diferencia de medias de los pesos obtenidos es significativa. 12. Se obtienen los siguientes datos con respecto a la resistencia de dos dispositivos diferentes: Dispositivo A: 15.8, 12.7, 13.2, 16.9, 10.6, 18.8, 11.1, 14.3, 17.0, 12.5 Dispositivo B: 24.9, 23.6, 19.8, 22.1, 20.4, 21.6, 21.8, 22.5 Probar si es razonable suponer que las muestras provienen de poblaciones (normales) con la misma varianza. (Utilizar α = 0.05) 13. Se requiere determinar si existe menos variabilidad en el plateado realizado por la compañı́a A que en el efectuado por la compañı́a B. Si dos muestras aleatorias independientes de tamaño 12 del trabajo desempeñado por ambas compañı́as presentaron desviaciones tı́picas SA = 0.035 mm. y SB = 0.062 mm., comprobar la hipótesis nula de que σA = σB contra la hipótesis alternativa de que σA < σB con un nivel de significación de 0.05. (Suponer normalidad) 14. Jugando 10 rondas de golf en su campo privado, un golfista profesional promedió 71.3 golpes con una desviación tı́pica de 1.32. Probar la hipótesis nula de que la consistencia de su juego, en su campo privado, en realidad está dada por σ = 1.20, contra la hipótesis alternativa de que es menos consistente. (Suponer normalidad y emplear un nivel de significación α = 0.05) 15. Dos técnicas de alumbrado se comparan midiendo la intensidad de la luz en puntos determinados situados en áreas iluminadas por cada uno de los dos métodos. Si 15 mediciones en el primer área dieron una desviación tı́pica de 2.7 bujı́as por pie cuadrado, y 27 mediciones en la segunda área dieron una desviación de 4.2 bujı́as por pie cuadrado, ¿puede concluirse que el alumbrado en la segunda área es menos uniforme?. (Suponer normalidad y utilizar un nivel de significación α = 0.01) 16. Los ingresos mensuales (en euros) de un grupo de 9 personas seleccionadas al azar entre un gran número de individuos, han resultado ser: 1570, 1550, 1530, 1520, 1560, 1500, 1510, 1540, 1580. ¿Debe rechazarse la hipótesis de que la muestra procede de una población normal cuyos ingresos mensuales medios son de 1557 euros, para un nivel de significaciń del 5%? Calcular un intervalo de confianza al 95% para la media poblacional. 23 17. Un proceso quı́mico debe producir cada dı́a una cantidad media de 800 toneladas de un producto. El encargado de vigilar el buen funcionamiento del proceso sospecha que se está produciendo menos de esa cantidad y por ello ha observado las producciones diarias durante los últimos 5 dı́as, que son: 802, 795, 752, 810, 783. ¿Hay evidencia para afirmar, al 5% de significación, que la sospecha es correcta? 18. Se llevó a cabo un estudio para determinar el grado en el cual el alcohol entorpece la habilidad de pensamiento para llevar a cabo determinada tarea. Se seleccionaron al azar diez personas de distintas caracterı́sticas y se les pidió que participaran en el experimento. Inicialmente, cada persona llevó a cabo la tarea sin nada de alcohol en su organismo y se midió el tiempo (en minutos) necesario para realizarla. Posteriormente, la tarea volvió a llevarse a cabo, después de que cada persona habı́a consumido una cantidad sufciente de alcohol para tener un contenido en su organismo del 0.1%. Los datos recogidos fueron los siguientes: Sujeto Tiempo antes Tiempo después 1 28 29 2 22 35 3 55 57 4 45 51 5 32 36 6 35 58 7 40 51 8 25 34 9 37 48 10 20 30 ¿Puede concluirse, al 5% de significación, que el consumo de alcohol incrementa el tiempo necesario para realizar la tarea? 19. Dividimos aleatoriamente un conjunto de pacientes afectados por cierto virus en dos grupos a los que se administra respectivamente un placebo y un tratamiento en estudio para combatir la afección vı́rica. Después de tratar a los pacientes durante 2 meses se mide la concentración de virus de cada uno de ellos. Las medidas obtenidas en los pacientes que fueron tratados con el placebo son: 23, 26, 26, 22, 27, 25, 24, 24, 25, 25. Las medidas de los pacientes que recibieron el tratamiento fueron: 22, 22, 19, 21, 22, 23, 24, 20, 23, 23. ¿Puede decirse, al 5% de significación, que el tratamiento hace el efecto deseado en la infección, es decir, que disminuye el nivel de virus? 20. Una muestra de 2000 personas tiene una estatura media de 1.72 m. y varianza 0.12 m. Obtener un intervalo de confianza para la media al 98%. ¿Podemos afirmar, con una significación de α = 0.05 que la altura media de la población es distinta de 1.75m? 24