TEORIA DE ESTIMACION POR INTERVALOS DE CONFIANZA

advertisement
UNIDADV
TEORIA DE ESTIMACION POR INTERVALOS DE CONFIANZA
A pesar de que un estimador posea las buenas propiedades deseables, no se puede
pretender que una estimación puntual obtenida con observaciones muestrales sea
exactamente igual al valor del parámetro poblacional que se quiere estimar. Por esto es
interesante determinar un intervalo dentro del cual se hallará, con cierta probabilidad (1-a) el
parámetro a estimar.
Tal intervalo se llama INTERVALO DE CONFIANZA, y el método que utilizó para
hallarlo se denomina ESTIMACION POR INTERVALO DE CONFIANZA.
Una estimación por intervalo del parámetro B es de la forma:
^BI < B < ^BS
límite inferior
límite superior de la estimación
donde ^BI y ^ BS dependen tanto del valor estimador ^B, para una muestra en particular,
como de la distribución muestral de ^B.
Dado que muestras diferentes, en general producirán valores diferentes del estimador
^B y, en consecuencia, valores diferentes de ^BI y ^ BS , estos puntos extremos del intervalo
son valores de la variable aleatoria correspondiente a ^BI y ^ BS .
Si se conoce la distribución muestral del estimador ^B se podrá determinar^BI y^BS
de tal manera que
P{ BI < B < BS } = 1- a donde 0 < a < 1 se elegirá de antemano.
En otras palabras: se tendrá una probabilidad 1- a de seleccionar una muestra
aleatoria que conducirá a un intervalo de confianza que contenga o cubra al parámetro B.
Entonces , el intervalo ^BI < B < ^BS se llama INTERVALO DE CONFIANZA
DEL (1-a) 100 %, [por simplicidad en adelante se escribirá (1-a) %] la cantidad (1- a) se
llama COEFICIENTE DE CONFIANZA, y los valores extremos ^BI y^BS son los limites
de confianza inferior y superior respectivamente. Por ejemplo, si a=0,05existe una
confianza de 95 % ( o una probabilidad de 0,95 ) de que el intervalo hallado cubra al
verdadero parámetro B, o lo que es lo mismo, de cada 100 intervalos hallados, 95 cubrirán o
contendrán al parámetro B y 5 no tendrán esta propiedad. Lo que no podemos afirmar es si
el intervalo hallado pertenece al subconjunto de los 95 que cubren o al de los 5 que no
cubren a B. Un valor a=0,01 un intervalo de confianza mas amplio, del 99% (o de una
probabilidad 0,99 ). A medida que crece el intervalo mayor confianza se tendrá en que este
cubra a B, pero un intervalo excesivamente amplio no dará información valiosa. Lo ideal es
obtener intervalos de poca amplitud y gran confianza . Una muestra de n grande conduce a
un intervalo de menor amplitud, pero a veces, restricciones de tipo presupuestario o de
tiempo, impiden obtener muestras grandes. Por otra parte, en el diseño de la muestra, el
tamaño n de la misma fue fijado casi al comienzo de la investigación.
1
Para la construcción de un intervalo de confianza deberá contarse entonces con:
a) Un estimador puntual del parámetro a estimar.
b) Una función de ese estimador y del parámetro cuya distribución muestral se conozca
totalmente .
c)Un nivel de confianza específico.
En los casos particulares que se presentaran a continuación se observarán los puntos a) y b).
1) ESTIMACION DE LA MEDIA CON  CONOCIDA
Un estimador puntual de  es x , con x  N ( ; 2/ n ), ó bien E( x )=. y el desvío es =
/  n Si la muestra se selecciona de una población normal o bien de no ser así, n es s.g
(suficientemente grandes) podremos construir bien un intervalo de confianza para 
considerando: distribución de x . La función mencionada en el punto b) anterior será en este
caso:
Z
x
/ n

N
(0,1)
Entonces hacemos
P{- Z1-a/2 < Z < Z1- a/2 }= 1 - a
Reemplazando Z será :
x
/ n
P{ Z1 a / 2

P{ Z1 a / 2
* ( / n )  x    Z1 a / 2
P{x  Z1 a / 2
 Z1 a / 2 }  1  a
* ( / n )    x  Z1 a / 2
* ( / n )  x}  1  a
* ( / n )}  1  a
Para llegar a la última expresión hemos multiplicado cada término de la desigualdad
por  / n , restado de x y multiplicado por (-1), con lo que ha cambiado el sentido de la
desigualdad. Es decir:
INTERVALO DE CONFIANZA PARA  CON  CONOCIDO
Si x es la media de una muestra aleatoria de tamaño n, de una población con
variancia conocida 2, un intervalo de confianza del (1-a) % para  está dado por:
x  Z1 a / 2
* ( / n )    x  Z1 a / 2
* ( / n )
donde Za / 2 es el valor de la variable aleatoria Z que delimita un área de probabilidad a/2 en
las colas de la distribución.
2
Si se trabaja con muestras pequeñas seleccionadas de poblaciones no normales no se deben
esperar intervalos muy exactos. Sin embargo con n  30 se garantizan buenas
aproximaciones. Cuanto mayor sea Za / 2 (mayor confianza) tanto más amplios serán los
intervalos y habrá más confianza de que la muestra seleccionada en particular producirá un
intervalo que cubra al parámetro .
EJEMPLO 1:
Sea media x del puntaje obtenido en un examen de Base de Datos de 50 alumnos
resulto ser 5,38. Se reconoció un valor de desvío standard  = 2,15. Construya los intervalos
de confianza del 95 % y del 99 % para la media  de todos los estudiantes de la Facultad e
interprete los resultados.
SOLUCION:
La estimación puntual de m es x = 5,38 ; el valor del parámetro  = 2,15. Para el
intervalo del 95 % Z1- 0,025 = 1,96 . y para el intervalo del 99 % Z1-0,005 = 2,576.
el 1er intervalo es :
5,38 - 1,96 * 2,15 / 50 <  <5,38 + 1,96 * 2,15/ 50
el que se reduce a :
4,78 <  < 5,98
“ El intervalo 4,78 ; 5,98 cubre al verdadero valor de la nota promedio en Base de Datos ,
con una probabilidad 0,95 o en otras palabras , es bastante probable que dicho intervalo
contenga al valor de  .”Frente a la pregunta : ¿ el intervalo cubre a  ?
La respuesta es : Sí , con una probabilidad de 0,95 ; ( en consecuencia , No ,con una
probabilidad de 0,05 ), lo que implica que asumimos un riesgo del 5 % de que el intervalo
N0 cubra  .
Lo que jamás deberá decirse (aunque a veces se escucha y lo que es tal vez peor , se
lee ) es aquello de “el parámetro cae dentro del intervalo.” En este enfoque clásico , los
parámetros son valores desconocidos fijos, por lo tanto no caen, no se mueven . Aquello
que es aleatorio es el intervalo dado que depende de x , en consecuencia sus limites pueden
tomar diferentes valores y cubrir o no al parámetro desconocido.
El 2do intervalo resulta ser:
4,60 <  < 6,16
Se observa que en cuanto se ha pretendido mayor confianza, se ha obtenido un
intervalo mayor.
El intervalo de confianza se puede usar para estimar la exactitud de la estimación
puntual x . Si  resultara ser el valor central del intervalo , entonces x estima a  sin
error. Pero esto, en general no ocurre; x estimará a  con un ERROR. El tamaño de este
error es la diferencia entre  y x y se puede tener una confianza ( 1-a ) % de que esa
diferencia no excederá Z1 a / 2 * ( / n ) .Esto mismo gráficamente:
ERROR
3
----------
x

x  Z1 a / 2 *  / n
x  Z1 a / 2 *  / n
A veces se desea saber que tan grande deberá ser n para asegurar un error de estimación de 
menor que una cantidad especificada e. Es decir se podrá elegir n tal que:
e  Z1a / 2
de donde
* / n
( Z1 a / 2 *  ) 2
n=
e
Estrictamente, esta fórmula podrá usarse si se conoce . En la práctica, si  es desconocido
podrá estimarse con una muestra piloto de n  30.
EJEMPLO 2:
De qué tamaño deberá ser la muestra del ejemplo 1 si se desea tener una confianza de 95%
de que el error de estimación de  es menor que 0.50
SOLUCION:
(1.96*2.15) 2
0.50
 72
Una muestra de tamaño 72 proporcionará una estimación x que diferirá de  en una
cantidad menor que 0.50.
n=
1.2 Con  desconocido
Con frecuencia se trata de construir un intervalo de confianza para  cuando se desconoce
la variancia poblacional 2
Entonces la función Z del primer caso deberá reemplazarse por:
t = (x   ) / (S / n )  t * St( n 1)
donde S es el estimador insesgado de .
Se puede escribir:
P{ -t1-a/2,(n-1) < t < t1-a/2,(n-1) }=1-a
o bien
P{ -t1-a/2,(n-1) < ( x  ) / ( S / n ) < t1-a/2,(n-1) }=1-a
Multiplicando cada término de la desigualdad por S / n , restando luego x y multiplicando
por (-1)
4
P{ x - t1-a/2,(n-1) * S / n <  < x + t1-a/2,(n-1) * S / n }=1-a
INTERVALO DE CONFIANZA PARA  CON  DESCONOCIDO
Siendo x y S la media y el desvío standard de una muestra aleatoria tomada de una
población aproximadamente normal con parámetros desconocidos, el intervalo de confianza
del (1-a) para  es:
x - t1-a/2,(n-1) * S / n <  < x + t1-a/2,(n-1) * S / n
donde ta/2;(n-1) es el valor de la variable aleatoria t de Student con (n-1) grados de libertad que
delimita una probabilidad a/2 en las colas de la distribución.
EJEMPLO 3:
Los contenidos de ácido sulfúrico en 9 recipientes son:
10.0; 11.0; 9.8; 9.3; 12.0; 10.2; 10.7; 9.5; 11.3. Construir un intervalo de confianza para la
media de un gran conjunto de recipientes considerando que el contenido de ácido sulfúrico
se distribuye aproximadamente normal.
SOLUCIÓN:
La estimación puntual de  es x = 10.42 y la  es S= 0.8941
el valor t1-0.025 ; B= 2.306 luego;
10.42 - 2.306 * (0.8941/ 9 ) <  < 10.42 + 2.306 *(0.8941/ 9 )
Los contenidos de ácido sulfúrico en 9 recipientes son:
10.0; 11.0; 9.8; 9.3; 12; 10.2; 10.7; 9.5; 11.3. Construir un intervalo de confianza para la
media de un gran conjunto de recipientes considerando que el contenido de ácido sulfúrico
se distribuye aproximadamente normal.
SOLUCIÓN:
La estimación puntual de  es x = 10.42 y la  es S= 0.8941
el valor t1-0.025 ; B = 2.306 luego;
10.42 - 2.306 * (0.8941/ 9 ) <  < 10.42 + 2.306 *(0.8941/ 9 )
{para el 95% busco en la lista
9.735 <  < 11.11 { el 0.975 porque tengo la mitad
{ más lo que estoy calculando
Cuando el tamaño de la muestra es n >= 30 se tiene una buena aproximación utilizando la
distribución normal en lugar de la t de Student.
ESTIMACION DE UNA PROPORCION
La proporción P en un experimento binomial se podrá estimar con P = x/n siendo x
5
el número de éxitos en n pruebas independientes.
Tendremos: E (p) = 1/n * E (x) = P
Var (p) = (PQ) /n
Para construir el intervalo de confianza para P, verdadera proporción se construirá la
función:
Z= (P - p ) / ( ( p * q ) / n )  N
Pero como los valores de P y Q son desconocidos estos serán estimados respectivamente con
p y q.
El intervalo será:
P { - Za/2 < Z < Za/2 }= 1-a
Reemplazando Z con su igual y operando algebraicamente hasta obtener P en el centro del
intervalo, se tendrá:
( p * q) / n < P < p + Z1-a/2 ( p * q) / n }  1-a
P {p - Z1-a/2
Lo que no deja de ser un intervalo aproximado por el hecho de haber tenido que reemplazar
P y Q en el radical por las estimaciones p y q. La aproximación resulta buena si n es grande.
INTERVALO DE CONFIANZA PARA P CON MUESTRA GRANDE
Si P es la proporción de éxitos en una muestra de tamaño n y q=1-p, el intervalo de
confianza del (1-a)% para P, verdadera proporción será:
p - Z1-a/2
( p * q) / n < P < p + Z1-a/2 ( p * q) / n
donde Za/2 es el valor de la v.a Normal que delimita una probabilidad a/2 a su derecha.
NOTA
Cuando n es pequeño y la proporción desconocida P se sospecha cercana a 0 o a 1,
el intervalo interior no puede usarse porque no es confiable. Por lograr una confiabilidad
aceptable, deberá ser np y nq  5 . El intervalo anterior también es aplicable cuando las
pruebas son dependientes (distribución hipergeométrica) siendo n pequeño con relación al
tamaño N de la población.
EJEMPLO 7:
En una muestra aleatoria de n=500 familias poseedoras de aparatos de TV, en la ciudad de
Buenos Aires se halló que x=340 se suscribieron en VCC. Obtener su intervalo de confianza
del 95% para estimar la verdadera proporción de familias en la ciudad que se suscribieron a
6
VCC.
SOLUCIÓN:
La estimación puntual de P es p = 340/500=0.68
El valor de Z1-0.025 = 1.96 entonces:
0.68 - 1.96 * 0.68 * 0.32 / 500 < P < 0.68 + 1.96 * 0.68 * 0.32 / 500
0.64 < P < 0.72
Si P es el valor central de un intervalo de confianza, entonces p estima sin error a P; pero la
mayor parte de las veces no será P=p y la estimación puntual será errónea. El tamaño de este
error será la diferencia positiva entre P y p y se puede tener una confianza (1-a) de que
esta diferencia no exceda Z1-a/2 ( pq) / n .
Gráficamente:
ERROR
-------
p - Z1-a/2 ( pq) / n
p
P
p + Z1-a/2 ( pq) / n
En el ejemplo anterior, se tendrá una confianza del 95% de que p=0.68 difiere de P en una
cantidad menor de 0.04.
Se plantea ahora de que tamaño deberá ser n para que el error cometido al estimar P sea
menor que una cantidad especificada E. Por lo anterior deberá elegirse n de tal manera que:
E = Z1-a/2 ( pq) / n
de donde
n = Z2 1-a/2 * p* q / e2
Esta última deducción es algo engañosa porque se utiliza p para calcular n aunque p se
calcula con la muestra. Se suele realizar una estimación burda de P sin tomar una muestra, y
con ella calcular n. Todos los valores fraccionarios de n se redondean a su entero siguiente.
EJEMPLO 8:
Qué tan grande debe ser la muestra del ejemplo 7 si se desea tener una confianza del
95% que p está dentro de 0.02 ?
SOLUCION:
Las n=500 familias se consideran constituidas una muestra piloto que proporciona p= 0.68.
Luego aplicando la fórmula anterior:
n=
(1.96) 2  0.68  0.32
( 0.02 ) 2
 2.090
7
NOTA:
Si no se posee información alguna acerca de p, se considerará p = 1/2, lo que
maximizar el producto p(1-p) y produce un n mayor. En el ejemplo anterior, con este
supuesto se habría obtenido n = 2.401
8
Descargar