Document

Anuncio
INFERENCIA
ESTADÍSTICA
Población y Muestra
Una variable aleatoria puede pensarse como cualquier
característica medible de los individuos de una
población. El conjunto de todas las mediciones de dicha
variable es la Población o Universo.
x1, x2 , x3 ,.....xN
Muestra es un subconjunto de la población
al que tenemos acceso y sobre el que
realmente hacemos las mediciones
x
1
, x2 , x3 ,.....xn
Cada una de estas mediciones son valores que toman las
variables aleatorias
X1, X 2 , X 3 ,..... X n
Estas variables forman una muestra aleatoria de tamaño n si:
•Las Xi son variables aleatorias independientes.
•Cada variable Xi tiene la misma distribución de probabilidad que la
distribución de la población con su misma esperanza µ y varianza σ2
Ejemplo de una población
Seleccionamos una muestra
Seleccionamos otras
muestras
El objetivo de tomar una muestra es obtener
información sobre los parámetros no conocidos de
la población
La inferencia
estadística
generaliza
conclusiones
extraídas de
una muestra
sobre la
población
Parámetro
Es una
cantidad
numérica
calculada
sobre la
población.
Estadístico muestral o Estimador
Es cualquier operación que se hace con la muestra. Ej:
media muestral, proporción muestral, varianza muestral
Los estimadores son variables aleatorias, su
distribución de probabilidades se llaman
distribuciones de muestreo.
Distribución de la media muestral
Si los datos originales no se
distribuyen normalmente
Distribución de la media muestral
y características numéricas
Al ser la media muestral una suma de variables aleatorias xi
con igual distribución, por el teorema central del límite, la
media muestral tiene una distribución normal. Y por el
teorema de Bernoulli generalizado,
E  xi   
V  xi    2
E ( xi )
 n xi  n  xi 
E ( x )  E     E    n

n
 i 1 n  i 1  n 
 n xi  n  xi
V ( x )  V     V 
 i 1 n  i 1  n
2 2

  n. n 2  n

Estimación puntual de
parámetros
Es el valor numérico que toma un estimador.
Se calcula con los datos de la muestra, del cual se
espera que estime un parámetro poblacional.
Si X es una variable aleatoria con distribución de
probabilidades f(x), caracterizada por el parámetro
desconocido  y si x1, x2 ,....., xn es una muestra
aleatoria de tamaño n, entonces
ˆ  h( x1, x2,.....xn ) Es un estimador puntual de 
La media muestral es un estimador puntual de
S 2 esun estimador puntualde  2

Propiedades de los
estimadores
• Propiedad de insesgadura:
Un estimador ˆ es un estimador insesgado del parámetro
 si E(ˆ )= 
Es decir, la esperanza del estimador muestral es el
parámetro poblacional.
Ejemplos: la media y la varianza muestrales son
estimadores insesgados de  y  2
Respectivamente. Demostrarlo
•Propiedad de eficiencia:
Un estimador insesgado ˆ es más eficiente que otro ˆ2
Si son insesgados de
la varianza de ˆ2

1
y la varianza de ˆ1 es menor que
Propiedades de los estimadores
• Propiedad de suficiencia:
Un estimador es suficiente si utiliza toda la
información de la muestra.
La media muestral es un estimador
suficiente de

El modo no es un estimador suficiente de

Estimación por intervalos
Intervalo de confianza para la media poblacional
conociendo  2
Partimos de una población X, la distribución muestral de la media y su
estandarización.
Al hacer inferencia, existe el riesgo

X ~ N ,
2

 2 
X ~ N  , 
 n 

z
P ( z /2  Z  z /2 )  1  
de equivocarnos.
x 

~ N  0,1
n
Coeficiente de confianza
Intervalo de confianza para la media
poblacional con varianza conocida
P ( z /2 
P ( z /2
x 

 z /2 )  1  
n


 x    z /2
)  1 
n
n


P ( z /2
 x     z /2
 x )  1 
n
n


P ( z /2
 x    z /2
 x )  1 
n
n


P( x  z /2
   x  z /2
)  1 
n
n
Ejemplo
Se sabe que la vida media en hs de una
lámpara de 75 watts es
aproximadamente normal, con
dispersión de 25 hs. Una muestra
aleatoria de 20 lámparas tiene una vida
media de 1014 hs. Construir un
intervalo de confianza del 95%
respecto de la vida media de las
lámparas.
Observaciones
• Sería erróneo escribir P 1003,043    1024,95  0,95
¿Por qué?
•Esto significa que no hay que vincular 1  
con el parámetro que se estima, ya que está
ligada solamente con los límites del intervalo que
varían de una muestra a otra.
Interpretación: aunque nunca sabremos si la media
poblacional se encuentra en el intervalo hallado, tendremos
la seguridad de que el método utilizado para la obtención de
dicho intervalo es confiable el 95 %, es decir, se puede
esperar que contenga a dicho parámetro en el 95 % de las
veces.
Nivel de confianza y
precisión de la estimación
Cuanto más alto es el nivel de confianza, más largo es el
intervalo y menor es la precisión de la estimación.
Elección del tamaño de la muestra
La precisión del intervalo de confianza es el radio del
intervalo

  z .
n
2
Esto significa que al usar la media muestral para estimar la
media poblacional , el error de muestreo es

x    z .
n
2
Ejercicio: despejar n

Estimación por intervalos para
la media poblacional
con varianza poblacional conocida  2
P( x  z /2

n
   x  z /2

n
)  1 
con varianza poblacional desconocida
Si n 30 se reemplaza  por S y usamos el
intervalo anterior, para muestras grandes
P ( x  Z /2
S
n
   x  z /2
S
n
)  1 
Intervalo para la media poblacional si no
se conoce la dispersión poblacional σ
En la práctica es habitual que todos los
parámetros sean desconocidos
Cuando se desconoce σ, se observa el
tamaño de la muestra n
Si n <30
En este caso,
S no es una buena estimación de σ. Si
además la muestra proviene de una
población normal, la media muestral
se ajusta a una distribución t.
T
x 
S/ n
Si n ≥30
En este caso la media muestral se
distribuye normalmente, porque S es
una mejor estimación de σ
z
~ tn 1
x 
S
n
Distribución T (de Student)
Tabla T
Intervalo de confianza para la media con
varianza poblacional desconocida y
n<30
Si la población base es normal, la varianza es
desconocida y el tamaño de la muestra menor que 30,
la media muestral tiene distribución T con n-1 grados de
libertad
P(t /2,n1  T  t /2,n1 )  1 
P ( t /2,n 1
P ( x  t /2,n 1
S
n
x 

 t /2,n 1 )  1  
S
n
   x  t /2,n 1
S
n
)  1 
Ejemplo :
Dispersión poblacional desconocida y
tamaño de la muestra menor que 30

Se toma una muestra piloto, se calcula S y se la utiliza como
estimación de
Ejemplo: En un estudio hecho para determinar el tiempo
medio necesario para el montaje de cierta pieza de una
máquina, 25 trabajadores hicieron un promedio de 42,5
minutos y una varianza de 4,1 minutos. Si los tiempos de los
trabajadores se distribuyen normalmente, estimar el tiempo
promedio necesario para el montaje de la máquina al nivel
del 99%
t0,005;24  2,797
41,367    43,63
Distribución Ji-Cuadrado
Sean x1, x2 ,...., xn
Variables aleatorias
independientes y distribuidas
en forma normal estandarizada
Es no negativa y asimétrica
hacia la derecha. Si n aumenta,
se aproxima a la normal
2
2
2
2
2


x

x

x

.....

x
Entonces la variable aleatoria
1
2
3
n
Tiene distribución Ji-Cuadrado con n grados de libertad.
La media y la varianza de la distribución ji-cuadrado es
  n  2  2n
Distribución muestral de la
2

variable n 1
n
Si
S2 
 x
i 1
i
 x
2
n 1
es la varianza de una muestra
aleatoria de tamaño n tomada de
una población normal que tiene una
varianza  2
Entonces la variable aleatoria muestral 
n  1 S 2


2
gl=2
Se distribuye como

2
2
n 1
gl=3
gl=4
gl=5
(Ji- cuadrado con
n-1 gl)
0
2
Chi2
6
8
Tabla de Ji-Cuadrado
Intervalo de confianza para la
varianza poblacional
Una estimación de la varianza
poblacional, es la varianza
muestral
n
S2 
 x
i 1
i
 x
2
n 1
2

Si bien comprobamos que es un estimador insesgado de
S NO ES un estimador insesgado de la dispersión
poblacional
Para muestras grandes, el sesgo es pequeño y es muy
común hacer esa estimación.
Usaremos la variable aleatoria con
distribución Ji- cuadrado y n-1 grados
de libertad:
2
n

1
S


2 
2
Extremos del intervalo para la
varianza poblacional

P 21 /2; n 1   2  2 /2; n 1

2
 2

n

1
S


2
P  1 /2; n 1 
  /2; n 1 
2





2
2
n

1
S
   2
n  1 S

2
1 /2; n 1 
2
 /2; n 1
2


2
2
n

1
S


2 

2
1 /2; n 1
2
  n  1 S 2
n

1
S


P 2
2  2
  /2; n 1
1 /2; n 1

 n  1 S
 2 /2; n 1

  1 


2
Suponiendo una confiabilidad del 90%
para n = 7 , se ubican los valores de la
tabla en la gráfica
Tabla de Ji-Cuadrado
Construir el intervalo de confianza
con esos datos, si la varianza
muestral es de 4,1
2
  n  1 S 2
n

1
S


P 2
2  2
  /2; n 1
1 /2; n 1

 n  1 S 2
 /2; n 1
2

  1 


 n  1 S 2
6.4,1

 1,952
12,6
21 /2; n 1
1,952    15
2

6.4,1
 15
1,64
Ejemplo
De 70 cables producidos por una compañía se
obtuvo una resistencia media a la tracción de
1,5 toneladas con una dispersión de 45 kg.
Estimar la dispersión de todos los cables
producidos por la compañía utilizando un
nivel de confianza de 0,95.
38,34    53,53
Intervalo de confianza sobre una
proporción
Si se ha tomado una muestra aleatoria de tamaño n
de una gran población (posiblemente infinita),
donde X observaciones en esta muestra pertenecen
a la clase de interés.
X
Es binomial, de parámetros n y p
ˆp 
n
Es el estimador puntual de la proporción
poblacional.
La distribución de muestreo de p̂ es
aproximadamente normal con esperanza p y
p 1  p 
varianza
con p no cerca de 0 y 1.
n
Demostrarlo.
Para n tendiendo a infinito,
intervalo de confianza para p
z
pˆ  p
pˆ 1  pˆ 
La distribución de
es
n
aproximadamente normal estándar.
P  z /2  Z  z /2   1 


P  z /2 





pˆ  p
 z /2   1  

pˆ 1  pˆ 

n


pˆ 1  pˆ 
pˆ 1  pˆ  
  1 
P  pˆ  z /2
 p  pˆ  z /2


n
n


Ejemplo
En una muestra aleatoria de 75 ejes de árbol, 12
tienen un acabado superficial que es más rugoso
que lo permitido por las especificaciones. Una
estimación puntual de la proporción de los ejes en
la población que excede las especificaciones de
rugosidad es
pˆ 
X 12

 0,16
n 75
Construir un intervalo de confianza para p utilizando
una confiabilidad del 95%
0,077  p  0,243
Descargar