En un ejemplo previo con una muestra de 100 individuos se realizó

Anuncio
Modulo 15
INTERVALOS DE CONFIANZA
Ejemplo. El valor de f con 6 y 10 grados de libertad y un área de 0.95 a la derecha es,
f0.95,6,10=0.246
Así mismo,
1/(f1-0.05,10,6)=0.246
c. Si se escribe f1,2 para fa con 1 y 2 grados de libertad, se obtiene,
f1-1,2=1/(f2,1)
Ejemplo, El valor de t con n=14 grados de libertad que tienen un área de 0.025 a la izquierda, y por tanto,
un área de 0.975 a la izquierda, es
t0.975= - t0.025=-2.145
d. Sea Z la variable aleatoria normal estándar y V una variable aleatoria Chi Cuadrada con  grados de
libertad. Si Z y V son independientes, entonces, la distribución de la variable aleatoria T es t-Student
con -1 grado de libertad
T
Z
V
d. Si S2 es la variable aleatoria de tamaño n tomada de una población normal que tiene la varianza 2,
entonces, el estadístico
X2 
(n  1)s 2
2
tiene distribución 2 con n-1 grado de libertad
Ejemplo. Un fabricante de autos garantiza que sus baterías durarán en promedio 3 años con una
desviación estándar de 1 año. Si 5 de estas baterías se muestrean y se encuentran que tienen duraciones
de 1.9, 2.4, 3.0, 3.5 y 4.2 años. Se puede garantizar que la desviación estándar es de 1 año?
Calculando la desviación típica tenemos,
5 * 48.26  (15) 2
 0.815
5*4
s2 
Entonces,
2 
4 * 0.815
 3.26
1
Es un valor de la distribución Chi Cuadrado con 4 grados de libertad. Dado que el 95% de estos valores
de 24 cae entre 0.484 y 11.143, el valor calculado con 2=1 es razonable, y por tanto, el fabricante no
puede dudar que su desviación típica sea diferente de 1
Ejemplo. Se quiere estimar un intervalo de confianza al nivel de significación =5% para la altura media
 de los individuos de una ciudad. En principio sólo sabemos que la distribución de las alturas es una
variable aleatoria X de distribución normal. Para ello se toma una muestra de n=25 personas y se obtiene,
x  170
s  10
Solución: En primer lugar, en estadística inferencial, los estadísticos para medir la dispersión más
conveniente son los insesgados. Por ello vamos a dejar de lado la desviación típica muestral, para utilizar
la cuasidesviación típica:
ŝ  s n (n  1)  10 25 24  10.206
Si queremos estimar un intervalo de confianza para , es conveniente utilizar el estadístico T y tomar
como intervalo de confianza,
T
x 
ŝ / n
 t n 1  T  t 1 / 2,n 1
es decir,
170  
10.206/ 25
 t 0.975, 24  2.06    170  2.06 *
10.206 165.796

5
174.204
LECCIÓN 29. INTERVALOS DE CONFIANZA
Ejemplo, Queremos estudiar la influencia que puede tener el tabaco con el peso de los niños al nacer.
Para ello se consideran dos grupos de mujeres embarazadas (unas que fuman un paquete al día y otras que
no) y se obtienen los siguientes datos sobre el peso X, de sus hijos, así: Madres fumadoras: cantidad 35,
media 3.6 Kg, desviación 0.5 Kg; Madres no fumadoras: cantidad 27, media 3.2 Kg, desviación 0.8 Kg
En ambos grupos los pesos de los recién nacidos provienen de sendas distribuciones normales de medias
desconocidas, y con varianzas que si bien son desconocidas, podemos suponer que son las mismas.
Calcular en cuanto influye el que la madre sea fumadora en el peso de su hijo.
Solución: Si x1 es la variable aleatoria que describe el peso de un niño que nace de madre no fumadora, y
x2 el de un hijo de madre fumadora, se tiene por hipótesis que existen las medias 1 y 2 y 2 tales que,
x1~N(1,2) y x2~N(2,2)
Si queremos estimar en cuanto influye el que la madre sea fumadora en el peso de su hijo, podemos
estimar un intervalo de confianza para 1-2, lo que nos dará la diferencia de peso esperado entre un niño
del primer grupo y otro del segundo.
El estadístico que se ha de aplicar para esta cuestión es:
( x 1  x 2 )  (1   2 )
1
1
ŝ

n1 n 2
 t n1  n 2 2  t 35 27 2  t 60
donde
ŝ 
(n 1  1)ŝ12  (n 2  1)ŝ 22
34 * 0.5 2  26 * 0.8 2

 0.6473
n1  n 2  2
60
Consideramos un nivel de significación que nos parezca aceptable, por ejemplo a=5%, y el intervalo
buscado se obtiene a partir de:
(3.6  3.2)  (1   2 )
1
1
0.6473*

35 27
 t 15% / 2,60  2  1   2  0.4  2 * 0.1658 0.4  0.3316
con lo cual se puede decir que un intervalo de confianza para el peso esperado en que supera
un hijo de madre no fumadora al de otro de madre fumadora está comprendido con un nivel de
confianza del 95% entre los 0,068 Kg y los 0,731 Kg.
Ejemplo. Se quiere estimar el resultado de un referéndum mediante un sondeo. Para ello se realiza un
muestreo aleatorio simple con n=100 personas y se obtienen 35% que votarán a favor y 65% que votarán
en contra (suponemos que no hay indecisos para simplificar el problema a una variable dicotómica). Con
un nivel de significación del 5%, calcule un intervalo de confianza para el verdadero resultado de las
elecciones.
Solución: Dada una persona cualquiera (i) de la población, el resultado de su voto es una variable
dicotómica: Xi~B(p). El parámetro a estimar en un intervalo de confianza con =5% es p, y tenemos
sobre una muestra de tamaño n=100, la siguiente estimación puntual de p=35/100=0.35, y esto es q=0.65
En la práctica el error que se comete no es muy grande si tomamos algo más simple como
Z
p̂  p
p̂q̂ / n
 N(0,1)
Así el intervalo de confianza buscado lo calculamos como se indica en la Figura:
Z  z1 / 2 
0.35  p
0.35* 0.65 / 100
 z 0.975  1.96  p  0.35  0.0935
En un ejemplo previo con una muestra de 100 individuos se realizó una estimación confidencial, con un
95% de confianza, del porcentaje de votantes a una cuestión en un referéndum, obteniéndose un margen
de error de 9,3 puntos. Si pretendemos reducir el error al punto y queremos aumentar el nivel de
confianza hasta el 97% (=3%) hemos de tomar una muestra lógicamente de mayor tamaño, N. La
técnica para aproximar dicha cantidad consiste en observar que el error cometido en una estimación es de
la forma:
error  z1 / 2  p̂q̂ / n
Donde p̂ es una estimación puntual de p. Por tanto un valor de N que satisfaga nuestros
requerimientos con respecto al error sería:
z12 / 2
N  p̂q̂
error2
Si en un principio no tenemos una idea sobre que valores puede tomar p, debemos considerar el peor caso
posible, que es en el que se ha de estimar el tamaño muestral cuando p=q=1/2. Así:
N
1 z12 / 2
cuando no hay estimación de p
4 error2
Ejercicio. Se lleva a cabo un estudio, por medio de detectores radioactivos, de la capacidad corporal para
absorber hierro y plomo. Participan en el estudio 10 sujetos. A cada uno se le da una dosis oral idéntica de
hierro y plomo. Después de 12 días se mide la cantidad de cada componente retenida en el sistema
corporal y, a partir de ésta, se determina el porcentaje absorbido por el cuerpo. Se obtuvieron los
siguientes datos:
Porcentaje de hierro X 17 22 35 43 80 85 91 92 96 100
Porcentaje de plomo Y 8
17 18 25 58 59 41 30 43 58
1. Comprobar la idoneidad del modelo lineal de regresión.
2. Obtener la recta de regresión, si el modelo lineal es adecuado.
3. Predecir el porcentaje de hierro absorbido por un individuo cuyo sistema corporal absorbe el 15% del
plomo ingerido.
Ejercicio. Se realiza un estudio para establecer una ecuación mediante la cual se pueda utilizar la
concentración de estrona en saliva(X) para predecir la concentración del esteroide en plasma libre (Y). Se
extrajeron los siguientes datos de 14 varones sanos:
X 1,4 7,5 8,5
9
9
11 13 14 14,5 16
17 18
20 23
Y 30 25 31,5 27,5 39,5 38 43 49 55
48,5 51 64,5 63 68
1. Estúdiese la posible relación lineal entre ambas variables.
2. Obtener la ecuación que se menciona en el enunciado del problema.
3. Determinar la variación de la concentración de estrona en plasma por unidad de estrona en saliva.
Ejercicio. Los investigadores están estudiando la correlación entre obesidad y la respuesta individual al
dolor. La obesidad se mide como porcentaje sobre el peso ideal (X). La respuesta al dolor se mide
utilizando el umbral de reflejo de flexión nociceptiva (Y), que es una medida de sensación de punzada. Se
obtienen los siguientes datos:
X 89 90 75 30 51 75 62 45 90 20
Y 2
3
4
4,5 5,5 7
9
13 15 14
1. ¿Qué porcentaje de la varianza del peso es explicada mediante un modelo de regesión lineal por la
variación del umbral de reflejo?
2. Estúdiese la posible relación lineal entre ambas variables, obteniendo su grado de ajuste.
3. ¿Qué porcentaje de sobrepeso podemos esperar para un umbral de reflejo de 10?
Ejercicio. Para estudiar el efecto de las aguas residuales de las alcantarillas que afluyen a un lago, se
toman medidas de la concentración de nitrato en el agua. Para monitorizar la variable se ha utilizado un
antiguo método manual. Se idea un nuevo método automático. Si se pone de manifiesto una alta
correlación positiva entre las medidas tomadas empleando los dos métodos, entonces se hará uso habitual
del método automático. Los datos obtenidos son los siguientes:
Manual X
25 40 120 75 150 300 270 400 450 575
Automático Y 30 80 150 80 200 350 240 320 470 583
1. Hallar el coeficiente de determinación para ambas variables.
2. Comprobar la idoneidad del modelo lineal de regresión. Si el modelo es apropiado, hallar la recta de
regresión de Y sobre X y utilizarla para predecir la lectura que se obtendría empleando la técnica
automática con una muestra de agua cuya lectura manual es de 100.
3. Para cada una de las observaciones, halle las predicciones que ofrece el modelo lineal de regresión para
X en función de Y, e Y en función de X, es decir,
e
.
4. Calcule los errores para cada una de dichas predicciones, es decir, las variables
5. ¿Que relación hay entre las medias de X y
6. Calcule las medias de
e
7. Calcule las varianzas de X,
, Y,
8. ¿Qué relación existe entre
y
? ¿Y entre las de Y e
e
.
?
. ¿Era de esperar el valor obtenido?
,
¿Y entre
e
.
y
?
9. ¿Que relación ecuentra entre
y
? ¿También es válida para
y
?
10. Justifique a partir de todo lo anterior porqué se denomina r 2 como grado de bondad del ajuste lineal.
Descargar