μ σ σ 2 - Estadística e Investigación Operativa

Anuncio
INGENIERÍA QUÍMICA: EXAMEN DE ESTADÍSTICA. 9 DE FEBRERO DE 1999
1.-Tres imprentas hacen trabajos para una oficina de publicaciones: Los datos que a
continuación se expresan reflejan la experiencia a largo plazo con estas imprentas
Proporción de contratos
Proporción de entrega con
Impresor
correspondientes
retraso de más de un mes
1
.2
.1
2
.3
.4
3
.5
.2
La oficina descubre un trabajo con más de un mes de retraso. Calcular la probabilidad de que el
impresor 3 sea el que tiene el contrato.
SOLUCION:
P(impresor 3/más de un mes de retraso)= P(impresor 3, más de un mes de retras0)/P(más de
1 mes de retraso) = p(mas de un mes de retraso/impresor 3) P(impresor 3)/[P(
P(
/2)P(2)+P(
/1)P(1) +
/3)P(3)] = (0,2x0,5)/(0,1x0,2+0,4x0,3+0,2x0,5)=0,1/0,24=0,416
2.- El servicio postal requiere, en promedio, 2 días para entregar una carta al otro lado de la
ciudad. Se estima que la varianza es de 0,4. Si un ejecutivo desea que el 99% de sus cartas sean
entregadas a tiempo, ¿Con qué anticipación debe ponerlas en el correo?
SOLUCIÓN:
1
1
1
P( X − μ ≤ kσ ) ≥ 1 − 2 = 0.99 1 − 2 > 0.99
k 2 ≥ 100
k ≥ 10
≤ 0.01
k
k
k2
σ 2 = 0.4
σ = 0.632 X ≤ 2 + 6.32
Debe enviarlas con 9 días de antelación.
3.- Un lote de 200 piezas presenta 5 defectuosas.
Calcular la probabilidad de que en una muestra aleatoria de tamaño 50 se encuentre al menos una
defectuosa.
Calcular el tamaño muestral necesario para detectar tres o menos piezas defectuosas el 90% de
las veces.
SOLUCIÓN:
⎛ 195⎞
⎜ ⎟
⎝ 50 ⎠
=0,233
Sin reemplazamiento P (0 defectuosas)=
⎛ 200⎞
⎜
⎟
⎝ 50 ⎠
P(al menos una defectuosa)=0,766
Con reemplazamiento p=5/200=0,025 n=50 P(0 defectuosas)=(0,975)50 = 0,2819
P(al menos una defectuosa)= 0,7181
Se puede aproximar por una variable de Poisson de parámetro 50x0,025=1,25
P(X=0)=(0,301+0,272)/2= 0,286
P(al menos una defectuosa)= 0,714
P(X3)=0,9 tablas λ= 1,7 np = 1,7 n =1,7/0,025= 68
1
4.- Un fabricante de cierto monitor comercial de televisión garantiza el cinescopio por un
año (8760 h). Los monitores se usan en terminales de aeropuertos para indicar horarios de vuelo
y están en uso continuo. La vida media de los cinescopios es 20000 y sigue una distribución
exponencial. Al fabricante le cuesta 45000 Pts hacer un monitor y le vende en 60000 Pts. Le
cuesta 22000 Pts reemplazar un cinescopio en periodo de garantía. ¿Cuál es la ganancia esperada
del fabricante? Suponemos que el fabricante reemplaza el cinescopio solo una vez.
SOLUCION :
λ=1/20000
8760
P (T8760)=
− λt
∫ λe dt = 1 − e
−
8760
20000
= 1 − 0.6453 = 0,354
0
15000 si T > 8760
Ganancia =
-7000 si T8760
E (G)= 15000x0, 645-7000 x 0,354= 7190 Ganancia esperada
5.- Un ensamble está compuesto por tres componentes colocados uno junto al otro. La
longitud de cada componente se distribuye normalmente con media 2 cm. y desviación típica 0,2
cm. Las especificaciones requieren que todos los ensambles tengan una longitud entre 5,7 y 6,3
cm. ¿Cuántos ensambles verificarán estos requerimientos?
SOLUCION:
Sean X1, X2, X3 la longitud de los componentes cada uno de ellos con distribución normal
de media 2 y varianza (0,2)2 = 0,04. La suma tiene una distribución normal de media
3x2=6
y varianza 0,04x3= 0,12.
Nos piden P(5,7<X1+X2+X36,3) tipificando la variable
5,7 − 6
6,3 − 6
P(
≤Z≤
) = P(−0,867 ≤ Z ≤ 0,867) = 2Φ (0,867 ) − 1 = 2 x0,805 − 1 = 0,610
0,12
0,12
6.- Una droga A se administró a 7 pacientes seleccionados al azar y después de un periodo
fijo, se midió en las unidades apropiadas la concentración de la droga en ciertas células de cada
paciente. Se obtuvieron los resultados siguientes:
1,23 1,42 1,41 1,62 1,55 1,60 1,76
Se administró una segunda droga B a otros 6 pacientes distintos seleccionados al azar con los
resultados siguientes:
1,76 1,41 1,87 1,49 1,67 1,81
Suponiendo que todas las observaciones siguen una distribución normal con una varianza común
desconocida. Calcular un intervalo de confianza para la diferencia de medias al nivel 0,1.
Contrastar las siguientes hipótesis al nivel 0,1. Calcular la región crítica y el p valor.
H0: μAμB
H0: μA=μB
H1: μA≠μB
H1: μA<μB
SOLUCION:
X 1 = 1,512
S12 = 0,030 S1=0,17
X 2 = 1,668
S12 = 0,033 S2=0,183
X 1 − X 2 = −0,156
6 x0,03 + 5 x0,033 0,345
=
= 0,031
11
11
t0,05, 11 = 1,796
S2 =
S=0,177
S
1 1
+ = 0,098
6 7
2
Intervalo -0,156 ±⎯1,796x0,098 =(-0,332, 0,020)
Hipótesis unilateral es equivalente a H0: μA=μB
H1: μA<μB
t0= -0,156/0,107=-1,457
t0,1,11= 1,363
Región crítica t0<-1,363
Rechazamos la hipótesis de que la media del primer tratamiento sea mayor que la
media del segundo al nivel 0,1
p valor: P (t11 < -1,47)=P (t11>1,47) <P (t11>1,363)=0,1 El p valor es menor de 0,1
cosa que ya sabíamos ya que rechazamos la hipótesis a este nivel. También puede verse que
es mayor de 0,05. Su valor exacto es 0,086
Hipótesis bilateral: Región crítica t 0 > 1,796
Aceptamos la hipótesis nula de que los dos tratamientos tienen la misma media.
P valor: P ( t11 > 1,475) = 2 x0,086 = 0,172
7.- El porcentaje de impurezas en oxigeno producido mediante un proceso de destilación se
considera relacionado con el porcentaje de hidrocarburo en el condensador principal del
procesador. Se dispone de los datos de un mes de operación, dados a continuación. Se pide:
Ajustar un modelo de regresión
Hacer el contraste de regresión: Hallar la región crítica y el p valor
Intervalo de confianza para la pendiente
Calcular R2
Hacer uso de los datos proporcionados y rellenar los que faltan
¿Qué se desprende del análisis de los residuos?
Pureza
( %)
86,91
89,85
90,28
86,34
92,58
87,33
86,29
91,86
95,61
89,86
96,73
99,42
98,66
96,07
93,65
87,31
95
96,85
85,20
90,56
hidrocarburo
(%)
1,02
1,11
1,43
1,11
1,01
,95
1,11
,87
1,43
1,02
1,46
1,55
1,55
1,55
1,40
1,15
1,01
,99
,95
,98
n
Media
Varianza muestral
Desviación Standard
Covarianza
predicción
limite superior
predicción
97,7339
98,7233
102,691
98,7233
97,6274
97,0019
98,7233
96,2039
102,691
limite inferior
estimación
87,8338
89,1914
92,2611
89,1914
87,6728
86,6758
89,1914
85,2858
92,2611
limite superior
estimación
91,9668
94,7388
90,9624
89,7823
89,0743
90,9624
88,1302
94,7388
limite inferior
predicción
82,0667
83,2015
86,7868
83,2015
81,9373
81,1466
83,2015
80,0565
86,7868
95,0928
96,1549
96,1549
96,1549
94,3847
91,4345
89,7823
89,5463
89,0743
89,4283
87,0879
87,9579
87,9579
87,9579
86,4799
83,6881
81,9373
81,6764
81,1466
81,5449
103,098
104,352
104,352
104,352
102,29
99,1808
97,6274
97,4163
97,0019
97,3117
92,4502
92,9776
92,9776
92,9776
92,0629
89,7282
87,6728
87,346
86,6758
87,1804
97,7354
99,3322
99,3322
99,3322
96,7066
93,1407
91,8918
91,7466
91,4728
91,6762
89,9003
Hidrocarburo
20
1,1825
0,0560513
0,236752
0,661463
97,2164
92,7335
91,8918
91,4728
92,7335
90,9745
97,2164
pureza
20
91,818
20,0604
4,47888
3
Análisis de Regresión - Modelo: Y = a + b*X
Variable Dependiente: pureza
Variable Independiente: hidrocarburo
Error
Estadístico
Parámetro
Estimador
Estándar
T
P-Valor
Ordenada
77,8633
4,19889
18,5438
0,0000
Pendiente
3,48512
3,38612
0,0033
Análisis de la Varianza
Fuente
Suma de cuadrados Df
Media Cuadrática
F-Ratio
P-Valor
Modelo
148,313
1
148,313
11,47
0,0033
Residual
Total (Corr.)
381,147
Coeficiente Correlación = 0,623797
R-cuadrado =
Standard Error de estimación. = 3,59656
Plot del modelo ajustado
Residual Plot
100
8
residuos
pureza
97
94
91
4
0
-4
88
-8
85
0.87
1.07
1.27
1.47
1.67
88
90
92
94
96
hidrocarburo
pureza estimada
Normal Probability Plot for RESIDUOS
Box-and-Whisker Plot
98
99.9
99
95
80
50
20
5
1
-5
0.1
-4.7
-2.7
-0.7
1.3
3.3
5.3
7.3
9.3
RESIDUOS
-2
1
4
7
10
RESIDUOS
Histograma para RESIDUOS
6
frecuencia
5
4
3
2
1
0
-5
-2
1
4
7
10
RESIDUOS
Solución:
4
Cov( X , Y )
= 11,801
S X2
Modelo de Regresión: pureza = 77,8633 + 11,801x hidrocarburo
20 S X β 1 11,801
=
= 3,38612
t =
SR
3,48
βˆ1 =
Región crítica: t > t18, 0.025 = 2,101
Rechazamos la hipótesis. Hay relación lineal entre las variables.
P valor: P ( t18 > 3,38612 ) = 0,0033
Intervalo de confianza para la pendiente:
β 1 ∈ βˆ1 ± 2,101x3,48512
(
)
20 S X βˆ1 − β 1
≤ t18,0.025
SR
β 1 ∈ (4,478;19,123)
VE 148,313
=
= 0,3891228
VT 381,147
VNE= VT-VE= 232,834
Df = 18 Media Cuadrática = 232,834/18=12,.935
VT Df= 19
Predicción para hidrocarburo = 1,11: El punto central de intervalo de la predicción de pureza
(98,7233+83,2015)/2=90,9624
Límite superior del intervalo de estimación: 90,9624- 89,1914=1,771;
90,9624+1,771=92,7334
Predicción para hidrocarburo = 1,02
Pureza = 77,863+11,801x1,02=89,9002
Intervalo de confianza para la estimación: Tamaño muestral
20
= 13,5951
nˆ =
2
⎛ 1,02 − 1,1825 ⎞
1+ ⎜
⎟
⎝ 0,236752 ⎠
S
3,59656
= 89,9002 ± 2,0493
Intervalo 89,9002 ± t18,0,025 R = 89,9002 ± 2,101
nˆ
13,5951
(87,8508; 91,9495)
Intervalo para la predicción
1
89,9002 ± t18,0, 025 S R 1 + = 89,9002 ± 2,101x3,59656 1,036 = 89,9002 ± 7,6910
nˆ
(82,2091; 97,5912)
El R2 es muy bajo la regresión solo explica el 39,91 % de la variabilidad. Analizando
los residuos, sobre todo el histograma vemos que éstos no son centrados, la distribución no
es simétrica. El diagrama de cajas también manifiesta la falta de simetría y el plot
Probabilístico nos dice que en las colas el ajuste a la normal no es demasiado bueno.
R2 =
5
EXAMEN DE ESTADISTICA 2º de Ingeniería química 9 de septiembre de 1999
1.- A continuación se presentan datos de viscosidad de un lote de cierto proceso químico.
13,3 14,9 15,8 16,0 14,5 13,7 13,7 14,9 15,3 15,2 15,1 13,6 15,3
14,5 13,4 15,3 14,3 15,3 14,1 14,3 14,8 15,6 14,8 15,6 15,2 15,8
14,3 16,1 14,5 13,3 14,3 13,9 14,6 14,1 16,4 15,2
a. Construir un diagrama de tallo- hojas para los datos de viscosidad.
b. Construir una tabla de distribución de frecuencias.
c. Calcular los cuartiles primero, segundo y tercero y construir un diagrama de cajas.
SOLUCIÓN:
a.
Diagrama de tallo-hojas
Tallo hojas
13
3776439
14
95953138835361
15
832133366282
16
014
También podemos subdividir cada tallo
Tallo hojas
3
13A 343
7
13B 7769
13
14A 313331
(8)
14B 95958856
15
15A 32133322
7
15B 8668
3
16A 014
b. Distribución de frecuencias de la variable viscosidad
Intervalo
Centro
Frecuencia
Frecuencia
Frec absoluta Fre
relativa
Absoluta
Relativa
acumulada
acumulada
13-13,5
13,25
3
0,083
3
0,083
13,5-14
13,75
4
0,111
7
0,194
14-14,5
14,25
6
0,166
13
0,361
14,5-15
14,75
8
0,22
21
0,583
15-15,5
15,25
8
0,22
29
0,805
15,5-16
15,75
4
0,11
33
0,916
16-16,5
16,25
3
0,083
36
1
c. Para calcular los cuartiles ordenamos los datos de menor a mayor
13,3 13,3 13,4 13,6 13,7 13,7 13,9 14,1 14,1 / 14,3 14,3 14,3 14,3 14,5 14,5 14,5 14,6 14,8 //
14,8 14,9 14,9 15,1 15,2 15,2 15,2 15,3 15,3 / 15,3 15,3 15,6 15,6 15,8 15,8 16,0 16,1 16,4
Primer cuartil (14,1+14,3)/2 = 14,2
Segundo cuartil o mediana (14,8+14,8)/2 = 14,8
Tercer cuartil 15,3
Rango intercuartílico 15,3-14,2 = 1,1
Límite superior del diagrama de cajas 15,3 + 1,5x1,1 = 16,95
Límite inferior 15,3 – 1,1x1,5 = 12,55
En nuestro caso los límites superior e inferior son 16,4 y 13,3
El diagrama de cajas queda representado por la siguiente figura
6
13
14
15
16
17
2.- Las cuadrillas de mantenimiento llegan al cuarto de herramientas pidiendo cierta parte de
repuesto según una distribución de Poisson de parámetro 2. El cuarto de herramientas dispone de
tres repuestos. Si se presentan más de tres, las cuadrillas deben recorrer una distancia
considerable hasta el almacén central.
En un día cualquiera
a. ¿Cuál es la probabilidad de que tenga que realizarse dicho recorrido?
b. ¿Cuál es la demanda diaria esperada de partes de repuesto?
c. ¿Cuántas partes de repuesto deberán tenerse en el cuarto de herramientas para asegurar el
servicio a todas las cuadrillas un 90% de las veces?
d. ¿Cual es el número esperado de cuadrillas que recibirán servicio diariamente en el cuarto de
herramientas?
Utilizar las tablas
SOLUCION:
a. Probabilidad de realizar el recorrido hasta el almacén = P(X>3) = 1- P(X3) = 1 - 0.857 =
0.143
b. demanda media diaria = E(X)= 2
c. Se busca un número a tal que P( X ≤ a ) ≥ 0.9 Buscando en las tablas P( X ≤ 4) = 0.947 .
Con 4 repuestos en el cuarto de herramientas se asegura el servicio el 90% de las veces.
d. Se trata de calcular la distribución de la variable X condicionada por X3 y después calcular
su media.
P(X=0)= 0.135 P(X=0/ X3)=0.135/0.857=0.157
P(X=1)= P(X1)-P(X=0)= (0.406-0.135) = 0.271
P(X=1/ X3)=0.271/0.857=0.316
P(X=2)= P(X2)-P(X1) =(0.676-0.406) =0.270
P(X=2/ X3)=0.270/0.857=0.315
P(X=3)= P(X3)-P(X2)=(0.857-0.676)=0.181
P(X=3/ X3)=0.181/0.857=0.211
número medio de cuadrillas que reciben servicio en el cuarto de herramientas =
P(X=1/ X3)+2P(X=2/ X3)+3P(X=3/ X3)=1.569
7
3.- Un lote de 50 arandelas espaciadoras contiene 30 que son más gruesas que la dimensión
requerida. Se escogen tres arandelas al azar, sin reemplazo
a. Calcular la probabilidad de que las tres arandelas sean más gruesas que la dimensión
requerida
b. Sabiendo que las dos primeras arandelas no son más gruesas de lo requerido, calcular la
probabilidad de que la tercera si lo sea.
c. Calcular la probabilidad de que la tercera arandela sea más gruesa de la dimensión
requerida.
d. Calcular el número mínimo de arandelas que es necesario tomar del lote para que la
probabilidad de que ninguna de ellas sea más gruesa de lo requerido sea menor que 0,1.
e. Calcular el número mínimo de arandelas que es necesario tomar del lote para que la
probabilidad de que una o más de ellas sea más gruesa de lo requerido sea al menos de 0,9.
SOLUCION:
a. n = 50 , m = 30 son más gruesas ; llamamos Ai al suceso la arandela i es más gruesa
⎛ 30 ⎞
⎜⎜ ⎟⎟
3
30 x 29 x38
P( A1 A2 A3 ) = ⎝ ⎠ =
= 0,271
⎛ 50 ⎞ 50 x 49 x 48
⎜⎜ ⎟⎟
⎝3⎠
30
= 0,625
b. P ( A3 / A1 A 2 ) =
48
P ( A3 ) = P( A1 A 2 A3 ) + P( A1 A2 A3 ) + P( A1 A 2 A3 ) + P ( A1 A2 A3 )
c.
20 19 30 20 30 29 30 20 29 30 29 28
=
x x +
x x
+
x x
+
x x
= 0.6
50 49 48 50 49 48 50 49 48 50 49 48
d. Se trata de calcular n para que P ( A1 A 2 ... An ) < 0,1 .
20
Si n=1 P ( A1 ) =
= 0,4
50
20 19
Si n=2
P ( A1 A 2 ) =
= 0,155
50 49
20 19 18
Si n=3
P ( A1 A 2 A 3 ) =
= 0,058
50 49 48
El n buscado es 3.
e. P (una o más arandelas sean más gruesas) = 1 – P (ninguna sea más gruesa) >0,9.
El n buscado es el mismo de antes, es decir, n=3.
4.- De un proceso químico se toma cada hora una muestra de 20 partes. Lo común es que el
1% de las partes requieran volver a ser procesadas. Sea X el número de partes de una muestra de
20 que necesitan ser reprocesadas. Se sospecha de un problema en el proceso si X es mayor que
su media por tres desviaciones estándar.
a. Calcular la probabilidad de que se sospeche de la existencia de un problema.
b. Si el porcentaje de partes que necesita reprocesarse es de 4%. Calcular la probabilidad de X
sea mayor que 1.
c. Calcular la probabilidad de que X sea mayor que 1 en al menos una de las muestras tomadas
en las próximas 5 horas.
SOLUCION:
8
a.
n = 20; p=0,01, la variable X sigue una distribución B (20, 0,01).
E(X) = 20x0,01 = 0,2 = μ σ2 = 20x0,01x0,99 = 0,198; σ = 0,4449;
X −μ
P(
> 3) = P( X − μ > 3σ ) + P( X − μ < −3σ ) = P( X > 1,534) + P( X < −1,13) = P( X > 1) =
σ
1 − P ( X = 0) − P( X = 1) = 1 − 0,9919 − 20 x0,01x0,9919 = 1 − 0,817 − 0,165 = 0,018
Si utilizamos aproximaciones nxp=20x0,01=0,2, podemos aproximar X por una variable de
Poisson de parámetro 0,2 ; buscando en las tablas P(X>1) = 1-P(X≤1) ≅1-0,982=0,01
b. Si p = 0,04, la variable X sigue una distribución B(20, 0,04)
P(X>1) = 1 – P(X=0) – P(X=1) = 1-0,442-0,368 = 0,19.
Aproximando nxp = 20x0,04 = 0,8 ; aproximamos X por una variable de Poisson de
parámetro 0,8; P(X>1) = 1 - P(X≤1)≅1 - 0,808 = 0,192
c. Sean X1, X2, X3, X4, X5 las muestras obtenidas en las 5 horas siguientes. Definimos las
variables Yi =1 si Xi > 1; Yi = 0 en caso contrario para i=1, 2, 3, 4, 5. Sea Y = Y1 +Y2 + Y3 +
Y4 + Y5. Nos piden calcular P (Y ≥ 1) . La variable Y sigue una distribución B (5, 0,19).
Por tanto P (Y ≥ 1) = 1 − P(Y = 0) = 1 − (0,810) = 1 − 0,349 = 0,65
5
5.- Se utilizan dos máquinas para llenar botellas de plástico con un volumen neto de 16
onzas. Las distribuciones de los volúmenes de llenado pueden suponerse normales con
desviaciones estándar 0,02 y 0,025 onzas. Un miembro del grupo de ingeniería de calidad
sospecha que el volumen de llenado de las dos maquinas es el mismo, sin importar si éste es de
16 onzas o no. Se toma una muestra aleatoria de 10 botellas
Máquina 1 16,03 16,04 16,05 16,05 16,02 16,01 15,96 15,98 16,02 15,99
Máquina 2 16,02 15,97 15,96
16,01 15,99 16,03 16,04 16,02 16,01 16
a. Utilizando α=0,05. ¿Tiene razón el ingeniero?
b. Calcular el p-valor de la prueba.
c. Calcular la potencia del contraste si la diferencia entre las medias es de 0,095.
d. Suponiendo el tamaño muestral el mismo para las dos muestras, calcular el tamaño de
muestra necesario para asegurar que β=0,05 cuando la diferencia de las medias es de 0,08.
SOLUCION:
a. Dadas dos muestras de tamaño 10 de las variables X1→N (μ1, 0.02) y X2→N (μ2, 0,025) se
H 0 : μ1 = μ 2
al nivel α = 0,05. Bajo H0 el
trata de realizar el siguiente contraste
H 1 : μ1 ≠ μ 2
estadístico Z 0 =
X1 − X 2
σ 12
n1
+
σ 22
→ N (0,1) . La región crítica al nivel 0,05 viene dada por
n2
Z 0 > z 0, 025 ; buscando en las tablas de la normal z0,025= 1,96. Para nuestras muestras el valor
de Z0 es 0,9871 que no cae dentro de la región crítica por tanto acepto la hipótesis nula y el
ingeniero tiene razón.
b. P ( Z > z 0 ) = 2(1 − Φ ( z 0 )) = 2(1 − Φ (0,9871)) = 2 x(1 − 0,836) = 0,338 , como vemos el p-valor
es muy grande lo que nos apoya en nuestra decisión de aceptar la hipótesis nula de igualdad
de medias.
9
P (aceptarH 0 / μ1 − μ 2 = 0,095) = P( Z 0 ≤ 1,96 / μ1 − μ 2 = 0,095) =
P (−1,96 ≤ Z 0 ≤ 1,96 / μ1 − μ 2 = 0,095) =
c.
P (−1,96 −
0,095
σ 12
n1
+
σ 22
≤
n2
X 1 − X 2 − 0,095
σ 12
n1
+
σ 22
≤ 1,96 −
n2
0,095
σ 12
n1
+
σ 22
/ μ1 − μ 2 = 0,095) =
n2
P (−11,34 ≤ Z ≤ −7,42) = Φ (−7,42) − Φ (−11,34) ≅ 0
La potencia viene dada por 1- P (aceptarH 0 / μ1 − μ 2 = 0,095) ≅ 1
0,08
d. P (aceptarH 0 / μ1 − μ 2 = 0,08) ≤ 0,05 , d =
= 2,498 .
σ 12 + σ 22
Buscando en las curvas OC encontramos n = 2 ó n = 3. Si n = 2
P (aceptarH 0 / μ1 − μ 2 = 0,08) =
P (−1,96 −
0,08
σ
2
1
σ
2
2
≤
X 1 − X 2 − 0,08
σ
2
1
σ
2
2
≤ 1,96 −
0,08
σ 12
σ 22
/ μ1 − μ 2 = 0,08) =
+
+
+
2
2
2
2
2
2
P (−5,492 ≤ Z ≤ −1,572) ≅ Φ (−1,572) = 1 − Φ (1,572) = 0,059
Si n = 3
P (aceptarH 0 / μ1 − μ 2 = 0,08) =
P (−1,96 −
0,08
σ 12
σ 22
≤
X 1 − X 2 − 0,08
σ 12
σ 22
≤ 1,96 −
0,08
σ 12
σ 22
/ μ1 − μ 2 = 0,08) =
+
+
+
3
3
3
3
3
3
P (−6,286 ≤ Z ≤ −2,366) ≅ Φ (−2,366) = 1 − Φ (2,366) = 0,01
La respuesta es n = 3.
6.- Una compañía productora de energía eléctrica está interesada en desarrollar un modelo
que relacione la demanda pico por hora (y, en Kw.) con el uso de energía total al mes (x, en
Kwh.). Se dispone de una muestra de 49 clientes que se ha procesado con el paquete Statgraphics
y se han obtenido los siguientes resultados
XKWH
YKW
n
49
49
Media
1083,02
3,24204
Varianza
293589,0
5,84703
Desviación típica
541,838
2,41806
Mínimo
292,0
0,17
Máximo
2316,0
9,5
Cov(X,Y)=1020,1
Análisis de Regresión - Modelo: Y = a + b*X
Variable Dependiente: YKW
Variable Independiente: XKWH
Parámetro Estimador
Error Standard
Estadístico T P-Valor
Intercept -0,521022
0,493678
-1,05539
0,2966
Slope
0,0034746
0,000408497
8,50582
0,0000
10
Análisis de la Varianza
Fuente
Suma de cuadrados Df Media cuadrática F-Ratio P-Valor
Modelo
170,134
1 170,134 72,35 0,0000
Residual 110,524
47
2,35157
Total (Corr.) 280,657 48
Coeficiente de Correlación = 0,778587
R-Cuadrado = 60,6197 percent
Error Standard de Estimación = 1,53348
Valores Predichos
95,00%
95,00%
Predicted
Prediction Limits
Confidence Limits
X
Y
Lower
Upper
Lower
Upper
292,0 0,493561
-2,68981
3,67693
-0,291802
1,27892
582,0 1,5012
-1,64218
4,64457
0,898078
2,10431
1097,0 3,29061
0,174298
6,40693
2,84975
3,73147
1428,0 4,44071
1,31154
7,56987
3,91669
4,96473
2189,0 7,08488
3,83875
10,331
6,07478
8,09497
Plot of Fitted Model
Residual Plot
Studentized residual
15
YKW
12
9
6
3
0
0
1
2
3
4
(X 1000)
XKWH
4,9
2,9
0,9
-1,1
-3,1
0
10
20
30
40
50
row number
Histogram for SRESIDUALS
Box-and-Whisker Plot
24
frequency
20
16
12
8
4
0
-3,1
-2,1
-1,1
-0,1
0,9
SRESIDUALS
1,9
2,9
-3,3
-2,3
-1,3
-0,3
0,7
1,7
2,7
SRESIDUALS
Explicar los resultados de la salida del ordenador en los siguientes aspectos
a. Modelo de regresión
b. Hacer el contraste de regresión: Hallar la región crítica y el p valor
c. Intervalo de confianza para el intercept
d. Explicar el significado de R-cuadrado
e. En la tabla de predicción ,explicar el significado de los dos intervalos proporcionados
e. ¿Qué se desprende del análisis de los residuos? ¿Crees que el modelo está bien ajustado?
SOLUCION
a. El modelo de regresión ajustado es Y = 0,00347 X – 0,521
H 0 : β1 = 0
Contrastamos si existe relación lineal entre las
b. Contraste de regresión
H 1 : β1 ≠ 0
βˆ S n
variables. El estadístico de contraste es T = 1 x
que sigue una distribución t con n-2
Sˆ R
11
grados de libertad, bajo la hipótesis nula. Según los datos proporcionados por la salida de la
Sˆ R
regresión
= 0.000408497 y βˆ1 = 0.0034746 . El valor del estadístico t también
Sx n
proporcionado es 8,5058152. La región crítica al nivel 0,05 viene dada por T > t 0, 025, 47 ,
buscando en las tablas t 0,025, 47 ≈ 2,021 . El valor de t está dentro de la región crítica y
c.
rechazamos la hipótesis nula y admitimos que existe relación lineal entre las variables. El pvalor viene dado por la fórmula P( t 47 > 8,505) = 0 .
( βˆ 0 − β 0 ) n
El estadístico que se utiliza es
que sigue una distribución t con n-2 grados de
2
X
Sˆ R 1 + 2
SX
libertad.
El
βˆ 0 − t 0, 025, 47
valores
d.
e.
intervalo
X2
Sˆ R 1 + 2
SX
n
de
≤ β 0 ≤ βˆ 0 + t 0,025, 47
βˆ 0 = −0,521022
n
nivel
X2
Sˆ R 1 + 2
SX
X2
Sˆ R 1 + 2
SX
y
al
n
0,05
viene
dado
por
. Las salidas nos proporcionan los
= 0,493686 ,
sustituyendo
obtenemos
− 1,5187 ≤ β 0 ≤ 0,4767
VE
; VE= Variación explicada por la regresión; VT = variación total
R 2 = 0,606197 =
VT
VE = ∑ (Yi − Yˆi ) 2 ; VT = ∑ (Yi − Y ) 2 . El 60% de la variación de nuestros datos está
explicada por la regresión.
Intervalo de predicción: Estimamos el valor de la variable dependiente Y para un valor de la
variable independiente X.
Intervalo de estimación: Estimamos el valor de la media de la variable Y para un valor de la
variable X. El intervalo de predicción es más amplio
−1
Intervalo de predicción yˆ ± t Sˆ 1 + nˆ ,
Intervalo de estimación yˆ ± t Sˆ / nˆ
h
α
2
donde nˆ h =
f.
confianza
n
⎛X −X
1 + ⎜⎜ h
⎝ SX
⎞
⎟⎟
⎠
2
R
h
h
α
R
h
2
valor muestral equivalente. Como estos intervalos son al 95%
α = 0,05
Residuos. No se observa ninguna anomalía en el plot de los valores ajustados ni en el de los
residuos, sin embargo en el diagrama de cajas se observa cierta asimetría y en el histograma
se aprecia que los valores de los residuos se alejan de lo que cabría esperar para una variable
normal. En el modelo de regresión se observa que el contraste de la ordenada en el origen
tiene un p-valor cercano a 0,3 con lo que aceptaríamos la hipótesis nula de que esta vale 0.
Convendría hacer un nuevo análisis de regresión con esta ordenada igual a 0 y ver si los
resultados son mejores.
12
INGENIERIA QUIMICA: EXAMEN DE ESTADÍSTICA, SEGUNDO CURSO.
16 de febrero de 2000
1.- En un proceso de fabricación industrial se utilizan 10 máquinas. Estas máquinas
funcionan independientemente unas de otras durante un tiempo que sigue una ley exponencial de
media 100 horas. El proceso de fabricación se detiene cuando hay más de 8 máquinas sin funcionar.
(La fabricación sigue si funcionan al menos dos máquinas)
a) Calcular la probabilidad de que una máquina se averíe antes de 98 horas.
b) Calcular la probabilidad de que se detenga el proceso de fabricación antes de 98 horas
c) ¿Cuantas máquinas necesitaríamos para asegurarnos que el proceso de fabricación no se
detendrá antes de 98 horas con una probabilidad mayor que 0,9?
Solución:
Sea X la variable que mide el tiempo de funcionamiento de una máquina cualquiera.
1
98
98
−
1 −100 x
P ( X < 98) = ∫
e
dx = 1 − e 100 = 0,625
100
0
El proceso de fabricación se detiene si de las 10 máquinas se averían más de 8 antes de 98
horas.
Sea Xi =1 si la máquina i se avería antes de 98 horas. P(Xi=1) = 0,625. El número de
10
máquinas averiadas es Z = ∑i =1 X i . Z tiene una distribución binomial. P (se detenga el
proceso) =
⎛10 ⎞
9
10
P ( Z > 8) = P ( Z = 9) + P( Z = 10) = ⎜⎜ ⎟⎟(0,625) 0,375 + (0,625) = 0,055 + 0,009 = 0,0637
⎝9⎠
Con n=10 la probabilidad de que no se detenga el proceso es 1-0,0637=0,9363; este n nos
asegura el resultado.
Si n=9 P (se detenga el proceso)
⎛9⎞
9
8
= P ( Z = 9) + P( Z = 8) = (0,625) + ⎜⎜ ⎟⎟(0,625) 0,375 = 0,015 + 0,079 = 0,0193 .
⎝8⎠
P (no se detenga el proceso) = 1 – 0,0193 = 0,9807
Si n=8, esta probabilidad es
⎛8⎞
8
7
= P ( Z = 8) + P( Z = 7) = (0,625) + ⎜⎜ ⎟⎟(0,625) 0,375 = 0,023 + 0,111 = 0,135
⎝7⎠
Por tanto n=9.
2.- Supongamos que tres fábricas A, B y C vierten productos al río Pisuerga en una
proporción 0,3 0,5 0,2. Estos vertidos son tóxicos con probabilidades 0,05 0,01 y 0,1
respectivamente.
a) Calcular la probabilidad de un vertido tóxico al río Pisuerga.
b) Si se detecta un vertido tóxico en el río, calcular la probabilidad de que este provenga de cada
una de las tres fábricas.
c) Si se han detectado en el último año 10 vertidos tóxicos, calcular la probabilidad de que 5 sean
de A 3 de B y 2 de C.
Solución:
Por la regla de la probabilidad total.
P (vertido tóxico) = P (tóxico/A) P(A) + P (tóxico/B) P (B) + P (tóxico/C) P(C) = 0,05x0,3 +
0,01x0,5 + 0,1x0,2= 0,04
Por la regla de Bayes
13
P(A/tóxico)= P (tóxico/A) x P(A)/P (tóxico) = 0,015/0,04 = 0,375;
P (B/tóxico) = 0,005/0,04 = 0,125; P(C/tóxico) = 0,02/0,04 = 0,5.
Si se han detectado 10 vertidos tóxicos
⎛10 ⎞⎛ 5 ⎞
5
3
2
P (5deA,3deB,2deC ) = ⎜⎜ ⎟⎟⎜⎜ ⎟⎟(0,375) (0,125) (0,5) = 0,024
⎝ 5 ⎠⎝ 3 ⎠
3.- El diámetro de una arandela tiene una distribución normal de media 0,2 pulgadas. Las
especificaciones requieren que el diámetro está entre 0,14 y 0,26 pulgadas con probabilidad
0,9973.
a) Calcular la desviación estándar.
b) Si se conoce que la varianza es de 0,0016 pulgadas, calcular el valor de las especificaciones.
Solución:
Sea X la variable que mide el diámetro de la arandela P (0,14 < X <0,26) =
0,9973.Tipificamos la variable
P(
0,14 − 0,2
σ
≤
X − 0,2
σ
≤
0,26 − 0,2
σ
) = P(
− 0,06
σ
≤Z≤
0,06
σ
) = P(− z ≤ Z ≤ z ) = Φ( z ) − Φ(− z ) =
2Φ ( z ) − 1 = 0,9973
Φ( z ) = 1,9973 / 2 = 0,99865 Buscando en las tablas z = 3; σ = 0,06 / 3 = 0,02
Si se conoce que la varianza es 0,0016 la desviación estándar es 0,04
P(
a − 0,2 X − 0,2 b − 0,2
) = P (− z ≤ Z ≤ z ) = 2Φ ( z ) − 1 = 0,9973 , como antes z =3
≤
≤
0,04
0,04
0,04
b = 0,04x3 +0,2 =0,32; a = 0,2-0,04x3 = 0,08. Las especificaciones son que el diámetro está
comprendido entre 0,08 y 0,32 con probabilidad 0,9973
También seria correcto
P(
0,14 − 0,2 X − 0,2 0,26 − 0,2
≤
≤
) = P (−1,5 ≤ Z ≤ 1,5) = 2Φ (1,5) − 1 = 2 x0,93943 − 1 = 0,87886
0,04
0,04
0,04
Las especificaciones son que el diámetro está comprendido entre 0,14 y 0,26 con
probabilidad 0,87886.
4.- Dada una población N (μ, 2,5). Se realiza el siguiente contraste de hipótesis
H 0 : μ = 50
obteniéndose los siguientes resultados.
H :1 μ ≠ 50
Región
de
aceptación
48,5 < x < 51,5
48 < x < 52
48,5 < x < 51,5
48 < x < 52
Tamaño de la α
muestra
10
10
0,02
16
0,02
16
β para μ =52
βpara μ=50,5
0,2327
0,89
0,5
0,9918
a) Rellenar los datos que faltan en la tabla y dar los resultados del contraste.
b) Con los datos proporcionados ¿podrías obtener un intervalo de confianza para la media?
c) Para α=0,05 ¿Qué tamaño de muestra nos asegura una potencia de 0.9 para μ=52?
Solución:
14
Es un contraste de hipótesis sobre la media de una población normal con varianza conocida.
X − μ0
El estadístico que se utiliza para el contraste es Z 0 =
. La región de aceptación al
σ/ n
nivel α viene dada por X ∈ μ 0 ± zα / 2σ / n .
Para la primera fila de la tabla, zα / 2σ / n = 1,5 de donde deducimos que
zα / 2 = 1,5 n / σ = 1,5 10 / 2,5 = 1,8973 . Buscando en las tablas, Φ(1,89)=0,97; es decir
α/2=0,03. Luego α= 0,06. También se puede hacer
X − 50
48,5 − 50
51,5 − 50
α = 1 − P(48,5 ≤ X ≤ 51,5 / μ = 50) = 1 − P(
≤
≤
/ μ = 50) =
2,5 / 10 2,5 / 10 2,5 / 10
1 − Φ (1,897) + Φ (−1,897) = 1 − 0,97 + 1 − 0,97 = 0,06
En la segunda fila zα / 2 = 2 n / σ = 2 10 / 2,5 = 2,529 ; Φ(2,53)=0,99;
α = 2 x 0,01=0,02.
En la tercera fila zα / 2 = 1,5 n / σ = 1,5 16 / 2,5 = 2,4 ; Φ(2,4)=0,99;
α =2 x 0,01=0,02.
En la cuarta fila zα / 2 = 2 n / σ = 2 16 / 2,5 = 3,2 ;
Φ(3,2)=0,99931; α=2 x 0,00069=0,00138.
Para calcular el errorβ, este se define como la probabilidad de aceptar la hipótesis
nula para un valor de μ.
En la primera fila
X − 52
48,5 − 52
51,5 − 52
β = P(48,5 ≤ X ≤ 51,5 / μ = 52) = P(
≤
≤
/ μ = 52) =
2,5 / 10 2,5 / 10 2,5 / 10
Φ (−0,63) − Φ (−4,27) = 1 − Φ (0,63) = 1 − 0,7673 = 0,2327
48 − 52
En la segunda fila β = Φ (0) − Φ (
) = 1 / 2 − Φ (−5,05) = 1 / 2
2,5 / 10
En la tercera fila
51,5 − 52
48,5 − 52
β = Φ(
) − Φ(
) = Φ (−0,8) − Φ (−5,6) = 1 − 0,7881 = 0,2119
2,5 / 16
2,5 / 16
52 − 52
48 − 52
) − Φ(
) = 1/ 2
En la cuarta fila β = Φ (
2,5 / 16
2,5 / 16
Para la última columna μ = 50,5.
En la primera fila
51,5 − 50,5
48,5 − 50,5
) − Φ(
β = Φ(
) = Φ(1,264) − Φ (−2,529) = 0,8962 − (1 − 0,9944) = 0,89
2,5 / 10
2,5 / 10
En la segunda fila
52 − 50,5
48 − 50,5
) − Φ(
β = Φ(
) = Φ (1,897) − Φ (−3,16) = 0,97062 − (1 − 0,9992) = 0,969
2,5 / 10
2,5 / 10
51,5 − 50,5
48,5 − 50,5
) − Φ(
) = Φ (1,6) − Φ (−3,2) = 0,9452
En la tercera fila β = Φ (
2,5 / 16
2,5 / 16
52 − 50,5
48 − 50,5
) − Φ(
) = Φ (2,4) − Φ (−4) = 0,9918
En la cuarta fila β = Φ (
2,5 / 16
2,5 / 16
15
Para poder dar un intervalo de confianza para la media, necesitaríamos la media
muestral y
esta no se puede calcular con los datos suministrados.
Para α = 0,05 zα / 2 = 1,96 , la región de aceptación es X ∈ 50 ± 1,96 x 2,5 / n . Si la
es mayor de 0,9, el error β es menor de 0,1
50 − (4,9 / n) − 52
50 + (4,9 / n ) − 52
β = Φ(
) − Φ(
) < 0,1
2,5 / n
2,5 / n
Calculamos la distancia entre la hipótesis nula y μ d = (52 − 50) / 2,5 = 0,8. Buscando
en las gráficas OC n está comprendido entre 15 y 30.
Si n = 15
50 − (4,9 / 15) − 52
50 + (4,9 / 15 ) − 52
β = Φ(
) = Φ (−1,138) − Φ (−5,05) = 1 − 0,87 = 0,13
) − Φ(
2,5 / 15
2,5 / 15
Si n =16
potencia
β = Φ(
50 + (4,9 / 16 ) − 52
2,5 / 16
) − Φ(
50 − (4,9 / 16) − 52
2,5 / 16
) = Φ (−1,24) − Φ (−5,16) = 1 − 0,8925 = 0,1075
Si n =17 β =Φ(-1,338)= 1- 0,908= 0,0092. Luego n =17.
5.- Se dispone de los siguientes datos que miden el porcentaje de algodón en un material
utilizado para la fabricación de camisas de caballero.
34,2
33,6
33,8
34,7
37,8
32,6
35,8
34,6
33,1
34,7
34,2
33,6
33,1
37,6
36,6
33,6
34,5
35
33,4
32,5
35,4
34,6
37,3
34,1
35,6
35,4
34,7
34,1
34,6
35,9
34,6
34,7
36,3
36,2
34,6
35,1
33,8
34,7
35,5
35,7
35,1
36,8
35,2
36,8
37,1
33,6
32,8
36,8
34,7
35,1
35
37,9
34
32,9
32,1
34,3
33,6
35,3
34,9
36,4
34,1
33,5
34,5
32,7
Estos datos se han procesado con el paquete Statgraphics, y obtenido los siguientes resultados.
variable: Porcentaje de algodón
64 valores desde 32,1 a 37,9
Percentiles
n = 62
1,0% = 32,1
Media = 34,7984
5,0% = 32,7
Mediana = 34,7
10,0% = 33,1
Moda = 34,7
25,0% = 33,8
Varianza = 1,86079
50,0% = 34,7
Desviación Standard = 1,36411
75,0% = 35,55
Mínimo 32,1
90,0% = 36,8
Máximo = 37,9
95,0% = 37,3
Rango = entre 32,1 y 37,9
99,0% = 37,9
Primer Cuartil = 33,8
Tercer Cuartil = 35,55
Rango InterCuartilico = 1,75
Coef. Asimetría = 1,21312
Coef. Apuntamiento = -0,442764
16
Tabla de distribución de frecuencias
----------------------------------------------------------------------------------------------------------------------Limite Limite
Marca de
Frecuencia
Frecuencia
Frecuencia
Clase Inferior Superior
Clase
Frecuencia Relativa
Acumulada Rel. Acu.
----------------------------------------------------------------------------------------------------------------------Menor
32,0
0
0,0000
0
0,0000
1 32
33,0
32,5
6
0,0938
6
0,0938
2 33,0
34,0
33,5
12
0,1875
18
0,2813
3 34,0
35,0
34,5
22
0,3438
40
0,6250
36,0
35,5
12
0,1875
52
0,8125
4 35
5 36,0
37,0
36,5
7
0,1094
59
0,9219
6 37,0 38,0
37,5
5
0,0781
64
1,0000
mayor38,0
0
0,0000
64
1,0000
igual
----------------------------------------------------------------------------------------------------------------------Media = 34,7984 Desviación Standard = 1,36411
Diagrama de tallo-hojas: unidad = 0,1 1|2 representa 1,2
1 32|1
6 32|56789
9 33|114
17 33|56666688
24 34|0111223
(14) 34|55666667777779
26 35|001112344
17 35|56789
12 36|234
9 36|6888
5 37|13
3 37|689
Histograma
Diagrama de cajas
24
Frecuencia
20
16
12
8
4
0
32
32
33
34
35
36
37
porcentaje de algodón
38
33
34
35
36
37
38
Porcentaje de algodón
Se pide.
a) Rellenar los huecos en los estadísticos resumen y en la tabla de frecuencias. (no hace falta hacer
ningún cálculo)
b) Explicar brevemente las salidas de texto y los gráficos
17
INGENIERIA QUIMICA: EXAMEN DE ESTADISTICA 11 de setiembre de 2000
1.- Para cada una de las siguientes variables, indicar si son cualitativas o cuantitativas
justificando la respuesta. (1 punto)
El resultado de lanzar una moneda al aire.
Cualitativa, dos posibles resultados cara y cruz
El número de calorías de una comida.
Cuantitativa, toma valores numéricos.
El partido votado en las últimas elecciones.
Cualitativa, toma los valores de los partidos presentados.
El tiempo de duración de una película de dibujos animados.
Cuantitativa.
La espera en el aeropuerto para un embarque.
Cuantitativa
La temperatura media a la que una reacción química tiene lugar.
Cuantitativa.
La concentración media de ozono en el aire.
Cuantitativa.
La proporción de desempleados.
Cuantitativa.
La nota media de los exámenes de estadística.
Cuantitativa.
El número de goles en un partido de fútbol.
Cuantitativa, discreta, toma solo valores naturales.
2.- Opina si las siguientes conclusiones son acertadas, justificando tu respuesta. (1 punto)
Un agente de la propiedad observa que el precio medio de las casas del centro de Valladolid
es de 30 millones y por tanto concluye que la mitad de las casa del centro cuestan menos de
30 millones.
Falso, está confundiendo la media con la mediana.
Un viajante calcula que el coste medio de los últimos 5 viajes ha sido de 20.000 pesetas y
concluye que el coste total es de 100.000 pesetas.
Verdadero, ya que coste medio = suma de todos los gastos/5.
El contable de una empresa piensa que se ha confundido ya que ha llegado a la conclusión
de que el 90% de los empleados gana menos que el salario medio.
No se ha confundido, ya que pocos valores muy altos de la variable hacen subir la
media.
Una vendedora de helados concluye que más de la mitad de helados vendidos son de
chocolate porque la moda cuando se elige entre 10 sabores diferentes es el sabor a chocolate.
Falso, está confundiendo moda con mediana, la conclusión sería verdadera si solo
hubiera dos gustos diferentes.
3.- En una factoría se producen piezas que se empaquetan en tres tipos diferentes de cajas
con 15 unidades cada una en proporción 1/2 , 1/3, 1/6. Las cajas de tipo I contienen 3 unidades
defectuosas, las de tipo II , 5 defectuosas y las de tipo III, 6 defectuosas. Se elige una caja al azar y
se extraen 3 unidades resultando una de ellas defectuosa y 2 buenas. ¿Qué tipo de caja tiene mayor
probabilidad de ser la elegida? (1.5 puntos).
Solución:
P (I)=1/2, P (II)=1/3, P (III)=1/6. I ={3D,12B}, II ={5D, 10B}, III ={6D,9B}
18
⎛12 ⎞
3.⎜⎜ ⎟⎟
2
P (1B,2 D / I ) = ⎝ ⎠ = 0,435,
⎛15 ⎞
⎜⎜ ⎟⎟
⎝3⎠
⎛10 ⎞
5.⎜⎜ ⎟⎟
2
P(1B,2 D / II ) = ⎝ ⎠ = 0,4945,
⎛15 ⎞
⎜⎜ ⎟⎟
⎝3⎠
⎛9⎞
6.⎜⎜ ⎟⎟
2
P(1B,2 D / III ) = ⎝ ⎠ = 0,4747,
⎛15 ⎞
⎜⎜ ⎟⎟
⎝3⎠
Por la regla de la probabilidad total P (1D,2B)= 0,435.1/2 + 0,4945.1/3 + 0,4747.
1/6=0,4615.
Por la regla de Bayes P( I / 1D,2B) = P(1D,2 B / I ) P( I ) = 0,4714
P (1D,2 B)
Análogamente P (II/1D,2B)=0,3571, P (III/1D,2B)=0,0571.
Luego la respuesta es la caja 1.
4.- Si se supone que el 4% de la población es zurda. Aproximar la probabilidad de que en
una clase de 71 estudiantes todos sean diestros. Aproximar la probabilidad de que haya al menos 2
zurdos. (1.5 puntos)
Solución:
Sean Xi variables de Bernoulli con parámetro p=0,04 . Sea X la variable que cuenta el
número de personas zurdas en 71, X sigue una distribución binomial de parámetros 71 y
0,04. En nuestro caso n.p=2,84. Por lo que la podemos aproximar por una variable de
Poisson de parámetro 2,84. Buscamos en las tablas la distribución de Poisson de parámetro
2,8 P(X=0)≅0.06, P(X≥2)=1-P(X≤1)≅1-0.231=0.769
5.- En un análisis de regresión se ha obtenido los siguientes resultados
Análisis de Regresión – Modelo lineal: Y = a + b*X
Variable Dependiente: Col_4
Variable Independiente: Col_3
Standard
T
Parameter
Estimate
Error
Statistic
P-Value
Intercept
-1967,37
259,597
-7,57857
0,0000
Slope
446,309
16,4418
27,1447
0,0000
---------------------------------------------------------------------------------------Analysis of Variance
Source
Sum of Squares Df Mean Square F-Ratio P-Value
Model
7,96197E7 1 7,96197E7 736,83
0,0000
Residual
1,29668E6 12 108057,0
---------------------------------------------------------------------------------------Total (Corr.)
8,09164E7 13
Correlation Coefficient = 0,991955
R-squared = 98,3975 percent
Standard Error of Est. = 328,72
Hacer el contraste de regresión. Dar un intervalo de confianza para la ordenada en el origen
al 5%. (2 puntos).
Solución:
Contraste de regresión
T0 =
βˆ1
var(βˆ1 )
H 0 : β1 = 0
H1 : β1 ≠ 0
Para hacer este contraste se utiliza el estadístico
que bajo la hipótesis nula sigue una distribución T con 12 grados de libertad.
La región crítica al nivel 0,05 viene dada por ⏐T0⏐>t0,025,12 =2,179. De las salidas del
ordenador sabemos que t =446,309/16,4418 =27,1447 que está en la región crítica, por
19
tanto rechazamos la hipótesis nula y llegamos a la conclusión de que existe relación lineal entre
las variables.
El intervalo de confianza para β0 viene dado por la fórmula βˆ0 ± t0,025,12 var(β 0 ). Es decir
–1.967,37±2,179.259,597, dando como resultado. –2.533,0319 ≤ β0 ≤ -1401,7081.
6.- Se han procesado las notas del examen y de prácticas de la asignatura de Estadística con
el paquete statgraphics, obteniéndose las siguientes salidas. Se pide explicar las salidas producidas
por el ordenador y las conclusiones a las que nos lleva el estudio estadístico. (3 puntos)
Solución:
De las tablas de distribución de frecuencias, se observa que la variable prácticas es más
homogénea, tiene menos variabilidad, los valores están concentrados entre el 5 ,5 y el 7,5,
mientras en las notas de junio están algo mas dispersa en torno a estos valores. También se
ve esta mayor dispersión en los cuartiles y el rango intercuartilico que es mayor en junio.
Mirando a los percentiles de las dos variables se podría decir que la nota de prácticas es más
alta que la de junio.
Frequency Tabulation for junio
Lower Upper
Relative Cumulative Cum. Rel.
Class
Limit Limit Midpoint
Frequency Frequency Frequency Frequency
At or below
2,0
0
0,0000
0
0,0000
1
2,0
3,0
2,5
4
0,0870
4
0,0870
2
3,0
4,0
3,5
8
0,1739
12
0,2609
3
4,0
5,0
4,5
6
0,1304
18
0,3913
4
5,0
6,0
5,5
9
0,1957
27
0,5870
5
6,0
7,0
6,5
9
0,1957
36
0,7826
6
7,0
8,0
7,5
7
0,1522
43
0,9348
7
8,0
9,0
8,5
3
0,0652
46
1,0000
Above
9,0
0
0,0000
46
1,0000
Mean = 5,55217 Standard deviation = 1,70434
Frequency Tabulation for prácticas
Lower Upper
Relative Cumulative Cum. Rel.
Class
Limit Limit Midpoint Frequency Frequency Frequency Frequency
at or below
1,5
0
0,0000
0
0,0000
1
1,5
2,5
2,0
3
0,0652
3
0,0652
2
2,5
3,5
3,0
1
0,0217
4
0,0870
3
3,5
4,5
4,0
3
0,0652
7
0,1522
4
4,5
5,5
5,0
5
0,1087
12
0,2609
5
5,5
6,5
6,0
10
0,2174
22
0,4783
6
6,5
7,5
7,0
16
0,3478
38
0,8261
7
7,5
8,5
8, 0
5
0,1087
43
0,9348
8
8,5
9,5
9,0
3
0,0652
46
1,0000
above
9,5
0
0,0000
46
1,0000
Mean = 6,19565 Standard deviation = 1,73358
-One-Variable Analysis - junio
Analysis Summary
One-Variable Analysis - practicas
Analysis Summary
20
Data variable: junio
46 values ranging from 2,6 to 9,0
Summary Statistics for junio
Count = 46
Average = 5,55217
Median = 5,45
Variance = 2,90477
Standard deviation = 1,70434
Minimum = 2,6
Maximum = 9,0
Range = 6,4
Lower quartile = 4,0
Upper quartile = 6,9
Interquartile range = 2,9
Stnd. skewness = -0,0150496
Stnd. kurtosis = -1,29393
Data variable: practicas
46 values ranging from 2,0 to 9,0
Summary Statistics for practicas
Count = 46
Average = 6,19565
Median = 7,0
Variance = 3,00531
Standard deviation = 1,73358
Minimum = 2,0
Maximum = 9,0
Range = 7,0
Lower quartile = 5,0
Upper quartile = 7,0
Interquartile range = 2,0
Stnd. skewness = -2,35487
Stnd. kurtosis = 0,844995
Percentiles for junio
1,0% = 2,6
5,0% = 2,8
10,0% = 3,1
25,0% = 4,0
50,0% = 5,45
75,0% = 6,9
90,0% = 7,8
95,0% = 8,3
99,0% = 9,0
Percentiles for practicas
1,0% = 2,0
5,0% = 2,0
10,0% = 4,0
25,0% = 5,0
50,0% = 7,0
75,0% = 7,0
90,0% = 8,0
95,0% = 9,0
99,0% = 9,0
Stem-and-Leaf Display for junio: unit =
0,1 1|2 represents 1,2
3 2|668
5 3|01
10 3|55699
13 4|002
17 4|5578
23 5|033334
23 5|589
20 6|033
17 6|555589
11 7|0123
7 7|568
4 8|033
1 8|
1 9|0
Stem-and-Leaf Display for practicas: unit
= 0,1 1|2 represents 1,2
3
4
7
12
22
(16)
8
3
2|000
3|0
4|000
5|00000
6|0000000000
7|0000000000000000
8|00000
9|000
Confidence Intervals for junio
95,0% confidence interval for mean: 5,55217 +/- 0,506127 [5,04605; 6,0583]
21
95,0% confidence interval for standard deviation: [1,41364; 2,14665]
Confidence Intervals for practicas
95,0% confidence interval for mean: 6,19565 +/- 0,514812 [5,68084;6,71046]
95,0% confidence interval for standard deviation: [1,4379; 2,18349]
Aquí tenemos intervalos de confianza al 95% para las medias y las varianzas de las dos
variables. Para las medias, ambos intervalos se solapan, pero el de prácticas está mas a la
derecha, evidenciando que la nota de prácticas es más alta. Para la varianza los intervalos de
confianza son bastante similares con lo que la dispersión de las dos variables parece ser la
misma.
Box-and-Whisker Plot
Histograma de practicas
frequency
16
12
8
4
0
0
2
4
6
8
10
1,5
2,5
3,5
practicas
4,5
5,5
6,5
7,5
8,5
9,5
practicas
Box-and-Whisker Plot
Histograma de junio
10
frequency
8
6
4
2
0
2,6
4,6
6,6
junio
8,6
10,6
2
3
4
5
6
7
8
9
junio
Aquí tenemos un histograma y un diagrama de cajas para las dos variables. De los
histogramas no puede decirse que las dos variables sean normales, sobre todo la variable
prácticas. Esto ya se podía haber dicho con el coeficiente de asimetría que toma el valor –
2,35 evidenciando asimetría hacia la izquierda.
En los diagramas de cajas se ve el menor rango intercuartilico de la variable práctica y
también el mayor valor de la media y la mediana de esta variable, así como la falta de
simetría.
Two-Sample Comparison - junio & prácticas Comparison of Means
95,0% confidence bound for mean of junio: 5,55217 - 0,422026 [5,13015]
95,0% confidence bound for mean of prácticas: 6,19565 - 0,429268 [5,76638]
95,0% confidence bound for the difference between the means
Assuming equal variances: -0,643478 - 0,595717 [-1,23919]
t test to compare means
Null hypothesis: mean1 = mean2
Alt. hypothesis: mean1 > mean2
Assuming equal variances: t = -1,79521 P-value = 0,962012
22
Comparison of Standard Deviations
Junio
prácticas
Standard deviation 1,70434
1,73358
Variance
2,90477
3,00531
Df
45
45
Ratio of Variances = 0,966546
95,0% Confidence Intervals
Standard deviation of junio: [1,41364;2,14665]
Standard deviation of prácticas: [1,4379;2,18349]
Ratio of Variances: [0,534811;1,7468]
F-test to Compare Standard Deviations
Null hypothesis: sigma1 = sigma2
Alt. hypothesis: sigma1 NE sigma2
F = 0,966546 P-value = 0,909639
Con estos procedimientos contrastamos lo que nos parece haber visto en los datos
mediante el estudio descriptivo. Primeramente calculamos un intervalo de confianza para la
diferencia de medias. Este intervalo depende de si las varianzas son iguales o distintas. El
procedimiento empleado es el suponer varianzas iguales, que después se verá que es la
hipótesis acertada. El intervalo de confianza es in intervalo superior dado por diferencia de
medias es mayor que –1,239, ya que la hipótesis que se contrasta a continuación es si la
media de junio es menor o igual que la media de practicas contra la alternativa de que es
mayor. El ordenador nos da el valor del estadístico T utilizado en el contraste para nuestras
muestras y el p valor. Como el p valor es muy grande, aceptamos la hipótesis nula a
cualquier nivel, es decir la nota media de junio es menor o igual que la nota media de
prácticas.
Finalmente se hace un contraste de varianzas, las salidas nos ofrecen un intervalo de
confianza para el cociente de varianzas y el valor del estadístico F para nuestra muestra y el
p-valor que también en este caso es muy grande y se acepta la hipótesis nula de que las
varianzas son iguales. Esta hipótesis ya la habíamos utilizado anteriormente.
23
INGENIERIA QUIMICA: EXAMEN DE ESTADISTICA 10 de febrero de 2001
1.- Para cada uno de los siguientes experimentos, indicar la distribución de la variable
resultante justificando la respuesta. (1 punto)
El resultado del lanzamiento de un dado.
Es una variable discreta que toma los valores 1,2,3,4,5 y 6 con probabilidad 1/6 cada
uno de ellos
Sacar una pieza de un lote y anotar si es buena o defectuosa.
Es una variable de Bernoulli que toma los valores 0 o 1 según que la pieza sea buena
defectuosa con probabilidades 1-p y p siendo p la proporción de piezas defectuosas.
El número de piezas defectuosas al inspeccionar 20 piezas de un lote grande
Es una variable que se puede aproximar por una binomial de parámetros 20 y
p, siendo p la proporción de piezas defectuosas.
La temperatura media nocturna de Valladolid en el mes de julio.
Es una variable continua cuya distribución se podrá aproximar por una normal
2.- En una encuesta se plantea la siguiente pregunta ¿Conoces a algún hombre que vaya a la
compra normalmente? Al procesarla se comprueba que el 90% de los preguntados responde que si,
y por lo tanto se concluye que el 90% de los hombres realiza la compra normalmente. (1punto)
A) Opina si la conclusión es acertada, justificando tu respuesta.
De la pregunta de la encuesta se concluye que el 90% de los encuestados conoce a
algún hombre que vaya a la compra (todos pueden conocer al mismo), por tanto la
conclusión es errónea.
B) Se presenta el resumen de los datos de la siguiente forma
Numero de encuestados = 10000 media = 0.9008
Desviación estándar = 0.298945
¿Es una presentación acertada?
La variable que se está estudiando es una variable cualitativa con respuestas si y no,
por tanto no tiene sentido calcular ni su media ni su desviación estándar. La
presentación de los datos no es acertada.
3.- Tres máquinas fabrican piezas en serie siendo sus producciones horarias de 5000, 6000 y
4000 piezas respectivamente. Las proporciones de defectuosas son 0.05, 0.08 y 0.01; De la
producción de un día se seleccionan dos piezas que resultaron buenas. Calcular la probabilidad de
que ambas procedan de la misma máquina (1 punto).
Se supone que el número de piezas de que disponemos es lo suficientemente grande como
para considerar que la selección de la primera pieza es independiente de la selección de la segunda.
Solución
Sean M1, M2 y M3 las tres máquinas.
P (M1)=5/15; P (M2)=6/15; P (M3)=4/15:
Al extraer dos piezas se pueden dar las siguientes elecciones de máquinas con probabilidad
P (M1, M1)= (5/15) x (5/15); P (M1, M2)= (5/15) x (6/15); P (M1, M3)= (5/15) x (4/15);
P (M2, M1)= (6/15) x (5/15); P (M2, M2)= (6/15) x (6/15); P (M2, M3)= (6/15) x (4/15);
P (M3, M1)= (4/15) x (5/15); P (M3, M2)= (4/15) x (6/15); P (M3, M3)= (4/15) x (4/15);
El resultado de la selección de las piezas depende de la elección de las máquinas.
Denotamos por B pieza buena
P (BB/M1, M1) = 0.95 x0.95; P (BB/M1, M2) = 0.95 x0.92; P (BB/M1, M3) = 0.95 x0.99;
P (BB/M2, M1) = 0.92 x0.95; P (BB/M2, M2) = 0.92 x0.92; P (BB/M2, M3) = 0.92x0.99;
P (BB/M3, M1) = 0.99 x0.95; P (BB/M3, M2) = 0.99 x0.92; P (BB/M3, M3) = 0.99 x0.99;
24
La probabilidad de que las dos piezas extraídas sean buenas viene dada por la suma
P(BB)= P(BB/M1,M1)x P(M1,M1)+ P(BB/M1,M21)x P(M1,M2)+ P(BB/M1,M3)x
P(M1,M3)+P(BB/M2,M1)x P(M2,M1)+ P(BB/M2,M2)x P(M2,M2)+ P(BB/M2,M3)x
P(M2,M3)+P(BB/M3,M1)x P(M3,M1)+ P(BB/M3,M2)x P(M3,M2)+ P(BB/M3,M3)x
P(M3,M3)=0.899966
La probabilidad de que las dos piezas sean de la misma máquina viene dada por
P (M1, M1/BB) +P (M2, M2/BB) +P (M3, M3/BB) =
=(P(BB/M1,M1)x P(M1,M1)+ P(BB/M2,M2)x P(M2,M2)+
P(BB/M2,M2)x
P(M2,M2))/P(BB)=0.33934
4.- Un auditor sospecha que el 25% de las facturas de una empresa son fraudulentas.
Dispone de un millón de facturas para inspeccionar. Calcular el número de facturas que debe
examinar para asegurarse que encontrará al menos una fraudulenta con una probabilidad mayor que
0.99. Justificar la aproximación realizada (1 punto)
Solución:
Si hay un millón de facturas 250.000 son fraudulentas y 750.000 correctas. Al examinar n
facturas, si llamamos X el nº de facturas fraudulentas
⎛ 750000 ⎞
⎟
⎜⎜
n ⎟⎠
⎝
P( X ≥ 1) = 1 − P( X = 0) = 1 −
⎛1000000 ⎞
⎟⎟
⎜⎜
n
⎠
⎝
Aproximamos la distribución de X por una binomial de parámetros n y 0.25
P ( X = 0) = 0.250 x0.75n ≤ 0.01
Tomando
logaritmos
log 0.01
n≥
= 16.0078 .
log 0.75
n log 0.75 ≤ log 0.01
como
ambos
logaritmos
son
negativos
Por lo tanto debe examinar 17 facturas.
5.- Calcular los percentiles 5, 25, 50, 75 y 95 de una distribución BN (20, 0.05), para ello
disponemos de las salidas proporcionadas por el statgraphics (1 punto)
Parameters: Event prob. Successes
Dist. 1
0.05
20
Dist. 2
0.2
5
Distribución: Negativa Binomial
Lower Tail Area(<)
Probability Mass (=)
Upper Tail Area (>)
Variable Dist. 1 Dist. 2 Variable Dist. 1
Dist. 2
Variable Dist. 1
Dist. 2
269
0.0499782 1.0 269 0.00157882 1.75174E-21
269
0.948443 0.0
338
0.247116
1.0 338
0.00408192 9.05034E-28 338
0.748802 0.0
394
0.49991
1.0 394
0.00461729 6.27861E-33 394
0.495473 0.0
455
0.74921
1.0 455
0.00332881 1.37373E-38 455
0.247461 0.0
554
0.949908
1.0 554
0.000943347 7.71827E-48 554
0.049149 0.0
Solución:
Como es una distribución B (20,0.05) debemos utilizar los resultados calculados para la
distribución 1. Vamos a denotar por X la variable con esta distribución.
Si Percentil 5 = a por definición P( X ≤ a) ≥ 0.05 ; P( X ≥ a) ≥ 0.95
P ( X ≤ 269) = 0.049978 + 0.001578 = 0.051556 ≥ 0.05 P ( X ≥ 269) = 0.948443 + 0.001578 = 0.950021 ≥ 095
Por tanto el percentil 5 es 269.
El percentil 25 es 338 ya que
25
P ( X ≤ 338) = 0247116 + 0.00408192 ≥ 0.25 P ( X ≥ 338) = 0.748802 + 0.00408192 ≥ 0.75
El percentil 50 es 394 ya que
P ( X ≤ 394) = 049991 + 0.0046172 ≥ 0.5 P ( X ≥ 394) = 0.495473 + 0.00461729 ≥ 0.5
El percentil 75 es 455 ya que
P ( X ≤ 455) = 0.74921 + 0.00332881 ≥ 0.75 P ( X ≥ 455) = 0.247461 + 0.00332881 ≥ 0.25
El percentil 95 es 554 ya que
P ( X ≤ 554) = 0.949908 + 0.000943347 ≥ 0.95 P ( X ≥ 554) = 0.049149 + 0.000943347 ≥ 0.05
6.- En un análisis de regresión se han obtenido los siguientes resultados (2 puntos)
Regression Analysis - Linear model: Y = a + b*X
Dependent variable: accel
Independent variable: weight
Standard
T
Parameter
Estimate
Error
Statistic
P-Value
-----------------------------------------------------------------------------------Intercept
16.7875
0.927477
0.0000
Slope
-0.000191326 0.000338575 -0.565094
0.5728
----------------------------------------------------------------------------------Analysis of Variance
-------------------------------------------------------------------------Source
Sum of Squares Df Mean Square F-Ratio P-Value
-----------------------------------------------------------------------------------Model
1 2.03717
0.5728
Residual
976.065
6.37951
--------------------------------------------------------------------------------------Total (Corr.) 978.102
154
Correlation Coefficient = -0.0456375
R-squared =
Standard Error of Est. =
Rellenar los huecos que faltan : El valor del estadístico T para la ordenada en el origen, la
suma de los cuadrados del modelo, el valor del estadístico F, los grados de libertad de los
residuos, el valor de R2 y el valor del error estándar de estimación.
Solución:
T= 16.7875/0.927477=18.1001793
VT =VE + VNE; VE = VT- VNE =978.102-976.065=2.037
F =(VE/1)/(VNE/153)=2.037/6.37951=0.3193
Los residuos tienen 153 grados de libertad
R2= VE/VT =2.037/978.102=0.0020825
Error estándar de estimación VNE
= 6.37951 = 2.525769
153
¿A la vista de los resultados, creéis que hay una relación lineal entre las dos variables
analizadas?
El p-valor para el contraste de hipótesis de la pendiente es 0.57, por lo tanto aceptamos la
hipótesis de que la pendiente es 0 y por tanto no existe relación lineal entre las variables. El
contraste F de regresión también da un p-valor de 0.57 como cabía esperar ya que ambos
contrastes son equivalentes. El coeficiente R2 da un valor muy pequeño, sólo el 0.2% de la
variación de los datos está explicado por la regresión. Definitivamente si existe alguna
relación entre estas dos variables, no es lineal.
26
Después de realizada la regresión se ha hecho un análisis descriptivo de los residuos,
obteniéndose
Summary Statistics for RESIDUALS
Percentiles for RESIDUALS
Count = 155
Average = 8.49677E-8
1.0% = -4.97435
Variance = 6.33808
5.0% = -3.43123
Standard deviation = 2.51755
10.0% = -2.87294
Minimum = -4.99106
25.0% = -1.68098
Maximum = 8.62278
50.0% = -0.346094
Range = 13.6138
75.0% = 1.40754
Lower quartile = -1.68098
90.0% = 3.13286
Upper quartile = 1.40754
95.0% = 4.36781
Interquartile range = 3.08852
99.0% = 8.21998
Skewness = 0.780005
Kurtosis = 0.998636)
Box-and-Whisker Plot
Histogram for RESIDUALS
50
frequency
40
30
20
10
0
-7
-4
-1
2
5
8
11
-5
-2
1
4
7
10
RESIDUALS
RESIDUALS
¿Qué se puede decir de los residuos?
De los valores muestrales presentados para los residuos, no puede decirse que se aparten
demasiado de las hipótesis de normalidad necesarias para la regresión. Son centrados. El
primer y tercer cuartil son casi simétricos y los coeficientes de asimetría y curtosis entran
dentro de los valores normales. Puede observarse en los percentiles que los superiores
(90,95 y 99) son superiores en módulo que sus correspondientes inferiores (10,5 y 1) por
tanto la distribución presenta asimetría a la derecha. Esta asimetría se observa en el
histograma aunque no muy marcada y en el diagrama de cajas se observan valores
anormalmente altos que pueden ser los que determinen esta asimetría.
7.- Se instala un nuevo dispositivo de filtrado en una unidad química. Antes de su
instalación una muestra aleatoria proporcionó la siguiente información acerca del porcentaje de
impurezas: tamaño muestral, 8; media muestral, 12.5; varianza muestral, 101.17. Después de la
instalación se tomó otra muestra obteniéndose: tamaño muestral, 9; media muestral, 10.2; varianza
muestral, 94.73. (3puntos)
a) ¿Se puede concluir que las dos varianzas son iguales?
Se realiza el contraste
H 0 : σ1 = σ 2
El
H1 : σ 1 ≠ σ 2
estadístico utilizado es
S12
S 22
que bajo la hipótesis nula se
distribuye según una F con 7 y 8 grados de libertad. Buscando en las tablas
F0.025,7,8 = 4.53
F0.025,8,7 = 4.90
27
La región de aceptación es
S12
S 22
= 1.06 que
1
S2
≤ 12 ≤ 4.53 es
4.90 S 2
decir
0.20 ≤
S12
S22
≤ 4.53 .
En nuestro caso
cae dentro de la región de aceptación, es decir aceptamos igualdad de varianzas.
b) Calcular la potencia del contraste cuando el cociente de varianzas es 2. Dato
F(2.2659) = 0.862761; F (0.1)=0.003265
P (2) = 1 − β (2) = 1 − P (0.20 ≤
Si
S12
σ 12
=2
2
σ2
2S22
S12
S22
S12
≤ 4.53 /
σ2 σ2
σ 12
σ2 σ2
= 2) = 1 − P (0.20 22 ≤ 12 ≤ 4.53 22 / 12 = 2) = a
2
S2
σ1 σ 2
σ2
σ1
2
σ2
sigue una distribución F con 7 y 8 grados de libertad, por tanto
P (2)= 1 − P(0.10 ≤
S12
2 S22
≤ 2.2659) = 1 − F (2.2659) + F (0.10) = 1 − 0.86271 + 0.003265 = 0.140504
c) ¿Que tamaño muestral nos asegura una potencia de 0.9 cuando el cociente de
varianzas es de 4?
Una potencia de 0.9 corresponde a un error de segunda clase 0.1 para una distancia entre la
hipótesis nula y la alternativa de 2, buscando en las curvas CO para un nivel 0.05
encontramos un tamaño maestral aproximado de 31 observaciones para las dos muestras
d) Dar un intervalo de confianza para la diferencia de medias
Asumiendo igualdad de varianzas la estimación de la varianza común es
(7x101.17+8 x 4.73)/15=97.735.La desviación estándar es 9.886
Buscando en las tablas t0.025,15 = 2.131 ; 2.131x9.886∉(1/7+1/8)=10.9032. El intervalo de
confianza al 95%
para la diferencia de medias viene dado por (12.5-10.2)±10.9032
μ1 − μ 2 ∈ [−8.6,13.2]
e) Están los datos de acuerdo en que se ha reducido el porcentaje de impurezas al
colocar el filtro en al menos un 2%?
Hacemos el contraste
La
región
de
H 0 : μ1 − μ 2 = 2
H1 : μ1 ≠ μ 2 < 2
aceptación
0.3
X −Y − 2
=
= 0.05 que
t=
5.116
1 1
+
s
7 8
al
Buscando en las tablas
nivel
0.05
es
T
t0.05,15 = 1.753 ;
>-1.753
,
en
nuestro
caso
está en la región de aceptación luego aceptamos la hipótesis de
que se ha reducido el porcentaje de impurezas en al menos un 2%
f)
Calcular la potencia del contraste cuando la diferencia de medias es de 0. F
(1,36)=0.898
P (0)=P (Rechazar la hipótesis/μ1=μ2)=
X −Y − 2
X −Y
2
< −1.753 / μ1 − μ 2 = 0) = P (
< −1.753 +
/ μ1 − μ 2 = 0)
5.116
5.116
5.116
Si μ1=μ2 entonces X − Y sigue una distribución T con 15 grados de libertad
5.116
X −Y
2
P (0)= P(
< −1.753 +
) = P(T15 < −1.36) = 1 − P (T15 < 1.36) = 1 − 0.898 = 0.102 )
5.116
5.116
P(
28
INGENIERIA QUIMICA: EXAMEN DE ESTADISTICA.11 de setiembre de 2001
1.- Para cada uno de los siguientes experimentos, indicar la distribución de la variable
resultante justificando la respuesta. (1 punto)
- El resultado del lanzamiento de una moneda
- Sacar una pieza de un lote grande y anotar si es aceptable o no
- El número de piezas de piezas extraídas de un lote grande hasta sacar la primera
defectuosa, conociendo la proporción de defectuosas
- Las medidas de concentración de ozono en la calle Regalado de Valladolid
2.- Se han procesado unos datos y se han obtenido los resultados (1punto)
Clase Valor Frecuencia
Frecuencia
Frecuencia
Frec.Relativa
Relativa
Acumulada Acumulada
1
1.0
4
0.0741
0.0741
2
2.0
0.6111
37
0.6852
3
3.0
9
0.1667
0.8519
4
4.0
5
0.0926
51
0.9444
5
5.0
2
0.0370
53
0.9815
6
6.0
1
0.0185
1.0000
Rellena los huecos, explica que tipo de variable es y dibuja un diagrama de barras o un
histograma según corresponda.
3.- Tres máquinas fabrican piezas en serie siendo sus producciones horarias de 3000, 2000 y
1000 piezas respectivamente. Las proporciones de defectuosas son 0.01, 0.03 y 0.05; De la
producción de un día se selecciona dos piezas que resultan buenas. Calcular la probabilidad de que
ambas procedan de la misma máquina (1 punto).
4.Un técnico de medio ambiente sospecha que el 5 % de las emisiones de gases
contaminantes de una empresa química sobrepasan el mínimo de lo permitido por la ley. Calcular el
número de muestras que debe tomar para asegurarse que encontrará al menos una con mayor
contaminación de la permitida con una probabilidad mayor que 0.99. Justificar la aproximación
realizada (1 punto).
5.- Calcular los percentiles 5, 25, 50, 75 y 95 de una distribución H (10, 15,35), para ello
disponemos de las salidas proporcionadas por el statgraphics (1 punto)
Distribution: Hypergeometric. Probability Mass (=)
Variable Dist. 1
0
0.0178713
1
0.103104
2
0.240576
3
0.297856
4
0.215689
5
0.094903
6
0.0255116
7
0.00410007
8
0.000372734
9
0.0000170532
10
2.9234E-7
29
6. - En un análisis de regresión se ha obtenido los siguientes resultados
Simple Regresión - Col_2 vs. Col_1
Regresión Análisis - Linear modelo: Y = a + b*X
Dependent variable: Col_2
Independent variable: Col_1
Standard
T
Parameter
Estimate
Error
Statistic
P-Value
Intercept -0,966824 0,00484523
-199,541
0,0000
Slope
1,54376
0,00307363
502,259
0,0000
Analysis of Variance
Source Sum of Squares Df Mean Square F-Ratio P-Value
Model
1,96613
1 1,96613
252263,91 0,0000
Residual 0,0000623515 8 0,00000779394
Total (Corr.) 1,96619 9
Correlation Coefficient = 0,999984
R-squared = 99,9968 percent
Standard Error of Est. = 0,00279176
Explica las salidas suministradas por el programa. Dar un intervalo de confianza para la
pendiente al 5%. (2 puntos)
7.- Se instala un nuevo dispositivo de filtrado en una unidad química. Antes de su
instalación una muestra aleatoria proporcionó la siguiente información acerca del porcentaje de
impurezas: tamaño muestral, 9; media muestral, 10.2; varianza muestral, 94.73. Después de la
instalación se tomó otra muestra obteniéndose: tamaño muestral, 8; media muestral, 12.5; varianza
muestral, 94.73. (3puntos)
a) ¿Se puede concluir que las dos varianzas son iguales?
b) Calcular la potencia del contraste cuando el cociente de varianzas es 2.
c) ¿Que tamaño muestral nos asegura una potencia de 0.9 cuando el cociente
de
varianzas es de 4?
d) Dar un intervalo de confianza para la diferencia de medias
e) ¿Están los datos de acuerdo en que el nuevo dispositivo de filtrado no reduce el
porcentaje de impurezas?
f) Calcular la potencia del contraste cuando la diferencia de medias es de -1.
Datos:
Distribution: F (variance ratio)
Variable Lower Tail Area (<)
Probability Density Upper Tail Area (>)
0.2
0.0188324
0.273502
0.981168
0.44
0.136386
0.642464
0.863614
0.94
0.460826
0.558782
0.539174
4.55
0.96968
0.0171977
0.0303198
9.8
0.996528
0.00107239
0.00347171
Distribution: Student's t
Variable Lower Tail Area (<)
Probability Density Upper Tail Area (>)
0.25
0.597011
0.379517
0.402989
0.44
0.666895
0.354097
0.333105
0.94
0.818945
0.248208
0.181055
4.55
0.999808
0.000380906
0.000191598
9.8
1.0
4.35082E-8
3.25702E-8
30
INGENIERÍA QUÍMICA: EXAMEN DE ESTADÍSTICA 6 DE SETIEMBRE DE 2002
1.-Tres laboratorios hacen análisis para una empresa de medio ambiente: Los datos que a
continuación se expresan reflejan la experiencia a largo plazo con estos laboratorios (2 puntos)
Proporción de análisis
Proporción de entrega con
Laboratorio
correspondientes
retraso de más de un mes
1
.5
.3
2
.3
.4
3
.2
.2
La empresa descubre un análisis con más de un mes de retraso. Calcular la probabilidad de que
cada laboratorio sea el responsable del análisis.
2.- A continuación se presentan datos de viscosidad de un lote de cierto proceso químico.
13,3 14,9 15,8 16,0 14,5 13,7 13,7 14,9 15,3 15,2 15,1 13,6 15,3
14,5 13,4 15,3 14,3 15,3 14,1 14,3 14,8 15,6 14,8 15,6 15,2 15,8
14,3 16,1 14,5 13,3 14,3 13,9 14,6 14,1 16,4 15,2
a. Construir un diagrama de tallo- hojas para los datos de viscosidad. (0.5 punto)
b. Construir una tabla de distribución de frecuencias y dibujar el histograma correspondiente.
(1 punto)
c. Calcular los cuartiles primero, segundo y tercero y construir un diagrama de cajas. (0.5
puntos)
d. Suponiendo que todas las observaciones siguen una distribución normal con una varianza
común desconocida. Calcular un intervalo de confianza para la media al nivel 0.1. (1 punto)
e. Contrastar la siguiente hipótesis al nivel 0.05. (1 punto)
H0: μ =15
H0: μ =16
H1: μ <15
H1: μ ≠16
f. Calcular la región crítica y el p valor para ambos contrastes. (1 punto)
3.- Un lote de 2000 piezas presenta 50 defectuosas.
g. Calcular la probabilidad de que en una muestra aleatoria de tamaño 25 se encuentre al
menos una defectuosa. (0.5 puntos)
h. Calcular el tamaño muestral necesario para detectar tres o menos piezas defectuosas el 90%
de las veces. (0.5 puntos)
4.- Un ensamble está compuesto por 10 componentes colocados uno junto al otro. La longitud de
cada componente se distribuye normalmente con media 2 cm. y desviación típica 0.02 cm. Las
especificaciones requieren que todos los ensambles tengan una longitud entre 9.9 y 10.1 cm.
¿Cuántos ensambles verificarán estos requerimientos? (1 punto)
5.- Calcular los percentiles 5, 25, 50, 75 y 95 de una distribución H(10,15,35), para ello
disponemos de las salidas proporcionadas por el statgraphics (1 punto)
Distribution: Hypergeometric Probability Mass (=)
Variable Dist. 1
Variable
Dist. 1
Variable Dist. 1
0
0.0178713
5
0.094903
10
2.9234E-7
1
0.103104
6
0.0255116
2
0.240576
7
0.00410007
3
0.297856
8
0.000372734
4
0.215689
9
0.0000170532
31
EXAMEN DE ESTADÍSTICA: 2º de Ingeniería Química 31 de Enero de 2003. Primera parte
1.- La tabla adjunta muestra los diámetros en centímetros de una muestra de 24 bolas de
cojinete manufacturados por una fábrica.
1.738 1.729 1.743 1.740 1.736 1.741 1.735 1.731 1.726 1.737 1.728 1.724 1.733 1.742
1.725 1.734 1.732 1.730 1.739 1.738 1.727 1.732 1.746 1.744
a. Calcular media, moda, mediana, rango, máximo, mínimo, desviación estándar, primer
cuartil, segundo cuartil, tercer cuartil, rango intercuartílico, percentil 5 y percentil 95
muestrales (0.5)
b. Hacer una tabla de distribución de frecuencias, un diagrama de tallo-hojas, un histograma y
un diagrama de cajas y comenta los gráficos.(1)
c. Hallar un intervalo de confianza al 95% para la media y otro para la varianza.(1)
d. Para el siguiente contraste de hipótesis
H0 : μ = 1.725
H1 : μ > 1.725
Calcular la región crítica, el p-valor (aproximado), la potencia en el punto 1.75. Calcular el
tamaño de muestra necesario para asegurarnos una potencia mayor de 0.99 en el punto 1.73.
(1.5)
e. Para el siguiente contraste de hipótesis
H0 : σ = 0.005
H1 : σ #.0.005
Calcular la región crítica, el p-valor (aproximado), la potencia en el punto 0.004. Calcular el
tamaño de muestra necesario para asegurarnos una potencia mayor de 0.9 en el punto 0.004.
(1.5)
Solución:
n = 24 media = 1.73458 mediana = 1.7345 Moda = Hay dos 1.732; 1.738
Varianza = 0.0000402536 Desviación estándar = 0.00634457
Mínimo = 1.724 Máximo = 1.746 Rango = 0.022 Valores desde 1.724 a 1.746
Primer cuartil = 1.7295 (dato 6 + dato 7)/2 ordenados de menor a mayor
Tercer cuartil = 1.7395 (dato 18 + dato 19)/2 ordenados de menor a mayor
Rango intercuartílico = 0.01
percentil 5 = 1.725 dato 2 ordenados de menor a mayor
percentil 95 = 1.744 dato 23 ordenados de menor a mayor
Tabla de distribución de frecuencias
clase
menor
1
2
3
4
5
6
mayor
lim. Inf lim.Sup.
1.72
1.72
1.725
1.725 1.73
1.73
1.735
1.735 1.74
1.74
1.745
1.745 1.75
1.75
Frec.Abs.
0
1
5
6
6
5
1
0
Frec.Rel.
0
0.041
0.208
0.25
0.25
0.208
0.041
0.
Frec.Abs.Ac.
Frec.Rel.Ac
0.
0
1
0.041
6
0.25
12
0.5
18
0.75
23
0.58
24
1.
24
1
32
6
frequency
5
4
3
2
1
0
1.72 1.725 1.73 1.735 1.74 1.745 1.75
histograma
Diagrama de cajas
1.723 1.728 1.733 1.738 1.743 1.748 1.753
diametro
Diagrama de tallo- hojas
1
172|4
6
172|56789
(6)
173|012234
(6)
173|567779
6
174|01234
1
174|6
Intervalo de confianza para la media. T23,0.025= 2.069
1.73458 +/- 0.00267908 [1.7319;1.73726]
Intervalo de confianza para la desviación estánda.r X223,0.025= 38.08 X223, 0.975= 11.69
[0.00493109;0.00889992]
Para la varianza [0.0000239;0.000078089]
33
Contraste para la media t23,0.05= 1.714
t0 = 7,776 Región crítica T0 > 1.714. Rechazamos la hipótesis nula
P- valor P (T23 > 7.776) < P (T23 > 3.767) = 0.0005
Potencia
P (1.75)=P (T23 > 1.714/ μ= 1.75)= P (T23 > -17.286) ≈1
Tamaño muestral
d = (1.73-1.725)/0.0063 = 0.79
β(d) < 0.01 n comprendido entre 30 y 40
Si n =30 t29, 0.05 = 1.699
P (1.73)=P (T29 > 1.699/ μ= 1.73)= P (T29 > -2.65)
De las tablas P (T29 > 2.75) = 0.005 P (T29 > 2.462) = 0.01
P (T29 > - 2.75) = 0.995 P (T29 > - 2.462) = 0.99
0.99 < P (1.73) < 0.995 luego n=30
Contraste para la desviación estándar
X20 → X223 X223,0.025 = 38.08 X223,0.975 = 11.69
Región de aceptación 11.69 ≤ X20 ≤ 38.08
x20 = 36.514. Acepto la hipótesis nula, a pesar de que estamos muy cerca de la región crítica
P-valor P(X223 < 36.514) ≈ 0.05
P (0.004) = P (X20 > 38.08/σ =0.004) + P (X20 < 11.69/σ =0.004) = P(X223 > 59.5)+ P(X223 <
18.26)
De las tablas P(X223 > 14.85) = 0.90 P(X223 > 22.34) = 0.50
0.10 < P (0.004) <0.5
Tamaño muestral: d = 0.004/0.005 = 0.8
Curvas OC n >100
Si n=101 X2100,0.025 = 129.56 X2100,0.975 = 74.22
P (0.004) = P (X20 > 129.56/σ =0.004) + P (X20 < 74.22)/σ =0.004) = P(X223 > 202.437) +
P(X223 < 115.96) > 0.5
Utilizando el statgraphics se comprueba n=110
2.- Clasifica las siguientes variables como discretas, continuas o categóricas y da su posible
rango. (0.5)
a. Número de acciones vendidas en la bolsa de valores.
b. Temperatura media anual.
c. Vida media de los tubos de TV.
d. Ingresos anuales de un trabajador.
e. Longitud de tornillos producidos por una empresa.
f. Capacidad de un frigorífico.
g. Número de libros en la Biblioteca de la Facultad.
h. Suma de los puntos al lanzar 20 dados.
i. Diámetro de una pieza cilíndrica.
j. Países de Europa.
34
EXAMEN DE ESTADÍSTICA: 2º de Ingeniería Química 31 de Enero de 2003. Segunda parte
1.- Un muestreo de 200 votantes revela la siguiente información referente a tres candidatos
A, B, y C.
28 a favor de A y B;
98 a favor de A o B, pero no de C;
42 a favor de B, pero no A o C;
122 a favor de B o C pero no A;
64 a favor de C pero no A o B;
14 a favor de A y C pero no B.
Se pide número de votantes a favor de los tres candidatos. (0.75)
Solución:
P(A∩B∩C) = 8/200.
Número de votantes favorables a los tres candidatos 8
2.- Se lanza un dado 120 veces. (0.75)
a. Calcular la probabilidad de que salga el 4, 18 veces o menos.
b. Calcular la probabilidad de que salga el 4, 14 veces o más.
Solución:
Sea Xi =1 si el resultado del lanzamiento del dado i es 4 y 0 en caso contrario.
Xi es una variable de Bernoulli de parámetro p =1/6
120
Sea Y =
∑X
i =1
i
. La variable Y sigue una distribución B (200, 1/6) y cuenta el número de
veces que sale el 4 en 120 lanzamientos.
Esta variable la aproximamos por una normal de media 20 y desviación estándar 4.08
P (Y ≤ 18) = P (Z ≤ -0.49) = 1- 0.6879 = 0.3121;
P (Y ≥ 14) = P (Z ≥ -1.47) = 0.9292
3.- Tres joyeros idénticos tienen cada uno 2 cajones. En el primer joyero los dos cajones
tienen un reloj de oro, en el segundo un reloj de plata y en el tercer joyero un cajón tiene un reloj de
oro y el otro cajón un reloj de plata. Seleccionamos un joyero al azar, abrimos uno de los cajones y
observamos que contiene un reloj de plata.
Encontrar la probabilidad de que en el otro cajón haya un reloj de oro. (1)
Solución:
Sean I, II, y III los tres joyeros.
P (I) = P (II) = P (III) = 1/3
P (oro/I)=1 P (oro/II)=0 P (oro/III)=½ P (plata/I)=0 P (plata /II)=1 P (plata /III)=1/2
Hay que calcular P (III/plata).
Por la fórmula de Bayes
P( plata / III ) P( III )
=1/3
=
P( plata / I ) P( I ) + P( plata / II ) P( II ) + P ( plata / III ) P( III )
35
4.- Sea Z una variable N (0,1). (0.75)
a. -Calcular P (Z ≥ -1.64)
P (-1.96 ≤ Z ≤ 1.96)
P ( ⎥ Z⎥ > 1)
b. -Hallar z1, z2, z3, z4, z5 en las siguientes ecuaciones:
P (Z > z1) = 0.2266
P (Z < z2) = 0.0314
P (-0.23 < Z < z3) = 0.5722
P (1.15 < Z < z4) = 0.0730
P (-z5 <Z < z5) = 0.9
Solución:
P( Z ≥ -1.64) = P( Z ≤ 1.64) =0.949 P( -1.96 ≤ Z ≤ 1.96) =2 P(Z ≤ 1.96)-1 = 0.95
P( ⎥ Z⎥ > 1) = 2(1-P(Z ≤ 1)) = 0.3172
P (Z > z1) = 0.2266 P (Z ≤ z1) = 0.7734 z1 = 0.75
P (Z < z2) = 0.0314 z2 ha de ser negativo P (Z ≤ -z2) = 0.9686 - z2= 1.86 z2= -1.86
P (-0.23 < Z < z3) = P (Z < z3) – P (Z < -0.23) = P (Z < z3) – 0.41 =0.5722 . De donde
P (Z < z3) = 0.9822 z3 = 2.10
P (1.15 < Z < z4) = P (Z < z4) – P (Z < 1.15) = P (Z < z4) – 0.87493 = 0.0730. De donde
P (Z < z4) =0.94793 z4 = 1.62
P (-z5 <Z < z5) = 2 P (Z < z5) -1 = 0.9 P (Z < z5) = 0.95 z5 = 1.64
5.- En una muestra de tamaño 100, se ha obtenido una media muestral de 38,283 y una
desviación estándar muestral de 1.25. (0.75)
a. ¿Qué porcentaje de observaciones cae dentro del rango 38,283± 2.5?
El 75% al menos por la desigualdad de Chebichev (1- (1/2)2)
b. ¿Qué porcentaje de observaciones cae dentro del rango 38,283± 1.5?
Al menos el 30.55% ( 1- (1/1.2)2)
36
EXAMEN DE ESTADÍSTICA: 2º de Ingeniería Química 3 de setiembre de 2003.
Primera parte
1.- La tabla adjunta muestra los diámetros en milímetros de una muestra de 24 bolas de
cojinete manufacturados por una fábrica.
17.38 17.29 17.43 17.40 17.36 17.41 17.35 17.31 17.26 17.37 17.28 17.24
17.33 17.42 17.25 17.34 17.32 17.30 17.39 17.38 17.27 17.32 17.46 17.44
a)
Calcular media, moda, mediana, rango, máximo, mínimo, desviación estándar,
primer cuartil, segundo cuartil, tercer cuartil, rango intercuartílico, percentil 5 y percentil 95
muestrales (0.5)
b)
Hacer una tabla de distribución de frecuencias, un diagrama de tallo-hojas, un
histograma y un diagrama de cajas y comenta los gráficos.(1)
c)
Hallar un intervalo de confianza al 95% para la media y otro para la varianza.(1)
d)
Para el siguiente contraste de hipótesis
H0 : μ = 17.25
H1 : μ ≠ 17.25
Calcular la región crítica, el p-valor (aproximado), la potencia en el punto 17.5. Calcular el
tamaño de muestra necesario para asegurarnos una potencia mayor de 0.99 en el punto 17.3.
(1.5)
e)
Para el siguiente contraste de hipótesis
H0 : σ = 0.5
H1 : σ < 0.5
Calcular la región crítica, el p-valor (aproximado), la potencia en el punto 0.4. Calcular el
tamaño de muestra necesario para asegurarnos una potencia mayor de 0.9 en el punto 0.4.
(1.5)
2.-Define: variable discreta, variable continua y variable categórica.
Clasifica las siguientes variables y da su posible rango. (0.5)
a) Número de acciones vendidas en la bolsa de valores.
b) Temperatura media anual.
c) Vida media de los tubos de TV.
d) Ingresos anuales de un trabajador.
e) Longitud de tornillos producidos por una empresa.
f) Capacidad de un frigorífico.
g) Número de libros en la Biblioteca de la Facultad.
h) Suma de los puntos al lanzar 20 dados.
i) Diámetro de una pieza cilíndrica.
j) Países de Europa.
37
EXAMEN DE ESTADÍSTICA: 2º de Ingeniería Química 3 de setiembre de 2003.
Segunda parte
1.- Un muestreo de 200 votantes revela la siguiente información referente a tres candidatos
A, B, y C.
28 a favor de A y B
98 a favor de A o B, pero no de C
42 a favor de B, pero no A o C
122 a favor de B o C pero no A
64 a favor de C pero no A o B
14 a favor de A y C pero no B
Se pide número de votantes a favor de los tres candidatos. (0.75)
Solución:
P(A∩B∩C) = 8/200
Número de votantes favorables a los tres candidatos 8
2.- Se lanza un dado 200 veces. (0.75)
a) Calcular la probabilidad de que salga el 1, 30 veces o menos.
b) Calcular la probabilidad de que salga el 6, 14 veces o más.
3.- Tres joyeros idénticos tienen cada uno 3 cajones. En el primer joyero dos cajones tienen
un reloj de oro cada uno, y el otro está vacío, en el segundo, dos cajones tienen un reloj de plata y el
tercer cajón vacío y en el tercer joyero un cajón tiene un reloj de oro otro cajón un reloj de plata y el
otro cajón está vacío. Seleccionamos un joyero al azar, abrimos uno de los cajones y observamos
que contiene un reloj de plata. Encontrar la probabilidad de que al abrir otro cajón encontremos un
reloj de oro. (1)
4.- Sea Z una variable N (0,1). (0.75)
b. Calcular
P (Z ≥ -1.64)
P (-1.96 ≤ Z ≤ 1.96)
P ( ⎥ Z⎥ > 1)
b.-Hallar z1, z2, z3, z4, z5 en las siguientes ecuaciones
P (Z < z2) = 0.0314
P (-0.23 < Z < z3) = 0.5722
P (Z > z1) = 0.2266
P (-z5 <Z < z5) = 0.9
P (1.15 < Z < z4) = 0.0730
5.- En una muestra de tamaño 100, se ha obtenido una media muestral de 38,283 y una
desviación estándar muestral de 1.25. (0.75)
c. ¿Qué porcentaje de observaciones cae dentro del rango 38,283± 2.5?
d. ¿Qué porcentaje de observaciones cae dentro del rango 38,283± 1.5?
38
Descargar