Subido por JG RENT A CAR

trabajo-perez-final alfin 2319

Anuncio
UNIVERSIDAD
NACIONAL
MAYOR DE SAN
MARCOS
(Universidad del Perú, Decana De América)
CURSO
:
ESTADÍSTICA INDUSTRIAL
TEMA
:
TRABAJO DE ESTADÍSTICA INDUSTRIAL
PROFESOR
ALUMNOS
:
:
INGENIERO PEREZ
Poma Rosales Jhon Efrain
Lara Carhuancho Mireya
Gabriela
Ramos Poma Lisbeth
Urtecho Ponte Rudy
Ciudad Universitaria, 09 Julio deL
2016
01
ÍNDICE
1 PRUEBA RELATIVA A la media ......................................................................................................... 3
2 PRUEBA RELATIVA A PROPORCIONES ............................................................................................... 6
3 HIPOTESIS T................................................................................................................................11
4 ANOVA DE UNO Y DOS FACTORES ......................................................................................25
5 MODELO DE REGRESIÓN LINEAL SIMPLE ........................................................................................36
6 MODELO DE REGRESION MULTIPLE ....................................... ¡Error! Marcador no definido.
7 MODELO DE REGRESION CURVILINEO .................................................................................56
8 MÉTODOS NO PARAMÉTRICOS.............................................. ¡Error! Marcador no definido.
02
TRABAJO DE ESTADÍSTICA
INDUSTRIAL
1 .- PRUEBA RELATIVA A LA MEDIA
Ejercicio:
American Theaters sabe que cierta película de éxito se exhibió un promedio de 84 días
en cada ciudad y que la desviación estándar correspondiente fue 10 días. El
administrador del distrito sureste se interesó en comparar la popularidad de la película
en su región con la que tuvo en otros cines de Estados Unidos. Eligió 75 salas al azar en
su región y encontró que exhibieron la película un promedio de 81.5 días.
a) Establezca las hipótesis adecuadas para probar si hubo una diferencia significativa en
la duración de la exhibición entre los teatros del sureste y el resto de Estados Unidos.
b) Pruebe estas hipótesis para un nivel de significancia del 1%.
ANALISIS ESTADÍSTICO:
PASO 1.- DEFINICION DE HIPOTESIS:
Ho: U= 84
La media es igual a 84.
Ha: U ≠ 84
.la media no es igual a 84
PASO 2:
Nivel de significancia
α=0.01
PASO 3.- CALCULO DEL ESTADISTICO DE LA PRUEBA:
Podemos aproximar los datos a una distribución normal para esta prueba:
Tenemos:
03
X=81.5, U=84, σ=10, n=75
𝒁𝒄 =
𝒁𝒄 =
𝑿−𝑼
𝝈
√𝒏
𝟖𝟏. 𝟓 − 𝟖𝟒
𝟏𝟎
√𝟕𝟓
𝒁𝒄 = −𝟐. 𝟏𝟕
En Minitab:
04
Interpretación:
Como el valor de p (0.030) es mayor que el valor de alfa (0.01) no se rechaza
Ho.
Por lo que podemos afirmar a un nivel de significancia de 1% que la media
84,00.
Por lo tanto, la duración de la exhibición no es significativamente diferente de
las otras regiones.
1.2 Para dos muestras independientes
Fry Brothers Heating and Air Conditioning, Inc., emplea a Larry Clark y George
Murnen para ofrecer por teléfono servicios de reparación de chimeneas y
unidades de aire acondicionado en casas. Al propietario, Tom Fry, le gustaría
saber si hay alguna diferencia entre los números medios de llamadas diarias.
Suponga que la desviación estándar de la población de Larry Clark es 1.05
llamadas por día, y de 1.23 la de George Murnen. Una muestra aleatoria de 40
días que se realizó el año pasado reveló que Larry Clark hace un promedio de
4.77 llamadas por día.
una muestra de 50 días, George Murnen realizó un promedio de 5.02 llamadas
por día. Con un nivel de significancia de 0.05, ¿hay alguna diferencia entre los
números medios de llamadas por día de los dos empleados? ¿Cuál es el valor
p?
SOLUCION:
Paso 1: Establecer la hipótesis nula y alternativa:
H0: µ1 = µ2
H1: µ1 ≠ µ2
Paso 2: Nivel de significancia α=0.05
Paso 3: Se toma la estadística de prueba z ∶
Paso 4:
Rechace H0 si Z < -1.96 o Z> 1.96
05
Paso 5: Se toma una decisión y se interpreta el resultado.
Como el valor de p es mayor a 0,05 entonces no se rechaza la hipótesis nula. Es
decir no hay diferencia entre los números medios de llamadas por día de los
dos empleados a un nivel de significancia del 0,05.
2 PRUEBA RELATIVA A PROPORCIONES
2.1 Prueba de proporciones de una muestra.
Ejercicio:
En la década de los noventa, el índice de mortalidad por cáncer de pulmón
era de 80 por cada 100 000 personas. A la vuelta del siglo y el establecimiento
de nuevos tratamientos y ajustes en la publicidad de salud pública, una
muestra aleatoria de 10 000 personas exhibe sólo seis muertes debidas al
cáncer de pulmón. A un nivel de 0.05, pruebe si los datos comprueban una
reducción del índice de mortalidad de ese tipo de cáncer.
SOLUCION:
H0: 𝜋 = 0.0008
H1: 𝜋 < 0.0008
06
Se rechaza H0 si Z < -1.645.
Conclusion:
Como el valor de p(0,240) es mayor a alfa entonces no se rechaza la hipotesis
nula. Es decir la mortalidad sige siendo de 0,0008 a un nivel de significancia de
0,05
Ejercicio:
En la empresa EDITORA Y COMERCIALIZADORA CARTOLAN EIRL, se hacen
trabajos de artes graficas, en el cual el papel o carton pasan por diferestes
procesos para obtener un producto terminado como una caja, una revista,
etc.
Para alcanzar el tiraje deseado la empresa debe estimar cual sera la
proporción de fallidos en todo el proceso, esta proporción es variante en
ciertos casos debido al tipo de impresión y acabados que se les da. La
empresa realiza mayoritariamente un tipo de trabajo, el cual es hacer cajas
para farmaceuticos, para el cual manejan una proporción de fallidos
esperada del 20%. En este trabajo probaremos que la proporción es menor de
la que usan. Este analisis nos permitiría lograr realizar un ahorro en tiempo y
costos de producción.
Tomamos una muestra de las ultimas 30 ordenes de producción que cumplan
con un tiraje de 5000 y que sean un trabajo de cajas para farmaceurico, y
anotamos la cantidad de pliegos errados al final del proceso.
DATOS RECOPILADOS:
Se muestra una tabla con la cantidad de malogrados por orden de
producción revisada.
OP: ORDEN De PRODUCCIÓN
07
OP
47899
47899
48564
48843
48816
48744
48768
48469
48770
48941
48939
49144
49145
49155
49264
MALOGRADOS
650
750
755
750
800
775
840
650
615
800
650
750
700
850
725
OP
MALOGRADOS
49149
625
49151
800
49049
900
49046
850
49090
750
48771
750
49144
750
49145
700
49155
850
49264
725
49195
900
49151
800
49357
750
49333
713
49430
835
MEDIA DE MALOGRADOS PROPORCION MEDIA DE LA MUESTRA
HIPOTETICA
759
0.1518
0.2
PROPORCION
Con los datos que tenemos procederemos a realizar los pasos que se siguen a
través del análisis estadístico.
ANALISIS ESTADÍSTICO:
PASO 1.- PLANTEAMIENTO DE HIPOTESIS:
Ho: P1= 0.2
La proporción de cajas malogradas es del 20%.
Ha: P1<0.2
La proporción de cajas malogradas es menor del 20%
Alfa=0.05
PASO 2.- EL VALOR ESTADISTICO:
Podemos aproximar los datos a una distribución normal para esta prueba:
Tenemos:
N=5000, X=759, p1=0.1518, po=0.2
𝒁𝒄 =
𝒁𝒄 =
𝒑𝟏 − 𝒑𝒐
𝝈𝒑
𝟎. 𝟏𝟓𝟏𝟖 − 𝟎. 𝟐
𝟎. 𝟎𝟎𝟓𝟕
08
𝒁𝒄 = −𝟖. 𝟓𝟐
El valor de p para Zc =-8.52 será: p= 0.000
PASO 3.-
CONCLUSIONES:
Como el valor de p (0.00) es menor que el valor de alfa (0.05) se rechaza Ho.
Por lo que podemos afirmar a un nivel de significancia de 5% que la proporción
de cajas malogradas es menor del 20%.
Por lo tanto, la empresa podría ajustar más la proporción de malogrados
actual
que manejan, y así obtener ahorros en cantidades de material y también en
tiempos,
ya que el exceso de trabajos terminados (cajas de laboratorios farmacéuticos)
genera pérdidas.
2.2 Prueba de proporciones de dos muestras
Ejercicio:
Suponga que el fabricante de Advil, analgésico común para el dolor de
cabeza, hace poco desarrolló una fórmula nueva del medicamento que
afirma ser más eficaz. Para evaluar el nuevo medicamento, se pidió que lo
probara una muestra de 200 usuarios. Después de una prueba de un mes, 180
indicaron que el medicamento nuevo era más eficaz. Al mismo tiempo, a una
muestra de 300 usuarios de Advil se les da el medicamento actual, pero se les
dice que tiene la fórmula nueva. De este grupo, 261 dijo que había mejorado.
Con un nivel de significancia de 0.05, ¿se puede concluir que el medicamento
nuevo es más eficaz?
09
SOLUCION:
Paso 1: Establecer la hipótesis nula y alternativa:
H0: 𝜋1 = 𝜋2
H1: 𝜋1 > 𝜋2
Paso 2:
Nivel de significancia α=0.05
Paso 3:
180 + 261
𝑃𝑐 =
= 0.882
200 + 300
Se toma la estadística de prueba Z ya que se utiliza proporciones ∶
Paso 4: Conclusión
Como el valor de p es mayor entonces no se rechaza la hipótesis nula. No es
posible concluir que es mayor la proporción de hombres que considera que la
división es justa a un nivel de significancia del 0,05.
10
3 HIPOTESIS T
3.1 Para una muestra con desviación poblacional
desconocida
Ejercicio:
El ingreso promedio por persona en Estados Unidos es de $40 000, y la
distribución de ingresos sigue una distribución normal. Una muestra aleatoria de
10 residentes de Wilmington, Delaware, presentó una media de $50 000, con
una desviación estándar de $10 000. A un nivel de significancia de 0.05, ¿existe
suficiente evidencia para concluir que los residentes de Wilmington, Delaware,
ganan más que el promedio nacional?
SOLUCION:
Paso 1: Establecer la hipótesis nula y alternativa:
H0: µ = 40000
H1: µ > 40000
Paso 2: Nivel de significancia α=0.05
Paso 3: Se toma la estadística de prueba t ya que se desconoce σp ∶
Paso 4: t crítico con ayuda de la tabla con grado de libertad 10-1=9 y al 95% es
1.833 tomarlo positivo al ser un distribución normal estándar y sesgada a la
derecha.
La regla de decisión será: “Si el t calculado es >1.833, se rechaza la H0 “.
11
Paso 5: Se toma una decisión y se interpreta el resultado.
Como podemos observar la t calculada es 3.16 que es mayor que 1.833 por lo
tanto se rechaza la H0.
INTERPRETACION: Los residentes de Wilmington, Delaware, pueden aseverar
con las evidencias que tienen que ganan más que el promedio que otro
estadounidense a nivel nacional.
3.2 T-student – (1poblacion)
Ejercicio:
En la empresa “Los conejillos de la Fii”, el analista de las ganancias afirma que
las ganancias mensuales netas de la empresa posee una media de S/500 000.
Sin embargo, un productor de la empresa le da las ganancias netas de los
meses de marzo a setiembre de este año. (S/480 000, S/4900 000, S/510 000,
S/554 000, S/500 000, S/486 000, S/497 000). Se desea saber si lo dicho por el
analista de ganancias es correcto.
1.
1ra Forma (Estadístico)
2.
Ho: µ=S/500000.00
Ha: µ≠S/500000.00
3.
α=0.05 , g.l =6
4.
T-student
En el minitab:
12
Datos:
t=
x= S/502428.60
𝑥− µ
s
= 0.259
√𝑛
s= S/24764.60
µ=S/500000.00
n=7
Rpta : Tk € R.A , Entonces acepto la Ho y rechazo la Ha.
2. 2ra Forma (Con las medias)
X= S/502428.60
-
a= µ tx
-
𝑠
√𝑛
b= µ tx
𝑠
√𝑛
24764.60
= 500000-0.259x
√7
=497575.724
24764.60
= 500000+0.259x
√7
¿ a≤x≤b ? = ¿ 497575.724≤ 502428.60
13
=502430.276
≤502430.276 ?,
Si
Rpta : Tk € R.A , Entonces acepto la Ho y rechazo la Ha.
3. 3ra Forma (P)
tk=0.259
P/2= ¿0.
499<0.05 ? , No
Rpta : Tk € R.A , Entonces acepto la Ho y rechazo la Ha.
Interpretación: Se puede afirmar con seguridad de que la media de las
ganancias mensuales es S/500000, ósea el analista de ganancias tenía la razón.
Ejercicio:
La longitud media de una barra de equilibrio es 43 milimetros.El supervisor de
producción sospecha que la máquina que produce las barras se ha
desajustado, y le pide al departamento de ingeniería que investigue. El
departamento de ingeniería toma una muestra aleatoria de 12 barras y mide
cada una. Los resultados de las mediciones son:
42,39,42,45,43,40,39,41,40,42,45,42. ¿Es razonable concluir que la longitud
media ha cambiado? Nivel de significancia 0.02
1ra Forma (Estadístico):
1)Ho: µ=43
Ha: µ≠43
2) α=0.02 , g.l =11
3)
T-student
En el minitab:
14
Datos:
t=
x= 41.5 mm
𝑥− µ
s
= -2.92
√𝑛
s= 1.78
µ=43
n=12
Rpta : Tk € R.A , Entonces se rechaza la Ho y acepto la Ha.
2. 2da Forma (Medias):
X= 41.5
-
a= µ tx
-
𝑠
√𝑛
b= µ tx
𝑠
√𝑛
1.78
= 43-2.92x
√12
=41.5
1.78
= 43+2.92x
√12
=44.5
15
¿ a≤x≤b ? = ¿ 41.5< 41.5
<44.5 ?,
No
Rpta : Tk € R.A , Entonces rechazo la Ho y acepto la Ha.
3. 3ra Forma (P):
tk=2.92
P/2= ¿0.
01<0.05 ? , Si
Rpta : Tk € R.A , Entonces rechazo la Ho y acepto la Ha.
Interpretación: Se puede afirmar con seguridad de que la longitud media de
las barras de acero ha cambiado.
3.3 Tstudent – (2poblaciones)
Ejercicio:
Lisa Monnin es la directora de presupuestos de Nexos Media, Inc. Ella quiere
comparar los gastos diarios en viáticos del personal de ventas con los gastos
del personal de auditoría, para lo cual recopiló la información siguiente sobre
las muestras.
Con un nivel de significancia de 0.10, ¿puede Monnin concluir que los gastos
diarios medios son diferentes para el personal de venta que para el personal
de auditoría?
Solución:
Método de método del valor crítico.
1) Definir hipótesis
Ho: µ1= µ2
Ha: µ1≠µ2
2) Nivel de significancia
α = 0.10
16
3) Definir el estadístico
T – Student
En el minitab:
4) Definir R.A. y R.C
g.l.= n1+n2-2 =6+7-2=11
t(0.05,11)=1.796
17
5) Calcular
Ventas
131
(131-142.6)2=134.56
135
146
165
136
142
(135-142.6)2=57.76
(146-142.6)2=11.56
(165-142.6)2=501.76
(136-142.6)2=43.56
(142-142.6)2=0.36
Suma: 855
749.56
Auditoria
130
(130-130.29)2=0.0841
102
129
143
149
120
139
(102-130.29)2=800.32
(129-130.29)2=1.66
(143-130.29)2=161.54
(149-130.29)2=350.06
(120-130.29)2=105.88
(139-130.29)2=75.86
Suma: 912
Para ventas:
855
= 142.6
6
𝑥=
σ=√
749.56
= 12.24
5
Para auditoria:
𝑥=
912
= 130.29
7
1495.40
σ=√
= 15.79
6
𝑆𝑝2 =
(6 − 1)12.242 + (7 − 1)15.792
= 204.09
6+7−2
𝑡=
142.6 − 130.29
√204.09 ∗ (1 + 1)
6 7
18
= 1.55
1495.40
tk € a R.A. ⇒ Acepto la Ho y rechazo la Ha .
Método del valo
r de P:
P/2 = 0.07471 ⇒ P= 0.14942
P<α
0.14942> 0.10
. ⇒ Acepto la Ho y rechazo la Ha
Interpretación:
Se puede decir que los gastos medios diarios de ventas y auditoria son
diferentes con un nivel de significancia de 0.10.
Ejercicio:
La muestra de calificaciones obtenidas en un examen de estadística 201 es:
Con un nivel de significancia de 0.01, ¿es mayor la calificación media de las
mujeres que la de los hombres?
Solución:
Método de método del valor crítico.
19
1) Definir hipótesis
Ho: µ1≥ µ2
Ha: µ1<µ2
2) Nivel de significancia
α = 0.01
3) Definir el estadístico
T – Student
En el minitab :
4) Definir R.A. y R.C
g.l.= n1+n2-2 =9+7-2=14
t(0.01,14)= 2.624
20
5) Calcular:
Hombres
Mujeres
72
(72-78)2=36
81
(81-79)2=4
69
(69-78)2=81
67
(67-79)2=144
98
(98-78)2=400
90
(90-79)2=121
66
(66-78)2=144
78
(78-79)2=1
85
(85-78)2=49
81
(81-79)2=4
76
(76-78)2=4
80
(80-79)2=1
79
(79-78)2=1
76
(76-79)2=9
80
(80-78)2=4
77
(77-78)2=1
Suma: 702
720
Suma: 553
Para Hombres:
𝑥=
702
= 78
9
720
σ=√
= 9.49
8
Para Mujeres:
𝑥=
553
= 79
7
284
σ=√
= 6.88
6
𝑆𝑝2 =
(9 − 1)9.492 + (7 − 1)6.882
= 71.75
9+7−2
21
284
𝑡=
78 − 79
√71.75 ∗ (1 + 1)
9 7
= −0.23
tk € a R.A. ⇒ Acepto la Ho y rechazo la Ha
Método del valor de P
P= 0.5893
P<α
0.5893> 0.01
. ⇒ Acepto la Ho y rechazo la Ha
Interpretación:
Podemos decir que la clasificación promedio de las mujeres es menor que las
de los hombres, con un nivel de significancia de 0.01.
3.4 Comparación de medias poblacionales con desviaciones
estándares desconocidas
3.4.1) Desviaciones estándares poblacionales iguales
Ejercicio:
El fabricante de un reproductor MP3 desea saber si una reducción de 10% de
precio es suficiente para aumentar las ventas de su producto. Para saberlo con
certeza, el propietario selecciona al azar ocho tiendas y vende el reproductor
MP3 al precio reducido. En siete tiendas seleccionadas al azar, el aparato se
vendió al precio normal. A continuación se presenta el número de unidades
que se vendieron el mes pasado en las tiendas muestreadas. Con un nivel de
22
significancia de 0.01, ¿puede concluir el fabricante que la reducción de precio
generó un aumento de ventas?
SOLUCION:
Paso 1: Establecer la hipótesis nula y alternativa:
H0: µ1 = µ2
H1: µ1 ≠ µ2
Nivel de significancia: 0.001
EN MINITAB:
Conclusión:
Como el valor de p es menor a 0,05 entonces no se rechaza H0. No hay
diferencia entre el número medio vendido al precio regular y el número medio
vendido al precio reducido a un nivel de significancia del 0,05.
23
3.4.2 Para dos muestras dependientes (pareadas).
Ejercicio:
La gerencia de Discount Furniture, cadena de mueblerías de descuento del
noreste de Estados Unidos, diseñó un plan de incentivos para sus agentes de
ventas. Para evaluar este plan innovador, se seleccionaron a 12 vendedores al
azar, y se registraron sus ingresos anteriores y posteriores al plan.
¿Hubo algún aumento significativo en el ingreso semanal de un vendedor
debido al innovador plan de incentivos? Utilice el nivel de significancia 0.05.
Calcule el valor p e interprételo.
SOLUCION:
Paso 1: Establecer la hipótesis nula y alternativa:
H0: µd = 0
H1: µd > 0
𝑑̅= 25.917 𝑆𝑑 = 40791
Se rechaza la H0 si t > 1.796
24
Conclusión:
Como en valor de p es igual a alfa entonces no se rechaza la H0. El plan de
incentivos no resulto en un aumento del ingreso diario a un nivel de
significancia del 0,05.
4 .- ANOVA DE UNO Y DOS FACTORES
4.1 ANOVA DE UN FACTOR
Ejercicio:
Una empresa produce variedad de productos alimenticios con variados
niveles de proteínas y perfiles nutricionales personalizados, busca mejorar la
calidad. Para hacer un control de calidad se mide la estabilidad en el agua,
ya que si se desintegra fácilmente entonces no se logra ingerir los nutrientes. En
el laboratorio se desarrolló 4 formulas y luego se determinó el tiempo de
estabilidad en el agua
Datos recopilados:
25
Fuente: tesis (diseño de un modelo de gestión estratégico para el
mejoramiento de la productividad y calidad aplicado a una planta
procesadora de alimentos balanceados. Guayaquil- Ecuador. 2012)
ANALISIS ESTADÍSTICO:
Filtros
Para emplear anova de debe garantizar los siguiente supuestos
a. Las poblaciones sigue una distribución normal
b. Las poblaciones tienen desviaciones estándar iguales
c. Las poblaciones son independientes
PASO1: FORMULACIÓN DE HIPOTESIS
Ho: El tiempo de estabilidad en el agua de los diferentes tipos de
fórmulas son iguales
La tiempo de estabilidad en el agua no depende del tipo de formula
Ha: Al menos el tiempo de estabilidad en el agua de un tipo de fórmula
es diferente
El tiempo de estabilidad en el agua no depende del tipo de formula
PASO2: EL VALOR CRITICO
Nivel de significancia =0.05
GL numerador = k-1=4-1=3
GL del denominador =n-k=16-4=12
Fcritico = 3.490
Regla de decisión:
Se rechazara la Ho si F>3.10
26
PASO3: EL VALOR ESTADÍSTICO
CONCLUSIONES:
Como el valor F calculado 4,76594229 es mayor que el valor Fcritico de
3.490 entonces se rechaza la Ho, y se concluye que al menos el tiempo
de estabilidad en el agua de un tipo de fórmula es diferente.
Ejercicio:
La siguiente información es muestral. Pruebe la hipótesis de que las medias de
tratamiento son iguales. Utilice el nivel de significancia 0.05.
Tratamiento 1
9
7
11
9
12
10
a)
b)
c)
d)
e)
Tratamiento 2
13
20
14
13
Tratamiento 3
10
9
15
14
15
Establezca las hipótesis nula y alternativa.
¿Cuál es la regla de decisión?
Calcule SST, SSE y SS total.
Elabore una tabla ANOVA.
Exprese su decisión acerca de la hipótesis nula.
Se seguirá el procedimiento usual de cinco pasos para la prueba de hipótesis.
27
Paso 1: Plantear la hipótesis nula y la hipótesis alternativa
𝐻0 : µ1 = µ2 = µ3
𝐻1 : 𝐿𝑜𝑠 𝑡𝑟𝑎𝑡𝑎𝑚𝑖𝑒𝑛𝑡𝑜𝑠 𝑛𝑜 𝑠𝑜𝑛 𝑡𝑜𝑑𝑜𝑠 𝑖𝑔𝑢𝑎𝑙𝑒𝑠.
Paso2: Establecer nivel de significancia.
α = 0.05
Paso 3: Determinar el estadístico de prueba. Estamos ante una distribución
F, ANOVA.
Paso 4: Establecer la regla de decisión.
Grados de libertad para el numerador = k – 1 = 3 – 1 = 2
Grados de libertad para el numerador = n - k = 15 – 3 = 12
Intersectando en la tabla, encontramos el valor de 3.89. Así que la regla de
decisión es rechazar la 𝐻0 si el valor calculado para F es mayor que 3.89.
Paso 5: Seleccionar muestra, realizar los cálculos y tomar una decisión.
Tratamient
o1
𝑋
𝑋2
9
81
7
49
11
121
9
81
12
144
10
100
𝑇𝑐
𝑛𝑐
𝑋2
Tratamient
o2
𝑋
𝑋2
13
169
20
400
14
196
13
169
58
6
Tratamiento
3
𝑋
𝑋2
10
100
9
81
15
225
14
196
15
225
60
4
63
5
576
934
827
Total
181
15
2337
Las entradas para la tabla ANOVA se calculan como sigue.
SS total = ∑ 𝑋 2 −
𝑇2
SST = ∑ ( 𝑛𝑐 ) −
𝑐
(∑ 𝑋)2
𝑛
(∑ 𝑋)2
𝑛
=
= 2337 −
582
6
+
602
4
+
1812
15
632
5
= 𝟏𝟓𝟐. 𝟗𝟑𝟑
−
1812
15
= 𝟕𝟎. 𝟒
SSE = SS total – SST = 152.933 – 70.4 = 82.533
Al insertar estos valores en una tabla ANOVA y calcular el valor de F se tiene:
28
Tabla ANOVA
Fuente de
variación
Tratamientos
Error
Total
Suma de
cuadrados
SST = 70.4
SSE = 82.533
SStotal =
152.933
Grados de
libertad
k-1 = 3-1=2
n-k=153=12
n-1=14
Cuadrado
medio
SST/(k1)=35.2
SSE/(nk)=6.878
F
MST/MSE=5.12
El valor calculado para F es 5.12, que es mayor que el valor crítico 3.89, por
tanto se rechaza la hipótesis nula. Se concluye que las medias poblacionales
no son iguales. Los tratamientos promedio no son iguales en los tres grupos de
evaluación. Por ahora sólo se puede concluir que hay una diferencia entre las
medias de tratamiento.
ANOVA unidireccional: tratamiento1; tratamiento2; tratamiento3
Método
Hipótesis nula
Hipótesis alterna
Nivel de significancia
Todas las medias son iguales
Por lo menos una media es diferente
α = 0.05
Se presupuso igualdad de varianzas para el análisis.
Información del factor
Factor
Factor
Niveles
3
Valores
tratamiento1; tratamiento2; tratamiento3
Análisis de Varianza
Fuente
Factor
Error
Total
GL
2
12
14
SC Ajust.
70.40
82.53
152.93
MC Ajust.
35.200
6.878
Valor F
5.12
Valor p
0.025
Resumen del modelo
S
2.62255
R-cuad.
46.03%
R-cuad.
(ajustado)
37.04%
R-cuad.
(pred)
12.12%
Medias
Factor
tratamiento1
tratamiento2
tratamiento3
N
6
4
5
Media
9.667
15.00
12.60
Desv.Est.
1.751
3.37
2.88
IC de 95%
(7.334; 11.999)
(12.14; 17.86)
(10.04; 15.16)
Desv.Est. agrupada = 2.62255
29
Gráfica de intervalos de tratamiento1; tratamiento2; ...
95% IC para la media
18
16
Datos
14
12
10
8
6
tratamiento1
tratamiento2
tratamiento3
La desviación estándar agrupada se utilizó para calcular los intervalos.
Ejercicio:
Una compañía de desarrollos inmobiliarios considera la inversión en un centro
comercial en las afueras de Atlanta, Georgia. Se evalúan tres terrenos. El
ingreso de los pobladores de la zona aledaña al centro comercial es de
especial importancia. Se selecciona una muestra aleatoria de cuatro familias
que viven cerca de cada terreno. A continuación se presentan los resultados
muestrales. Al nivel de significancia de 0.05, ¿ puede concluir la compañía que
hay diferencia en los ingresos promedio? Utilice el procedimiento usual de
cinco pasos para prueba de hipótesis.
Southwyck
(miles US$)
64
68
70
60
Parque Franklin
(miles US$)
74
71
69
70
Old Orchard
(miles US$)
75
80
76
78
Se seguirá el procedimiento usual de cinco pasos para la prueba de hipótesis.
Paso 1: Plantear la hipótesis nula y la hipótesis alternativa
𝐻0 : µ1 = µ2 = µ3
𝐻1 : 𝐿𝑜𝑠 𝑖𝑛𝑔𝑟𝑒𝑠𝑜𝑠 𝑝𝑟𝑜𝑚𝑒𝑑𝑖𝑜 𝑛𝑜 𝑠𝑜𝑛 𝑡𝑜𝑑𝑜𝑠 𝑖𝑔𝑢𝑎𝑙𝑒𝑠.
30
Paso 2:
Establecer nivel de significancia.
α = 0.05
Paso 3: Determinar el estadístico de prueba. Estamos ante una distribución
F, ANOVA.
Paso 4: Establecer la regla de decisión.
Grados de libertad para el numerador = k – 1 = 3 – 1 = 2
Grados de libertad para el numerador = n - k = 12 – 3 = 9
Intersectando en la tabla, encontramos el valor de 4.26. Así que la regla de
decisión es rechazar la 𝐻0 si el valor calculado para F es mayor que 4.26.
Paso 5: Seleccionar muestra, realizar los cálculos y tomar una decisión.
Southwyck
(miles US$)
𝑋2
4096
4624
4900
3600
𝑋
64
68
70
60
𝑇𝑐
𝑛𝑐
𝑋2
262
4
Parque
Franklin
(miles US$)
𝑋
𝑋2
74
5476
71
5041
69
4761
70
4900
Old
Orchard
(miles US$)
𝑋
𝑋2
75
5625
80
6400
76
5776
78
6084
Total
284
4
309
4
855
12
61283
1722
0
2017
8
2388
5
Las entradas para la tabla ANOVA se calculan como sigue.
SS total = ∑ 𝑋 2 −
𝑇2
SST = ∑ ( 𝑛𝑐 ) −
𝑐
(∑ 𝑋)2
𝑛
(∑ 𝑋)2
𝑛
=
= 61283 −
2622
4
+
2842
4
8552
12
+
= 𝟑𝟔𝟒. 𝟐𝟓
3092
4
−
8552
12
= 𝟐𝟕𝟔. 𝟓
SSE = SS total – SST = 364.25 – 276.5 = 87.75
Al insertar estos valores en una tabla ANOVA y calcular el valor de F se tiene:
31
Tabla ANOVA
Fuente de
variación
Tratamientos
Error
Total
Suma de
cuadrados
SST = 276.5
SSE = 87.75
SStotal =
364.25
Grados de
libertad
k-1 = 3-1=2
n-k=12-3=9
n-1=121=11
Cuadrado
medio
SST/(k1)=138.25
SSE/(nk)=9.75
F
MST/MSE=14.18
El valor calculado para F es 14.18, que es mayor que el valor crítico 4.26, por
tanto se rechaza la hipótesis nula. Se concluye que las medias poblacionales
no son iguales. Los ingresos promedio no son iguales en los tres grupos de
evaluación. Por ahora sólo se puede concluir que hay una diferencia entre las
medias de tratamiento.
ANOVA unidireccional: tratamiento1; tratamiento2; tratamiento3
Método
Hipótesis nula
Hipótesis alterna
Nivel de significancia
Todas las medias son iguales
Por lo menos una media es diferente
α = 0.05
Se presupuso igualdad de varianzas para el análisis.
Información del factor
Factor
Factor
Niveles
3
Valores
tratamiento1; tratamiento2; tratamiento3
Análisis de Varianza
Fuente
Factor
Error
Total
GL
2
12
14
SC Ajust.
70.40
82.53
152.93
MC Ajust.
35.200
6.878
Valor F
4.26
Valor p
0.025
Resumen del modelo
S
2.62255
R-cuad.
46.03%
R-cuad.
(ajustado)
37.04%
R-cuad.
(pred)
12.12%
Medias
Factor
tratamiento1
tratamiento2
tratamiento3
N
6
4
5
Media
9.667
15.00
12.60
Desv.Est.
1.751
3.37
2.88
IC de 95%
(7.334; 11.999)
(12.14; 17.86)
(10.04; 15.16)
Desv.Est. agrupada = 2.62255
32
ANOVA unidireccional: SouthWyck; Parque Flanklin; Old Orchard
Método
Hipótesis nula
Hipótesis alterna
Nivel de significancia
Todas las medias son iguales
Por lo menos una media es diferente
α = 0.05
Se presupuso igualdad de varianzas para el análisis.
Información del factor
Factor
Factor
Niveles
3
Valores
SouthWyck; Parque Flanklin; Old Orchard
Análisis de Varianza
Fuente
Factor
Error
Total
GL
2
9
11
SC Ajust.
276.50
87.75
364.25
MC Ajust.
138.250
9.750
Valor F
14.18
Valor p
0.002
Resumen del modelo
S
3.12250
R-cuad.
75.91%
R-cuad.
(ajustado)
70.56%
R-cuad.
(pred)
57.17%
Medias
Factor
SouthWyck
Parque Flanklin
Old Orchard
N
4
4
4
Media
65.50
71.00
77.25
Desv.Est.
4.43
2.16
2.22
IC de 95%
(61.97; 69.03)
(67.47; 74.53)
(73.72; 80.78)
Desv.Est. agrupada = 3.12250
33
Gráfica de intervalos de SouthWyck; Parque Flank; ...
95% IC para la media
80
Datos
75
70
65
60
SouthWyck
Parque Flanklin
Old Orchard
La desviación estándar agrupada se utilizó para calcular los intervalos.
4.2 Anova de dos factores
Ejercicio:
En los últimos años el consumo de maíz se ha incrementado incluso más que su
producción. Por tanto se busca encontrar el mejor tipo de abono y como varía
según el tipo de suelo que ayude a mejorar el rendimiento neto de maíz,
cubriendo así su demanda y favoreciendo el desarrollo de los países que lo
producen.
Datos obtenidos
34
Fuente: tesis (diseño estadístico experimental para el estudio de la respuesta
del maíz a la aplicación edáfica complementaria de tres tipos de abono
sintético a dos dosis en la comunidad de peñas, canton tiwintza, provincia de
morona Santiago. Riobamba- Ecuador. 2012)
ANALISIS ESTADÍSTICO
PASO1: Formulación de las hipótesis
1) Respecto al primer tratamiento:
Ha: el tipo de abono influye en el rendimiento neto del maíz
Ho: el tipo de abono no influye en el rendimiento del maíz
2) Respecto al segundo tratamiento:
Ha: El tipo de parcela influye en el rendimiento neto del maíz
Ho: El tipo de parcela no influyen en el rendimiento neto del maíz
PASO2: CRITERIO DE CONTRASTTE
A
9
b
4
n
36
glT1
glT2
glTotal
gl SCE
a-1
b-1
n-1
8
3
35
24
glT1
gl SCE
F
8
24
=
2.36
glT2
gl SCE
F
3
24
=
3.01
35
PASO3: CALCULO DEL VALOR ESTADÍSTICO
PASO4: CONCLUSIONES:
1) Respecto al primer tratamiento
Como el valor F calculado 7,18319716 es mayor que el Fcritico 2,36
entonces se rechaza la Ho. Por lo que hay evidencia suficiente, con un
nivel de significancia de 0.05, para afirmar que con respecto al tipo de
abono existe diferencia en los rendimientos netos del maíz
2) Respecto al primer tratamiento
Como el valor F calculado 3,9411112 es mayor que el Fcritico 3,01
entonces se rechaza la Ho. Por lo que hay evidencia suficiente, con un
nivel de significancia de 0.05, para afirmar que con respecto a la
parcela existe diferencia en los rendimientos netos del maíz.
Ejercicio:
Cada una de las tres cadenas de supermercados en la región de
Denver indica que ofrece los precios más bajos. Como parte de un
estudio de investigación sobre publicidad de supermercados, el diario
Denver Daily News realizó un estudio. Primero selecciono una muestra
aleatoria de nueve artículos comestibles. Después se revisó el precio de
cada uno de estos productos en cada una de las tres cadenas, el
mismo día. Al nivel de significancia 0.05, ¿hay alguna diferencia en los
precios medios de los supermercados y de los artículos?
Articulo
1
2
3
4
5
6
7
8
9
Ralph’s
$ 1.02
1.10
1.97
2.09
2.10
4.32
4.95
4.13
5.46
Super$
$ 1.12
1.14
1.72
2.22
2.40
4.04
5.05
4.68
5.52
36
Lowblaws
$ 1.07
1.21
2.08
2.32
2.30
4.15
5.05
4.67
5.86
Solución:
Se seguirá el procedimiento usual de cinco pasos para la prueba de hipótesis.
Paso 1: Plantear la hipótesis nula y la hipótesis alternativa
Los dos conjuntos de hipótesis son:
1.
𝐻0 : µ1 = µ2 = µ3
𝐻1 : 𝑁𝑜 𝑡𝑜𝑑𝑎𝑠 𝑙𝑎𝑠 𝑚𝑒𝑑𝑖𝑎𝑠 𝑑𝑒 𝑡𝑟𝑎𝑡𝑎𝑚𝑖𝑒𝑛𝑡𝑜 𝑠𝑜𝑛 𝑖𝑔𝑢𝑎𝑙𝑒𝑠
2.
𝐻0 : µ1 = µ2 = µ3
𝐻1 : 𝑁𝑜 𝑡𝑜𝑑𝑎𝑠 𝑙𝑎𝑠 𝑚𝑒𝑑𝑖𝑎𝑠 𝑑𝑒 𝑏𝑙𝑜𝑞𝑢𝑒 𝑠𝑜𝑛 𝑖𝑔𝑢𝑎𝑙𝑒𝑠
Paso 2: Establecer nivel de significancia. α = 0.05
Paso 3: Determinar el estadístico de prueba. Estamos ante un ANOVA de
dos direcciones.
Paso 4: Establecer la regla de decisión.
a) Primero se probara la hipótesis relativa a las medidas de tratamiento:
Grados de libertad para el numerador = k – 1 = 3 – 1 = 2
Grados de libertad para el numerador = (b-1)*(k-1) = (3-1)*(9-1)= 16
Intersectando en la tabla, encontramos el valor de 3.63. Así que la regla de
decisión es rechazar la 𝐻0 si el valor calculado para F es mayor que 3.63
(Fcrit>3.63).
b) Luego se realizará la prueba de hipótesis a las medidas de bloques:
Grados de libertad para el numerador = b – 1 = 9 – 1 = 8
Grados de libertad para el numerador = (b-1)*(k-1) = (3-1)*(9-1)= 16
Intersectando en la tabla, encontramos el valor de 2.59. Así que la regla de
decisión es rechazar la 𝐻0 si el valor calculado para F es mayor que 2.59
(Fcrit>2.59)
.
37
Paso 5: Seleccionar muestra, realizar los cálculos y tomar una decisión.
Articulo
1
2
3
4
5
6
7
8
9
Total
columna
Suma de
cuadrad
os
Super
$
X
$ 1.12
1.14
1.72
2.22
2.40
4.04
5.05
4.68
5.52
27.89
Ralph’
s
X
𝑋2
1.2544
1.2996
2.9584
4.9284
5.76
16.3216
25.5025
21.9024
30.4704
110.397
7
$ 1.02
1.10
1.97
2.09
2.10
4.32
4.95
4.13
5.46
27.14
𝑋2
1.0404
1.21
3.8809
4.3681
4.41
18.6624
24.5025
17.0569
29.8116
Lowbla
ws
X
$ 1.07
1.21
2.08
2.32
2.30
4.15
5.05
4.67
5.86
28.71
104.942
8
𝑋2
1.1449
1.4641
4.3264
5.3824
5.29
17.2225
25.5025
21.8089
34.3396
Suma
reglone
s Bt
3.21
3.45
5.77
6.63
6.8
12.51
15.05
13.48
16.84
83.74
116.481 331.821
3
8
(∑ 𝑋)2
𝑆𝑆𝑇𝑜𝑡𝑎𝑙 = ∑ 𝑋 −
𝑛
2
𝑆𝑆𝑇𝑜𝑡𝑎𝑙 = 331.8218 −
83.742
= 72.1037
27
∑ 𝑋2
𝑇𝑐 2
𝑆𝑆𝑇 = ∑( ) −
𝑛𝑐
𝑛
27.892 27.142 28.712 83.742
𝑆𝑆𝑇 =
+
+
−
= 0.1370
9
9
9
27
𝑆𝑆𝐵 = ∑(
∑ 𝑋2
𝐵𝑡 2
)−
𝑘
𝑛
3.212 3.452 5.772 6.632 6.82 12.512 15.052 13.482
𝑆𝑆𝐵 =
+
+
+
+
+
+
+
3
3
3
3
3
3
3
3
16.842 83.742
+
−
= 71.6136
3
27
38
𝑆𝑆𝐸 = 𝑆𝑆𝑇𝑜𝑡𝑎𝑙 − 𝑆𝑆𝑇 − 𝑆𝑆𝐵
𝑆𝑆𝐸 = 72.1037 − 0.1370 − 71.6136 = 0.3531
𝑀𝑆𝑇 = 𝑆𝑆𝑇/(𝑘 − 1)
𝑀𝑆𝑇 =
0.1370
= 0.0685
2
𝑀𝑆𝐵 = 𝑆𝑆𝐵/(𝑏 − 1)
71.6136
= 8.9517
8
𝑀𝑆𝐵 =
𝑀𝑆𝐸 = 𝑆𝑆𝐸/(𝑘 − 1)(𝑏 − 1)
𝑀𝑆𝐸 =
Fuente
de Suma
variación
Cuadrados
Tratamientos
0.1370
Bloques
71.6136
Error
0.3531
Total
72.1037
0.3531
= 0.0221
16
de Grados
Libertad
2
8
16
𝐹𝑐𝑟𝑖𝑡 =
de Cuadrado medio
0.0685
8.9517
0.0221
𝑀𝑆𝑇 0.0685
=
= 3.0995
𝑀𝑆𝐸 0.0221
No se rechaza la hipótesis nula de medias de tratamiento ya que del F
hallado en menor que 3.63. Se concluye que los precios no difieren en
todas las tiendas
𝐹𝑐𝑟𝑖𝑡 =
𝑀𝑆𝐵 8.9517
=
= 405,0543
𝑀𝑆𝐸 0.0221
Se rechaza la hipótesis nula de medias de bloques ya que el F hallado es
mayor que 2.59. Se concluye que hay diferencia entre los artículos
observados.
ANOVA bidireccional: Super$; Ralph s; Lowblaws
39
Método
Hipótesis nula
Hipótesis alterna
Nivel de significancia
Todas las medias son iguales
Por lo menos una media es diferente
α = 0.05
Se presupuso igualdad de varianzas para el análisis.
Información del factor
Factor
Factor
Niveles
3
Valores
Super$; Ralph s; Lowblaws
Análisis de Varianza
Fuente
Factor
Error
Total
GL
2
8
16
SC Ajust.
0.1370
71.9667
72.1037
MC Ajust.
0.06851
2.99861
Valor F Valor p
3.0995
0.002
405.0543
Resumen del modelo
S
1.73165
R-cuad.
0.19%
R-cuad.
(ajustado)
0.00%
R-cuad.
(pred)
0.00%
Medias
Factor
Super$
Ralph s
Lowblaws
N
9
9
9
Media
3.099
3.016
3.190
Desv.Est.
1.731
1.699
1.764
IC de 95%
(1.908; 4.290)
(1.824; 4.207)
(1.999; 4.381)
5 MODELO DE REGRESIÓN LINEAL SIMPLE
Ejercicio:
Una empresa comercial tiene establecimientos en varias zonas
metropolitanas. La gerente general de ventas planea lanzar al aire un
anuncio por televisión en algunas estaciones locales, al menos dos veces
antes de realizar una venta gigante que ha de empezar el sábado y
terminar el domingo. Planea traer las cifras de las ventas de videocámara
del sábado y domingo en las diversas tiendas y agruparlas en pares con el
número de veces que apareció el comercial en la televisión. El objetivo
fundamental de la determinación es determinar si existe alguna relación
entre el número de veces que se transmitió el anuncio y las ventas de
cámara de video. Los pares de datos son:
40
Localización de la
televisora
Buffalo
Albany
Erler
Syracuse
Rochester
Numero de anuncios
transmitidos
4
2
5
6
3
Ventas en sábado y domingo
(miles de dólares)
15
8
21
24
17
a) Hallar el coeficiente de correlación
b) Hallar el coeficiente de determinación y no determinación
c) Hallar la ecuación de regresión
d) Hallar el error estándar de estimación
e) Hallar el intervalo de predicción y de confianza para x= 5 y el
intervalo de confianza al 95%
f) Diagrama de dispersion
1
2
3
4
5
total
x
4
2
5
6
3
20
𝑥2
y
15
8
21
24
17
85
16
4
25
36
9
90
𝑦2
225
64
441
576
289
1595
Xy
60
16
105
144
51
376
a)
𝛾=
𝛾=
𝑛 ∑ 𝑥𝑦 − ∑ 𝑥 ∑ 𝑦
√[𝑛 ∑ 𝑥 2
− (∑ 𝑥)2 ][𝑛 ∑ 𝑦 2 − (∑ 𝑦)2 ]
5(376) − (20)(85)
√[5(90) − (400)][5(1595) − (7225)
𝛾 = 0.9295
Existe una correlacion positiva entre el numero de anuncios y las
ganancias de 0.9295
b)
𝛾 2 = 0.8639 …. Coef. De determinacion
La variacion total en y que puede ser expulsado para la variacion de x
es 0.8639
1 − 𝛾 2 = 0.1361 … Coef. De no determinacion
41
c)
Por la técnica de los mínimos cuadrados:
𝑏=
𝑏=
𝑛 ∑ 𝑥𝑦−∑ 𝑥 ∑ 𝑦
𝑛 ∑ 𝑥 2 −(∑ 𝑥)
5(376)−(20)(85)
5(90)−400
𝑎=
𝑎=
2
=3.6
∑𝑦 −𝑏∑𝑥
𝑛
85 − 3.6(20)
= 2.6
5
Entonces la ecuación de regresión será :
𝑦 = 2.6𝑥 + 3.6
Por cada anuncio que se haga, la venta se incrementara en 3.6
d)
𝑆𝑦𝑥 = √
∑ 𝑦 2 −𝑎 ∑ 𝑦−𝑏 ∑ 𝑥
𝑛−2
1595 − 2.6(85) − 3.6(20)
𝑆𝑦𝑥 = √
= 20.83
3
e) Intervalo de confianza para x=5
1
𝐼. 𝐶 = [𝑦 ± 𝑡(𝛼,𝑛−2) 𝑆𝑦𝑥√ +
𝑛
(𝑋 − 𝑥)2
(∑ 𝑥)2
∑ 𝑥2 −
𝑛
Y=2.6(5)+3.6=16.6
1 (5 − 4)2
𝐼. 𝐶 = [16.6 ± 3.182(20.83)√ +
5 90 − 400
5
𝐼. 𝐶 = [16.6 ± 34.43] = [−17.83,51.03]
Intervalo de prediccion para x=5
1
𝐼. 𝐶 = [𝑦 ± 𝑡(𝛼,𝑛−2) 𝑆𝑦𝑥√ +
𝑛
42
(𝑋 − 𝑥)2
+1
(∑ 𝑥)2
∑ 𝑥2 −
𝑛
1 (5 − 4)2
𝐼. 𝐶 = [16.6 ± 3.182(20.83)√ +
+1
5 90 − 400
5
𝐼. 𝐶 = [−59.57,91.57]
f)
6 MODELO DE REGRESIÓN LINEAL MULTIPLE
Ejercicio:
Una familia desea estimar los gastos en alimentación (Y) en base a la
información que proporcionan las variables regresoras x1=” ingresos
mensuales” y x2=” número de miembros de la familia”. Para ellos se
recoge una muestra aleatoria simple de 20 familias cuyos resultados son
los de la tabla adjunta. (El gasto e ingreso esta dado en cientos de miles
de pesetas).
43
44
El modelo esta expresado como:
GASTO = -17.067 + 1.40333 INGRESO + 8.93792 TAMAÑO
Observamos que los valores calculados de los coeficientes de la regresión son
de
𝑏0 = −17.067
𝑏1 = 1.403333 𝑏2 = 8.93792
Podemos interpretar que al aumento o decremento de una unidad de ingreso
abra un incremento o decremento de 1.40333 en el gasto lo mismo para el
tamaño.
COEFICIENTE DE DETERMINACION MULTIPLE
Este coeficiente representa la porción de la variación en Y que se puede
explicar mediante el conjunto de variables elegidas.
En el ejemplo seria:
𝑟2 =
𝑆𝑆𝑅
𝑆𝑆𝑇
De MINITAB obtenemos que: R-cuad. = 83.5%
Esto nos quiere decir que el 83.5% de la muestra, puede ser explicada por las
variables ingreso y tamaño.
Pero los investigadores sugieren que se calcule el coeficiente r^2 ajustado que
refleje tanto el número de variables explicatorias del modelo como el tamaño
de la muestra.
De MINITAB obtenemos el R-cuad(ajustado) = 81.6%
ANALISIS RESIDUAL EN REGRESION MULTIPLE
1. RESIDUOS ESTANDARIZADOS CONTRA “Y”
En esta grafica examinamos el patrón de residuos estandarizados
parecen variar para los distintos valores del valor que vamos a predecir.
45
Como en el grafico podemos observar que no hay patrones entonces
podemos concluir que para el modelo de recesión múltiple es
apropiado para predecir el gasto de la familia.
2. RESIDUOS ESTANDARIZADOS CONTRA X1
46
3. RESIDUOS ESTANDARIZADOS CONTRA X2
PRUEBA DE IMPORTANCIA DE LA RELACION ENTRE LA VARIABLE
DEPENDIENTE Y LAS VARIABLES EXPLICATIVAS
PRUEBA DE PORCIONES DEL MODELO DE REGRESION MULTIPLE
El objetivo consiste en emplear solamente aquellas variables que son de
utilidad en la predicción del valor de una variable dependiente.
Emplearemos el estadístico de prueba F parcial. Explica la determinación de la
contribución a la suma de cuadrados de regresión hecha por cada variable
independiente después de que todas ellas han sido incluidas en el modelo.
Antes de ver si las variables influyen o no, recordaremos toda la información
brindada por el Minitab.
Análisis de regresión: GASTO vs. INGRESO; TAMAÑO
Análisis de Varianza
Fuente
Regresión
INGRESO
TAMAÑO
GL
2
1
1
SC Ajust.
13540
13537
1451
47
MC Ajust.
6769.8
13536.8
1450.9
Valor F
43.14
86.27
9.25
Valor p
0.000
0.000
0.007
Error
Total
17
19
2668
16207
156.9
CONTRIBUCION DE LA VARIABLE X1 SABIENDO QUE X2 ESTA INCLUIDA
SSR(X1/X2) = SSR (X1YX2)-SSR(X2)
Análisis de regresión: GASTO vs. INGRESO
Análisis de Varianza
Fuente
Regresión
INGRESO
Error
Total
GL
1
1
18
19
SC Ajust.
12089
12089
4118
16207
MC Ajust.
12088.8
12088.8
228.8
Valor F
52.84
52.84
Valor p
0.000
0.000
Resumen del modelo
S
15.1262
R-cuad.
74.59%
R-cuad.
(ajustado)
73.18%
R-cuad.
(pred)
69.00%
Coeficientes
Término
Constante
INGRESO
Coef
20.43
1.247
EE del
coef.
6.32
0.172
Valor T
3.23
7.27
Valor p
0.005
0.000
VIF
1.00
Ecuación de regresión
GASTO = 20.43 + 1.247 INGRESO
Ajustes y diagnósticos para observaciones poco comunes
Obs
9
15
GASTO
129.00
78.00
Ajuste
131.38
37.88
Resid
-2.38
40.12
Resid
est.
-0.22
2.78
X
R
Residuo grande R
X poco común X
A la variable ingreso le asignamos X2.
SSR(X2)= 12089 y por consiguiente de la ecuación tenemos:
SSR(X1/X2) =SSR (X1YX2)-SSR(X2)
SSR(X1/X2) = 13540-12089 SSR(X1/X2) = 1451
48
FUENTE
G.L
SUMA
DE CUADRADO
F
CUADRADOS MEDIO(VARIANZA)
REGRESION
2
13540
6769.8
X1
1
12089
12089
X1/X2
1
1451
1451
ERROR
17
2668
156.94
TOTAL
19
16208
9.2455
La hipótesis nula y la alternativa para probar la contribución de X1 al modelo
serian.
Ho: la variable x1 no mejora significativamente el modelo ya que se ha incluido
la variable x2.
H1: la variable x1 mejora signicativamente el modelo ya que se ha incluido la
variable x2.
𝑥1
𝑆𝑆𝑅( )
𝑥2
𝐹=
𝑀𝑆𝐸
𝐹=
1451
= 9.4255
156.94
Puesto que se tienen respectivamente uno y 17 grados de libertad, si se
seleccionan con un nivel de significancia de 0.05 podemos observar que el
valor critico de 4.35
Como el valor de F calculado es mayor que este valor de F crítico (9.4255
mayor que 4.35), muestra decisión sería rechazar H0.
Concluimos que la variable x1 (tamaño) mejora signicativamente el modelo
de regresión que ya tiene incluida la variable x2(ingreso).
CONTRIBUCION DE LA VARIABLE X2 SABIENDO QUE X1 ESTA INCLUIDA
Ahora analizaremos la contribución de x2 y x1
SSR(x2/x1)=SSR(x1yx2)-SSR(x1
49
Análisis de regresión: GASTO vs. TAMAÑO
Análisis de Varianza
Fuente
Regresión
TAMAÑO
Error
Falta de ajuste
Error puro
Total
GL
1
1
18
3
15
19
SC Ajust.
2,8
2,8
16204,4
1526,4
14678,0
16207,2
MC Ajust.
2,811
2,811
900,244
508,796
978,533
Valor F
0,00
0,00
Valor p
0,956
0,956
0,52
0,675
Resumen del modelo
S
30,0041
R-cuad.
(ajustado)
0,00%
R-cuad.
0,02%
R-cuad.
(pred)
0,00%
Coeficientes
Término
Constante
TAMAÑO
Coef
60,5
-0,37
EE del
coef.
25,1
6,62
Valor T
2,41
-0,06
Valor p
0,027
0,956
FIV
1,00
Ecuación de regresión
GASTO = 60,5 - 0,37 TAMAÑO
Ajustes y diagnósticos para observaciones poco comunes
Obs
5
7
9
GASTO
125,0
52,0
129,0
Ajuste
59,1
58,3
59,4
Resid
65,9
-6,3
69,6
Resid
est.
2,26
-0,26
2,40
R
X
R
Residuo grande R
X poco común X
SSR(X2/X1)=
13540-2.8=13537.2
FUENTE
G.L
SUMA
DE CUADRADO
F
CUADRADOS MEDIO(VARIANZA)
REGRESION
2
13540
6769.8
X1
1
2.8
2.8
X1/X2
1
13537.2
13537.2
ERROR
17
2668
156.94
TOTAL
19
16208
50
86.257
La hipótesis nula y la alternativa para probar la contribución de X1 al modelo
serian.
Ho: la variable x2 no mejora significativamente el modelo ya que se ha incluido
la variable x1.
H1: la variable x2 mejora signicativamente el modelo ya que se ha incluido la
variable x1.
𝐹=
𝑥2
𝑆𝑆𝑅(𝑥1)
𝑀𝑆𝐸
1353.2
𝐹 = 156.94 = 86.257
Puesto que se tienen respectivamente uno y 17 grados de libertad, si se
seleccionan con un nivel de significancia de 0.05 podemos observar que el
valor critico de 4.35
Como el valor de F calculado es mayor que este valor de F crítico (86.257
mayor que 4.35), muestra decisión sería rechazar H0.
Concluimos que la variable x2 (ingreso) mejora signicativamente el modelo de
regresión que ya tiene incluida la variable x1(tamaño).
Ejercicio:
Con los siguientes datos:
51
Se obtiene la siguiente información:
a) Hallar el error estándar múltiple
b) Hallar el coeficiente de correlación múltiple, el
coeficiente de determinación múltiple y el coeficiente
de no determinación.
c) Hallar el intervalo de confianza
d) Realizar la prueba global a un nivel de significancia de 0.05
e) Realizar la prueba individual a un nivel de significancia de 0.05
Resolución:
25.74
S=√
2.071 %
=
A)
INTERPRETACIÓN: El 2.071% de la dispersión estará alrededor del plano.
52
B) COEFCIENTE DE DETERMINACIÓN:
𝑅2 =
SSR
1577.15
=
= 0.98
SSTOTAL 1602.89
INTERPRETACIÓN: El 98% de la variación de la venta puede ser explicado
por la variación en las variables tienda, ingreso y automóviles.
COEFCIENTE DE CORRELACIÓN
𝑅 =√0.98 = 0.99
COEFCIENTE DE NO DETERMINACIÓN:
1 − 𝑅2 = 0.02
INTERPRETACIÓN: El 2% de la variación de la venta no puede ser
explicado por la variación en las variables tienda, ingreso y automóviles.
C)
Para cada variable
𝑏1 ±
𝑏2 ±
𝑏3 ±
𝑏𝑘 ± 𝑡𝑛−𝑝−1x 𝑆𝑏𝑘
(005;6x
𝑆𝑏1; < -0.008;0006>
(005;6x
(005;6x
𝑆𝑏2; <0.154;3.041>
𝑆𝑏3; <0.278;0.542>
53
D)
PRUEBA GLOBAL:

Ho=𝛽1=𝛽2=𝛽3= 0
Ha = No todos los betas son iguales a 0

𝛼 = 0.05

𝐹 G.Ln = 3; G.Ld = 6

R.A = <-∞; 4.737]
R.C= <4.737; ∞+>
𝐹𝑘 = 122.54 (𝑇𝐴𝐵𝐿𝐴 𝐷𝐸 𝐴𝑁𝑂𝑉𝐴)
Entonces 𝐹𝑘 ∈ 𝑅. 𝐶, por lo tanto acepto Ha y rechazo
Ho.
F) PRUEBA INDIVIDUAL:
 Ho =𝛽1 = 0; 𝛽2= 0; 𝛽3= 0 Ha =𝛽1 ≠ 0; 𝛽2 ≠ 0; 𝛽3 ≠ 0
 𝛼 = 0.05
 t ; G.L =6
54








R.A = [-2.447; 2.447]
R.C = <-∞; −2.447 > U <2.447; ∞+>
 𝑡𝑖 =
𝑏𝑖 − 𝛽𝑖
𝑆𝑏𝑖
Entonces las variables de AUTOMOVILES E
INGRESOS deben ser tomadas en cuenta para
poder hallar la ecuación que se ajuste a los datos.
Reemplazando en la fórmula:
𝑡1 =
𝑡2 =
𝑡3 =
𝑏1 −𝛽1
𝑆𝑏1
𝑏2 −𝛽2
𝑆𝑏2
𝑏3 −𝛽3
𝑆𝑏3
=
−0.001
0.003
=
1.598
0.59
= 2.71
𝑡2 ∈ 𝑅. ; 𝑡2 ≠ 0
=
0.41
0.054
= 7.59
𝑡3 ∈ 𝑅. ; 𝑡3 ≠ 0
= −0.33
𝑡1 ∈ 𝑅. ; 𝑡1 = 0
55
7 MODELO DE REGRESION CURVILINEO
Ejercicio:
A partir de los siguientes datos referentes a horas trabajadas en un taller
(X), y a unidades producidas (Y), determinar la recta de regresión de Y
sobre X, el coeficiente de correlación lineal e interpretarlo.
Solución
En primer lugar digitamos los datos en minitab como se muestra:
56
Mostrándonos el siguiente reporte:
Análisis de regresión: PRODUCCION vs. HORAS; HORAS*HORAS
Análisis de Varianza
Fuente
p
Regresión
0,000
HORAS
0,291
HORAS*HORAS
0,160
Error
Falta de ajuste
0,284
Error puro
Total
GL
SC Ajust.
MC Ajust.
Valor F
2
9258,03
4629,02
58,63
1
99,35
99,35
1,26
1
185,50
185,50
2,35
9
6
710,63
576,13
78,96
96,02
2,14
3
11
134,50
9968,67
44,83
Resumen del modelo
S
8,88590
R-cuad.
92,87%
R-cuad.
(ajustado)
91,29%
R-cuad.
(pred)
87,18%
Coeficientes
Término
Constante
HORAS
HORAS*HORAS
Coef
490
-9,50
0,0901
EE del
coef.
300
8,47
0,0588
Valor T
1,63
-1,12
1,53
Valor p
0,137
0,291
0,160
FIV
683,80
683,80
Ecuación de regresión
PRODUCCION = 490 - 9,50 HORAS + 0,0901 HORAS*HORAS
57
Valor
Ejercicio:
La firma terry es un centro especializado es pruebas mediacas ubicado es
denver ,colorado .Una de sus fuentes principales de ingreso es un equipo
utilizado para medir cantidades elevadas de plomo en la sangre .Las personas
que trabajan en talleres automecanicos , las que trabajan en en la industria
delown , y los pintores de casas comerciles estan expuestos a cantidades
elevadas de plomo , por lo que deben ser sometidos en forma aleatoria a esta
prueba .Estas pruebas tienen un costo elevado, por lo que los equipos se
entregan a diversos sitios , en toda la regin de denver , conforme los
requeridos .
Se tiene los datos del costo , preparacion y entrega de 20 entregas realizadas
realizar con un nivel de significancia de 0.05 :
1. Prueba de significancia del modelo curvilíneo
2. Prueba de hipótesis para probar el efecto curvilíneo
3. Prueba de hipótesis para probar el efecto lineal
Resolución:
58
Prueba de significancia del modelo curvilíneo
1.
𝐻0: 1 = 2 = 0
𝐻1: 1 ≠ 𝛽2 ≠ 0
2. nivel de significancia es 0.05.
3. estadístico a utilizar es F.
4.
Se tiene:
𝛼 = 0.05
𝑘=2
𝑛 = 20
59
El valor de (0.05,2,20−2−1) = 3.592
5.Cálculo de 𝐹𝑘 y toma de decisión.
Fv
Gl
Ss
Ms
F
Regresión
2
236.410
118.205
12.46
Error
17
161.313
9.489
total
19
Fk =
118.205
9.489
= 12.46
∈ a la región crítica entonces se rechaza la hipótesis nula y se
acepta la hipótesis alternativa. Se concluye que no existe
relación entre las variables.
Prueba de hipótesis para probar el efecto lineal
𝐻0: 𝛽1 = 0 (𝑙𝑎 𝑖𝑛𝑐𝑙𝑢𝑠𝑖𝑜𝑛 𝑑𝑒𝑙 𝑒𝑓𝑒𝑐𝑡𝑜 𝑙𝑖𝑛𝑒𝑎𝑙
𝑛𝑜 𝑚𝑒𝑗𝑜𝑟𝑎 𝑑𝑒 𝑓𝑜𝑟𝑚𝑎 𝑠𝑖𝑔𝑛𝑖𝑓𝑖𝑐𝑎𝑡𝑖𝑣o𝑒𝑙 𝑚𝑜𝑑𝑒𝑙𝑜)
𝐻 1: 𝛽1 ≠ 0 (𝑙𝑎 𝑖𝑛𝑐𝑙𝑢𝑠𝑖𝑜𝑛 𝑑𝑒𝑙 𝑒𝑓𝑒𝑐𝑡𝑜 𝑙𝑖𝑛𝑒𝑎𝑙 𝑚𝑒𝑗𝑜𝑟𝑎
𝑑𝑒 𝑓𝑜𝑟𝑚𝑎 𝑠𝑖𝑔𝑛𝑖𝑓𝑖𝑐𝑎𝑡𝑖𝑣𝑎 𝑒𝑙 𝑚𝑜𝑑𝑒𝑙𝑜)
2. nivel de significancia es 0.05.
60
3. estadístico a utilizar es t.
4. Cálculo del valor crítico.
Se tiene:
𝛼 = 0.05
𝑘=2
𝑛 = 20
El valor de (0.05,20−2−1) = 2.110
5. Calculo de 𝒕𝒌 y toma de decisión.
𝒕𝒌 =
𝒃𝟏 − β𝟏 −0.295 − 0
=
= −1.01
Sb𝟏
0 .293
𝑡𝑘 ∈ a la región de aceptación entonces se acepta la hipótesis nula y
se rechaza la hipótesis alternativa, es decir que la inclusión del
efecto lineal mejora de forma significativa el modelo curvilíneo.
61
8 PRUEBA CHI CUADRADO
Ejercicio:
En una empresa 200 hombres de diversos niveles gerenciales, seleccionados al
azar, fueron entrevistados con respecto a su interés o preocupación acerca de
asuntos ambientales. La respuesta de cada persona se registró en una de tres
categorías: interés nulo, algo de interés y gran preocupación. Los resultados
fueron:
Utilice el nivel de significancia 0.01 para determinar si existe relación entre el nivel
directivo o gerencial y el interés en asuntos ambientales.
Sin interes
Nivel 1
Nivel 2
Nivel 3
Nivel 4
total
15
20
7
28
70
Algo
interes
13
19
7
21
60
de Bastante
preocupacion
12
21
6
31
70
total
40
60
20
80
200
Planteamos nuestra hipótesis nula y alternativa
Ho: las muestras no son dependientes.
H1: las muestras son dependientes.
Utilizando el software tendremos el cuadro de las frecuencias esperadas y
observadas, porque hacerlo manualmente nos demoraría un poco de tiempo,
pero como nosotros sabemos manejar el software entonces podemos hacer uso
de tal.
62
Como el valor de p está en la zona de aceptación, aceptamos la hipótesis nula y
decimos que las muestras no son dependientes.
8.1 Bondad de ajuste
Ejercicio:
Para comprobar si los operarios encontraban dificultades con una prensa manual de
imprimir, se hizo una prueba a cuatro operarios anotando el número de atascos
sufridos al introducir el mismo número de hojas, dando lugar a la siguiente tabla:
63
64
En Minitab:
65
8.2 .1 Bondad de ajuste a una poisson con parámetro
66
67
En minitab:
68
8.3 Prueba de Homogeneidad
Contraste de homogeneidad
Otro caso en que usamos una tabla de contingencia es aquél en que se dispone de una población X
clasificada en r subpoblaciones x1, x2,...,xr. En cada una de estas poblaciones se toma una muestra, y
los individuos de la misma se clasifican según una variable Y que puede tomar m valores posibles y1,
y2.....ym. Sea pij la proporción de individuos que, en la población xi tiene como valor de Y=yj.
Un contraste de homogeneidad es cuando se desean contrastar las dos hipótesis siguientes:

H0:p1j = p2j = ...... = pmj para todo j; dicho de otro modo, todas las subpoblaciones tienen
idéntica distribución para la variable Y.

H1: algunas de estas proporciones son diferentes. Dicho de otro modo, la distribución de la
variable Y en alguna de estas subpoblaciones es diferente
El principal objetivo de realizar este contraste es comprobar que las distribuciones de todas las
subpoblaciones son iguales o si hay alguna que difiere. Esto nos resulta práctico para poder
combinar los resultados de todas las subpoblaciones, pues es necesario asegurarse de que los datos
de las distintas muestras que se pretende agrupar son homogéneos.
Ejercicio:
. Grupo sanguíneo.
Se desea saber si la distribución de los grupos sanguíneos es similar en los individuos de dos
poblaciones. Para ello se elige una muestra aleatoria de cada una de ellas, obteniéndose los
siguientes datos ¿Qué decisión se debe tomar?
Muestra 1
Muestra 2
Total
A
90
200
290
B
80
180
260
AB
110
240
350
0
20
30
50
Total
300
650
950
Calculamos las frecuencias esperadas:
Tabla 3.5. Frecuencias esperadas
A
B
AB
0
Muestra 1 91.5789 82.105 110.53 15.789
Muestra 2 198.421 177.89 239.47 34.211
Posteriormente calculamos:
2
 exp
 
i
j
( f ij  eij ) 2
= 1,76
eij
Los grados de libertad son: (n-1) x (m-1) = 1 x 3 = 3
Mirando en la tabla Chi-cuadrado obtenemos que la probabilidad de obtener un valor 7,81 o mayor
con 3 grado de libertad es p = 0,184. Por tanto el valor es no estadísticamente significativo, pues es
mayor que 0,01. Aceptamos la hipótesis de homogeneidad de grupos sanguíneos en las dos
muestras.
3.1. Interpretación y cálculo del p valor
El p-valor se puede interpretar de dos maneras diferentes:

La probabilidad de rechazar la hipótesis nula cuando en verdad es cierta.
69

La probabilidad de obtener un valor del estadístico igual o mayor al dado, cuando la hipótesis nula es
cierta.
Esto significa en el caso de un contraste de independencia:

Un valor cercano a p=0, indicaría un valor muy improbable de Chi-cuadrado si la hipótesis nula es
cierta; por tanto llevaría a rechazar la hipótesis de independencia

Un valor cercano a p=1, indicaría un valor muy probable de Chi-cuadrado si la hipótesis nula es
cierta; por tanto no rechazaríamos la hipótesis de independencia
Cálculo del p valor:
Primero: los grados de libertad, gl= (filas-1) x (columnas-1).
Segundo: te sitúas en esos grados de libertad en la tabla (fila).
Tercero: buscas el valor de Chi- cuadrado de tu caso en la fila del segundo paso.
Cuarto: cuando lo sitúes, el valor de p será el que se indica en la parte superior de esa columna.
Por ejemplo, en el caso de grados de libertad = 1 y el valor del test sea 7,88, p=0,005.
Nota: Cuanto más alto es el valor de Chi cuadrado, más bajo es p-valor
Condiciones de aplicación de Chi- cuadrado

Observa que al estudiar el valor de Chi-cuadrado en la tabla de la distribución, obtenemos siempre un
valor positivo. Es decir, siempre hacemos un contraste unilateral.

Si las frecuencias esperadas en las celdas son muy pequeñas, puesto que en la fórmula
( f ij  eij ) 2
2
aparecen dividiendo, se obtendría un valor alto de Chi-cuadrado, aunque las
 exp
 
eij
i
j
diferencias entre frecuencias observadas y esperadas fuese grande. Por eso, se recomienda que se use una
muestra de suficiente tamaño. Estas son dos recomendaciones importantes
- Como máximo el 20% de las frecuencias esperadas pueden ser menores que el valor 5.
- No debe usarse si hay frecuencias esperadas inferiores a 1.
En Minitab:
70
8.3 Prueba de Independencia
Contraste de independencia
En el ejemplo hemos llevado a cabo un contraste de independencia Chi-cuadrado, que nos permite
determinar si existe una relación entre dos variables categóricas.
Recordarás que un contraste de hipótesis es un procedimiento estadístico, con una serie de pasos
que lleva a la aceptación o rechazo de una hipótesis estadística. Los pasos a realizar en un contraste
de hipótesis son los siguientes:
1. Fijar las hipótesis que se quieren contrastar: La hipótesis nula H0 y la hipótesis alternativa H1.
Estas hipótesis son complementarias una de otra.
2. Fijar el nivel de significación, o probabilidad máxima de rechazar la hipótesis nula H 0, en caso
de que sea cierta. Recordemos que el nivel de significación α es la probabilidad de Error Tipo I
(probabilidad de rechazar la hipótesis nula, cuando de hecho es cierta).
3. Elegir un estadístico de contraste, que tenga alguna relación con la hipótesis. Formación a partir
del estadístico de una regla de decisión, dividiendo los posibles valores del estadístico en dos
regiones: (a) Si el estadístico cae en la región crítica (o de rechazo), se rechaza la hipótesis nula;
(b) si el estadístico cae en la región de aceptación, no se puede rechazar la hipótesis nula.
4. Se comprueba el valor del estadístico y se toma la decisión de rechazar o no la hipótesis.
En el contraste de independencia, se desea decidir si las dos variables en una tabla de contingencia
están o no asociadas. Siguiendo los pasos anteriores, se tendría
1. Fijar las hipótesis que se quieren contrastar. Estas hipótesis son las siguientes:
H0: Las variables en filas y columnas de la tabla son independientes
H1: Hay asociación entre las filas y columnas de la tabla
2. Fijamos el nivel de significación; lo más usual es elegir un valor α=0,05. Esto quiere decir que
la probabilidad máxima que fijamos para el error tipo I (rechazar la hipótesis de independencia
cuando sea falsa) es 0,05.
3. Elegir un estadístico de contraste, que tenga alguna relación con la hipótesis. En este caso,
elegimos el estadístico Chi cuadrado,
4.

2
exp
 
i
j
( f ij  eij ) 2
eij
  (2n1)( m1) , que tiene relación con la hipótesis nula, pues se basa
en la comparación de frecuencias observadas y frecuencias esperadas en caso de independencia.
Si la hipótesis nula H0 es cierta (hay independencia entre filas y columnas) es de esperar un
valor del Chi cuadrado será pequeño y si, por el contrario es falsa, será grande. Formaremos una
regla decisión, dividiendo los posibles valores de Chi- cuadrado en dos regiones:

2
Si el valor calculado  exp
tiene una probabilidad menor que  (nivel de significación)

rechazamos la hipótesis nula H0 (hay independencia entre filas y columnas), pues el valor
obtenido es improbable para una tabla con filas y columnas independientes. En este caso,
suponemos que las variables están asociadas.
2
Si el valor calculado  exp
tiene una probabilidad igual o mayor que  (nivel de
significación) no podemos rechazar la hipótesis nula H0. En este caso no tomamos ninguna
decisión.
71
Nota: Observamos que el rechazo de la hipótesis nula tiene más fuerza que su aceptación, pues nos
basamos en una situación muy poco probable: De ser cierta la independencia de las variables es
muy poco probable obtener un alto valor de Chi- cuadrado. Por tanto, si obtenemos un alto valor de
Chi-cuadrado, rechazamos que la hipótesis sea cierta.
Pero un valor pequeño de Chi cuadrado puede ser debido a varias causas: Puede ser que las
variables sean independientes; puede ser que estén asociadas, pero la asociación sea muy pequeña;
o puede ser que el tamaño de la muestra de datos sea pequeño y no permita ver la asociación. En
este caso (cuando no podemos rechazar la hipótesis nula) tendríamos que estudiar mejor los datos
para ver por qué se obtiene este valor pequeño de Chi- cuadrado.
Ejercicio:
. Deporte y bienestar
Un investigador quiere estudiar si hay asociación entre la práctica deportiva y la sensación de
bienestar. Extrae una muestra aleatoria de 100 sujetos. Los datos aparecen a continuación.
Sensación de
Bienestar
Sí
No
Total
Práctica deportiva
Sí
no
20
25
10
45
30
70
Total
45
55
100
Contraste la hipótesis de independencia entre bienestar y práctica de deporte (alfa = 0,01).
Primero calculamos las frecuencias esperadas en caso de independencia: eij 
fi . f . j
n
Tabla 3.4. Frecuencias esperadas
Sensación de Práctica deportiva
Bienestar
Sí
No
Sí
13,5
31,5
No
16,5
38,5
Posteriormente calculamos el estadístico Chi-cuadrado:
2
 exp
 
i
j
( f ij  eij ) 2
= 3,1296 + 2,5606 + 1,3413 + 1,0974 = 8,13
eij
Los grados de libertad son: (n-1) x (m-1) = 1 x 1 = 1; Mirando en la tabla Chi-cuadrado obtenemos
que la probabilidad de obtener un valor 8,13 o mayor con 1 grado de libertad es p = 0,004. Por tanto
el valor es estadísticamente significativo, pues es menor que 0,01.
La decisión que se debe tomar es rechazar la hipótesis de independencia entre bienestar y práctica
deportiva.
72
En minitab:
9 Metodos No Parametricos
9.1Prueba del signo
Caso muestra pequeña(n<20)
Ejercicio:
Un banco ofrece préstamos bajos y préstamos grandes. Sus clientes solo podrán
adquirir uno de los servicios por día. El banco asegura que pueden escoger
cualquier servicio, y aun así obtener más del financiamiento que necesitan
durante el primer mes. Se realiza una encuesta para verificar esta afirmación
antes de iniciar el mes y al final del mes. La experiencia de los clientes de una
muestra aleatoria de 12 clientes es:
Nombre
Flavio
Xiomara
Frank
Milena
Brandon
Celia
Hermes
Amoroso
Gregorio
Francisco
Justin
Préstamo
Bajo
Bajo
Grande
Bajo
Bajo
Bajo
Bajo
Grande
Bajo
Bajo
Bajo
73
Solución:
1. Se ingresan los datos al programa
2. Se hallan las probabilidades binomiales
Clic en Calculadora/ distribución de probabilidades/binomial.
Aparece la siguiente ventana, en la cual debemos completar los datos del
problema:
74
3. Clic en aceptar. Luego, se tiene:
4. Se copia en una siguiente columna las tres primeras probabilidades con tal de
que la suma sea menor que 0.025 (pues alfa es 0.05 y la prueba es bilateral).
Esto se hace para sumarlas.
Clic en Calculadora /suma(c3) /aceptar.
75
5. Se calcula p:
Se multiplica la suma por el número de colas (bilateral=2colas).
76
Notamos que: 0.0385724< 0.05
6. Ahora se abre una nueva hoja para colocar los datos.
Datos
77
7. Clic en Estadísticas /no paramétrico/prueba de signo para 1 muestra.
Y aparece la siguiente ventana:
78
Hacer clic en la variable Datos.
Intervalo de confianza: 1-alfa(0.05)=0.95
Mediana 0
No es igual (por ser prueba bilateral)
Ejercicio:
Una gran cadena de tiendas departa La dirección de una empresa
recomendó realizar una capacitación de computación en planta para
los gerentes, con el objeto de mejorar su conocimiento, en contabilidad,
mantenimiento, producción y otras operaciones. Se eligió al azar una
muestra de 15 gerentes. El nivel general de capacidad de cada uno en
cuánto a la técnica computacional lo determino un grupo de expertos
79
antes de que principiara el programa. Su capacidad y comprensión se
evaluaron como sobresalientes, excelentes, buenas, aceptables o
deficientes. Después del programa de entrenamiento de tres meses, el
mismo grupo de expertos en computación evaluó de nuevo a cada
gerente. Las dos evaluaciones antes y después se indican junto con el
signo de la diferencia. El signo + indica mejoría, y el signo - señala que la
capacidad
computacional
declinó
después
del
programa
de
entrenamiento.
NOMBRE
José
Omar
Modesto
Miguel
Wilson
Edwin
Pedro
Luis
Josué
Bruno
David
Washington
Steve
Rolando
Santiago
ANTES
Bueno
Aceptable
Excelente
Deficiente
Excelente
Bueno
Deficiente
Excelente
Bueno
Deficiente
Bueno
Aceptable
Bueno
Bueno
Deficiente
DESPUES
Sobresaliente
Excelente
Bueno
Bueno
Excelente
Sobresaliente
Aceptable
Sobresaliente
Deficiente
Bueno
Sobresaliente
Excelente
Aceptable
Sobresaliente
Bueno
DIFERENCIA
+
+
+
0
+
+
+
+
+
+
+
-
Se tiene interés en determinar si dicho programa de entrenamiento en
planta fue efectivo para mejorar la capacidad de los gerentes en materia
de computación. Con un nivel de significancia de 0.10 ¿Tales funcionarios
son más aptos después de tomar el programa de capacitación, que
antes?
Solución:
1) H0 : p = 0.5 (no hay cambio en la capacidad como resultado de la
capacitación)
80
Ha: p > 0.5 (se incrementó la capacidad como resultado de la
capacitación)
2) α= 0.1
3) prueba binomial
NUMERO DE EXITOS
0
1
2
3
4
5
6
7
8
9
10
11
12
13
14
PROBABILIDAD DE
EXITO
0.000
0.001
0.006
0.022
0.061
0.122
0.183
0.209
0.183
0.122
0.061
0.022
0.006
0.001
0.000
PROBABILIDAD
ACUMULADA
1.000
0.999
0.998
0.992
0.970
0.909
0.787
0.604
0.395
0.212
0.090
0.029
0.007
0.001
0.000
4) RA: < 2 – 10 >
RC: [10 – 12]
5) Cantidad de signos “+” = 10
Como 10 pertenece a la RC → Rechazo la HO y acepto la Ha.
Interpretación:
Se incrementó la capacidad como resultado de la
capacitación.
Prueba de signos : Programa de capacitación
Prueba del signo de la mediana =
Dif01
N
15
Debajo
4
Igual
1
Arriba
10
0.50000 vs. > 0.50000
P
0.090
81
Ejercicio:
Cornwall & Hudson, desea vender solo una marca de reproductor de
discos compactos de alta calidad. La lista de equipos reproductores de
CD’s se ha reducido a dos marcas: Sony y Pioneer. Para ayudar en la toma
de decisión, se reunió a un grupo de 16 expertos en audio. Se hizo la
reproducción de un pasaje musical usando componentes Sony (marcados
A). Después se reprodujo el mismo pasaje utilizando componentes Pioneer
(marcados B). Un signo “+” en la tabla siguiente indica la preferencia de
una persona por los componentes Sony, y un signo “-“ señala predilección
por Pioneer, y un 0 significa que no hay preferencia.
1
+
2
-
3
+
4
-
5
+
6
+
7
-
Experto
8
9
0
-
10
+
11
-
12
+
13
+
14
-
15
+
16
-
Realice una prueba de hipótesis al nivel de significancia 0.10 para
determinar si hay diferencia en la preferencia entre las dos marcas.
Solución:
Si p indica la proporción de la población de expertos en audio que
favorecen a Sony, se trata de probar los siguientes supuestos:
𝐻0 : 𝑝 = 0.50
𝐻1 : 𝑝 ≠ 0.50
Si no se puede rechazar Ho no tendremos pruebas que indiquen que hay
preferencia hacia una marca. Sin embargo, si se puede rechazar Ho,
podremos concluir que las preferencias de los expertos en audio son
distintas hacia las dos marcas. En este caso, la marca que seleccione la
mayor cantidad de expertos en audio será la más preferida.
Como podemos observar el experto en audio 8 no expreso su preferencia
por lo tanto eliminamos su observación reduciéndose el número de
muestra a 15.
Con un tamaño de muestra n = 15, las probabilidades de la binomial con p
= 0.50 son las que aparecen en la siguiente tabla:
82
Experto
0
1
2
3
4
5
6
7
8
Probabilidad
0.000031
0.000458
0.003204
0.013885
0.041656
0.091644
0.152740
0.196381
0.196381
9
10
11
12
13
14
15
0.152740
0.091644
0.041656
0.013885
0.003204
0.000458
0.000031
𝛼= 0.10, tendríamos una región de rechazo cuya área aproximada fuera
0.05 en cada extremo de la distribución. Si iniciamos en el extremo inferior
de la distribución, vemos que la probabilidad de obtener cero, uno, dos o
tres signos positivos es 0.000031 + 0.000458 + 0.003204 + 0.013885 = 0.017578,
que es menor que 0.05.
En consecuencia, adoptaremos la siguiente regla de rechazo:
Rechazar H0 si el número de signos positivos es menor que 4 o mayor que
11.
Como se han observado 8 signos positivos, no se rechaza la hipótesis nula.
No hay preferencia con respecto a las dos marcas de componentes.
Test and CI for One Proportion: datos
Test of p = 0.5 vs. p not = 0.5
Event = 1
Variable X N Sample p
90% CI
Z-Value P-Value
datos 8 15 0.533333 (0.321456, 0.745211) 0.26 0.796
Using the normal approximation.
83
Usando el Minitab el valor de p es 0.796 el cual es mayor al nivel de
significancia 𝛼 = 0.10 por lo tanto no se rechaza la hipótesis nula. No hay
preferencia con respecto a las dos marcas de components
9.2 Pruebas de rangos con signos de Wilcoxon
Durante el primer mes del primer semestre del 2016 un docente de la Universidad
Nacional Mayor de San Marcos tomó una práctica calificada a sus alumnos y
decidió posteriormente cambiar de metodología de enseñanza para hacer sus
clases más dinámicas, después en 2 meses tomó otra práctica calificada. Se
escogieron aleatoriamente 11 alumnos para determinar si su nueva metodología
ayudó a los alumnos a entender más las clases y conseguir mejores notas. Las
notas de las prácticas calificadas que rindieron los alumnos antes y después de la
práctica fueron las siguientes:
Alumno
A
B
C
D
E
F
G
H
I
J
K
Producción antes
10.2
9.6
9.2
10.6
9.9
10.2
10.6
10.0
11.2
10.7
10.6
84
Producción después
9.5
9.8
8.8
10.1
10.3
9.3
10.5
10.0
10.6
10.2
9.8
Solución:
1. Ingresar los datos
2. Hallar las diferencias con la calculadora:
85
3. Clic en estadísticas/no paramétrico/wilcoxon
86
Donde se debe colocar:



Variable: dif
Mediana: 0
No es igual que
87
4. Clic
en aceptar y obtenemos:
dif
0.1
-0.2
-0.4
0.4
0.5
0.5
0.6
0.7
0.8
0.9
|Dif|
0.1
0.2
0.4
0.4
0.5
0.5
0.6
0.7
0.8
0.9
suma
rangos
1
2
3.5
3.5
5.5
5.5
7
8
9
10
55
10 ∗ 11 ∗ 21
𝜎𝑇 = √
= 19.62
6
𝑧=
55
= 2.8
19.62
Conclusión:
Se rechaza Ho si Z>1.96, y como 2.8 >1.96 se rechaza la hipótesis nula. Y se
concluye que las poblaciones no son idénticas y que las metodologías usadas
inciden diferente en las notas de los alumnos.
9.2 SERIES DE TIEMPO
MODELO DE TENDECIA LINEAL
Ejercicio:
88
A continuación, se presentan los datos del ingreso bruto (en millones de
dólares) de las
aerolíneas
T
regionales en
YT
T*YT
T²
un periodo de
10 años.
Año
Ingreso
Año
Ingreso
1
2428
6
4264
2
2951
7
4738
3
3533
8
4460
4
3618
9
5318
5
3616
10
6915
a. Para esta serie de tiempo, obtenga una ecuación de tendencia
lineal. Haga un comentario sobre lo que revela esta ecuación acerca
del ingreso bruto de las aerolíneas en los últimos 10 años.
b. Pronostique los ingresos brutos en los años 11 y 12.
89
𝑡=
55
= 5.5
10
1
2
3
4
5
6
7
8
9
10
55
2428
2951
3533
3618
3616
4264
4738
4450
5318
6915
41841
𝑌̅ =
𝑏1 =
2428
5902
10599
14472
18080
25584
33166
35680
47862
69150
262923
1
4
9
16
25
36
49
64
81
100
385
41841
= 4184.1
10
262923 − (55)(41841)/10
= 397.5
385 − (55)²/10
𝑏1 = 4184.1 − 397.5(5.5) = 1998
Por tanto:
̅
Yt = 1998 + 397.5t
-
Es la expresión del componente de tendencia lineal en la serie de
tiempo de los ingresos brutos de las aerolíneas regionales.
Interpretación:
-
Como la pendiente es 397.5, esto indica que en los pasados 10 años
se tuvo un crecimiento promedio en ingresos brutos de 397.5 millones
de dólares por año. Si se supone que la tendencia en ingresos brutos
de los últimos 10 años es un buen indicador del futuro, entonces se
emplea la ecuación
90
𝑌̅t = 1998 + 397.5t
Para proyectar el componente de tendencia de la serie de
tiempo.
Conclusión:
-
Por tanto, si emplea únicamente el componente de tendencia se
pronostica que, el año próximo, con t=11 los ingresos serán de
6370.60 millones de dólares.
-
Si t=12 los ingresos serán de 6768.15 millones de dólares.
CÁLCULOS EN MINITAB
91
Ejercicio:
Las cantidades de dinero gastadas al usar maquinas vendedoras en
Estados Unidos, en miles de millones de dólares para los años de 2013 a
2017, se dan a continuación. Determine la ecuación de tendencia lineal
para estimar las ventas para el año 2019.
Año
Código
Venta de máquinas vendedoras
2013
1
17.5
2014
2
19.0
2015
3
21.0
2016
4
22.7
2017
5
24.5
92
Resolución
Año
2013
2014
2015
2016
2017
Sumatoria
Código
1
2
3
4
5
15
Venta de máquinas
vendedoras
17.5
19.0
21.0
22.7
24.5
104.7
T*y
17.5
38
63
90.8
122.5
331.8
𝒚𝒊 = 𝒂 + 𝒃 ∗ 𝒕𝒊
𝒂=
𝒃=
𝚺𝐲
𝚺𝐭
−𝒃
𝒏
𝒏
𝐧𝚺𝐭 ∗ 𝐲 − 𝚺𝐲 ∗ 𝚺𝐭
𝒏𝚺𝐭𝟐 − (𝚺𝐭)²
Determinación de “a” y ”b” por mínimos cuadrados
b=
5(331.8) − (15 ∗ 104.7)
= 𝟏. 𝟕𝟕
5 ∗ (55) − (15)²
a=
104.7
15
− 1.77
= 𝟏𝟓. 𝟔𝟑
5
5
Obtenemos la ecuación:
𝐲𝐢 = 𝟏𝟓. 𝟔𝟑 + 𝟏. 𝟕𝟕 ∗ 𝐭𝐢
Estimamos las ventas para el año 2019:
𝐲𝐢 = 𝟏𝟓. 𝟔𝟑 + 𝟏. 𝟕𝟕 ∗ 𝟕 = 𝟐𝟖. 𝟎𝟐
93
t²
1
4
9
16
25
55
CÁLCULOS EN MINITAB
94
MODELO DE TENDENCIA EXPONENCIAL
Ejercicio:
A continuación, se tiene las cantidades de dinero gastadas en publicidad
(en miles de millones de dólares) de 2007 a 2017.halle la ecuación:
Año
Monto
2007
88.1
2008
94.7
2009
102.1
2010
109.8
2011
118.1
2012
125.6
2013
132.6
2014
141.9
2015
150.9
2016
157.9
2017
162.6
Resolución
Año
2007
2008
2009
2010
2011
2012
2013
2014
2015
2016
2017
Suma total
monto
88.1
94.7
102.1
109.8
118.1
125.6
132.6
141.9
150.9
157.9
162.6
1384.3
T
1
2
3
4
5
6
7
8
9
10
11
66
95
Log(y) t²
1,94498
1
1,97635
4
2,00903
9
2,0406
16
2,07225
25
2,09899
36
2,12254
49
2,15198
64
2,17869
81
2,19838
100
2,21112
121
23,0049
506
T*Log(y)
1,945
3,9527
6,0271
8,1624
10,3612
12,5939
14,8578
17,2159
19,6082
21,9838
24,3223
141,03
Determinación de “a” y “b” por mínimos cuadrados
b=1.065
a=84.91
Tenemos la ecuación de esta manera:
𝐲𝐢 = 𝟖𝟒. 𝟗𝟏 ∗ (𝟏. 𝟎𝟔𝟓)𝐭𝐢
96
CÁLCULOS EN MINITAB
97
Ejercicio:
En el sur de California, los especialistas en el control de la contaminación
atmosférica cada hora monitorean las cantidades de ozono, dióxido de
carbono y dióxido de nitrógeno en el aire. En los datos de esta serie de
tiempo horaria se observa estacionalidad, los niveles de contaminación
muestran ciertos patrones según la hora del día. Los niveles de dióxido de
nitrógeno en el centro, para las 12 horas, de las 6:00 de la mañana a las
6:00 de la tarde, DEL día 15 de julio fueron los siguientes. Se desea saber a
cuanto ascenderán el nivel de dióxido de nitrógeno en el centro para 7:00
de la tarde y a la vez interpretar la ecuación exponencial hallada.
30 de
Julio
25 28 35 50 60 60 40 35 30 25 25 20
Resolución
CÓDIGO(
T)
6:00-7:00 am
1
7:00-8:00 am
2
8:00-9:00 am
3
9:00-10:00 am
4
10:00-11:00
5
am
11:00-12:00
6
am
12:00-1:00 pm
7
1:00-2:00 pm
8
2:00-3:00 pm
9
3:00-4:00 pm
10
4:00-5:00 pm
11
5:00-6:00 pm
12
SUMA TOTAL
78
HORA
NIVEL DE DIÓXIDO
DE NITRÓGENO
25
28
35
50
LOG(NIV DEL
NITRÓGENO)
1.4
1.45
1.54
1.7
1
4
9
16
1.4
2.9
4.62
6.8
60
1.78
25
8.9
60
1.78
36
10.68
40
35
30
25
25
20
443
1.6
1.54
1.48
1.4
1.4
1.3
18.37
49
64
81
100
121
144
650
11.2
12.32
13.32
14
15.4
15.6
117.14
T(LOGY)
Ahora hallamos la ecuación a través del método de mínimos cuadrados
98
𝐋𝐎𝐆(𝐘) = 𝟏. 𝟔𝟑 − 𝟎. 𝟎𝟏𝟔𝐓
Para la hora 13 sería:
𝐋𝐎𝐆(𝐘) = 𝟏. 𝟔𝟑 − 𝟎. 𝟎𝟏𝟔 ∗ 𝟏𝟑 = 𝟏. 𝟒𝟐𝟐
Y = 26.42
El nivel de dióxido de nitrógeno para el día 15 de julio de 6:00 -7:00 pm es
de 26.42
CÁLCULOS EN MINITAB
99
PROMEDIO MÓVIL
Ejercicio:
Los datos siguientes corresponden a la utilización de la capacidad de
producción (en porcentajes) en los últimos 15 meses.
Para esta serie de tiempo calcule promedios móviles de tres semanas.
100
Resolución
UTILIZACIÓN (%)
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
PROMEDIO MÓVIL PARA 3
MESES
82.5
81.3
81.3
79
76.6
78
78.4
78
78.8
78.7
78.4
80
80.7
80.7
80.8
81.7
80.83
78.96
77.86
77.67
78.13
78.4
78.5
78.63
79.03
79.7
80.47
80.7
101
EjeEjercicio:
A continuación, se presentan los gastos mensuales, a lo largo de tres años,
en un edificio de seis departamentos en el sur de Florida. Determine los
índices estacionales mensuales. Use 6 meses como promedio móvil.
Resolución
𝐅(𝐭+𝟏) = 𝛂(𝐘𝐭 ) + (𝟏 − 𝛂)𝐅𝐭
102
AÑO
1
2
3
MESES
1
2
3
4
5
6
1
2
3
4
5
6
1
2
3
4
5
6
GASTOS
170
180
205
230
240
315
180
205
215
245
265
330
195
210
230
280
290
390
PROMEDIO
MÓVIL
Reemplazando valores en la fórmula:
𝑃1 =
170 + 180 + 205 + 230 + 240 + 315
= 335
6
𝑃2 =
180 + 205 + 230 + 240 + 315 + 180
= 337.5
6
𝑃3 =
205 + 230 + 240 + 315 + 180 + 205
= 343.75
6
103
335
337.5
343.75
346.25
350
356.25
360
363.75
365
368.75
377.5
383.95
398.75
𝑃4 =
230 + 240 + 315 + 180 + 205 + 215
= 346.25
6
𝑃5 =
240 + 315 + 180 + 205 + 215 + 245
= 350
6
𝑃6 =
315 + 180 + 205 + 215 + 245 + 265
= 356.25
6
𝑃7 =
180 + 205 + 215 + 245 + 265 + 330
= 360
6
𝑃8 =
205 + 215 + 245 + 265 + 330 + 195
= 363.75
6
𝑃9 =
215 + 245 + 265 + 330 + 195 + 210
= 365
6
𝑃10 =
245 + 265 + 330 + 195 + 210 + 230
= 368.75
6
𝑃11 =
265 + 330 + 195 + 210 + 230 + 280
= 377.5
6
𝑃12 =
330 + 195 + 210 + 230 + 280 + 290
= 383.95
6
𝑃13 =
195 + 210 + 230 + 280 + 290 + 390
= 398.75
6
104
MODELO DE SUAVIZACIÓN EXPONENCIAL
Ejercicio:
Considere la siguiente tabla de tiempo. Use para calcular los valores de
suavización exponencial de esta serie de tiempo. ¿Cuál es el pronóstico
para la semana 7?
SEMANA
VALOR
1
8
2
12
3
15
4
17
5
16
6
9
Resolución
𝐅(𝐭+𝟏) = 𝛂(𝐘𝐭 ) + (𝟏 − 𝛂)𝐅𝐭
𝐅𝟏 = Y1 = 8
𝐅𝟐 = α(Y1 ) + (1 − α)F1 = 0.2(8) + (1 − 0.2)8 = 8
𝐅𝟑 = α(Y2 ) + (1 − α)F2 = 0.2(12) + (1 − 0.2)8 = 8.8
𝐅𝟒 = α(Y3 ) + (1 − α)F3 = 0.2(15) + (1 − 0.2)8.8 = 10.04
105
𝐅𝟓 = α(Y4 ) + (1 − α)F4 = 0.2(17) + (1 − 0.2)10.04 = 11.43
𝐅𝟔 = α(Y5 ) + (1 − α)F5 = 0.2(16) + (1 − 0.2)11.43 = 12.34
𝐅𝟕 = α(Y6 ) + (1 − α)F6 = 0.2(9) + (1 − 0.2)12.34 = 11.67
Entonces:
SEMANA
VALOR
Ft
1
8
8
2
12
8
3
15
8.8
4
17
10.04
5
16
11.43
6
9
12.34
7
11.67
11.67
106
Ejercicio:
El grupo Garden Avenue Seven vende discos compactos de sus
presentaciones. En la tabla siguiente se presentan las ventas (en unidades)
en los últimos 18 meses. El administrador del grupo desea contar con un
método exacto para pronosticar las ventas.
a.
Emplee el suavizamiento exponencial con α =0.3 y 0.4. ¿Con cuál de
estos valores de α obtiene mejores pronósticos?
b.
Haga un pronóstico mediante la proyección de tendencia. Dé el
valor del CME.
Resolución
Aplicando el modelo de suavizamiento exponencial
𝐅(𝐭+𝟏) = 𝛂(𝐘𝐭 ) + (𝟏 − 𝛂)𝐅𝐭
Con =0.3
107
Cuadrado
Valores en la
Pronóstico
Error de
del error
serie de
con
Mes(t)
pronóstico
del
tiempo
suavizamiento
(Yt-Ft)
pronóstico
(Yt)
(Ft)
(Yt-Ft)2
1
293
2
283
293
-10
100
3
322
290
32
1024
4
355
299.6
55.4
3069.16
5
346
316.22
29.78
886.85
6
379
325.15
53.85
2899.82
7
381
341.31
39.69
1575.3
8
431
353.22
77.78
6049.73
9
424
376.55
47.45
2251.5
10
433
390.79
42.21
1781.68
11
470
403.45
66.55
4428.9
12
481
423.42
57.58
3315.46
13
549
440.69
108.31
11731.06
14
544
473.18
70.82
5015.47
15
601
494.43
106.57
11357.16
16
587
526.4
60.6
3672.36
17
644
544.58
99.42
9884.34
18
660
574.41
85.59
7325.65
Total
76368.44
𝐂𝐌𝐄 =
𝟕𝟔𝟑𝟔𝟖. 𝟒𝟒
= 𝟒𝟒𝟗𝟐. 𝟐𝟔
𝟏𝟕
Con
108
Cuadrado
Valores en la
Pronóstico
Error de
del error
serie de
con
Mes(t)
pronóstico
del
tiempo
suavizamiento
(Yt-Ft)
pronóstico
(Yt)
(Ft)
(Yt-Ft)2
1
293
2
283
293
-10
100
3
322
290
33
1089
4
355
299.6
52.8
2787.84
5
346
316.22
22.68
514.38
6
379
325.15
46.61
2172.49
7
381
341.31
29.97
898.2
8
431
353.22
67.98
4621.28
9
424
376.55
33.79
1141.76
10
433
390.79
29.27
856.73
11
470
403.45
54.56
2976.79
12
481
423.42
43.74
1913.19
13
549
440.69
94.24
8881.18
14
544
473.18
51.54
2656.37
15
601
494.43
87.92
7729.93
16
587
526.4
38.75
1501.56
17
644
544.58
80.25
6440.06
18
660
574.41
64.15
4115.22
Total
50395.98
𝐂𝐌𝐄 =
-
𝟓𝟎𝟑𝟗𝟓. 𝟗𝟖
= 𝟐𝟗𝟔𝟒. 𝟒𝟕
𝟏𝟕
En la primera tabla se muestran los resultados del suavizamiento
exponencial con α = 0.3. Como el CME = 4492.26, en este conjunto
de datos, al emplear como constante de suavizamiento α=0.3 se
109
obtiene menos exactitud en los pronósticos que si se empleara la
constante de suavizamiento α =0.4. Por tanto, se preferirá la
constante de suavizamiento α =0.4. Al probar con otros valores de α
se puede hallar un “buen” valor para la constante de suavizamiento.
Este valor puede emplearse en el modelo de suavizamiento
exponencial para obtener pronósticos para el futuro.
Un pronóstico para el siguiente mes sería:
𝐅(𝐭+𝟏) = 𝛂(𝐘𝐭 ) + (𝟏 − 𝛂)𝐅𝐭
𝐅𝟏𝟗 = 𝟎. 𝟒(𝟔𝟔𝟎) + (𝟏 − 𝟎. 𝟒)𝟓𝟗𝟓. 𝟖𝟓 = 𝟔𝟐𝟓. 𝟓𝟏
Un valor en ventas de 621.51≈622 unidades
El valor del CME sería:
𝐂𝐌𝐄 =
𝟓𝟐𝟐𝟑𝟖. 𝟗𝟔
= 𝟐𝟗𝟎𝟐
𝟏𝟖
Ejercicio:
El campeonato de los jugadores de la PGA tuvo lugar, del 23 al 26 de
marzo de 2006, en el campo de golf TPC Sawgrass en Ponte Vedra Beach,
Florida. A continuación se presentan las puntuaciones obtenidas, en la
primera y segunda rondas, por 11 golfistas de una muestra. Use α=0.05 y
determine si existe una diferencia significativa entre las puntuaciones
obtenidas por los golfistas en la primera y en la segunda rondas. ¿Cuál es
su conclusión?
110
Golfista
Primera ronda-Segunda
ronda
Primera ronda- Segunda
ronda
Fred Couples
69
73
Jhon Daly
70
73
Ernie Els
72
70
Jim Furyk
65
71
Phil Mickeson
70
73
Rocco Mediate
69
74
Nick Price
72
71
Vijay Singh
68
70
Sergio Garcia
70
68
Mike Weir
71
71
Tiger Woods
72
69
Resolución
Paso 1:
Ho: No existe una diferencia significativa entre las puntuaciones
obtenidas por los golfistas en la primera y en la segunda ronda.
Ha: Existe una diferencia significativa entre las puntuaciones
obtenidas por los golfistas en la primera y en la segunda ronda.
Paso 2:
Paso 3:
111
Distribución muestral de t para poblaciones idénticas – distribución
normal.
Paso 4:
Definir la región de rechazo y la región de aceptación.
Intervalos:
R.A = < -1.960; 1.960]
R.C = <-∞; -1.960] U <1.960; +∞ >
112
Primera rondaSegunda
ronda
Primera ronda- Segunda
Diferencia Absoluto
ronda
69
70
72
65
70
69
72
68
70
71
72
73
73
70
71
73
74
71
70
68
71
69
-4
-3
2
-6
-3
-5
1
-2
4
0
5
4
3
2
6
3
5
1
2
4
0
5
Lugar
Rango con signo
6.5
4.5
2.5
10
4.5
8.5
1
2.5
6.5
___
8.5
-6.5
-4.5
2.5
-10
-4.5
-8.5
1
-2.5
6.5
___
8.5
-18
Cálculos estadísticos:
N=11-1=10
𝝁𝑻 = 𝟎
𝒏(𝒏 + 𝟏)(𝟐𝒏 + 𝟏)
𝟏𝟎 ∗ 𝟏𝟏 ∗ 𝟐𝟏
𝝈𝒓𝒔 = √
=√
= 𝟏𝟗. 𝟔𝟐
𝟔
𝟔
𝒁=
𝒕 − 𝝁𝑻 −𝟏𝟖 − 𝟎
=
= −𝟎. 𝟗𝟐
𝝈𝑻
𝟏𝟗. 𝟔𝟐
Decisión:
-
Zk ϵ R.A → Aceptamos la hipótesis nula y rechazamos la hipótesis
alternativa.
Paso 5:Conclusiones:
-
Existe una diferencia significativa entre las puntuaciones obtenidas
por los golfistas en la primera y en la segunda ronda.
113
Ejercicio:
Con objeto de determinar su efecto en el rendimiento de la gasolina en
millas por galón en los automóviles de pasajeros, se prueban dos aditivos
para gasolina. A continuación, aparecen los resultados de esta prueba en
12 automóviles; en cada automóvil se probaron los dos aditivos. Use α =
0.05 y la prueba de los rangos con signo de Wilcoxon para determinar si
existe una diferencia significativa entre estos dos aditivos.
Aditivo
Aditivo
Automóvil
1
2
Automóvil
1
2
1
20.1
18.1
7
16.2
17.2
2
23.6
21.8
8
18.6
15
3
22
22.6
9
21.9
20
4
19.2
17.1
10
24.2
21.2
5
21.2
21.2
11
23.2
22.8
6
24.8
23.8
12
25
23.7
Resolución
Paso 1:
Ho: El efecto de los aditivos en el rendimiento de la gasolina por
galón es el mismo.
114
Ha: El efecto de los aditivos en el rendimiento de la gasolina por
galón no es el mismo.
Paso 2:
Paso 3:
Distribución muestral de T– distribución normal.
Paso 4:
Definir la región de rechazo y la región de aceptación.
Intervalos:
R.A = < -1.960; 1.960]
R.C = <-∞; -1.960] U <1.960; +∞ >
115
Aditivo
Automóvil
1
2
Diferencia
V.A
Lugar
Rango con
signo
1
20.1
18.1
2.07
2.07
9
9
2
23.6
21.8
1.79
1.79
7
7
3
22
22.6
-0.54
0.54
3
-3
4
19.2
17.1
2.09
2.09
10
10
5
21.2
21.2
0.01
0.01
1
1
6
24.8
23.8
0.97
0.97
4
4
7
16.2
17.2
-1.04
1.04
5
-5
8
18.6
15
3.57
3.57
12
12
9
21.9
20
1.84
1.84
8
8
10
24.2
21.2
3.08
3.08
11
11
11
23.2
22.8
0.43
0.43
2
2
12
25
23.7
1.32
1.32
6
6
T
62
N>10
Cálculos:
𝝁𝑻 = 𝟎
𝒏(𝒏 + 𝟏)(𝟐𝒏 + 𝟏)
𝟏𝟐 ∗ 𝟏𝟑 ∗ 𝟐𝟓
𝝈𝒓𝒔 = √
=√
= 𝟐𝟓. 𝟓
𝟔
𝟔
𝒁=
𝒕 − 𝝁𝑻 𝟔𝟐 − 𝟎
=
= 𝟐. 𝟒𝟑
𝝈𝑻
𝟐𝟓. 𝟓
116
Decisión:
-
Zk ϵ R.C → Rechazamos la hipótesis nula y aceptamos la hipótesis
alternativa.
Paso 5:
Conclusiones:
-
Entonces el efecto de los aditivos en el rendimiento de la gasolina
por galón no es el mismo.
PRUEBA DE MANN-WHITNEY- WILCOXON
- MUESTRA PEQUEÑA (N<=10)
-
Ejercicio:
A continuación, se presentan los datos muestrales de los salarios iniciales de
contadores públicos y planificadores financieros. Los salarios anuales están
dados en miles de dólares.
Contador
Público
Planificador
financiero
Contador
Público
Planificador
financiero
45.2
44
50
48.6
53.8
44.2
45.9
44.7
51.3
48.1
54.5
48.9
53.2
50.9
52
46.8
49.2
46.9
46.9
43.9
117
Use 0.05 como nivel de significancia y pruebe la hipótesis de que no hay
diferencia entre los salarios anuales iniciales de los contadores públicos y
de los planificadores financieros.
Resolución
Paso 1:
Ho: No hay diferencia entre los salarios anuales iniciales de los
contadores públicos y de los planificadores financieros.
Ha: Hay diferencia entre los salarios anuales iniciales de los
contadores públicos y de los planificadores.
Paso 2:
Paso 3:
TL= (0.05; n1; n2)
Paso 4:
Cálculos del estadístico:
𝑻𝒖 = 𝒏𝟏 (𝒏𝟏 + 𝒏𝟐 + 𝟏) − 𝑻𝑳
Reemplazando:
𝑻𝑳 = (𝟎. 𝟎𝟓; 𝟏𝟎; 𝟏𝟎) = 𝟕𝟗
𝑻𝒖 = 𝟏𝟎(𝟏𝟎 + 𝟏𝟎 + 𝟏) − 𝟕𝟗 = 𝟏𝟑𝟏
Intervalos:
R.A = [79; 131]
R.C = <-∞; 79> U <131; +∞ >
118
Contador público
Planificador financiero
Salario
Lugar
Salario
Lugar
45.2
5
44
2
53.8
19
44.2
3
51.3
16
48.1
10
53.2
18
50.9
15
49.2
13
46.9
8.5
50
14
48.6
11
45.9
6
44.7
4
54.5
20
48.9
12
52
17
46.8
7
46.9
8.5
43.9
1
136.5
∑𝑹
∑𝑹
73.5
Decisión:
-
Como 136.5 ∈ R.C → Rechazo la hipótesis nula y acepto la hipótesis
alternativa.
Conclusión:
-
Hay diferencia entre los salarios anuales iniciales de los contadores
públicos y de los planificadores financieros.
Ejercicio:
119
Dos aditivos de combustible son evaluados para determinar su efecto en el
millaje de la gasolina. Se aplicaron sendas pruebas a siete vehículos con el
aditivo 1 y a nueve vehículos con el aditivo 2. Los datos siguientes muestran
las millas por galón obtenidas con los aditivos entre el rendimiento de la
gasolina con los aditivos. Utilice un nivel de significancia de 0.05.
ADITIVO 1
17.3
18.4
19.1
16.7
18.2
18.6
17.5
ADITIVO 2
18.7
17.8
21.3
21
22.1
18.7
19.8
20.7
20.2
Resolución
Paso 1: Planteamos nuestra hipótesis
𝐻0 : 𝜇1 − 𝜇1 = 0
𝐻1 : 𝜇1 − 𝜇1 ≠ 0
Paso 2:
Paso 3: Hallamos nuestro estadístico
Prueba MWW
Paso 4:
Cálculos del estadístico:
120
Prueba de Mann-Whitney e IC: ADITIVO 1, ADITIVO 2
N Mediana
ADITIVO 1 7 18.200
ADITIVO 2 9 20.200
La estimación del punto para ETA1-ETA2 es -2.100
95.6 El porcentaje IC para ETA1-ETA2 es (-3.500,-0.499)
W = 34.0
Prueba de ETA1 = ETA2 vs. ETA1 no es = ETA2 es significativa en
0.0081
La prueba es significativa en 0.0081 (ajustado por empates)
Conclusión:
-
Como 0.0081 es menor que 0.05 se rechaza la H0 y podemos concluir
que los aditivos difieren significativamente con el rendimiento de la
gasolina.
121
- MUESTRA GRANDE (N>10)
Ejercicio:
Business Week publica estadísticas anuales sobre las 1 000 empresas más
grandes. El cociente P/E (cociente de rendimiento por acción) de una
empresa es el precio actual de las acciones de la empresa dividido entre
la ganancia por acción en los últimos 12 meses. En la tabla se presenta el
cociente P/E de 10 empresas japonesas y 12 empresas estadounidenses de
una muestra. ¿Es significativa la diferencia entre los dos países? Use la
prueba de MWW y α =0.01 para dar sus conclusiones.
Resolución
Paso 1: Planteamos nuestra hipótesis
Ho: Las dos poblaciones son idénticas.
Ha: Las dos poblaciones no son idénticas.
Paso 2:
122
Paso 3: Hallamos nuestro estadístico
Prueba MWW
Paso 4: Definir la región de rechazo y la región de aceptación.
Paso 5:
Asignando el rango correspondiente a cada elemento:
123
Calculando la media y la desviación estándar:
Considerando la muestra de Japón como 1.
1
1
µT = n1(n1 + n2 + 1) = (10)(10 + 12 + 1) = 115
2
2
σT = √
1
1
n1n2(n1 + n2 + 1) = √ (10)(12)(10 + 12 + 1) = 15.17
12
12
Calculando el estadístico:
𝐳=
T − µT 157 − 115
=
= 𝟐. 𝟕𝟕
σT
15.17
Conclusión:
-
Como el valor de z calculado (2.77) es mayor que el valor critico 1.96,
se rechaza la hipótesis nula. Se concluye que si hay diferencia
124
significativa entre los cocientes de rendimiento por acción de las
empresas japonesas y norteamericanas.
-
Ejercicio:
Cada año, en diciembre, NRF/BIG Research realiza un estudio sobres el
gasto que hacen las personas en las vacaciones de invierno. A
continuación, se presentan los datos muestrales sobre el gasto en las
vacaciones de invierno en 2004 y 2005 (USA Today, 20 de diciembre de
2005).
2004
2005
623
687
748
638
713
645
726
700
794
662
814
674
752
582
781
805
723
728
674
766
908
737
796
724
Use α = 0.05 y realice una prueba para determinar si en 2005 hubo un
incremento en comparación con 2004. ¿Cuál es su conclusión?
Resolución
Paso 1: Planteamos nuestra hipótesis
Ho: El gasto de las personas en las vacaciones de invierno se
mantuvo constante entre los años 2004 y 2005 se mantuvo constante.
125
Ha: El gasto de las personas en las vacaciones de invierno tuvo un
aumento en el año 2005 con respecto al año 2004.
Paso 2:
Nivel de significancia:
Paso 3: Hallamos nuestro estadístico
Distribución normal: Z, T.
Paso 4: Definir la región de rechazo y la región de aceptación.
Intervalos:
R.A = < -∞; -1.645]
R.C = <-1.645; +∞ >
126
Paso 5:
Cálculos del estadístico.
2004
2005
623 – 2
687 – 8
748 – 16
638 – 3
713 – 10
645 – 4
726 – 13
700 – 9
794 – 20
662 – 5
814 – 23
674 – 6.5
752 – 17
582 – 1
781 – 19
805 – 22
723 – 11
728 – 14
674 – 6.5
766 – 18
908 – 24
737 – 15
796 – 21
724 – 12
∑ = 119.5
∑ = 180.5
µ𝑻 =
𝟏
∗ 𝒏𝟏 (𝒏𝟏 + 𝒏𝟐 + 𝟏)
𝟐
µ𝑇 =
1
∗ 12(12 + 12 + 1)
2
µ𝑻 = 𝟏𝟓𝟎
𝟏
𝟐
𝑻 = √ ∗ 𝒏𝟏 ∗ 𝒏𝟐 (𝒏𝟏 + 𝒏𝟐 + 𝟏)
1
2
𝑇 = √ ∗ 12 ∗ 12(12 + 12 + 1)
𝑻 = 𝟒𝟐. 𝟒𝟑
127
𝒁=
𝑍=
𝑻 − µ𝑻
𝑻
119.5 − 150
42.43
𝒁 = −𝟎. 𝟕𝟏𝟗
Decisión:
-
𝑍𝑘 pertenece a la región crítica, por lo tanto, rechazo la 𝐻𝑜 y acepto
la 𝐻𝑎 .
Conclusión:
-
El gasto de las personas en las vacaciones de invierno tuvo un
aumento en el año 2005 con respecto al año 2004.
PRUEBA DE KRUSKAL WALLS
Ejercicio:
Los siguientes datos muestrales se obtuvieron de tres poblaciones que no
eran necesariamente normales.
MUESTRA
1
50
54
59
59
65
MUESTRA
2
48
49
49
52
56
57
MUESTRA
3
39
41
44
47
51
¿Cuál es su decisión acerca de los datos? Utilice un nivel de riesgo de 0.05.
128
Resolución
Paso 1:
Ho: Son iguales las distribuciones de las tres muestras.
Ha: Todas las distribuciones de las tres muestras no son iguales.
Paso 2:
Paso 3:
Kruskal Walls, X2
Paso 4:
Determinamos la zona de aceptación y la de rechazo.
129
Intervalos:
R.A = <0;5.991]
R.C = <5.991; +∞ >
MUESTRA 1
MUESTRA 2
MUESTRA 3
50
8
48
5
39
1
54
11
49
6.5
41
2
59
14.5
49
6.5
44
3
59
14.5
52
10
47
4
65
16
56
12
51
9
57
13
∑ 𝒓𝟏
64 ∑ 𝒓𝟐
53 ∑ 𝒓𝟑
19
∑ 𝐫𝟏 𝟐 ∑ 𝐫𝟐 𝟐 ∑ 𝐫𝟑 𝟐
𝟏𝟐
𝐡=
+
+
[
] − 𝟑(𝐧 + 𝟏)
𝐧(𝐧 + 𝟏) 𝐧𝟏
𝐧𝟐
𝐧𝟑
12
642 532 192
h=
[
+
+
] − 3(16 + 1)
16(16 + 1) 5
6
5
𝐡 = 𝟖. 𝟗𝟖
Decisión:
-
H ϵ R.C → Rechazo la hipótesis nula y acepto la hipótesis alternativa.
Paso 5:
Conclusión:
-
Las distribuciones de las tres muestras no son iguales.
130
Ejercicio:
Para bajar de peso basta con practicar una de las siguientes actividades
tres veces por semana durante cuarenta minutos. En la tabla siguiente se
muestra la cantidad de calorías que se quema con 40 minutos de cada
una de estas actividades. ¿Estos datos indican que exista diferencia en la
cantidad de calorías quemadas con cada una de estas actividades? Dé
su conclusión.
Natación
Tenis
Andar en bicicleta
408
415
385
380
485
250
425
450
295
400
420
402
427
530
268
Resolución
Paso 1:
Ho: ρ ≤ 0.5
Ha: ρ > 0.5
Paso 2:
Paso 3:
Kruskal Walls: H
131
Chi- cuadrado: x2
Paso 4:
Definir la región de rechazo y la región de aceptación.
Intervalos:
R.A = <0;5.991]
R.C = <5.991; +∞ >
132
Natación
Tenis
Andar en bicicleta
408
8
415
9
385
5
380
4
485
14
250
1
425
12
450
13
295
3
400
6
420
10
402
7
427
11
530
15
268
2
41
∑ 𝒓𝟏
61
∑ 𝒓𝟐
∑ 𝒓𝟑
18
∑ 𝐫𝟏 𝟐 ∑ 𝐫𝟐 𝟐 ∑ 𝐫𝟑 𝟐
𝟏𝟐
𝐡=
+
+
[
] − 𝟑(𝐧 + 𝟏)
𝐧(𝐧 + 𝟏) 𝐧𝟏
𝐧𝟐
𝐧𝟑
12
412 612 182
h=
+
+
[
] − 3(15 + 1
15(15 + 1) 5
5
5
𝐡 = 𝟗. 𝟐𝟔
Decisión:
-
h = 9.26 ϵ a R.C → se rechaza la hipótesis nula y acepta la hipótesis
alternativa.
Paso 5:
Conclusión:
-
Quiere decir que hay deferencia en la cantidad de calorías
quemadas con cada una de las actividades.
133
Descargar