Subido por Eriol Hale

Asignación 1 estadística PGas

Anuncio
UNIVERSIDAD DE ORIENTE
VICERRECTORADO ACADÉMICO
CONSEJO DE ESTUDIOS DE POSTGRADO
MAESTRÍA EN INGENIERÍA DE GAS
Asignación N° 1
Estadística aplicada a la Ingeniería
Elaborado por:
Barreto Steevenson C.I: 19.415.309
Brito Aníbal C.I: 11.909.544
Campos Luis C.I: 12.575.982
Sánchez Fátima C.I: 20. 645.490
Facilitador: Profesor Luis Marquez (MSc.)
Maturín, 19 de octubre de 2017
1.- Se pretende comparar la duración de tres tipos de pilas alcalinas de
frecuente presencia en el mercado. Para ello se mide la duración (en horas) de
cinco pilas de cada marca elegidas al azar, datos que se recogen a
continuación:
Marca
1
100
96
92
96
92
de las
2
76
80
75
84
82
pilas
3
108
100
105
102
100
Se pide:
a) Variable respuesta, factor a estudiar, unidades experimentales, que
modelo se debe plantear, cuántas variables se deben definir. ¿Cuáles
son?
b) ¿Cuál de las tres marcas dura más? Justifique su respuesta.
c) ¿Qué se puede concluir acerca de la duración de estas tres marcas de
pilas?
d) Realizar comparaciones múltiples por los métodos de TUKEY y D.M.S
¿Se obtuvo el mismo resultado?
e) Verifique el supuesto de normalidad e identifique si hay puntos atípicos.
f) Verifique la igualdad de las varianzas. ¿Se puede usar la prueba de
BARTLETT? ¿Por qué?
g) Use la prueba de KRUSKAL-WALLIS para el análisis de varianza. ¿Es la
misma conclusión de la parte c)?
SOLUCIÓN:
Parte a: Variable respuesta, factor a estudiar, unidades experimentales, que
modelo se debe plantear, cuántas variables se deben definir. ¿Cuáles son?
Variable respuesta: Duración en horas.
Factor a estudiar: Marca de las pilas.
Unidades experimentales: Uso de equipos de pruebas similares, iguales
condiciones.
Modelo: 𝑦𝑖𝑗 = µ𝑖 + ℇ𝑖𝑗
Variables: Se debe definir una variable, duración en horas.
Detalle del modelo matemático para análisis de varianza de un factor:
El modelo estadístico es:
Para llevar a cabo el análisis requiere la construcción de la tabla análisis de
varianza del modelo con un solo factor y efectos fijos, la cual se detalla a
continuación:
Al realizar la prueba de F y determinar el término 𝐹𝑜 , se procede a evaluar
mediante tablas estadísticas el valor de 𝐹(𝛼,𝑎−1,𝑁−𝑎) .
Las hipótesis que se plantean son:
Una forma equivalente de escribir las hipótesis anteriores es en términos de los
efectos de los tratamientos es:
𝐻𝑜 , deberá rechazarse y concluirse que hay diferencias en las medias de los
tratamientos si:
Parte b: ¿Cuál de las tres marcas dura más? Justifique su respuesta.
Comparando la media de la duración de las baterías para las marcas a evaluar,
La marca 3 se considera la de mayor duración, por presentar un valor superior
en comparación con las otras medias de las dos marcas. La gráfica a
continuación presenta los promedios de cada marca visualizándose que la
marca3 presenta una duración de 103 horas.
La evaluación de los datos por medio de un análisis de varianza, como el
mostrado en el apartado c, justificaría si la marca 3 presenta la mayor duración,
al validar si existen diferencias significativas entre la duración observada en
cada marca de pila.
Parte c: ¿Qué se puede concluir acerca de la duración de estas tres marcas de
pilas?
Para dar respuesta a ésta pregunta se procedió a la construcción del análisis
de varianza de un solo factor de acuerdo a las ecuaciones indicadas
anteriormente, para a igual a 3 y n igual a 5, N – a igual a 14:
𝑦𝑖𝑗 2 = 130034
𝑛
𝑆𝑆𝑡𝑟𝑎𝑡𝑎𝑚𝑖𝑒𝑛𝑡𝑜 = ∑
𝑖=1
𝑎
𝑦𝑖. 2 𝑦.. 2
−
= 1445,74
𝑛
𝑁
𝑛
𝑆𝑆𝑇 = ∑ ∑ 𝑦𝑖𝑗 2 −
𝑖=1 𝑗=1
𝑦.. 2
= 1597,74
𝑁
𝑆𝑆𝐸 = 𝑆𝑆𝑇 − 𝑆𝑆𝑡𝑟𝑎𝑡𝑎𝑚𝑖𝑒𝑛𝑡𝑜 = 152
𝑀𝑆𝑡𝑟𝑎𝑡𝑎𝑚𝑖𝑒𝑛𝑡𝑜 =
𝑀𝑆𝐸 =
𝐹𝑜 =
𝑆𝑆𝑡𝑟𝑎𝑡𝑎𝑚𝑖𝑒𝑛𝑡𝑜
1445,74
=
= 722,87
𝑎−1
2
𝑆𝑆𝐸
152
=
= 12,66
𝑁−𝑎
12
𝑀𝑆𝑡𝑟𝑎𝑡𝑎𝑚𝑖𝑒𝑛𝑡𝑜
722,87
=
= 57,09
𝑀𝑆𝐸
12,66
Se utilizó el software InfoStat para corroborar los cálculos y elaborar la tabla de
análisis de varianza, los resultados se indican a continuación:
Tabla 3. Resultados análisis de varianza para marca de pilas.
Posteriormente se procedió a ubicar 𝐹(𝛼,𝑎−1,𝑁−𝑎) , donde:
 α es igual a 0,05 nivel de significancia fijado que fija el investigador
 a es igual a 3, a representa el número de tratamientos, en éste caso es el
número de marcas de pilas.
 N, es el producto de n (número de observaciones o registros de la duración)
y “a” el número de tratamientos.
 Se plantearon las siguientes hipótesis
𝐻𝑜 : 𝑙𝑎𝑠 𝑚𝑒𝑑𝑖𝑎𝑠 𝑑𝑒 𝑙𝑎 𝑑𝑢𝑟𝑎𝑐𝑖ó𝑛 𝑑𝑒 𝑐𝑎𝑑𝑎 𝑚𝑎𝑟𝑐𝑎 𝑑𝑒 𝑝𝑖𝑙𝑎 𝑠𝑜𝑛 𝑖𝑔𝑢𝑎𝑙𝑒𝑠
𝐻1 : 𝑎𝑙 𝑚𝑒𝑛𝑜𝑠 𝑢𝑛𝑎 𝑚𝑒𝑑𝑖𝑎 𝑑𝑒 𝑙𝑎 𝑑𝑢𝑟𝑎𝑐𝑖ó𝑛 𝑑𝑒 𝑢𝑛𝑎 𝑚𝑎𝑟𝑐𝑎 𝑒𝑠 𝑑𝑖𝑓𝑒𝑟𝑓𝑒𝑛𝑡𝑒
De la tabla puntos porcentuales de la distribución F, se obtiene 𝐹(0,05,2,12) = 3,89
Se procedió a comparar 𝐹𝑜 y 𝐹(0,05,2,12) , determinándose lo siguiente:
𝐹𝑜 > 𝐹(0,05,2,12)
Por lo tanto, y según lo indicado, la hipótesis nula (las medias de la duración de
cada marca de pila son iguales) se rechaza, dando como conclusión que al
menos la media de la variable duración (en horas) de una de las marcas de
baterías es diferente a la de las otras marcas, o bien, el efecto de una de las
marcas es diferente a cero.
Parte d: Realizar comparaciones múltiples por los métodos de TUKEY y D.M.S
¿Se obtuvo el mismo resultado?
Prueba de Tukey:
Después de un análisis de varianza en el que se ha rechazado la hipótesis nula
de la igualdad de las medias de los tratamientos, quieren probarse todas las
comparaciones de las medias por pares:
El procedimiento de Tukey hace uso de la distribución del estadístico del rango
estudentizado:
Para tamaños de las muestras iguales, la prueba de Tukey declara que dos
medias son significativamente diferentes si el valor absoluto de sus diferencias
muestrales excede:
Donde:
𝑞𝛼 , es el estadístico del rango estudentizado
a, es el número de tratamientos
f, es el grado de libertad de los errores calculados en el análisis de varianza,
para éste caso es 12.
𝑀𝑆𝐸 , es el cuadrado medio del error
Aplicando las fórmulas indicadas para éste método se tiene:
12,66
12,66
𝑇0,05 = 𝑞0,05(3,12) × √
= 3,77 × √
= 5,99
5
5
El valor de 𝑞0,05(3,12) se obtiene de la tabla puntos porcentuales del estadístico
del rango estudentizado (ver tabla)
Se construye los intervalos de diferencia:
|𝑦̅1. − 𝑦̅2. | = 15,62 ∗
|𝑦̅1. − 𝑦̅3. | = 7,98 ∗
|𝑦̅2. − 𝑦̅3. | = 23,6 ∗
Al comparar cada diferencia con el valor de 𝑇0,05 se concluye que los pares de
medias son significativamente diferentes.
Por otro lado, aplicando la prueba de Tukey con el software InfoStat
(disponible en http://www.infostat.com.ar), se obtuvo los siguientes resultados:
En conclusión los pares de medias de las marcas de las pilas son diferentes.
Prueba de la diferencia media significativa LSD:
Se aplica sólo después de que la prueba F en un análisis de varianza sea
significativa en un 5%. Para diseños balanceados, caso en estudio, la fórmula a
aplicar es:
𝐿𝑆𝐷 = 𝑡(𝛼,𝑁−𝑎) × √
2
2𝑀𝑆𝐸
2 × 12,66
= 2,1788 × √
= 4,90
𝑛
5
Se construyen diferencias del tipo |𝑦̅𝑖 − 𝑦̅𝑗 | y se comparan con LSD calculado,
se compara|𝑦̅𝑖 − 𝑦̅𝑗 | > 𝐿𝑆𝐷, las diferencias son significativas si se cumple la
condición indicada. Para el ejercicio en estudio, se construyen los intervalos
(similares a los construidos en la prueba de TUKEY y se comparan con LSD:
|𝑦̅1. − 𝑦̅2. | = 15,62 ∗
|𝑦̅1. − 𝑦̅3. | = 7,98 ∗
|𝑦̅2. − 𝑦̅3. | = 23,6 ∗
Tolos los valores son mayores a 4,90 por tanto se concluye que hay diferencias
significativas entre los pares de medias de las duraciones de las pilas.
También se utilizó la prueba de LSD con el software InfoStat, obteniéndose los
siguientes resultados:
En conclusión se obtiene que los pares de medias de las duraciones de las
marcas de las pilas son significativamente diferentes.
En la aplicación de ambas pruebas y para él caso estudiado se obtiene los
mismos resultados. En la gráfica generada por el software para ambas pruebas
se observan las diferencias entre las medias de cada marca.
Parte e: Verifique el supuesto de normalidad e identifique si hay puntos
atípicos.
Para la verificación del supuesto de normalidad se aplicó la prueba de Shapiro
– Wilks, quién plantea lo siguiente:
𝐻𝑜 : 𝐿𝑎 𝑣𝑎𝑟𝑖𝑎𝑏𝑙𝑒 𝑎𝑙𝑒𝑎𝑡𝑜𝑟𝑖𝑎 𝑡𝑖𝑒𝑛𝑒 𝑢𝑛𝑎 𝑑𝑖𝑠𝑡𝑟𝑖𝑏𝑢𝑐𝑖ó𝑛 𝑛𝑜𝑟𝑚𝑎𝑙
𝐻1 : 𝐿𝑎 𝑣𝑎𝑟𝑖𝑎𝑏𝑙𝑒 𝑎𝑙𝑒𝑎𝑡𝑜𝑟𝑖𝑎 𝑛𝑜 𝑡𝑖𝑒𝑛𝑒 𝑢𝑛𝑎 𝑑𝑖𝑠𝑡𝑟𝑖𝑏𝑢𝑐𝑖ó𝑛 𝑛𝑜𝑟𝑚𝑎𝑙
Estadístico de prueba 𝑊𝑐 =
𝑏2
∑𝑛
̅)2
𝑖=1(𝑦𝑖 −𝑦
𝑏 = ∑𝑘𝑖=1 𝑎𝑖 × [𝑦(𝑛−𝑖,+1) − 𝑦𝑖 ], 𝑎𝑖 es el coeficiente tabulador.
Se rechazará la hipótesis nula de normalidad si el estadístico Wc es menor que
el valor crítico proporcionado por la tabla para el tamaño muestral y el nivel de
significación dado, es decir, se rechaza la hipótesis nula 𝐻𝑜 : si 𝑊𝑐 < 𝑊𝑇
El desarrollo se realizó en Excel y software InfoStat, a continuación se
presentan los resultados:
Excel:
InfoStat:
𝑊𝑇 se determina de las tablas estadísticas, para un nivel de significancia
𝑊(1−𝛼),𝑛 = 𝑊0,95,15 = 0,881
Finalmente,
𝑊𝑐 (0,90) > 𝑊𝑇 (0,881)
Se concluye que se acepta la hipótesis nula, la variable aleatoria duración en
horas tienen una distribución normal.
Por otro lado, para la determinación de los puntos atípicos se verifica a través
de la siguiente ecuación:
𝑑𝑖𝑗 =
𝑒𝑖𝑗
√𝑀𝑆𝐸
=
𝑦𝑖𝑗 − 𝑦̅𝑖.
√𝑀𝑆𝐸
donde:
𝑒𝑖𝑗 , es el residual de la observación j – ésima,
Para determinar los puntos atípicos se utilizó el diagrama de caja y bigotes
(box-plot), es un gráfico que está basado en cuartiles y mediante el cual se
visualiza la distribución de un conjunto de datos, éste gráfico suministra
información sobre los valores mínimo y máximo, los cuartiles Q1, Q2 o mediana
y Q3, y sobre la existencia de valores atípicos y la simetría de la
distribución.
Se procedió a graficar la caja de box-plot en infoStat,
Se observa que para cada marca no hay puntos que estén por fuera de la caja.
Parte f: Verifique la igualdad de las varianzas. ¿Se puede usar la prueba de
BARTLETT? ¿Por qué?
La prueba de BARTLETT se utiliza para verificar el supuesto de homogeneidad
de las varianzas, si se viola éste supuesto, la prueba F sólo resulta afectada
ligeramente en el modelo balanceado (mismo tamaño de la muestra en todos
los tratamientos “a”) con efectos fijos. Sin embargo, en diseños no balanceados
o en casos en que una de las varianzas es considerablemente más grande que
las demás, el problema es considerable.
Específicamente, si los niveles del factor que tienen las varianzas mayores
corresponden también con los tamaños de las muestras más pequeños, el
índice de error tipo 1 real, cuando el investigador no acepta la hipótesis nula
(H0 siendo esta verdadera en la población, es mayor que lo previsto (o los
intervalos de confianza tienen niveles de confianza reales más bajos que los
que fueron especificados).
Recíprocamente, si los niveles del factor con las varianzas mayores tienen
también los tamaños de las muestras mayores, los niveles de significación son
mucho menores que lo anticipado (los niveles de confianza son más altos).
Ésta es una buena razón para escoger tamaños de las muestras iguales
siempre que sea posible. Para los modelos con efectos aleatorios, las
varianzas del error diferentes pueden introducir alteraciones significativas en
las inferencias sobre los componentes de la varianza, incluso cuando se usan
diseños balanceados.
Cuando el supuesto de normalidad ha sido validada, (ya sea por el prueba de
Shapiro–Wilks una gráfica QQ, Bartlett plantea el siguiente modelo matemático
cuya distribución de muestreo es aproximada a la distribución “ji-cuadrado”, por
medio de la siguiente expresión:
Dónde:
Las hipótesis a validar con esta prueba se basan en:
𝐻𝑜 : 𝜎1 2 = 𝜎2 2 = ⋯ … . = 𝜎𝑎 2
𝐻1 : 𝐴𝑙 𝑚𝑒𝑛𝑜𝑠 𝑢𝑛𝑎 𝜎𝑖 2 𝑒𝑠 𝑑𝑖𝑓𝑒𝑟𝑒𝑛𝑡𝑒
Se rechaza la hipótesis nula si se cumple la siguiente condición:
𝑋𝑜 2 > 𝑋(𝛼,𝑎−1) 2
El primer paso es determinar las varianzas para cada marca de pila con la
aplicación del programa Infostat, cuyo resumen se presenta a continuación.
Se sustituyen los valores de varianza, “a” igual a 3, n igual a 15 en las
ecuaciones planteadas por Bartlett, obteniéndose el valor de 𝑋𝑜 2 :
𝑆𝑝 2 =
2 × [11,2 + 14,8 + 12]
= 6,33
(15 − 3)
𝐶 = 1+
1
3 1
× [ − ] = 1,236
3×2
2 12
𝑞 = 12 × 𝑙𝑜𝑔10 (6,33) − [2𝑙𝑜𝑔10 (11,2) + 2𝑙𝑜𝑔10 (14,8)] + 2𝑙𝑜𝑔10 (12,0) = 3,03
𝑋𝑜 2 = 2,3026 ×
3,03
= 5,63
1,236
De las tablas estadísticas 𝑋(0,05,2) 2 = 5,99
2
Como 𝑋𝑜 2 < 𝑋(0,05,2)
se acepta
homogeneidad de las varianzas.
la
hipótesis
nula,
comprobando
la
Parte g: Use la prueba de KRUSKAL-WALLIS para el análisis de varianza. ¿Es
la misma conclusión de la parte c)?
En situaciones en las que el supuesto de normalidad no está justificado, el
experimentador quizá quiera usar un procedimiento alternativo del análisis de
varianza con la prueba F que no dependa de este supuesto.
El estadístico de prueba es:
Si no hay empates, esto es que no se repiten observaciones o su número de
repetición es moderado, la anterior ecuación se simplifica a:
2
Si 𝑛𝑖 ≥ 5 H se distribuye aproximadamente como 𝑥𝑎−1
, por lo tanto, la hipótesis
nula (los tratamientos no difieren) se rechaza si:
2
Para el caso en estudio 𝑥0,05,2
= 5,99, por tanto,
2
𝐻 > 𝑥0,05,2
; 12,02 > 5,99
Se concluye que los tratamientos (marcas de las pilas) difieren, es la misma
conclusión reportada en el apartado c.
2.- Se pretende comparar los cuentakilómetros de cuatro vehículos: El Renault
Clio, el Renault Megane, el Ford Focus y Ford Mondeo. Para ello se realiza
cinco recorridos con cada vehículo situando los cuentakilómetros a cero, y
apuntando la distancia que marcan al final del recorrido. Los datos fueron los
siguientes:
Vehículo
Renault Clio
Renault Megane
Ford Focus
Ford Mondeo
1
63.5
64.1
65.9
64.9
RECORRIDO
2
63.2
64.2
65
65.2
3
62.3
63
63.9
64.1
4
65.6
64.2
66
65.9
5
65
64.9
65.8
67.9
Se pide:
a) Identifique los elementos del experimento: Variable respuesta, factor(es),
bloques, etc. Escriba detalladamente el modelo matemático.
b) ¿Se puede concluir que los cuentakilómetros de los cuatro vehículos dan
la misma precisión al medir distancias?
c) ¿Es conveniente o no de incluir el bloque?
SOLUCIÓN:
Parte a: Identifique los elementos del experimento: Variable respuesta,
factor(es), bloques, etc. Escriba detalladamente el modelo matemático.
Variable de respuesta: Distancia recorrida en kilómetros.
Factor: modelo del vehículo, rendimiento del vehículo; factor humano; tiempo
Bloques: Para el caso en estudio se formó 5 bloques (recorridos)
Tratamiento: (4) vehículos.
Detalle del modelo matemático para diseño de bloques completamente
aleatorizado:
El modelo RCBD (Diseño de bloques completos aleatorizados); busca
minimizar el error porcentual como fuera posible, es uno de los más utilizados.
Las unidades de equipo de prueba son con frecuencia diferentes en sus
características de operación y serian un factor de formación de bloques típicos;
es decir; estudiar la influencia de un factor tratamiento (T) con i niveles en una
variable de interés en presencia de una variable extraña, el factor bloque, B,
que tiene j bloques. La formulación matemática del modelo de diseño en
bloques completamente aleatorizados con un factor principal (factor
tratamiento), T, con I niveles y un factor secundario (factor bloque), B, con J
niveles o bloques es la siguiente:
𝑦𝑖𝑗 = 𝜇 + 𝜏𝑖 + 𝛽𝑗 + 𝜀𝑖𝑗
𝑖 = 1,2, … , 𝑎
𝑗 = 1,2, … , 𝑏
𝑏
𝑎
𝛽𝑗 = 0
𝜏𝑖 = 0
𝑖=1
𝑗 =1
El interés se encuentra en probar la igualdad de las medias de los tratamientos,
por lo tanto, las hipótesis de interés son
Una manera equivalente de escribir las hipótesis anteriores es en términos de
los efectos de los tratamientos es,
Para la comprobación de las hipótesis ya indicadas se requiere de la
construcción de la siguiente tabla:
𝑆𝑆𝑇 = 𝑆𝑆𝑇𝑟𝑎𝑡𝑎𝑚𝑖𝑒𝑛𝑡𝑜 + 𝑆𝑆𝐸 + 𝑆𝑆𝐵
Se rechaza 𝐻𝑜 si 𝐹𝑜 > 𝐹𝛼,𝑎−1,(𝑎−1)(𝑏−1)
Parte B
Para el ejercicio en estudio se plantean las siguientes hipótesis:
𝐻𝑜 : 𝑁𝑜 𝑒𝑥𝑖𝑠𝑡𝑒 𝑑𝑖𝑓𝑒𝑟𝑒𝑛𝑐𝑖𝑎 𝑒𝑛𝑡𝑟𝑒 𝑙𝑜𝑠 𝑐𝑢𝑒𝑛𝑡𝑎 𝑘𝑖𝑙𝑜𝑚𝑒𝑡𝑟𝑜𝑠 𝑑𝑒 𝑐𝑎𝑑𝑎 𝑣𝑒ℎ𝑖𝑐𝑢𝑙𝑜 𝑒𝑛 𝑒𝑠𝑡𝑢𝑑𝑖𝑜
𝐻1 : 𝐸𝑥𝑖𝑠𝑡𝑒 𝑑𝑖𝑓𝑒𝑟𝑒𝑛𝑐𝑖𝑎 𝑒𝑛𝑡𝑟𝑒 𝑙𝑜𝑠 𝑐𝑢𝑒𝑛𝑡𝑎 𝑘𝑖𝑙𝑜𝑚𝑒𝑡𝑟𝑜𝑠 𝑑𝑒 𝑐𝑎𝑑𝑎 𝑣𝑒ℎ𝑖𝑐𝑢𝑙𝑜 𝑒𝑛 𝑒𝑠𝑡𝑢𝑑𝑖𝑜
Se realizan los cálculos en Excel, tomando como base todas las fórmulas
indicadas en el modelo matemático para el análisis de varianza por la técnica
diseño de bloques aleatorizados, se obtuvo o indicado en la tabla siguiente, se
elige nivel de significancia igual a 0,05:
Vehículo
Renault Clio
Renault Megane
Ford Focus
Ford Mondeo
Yj Bloques
Ȳj bloques
Tratamiento o niveles (a) 4
bloques (b) 5
Numero total de observaciones (N) 20
1
63,5
64,1
65,9
64,9
258,4
64,6
2
63,2
64,2
65
65,2
257,6
64,4
RECORRIDO
3
62,3
63
63,9
64,1
253,3
63,325
4
65,6
64,2
66
65,9
261,7
65,425
5
65
64,9
65,8
67,9
263,6
65,9
Yi
Ῡ
Tra tami entos Tra tami entos
319,6
320,4
326,6
328
1294,6
64,73
63,92
64,08
65,32
65,6
64,73
𝑎
𝑏
𝑦𝑖𝑗2
𝑆𝑆𝑇 =
𝑖=1 𝑗 =1
5
4
𝑆𝑆𝑇 =
𝑖=1 𝑗 =1
𝑆𝑆𝑡𝑟𝑎𝑡𝑎𝑚𝑖𝑒𝑛𝑡𝑜𝑠
𝑆𝑆𝑡𝑟𝑎𝑡𝑎𝑚𝑖𝑒𝑛𝑡𝑜𝑠
𝑆𝑆𝑏𝑙𝑜 𝑞𝑢𝑒𝑠
Suma de los cuadrados totales
4
𝑦..2
𝑦𝑖𝑗2 −
𝑁
1
=
𝑏
1
=
5
1
=
𝑎
𝑦..2
−
𝑁
𝑎
𝑦𝑖2 −
𝑖=1
4
𝑦𝑖2
𝑖=1
𝑏
𝑦𝑗2 −
𝑗 =1
𝑆𝑆𝑇 =
𝑦..2
𝑁
𝑦..2
−
20
𝑦𝑖𝑗2 −
31,522
𝑖=1 𝑗 =1
𝑦..2
𝑁
Suma de los cuadrados de los tratamientos
10,918
𝑆𝑆
𝑦..2
20
5
Suma de los cuadrados de los bloques
𝑆𝑆
15,807
𝑆𝑆𝑇 = 𝑆𝑆𝑇𝑟𝑎𝑡𝑎𝑚𝑖𝑒𝑛𝑡𝑜 + 𝑆𝑆𝐸 + 𝑆𝑆𝐵
𝑆𝑆𝐸 = 𝑆𝑆𝑇 − 𝑆𝑆𝑇𝑟𝑎𝑡𝑎𝑚𝑖𝑒𝑛𝑡𝑜 − 𝑆𝑆𝐵
𝑆𝑆
𝑀𝑆𝑇𝑟𝑎𝑡𝑎𝑚𝑖𝑒𝑛𝑡𝑜 =
𝑆𝑆𝑇𝑟𝑎𝑡𝑎𝑚𝑖𝑒𝑛𝑡𝑜
𝑎−1
𝑀𝑆
Suma de los cuadrados debida al error
4,797
Cuadrado medio de los tratamientos
3,64
𝑀𝑆𝐵𝑙𝑜𝑞𝑢𝑒𝑠 =
𝑆𝑆𝐵𝑙𝑜𝑞𝑢𝑒𝑠
𝑏−1
𝑀𝑆
𝑀𝑆𝐸 =
Cuadrado medio de los bloques
3,95
𝑆𝑆𝐸
(𝑎 − 1)(𝑏 − 1)
𝑀𝑆
Cuadrado medio debidos al error
0,40
𝑜
=
𝑀𝑆𝑇𝑟𝑎𝑡𝑎𝑚𝑖𝑒𝑛𝑡𝑜𝑠
𝑀𝑆𝐸
Estadistico de pruebas
9,10
Por otro lado, se utilizó el software infoStats para corroborar los resultados
obtenidos en la hoja Excel:
Seguidamente se ubicó en las tablas estadísticas el valor de 𝐹0,05,3.12 = 3,49
Como 𝐹𝑜 > 𝐹0,05,3,12 se rechaza la hipótesis nula (la media de la variable
recorrido en kilómetros son iguales), se concluye que al menos una media del
recorrido de uno de los cuentakilómetros de un vehículo es diferente a otro
cuentakilómetros de otro vehículo, por tanto, los cuentakilómetros no tienen la
misma precisión.
Parte c: ¿Es conveniente o no de incluir el bloque?
Cuando la fuente de variabilidad perturbadora es conocida y controlable, puede
usarse una técnica de diseño llamada formación de bloques para eliminar de
manera sistemática su efecto sobre las comparaciones estadísticas entre los
tratamientos. Para definir la inclusión o no del bloque se procede a evaluar a
realizar el análisis de varianza sin la formación de bloques:
Paso 1.- Determinación de los estadístico de los bloques
SST
31,522
SSTratamiento
SSE=SST– SSTratamiento
10,918
20,64
Paso 2.- Determinación de los cuadrados medios de los tratamientos y debido
al error y Fo
MStratamiento
3,693
MSE
1,2875
Fo
26
Paso 3.- Construcción de la tabla de análisis de varianza sin formación de bloques
Fuente de variación
suma de cuadrados
Tratamientos
Error
Total
10,918
20,604
31,522
grados de medias de
Fo
libertad cuadrados
3
3,6393333
16
1,28775 2,826117906
19
Utilizando α=0,05 debe rechazarse la hipótesis nula si
𝑜
>
𝑎,𝑎−1,𝑁−𝑎
Tomando en consideración un valor de significancia de 5% (α=0,05) en
conjunto con la tabla de puntos porcentuales de la distribución F(0,05). Se
tiene que Fo > Fo;3;16
F(0,05);3;16=
3,24
Puesto que F (0,05)3,16 > Fo no se rechaza la hipótesis nula.
Por lo tanto, es conveniente incluir el bloque para hacer el error experimental lo
más pequeño posible; usando el RCBD, los bloques de prueba forman una
unidad experimental homogénea, en la cual se puede comparar los
tratamientos (vehículos); mejorando la precisión de las comparaciones entre los
tratamientos al eliminar la variabilidad entre los bloques (recorridos).
De no incluir en el análisis de varianza el bloque esto podría ocasionar un
cálculo errado; por lo que se incrementa el error experimental; a tal magnitud
de no detectar las diferencias entre las medias de los tratamientos.
Por consiguiente el diseño de bloques aleatorizados minimiza lo suficiente la
cantidad de ruido en los datos para que la diferencia entre los tratamientos
(Vehículos) sea detectada. Se utiliza el software InfoStat para corroborar que
es correcto rechazar la hipótesis nula, se aplica la prueba de diferencias
mínimas significativas (DMS), a continuación se muestran los resultados:
3.- Un experimentador está estudiando el efecto de cinco posibles mezclas de
material explosivo para la fabricación de dinamita. El material explosivo
proviene de cinco orígenes distintos y es manipulado por cinco operarios para
realizar las mezclas. Los datos que se recogen corresponden a la fuerza al
explotar.
ORIGEN
1
2
3
4
5
1
A
24
B
17
C
18
D
26
E
24
2
B
20
C
24
D
38
E
31
A
30
OPERARIOS
3
C
19
D
30
E
26
A
26
B
20
4
D
24
E
27
A
27
B
23
C
29
5
E
24
A
36
B
21
C
22
D
31
Se pide:
a) Identificar los elementos del experimento. Escribir detalladamente el
modelo matemático.
b) Determinar si influyen todas las variables consideradas. ¿Considera que
deba modificarse el modelo?
c) Comprobar si la fuerza al explotar es, en media, la misma para las cinco
mezclas.
Parte a: Identificar los elementos del experimento. Escribir detalladamente el
modelo matemático.
Variable respuesta: Fuerza al explotar.
Factor a estudiar: Origen del explosivo.
Detalle del modelo matemático para diseño de cuadrados latinos:
El diseño de cuadrado latino se usa para eliminar dos fuentes de variabilidad
perturbadora; es decir, permite hacer la formación de bloques sistemática en
dos direcciones. Por lo tanto, los renglones y las columnas representan en
realidad dos restricciones sobre la aleatorización. En general, un cuadrado
latino para p factores, o cuadrado latino pxp, es un cuadrado con p renglones y
p columnas. El modelo es completamente aditivo; es decir, no hay interacción
entre renglones, columnas y tratamientos.
El modelo estadístico para el diseño de cuadrados latinos es:
Se requiere la construcción de la tabla () para evaluar el estadístico Fo, de las
tablas estadísticas de evalúa 𝐹𝛼,(𝑝−1),(𝑝−2)(𝑝−1) , y se plantean las siguientes
hipótesis para el ejercicio:
𝐻𝑜 : 𝑙𝑎𝑠 𝑚𝑒𝑑𝑖𝑎𝑠 𝑑𝑒 𝑙𝑎 𝑓𝑢𝑒𝑟𝑧𝑎 𝑝𝑎𝑟𝑎 𝑒𝑥𝑝𝑜𝑡𝑎𝑟 𝑑𝑒 𝑙𝑎𝑠 𝑚𝑒𝑧𝑐𝑙𝑎𝑠 𝑠𝑜𝑛 𝑖𝑔𝑢𝑎𝑙𝑒𝑠
𝐻1 : 𝑎𝑙 𝑚𝑒𝑛𝑜𝑠 𝑢𝑛𝑎 𝑚𝑒𝑑𝑖𝑎 𝑑𝑒 𝑙𝑎 𝑓𝑢𝑒𝑟𝑧𝑎 𝑝𝑎𝑟𝑎 𝑒𝑥𝑝𝑙𝑜𝑡𝑎𝑟 𝑒𝑠 𝑑𝑖𝑓𝑒𝑟𝑒𝑛𝑡𝑒
La hipótesis nula se rechaza cuando 𝐹𝑜 > 𝐹𝛼,(𝑝−1),(𝑝−2)(𝑝−1)
Tabla
Parte b: Determinar si influyen todas las variables consideradas. ¿Considera
que deba modificarse el modelo?
Para el caso en estudio, se tiene un diseño 5x5, p es igual a 5,𝐹0,05,4,12 se
selecciona 0,05 como nivel de significancia.
Utilizando la herramienta infoStat, se obtuvieron los siguientes resultados:
De la tablas estadísticas, 𝐹0,05,4,12 = 3,26
Como 𝐹0 > 𝐹0,05,4,12 se rechaza la hipótesis nula y se concluye que existen
diferencias entre las medias de las fuerzas de explosión. En éste estudio se
observa que tanto el origen de las mezclas como los operarios no tienen efecto
(los valores de la prueba F son menores a el tabulado) sobre la variable fuerza
de explosión, por tanto, no se considera el cambio de modelo, si el resultado
hubiese sido que los valores de la prueba F sean mayores, deberá
considerarse cambiar el diseño de cuadrado latinos a diseño factorial para
estudiar el efecto e interacciones del origen de las mezclas y el cambio de
operarios.
Parte c: Comprobar si la fuerza al explotar es, en media, la misma para las
cinco mezclas.
Como 𝐹0 > 𝐹0,05,4,12 se rechaza la hipótesis nula y se concluye que existen
diferencias entre las medias de las fuerzas de explosión.
4.- Un ingeniero diseña una batería para su uso en el motor de ciclomotores.
Para ello dispone de tres tipos diferentes de material. Como considera que la
temperatura es un factor influyente en la duración de la batería, decide diseñar
el experimento combinando los tres materiales con tres temperaturas
concretas: - 10⁰, 20⁰ y 50⁰. Así, una vez sometidas cuatro baterías de cada
material a cada temperatura, las duraciones efectivas en horas de cada batería
son las siguientes:
1
(-10⁰)
130
(-10⁰)
155
(50⁰)
70
(20⁰)
34
(-10⁰)
180
(20⁰)
80
(50⁰)
82
(20⁰)
40
(50⁰)
20
(-10⁰)
74
(20⁰)
75
(50⁰)
58
MATERIAL
2
(20⁰)
122
(20⁰)
126
(-10⁰)
150
(50⁰)
70
(50⁰)
25
(20⁰)
115
(-10⁰)
126
(50⁰)
58
(-10⁰)
159
(-10⁰)
188
(20⁰)
106
(50⁰)
45
3
(20⁰)
150
(20⁰)
174
(-10⁰)
138
(-10⁰)
110
(50⁰)
60
(50⁰)
96
(20⁰)
120
(-10⁰)
168
(-10⁰)
160
(20⁰)
139
(50⁰)
104
(50⁰)
82
Se pide:
a) Identifique los elementos del experimento. Escribir detalladamente el
modelo matemático.
b) Estudiar si el tipo de material y la temperatura son factores
determinantes en la duración de las baterías de ciclomotores. ¿Hay
posibilidad de que un material sea más recomendado a una temperatura
en concreto y no lo sea a otra distinta?
c) Dibujar un gráfico de las duraciones medias con cada tratamiento. ¿Es
coherente con los resultados del apartado b)?. Interpretar las
interacciones con la ayuda de este gráfico.
Nota: Antes de resolver, hay que organizar la tabla, para poder aplicar el
diseño.
Respuesta:
Parte a: continuación se presenta los datos organizados que facilitaran la
resolución del ejercicio:
Material
1
2
3
Temperatura
(-)10°
20°
50°
130 155 180 74 34 40 80 75 70 82 20
150 126 159 188 122 126 115 106 70 25 58
138 110 168 160 150 174 120 139 60 96 104
58
45
82
Parte a) Los elementos que intervienen en el experimento son: Tres (03) tipo
de material de las baterías, temperatura del experimento, horas de duración del
ensayo. De acuerdo a los datos presentado el análisis factorial con dos (02) se
considera el modelo ideal para evaluar la influencia del material de la batería y
la temperatura sobre el tiempo de duración de las baterías. El modelo
estadístico lineal del diseño factorial a aplicar es:
Por lo que su ecuación matemática es:
𝑆𝑆𝑇 = 𝑆𝑆𝑚𝑎𝑡𝑒𝑟𝑖𝑎𝑙 + 𝑆𝑆𝑇𝑒𝑚𝑝𝑒𝑟𝑎𝑡𝑢𝑟𝑎 + 𝑆𝑆𝑖𝑛𝑡𝑒𝑟𝑎𝑐𝑐𝑖ó𝑛 + 𝑆𝑆𝑒𝑟𝑟𝑜𝑟
Dónde:
Los valores obtenidos serán tabulados en la tabla de análisis de varianza como
se muestra a continuación:
Los valores F0 determinados, seran comparadas con los los valores F de la
tabla estadistística F para un nivel de significancia α del 0,05 que permiten
aceptar o rechazar la hipótesis asumida durante el desarrollo del ejercicio.Para
este caso, el valor F tabulado se ubica como F𝛼 (a-1)/(ab(n-1) en las tablas
estadísticas.
Parte B: Para evaluar si el tipo de material y la temperatura son significantes
den la duración de las baterias, se procede a la apliación del análisis de
varianza, bajo las siguientes hipótesis:
Para el material:
Para la temperatura
Para la interacción entre ambos
A continuación se presente las tabls excel con los valores calculados para
cada término de la ecución matemática.
Material
1
2
3
130
150
138
418
(-)10°
155
126
110
391
Y.j.
180
159
168
507
74
188
160
422
539
623 1738
576
Temperatura
20°
34
40
122
126
150
174
306
340
Y.j.
80
115
120
315
75
106
139
320
229
469
583
1281
70
70
60
200
50°
82
25
96
203
Y.j.
20
58
104
182
58
45
82
185
230
198
342
770
Y…
3789
Y˄2…
Y˄2…
/abn
SST
14.356.521,00 398792,25 77.134,75
Cálculo del efecto de material SSmaterial:
1/bn= 0,0833333
Y˄2…
Y1=
998
996.004,00
Y2=
1290 1.664.100,00
Y2=
1501 2.253.001,00
4.913.105,00
SSA= 10.633,17
Cálculo del efecto de la temperatura SStemperatura:
1/an= 0,0833333
Y˄2…
Y1=
1738 3.020.644,00
Y2=
1281 1.640.961,00
Y2=
770
592.900,00
5.254.505,00
SSB= 39.083,17
Cálculo del efecto de la interacción SSinteracción:
1/n=
0,25
Y˄2…
Y11=
539
290.521,00
Y12=
623
388.129,00
Y13=
576
331.776,00
Y21=
229
52.441,00
Y22=
469
219.961,00
Y23=
583
339.889,00
Y31=
230
52.900,00
Y32=
198
39.204,00
Y33=
342
116.964,00
1.831.785,00
SSBA 9.437,67
Por lo tanto:
SSE= 17.980,75
El valor F tabulado se ubica como F𝛼 (a-1)/(ab(n-1), bajo la siguiente premisa:
𝑎 = 3; 𝑏 = 3; 𝑛 = 4;
Por tanto el valor F para el efecto de los materiales y el efecto de las
tempertura se aplica: 𝐹0.05 (2,27) y para el efecto de la interación de ambos se
aplica 𝐹0.05 (4,27) , cuyos valores se presentan a continuación:
𝐹0.05 (2,27) = 4,21
𝐹0.05 (4,27) = 4,73
Conocidos los valores de F, es necesario determinar el valor de F0 que se
obtiene con la aplicación matematica del anális de la varianza. Para este
cálculo se utilizará el programa estadistico InfoStat (disponible en
http://www.infostat.com.ar) , obteniéndose lo siguiente:
Los valores calculados de F0 permiten inferir los siguiente:
1. Con respecto al efecto de material, el valor de 7,98 es mayor a al
tabulado de 4,21, indicando que su interacción es significativa (rechazo
de la hipótesis H0), el material tiene efecto en la duración de la batería.
2. De forma similar, el efecto de la temperatura es siginificativo en la
duración de las baterias, debido a que el valor de Fo calculado de 29,34
es mayor al F tabulado (4,21).
3. En cuanto a la interacción de temperatura/material, los datos obtenidos
indican el rechazo de la hipótesis H0, (3,54 calculado > 2,73 tabulado)
por lo que su efecto tambien es significativo en la duración de las
baterias.
Con respecto al planteamiento sobre si hay posibilidad de que un material
sea más recomendado o no a una temperatura en concreto o distinta, se
aplicó en el programa InfoStat el procedimiento para determinar las medias
de duración de baterías, considerando el material y la temperatura, como se
muestra a continuación:
En la anterior tabla se muestra que el material 2 presenta mayor duración
para la temperatura de -10 con respecto a los demás materiales, por tanto,
se recomienda el uso de éste material a la temperatura indicada.
El mismo comportamiento lo refleja el material 3, cuyo valor de duración es
mayor a los 20 grados. Sin embargo cuando la temperatura de
experimentación aumenta de -10 a 20, la duración de la batería del material
3 permanece constante, mientras que el materiales 2 y 1 disminuyen,
incluso de manera abrupta para este último.
De lo antes expuesto se puede inferir que el material 3 es el ideal a ser
recomendado por que la disminución de su tiempo de duración es menor
tanto a -10 como 20 grados, sin descartar como posible sustituto el material
2.
En cuanto al material 1, presenta los menores tiempo de duración, sobre en
todas las temperaturas evaluadas con disminución al incrementarse la
temperatura desde -10 grados, por lo que no se considera recomendable.
Parte c: El grafico de duración media se presenta a continuación:
El gráfico muestra los valores medios de la duración de las baterías para
los tres tipos de materiales a las temperaturas de evaluación de -10, 20 y 50
grados. El comportamiento de las medias indica que todos los materiales
presenta la mayor duración de batería sin importar el tipo de material,
aunque.
A la temperatura antes descrita, el material 2 refleja el mayor valor de
duración de batería, sin embargo su disminución se ve afectada a 20
grados y presenta una fuerte disminución en la visa útil de la batería a la
temperatura de 50.
Con respecto al material 3, el mismo presenta un leve incremento de la
duración de la batería al ser evaluada a 20 grados, lo que reafirma lo
indicado en el punto b, en cuanto a su recomendación.
Otro punto a considerar es el hecho que el material 2 presenta una
tendencia lineal en comparación con las curvas del material 1 y el material
3, lo que infiere que la interacción de los efectos de material y temperatura
es menor.
Descargar