UNIVERSIDAD NACIONAL DE TRUJILLO “Año de la unidad, la paz y el desarrollo” FACULTAD DE INGENIERÍA TEMA: Análisis de varianza de dos factores con una sola muestra por grupo CURSO: Estadística y probabilidades de variables aleatorias y regionalizadas. DOCENTE: Marco Antonio Cotrina Teatino ESTUDIANTES: • • Briceño Ramírez Denis Heiner Aranda Quiroz Rodrigo Roger CICLO: V TRUJILLO - PERÚ 2023 Índice Introducción ...................................................................................................................... 3 Resumen ........................................................................................................................... 3 Objetivos........................................................................................................................... 4 Generales ...................................................................................................................... 4 Específicos .................................................................................................................... 4 Marco teórico.................................................................................................................... 4 Media global ................................................................................................................. 4 Variación total .............................................................................................................. 4 Variación intra grupos .................................................................................................. 4 Variación inter grupos .................................................................................................. 5 Procedimiento ................................................................................................................... 5 ¿Qué es la varianza? ..................................................................................................... 5 Ejemplo de cálculo de varianza ................................................................................ 6 Tamaños de muestra de acuerdo a distintos diseños de muestreo ................................ 7 Muestreo aleatorio simple ........................................................................................ 7 Muestreo estratificado .............................................................................................. 7 Muestreo por conglomerados ................................................................................... 8 Muestreo sistemático ................................................................................................ 8 Muestreo por cuotas.................................................................................................. 8 Factores para la determinación del tamaño de la muestra. ........................................... 8 Hipótesis ................................................................................................................... 9 Error tipo I o error α ................................................................................................. 9 Error tipo II o error β ................................................................................................ 9 Poder estadístico ..................................................................................................... 10 Variabilidad ............................................................................................................ 10 Pérdidas en el seguimiento del estudio ................................................................... 10 Relevancia del tamaño del efecto y significancia estadística ................................. 10 ¿Qué es ANOVA? ...................................................................................................... 11 Análisis de varianza de dos factores con una sola muestra o ANOVA bidireccional 11 Cálculo de ejemplo análisis de varianza de dos factores con una sola muestra por grupo .................................................................................................................................... 12 Conclusiones................................................................................................................... 15 Introducción En el siguiente informe se va a presentar la importancia, cómo funciona y qué se necesita para lo que es el análisis de varianza de dos factores con una sola muestra por grupo, este análisis nos permite estudiar dos factores de una variable de importancia en un estudio o en cualquier experimento que nosotros lleguemos a elaborar. Por eso es importante recordar la importancia de este tipo de análisis, el cual radica en determinar si existen diferencias significativas entre los grupos en función de ambos factores. Esto es útil porque puede ayudar a identificar cuál de los dos factores está teniendo un mayor efecto en la variable de interés y cómo se relacionan los dos factores entre sí. Por ejemplo, en la minería este tipo de análisis permite a los investigadores y profesionales examinar cómo dos o más factores, como diferentes técnicas de extracción o variaciones geológicas afectan a una sola muestra de datos, como bien podría ser la calidad de los minerales extraídos. Lo cual nos hace comprender cómo estos factores influyen en los resultados y son esenciales para la toma de decisiones en la minería, lo que puede llevar a mejoras en la productividad, la eficiencia y la rentabilidad de las operaciones mineras. Resumen Un análisis de varianza de dos factores con una sola muestra por grupo es una técnica estadística utilizada para analizar la influencia de dos factores en una variable de interés en un experimento, cuando solo hay una muestra para cada nivel de los factores. En este tipo de análisis, los datos se organizan en una tabla de dos vías, donde cada fila representa un nivel de un factor y cada columna representa un nivel del otro factor. Se calculan las medias y las varianzas de la variable de interés para cada celda de la tabla y se realiza un análisis de varianza para determinar si hay diferencias significativas entre los grupos formados por la combinación de los niveles de los factores. El análisis de varianza de dos factores con una sola muestra por grupo se utiliza comúnmente en el diseño experimental conocido como diseño completamente aleatorizado de dos factores, donde los sujetos son asignados aleatoriamente a los diferentes grupos de tratamiento formados por la combinación de los niveles de los factores. Para finalizar, el análisis de varianza de dos factores con una sola muestra por grupo es un método estadístico útil para determinar si hay diferencias significativas en las medias de dos o más grupos que han sido divididos según dos factores o variables categóricas. Es importante seguir los pasos adecuados para realizar este análisis y utilizar software estadístico para calcular los valores necesarios para la interpretación de los resultados. Objetivos Generales • Aprender, investigar, y aprender a ejemplificar lo que es un análisis de varianza de dos factores con una sola muestra como opción de análisis de datos en Excel Específicos • Investigar acerca de la varianza, los tipos de varianza, y como aprender a calcularla y otros términos necesarios para el análisis de varianza de dos factores con una sola muestra • Ejemplificar con el orden correcto un análisis de varianza de dos factores con una sola muestra Marco teórico Media global La media global es la medida de todos los datos en un conjunto de datos. personas. Se calcula el tamaño de la muestra de datos. 𝑋̅ = ∑𝑘𝑗=1 ∑𝑛𝑗 𝑖=1 𝑥𝑖𝑗 𝑛 Variación total Es la medida de dispersión más sencilla, que se define como la diferencia entre los valores máximo y mínimos provenientes de una muestra o de una población. 𝑘 𝑛𝑗 2 SCT = ∑ ∑(𝑥𝑖𝑗 − 𝑋̅) 𝑗=1 𝑖=1 Variación intra grupos Es la variación debida al azar (error de muestreo) entre individuos a los que se ha dado el mismo tratamiento. Hay mucha variabilidad entre las medias. cuantifica la dispersión de los valores de cada muestra con respecto a sus correspondientes medias. Variación entre muestras (SCE) o inter grupos, cuantifica la dispersión de las medias de las muestras con respecto a la media global. 𝑘 𝑛𝑗 SCD = ∑ ∑(𝑥𝑖𝑗 − 𝑋̅𝑗 ) 2 𝑗=1 𝑖=1 Variación inter grupos Es la variación entre las medias de los diferentes tratamientos debidas al azar (error de muestreo) y al efecto de los tratamientos, si es que existe. 2 SCE = ∑𝑘𝑗=1(𝑋̅𝑗 − 𝑋̅) 𝑛𝑗 , siendo 𝑥𝑖𝑗 el i-ésimo valor de la muestra j-ésima; 𝑛𝑗 el tamaño de dicha muestra y 𝑋̅𝑗 su media. Procedimiento ¿Qué es la varianza? La varianza es una medida estadística que cuantifica la dispersión o la variabilidad de un conjunto de datos más utilizada, junto a la desviación estándar, mostrando qué tan dispersos están los datos alrededor de la media o el valor esperado. Siendo una medida de la diferencia promedio entre cada dato y la media del conjunto de datos. Sin embargo, la varianza si bien está relacionada con la desviación estándar, tienen entre ellas ciertas diferencias como: 1. La varianza se expresa en unidades al cuadrado, mientras que la desviación estándar se expresa en las mismas unidades que los datos originales. Esto significa que la desviación estándar es más fácil de interpretar, ya que está en la misma escala que los datos originales, mientras que la varianza puede resultar más difícil de comprender. 2. La varianza es más sensible a los valores extremos o atípicos en el conjunto de datos, ya que los cuadra antes de calcular la media. Esto significa que, si hay valores extremos en el conjunto de datos, la varianza puede ser muy grande, lo que puede afectar su interpretación. Por otro lado, la desviación estándar toma la raíz cuadrada de la varianza, lo que la hace menos sensible a los valores extremos y, por lo tanto, puede proporcionar una medida más robusta de la dispersión de los datos. La varianza se calcula mediante la siguiente fórmula matemática: (𝛴 (𝑥𝑖 − 𝑥̄ )2 ) 𝑁 (𝛴 (𝑥𝑖 − 𝑥̄ )2 ) 𝑉𝑎𝑟𝑖𝑎𝑛𝑧𝑎 (𝑀𝑢𝑒𝑠𝑡𝑟𝑎) = 𝑛−1 𝑉𝑎𝑟𝑖𝑎𝑛𝑧𝑎 (𝑃𝑜𝑏𝑙𝑎𝑐𝑖ó𝑛) = Donde: • Σ: Representa la suma de todos los elementos del conjunto de datos • xi: Representa cada valor individual del conjunto de datos • x̄: Es la media o el valor esperado del conjunto de datos • N: Es el número total de datos de la Población • n: Es el número total de datos de la muestra Una vez calculado, si la varianza es alta significa que los datos están muy dispersos y alejados de la media, por otro lado, si la varianza es baja, significa que los datos están más cercanos a la media y menos dispersos. Ejemplo de cálculo de varianza Supongamos que tenemos que estudiar el peso de un grupo de 50 personas adultas. Registramos sus pesos en kilogramos y obtenemos los siguientes datos: 60 kg, 62 kg, 55 kg, 63 kg, 70 kg, 61 kg, 59 kg, 64 kg, 68 kg, 56 kg, 62 kg, 65 kg, 67 kg, 63 kg, 58 kg, 66 kg, 64 kg, 61 kg, 69 kg, 58 kg, 63 kg, 62 kg, 57 kg, 70 kg, 66 kg, 62 kg, 64 kg, 60 kg, 63 kg, 62 kg, 61 kg, 67 kg, 55 kg, 64 kg, 68 kg, 59 kg, 63 kg, 60 kg, 62 kg, 65 kg, 61 kg, 59 kg, 70 kg, 63 kg, 67 kg, 56 kg, 62 kg, 58 kg, 66 kg, 69 kg, 62 kg. Para calcular la varianza, lo primero que calculamos es la media de los pesos: 𝑀𝑒𝑑𝑖𝑎 = (60 + 62 + 55 + 63 + 70 + 61 + 59 + 64 + 68 + 56 + 62 + 65 + 67 + 63 + 58 + 66 + 64 + 61 + 69 + 58 + 63 + 62 + 57 + 70 + 66 + 62 + 64 + 60 + 63 + 62 + 61 + 67 + 55 + 64 + 68 + 59 + 63 + 60 + 62 + 65 + 61 + 59 + 70 + 63 + 67 + 56 + 62 + 58 + 66 + 69 + 62) / 50 = 63.2 𝑘𝑔 Luego, tomamos cada valor de peso lo restamos con la media, lo elevamos al cuadrado, y luego calculamos el promedio de los resultados obtenidos: 𝑉𝐴𝑅𝐼𝐴𝑁𝑍𝐴 [(60 − 63.2)2 + (62 − 63.2)2 + (55 − 63.2)2 + . . . +(69 − 63.2)2 + (62 − 63.2)2 ] = 50 Después de realizar los cálculos, obtenemos una varianza de 22.16 kg 2 . Esto nos indica que en promedio los pesos de las personas en el grupo varían en aproximadamente 22.16 kg 2 con respecto a la media de 63.2 kg. Por lo tanto, cuando mayor sea la varianza, mayor será la dispersión o variabilidad de los datos con respecto a la media. Siendo la varianza es una medida importante en estadística que nos ayuda a entender cuánto se dispersan los datos alrededor de la media en un conjunto de datos. Tamaños de muestra de acuerdo a distintos diseños de muestreo Para la determinación del tamaño de muestra, también hay que considerar el tipo de diseño empleado en la investigación. Existen diseños de tamaño fijo (los más usados en estudios clínicos, epidemiológicos y en investigación educativa) y de tamaño variable. En los de tamaño fijo, el tamaño de muestra se fija desde el inicio de la investigación; en los estudios de tamaño variable, el número de sujetos se irá incrementando hasta obtener un tamaño predeterminado (diseño secuencial) o el diseño experimental que involucra un solo caso. En el resto del documento sólo se hace referencia a los diseños de tamaño fijo. El tamaño de muestra necesario para un estudio depende del diseño de muestreo utilizado, así como de varios otros factores, como el tamaño del efecto que se espera detectar, el nivel de significancia deseado, la potencia estadística requerida y la tasa de pérdida de datos. A continuación, se presentan algunos diseños de muestreo comunes y consideraciones generales sobre el tamaño de muestra para cada uno: Muestreo aleatorio simple En este diseño de muestreo, cada miembro de la población tiene la misma probabilidad de ser seleccionado para la muestra. El tamaño de muestra necesario para este diseño dependerá del tamaño de la población, el nivel de precisión deseado y el nivel de confianza deseado. Muestreo estratificado Este diseño implica dividir la población en estratos y luego seleccionar una muestra aleatoria simple de cada estrato. El tamaño de muestra necesario para este diseño dependerá del tamaño de la población, el número de estratos, el tamaño de cada estrato, la variabilidad de los datos dentro de cada estrato y el nivel de confianza deseado. Muestreo por conglomerados En este diseño, la población se divide en grupos o conglomerados y se seleccionan algunos de ellos para formar la muestra. El tamaño de muestra necesario para este diseño dependerá del número de conglomerados, el tamaño de cada conglomerado, la variabilidad de los datos dentro de cada conglomerado, la correlación entre las observaciones dentro de cada conglomerado y el nivel de confianza deseado. Muestreo sistemático En este diseño, se selecciona una muestra aleatoria simple de un punto de partida aleatorio y luego se elige cada k-ésimo elemento de la población. El tamaño de muestra necesario para este diseño dependerá del tamaño de la población, la variabilidad de los datos y el valor de k. Muestreo por cuotas Este diseño implica seleccionar una muestra que refleje las proporciones de ciertas características importantes de la población. El tamaño de muestra necesario para este diseño dependerá de la precisión deseada y de la calidad de la información disponible sobre las proporciones de la población. En resumen, el tamaño de muestra necesario para cualquier diseño de muestreo dependerá de varios factores y debe determinarse en función de las necesidades específicas del estudio. Es importante realizar un análisis de poder y una planificación cuidadosa del muestreo para garantizar que la muestra sea adecuada para los objetivos del estudio. Factores para la determinación del tamaño de la muestra. Los factores que condicionan el tamaño de cualquier muestra que se haga su estudio, son de orden logístico o como también estadístico. Entre los primeros se encuentran las llamadas limitantes financieras o una buena inversión además de contar con dichos presupuestos y esto también va ligado a la disponibilidad de los participantes. Los factores de orden estadístico son los que a continuación vamos a mencionar. • Hipótesis • Error tipo I o error α. • Error tipo II o error β. • Poder estadístico. • Variabilidad. • Pérdidas en el seguimiento del estudio. • Relevancia del tamaño del efecto y significancia estadística. Cada uno de estos factores son de total relevancia al momento de querer hacer o realizar una muestra para así saber que magnitud o tamaño podría llegar a ser, a continuación, realizaremos unas breves descripciones sobre cada uno de estos factores. Hipótesis De acuerdo con el tipo de estudio de investigación, en algunas ocasiones puede ser necesario formular una o más hipótesis. Pero si se trata de un estudio tipo descriptivo, ésta ya no es necesaria. En los estudios que son de tipo comparativo es muy necesario establecerlas. En ambos casos, es necesario contrastar las hipótesis y determinar si se aceptan o se rechazan. Si nosotros deseáramos probar una hipótesis alternativa, lo que significa rechazar la hipótesis nula es decir si tenemos un valor α (error tipo I) se le conoce como la probabilidad de que se rechace H0 (se acepte H1). Al valor β se le conoce como la probabilidad de que se acepte H0 cuando es falsa (H1 es cierta). Error tipo I o error α En un contraste de hipótesis, al valor α (error tipo I) se le conoce como la probabilidad de que se rechace H0 (se acepte H1) cuando H0 es cierta. El valor de α varía dependiendo del nivel de confianza que se quiera de la prueba; el criterio más usado en la literatura biomédica es aceptar un riesgo. Error tipo II o error β A la probabilidad de que se acepte H0 cuando ésta es falsa (H1 es cierta), se le conoce como error tipo II o error β. Tabla 1. Interpretación de los posibles errores estadísticos en el contraste de hipótesis, según el Cálculo del tamaño de la muestra en investigación en educación médica (octubre - diciembre 2013) Poder estadístico Es la probabilidad de que un estudio de un determinado tamaño detecte como estadísticamente significativa una diferencia que realmente existe. Se define como 1 – b. Además, debemos tener en cuenta que cuantas menores sean los riesgos calculados para los errores alfa y beta, mayor será el tamaño muestral requerido. Cuanto menor sea la variabilidad, menor será la muestra estimada. A menor diferencia que se desea detectar, mayor será el número de participantes. Variabilidad Es la dispersión esperada de la agrupación de datos. En el cual se evalúa dependiendo de la variable de interés. Si éstas son numéricas continuas es decir grupo de valores infinitos que incluyen decimales, el tamaño de muestra estará determinado por la variable con el mayor coeficiente de variación (CV). Por otra parte, cuando las variables de interés son categóricas, por convención se recomienda utilizar la estimación de la proporción que más se acerque maso menos a 0.5, ya que proporciona el mayor número muestral. Para determinar la variabilidad se debe recurrir a la literatura publicada de la variable de interés, cuando el dato no está disponible se usarán datos de pruebas piloto y en última instancia a estimaciones hechas por expertos. Pérdidas en el seguimiento del estudio El tamaño mínimo de muestra necesario para obtener resultados estadísticamente significativos está pensado, de acuerdo con en el número de sujetos al final del estudio y no con el inicial. Por lo general se recomienda adicionar al cálculo inicial, un 10% hasta un 20% de participantes. Relevancia del tamaño del efecto y significancia estadística Con frecuencia, la obtención de una diferencia estadísticamente significativa, es decir, diferencia en los resultados al contrastar dos o más valores o grupos con una prueba estadística, generalmente se fija un punto de corte para decir que si hay diferencias entre los valores. ¿Qué es ANOVA? ANOVA es la abreviación de Análisis de Varianza, es una técnica estadística utilizada para comparar las medias de tres o más grupos, lo que nos ayuda a determinar si hay diferencias significativas entre las medias de los grupos y si estas diferencias son más allá de lo que podría atribuirse a la variabilidad aleatoria. ANOVA puede ser aplicado en varios diseños como el ANOVA de un factor (unidireccional), el ANOVA de dos factores (bidireccional), y el ANOVA de medidas repetidas (más de dos mediciones en el mismo grupo). Pero ¿Cómo funciona el ANOVA? Pues el análisis de varianza compara la que es la variabilidad intergrupal con la variabilidad intragrupal. Hallando lo que es el valor F, el cual se obtiene dividiendo la variabilidad intergrupal por la variabilidad intragrupal. Si el valor F es grande y el p-valor asociado (que es una medida de la probabilidad de obtener un valor F tan extremo o más extremo por azar) es menor que un umbral predefinido (generalmente 0.05 o 0.01), se concluye que hay diferencias significativas entre al menos dos de las medias de los grupos. Por lo cual ANOVA es una técnica ampliamente utilizada en la investigación científica y en la toma de decisiones en muchos, también utilizándose para analizar datos con múltiples grupos, como por ejemplo en estudios con diferentes tratamientos, haciendo comparación de medias en diferentes poblaciones o en análisis de datos experimentales y observacionales. Sin embargo, es importante tener en cuenta que ANOVA asume ciertas suposiciones, como la normalidad de los datos, la homogeneidad de varianzas y la independencia de observaciones, todo esto se debe verificar antes de interpretar los resultados de ANOVA de manera adecuada. Análisis de varianza de dos factores con una sola muestra o ANOVA bidireccional El análisis de varianza de dos factores con una sola muestra o el ANOVA bidireccional es aquel donde se realiza en un diseño experimental donde se manipulan dos factores y se mide su efecto en la variable dependiente. Donde los datos se organizan en una matriz o tabla con filas que representan los niveles de un factor y columnas que representan los niveles del otro factor. Teniendo que cada celda de la tabla contiene los datos o las observaciones para esa combinación particular de niveles de los dos factores. El análisis de un ANOVA de dos factores implica el cálculo de varias sumas de cuadrados (sumas de los cuadrados de las diferencias entre las medias) y grados de libertad (número de observaciones menos uno) para cada uno de los factores y las interacciones entre ellos. A partir de estas sumas de cuadrados y grados de libertad, se calculan las estimaciones de la varianza y se obtiene la estadística F para cada factor y las interacciones. Luego, se realizan pruebas de hipótesis para determinar si hay efectos significativos de los factores y las interacciones sobre la variable dependiente. Cálculo de ejemplo análisis de varianza de dos factores con una sola muestra por grupo Un ejemplo de aplicación de la varianza de dos factores con una sola muestra, hemos considerado utilizar el ejemplo de la receta de panes dulces, donde consideramos que la azúcar y la temperatura del agua afectan al tamaño de los panes. Anotando la siguiente tabla: Paso 1: Una vez teniendo nuestra tabla, nos iremos a la pestaña Datos y luego en Análisis de datos, donde seleccionaremos análisis de varianza de dos factores con una sola muestra por grupo Paso 2: Nos aparecerá una pestaña donde seleccionaremos nuestra tabla, como opción de salida escogemos la siguiente celda y daremos “Aceptar”. Paso 3: Una vez aceptado, nos aparecerán las siguientes tablas, donde la primera tabla nos habla acerca de la varianza y promedio de los datos de acuerdo a fila y columna (Poco azúcar, azúcar normal, mucha azúcar, agua fría, agua tibia y agua caliente), obteniendo lo siguiente Paso 4: En la segunda tabla tenemos lo que es ya en sí la varianza de dos factores, teniendo datos como la suma de cuadrados, los grados de libertad, el promedio de cuadrados, “F”, probabilidad y el valor crítico para “F”. Donde finalmente obtuvimos que para “F” (cantidad de azúcar) es 27, y para saber si este resultado es significativo o no tiene que ser “F” necesita ser como mínimo 6.94 (Valor crítico para “F”). Y como tenemos que “F” es ampliamente mayor que su valor crítico podemos asegurar que los resultados de nuestras pruebas son significativos, lo cual aplica lo mismo para “F” cuando es la temperatura del agua. Además, tenemos lo que es la probabilidad muestra a qué nivel los resultados son estadísticamente significativos. Conclusiones ❖ Se logró explicar, entender y ejemplificar la variación un análisis de varianza de dos factores con una sola muestra por grupo, teniendo que este análisis principalmente se basa en lo que es la varianza, para luego verificar si realmente fue significativo siempre que “F” sobre pase lo que es el valor critico de “F”. Sin embargo, todo este análisis está influenciado por distintos factores como los tamaños de la muestra y sus respectivos factores para su determinación. Lo cual nos llega a decir que el análisis de varianza de dos factores con una sola muestra es una herramienta estadística muy completa la nos ayuda a identificar cuál de los dos factores está teniendo un mayor efecto en la variable de interés y cómo es que se relacionan entre sí los dos factores. ❖ Se estudió la variabilidad y dentro de ella se vio los conceptos y definiciones sobre las perdidas en el seguimiento del estudio, relevancia del tamaño del efecto y los tamaños de muestra de acuerdo a distintos diseños de muestreo, en este último se vio un muestreo aleatorio simple, muestreo estratificado, muestreo por conglomerados, muestro sistemático, muestreo por cuotas, para así obtener el análisis de varianza de dos factores con una sola muestra y con ello se analizó los efectos de múltiples variables en una variable de resultado continua y para determinar si hay interacciones significativas entre las variables independientes. Referencias bibliográficas. ✓ Universidad Nacional Autónoma de México (2013) Cálculo del tamaño de la muestra en investigación en educación médica. Extraído de: https://www.elsevier.es/esrevista-investigacion-educacion-medica-343articulo-calculo-del-tamano-muestrainvestigacion-S2007505713727157 ✓ Karla Ramírez (16 de mayo del 2015). Análisis de varianza de dos factores con una sola muestra por grupo. Extraído de: https://www.youtube.com/watch?v=RFlUDutiAdQ&t=151s ✓ Vogt, WP (2005). Diccionario de estadística y metodología: una guía no técnica para las ciencias sociales. Extraído de: https://statologos.com/variacion-dentro-del-grupo/ ✓ Portal Estadística Aplicada (10 de diciembre del 2022). Modelos de análisis de la varianza: extraído de: https://www.estadistica.net/ECONOMETRIA/ANALISISVARIANZA/a nalisis-varianza.pdf ✓ Dagnino Sepúlveda, J., [Dr. Jorge Dagnino S]. (2014). ANÁLISIS DE VARIANZA. Revista Chilena de Anestesia, 43(43). https://revistachilenadeanestesia.cl/PII/revchilanestv43n04.07.pdf