ESTADÍSTICA BÁSICA en LABORATORIOS (Físico - Químicos) (Aplicaciones de Microsoft Excel®) Curso a distancia (EDICIÓN Junio 2012) ASECAL, S.L. MADRID-ESPAÑA RONDA DE TOLEDO, 8, LOCAL 1º- 28005 MADRID. Teléfono: 91 364 13 13. FAX: 91 364 28 38 E-mail: [email protected] CIF: B-79851051 ESTADÍSTICA BÁSICA (Aplicaciones de Microsoft Excel®) EN LABORATORIOS FÍSICO QUÍMICOS. RESUMEN DEL CURSO ACCIÓN FORMATIVA ESTADÍSTICA BÁSICA en LABORATORIOS (Físico - Químicos) (Aplicaciones de Microsoft Excel®) IMPARTICIÓN A DISTANCIA Nº HORAS dedicación Mínimo de CUARENTA FECHAS atención DURANTE TRES MESES a partir de la matriculación COMUNICACIÓN [email protected] 91 364 13 13 DESTINATARIOS Técnicos con conocimientos elementales de estadística y que necesiten ampliar dichos conocimientos en relación con las técnicas estadísticas que se usan comúnmente en el laboratorio (F-Q). OBJETIVOS Obtener los conocimientos básicos necesarios, teóricos y prácticos, de los conceptos generales de la estadística que se utiliza en los laboratorios físico-químicos aplicando para ello algunas herramientas de Excel disponibles. Explotación de los datos obtenidos. MÓDULOS 1. LA DISTRIBUCIÓN NORMAL Y OTRAS DISTRIBUCIONES. 2. CONTRASTE DE HIPÓTESIS. 3. ANÁLISIS DE LA VARIANZA. 4. MEDIDA DE LA DEPENDENCIA. METODOLOGÍA respuesta en tres días hábiles Explicaciones teóricas apoyadas en casos prácticos desarrollados con Excel (versión 2003). (Es preciso DISPONER DE ORDENADOR provisto de la aplicación). Resolución, por el alumno, de los casos desarrollados. Envío a ASECAL de los casos resueltos. Revisión de casos y resolución, por el tutor, de las dudas consultadas. DOCUMENTACIÓN CERTIFICADO De participación y cumplimiento del curso. Texto de las materias del programa. Libro Excel del alumno para trabajar los casos prácticos. Libro Excel con las soluciones a los casos prácticos. ATENCIÓN MÍNIMA PARA OBTENCIÓN DEL TÍTULO Hoja 2 de 65 80% de casos prácticos (14 de 18) resueltos y entregados A DISTANCIA Junio 2012 ESTADÍSTICA BÁSICA (Aplicaciones de Microsoft Excel®) EN LABORATORIOS FÍSICO QUÍMICOS. ÍNDICE 0. INTRODUCCIÓN .........................................................................................................5 1. LA DISTRIBUCIÓN NORMAL Y OTRAS DISTRIBUCIONES ....................................8 1.1. 1.2. 1.3. 1.4. 1.5. Teorema Central del Límite ............................................................................... 16 Divergencias respecto de la distribución normal............................................... 16 Parámetros descriptores de una distribución .................................................... 18 Intervalos de confianza...................................................................................... 21 CASOS PRÁCTICOS MÓDULO 1 .................................................................... 23 1.5.1. 1.5.2. 1.5.3. 1.5.4. 1.6. 2. AUTOEVALUACIÓN MÓDULO 1...................................................................... 25 CONTRASTE DE HIPÓTESIS...................................................................................26 2.1. 2.2. 2.3. 2.4. 2.5. Distribuciones t, F2 y F ....................................................................................... 29 Comparación de dos distribuciones. ................................................................. 35 Comparación de descriptores............................................................................ 37 Límites de tolerancia.......................................................................................... 38 CASOS PRÁCTICOS MÓDULO 2 .................................................................... 42 2.5.1. 2.5.2. 2.5.3. 2.5.4. 2.5.5. 2.5.6. 2.6. 3. Caso 1.1. Distribución normal...................................................................23 Caso 1.2. Análisis de una distribución muestral. ......................................23 Caso 1.3. Normalización por cambio de variable. ....................................24 Caso 1.4. Cálculo de descriptores............................................................24 Caso 2.1. Una definición de límite de detección (errores y )................42 Caso 2.2. Prueba de F2 de para comprobar ajuste a la Normal................42 Caso 2.3. Prueba de K-S de para comprobar ajuste a la Normal. ............42 Caso 2.4. Comparación de las pruebas de F2 y de K-S. ...........................42 Caso 2.5. Comparación de varianzas y de medias. .................................42 Caso 2.6. Contrastes de Dixon (Q) y de Grubbs (G). .................................42 AUTOEVALUACIÓN MÓDULO 2...................................................................... 43 ANÁLISIS DE LA VARIANZA ...................................................................................44 3.1. 3.2. 3.3. Análisis simple de la varianza ........................................................................... 46 Aplicación de ANOVA al cálculo de sr y sR ......................................................... 48 CASOS PRÁCTICOS MÓDULO 3 .................................................................... 50 3.3.1. Caso 3.1. Aplicación de ANOVA “paso a paso”........................................50 3.3.2. Caso 3.2. Aplicación de la herramienta Excel para ANOVA.....................50 3.3.3. Caso 3.3. Aplicación de ANOVA a un caso de validación. .......................50 3.4. 4. AUTOEVALUACIÓN MÓDULO 3...................................................................... 51 MEDIDA DE LA DEPENDENCIA ..............................................................................52 4.1. 4.2. 4.3. Correlación ........................................................................................................ 53 Regresión .......................................................................................................... 54 CASOS PRÁCTICOS MÓDULO 4. ................................................................... 62 4.3.1. 4.3.2. 4.3.3. 4.3.4. 4.3.5. 4.4. 5. Caso 4.1. Aplicación de correlación y regresión “paso a paso”. ...............62 Caso 4.2. Aplicación de Análisis de Datos Excel a la regresión. ..............63 Caso 4.3. Reflexiones sobre la elección de la regresión. .........................63 Caso 4.4. Comparación de dos rectas de regresión.................................63 Caso 4.5. Linealización de una regresión no lineal. .................................63 AUTOEVALUACIÓN MÓDULO 4...................................................................... 64 BIBLIOGRAFÍA .........................................................................................................65 Hoja 3 de 65 A DISTANCIA Junio 2012 ESTADÍSTICA BÁSICA (Aplicaciones de Microsoft Excel®) EN LABORATORIOS FÍSICO QUÍMICOS. 6. CASOS PRÁCTICOS RESUELTOS .........................................................................65 6.0. 6.1. 6.2. 6.3. 6.4. 6.5. 6.6. 6.7. 6.8. 6.9. 6.10. 6.11. 6.12. 6.13. 6.14. 6.15. 6.16. 6.17. 6.18. Nota previa sobre utilización de Excel.................................................................. I Caso 1.1. Características de la distribución normal. ........................................... II Caso 1.2. Ejemplo de una muestra de 25 observaciones.................................. VI Caso 1.3. Normalización por cambio de variable............................................... XI Caso 1.4. Cálculo de descriptores.....................................................................XV Caso 2.1. Cálculo del LD (errores y ) ..........................................................XIX Caso 2.2. Prueba de F2 para comprobar ajuste a la Normal...........................XXII Caso 2.3. Prueba de Kolmogorov-Smirnov. .....................................................XXIII Caso 2.4. Comparación de las Pruebas de F2 y de K-S. ............................... XXVI Caso 2.5. Comparación de (varianzas y) medias ........................................ XXVII Caso 2.6. Estadísticos Q de Dixon y G de Grubbs (1 extremo) ........................ XXX Caso 3.1. ANOVA “paso a paso”................................................................. XXXIII Caso 3.2. Cálculo de ANOVA con Análisis de datos de Excel...................XXXVII Caso 3.3. ANOVA de “validación” ...............................................................XXXIX Caso 4.1. (Correlación y ) Regresión lineal.................................................... XLIII Caso 4.2. Regresión lineal con Análisis de datos de Excel ...........................XLIX Caso 4.3. Reflexiones sobre la elección de la regresión. ................................... L Caso 4.4. Comparación de dos rectas de regresión. ........................................ LV Caso 4.5. Regresión no lineal. Linealización. ................................................ LVIII A continuación, se incluyen algunas páginas extraídas como ejemplo Hoja 4 de 65 A DISTANCIA Junio 2012 ESTADÍSTICA BÁSICA (Aplicaciones de Microsoft Excel®) EN LABORATORIOS FÍSICO QUÍMICOS. 3. ANÁLISIS DE LA VARIANZA El análisis de la varianza, creado por R. A. Fisher, se emplea para la planificación y evaluación de experiencias y permite medir el efecto cuantitativo de las variables de influencia sobre los resultados de dichas experiencias. Mediante la prueba de ANOVA (ANálisis Of VAriance), tratamos de determinar si un cierto número de medias poblacionales estimadas no son diferentes entre sí. El ANOVA es un método que se emplea para comparar resultados obtenidos por distintos analistas, métodos, laboratorios, etc, cuando el número de medias obtenidas es superior a dos (la comparación de dos medias se ha visto en el módulo anterior). Si se observan, de forma gráfica, los siguientes conjuntos (1 y 2) de datos (supóngase obtenidos por dos métodos distintos, analizando un mismo ítem, por triplicado, por tres analistas distintos), se puede obtener una percepción intuitiva de las distintas cualidades de cada uno: Conjunto 1 Grupo 1 Grupo 2 Grupo 3 Conjunto 2 Grupo 1 Grupo 2 Grupo 3 Dato 1 Dato 2 Dato 3 245 253 234 243 223 230 252 244 263 Dato 1 Dato 2 Dato 3 245 241 246 233 229 234 258 252 249 Media 244 232 253 Media 244 232 253 243 243 Obsérvese que las medias de grupo (y por tanto la general) son idénticas en ambos conjuntos. Datos Medias Conjunto 2 270 270 260 260 253 250 244 240 232 230 Valores Valores Conjunto 1 244 232 230 210 210 3 253 240 220 2 Grupos Medias 250 220 1 Datos 1 2 Grupos 3 Si se aplicara la prueba ANOVA a cada uno de los conjuntos, no se encontrarían diferencias significativas entre las medias del conjunto 1 y sí entre las del conjunto 2, por causa de las diferentes dispersiones de los datos dentro de los grupos en cada conjunto (en el conjunto 2 la dispersión de las medias es mucho mayor que la de los datos dentro de los grupos). Hoja 44 de 65 A DISTANCIA Junio 2012 ESTADÍSTICA BÁSICA (Aplicaciones de Microsoft Excel®) EN LABORATORIOS FÍSICO QUÍMICOS. En el ANOVA, la hipótesis nula supone que todas las muestras se extraen de una población de media y varianza 2 (desconocidas). Así pues, este análisis presupone condiciones de normalidad y homogeneidad de las varianzas de los grupos que vamos a comparar, por lo que lo primero que se debería examinar es si las varianzas experimentales (si2) que se analizan son homogéneas. Para ello, se puede utilizar la prueba de Cochran, aplicable para examinar la homogeneidad de las varianzas de un conjunto de k grupos del mismo tamaño p (Nota: Si los grupos tuvieran tamaños distintos, deberíamos aplicar un prueba distinta, por ejemplo la de Bartlett, que no es objeto de este curso) mediante el estadístico: 2 s max Ĉ Cochran s 12 s 22 .... s k2 cuyo resultado compararemos con el valor crítico tabulado correspondiente (tabla siguiente para la que no disponemos Función Excel) para k y Q = p-1, al nivel de significación prefijado (generalmente =0,05), para aceptar que las varianzas son homogéneas (iguales) mientras que el valor obtenido no supere al tabulado. Valores críticos para el estadístico Cochran (Nivel de significación = 0,05) Q = p –1 1 2 3 4 5 6 7 8 9 10 16 36 144 k 2 0,9985 0,9750 0,9392 0,9057 0,8772 0,8534 0,8332 0,8159 0,8010 0,7880 0,7341 0,6602 0,5813 0,5000 3 0,9669 0,8709 0,7977 0,7457 0,7071 0,6771 0,6530 0,6333 0,6167 0,6025 0,5466 0,4748 0,4031 0,3333 4 0,9065 0,7679 0,6841 0,6287 0,5895 0,5598 0,5365 0,5175 0,5017 0,4884 0,4366 0,3720 0,3093 0,2500 5 0,8412 0,6838 0,5981 0,5441 0,5065 0,4783 0,4564 0,4387 0,4241 0,4118 0,3645 0,3066 0,2513 0,2000 6 0,7808 0,6161 0,5321 0,4803 0,4447 0,4184 0,3980 0,3817 0,3682 0,3568 0,3135 0,2612 0,2119 0,1667 7 0,7271 0,5612 0,4800 0,4307 0,3974 0,3726 0,3535 0,3384 0,3259 0,3154 0,2756 0,2278 0,1833 0,1429 8 0,6798 0,5157 0,4377 0,3910 0,3595 0,3362 0,3185 0,3043 0,2926 0,2829 0,2462 0,2022 0,1616 0,1250 9 0,6385 0,4775 0,4027 0,3584 0,3286 0,3067 0,2901 0,2768 0,2659 0,2568 0,2226 0,1820 0,1446 0,1111 10 0,6020 0,4450 0,3733 0,3311 0,3029 0,2823 0,2666 0,2541 0,2439 0,2353 0,2032 0,1655 0,1308 0,1000 12 0,5410 0,3924 0,3264 0,2880 0,2624 0,2439 0,2299 0,2187 0,2098 0,2020 0,1737 0,1403 0,1100 0,0833 15 0,4709 0,3346 0,2758 0,2419 0,2195 0,2034 0,1911 0,1815 0,1736 0,1671 0,1429 0,1144 0,0889 0,0667 20 0,3894 0,2705 0,2205 0,1921 0,1735 0,1602 0,1501 0,1422 0,1357 0,1303 0,1108 0,0879 0,0675 0,0500 24 0,3434 0,2354 0,1907 0,1656 0,1493 0,1374 0,1286 0,1216 0,1160 0,1113 0,0942 0,0743 0,0567 0,0417 30 0,2929 0,1980 0,1593 0,1377 0,1237 0,1137 0,1061 0,1002 0,0958 0,0921 0,0771 0,0604 0,0457 0,0333 40 0,2370 0,1576 0,1259 0,1082 0,0968 0,0887 0,0827 0,0780 0,0745 0,0713 0,0595 0,0462 0,0347 0,0250 60 0,1737 0,1131 0,0895 0,0765 0,0682 0,0623 0,0583 0,0552 0,0520 0,0497 0,0411 0,0316 0,0234 0,0167 120 0,0998 0,0632 0,0495 0,0419 0,0371 0,0337 0,0312 0,0292 0,0279 0,0266 0,0218 0,0165 0,0120 0,0083 0 0 0 0 0 0 Hoja 45 de 65 0 0 0 0 0 0 0 A DISTANCIA Junio 2012 0 ESTADÍSTICA BÁSICA (Aplicaciones de Microsoft Excel®) EN LABORATORIOS FÍSICO QUÍMICOS. 3.1. Análisis simple de la varianza Supónganse k grupos muestrales, de tamaños respectivos p, todos iguales, siendo n el número total de elementos muestrales (n=k p), supuesto que cada grupo muestral procede de una población normal y que todas las poblaciones normales tienen la misma varianza (desconocida). Esta varianza se puede estimar de dos formas: estudiando la variación dentro de los grupos y estudiando la variación entre los grupos. La varianza dentro de los grupos, debida al error puramente aleatorio, se calcula como promedio de las varianzas de cada grupo. La varianza entre grupos (o debida al factor que determina los grupos) es una estimación de la varianza de la población a partir de la varianza de la distribución de las medias de grupo (2/p) (recuérdese lo visto en 1.3). Si la hipótesis nula es correcta, las dos estimaciones no deberían diferir significativamente aplicando la prueba F, de Fisher, vista en 2.3. Pero si difieren, la razón puede deberse a varias causas (que una media difiera mucho a las demás, que todas las medias difieran entre sí o que existan varios grupos de medias distintas). El estudio de las causas puede realizarse aplicando pruebas estadísticas (por ejemplo Tukey) que no son objeto de este curso. Veamos la mecánica de la ANOVA simple: A cada valor muestral xij se le asignan dos subíndices ij (i -ésimo grupo, j -ésimo valor), donde 1 d i d k y 1 d j d p. Las observaciones se ordenan, normalmente, en forma de tablas: TABLA PARA EL ANÁLISIS SIMPLE DE LA VARIANZA Grupo muestral Observaciones 1 2 ... i ... k-1 1 2 ... j ... p-1 p k x11 xij xkp p ¦x Las medias de cada grupo muestral están definidas por: x i k La media general es: x p k ¦¦ x ij p¦ x i n n i 1 j 1 i 1 ij j 1 p k ¦x i i 1 .... continúa .... k Y el análisis de la varianza consiste en: Hoja 46 de 65 A DISTANCIA Junio 2012 ESTADÍSTICA BÁSICA (Aplicaciones de Microsoft Excel®) EN LABORATORIOS FÍSICO QUÍMICOS. 3.3. CASOS PRÁCTICOS MÓDULO 3 Estudiaremos las aplicaciones más comunes de ANOVA, utilizando Excel. Las soluciones a los distintos casos se pueden ver en APARTADO 6 DE CASOS PRÁCTICOS RESUELTOS 3.3.1. Caso 3.1. Aplicación de ANOVA “paso a paso”. Con los datos de las observaciones obtenidas de nueve series, presentados a continuación, realizamos, “paso a paso”, el análisis simple de la varianza. Grupo Observaciones 1 1 231 2 238 3 227 4 242 5 235 6 236 p= 6 k= 9 2 3 251 237 235 249 244 220 222 230 237 236 234 245 4 243 246 250 225 242 247 5 230 237 226 231 228 229 6 238 235 249 246 241 237 7 241 215 235 255 237 237 8 235 226 222 230 225 233 9 228 234 236 218 230 235 n= 54 Y, además, aplicamos la ISO 5725 para calcular las varianzas de repetibilidad y de Reproducibilidad. 3.3.2. Caso 3.2. Aplicación de la herramienta Excel para ANOVA. Con los datos anteriores, utilizamos la herramienta de Análisis de datos que incorpora Excel, para tomar una “instantánea” del ANOVA de un factor. 3.3.3. Caso 3.3. Aplicación de ANOVA a un caso de validación. Aplicaremos ANOVA a los datos de validación siguientes, obtenidos en el ensayo realizado sobre un material de referencia de valor conocido (1,659)(no se indican unidades para el ejemplo, bien podrían ser p.ej. mg/L) en condiciones de reproducibilidad interna (en seis días distintos) (y también por distintos analistas, aunque estos no constan): Obs nº i 1 2 3 4 Concentración Esperada xi 1,659 1,659 1,659 1,659 DIA 1 Concentración Observada xi estimadas 1,650 1,674 1,600 1,555 DIA 2 DIA 3 DIA 4 DIA 5 DIA 6 1,744 1,599 1,700 1,669 1,612 1,777 1,634 1,644 1,625 1,633 1,677 1,687 1,779 1,666 1,707 1,688 1,611 1,636 1,616 1,497 Y aplicamos la ISO 5725 para calcular las varianzas de repetibilidad y de Reproducibilidad. .... continúa .... Hoja 50 de 65 A DISTANCIA Junio 2012 Obs nº i 1 2 3 4 Hoja XXXIX de LIX de CASOS RESUELTOS Ftabulado 2,7729 k-1 5 BETWEEN (entre días) 2,2580 n-k 18 WITHIN (repetibilidad) Fobs n-1 23 0,002814 1,620 DIA 1 Concentración Observada x i estimadas 1,650 1,674 1,600 1,555 TOTAL VARIANZAS MEDIAS Concentración Esperada xi 1,659 1,659 1,659 1,659 como %CV 5,2 como %CV 3,4 como %CV 3,9 0,000964 1,656 1,625 1,633 1,677 1,687 DIA 4 VREPRODUCIBILIDAD (Vrepetibilidad + VL) VR sR 0,00426 0,065 como %CV 3,9 SI->NO existen diferencias entre los grupos s 0,086 sr 0,057 s 0,064 0,005581 1,667 1,612 1,777 1,634 1,644 DIA 3 VL [(Vbetween - Vrepetibilidad )/p] (=0 SI <0) VL 0,00102 (5,18,0.05) ¿Es Fobs<Ftab? 0,00731 0,00324 0,00413 0,003721 1,678 1,744 1,599 1,700 1,669 DIA 2 g.l. 19 g.l. 18 0,003961 1,590 1,611 1,636 1,616 1,497 DIA 6 t (0.05, g.l.) 2,09 t (0.0455, g.l.) 2,15 cochran = 0,2871 0,002397 t obs = 0,4254 1,710 1,779 1,666 1,707 1,688 DIA 5 "R"=sR g.l. 0,070 "r"=sr g.l. 0,061 como %CV 4,2 como %CV 3,7 Ccrit (0.05, 6, 3) = 0,5321 t (0.05, 23) = 2,0687 MEDIA General p 4 k 6 Varianzas Verdadera y Observada 1,653 n 24 IGUALES IGUALES Corrección 0,006 CASOS RESUELTOS ESTADÍSTICA BÁSICA (Aplicaciones de Microsoft Excel®) EN LABORATORIOS FÍSICO QUÍMICOS. 6.13. Caso 3.3. ANOVA de “validación” Primero veamos el resultado final de la hoja que se va a preparar: Y, ahora veamos los distintos elementos aplicados: A DISTANCIA Junio 2012 CASOS RESUELTOS ESTADÍSTICA BÁSICA (Aplicaciones de Microsoft Excel®) EN LABORATORIOS FÍSICO QUÍMICOS. Rango imprimible utilizado: B2:P38. Celdas auxiliares (en rango no imprimible): en esta ocasión se utilizará, como auxiliar, otra hoja con la tabla de valores críticos para la prueba de homogeneidad de las varianzas de Cochran. Contenido de las celdas: ………. En J13 se está utilizando una simplificación (más exigente) de la comparación de medias con varianzas “iguales” donde una de las medias es un valor “cierto” con varianza = 0. [En la realidad del laboratorio, cuando se utiliza un MR (material de referencia), se conocerá el valor asignado a la propiedad que se mide y la varianza asociada a este valor]. .... continúa .... ………. Hoja XL de LIX de CASOS RESUELTOS A DISTANCIA Junio 2012