UT 1. ESTADÍSTICA DESCRIPTIVA (1ª PARTE) • Poblaciones. Variables aleatorias. • Muestras. Datos estadísticos. Estadística Descriptiva. Inferencia Estadística. • Tablas de frecuencias: • Variables unidimensionales. • Variable bidimensionales (tablas de contingencia) • Histogramas. • Parámetros de posición: • Medias • Mediana • Cuartiles • Parámetros de dispersión: • Recorrido. • Varianza. Desviación Típica. • Intervalo intercuartílico. • Parámetros de asimetría y de curtosis. • Diagramas de Box−Whisker. objetivo La Ciencia Estadística tiene un doble objetivo: • La generación y recopilación de datos que contengan información relevante sobre un determinado problema. • El análisis de dichos datos con el fin de extraer de ellos dicha información. El primer paso en el análisis de un conjunto de datos debe ser siempre un tratamiento descriptivo sencillo de los mismos. Dicho tratamiento busca poner de manifiesto las características y regularidades existentes en los datos y sintetizarlos en un nº reducido de parámetros o mediante representaciones gráfica adecuadas. En este primer nivel de análisis, puramente descriptivo, no se pretende todavía extrapolar conclusiones de los datos a la población de la que éstos han sido extraídos, lo que constituirá el objeto de la Inferencia Estadística. • Poblaciones. Variables aleatorias. Población " objeto del estudio estadístico. " conjunto de los individuos o entes que constituyen el objeto de un determinado estudio y sobre el que se desea obtener ciertas conclusiones. Hay 2 tipos: • población real • población abstracta ej 1: en un estudio sobre la intención de voto de los ciudadanos españoles 1 población el conjunto de los aproximadamente 30 millones de españoles con derecho a voto ej 2: en un estudio sobre el desarrollo de la tristeza en cítricos de la Comunidad Valenciana población la totalidad de los árboles cítricos existentes en esta Comunidad ej 3: al realizar en una industria el control de calidad en recepción de una partida de piezas población la totalidad de piezas que componen la partida Los ejemplos anteriores tratan en todos los casos de poblaciones con una existencia física real, constituidas por un nº finito, aunque posiblemente muy elevado, de individuos. Aunque pueda parecer sorprendente, no es ésta la situación más frecuente en la práctica, sino q en gral las poblaciones a estudiar son de carácter abstracto, fruto del necesario proceso de conceptualización q debe proceder al estudio científico de cualquier problema real. Ej 4: un ej trivial sacado de los juegos de azar sirve para ilustrar la idea anterior. Se desea estudiar si un dado es correcto o está trucado. ¿Qué querrá decir que un dado es correcto? En la práctica, si se tira el dado un nº muy elevado de veces, los 6 resultados posibles saldrán aproximadam con la misma frecuencia. Para abordar este problema, nos referiremos a la población abstracta constituida por infinitos lanzamientos del dado en cuestión, población sobre la q deseamos estudiar si la frecuencia relativa con la q se presentan los 6 resultados posibles son idénticas. Ej 5: en una investigación sobre el rendimiento de una nueva variedad de trigo Población las parcelas plantadas con dicha variedad q puedan existir en el futuro Ej 6: en un estudio sobre la eficiencia de diversos algoritmos de encaminamiento de mensajes entre nudos en una red de procesadores Población todos los mensajes q puedan generarse en la red. Los individuos que forman una población pueden corresponder a entes de naturaleza muy diversa (personas, árboles, piezas, lanzamientos de dados, parcelas, mensajes,...). (En los 3 primeros ejemplos, dichos individuos tienen una existencia real previa a la realización de dicho estudio. En los ejemplos 4, 5 y 6, los individuos q constituyen la población, pueden irse generando a mediante la realización de un determinado proceso (lanzar un dado, plantar una parcela con una det variedad, emitir un mens desde un nudo,...) ). Experimentos aleatorios " los procesos q, en sucesivas realizaciones, pueden ir generando los diferentes individuos de la población. En toda población real existe variabilidad. Unos españoles votan a ciertos partidos y otros a otros Unos naranjos tienen tristeza y otros no 2 Una det dimensión varía algo de una pieza a otra El nº q sale al lanzar el dado varía de unas tiradas a otras, el rendimiento varía de unas parcelas a otras Unos mensajes tienen retardos más elevados q otros Característica aleatoria " cualquier característica q pueda constatarse en cada individuo de una población. Ej1 el partido q piensan votar los individuos Ej 2 ausencia o presencia de tristeza en los árboles Ej5 rendimiento obtenido en las parcelas Ej 6 el retardo de un mensaje. Muchas características aleatorias se expresan numéricamente=> se les ll variables aleatorias " cualquier característica que se puede medir (expresar numéricamente) en los individuos de una población y que varía de unos a otros. El nº de puntos obtenidos al lanzar un dado El rendimiento constatado en una parcela El retardo de un mensaje Cuando una característica aleatoria es de tipo cualitativo (el partido político a votar) se pueden codificar numéricam sus diferentes alternativas y tratarla como una variable aleatoria. Sin embargo, se debe tener cuidado porque operaciones perfectam legítimas con características intrínsecam numéricas (sumar y promediar los rendimientos de diferentes parcelas) carecerán de sentido en este caso. Autoevaluación ¿qué sentido práctico tendría el resultado de sumar y promediar los códigos de los partidos votados por un conjunto de individuos? Variable aleatoria K−dimensional " Cuando sobre cada individuo de la población se estudian K características diferentes (todas ellas expresables numéricamente). Variable aleatoria de dimensión 4 si en la población constituida por los estudiantes de la UPV se estudia el sexo, la edad, la estatura y el peso. En estos casos es frecuente utilizar los valores de aquellas componentes cuya naturaleza intrínseca es cualitativa (el sexo) para dividir la población inicial en subpoblaciones (chicos y chicas) entre las cuales interesa estudiar las diferencias en las pautas de variabilidad existentes en las otras componentes de la variable aleatoria (cómo difieren las pautas de variabilidad del peso o la estatura entre chicos y chicas de la UPV). A es importante darse cuenta de la diferencia entre una variable aleatoria k−dimensional, en la que las K variables se miden sobre los individuos de una misma población, y un conjunto de k variables unidimensionales, definidas sobre k poblaciones distintas. A el contenido en zumo y el calibre de las naranjas de un huerto, ¿constituyen una variable aleatoria 3 bidimensional? A ¿y el nº de líneas de código y el nº de errores en los programas preparados en una empresa de software? A y el contenido en leucocitos de la sangre en individuos alcohólicos y no alcohólicos? A y las estaturas del marido y de la mujer en los matrimonios jóvenes de un país? Variable aleatoria discreta Cuando el conjunto de los valores que podría tomar una determinada variable aleatoria es discreto (finito o infinito numerable). A veces se ll tb atributos. Variable aleatoria continua cuando el conjunto de los valores que podría tomar una determinada variable aleatoria es un infinito continuo. Todas las características q se miden sobre una escala de naturaleza básicamente continua. Variables discretas: El nº de puntos al lanzar un dado El nº de picadas de ceratitis en cada naranja de un huerto El nº de errores en un programa de ordenador Cualquier variable q se origine al codificar las diferentes alternativas de una característica cualitativa: sexo, partido votado,.. Variables continuas: Pesos, rendimientos, tiempos , rendimientos, resistencias,... A la definición clara sobre la población sobre la q se desea obt conclusiones es el primer paso de cualquier estudio. El alumno deberá plantearse 3 problemas q le interesen de su vida cotidiana y definir en cada caso, con la mayor precisión posible, la población y las variables aleatorias implicadas, analizando su naturaleza discreta o continua. A en el estudio de insecticidas, se define la LD50 (dosis letal 50) de un producto como aquella dosis mínima que administrada a ratas provoca la muerte al 50% de las mismas. Al estudiar la LD50 de un determinado producto: ¿cuál es la población implicada? ¿y cual la variable aleatoria considerada? A en una factoría interesa cuantificar, con el fin de controlar el consumo de E (utilizada en su mayor parte en la climatización de las naves), la relación existente entre el consumo diario de electricidad y la tª media del día correspondiente. ¿cuál es la población implicada y la variable aleatoria considerada? A muchas veces se realizan afirmaciones que, pese a ser ciertas, se prestan a confusión al ser interpretadas sin una reflexión suficiente. Supongamos que en España el 80% de los matrimonios q se divorcian están formados por católicos y sólo un 5% lo están por ateos. ¿qué podría deducirse de la afirmación anterior? Criticar dicha deducción. A se asume que el alumno debe tener suficiente capacidad de análisis crítico para razonar correctamente ante ellas. A este fin se propone el siguiente ejemplo: La relación entre delincuencia y tamaño familiar ha sido 4 discutida por muchos autores. En apoyo de su tesis, el Sr. X facilitaba los siguientes datos relativos al nº de hermanos en las familias de jóvenes acusados de delitos. Los datos corresponden acierto juzgado londinense durante cierto período. Nº de hijos en la familia del delincuente 1 2 3 4 5 6 Nº de casos 5 8 11 14 16 18 El sr.X argumentaba q de los datos anteriores se desprendía que al aumentar el tamaño de la familia aumentaba la probabilidad de delincuencia. En una réplica a las afirmaciones anteriores, el sr.Y argumentó que el sr X no había tenido en cuenta que al aumentar el nº de hijos era lógico que aumentara la probabilidad de que al menos uno fuera delincuente (es decir, que una familia con 2 hijos tiene mayor probabilidad de que uno sea delincuente que una con 1 hijo, sin que ello implique que al aumentar el tamaño de familia aumente la probabilidad individual de q cada hijo resulte delincuente). El srY que las cifras anteriores debería corregirse para tener en cuenta dicho sesgo, dividiendo el nº de casos por el de hijos, obteniendo el siguiente resultado: Nº de hijos en la familia del delincuente 1 2 3 4 5 6 Nº de casos 5 4 3.7 3.5 3.2 3 El srY deducía de su análisis una conclusión contraria a la del srX: al aumentar el nº de hijos disminuía la probabilidad individual de que cada unos de ellos resultara un delincuente. A el alumno deberá estudiar los argumentos de los sres X e Y y pronunciarse sobre ellos sintetizando su opinión al respecto y señalando, en su caso, la información adicional que consideraría necesaria para analizar el tema en cuestión. • Muestras. Datos estadísticos. En gral no resulta posible estudiar la totalidad de los individuos de una población para obtener información sobre ésta. Incluso cuando esta posibilidad existe técnicamente, como es el caso al tratar poblaciones reales finitas, dicho procedimiento suele ser impracticable por consideraciones económicas. En consecuencia, para obt información sobre una población hay que limitarse a analizar un subconjunto de individuos de la misma. A este subconjunto se le ll. Muestra. 5 La forma de seleccionar los individuos que han de constituir la muestra tiene, como es lógico, una importancia capital para garantizar que ésta permita obt conclusiones que puedan extrapolarse válidamente a la población de la q la muestra procede. No hay q olvidar nunca que el objeto final del estudio es siempre la población y que la muestra es sólo un medio para obt información sobre ésta. Con el fin de permitir inferir conclusiones válidas sobre una población, la muestra debe ser representativa de ésta. En teoría la única forma de garantizar la representatividad de la muestra es seleccionando al azar los individuos que la vayan a componer, de forma que todos los individuos de la población tengan a priori una probabilidad idéntica de pertenecer a la muestra. Aunq esta forma de proceder rara vez sea aplicable de forma estricta en la práctica, siempre hay que extremar las precauciones para que la forma real de obtener la muestra sea lo más parecida posible a la ideal. En realidad en muchos casos un conocimiento previo sobre la población es indispensable para decidir si la muestra puede ser representativa de la misma. Se desea estudiar la relación q existe entre la estatura y el peso entre la juventud española. El conj de los alumnos matriculados en estadística en 3º en la ETSIAV ¿puede considerarse una muestra representativa de la población a efectos del estudio en cuestión? Dicho conjunto ¿puede considerarse una muestra representativa para estudiar las tendencias políticas en la juventud española? ¿Y para estudiar el nivel cultural? ¿ y para estudiar la característica aleatoria color de los ojos? Cuando la población estudiada es real (ejs 1, 2 y 3) la muestra se forma, como hemos señalado, seleccionando de la forma más aleatoria posible un conj de individuos de la misma. Cuando se muestra una población abstracta (ejs 4 y 5) la forma de extraer una muestra no es más que realizar un cierto nº de veces el experimento aleatorio que genera los individuos de una población (lanzar varias veces el dado, plantar unas cuantas parcelas de la variedad en estudio, generar un conj de mensajes en la red de multiprocesadores). A plantear cómo se podría obt una muestra representativa en cada una de las 3 poblaciones definidas por el alumno. Datos estadísticos " los valores observados para la variable aleatoria en los individuos que forman la muestra. Estadística Descriptiva " el tratamiento de dichos datos con el fin de poner de manifiesto sus características más relevantes y sintetizarlas mediante unos pocos parámetros o mediante representaciones gráficas adecuadas. Inferencia Estadística " el análisis de los mismos con el fin de obtener conclusiones que, con un margen de confianza conocido, sean extrapolables a la población de la que procede la muestra. Su objetivo sacar conclusiones, respecto a la población, a partir de los datos obtenidos de una muestra representativa de ella. Pero existe siempre un margen de incertidumbre en cuanto a esa interpretación de los resultados y se calcula mediante el cálculo de probabilidades, que es la base matemática de la Inferencia Estadística. Según la probabilidad calculada, se interpreta si los resultados son significativos o no. PROCESO POBLACIÓN MUESTRA (representativa) 6 • Tablas de frecuencias. Variables unidimensionales Los primero: El conjunto de valores observados, relacionados en el orden en el q han sido obtenidos, constituyen el material inicial a partir del cual debe llevarse a cabo el análisis estadístico descriptivo. Si el nº de datos no es muy reducido, su interpretación se facilita presentándolos agrupados en una tabla: • Si la variable es discreta los datos se pueden sintetizar en una tabla donde aparezca: • La variable (Xi) • El nº de casos (frecuencia absoluta) " ni • La frecuencia relativa " fi = ni/N Variable (Xi) Nº de casos (ni) Frecuencias relativas (fi = ni/N) Cuando la variable estudiada es de tipo discreto, los datos pueden sintetizarse en una tabla como la adjunta, en la q, en este caso, se pretende describir la gravedad de un ataque de mosca del mediterráneo a partir del nº de picadas constatado en 200 naranjas: Picadas Nº de naranjas Frecuencia relativa (Xi) 0 1 2 3 (ni) 48 106 32 14 fi =ni/N 0.24 0.53 0.16 0.07 En esta tabla, para cada valor Xi constatado en la muestra, se refleja la frecuencia absoluta ni o nº de veces q dicho valor ha sido observado en la muestra. Dado que las frecuencias absolutas dependen del nº total N de observaciones, suele ser conveniente reflejar también en la tabla las frecuencias relativas fi que no son más que los cocientes ni /N. • Si la variable es continua se suele proceder aun agrupamiento de los datos en tramos. ¿cómo? dividiendo el campo de variación en un conjunto de k intervalos de igual longitud anotando : los límites de cada intervalo 7 • valor central de cada intervalo • el nº de observaciones constatadas en el mismo ¿cuántos intervalos hemos de hacer? • Cuanto + intervalos => +información ganas pero=> + difícil de ver e interpretar será. • es un orden de magnitud bueno y general. cuando la variable estudiada es de tipo continuo, y dado q el nº de datos de la muestra es obviamente finito, nada impediría en ppio emplear un procedimiento de tabulación similar al expuesto en el caso discreto. Sin embargo, como será difícil encontrar valores repetidos de las Xi (de hecho si la variable se midiera con suficiente precisión la probabilidad de encontrar valores repetidos sería nula) la tabla resultante sería excesivam prolija y casi tan difícil de interpretar como los datos iniciales. Por ello, se acostumbra a proceder a un agrupamiento de los datos dividiendo el campo de variación en un conjunto de K intervalos de igual longitud y anotando los límites y el valor central de cada intervalo, así como el nº de observaciones constatadas en el mismo. No es posible determinar a priori la amplitud óptima q deben tener los intervalos y, en consecuencia, en nº de éstos. Un nº excesivo de intervalos plantea el problema de conducir a una tabla muy prolija y difícil de interpretar. Pero si el agrupamiento es excesivo, se pierde una parte importante de la información contenida en los datos. En gral, valores entre 5 y 15 intervalos, (dependiendo en parte del tamaño N de la muestra) suelen ser razonables, no estando en gral un nivel mayor de desagregación. La siguiente tabla recoge, a título de ejemplo, el resultado de la tabulación en 11 intervalos de los valores del ratio entre los 2 diámetros en 815 hojas de tabaco. Límite del intervalo 1.55−1.65 1.65−1.75 1.75−1.85 1.85−1.95 1.95−2.05 2.05−2.15 2.15−2.25 2.25−2,35 2.35−2,45 2.45−2.55 2.55−2.65 Centro del intervalo Nº de observaciones Xi 1.60 1.70 1.80 1.90 2.00 2.10 2.20 2.30 2.40 2.50 2.60 ni 3 12 40 97 157 204 183 75 31 9 4 Con vistas a aumentar la información para un nº determinado de intervalos se recurre a veces a establecer éstos con tamaños desiguales, más amplios en las zonas con pocos datos y más estrechos en las de mayor frecuencia de observaciones. La práctica, sin embargo, no es en gral aconsejable, puesto que la información contenida en la tabla resulta más difícil de captar en un simple examen de la misma. En cambio, puede resultar conveniente dejar 2 intervalos abierto en ambos extremos de la tabla, con el fin de recoger los pocos valores extremos observados. 8 En el establecimiento de intervalos conviene definir con precisión los límites de éstos y el tratamiento a dar a lo valores que caigan exactamente sobre los mismos. Señalaremos por último que aunque una variable estudiada sea de tipo discreto también puede ser aconsejable agrupar los valores para su tabulación en el caso de q el campo de variabilidad de los datos sea muy amplio. A discutir la afirmación de q si la variable es continua y el sistema de medidas suficientem preciso la probabilidad de encontrar dos valores iguales es nula. A ¿por qué se pierde mucha información en la tabulación si el nº de intervalos considerado es muy pequeño? A tabular los valores constatados para las variables DÍGITO, POLÍTICA y PROBLEMA en la encuesta realizada. Estudiar en particular la frecuencia con q aparecen los distintos dígitos. A la vista de los resultados, ¿parece visible la hipótesis de q cuando se enuncian dígitos supuestam al azar los pares aparecen con la misma frecuencia que los impares? Variable bidimensionales. Tablas de contingencia. Cuando se está considerando una variable aleatoria bidimensional, • un primer análisis entre la relación existente entre las 2 características en estudio, puede llevarse a cabo a partir de la construcción de la tabla de frecuencias cruzada que recoja la frecuencia con q se ha observado cada combinación de valores posibles de ambas variables. Tabla de frecuencias bidimensional se emplea para ver y estudiar sobretodo la relación entre dos variables aleatorias de tipo cualitativo (realmente debería decirse dos componentes de una variable bidimensional). • Frecuencias absolutas " el nº (real) de veces que una variable aleatoria toma un cierto valor. • Frecuencia relativa " el % respecto al total del nº de veces que un resultado ocurre. • En el caso de q 1 o ambas de las variables sea de tipo continuo será preciso proceder a un agrupamiento en intervalos de sus valores. Este tipo de tablas de frecuencias se les denomina a veces en Estadística tablas de contingencia. La tabla siguiente está obtenida a partir de las respuestas de los propios alumnos asistentes a la 1ª clase de Estadística de la ETSIA el curso 88−89, y recoge los variables SEXO y REPITE, la segunda de las cuales recoge el hecho de si el alumno repite o no la asignatura. (Tabla) • Cada casilla recoge el nº de individuos q tienen los valores correspondientes para las 2 variables (SEXO y REPITE). • A la derecha de la tabla se recogen las frecuencias totales, tanto absolutas como relativas (estas últimas expresadas como porcentaje), para los 2 valores de SEXO. A esta frecuencias se les denomina frecuencias marginales. En la parte inferior de la tabla se recogen las frecuencias marginales para la variable REPITE. • Con el fin de estudiar si la proporción de repetidores es similar en los 2 sexos conviene calcular la influencia relativa de cada casilla respecto al total de la fila correspondiente. Estas frecuencias relativas, q se recogen en la tabla en % en la parte inferior de cada casilla, se ll. Frecuencias relativas condicionales de REPITE en función de los valores de SEXO. 9 A calcular a partir de los datos de la tabla anterior las frecuencias relativas condicionales de SEXO frente a REPITE. ¿cuál de los 2 conjuntos de frecuencias condicionales q pueden prestarse a una interpretación más interesante? Cuando se dice q el 80% de los matrimonios q se divorcian en España son católicos, ¿de qué tipo de frecuencias relativas se está hablando? ¿qué frecuencias relativas consideras que sería interesante comparar con el fin de estudiar la relación entre religión y divorcio? En las prácticas de laboratorio cada grupo deberá obtener las tablas de contingencia q considere interesantes a partir de los datos de la encuesta realizada en clase. ¿ha sido exactamente la misma frecuencia de dígitos impares en los chicos y en las chicas? Ante los resultados observados, ¿crees que podría afirmarse que existe una diferencia sistemática entre sexos, extrapolable a toda la juventud española respecto a preferir dígitos impares o pares? Estudia cómo a partir de la tabla cruzada correspondiente, la relación existente en la muestra entre POLÏTICA y PROBLEMA. ¿crees que las conclusiones obtenidas respecto a la POSICIÓN POLÍTICA y PROBLEMA considerado como más importante se repetiría en otras muestras extraídas de la población constituida por la juventud universitaria española? • Histogramas. Histograma " representación gráfica de un conjunto de datos q se emplea para representar datos de una variable cuantitativa. • Eje horizontal valores posibles de la variable. • Eje vertical frecuencias (absolutas o relativas) con q aparecen dichos valores. Ppio básico los histogramas de datos procedentes de un proceso bajo control tienen aproximadamente la forma de una campana centrada sobre la media del proceso. Un histograma no es más q una determinada representación gráfica de un conj de datos. En el eje horizontal de las abscisas se representan los valores tomados por la variable en cuestión, agrupados en tramos de la forma habitual si la variable es continua. Sobre cada tramo se levanta una barra de altura proporcional a la frecuencia (es indiferente que sea absoluta o relativa) de valores observados en el tramo considerado. La siguiente figura recoge el histograma correspondiente a los datos sobre la relación de diámetros en hojas de tabaco. (figura) Los histogramas de frecuencias constituyen una poderosa herramienta para el análisis descriptivo de datos, pues permiten muchas veces poner claramente de manifiesto problemas como: • Existencia de datos anómalos Hay un valor q destaca • Mezclas de poblaciones distintas 10 • Datos artificialmente modificados Datos falseados: los datos se tomaron ajustándolos al valor nominal q debía obtenerse en el proceso, los datos q caían cerca del valor nominal se aproximaban a él. A la drcha no aparece el resto de la campana de Gauss pq esos datos de la drcha se salían de las especificaciones del proceso y lo q se hizo con ellos es anotarlos directamente como si se hubiera obtenido el valor nominal. Curva de Gauss q se debería haber obtenido y q se truncó artificialmente falseando los datos. • No normalidad de los datos,... Proceso con buena (poca) variabilidad, pero mal centrado. Aunq en ppio parezca bueno el proceso, hay q corregirlo, para centrarlo. Límites de las especificaciones Valor nominal El error más frecuente q cometen los técnicos es q resuelven correctamente problemas equivocados. Un mínimo de 40 ó 50 datos es aconsejable para construir un histograma. El nº adecuado de tramos depende del tamaño de la muestra. Una regla empírica q conduce a valores razonables es utilizar como nº de tramos un estero cercano a la raíz cuadrada del nº de datos. En cualquier caso no es frecuente, ni presenta en gral ventaja alguna, trazar un histograma con más de 15 ó 20 tramos. (histograma) A obtener el histograma de frecuencias para las variables ESTATURA y PESO a partir de los datos de la encuesta. Una determinada dimensión generada en el mecanizado de unas piezas debe diferir como máximo en 5 unidades del valor nominal. Los datos reflejados en un gráfico de control referido a 100 piezas y medidos en diferencias respecto al nominal son los siguientes: (copiar, I−18) Obtener un histograma de los datos anteriores y comentar las conclusiones que se deducen del mismo. También es posible obtener histogramas tridimensionales para representar variable bidimensionales. Sin embargo la dificultad de interpretarlos limita bastante la utilidad práctica de esta opción. Otro tipo de gráfico q resulta interesante, es el diagrama de frecuencias acumuladas. En este caso, las abscisas levantadas sobre el límite superior de cada intervalo corresponden a la frecuencia acumuladas, es decir a la suma de las frecuencias constatadas en todos los intervalos anteriores al considerado (incluyendo las de éste). La gráfica, tiene forma de una línea quebrada no decreciente. En gral se opera con frecuencias relativas y la altura final es, por tanto, igual a 1. El diagrama de frecuencias acumuladas permite responder directam a preguntas como: • ¿qué % de hojas entre las estudiadas tiene una relación de diámetros inferior a 1.9? 11 • ¿qué relación de diámetros sólo es superado por un 5% de las hojas de la muestra? Un histograma sintetiza los datos de forma gráfica, pero además, sólo para variables cuantitativas se definen los: PARÁMETROS ESTADÍSTICOS " índices que reflejan los aspectos esenciales de la variabilidad de los datos observados. Hay 3 tipos: • Parámetros de POSICIÓN • Parámetros de DISPERSIÓN • Parámetros de forma de ASIMETRÍA De CURTOSIS • Parámetros de posición. Media. Mediana. Cuartiles. Parámetros de posición indican la zona donde caen los datos. Ej: una máquina q fabrica asientos más duros q otra. Dos poblaciones q tienen una variable que difiere en su posición. Hay que decir que en promedio los datos tienen un cierto orden de magnitud. Ej: una máquina q fabrica con más dispersión de cierta característica aleatoria q otra (será mejor la q presenta menor dispersión): Las tablas y gráficas que acabamos de estudiar tienen la totalidad, o al menos una gran parte, de la información existente en la muestra. Uno de los primeros problemas q se plantean en Estadística es el de sintetizar esta información, reduciéndola a un nº limitado de parámetros más fáciles de manejar y comparar entre sí. Fundamentalmente la pauta de variabilidad constatada en un conj de observaciones relativas a una variable unidimensional puede caracterizarse por 2 tipos de parámetros q definan respectivam la posición y la dispersión de las observaciones. En la sig figura, en la q se ha sustituido por comodidad los histogramas de frecuencias por curvas, se ve claramente el sentido de ambos términos. (2 histogramas p ) A dibujar cómo serían los histogramas de frecuencias (o unas curvas continuas q los aproximen) para la variable ESTATURA de los jóvenes españoles, diferenciando el relativo a los CHICOS de entre las CHICAS. Dibujar tb los histogramas hipotéticos para las variables COEFICIENTE INTELECTUAL. En el presente apartado nos ocuparemos de los parámetros más utilizados para caracterizar la posición de un conj de datos, dejando para el sig el estudio de los parámetros de dispersión. Media. El parámetro de posición mas utilizado en la práctica es la media aritmética de los datos. Su cálculo se realiza mediante la fórmula bien conocida: Media " 12 La media sintetiza la información existente en la totalidad de los datos en un nº que da una idea clara sobre la posición de los mismos. Es el parámetro ppal que indica la posición de los individuos de una muestra, es el indicador de posición más utilizado. Media muestral " nº de individuos de una muestra Media poblacional " nº de individuos de una población (puede no ser finito) A calcular y comparar la media de estatura de CHICOS y CHICAS a partir de la encuesta realizada en clase. La media tiene una serie de propiedades q la hacen especialm idónea como medida de posición. • Si una variable Z es la suma de 2 variables X e Y, la media de Z resulta igual a la suma de las medias de X e Y Z = X + Y => media(Z) = media(X) + media(Y) • Si la variable Y es una transformada lineal de otra variable X ( Y= a + bX) la media de Y resulta ser la misma transformada lineal de la media de X Y = a + bX => media(Y) = a + media(X) A definir una nueva variable Z igual a ESTATURA + PESO. Y comprobar q la media de Z es la suma de las medias de las 2 variables consideradas A definir una nueva variable ESTCM q defina la estatura como el nº de cm en que se excede a un metro, y comprobar q la media ESTCM es el nº de cm en q la media de estatura rebasa un metro.. En algunos casos particulares, la media puede resultar una medida de posición algo engañosa. Este es el caso en concreto con datos muy asimétricos, en los q unos pocos valores extremos (en gral por la cola derecha del histograma) pueden influir excesivamente sobre el valor de media. En estos casos se aconseja usar la mediana como una medida de posición alternativa en vez de la media. A al preguntar un viajero a un botones de un hotel qué propina le dan normalmente, éste respondió que la media de aquel día había sido de 1000. 9 viajeros le había dado 100 ptas y uno 10000. La media no era en este caso una medida adecuada de la posición de los datos. ¿cuál considera que sería una medida adecuada de la posición de los datos mencionados? Mediana. En caso de datos muy asimétricos o con algunos valores extremos puede ser aconsejable usar la mediana como una medida de posición alternativa en vez de la media. Mediana " valor sobre el q hay igual nº de datos por encima y por debajo de él. La mediana puede definirse intuitivam como el valor central de los observados. Si se ordenan las n observaciones de menor a mayor, 13 la mediana se define como el valor: • Q ocupa la posición si n es impar. mediana = Ej: de 7 observaciones, ordenados de menor a mayor, la mediana sería el 4º valor. • La media entre los valores q ocupan las posiciones y si n es par. mediana = Ej: si tenemos los siguientes datos: 73 64 52 44 61 83 • ordenamos de menor a mayor 44 52 61 64 73 83 • n es par => la mediana será la media de los datos intermedios: (61+64)/2 En un diagrama de frecuencias con asimetría (q normalmente es asimétrico por la derecha), la mediana es el valor en q el área es igual por ambas partes: Mediana Moda " el valor más frecuente En una distribución simétrica (en una campana de Gauss): Es característico de una distribución normal, que es la distribución más frecuente aunq no se completam simétrica. A ¿cuál sería la mediana en el ejemplo mencionado de las propinas al botones del hotel? A en una empresa de 500 operarios se considera la variable SALARIO MENSUAL de cada empleado. ¿qué sería en este ejemplo la media y la mediana de los datos? A la LD50 de un insecticida ¿a qué parámetro de distribución de la variable considerada corresponde? A la mediana, no a la media. A ¿qué otro parámetro podía haberse definido en vez de la LD50? A ¿por qué consideras q se eligió en su día el primer parámetro? A calcular las medianas de las variables EDAD, ESTATURA, PESO y TIEMPO con los datos de la encuesta y compararlos con las medias respectivas. Constatar la sensible diferencia entre ambos parámetros para la variable TIEMPO y comprobar con un histograma q la distribución de esta variable es muy asimétrica. 14 Cuartiles. El primer cuartil de un conj de datos se puede definir de forma aprox como el valor C1 tal q la 4ª parte de los datos son inferiores a él y 3 cuartas partes de los datos son superiores al mismo. Teniendo la mediana de las observaciones, • la mediana de los datos q quedan por encima es el primer cuartil • la mediana de los datos q quedan por debajo es el tercer cuartil • De forma más precisa, C1 es el primer cuartil si el nº de datos q C1 es mayor q y el nº de datos C1 es mayor q . • De forma simétrica, se define el tercer cuartil C3 como el valor tal q el nº de datos C3 es mayor q y el nº de valores C3 es mayor q . Entre los dos cuartiles C1 y C3 se encuentra el 50% central de los datos observados. A calcular el primer y tercer cuartil de los datos sobre los ejemplos sobre las propinas en el hotel y sobre mecanizado de cierta pieza. A Calcular los dos cuartiles de las variables ESTATURA y PESO con los datos de la encuesta. Repetir el cálculo por separado con los chicos y las chicas. Comentar los resultados obtenidos. • Parámetros de dispersión. Como hemos señalado, toda población real se caracteriza por la presencia de variabilidad en los valores de las variables q puedan observarse en la misma. Para describir un conj de datos estadísticos, y tener en consecuencia una idea sobre la pauta de variabilidad existente en la población de la que procede la muestra, no es suficiente por tanto de disponer de una medida de la posición de dichos datos, si no q es preciso también cuantificar de alguna forma el grado de dispersión existente en los mismos. Importancia del concepto de dispersión la calidad industrial se basa en minimizar la dispersión. A para una persona q no sabe nada ¿es suficiente saber q la profundidad media en el lago es 1,40m para lanzarse al baño en el mismo? Por cierto, ¿cuál será la población y cuál la variable aleatoria en este caso? ¿aclararía mucho la decisión el conocer la profundidad mediana del lago? A una empresa automovilística ha determinado mediante estudios ergonómicos q la dureza óptima de los asientos es 250N. A sus posibles proveedores, les exige q la dureza de los asientos q les venda no difieran en más de un 10% de dicho valor, o sea, que esté comprendida entre 225 y 275N. La naturaleza de los asientos ofrecidos por 2 posibles proveedores presentan una pauta de variabilidad sintetizada por los siguientes 15 histogramas: (histogramas p I−26) en ambos casos los proveedores cumples las especificaciones de la empresa, consiguiendo las 2 variables consideradas la misma media deseada de 250N. ¿puede considerarse q la elección entre ambos proveedores es por tanto irrelevante? Compraríamos del primer proveedor porque su proceso tiene una menor dispersión, además el 2º, dada la forma del histograma, presenta datos falseados, su proceso se sale de especificaciones y han recortado, falseado el histograma por los laterales. ¿ en qué difieren las pautas de variabilidad de las longitudes entre ambos proveedores? ¿cuál resulta preferible? ¿por qué? Últimamente la idea de dispersión de un conj de datos es bastante clara. El conjunto de datos 3,3,3,3 y 3 tiene una dispersión nula. Los datos 1, 3, 5, 7 y9 tienen dispersión, pero menor que los datos 1, 5, 10, 15 y 20. ¿cómo puede precisarse esta idea intuitiva mediante un índice que cuantifique la mayor o menor dispersión de estos datos? Diferentes parámetros pueden utilizarse al respecto. ¿cómo medir la dispersión? Mediante el : Recorrido " la medida de dispersión más sencilla para un conj de observaciones, q no es más que la diferencia entre el mayor y el menor de los datos. Aunque útil en muestras pequeñas ( el recorrido se utiliza frecuentemente en el control de procesos industriales, donde es habitual tomar periódicamente muestras de tamaño 5), el recorrido presenta el inconveniente de q ignora gran parte de la información existente en la muestra. El problema se presenta cuando hay demasiados datos o cuando alguno de ellos es muy extremo aunq en gral es un parámetro pobre => es mejor utilizar la varianza o su raíz cuadrada, la desviación típica. Dado que la media es en la mayor parte de los casos un buen parámetro de posición, parece lógico tomar como medida de dispersión algún parámetro relacionado con la magnitud de las desviaciones de los datos observados respecto a su media. X1 (x1−m)2 X2 (x2−m)2 .. .. xn (xn−m)2 m El valor medio de estas desviaciones será siempre 0 ( al anularse las desviaciones positivas con las negativas) por lo que no puede utilizarse como media de dispersión. A comprobar la afirmación anterior sobre una cualq de las variables de la encuesta. 16 La medida de dispersión más utilizada en Estadística es la varianza o, alternativam, su raíz cuadrada q se ll. Desviación típica. La varianza " el promedio de los cuadrados de las desviaciones de los datos respecto a su media. Consideraciones teóricas hacen q en el cálculo de dicho promedio, la suma de los cuadrados de dichas desviaciones se divida por (N−1) en vez de por N. ¿por qué? Pq el objeto de estudio es siempre la población, no la muestra. En un caso extremo en el q sólo se tome un dato, no se podría estudiar la variabilidad pq el valor de la varianza sería 0/0. Varianza de una muestra: Varianza " Muestral S2 = Poblacional = Desviación Típica " muestral S = " Poblacional = " En gral se prefiere utilizar como medida descriptiva de la dispersión la desviación típica, q resulta más fácil de interpretar al venir expresada en las mismas unidades q los datos estadísticos. Sin embargo las propiedades estadísticas son mas sencillas con las varianzas. Así cuando dos variables aleatorias son independientes, la varianza de su suma es la suma de las varianzas, cosa que no sucede si se consideran las desviaciones típicas. Propiedades de la varianza : • Y = a + X => (Y) = (X) • Y = a + bX => (Y) = b2 (X) => (Y) = b (X) • Y = X1 + X2 => (Y) = (X1) + (X2) " (la varianza de la suma es la suma de las varianzas sólo cuando las dos variables son independientes, cuando no están relacionadas) • Y = X1 − X2 " X1 + (−1) X2 => (Y) = (X1) + (−1) (X2) " (la varianza de la resta es la suma de las varianzas) En la calculadora, ¿qué botón se usa? ¿ ó ? • sería para calcular la desviación típica poblacional • sería para calcular la desviación típica muestral 17 pero nunca vamos a tener los datos de una población, sino los de una muestra => spre calcularemos la desviación típica muestral => se usa Muy frecuentem las variables aleatorias reales siguen pautas de variabilidad q se caracterizan por histogramas q se asemejan a campanas aproximadamente simétricas. La Estadística ha establecido un modelo matemático de este tipo de variables aleatorias, la denominada distribución normal o de Gauss. En datos q siguen una distribución normal se cumplen aproximadamente las siguientes propiedades: • 2/3 de los datos (" 68.25%) difieren de la media menos de S 68.25% • el 95% de los datos difiere de la media menos de 2S 95% • la práctica totalidad de los datos ( en teoría más de un 99,7%) difieren de la media menos de 3S. 99.73% (Es tan poco probable q haya datos fuera de ese intervalo q, incluso, si ocurre, se investiga lo q ha pasado pq el proceso está fuera de control.) A comprobar si se cumplen aproximadam los datos anteriores con los datos de la variable ESTATURA analizando solamente los datos de los chicos. La desviación típica viene medida en las mismas unidades q los datos primitivos. En algunos casos interesa disponer de algún indicador de dispersión q sea adimensional. Si pretendemos comparar la dispersión de dos sistemas de medida de cierta característica q dan las determinaciones en escalas diferentes. En estas situaciones puede usarse el coeficiente de variación, q no es más q el coef entre la desviación típica y la media. En aquellos casos en q la media no es un indicador adecuado de posición (como en sucede en distribuciones muy asimétricas) tampoco resultará la desviación típica (basada en las desviaciones respecto a la media) un parámetro adecuado de dispersión. En estos casos se utiliza a veces con dicho fin el intervalo intercuartílico, q no es más q la diferencia entre el tercer y el primer cuartil. Si la desviación típica no fuera buena para describir la pauta de variabilidad de unos datos estadísticos, como ocurre por ejemplo en datos muy asimétricos en los q la media ha sido mareada por la asimetría de los 18 datos, entonces se emplea el intervalo de recorrido intercuartílico como indicativo de la dispersión. El intervalo intercuartílico es un indicador robusto de dispersión, de la misma forma q la media es un indicador robusto de posición, puesto q ambos parámetros resultan poco influidos por la presencia de algún valor anormal. Debido a un error en la introducción de datos (entre las observaciones) A en los datos de ESTATURA de las chicas, modificar un dato poniéndolo en m en lugar de en cm. Calcular la media, desviación típica, mediana e intervalo intercuartílico de los nuevos datos de estatura de las chicas y compararlos con los valores q se obtienen tras corregir el dato erróneo. ¿qué se observa? • Parámetros de asimetría y de curtosis. Otra característica importante de la muestra es la asimetría. Como ya se ha comentado, las variables aleatorias continuas presentan frecuentem una pauta de variabilidad q se caracteriza por el hecho d q los datos tienden a acumularse alrededor de un valor central, decreciendo su frecuencia de forma aproximadam simétrica a medida q se alejan por ambos lados de dicho valor. Ello conduce a histogramas q tienen forma de curva en campana (la famosa campana de Gauss, denominada así en honor del célebre astrónomo q estableció, junto con Laplace, la distribución normal al observar la variabilidad en los errores de sus observaciones). Para estudiar este tipo de pauta de variabilidad se ha establecido un modelo matemático, la distribución normal, de extraordinaria importancia en la Inferencia Estadística. Toda distribución normal viene completam caracterizada por su media y su desviación típica, es decir por sus parámetros de posición y de dispersión. Sin embargo, un problema frecuente al estudiar datos reales es precisamente analizar hasta qué punto la distribución normal resulta un modelo adecuado, puesto q pautas de variabilidad q se alejen sensiblem de la normal pueden exigir el recurso a tratamientos estadísticos especiales o ser el síntoma de anomalía de los datos. Con este fin se utilizan los coefs de asimetría y de curtosis. Coeficiente de asimetría. (skewness para el statgraphics) Si unos datos son simétricos, lo son respecto a su media, y la suma de los cubos de las desviaciones de los datos respecto a dicha media será nula. Por el contrario, dicha suma será positiva si los datos representan una cola alargada hacia la derecha y negativa si la presentan hacia la izquierda. Coeficiente de asimetría " CA " una medida cuantitativa de hasta qué punto una muestra es simétrica, respecto a la media, o no. " el promedio (dividiendo tb por (N−1) en vez de por N) de los cubos de las desviaciones respecto a la media, dividido por el cubo de la desviación típica. CA = 19 (La división por s3 tiene por objeto obtener un coef adimensional, o sea, que no dependa de la escala en q vengan los datos.) En la siguiente figura se reflejan los histogramas posibles (simplificando su representación usando curvas continuas) : • de unos datos simétricos (CA=0) • de unos datos con asimetría positiva (CA >0) <−> con la cola hacia la derecha • y de otros con asimetría negativa (CA<0) <−> con la cola hacia la izquierda (histogramas p 1−31) Pero, ante una asimetría positiva o negativa, ¿cómo valoramos si una población es muy asimétrica o poco? Mediante el: Coeficiente de asimetría estandarizado " CAEST " el CA dividido por una función del tamaño de la muestra que cumple que, cuando los datos proceden de una población simétrica, oscila entre −2 y +2 (±2). CAS = entre −2 y +2 => CAS razonable => => la población se dice q es simétrica (si no, se toma como asimétrica) Coeficiente de curtosis. Un conjunto de datos se dice q es leptocúrtico si presenta valores muy alejados de la media con mayor frecuencia de la q cabría esperar para unos datos normales q tuvieran la misma desviación típica. Obviamente, para compensar estos valores extremos, un histograma de datos leptocúrticos es más apuntado en las cercanías de la media de lo que lo será el de unos datos normales con la misma desviación típica. Frecuentem, valores elevados de la curtosis de un conj de datos suele ser síntoma de q entre los mismos se incluyen observaciones anómalas (errores de transcripción o algún individuo perteneciente a una población distinto de la estudiad). Unos datos se ll. Planicúrticos si valores alejados de la media aparecen con una frecuencia menor de la q cabría esperar si los datos siguieran una distribución normal con la misma desviación típica. El histograma de unos datos planicúrticos aparece más plano en el entorno de la media de lo q lo sería el de unos datos normales con idéntica varianza. Así como la leptocurtosis estaba asociada a la presencia de datos anómalos, una planicurtosis excesiva puede revelar q los datos han sido artificialmente censurados para eliminar los valores considerados extremos. La sig figura refleja los histogramas( sustituidos por curvas continuas) de 3 distribuciones de datos con idénticas medias y distribuciones típicas pero q difieren en su curtosis. El grado de curtosis de un conj de datos se mide mediante el 20 coeficiente de curtosis CC, que es el coeficiente entre el promedio (dividiendo por (N−1) en vez de por N) de las cuartas potencias de las desviaciones respecto a la media y la desviación típica elevada a 4. (gráficas curtosis) Coeficiente de curtosis " CC = En datos que siguen exactamente una distribución normal el CC resulta igual a 3. Por tanto un conjunto de datos será • leptocúrtico si CC>3 • planicúrtico si CC<3 obviamente, cuanto más difiere de 3 el coeficiente CC, más acusada es la característica de curtosis correspondiente. (nota: el coeficiente CC en STATGRAPHICS se da directamente como el valor (CC−3), por lo que en datos normales el coeficiente debe resultar próximo a 0, en datos leptocúrticos CC>0 y en datos planicúrticos, CC<0.) Pero ¿cómo cuantificamos si un conj de datos presenta mucho o poco grado de curtosis? Mediante el: Coeficiente de curtosis estandarizado " CAest = " el CC dividido por un coeficiente tal que, para un conjunto de datos q presenten una curtosis razonable (q no se consideren lepto o planicúrticos), CCest está entre −2 y +2. A calcular los coeficientes de asimetría y curtosis de la ESTATURA de chicos y chicas y comparar los resultados obtenidos. Obtener también dichos coeficientes para la variable TIEMPO. • Diagramas de box−whisker. Un diagrama (traducido literalmente caja−bigote) es una representación gráfica sencilla de u8n conjunto de datos. Representa, frente a un histograma, la ventaja de no exigir un nº elevado de datos para su construcción, además de resultar más sencillo su manejo cuando el objetivo es comparar distintos grupos de datos. Datos • La caja comprende el 50% de los valores centrales de los datos, extendiéndose entre el primer cuartil y el tercer cuartil (35 y 47 en la figura). La limitan los cuartiles. • La línea central corresponde a la mediana (41 en la figura). • Los bigotes se extienden desde el menor (23) al mayor (58) de los valores observados y considerados normales. • Aquellos valores extremos q difieren del cuartil más próximo en más de 1,5 veces el intervalo intercuartílico, se grafican como puntos aislados ( como sucede en la figura con el valor 72) por considerar que pueden corresponder a datos anómalos (outliers en la terminología estadística). Tales puntos se toman como sospechosos. 21 El statgraphics además lo marca con una cruz si su distancia al cuartil más cercano en mayor de 10.5 veces el intervalo intercuartílico. Los diagramas box−whisker resultan una herramienta extremadam práctica para comparar las pautas de variabilidad existentes en distintos grupos de datos. A comparar la distribución de la ESTATURA entre chicos y chicas mediante los diagramas box−whisker correspondientes. Cuanto más simétrica sea la figura, incluyendo la mediana, más normales son los datos. Una gráfica totalmente asimétrica indica q los datos son anómalos UT 2. ESTADÍSTICA DESCRIPTIVA BIDIMENSIONAL • Distribuciones marginales y condicionales. • Diagramas de dispersión. • Covarianza. Coeficientes de correlación. • Interpretación de relaciones. • Recta de regresión. • Análisis de resultados. Trata de la Estadística Descriptiva bidimensional en el caso de variables cuantitativas. En la variable aleatoria bidimensional cuyas componentes son CONSUMO de energía y TEMPERATURA media del día, parece intuitivo q para días de menor temperatura, mayor será el consumo de energía. Pero hay q cuantificar ese grado de relación existente entre el CONSUMO diario de energía y la TEMPERATURA media del día. Ésta es una variable aleatoria bidimensional de tipo cuantitativo. Cuando hay una variable aleatoria bidimensional, además de la variabilidad de cada una de las componentes, tenemos lo q se ll covarianza y coeficiente de correlación entre ellas. El hecho de q dos variables (" las dos componentes de una variable aleatoria bidimensional) estén relacionadas no siempre significa q una sea la causa de la otra, sino q puede ser que ambas sean la consecuencia de una tercera variable q no se está considerando. En la unidad temática I se introdujo de una forma elemental el estudio descriptivo de variables aleatorias bidimensionales a partir de la construcción de una tabla de frecuencias cruzada o tabla de contingencia. Cuando las variables estudiadas son de naturaleza cuantitativa, como es el caso en particular cuando se trata de variables continuas, el análisis puede enriquecerse mediante nuevas herramientas que se desarrollan en la presente unidad. En primer lugar, una representación gráfica sencilla de la posible relación entre las variables consideradas puede obtenerse a partir del diagrama de dispersión de los valores observados. En segundo lugar, la cuantificación de la intensidad de la relación existente entre las variables consideradas viene reflejada (al menos cuando dicha relación es de tipo lineal) por un nuevo parámetro: el coeficiente de correlación. • Distribuciones marginales y distribuciones condicionales. 22 Sobre cada individuo de la población se observan dos características aleatorias expresables numéricamente, se tiene una variable aleatoria bidimensional. En la población constituida por los estudiantes universitarios españoles, se observa la variable ESTATURA (cm) y el PESO (kg) de cada estudiante. Una muestra de esta variable bidimensional puede estar constituida por los 130 pares de valores constatados en los 130 alumnos q respondieran a la encuesta. Para el control del consumo de energía en una factoría durante los emses de invierno, se anota diariamente el CONSUMO (termias) y la TEMPERATURA diaria (ºC a las 12). A ¿cuáles serían las dos componentes de la variable aleatoria bidimensional? ¿qué podría ser una muestra en este caso? En la unidad temática 1 se expuso cómo podría describirse, mediante una tabla de contingencia, la relación entre las dos componentes de una variable bidimensional, en el caso de q ambas fueran de tipo discreto, como es especialmente el caso cuando las variables son de naturaleza básicamente cualitativa. Cuando las 2 componentes de la variable aleatoria bidimensional (las dos variables) son de tipo cuantitativo, especialmente cuando se trata de variables continuas (como sucede con los 2 ejemplos anteriores) es posible utilizar técnicas más adecuadas para describir y analizar la relación existente entre ambas. Por supuesto es posible, en primer lugar, construir una tabla de frecuencias cruzada entre las dos variables, aunque será necesario agruparlos en intervalos. Distribución (de una variable aleatoria) cuando tenemos una variable aleatortia, ésta fluctúa, se distribuye dentro de los posibles. En Estadística y Cálculo de probabilidades, para una variable aleatoria bidimensional (X, Y), podemos estudiar la pauta de variabilidad q tiene una de sus componentes sin considerar la otra. Esta distribución se ll. Distribución marginal de (esa) variable. También se puede obtener la distribución marginal de la otra variable.=> Una variable aleatoria bidimensional tendrá dos distribuciones marginales, cada una correspondiente a cada una de sus componentes. La siguiente tabla refleja la tabla de frecuencias observadas para cada combinación de tramos de ESTATURA y PESO. (tabla p 2−4) En el margen derecho se recogen las frecuencias (absolutas y relativas, éstas últimas expresadas como porcentaje) de los cuatro tramos considerados para PESO. Estas frecuencias, q están obtenidas sumando para todos los valores posibles de ESTATURA se denominan marginales. A la pauta de variabilidad q sigue en la población la variable PESO considerada aisladamente, o sea prescindiendo de los posibles valores q tome la ESTATURA, se le ll. Distribución marginal del PESO. De forma análoga, en el margen inferior de la tabla, se reflejan las frecuencias (absolutas y relativas) observadas en la muestra para la distribución marginal de la ESTATURA. Hablamos de Distribución condicional de la variable (Y) condicionada a que la variable (X) sea igual a (tal) " ( Y/ X=x0), si de la totalidad de la población tomamos sólo aquellos individuos en que la varible X vale x0 y, de entre ellos, vemos cómo varía la variable Y. Ej: si de entre la totalidad de la población, tomamos sólo aquellos individuos q miden 165cm (ESTATURA =165cm) y, entre ellos, vemos cómo varía el PESO. 23 Para cada valor de X=xo habrá una distribución condicional de Y "(Y/ X=xo). También podemos obtener X/ Y=yo). Dentro de cada columna se recogen las frecuencias observadas para los diferentes tramos de PESO en los individuos cuya ESTATURA se halla en el tramo considerados. Las frecuencias relativas están calculadas respecto a la frecuencia total de la columna considerada y se ll. Frecuencias relativas condicionales. Así de los individuos cuya ESTATURA está en el tramo 145−155 el 75% pesan entre 40 y 55 kg y el 25% entre 55 y 70 kg, mientras q de los q miden entre 175 y 185cm el 29.4% pesan entre 55 y 70kg y el 70.6% pesan entre 70 y 85 kg. La pauta de variabilidad q sigue en la población la variable PESO, si nos limitamos a considerar sólo aquellos individuos cuya ESTATURA pertenece a un determinado tramo se ll distribución condicional del PESO, y en gral será diferente según el tramo considerado para la ESTATURA. En la tabla siguiente se recogen los valores de la media, desviación típica, mínimo y máximo para las cuatro distribuciones condicionales de PESO asociadas a distintos tramos de la variable ESTATURA. (tabla pág 2−6). Cuando la distribución condicional de una variable, condicionada a q la otra variable tenga un valor xo, depende de ese valor xo escogido, EJ: el PESO, en promedio, es diferente para individuos q miden 150cm que para los de 180cm, se dice q las dos variables aleatorias son dependientes. Ej:La distribución de pesos es diferente según la estatura q consideremos. A La desviación típica en la muestra de la distribución marginal del PESO es 10.7, sensiblemente superior a las desviaciones típicas constatadas para las distribuciones condicionales. Justifica lógicamente este resultado. Sí es lógico, viendo la distribución marginal del PESO y las distribuciones condicionales del PESO condicionadas a diferentes ESTATURAs: Es lógico pq ESTATURA es un factor de variabilidad q influye en el PESO (están relacionados), por lo q al fijar una cierta ESTATURA estamos eliminando un factor de variabilidad para PESO=>así, lógicamente, la variabilidad () de PESO para una determinada ESTATURA será menor. (se dice q las variables aleatorias son dependientes estadísticamente (es una dependencia estadística, estocástica, de tipo aleatorio, q no quiere decir q dependan matemáticamente, q significaría q para una variable aleatoria igual a (tal) la otra valga (cual), sino q la dependencia estadística es más laxa. A en la tabla anterior las medias de las distribuciones condicionales aumentan al aumentar los valores considerados para la variable ESTATURA. ¿te parece lógico este resultado? Cuando dos variables aleatorias son INDEPENDIENTES, la variabilidad () será la misma para el diagrama de distribución marginal q para los diagramas de distribuciones condicionales. Ej: se hace un test de inteligencia en el Poli, y estudiamos la distribución condicional del COEFICIENTE DE INTELIGENCIA condicionado a la ESTATURA. Veríamos q el promedio de inteligencia sería similar para cualquier ESTATURA (X=xo) y, por tanto, q no tiene nada q ver una variable con la otra, serían independientes. Por ser independientes, la variabilidad () será la misma para el diagrama de distribución marginal de INTELIGENCIA q para los diagramas de distribuciones condicionales de INTELIGENCIA condicionados a diferentes ESTATURAs: • Diagramas de dispersión. Son representaciones gráficas cuyo objetivo es poner de manifiesto la relación existente entre dos variables aleatorias X e Y. Una forma sencilla de describir gráficam las relaciones constatadas entre dos variables (es decir, las 2 24 componentes de una variable aleatoria bidimensional) consiste en representar cada observación por un punto en un plano cuya abcisa sea el valor de la 1ª variable y cuya ordenada sea el de la 2ª. A este tipo de gráfico se le ll. Diagrama de dispersión. STAT=>se hace con un SCATERPLOT: como la pregunta más común es si el peso es adecuado para una estatura determinada: EFECTO CAUSA La sig figura refleja el diagrama de dispersión de la variable PESO frente al de ESTATURA. Para mayor información los ptos correspondientes a chicos se han modificado con un 1 y los correspondientes a chicas con un 2. El diagrama pone claramente de manifiesto una relación positiva entre las 2 variables estudiadas q se refleja en una nube de ptos cuyo eje ppal tiene sentido creciente como consecuencia del hecho de q, en términos grales, los individuos más altos pesan más q los más bajos. El diagrama tb pone de manifiesto q las chicas tienen en gral valores menores de ambas variables q los chicos, pero q la relación entre PESO y ESTATURA es bastante similar en ambos sexos. A Para poner un ejemplo en el q el diagrama de dispersión pone claramente de manifiesto una relación negativa entre dos ariables, obtener el diagrama para las variables TYEMPER y CONSUMO del fichero GAS. En gral, cuanto más estrechamente se agrupen los puntos del diagrama de dispersión alrededor de una recta, más fuerte es el grado de relación lineal existente entre las dos variables consideradas. Ej: PESO ESTATURA El PESO depende de la ESTATURA, pero se trata de una relación estadística, no de una relación matemática (pq hay una variabilidad). Este es un ejemplo de relación positva entre dos variables (a medida q aumenta X, aumenta Y). Ej: Relación entre el consumo de energía y la temperatura media del día: CONSUMO TEMPER A ¿sigue creciendo la gente a partir de los 19 años? Para ver si hay alguna evidencia respecto a los daros de la encuesta, construir el diagrama de frecuencias de ESTATURA frente a EDAD. ¿sugieren los datos algún tipo de relación? • Covarianza. Coeficiente de correlación. Con el fibn de cuantificar en un índice numérico el grado de relación lineal existente entre dos variables, se utilizan en Estadística dos parámetros: la covarianza y el coeficiente de correlación. Con el fin de dar una idea intuitiva del concepto de covarianza vamos a razonar sobre el siguiente diagrama 25 de dispersión correspondiente a las variables TEMPER diaria y el CONSUMO de energía en el q hemos trazado una línea horizontal a la altura del valor medio de la segunda variable (247.6 es el consumo diario medio) y una línea vertical situada sobre el valor medio de la primera variable ( 10.9ºC es la temperatura media en el período considerado). (p2−8) en este caso, en el q existe claramente una fuerte relación negativa, la mayor parte de los puntos caen en los cuadrantes 2 y 4. Por el contrario, cuando la relación existente sea positiva la mayoría de los ptos caerán en los cuadrantes 1 y 3. Si consideramos el signo q para cada punto xi,yi del diagrama tiene el producto (xi − )(yi − ) vemos q ésta resulta positiva en los cuadrantes 1 y 3 y negativa en los cuadrantes 2 y 4. Por lo tanto el producto anterior será en promedio positivo si existe una relación creciente entre las dos variables ( es decir, si la Y tiende a crecer cuando lo hace la X) y negativo si la relación existente es decreciente. Por definición la covarianza entre dos variables no es más q el promedio de los productos de las desviaciones de ambas variables respecto a sus medias respectivas. (por consideraciones q no son del caso, de forma similar a como se procedió al definir la varianza, el promedio se calcula dividiendo por N−1 en vez de por N): (P.2−9) La covarianza presenta el inconveniente de q depende de las dimensiones en q se expresan las variables. Así la covarianza entre ESTATURA y PESO será 100 veces mayor si la 1ª variable se mide en cm q si se mide en m. Para obviar este problema se utiliza universalm en Estadística, como mediada del grado de relación lineal existente entre dos variables, el coeficiente de correlación lineal, q no es más q la covarianza dividida por el producto de las desviaciones típicas de las dos variables (p. 2−10). Se puede demostrar q el coef de correlación lineal está siempre comprendido entre −1 y +1. Los valores extremos sólo los toma en el caso de q los puntos del diagrama de dispersión estén alineados exactamente en línea recta. Cuanto más estrecho es grado de relación lineal existente entre dos variables, más cercano a 1 es el valor de r (o a −1 si la relación es decreciente). Por el contrario una valor de r nulo o cercano a cero indica una relación lineal inexistente o muy débil. A Calcular los coefs de correlación entre ESTURA y PESO, netre EDAD y ESTATURA y entre TEMPER y OCNSUMO. Los valores obtenidos serán 0.74, 0.09 y −0.97. ¿q se deduce de estos vcalores? Es importante resaltar q tanto la covarianza como el coef de correlación miden sólo el grado de relación lineal existente entre dos variables. Dos variables pueden tener una relación estrecha y sin embargo resultar r cercano a cero por ser dicha relación no lineal. A Introducier dos variable: una X de valores −3, −2, −1, 0, 1, 2, 3 y otra Y de valores 9, 4, 1, 0, 1, 4, 9. Dibujar el diagrama de dispersión y hallar el coef de correlación entre ambas. ¿están relacionadas las variables ¿ ¿ lo están liealmente? • Interpretación de relaciones. Es importante señalar q la existencia de una relación estadística entre dos variables, constatadas por ejemplo a partir de su coef de correlación en una muestra, no significa necesariamente q haya una relación de 26 causalidad entre las mismas. La correlación constatada entre dos variables puede presentarse fundamentalmente en dos contextos diferentes: • existe una dependencia causal unidireccional. La relación entre TEMPER y CONSUMO es de este tipo, pues está claro (no por los datos estadísticos sino por el conocimiento previo existente sobre el tema) q la disminución de la temperatura ambiental influye en el consumo de energía, por utilizarse ésta parcialmente en la climatización de las naves de la factoría. El valor de r y el cálculo de la recta de regresión q se expone en el siguiente apartado, permiten cuantificar la magnitud de esta relación, lo q resulta imprescindible si se desea controlar el consumo. • Las dos variables dependen parcialmente de otra u otras variables q no se están a lo mejor considerando. La correlación entre ESTAUTRA y PESO se debe posiblemente a q ambas variables vienen condicionadas por las característica genéticas del individuo así como de las condiciones en q se ha desarrollado. A ¿crees q por alargar unos cms a una persona en el potro de tormentos ésta habrá aumentado algo de peso, como consecuenciua de la relación existente entre ESTATURA y PESO? A ¿En una encuesta sobre hábitos de consumo en hogares españoles se constató una relación positiva entre el consdiumo de zapatos y consumo de libros. (los hogares q compraban más zapatos eran tb los q compraban más libros). ¿a qué crees q se debe esta relación? ¿qué te parece la idea de fomentar el hábito de lectura subvenciuonando el precio del calzado para q los hogares compren más zapatos? (dado q está demostrado q cuantos más zapatos se compren más libros se compran): • Recta de regresión. En muchas ocasiones resulta necesario cuantificar la relación existente entre dos variables con el fin de predecir el valor de una de las dos variables a partir del valor constatado de la otra. Por ejemplo, el responsable del control de consumo de energía de la factoría desea saber si el consumo de 230 termias realizado el día anterior puede considerarse normal sabiendo q la temperatura fue de 10ºC. Por supuesto, y dado q el consumo medio no depende sólo de la temperatura sino también de otros factores ( humedad, viento, volumen de producción,..), es de esperar q aun no habiendo anomalías el CONSUMO en la población constituida por los días en q la temperatura en de 10ºC fluctuará aleatoriamente. Pero en promedio ¿cuánto se consumirá en los días en q la temperatura sea de 10ºC? Con todo seguridad menos q lo que se consumirá en promedio en los días en q la temperatura media sea de 5ºC. Pero, ¿cuántos menos? Para responder a preguntas como la anterior se utiliza en Estadística la recta de regresión. Mediante esta recta se pretende predecir el valor q, en promedio, corresponde a la variable Y cuando otra variable X tiene un valor determinado. Se trata por tanto de obtener una recta Y=a+bX q para cada valor de X aproxime lo mejor posible la media de la distribución condicional de Y dado dicho valor de X. Consideraciones teóricas q se verán en temas posteriores conducen a tomar como valores a y b, q definen la recta en cuestión, aquellos q minimizan la expresión: (p−2−13) La recta resultante tiene por tanto la propiedad de ser, de todas las rectas posibles, la q minimiza la suma de los cuadrados de las desviaciones de los puntos observados en el diagrama de dispersión respecto a la recta, midiendo dichas desviaciones en el sentido vertical (es decir, en el sentido de la variable Y, q es la q se desea predecir). 27 Se demuestra q los valores de b y a vienen dados por las siguiente expresiones: (p.2−13) A Obtener la recta de regresión del PESO respecto a ESTATURA. Ecuación resultante : PESO= −84 + 0.87 ESTATURA. A partir de estos resultados, vcalcular si personalmente se está por debajo o por encima del peso medio q corresponde a las personas de una estatura similar a la propia. Repetir el cálculo de la recta de regresión por separado para chicos y para chicas. ¿son pqarecias las ecuaciones obtenidas? ¿cuñál es la duferencia más notable? Nota importante: Aunque todo el desarrollo q se ha realizado sobre la recta de regresión se ha centrado en la relación entre dos variables aleatorias, la misma herramienta puede utilizarse para analizar la relación q liga una variable aleatoria con otra no aleatoria. Este tipo de problemas es extremadam importante y se presente, por ej, en el estudio de la relación q liga un parámetro de un proceso con el resultado obtenido en el mismo. En el estudio de la relación entre la dosis d e abonado nitrogenado aportado a un cultivo y el rendimiento obtenido. En este caso la primera variable, DOSIS de abonado, no es aleatoria doda q la podemos fijar al nivel q deseemos. La segunda variable por el contrario sí q debe considerarse como una variable aleatoria. La pregunta importante en este caso es ¿q relación existe entre la dosis de abonado aportada y el rendimiento q cabe esperar en promedio en el cultivo? En estos casos, y dados unos valores fijados xi de dosis de abona y los valores yi obtenidos del rendimiento, la recta de regresión puede calcularse de forma similar a lo expuesto anteriormente para el caso en q ambas variables eran aleatorias. Adicionalmente los MODELOS DE REGRESIÓN pueden realizarse con bastante facilidad para permitir el estudio simultáneo del efecto de las dos variables así como de la consideración de rectas q no sean de tipo lineal. • Análisis de residuos. Una herramienta muy útil para complementar cualquier estudio de regresión es el análisi de los residuos. Se ll. Residuo de un dato a la diferencia entre el valor yi del mismo y el valor a + bxi q se predice para el valor medio de Y en los individuos de la población en q la variable X vale xi. Así en el estudio para controlar el consumo de energía el residuo para un día determinado será la diferencia entre el consumo observado dicho día y el q corresponde en promedio a días cuya temperatura se haya constatado en el día considerado. Dicho residuo acogerá por tanto el efecto q en dicho día han tenido todas las otras variables q influyen sobre el CONSUMO, incluyendo las posibles anomalías q se hayan producido. A efectos de controlar el consumo de energía, un procedimiento adecuado sería, por tanto, calcular el residuo cada día y ver si su valor es o no admisible. El valor promedio de los residuos para todos los datos utilizados en un estudio es siempre cero. La varianza de los residuos permite estimar el orden de magnitud del efecto conjunto de todos los restantes factores no considerados al calcular la recta de regresión. Se demuestra que: (p. 2−16) Lo que indica q el valor de r2 es la proporción de la variabilidad de la variable Y que está asociada a la variable X. 28 A En el estudio de la relación de CONSUMO con TEMPER resulta ser r=−0.97 y r2 = 0.94. por tanto, el 94% de la variabilidad constatada en el consumo diario de energías está ocasionada por la variabilidad en la temperatura diaria. Comparar los valores medios y las desviaciones típicas de los residuos para los chicos y para las chicas tras la obtención de la recta de regresión de PESO frente a ESTATURA, ¿qué deduces de dicha comparación? ¿hasta qué punto el PESO de una persona joven depende de su ESTATURA? Precisa la respuesta q des. UT 3. CONCEPTOS BÁSICOS DEL CÁLCULO DE PROBABILIDADES • Sucesos. • Probabilidad: concepto y propiedades. • Probabilidad condicional. • Independencia de sucesos. • Teorema de Bayes. • Sucesos. La probabilidad de algo se define en los sucesos. Cualquier subconjunto de los valores posibles de una variable aleatoria genera un suceso. En la población habrá individuos q verifican ese suceso y otros q no. Ej: en la población de los estudiantes del poli y la variable aleatoria ESTATURA. Un suceso sería: su estatura es mayor de 180cm. población los sucesos se denominan con letras mayúsculas: suceso A:{ESTATURA > 180} suceso B: {SEXO =1 (chico)} A cada suceso le corresponde una probabilidad. Suceso seguro " E " el suceso q se verifica por todos los individuos de una población. Suceso imposible " " el asociado al subconjunto vacío de E. No existe individuo alguno en la población para el q se verifique dicho imposible (ningún individuo de la población lo verifica). ¿Cómo se combinan dos sucesos entre sí? Operaciones básicas entre sucesos. UT 6. INFERENCIA RESPECTO A UNA POBLACIÓN NORMAL. • Un ejemplo • Consideraciones previas. • Contraste de la hipótesis m=2000 29 • Intervalo de confianza para m • Intervalo de confianza para . • Consideraciones previas Se considera la variable aleatoria como una variable aleatoria de distribución normal pq se considera como la suma de un conjunto de factores. Hay 3 métodos para comprobar , a partir de un conjunto de datos, si la población se distribuye normalmente: • Hacer un histograma: exige tener 40−50 datos • Hacer un gráfico en papel probabilístico normal • Analizar los coeficientes de asimetría y de curtosis (aconsejable spre) • Usar los tests estadísticos formales Él dice q no sirven para nada, q son la respuesta correcta a una pregunta equivocada. Solo es aplicable para distribuciones normales y la distribución normal es un modelo matemático, por lo q testear algo q realmente no existe no tiene mucho sentido. La pregunta correcta es si los datos son realmente lo suficientemente parecidos a una distribución normal. Y la mejor respuesta se puede hacer mediante un histograma o, mejor, mediante papel probabilístico normal, si el nº de datos no es suficiente para elaborar un histograma.. 1º hacemos un análisis descriptivo de los datos (la representación gráfica en sí ya lo es) y obtenemos la media y la desviación típica. Ej: peso de bolsas de naranjas: Summary Statistics for PESOMALLA Count = 15 Average = 1993,6 Variance = 391,971 Standard deviation = 19,7983 Minimum = 1958,0 Maximum = 2023,0 Range = 65,0 Stnd. skewness = −0,405564 Stnd. kurtosis = −0,593681 la media no es 2000 exactamente, será cercana a 2000. no son exactos los parámetros, pero sí serán cercanos. El hecho de q la media muestral no sea exactamente 2000 no implica q la máquina esté descentrada. Es 30 posible q esa diferencia entre 2000 y la media muestral se deba precisamente al azar del muestreo. Nunca , de hecho, la media muestral, q fluctúa alrededor de la poblacional, coincide exactamente con ella. • Constraste de la hipótesis m=2000 ¿Es admisible la hipótesis de q m=2000? Ej: si alguien dice q hay una relación entre la ESTATURA y el COEFICIENTE INTELECTUAL, se tomarán unos datos y obtendremos el coeficiente de correlación entre ambas variables. La hipótesis nula sería q no hay relación (r sería cero). Las hipótesis nulas en Estadística son q no hay relación, q todo es como siempre, como antes de hacer de buscar la relación. En este caso la hipótesis nula será q m=0. Si la media poblacional, m, es exactamente igual a 2000, la media muestral, , será cercana a 2000, y la diferencia (− 2000 ) será cercana a cero => aceptaré la hipótesis nula, pero Si se aleja de la media poblacional, de 2000, la diferencia (− 2000 ) no será cercana a cero => se reajustará la máquina. Pero, ¿qué se entiende por diferir (− m) poco o mucho de cero? Y ahora vienen las consideraciones teóricas: Si en una población de media m: Se cumple q fluctúa alrededor de cero con una probabilidad q es conocida y está tabulada según la t de student con (N−1) grados de libertad Ej: t14 ¿es posible q t14 valga 12? NO, es imposible, los valores razonables de una t de student son cercanos a cero, pero ¿cuánto? (ver tabla de T con 14 gdl y prob del área de la cola de 0,025) Como t(al igual q la normal tipificada) es una distribución simétrica de media cero, en el 95% de los casos (con una variabilidad razonable en Estadística) t está entre −2,145 y 2,145: Si es cierta la hipótesis nula (si m es realmente =2000), => será una t de student con (N−1) gdl. Si t= −1,25 , sí es un valor razonable pq... entra dentro del intervalo −2,145 −2,145 => LA HIPÓTESIS NULA ES CIERTA (m=2000). Si sale un valor muy improbable de t (fuera del intervalo del 95%, entre −2,14 y 2,14 en este caso) significa q la hipótesis nula es falsa (m "2000). • Fórmula para contrastar la hipótesis nula Ho: m=mo : (para saber si la hipótesis nula de m=mo es cierta o falsa): >tN−1 () rechazamos Ho (pq m "mo) Si <tN−1 () aceptamos Ho (m=mo) 31 donde tN−1 () es un valor q se busca en las tablas de t de student tal q: P(|tN−1| > tN−1 () )=() Siendo la probabilidad deseada con la q se entra en la tabla de t. ¿Es posible q a pesar de q el proceso esté correctamente (m=2000) lleguemos a la conclusión de q salga como descentrado? SÍ. En un 5% de los casos nos vamos a equivocar, en ellos, tN−1 será > q 2´145. Es el ll. ERROR DE PRIMERA ESPECIE " el error q se comete cuando se rechaza la hipótesis nula siendo realmente cierta. ¿Y Qué probabilidad tenemos de cometer este error? El 5%, y es lo q se ll. RIESGO DE PRIMERA ESPECIE ( En Estadística riesgo significa probabilidad de cometer un error). El error se puede fijar como = a algo. En general , =0´05 es un compromiso razonable entre ambos riesgos. El ll ERROR DE SEGUNDA ESPECIE es el contrario, la probabilidad de aceptar la hipótesis nula cuando realmente es falsa (no reajustar la máquina cuando realmete se ha desajustado). Si tenemos un riesgo de 1ª especie bajo => habrá un riesgo de 2ª especie alto. Como uno va más o menos contra el otro, se considera como un equilibrio razonable entre ambos. En general , =0´05 es un compromiso razonable entre ambos riesgos. El error de primera especie es más grave q el de 2ª pq el error de 1ª especie supone afirmar un descubrimiento q realmente no existe, mientras q el error de 2ª especie es simplemente no detectar o descubrir una relación q realmente existe. Es imposible demostrar q la media poblacional es exactamente igual a un valor => si la hipótesis nula se admite => es posible q la sea 2003, 1996,.. pero NO SERÁ 2050 • Intervalo de confianza para m A partir de los datos , podemos ir más allá, no sólo hallar si un valor de m es admisible, sino hallar EL INTERVALO DE VALORES POSIBLES DE m, decir con cierta confianza q m está entre ciertos valores, es lo q se ll. INTERVALO DE CONFIANZA PARA m. No podemos decir q m valga exactamente un valor, pero sí podemos decir q en el 95% de los casos la m estará comprendida en un cierto intervalo. ¿ES POSIBLE HACER EL MISMO TINGLAO PARA Q PARA LA m? SÍ: S será cercana a , y también se puede acotar, hallar un intervalo de confianza para . ¿En qué nos vamos a basar? muestra población La S2 muestral fluctuará alrededor de la poblacional, , con una media próxima a la , pero ¿cuánto fluctúa? 32 " => se dice q el valor medio de S2 es : • S2 = El valor medio de S2 será: E()== Ej: para : "(N−1) En la tabla podemos encontrar 2 valores tal q en el 95% de los casos la variable se encuentra entre ellos. Cuáles son esos valores? ¿ P( valor1< < valor2) = 0´95 ? La tabla te da los valores tal q a partir de cada uno de ellos y hacia la derecha de la distribución, encontramos el (porcentaje buscado) de los datos=> si buscamos un 95% central, buscamos un 5% por ambos laterales => buscamos 2´5% por cada lateral => hemos de entrar en la tabla : • con p=0´025 para ver el valor q limita el 2´5% de los datos por la derecha y • con p=0´975 para ver el valor q limita (el 97´5% de los datos por la derecha, o lo q es lo mismo:) el 2´5% de los datos por la izquierda . Para p= 0´025 = 26´1 Para p=0´975 = 5´63 => P(( 5´63< < 26´1) = 0´95 Como esto es una => N= 15 => " • P(5´63< 14< 26´1) = 0´95 => " • P(14 < < 14 ) = 0´95 => • P(< < ) = 0´95 => • Si la varianza muestral del ejemplo es 392 => ◊ = 14´5 ◊ = 31´2 afirmamos con un 95% de confianza q la desviación típica poblacional está entre 14´5 y 31´2 => • ¿es admisible un =25? SÍ • ¿es admisible una =40? NO!!! (CÓMO SE HACE CON STATGRAPHICS) COMPARACIÓN DE DOS POBLACIONES NORMALES SALE comparar medias y varianzas!!!! 33 (A pag.6−18) Consideraciones previas Un enfoque de estos problemas frecuente y poco recomendable: Se sabe el nº medio de suciedades, 3´5. => podemos hacer las pruebas con el capó levantado y ver si la media de esas pruebas es < ó > q 3´5, pero es un mal sistema, pq muchos factores q actúan sobre los resultados de las pruebas, días de fuerte viento en los q se levanta gran polvareda,... pueden dar lugar a conclusiones erróneas. => En las pruebas debe incluirse lo q se prueba( capó levantado) pero también lo histórico( es mal sistema realizar las pruebas sólo con lo nuevo y comparar con los datos históricos, esto NO ES COMPARABLE, Ejemplo del granizo y las pruebas de AgI) Organización del experimento. (p.6−20) Y obtenemos los resultados(p.6−21!) ¿cómo se analizan los resultados? 1º hemos de ver cómo hemos hecho el experimento, es muy importante: el orden en q se han ensayado los experimentos EJ(ver libro) (p.6−24) Planteamiento estadístico hay dos poblaciones implicadas pq hay una mezcla de 2 procesos diferentes. Suponemos q, como trabajamos con medias de 10 datos, éstas se distribuyen normalmente. Lo que interesa ver es si levantando el capó mejora o no el proceso. Obtenemos las muestras y hallamos la m y la para cada población. La pregunta es ¿cuánto vale m1−m2? • Si es negativo => peor es levantar el capó • Si es = 0 => será igual • Si es positivo => es mejor levantar el capó. ¿cuál es la hipótesis nula? Es el sano escepticismo. La hipótesis nula será q m1=m2, pq mientras no lo demuestre no me lo creo. Tb se podría estudiar si = , pero lo importante en este problema es la media pq el proceso supone muchas unidades, entonces un promedio representa muchas piezas. Sin embargo, la en este ejemplo no es importante, aunque en otros ejemplos sí lo es (ejemplo del llenado de bolsas de naranjas con un determinado peso). Normalmente, al comparar 2 poblaciones, se comparan la m y la . Si las de dos poblaciones son diferentes , el proceso estadístico a utilizar para comparar las medias teóricamente han de ser diferentes q cuando son iguales. Pero en la práctica, el procedimiento clásico de componer medias, suponiendo q las son iguales se emplea tb para cuando realmente son diferentes pq dan 34 lugar a buenas aproximaciones. Si = " y => 1 => como tenemos las S2 muestrales => hacemos y si sale "1 => admitimos q son iguales Sale " 1 => diremos q NO son iguales. Pero ¿qué es diferir poco o mucho de 1? (Otra vez) cuando se muestrean dos poblaciones normales donde en una población se tiene un y en otra un , y se obtiene una muestra de tamaño N de cada una y se calculan sus varianzas muestrales y , vimos q fluctúa alrededor de 1 como una F con N1−1 gdl en el numerador y N2−1 gdl en el denominador (FN1−1,N2−1 ). Entonces, si = " y => FN1−1, N2−1 => => mediante la tabla de F delimitaremos una zona alrededor de 1 q tenga una probabilidad del 95% (como tenemos 10 datos en cada muestra de cada población => los gdl son 9 y 9 respectivamente) y: • si el cociente entra dentro de esa zona => decimos q es cercano a 1, q las varianzas poblacionales son iguales. • Si el cociente se sale fuera de tal intervalo => decimos q las varianzas poblacionales son diferentes. Problema técnico: la tabla de F es muy limitada pq sólo da probabilidades de F por la derecha y con cierto gdl. FN1−1,N2−1 Para encontrar los límites del intervalo hay q buscar el pto q deje el 2´5% de los datos aquí y el 2´5% acá. Pero las tablas de F sólo tienen probabilidades por la derecha => en lugar de dividir , dividimos, mejor, la mayor de las 2 por la menor de las 2 => seguro q saldrá mayor q 1 (por el lado derecho de la distribución F), y buscaremos, simplemente, si ese valor es mayor del correspondiente al 2´5%. PERO, en la tabla sólo está el 5% y el 1%, no está el 2´5% => consideraremos a efectos prácticos en un problema (nosotros) el valor del 2´5% como el promedio entre los valores para 1% y 5%. La conclusión es q la hipótesis nula de q las varianzas son iguales es cierta => levantar el capó no significa q la varianza de suciedades sea mayor o menor. 35 COMPARACIÓN DE MEDIAS (lo realmente importante) ¿levantar el capó modifica el nº de suciedades? La hipótesis nula será q m1=m2 (sano escepticismo: q mientras no se demuestre lo contrario yo no me lo creo, es decir, q m1=m2) Intuitivamente, si m1=m2 => 1 será " 2 y => 1− 2 será " o => • vemos si 1− 2 difiere mucho o poco de cero ( si son o no diferente). ¿Y qué es diferir mucho o poco? GRÁFICAMENTE: N=10 N=10 1 2 ( 1)= ( 2)= => 1− 2 = 0´74 según los datos (la mejora q ha habido por levantar el capó) => ( 1− 2) = ( 1) − ( 2) = + = 36 SE QUEDÓ AFÓNICO Y TERMINÓ LA CLASE!! 15 − 11 −2001 UT 7. ANÁLISIS DE LA VARIANZA DE UN FACTOR. • Un ejemplo. • Idea intuitiva del ANOVA. • Descomposición de la suma de cuadrados. Test F. • Intervalos LSD de comparación de medias. • Análisis de residuos. • Estudio de efectos ssobre varianzas. • Realización práctica de los cálculos. • Número desigual de observaciones. • Factores cuantitativos: descomposición en efectos lineal y cuadrático. (falta 1´5 h) ... Fratio es 0´53, ¿es significativo estadísticamente? Si el efecto existe, Fratio será mayor q una F con 2 gdl y una probabilidad del 5%. F2,27(5%) da 3´35. Si: Fratio < Ftabla−5% =>> las diferencias NO son significativas estadísticamente. Fratio > Ftabla−5% =>> las diferencias son significativas estadísticamente. Fratio > Ftabla−1% =>> las diferencias son MUY significativas estadísticamente. F, ¿hasta qué pto es probable q una F sea q 0´53? Eso es lo q calcula el Statgraphics con el P−value. (en el ejemplo, P−value= 0´5934). En la distribución de F: Cuanto más pequeño sea el ¿¿¿P−value??? => más significativo será el factor. STAT el PLOT DE MEDIAS con los intervalos LSD: Conclusión: q no hay diferencias significativas entre los proveedores: • Pq Fratio no es significativa • Pq los intervalos LSD se solapan. Pero realmente sí hay diferencias significativas =>> algo pasó inadvertido!!!! Análisis de residuos. Los residuos son un subproducto del análisis estadístico. Los residuos de cada dato (cada dato tiene después del análisis un residuo) son valores de x y de y. Tienen como objetivo detectar los posibles problemas. 37 Los residuos de cada dato es lo q se va cada dato de la media de su proveedor., es el efecto q tienen otros factores sobre los datos. Si no hay nada raro, el promedio de los residuos ha de ser 0, y fluctuarán a su alrededor + o − según la varianza. El Stat tb tiene la opción de ver una gráfica de residuos (hay 3 formas de verlo: según el proveedor,...). según el proveedor se observa q el 3º proveedor va bien, el 2º fluctúa un poco más, pero en el 1º hay un residuo q se sale totalmente de madre: La media del proveedor 1 era 30 => ese dato vale más o menos 90. Buscamos tal valor entre la tabla de datos y encontramos un valor de 95!!!. Corregimos ese dato, sustituyéndolo por 35 pq intuimos q ha habido un error de trascripción de 95 a 35, ya q todos los datos rondan el valor 30. una vez cambiados los datos originales, calcula la suma de cuadrados y calculamos: ANOVA Table for EQUIDINA by PROVEEDOR Analysis of Variance −−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−− Source Sum of Squares Df Mean Square F−Ratio P−Value −−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−− Between groups 871,267 2 435,633 7,65 0,0023 Within groups 1538,2 27 56,9704 −−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−− Total (Corr.) 2409,47 29 The StatAdvisor −−−−−−−−−−−−−−− The ANOVA table decomposes the variance of EQUIDINA into two components: a between−group component and a within−group component. The F−ratio, which in this case equals 7,64666, is a ratio of the between−group estimate to the within−group estimate. Since the P−value of the F−test is less than 0,05, there is a statistically significant difference between the mean EQUIDINA from one level of PROVEEDOR to another at the 95,0% confidence level. To determine which means are significantly different from which others, select 38 Multiple Range Tests from the list of Tabular Options. Una vez corregido el dato anómalo (pag.7−18), el valor de la F−ratio es incluso menor de 1% =>> SÍ hay diferencias significativas entre proveedores, pero estaban enmascaradas por la presencia de un dato anómalo q no habíamos detectado. El nuevo grafico de intervalos LSD será: Los intervalos LSD para los proveedores 2 y 3 se solapan, por lo q entre ellos n0 hay diferencias significativas; pero el intervalo LSD para el proveedor 1 no se solapa con los otros dos, por lo q sí hay diferencias significativas entre ellos. Si la diferencia entre prtoveedores aparece una gran variabilidad => es pq se diferencian en sus medias. Es pues un test para comparar las medias, no para comparar tansolo los proveedores, sino tb entre diferentes factores. En muchos problemas reales, prácticos, es tb muy importante ver si hay o no diferencias entre varianzas. Esto ha cobrado mucha importancia por su relación con la calidad industrial (en agricultura tendría más importancia la media). Ambas, media y varianza, son pues importantes. Veamos si hay o no diferencias entre varianzas(además de entre medias). Para comprar las varianzas entre 2 poblaciones se emplea el Test F. Pero para comparar muchos factores q actúan a la vez sobre algo no hay un procedimiento. Un procedimiento sencillo para ver diferentes factores q actúan sobre las varianzas está escondido en los residuos: Tras corregir el dato anómalo, obtenemos los residuos (p.7−20). Imaginamos q la fabrica 1 fuera mejor y con poca varianza => su gráfica de residuos estaría concentrada alrededor de la media. A ojo no se ven muchas diferencias, ¿cómo vemos quién tiene mejor arianza? La medias de los residuos de cada proveedor son cero => no nos sirve de nada comparar medias residuales =>> pero sí podemos comparar la media de los cuadrados de los residuos (comparar varianzas es comparar medias de residuos al cuadrado). En el STAT, al guardar los resultados, podemos guardar con diferentes posibilidades, entre ellas save residuals, apareciendo entonces una nueva columna en los datos ll RESIDUALS. Elevamos al cuadrado los residuos, creando una nueva columna, y representamos una ANOVA sobre los cuadrados de los residuos: ANOVA Table for residual2 by PROVEEDOR Analysis of Variance −−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−− Source Sum of Squares Df Mean Square F−Ratio P−Value −−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−− Between groups 8198,36 2 4099,18 1,89 0,1707 Within groups 58587,0 27 2169,89 39 −−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−− Total (Corr.) 66785,4 29 The StatAdvisor −−−−−−−−−−−−−−− The ANOVA table decomposes the variance of residual2 into two components: a between−group component and a within−group component. The F−ratio, which in this case equals 1,88912, is a ratio of the between−group estimate to the within−group estimate. Since the P−value of the F−test is greater than or equal to 0,05, there is not a statistically significant difference between the mean residual2 from one level of PROVEEDOR to another at the 95,0% confidence level. La F´ratio =1´89, no mucho mayor q 1, no es menor del 5% =>> las diferencias entre varianzas no son significativas estadísticamente. Si hacemos los intervalos LSD para los residuos al cuadrado (con las medias de los residuos al cuadrado): Vemos q se solapan => efectivamente no hay diferencias significativas entre las varianzas (medias de los residuos al cuadrado). Por tanto, aunque había diferencias significativas entre las medias de los proveedores, no las hay entre sus varianzas. ¡ el botón de la calculadora es para sumar cuadrados!!! La mejor forma de hacer un análisis estadístico completo: REALIZACIÓN PRÁCTICA DE LOS CÁLCULOS: Hay unas reglas sistemáticas q son las siguientes: TTR El Total de cada Tratamiento: TTR = (suma de los datos para cada proveedor) Ej: prov1 310 prov2 413 prov3 433 TG EL Total General: TG= 40 En cada proveedor había unos datos, un total para cada uno y un total general. Ej: TG = 1156 Hay un término, el ll. Sustraendo General, q es el total de todos los datos al cuadrado partido por el nº total de datos: SG El Sustraendo General: SG= Ej: = 44544´5 SCT La suma de cuadrados total es la suma, para todos los datos, de : SCT = − SG Ej: (232+352+502+...+362+522+342) −44544´5 = 2409´5 SCF La Suma de Cuadrados del Factor (si el factor tiene K tratamientos): Si cada tratamiento posee igual nº de datos SCTR = − SG Ej: − 44544´5 = 871´3 Si cada tratamiento tiene " nº de datos SCTR = − SG (para el factor a estudiar, se divide cada tratamiento al cuadrado por su correspondiente nº de datos) SCr la Suma de Cuadrados Residual: SCr = SCT − SCF Ej: 2409´5 − 871´3 = 1538´2 GdlT Grados de Libertad Totales: gdlT = nºtotal de datos − 1 GdlF Grados de Libertad del Factor: gdlF = nº de tratamientos − 1 Gdlr Grados de Libertad Residuales: gdlr = gdlT − gdlF PROBLEMA PARA HACER Nos dan el nº de Km recorridos por litro de gasolina para 17 coches, habiendo 4 tipos diferentes de gasolina: gasolina A B C D Nº de Km recorridos 12 15 11 12 15 18 10 12 14 10 16 13 11 14 17 13 14 • Calcular el cuadro de la ANOVA, decir si hay diferencias significativas y comparar las medias de los diferentes tipos mediante los cuadros LSD. • Estudiar si hay diferencias significativas entre las varianzas (si el tipo de gasolina afecta a las varianzas de los Km) 41 ANÁLISIS DE FACTORES CUANTITATIVOS. CONTRASRES ORTOGONALES (P. 7−25) Cuando dos factores afectan sobre el rendimiento, éstos son diferentes estadísticamente. El factor dosis de abonado no pretende ver cuál es mejor, sino cuál es su efecto sobre el rendimiento (cómo influye en cantidad), es un factor cuantitativo para ver la ll. FUNCIÓN DE RESPUESTA, no para estudiar ciertos valores importantes, sino la influencia global del factor: E(y) X El objeto es entender la naturaleza de la función respuesta. No se busca si es significativa la dosis de abonado, no se hallan los intervalos LSD,... no buscamos eso. ¿cómo se analiza? Si hablamos de un factor cualitativo, hablamos de variantes, Si hablamos de un factor cuantitativo, hablamos de sus niveles. Los niveles han de estar equiespaciados. Estudiamos pues la naturaleza del efecto q tiene ese factor sobre la respuesta, haciendo: (p. 7−26) es posible descomponer la SCF en componenetes lineal, cuadrática, .. o superior: con 1gdl estudiamos si hay un efecto lineal con 2gdl estudiamos si hay un efecto lineal y un efecto de 2º grado ... con 4 gdl estudiamos si hay un efecto lineal efecto de 2º grado efecto de 3º grado efecto de 4º grado ... >0 => curva positiva (p.7−28) =0 => efecto lineal <0 => curva negativa UT 8. DISEÑO SIMULTÁNEO DE VARIOS FACTORES. INTRODUCCIÓN AL DISEÑO DE EXPERIMENTOS. 42 • INTRODUCCIÓN AL DISEÑO DE EXPERIMENTOS. • Estudio simultáneo de varios factores. • Efectos simples. Ortogonalidad. • Estudio de interacciones. • Conceptos básicos en Diseño de Experimentos. • DISEÑOS 2k. • ANOVA en diseños 2k. • Ejemplo de un diseño 23 sin replicaciones. • Introducción. • Estimación de los efectos simples. • Estimación de las interacciones. • Análisis de la Varianza. • Análisis mediante STATGRAPHICS. • Predicciones y residuos. • Ejemplo de un plan 23 con replicaciones. • Introducción. • Efectos sobre la media. • Efectos sobre la dispersión. • Gráfico de Daniel. Hasta ahora, lo q hacíamos era variar en cada caso un solo factor y ver lo q ocurría. Pero es desaconsejable pq es ineficaz (no lo resolvemos) e ineficiente (empleamos mucho tiempo y dinero). Además no permite estudiar interacciones entre los efectos. La alternativa es realizar un diseño de experimentos q permita estudiar simultáneamente todos los factores y las interacciones entre ellos q nos interesen. Ejemplo: Estudiamos 3 factores, Probamos 2 temperaturas diferentes, 2 contenidos en sólidos y 2 tiempos de residencia. El procedimiento tradicional consistiría en hacer..... La alternativa consiste en hacer sólo 8 experimentos en los q se realizan todas las combinaciones posibles, ¿cómo?: La 1ª columna tiene todos los signos alternados, la 2ª los tiene de 2 en 2, y la 3ª la mitad de un signo y la 2ª mitad con el otro. El signo + simboliza el nivel alto del factor y el signo menos el nivel bajo. ORTOGONALIDAD EN INTERACCIÓN. (libro) (P8−10)Ejemplo: variedad : A, B, C media dosis de abonado: 1, 2, 3 Respuesta: RENDIMIENTO Suelo: arenosos, arcilloso varianza Hay pues una variable respuesta y 18 posibles tratamientos. DISEÑO 2K Una vez estudiada la relación entre efectos, se estudia la significación de dichos factores mediante el estudio de la varianza. 43 Ej: si tenemos 4 factores: A, B, C, D, podemos estimar los 4 efectos simples: Efectos simples: gdl A1 B1 C 1 hay 4 posibles grados de libertad D1 En el análisis de la varianza, gdlf = nº de tratamientos−1. aquí, como cada factor está a dos niveles, los grados de libertad son 1 para cada factor. Estudiamos tb las interacciones dobles: Interacciones dobles gdl AB 1 AC 1 AD 1 BC 1 BD 1 CD 1 Los gdl en el ANOVA son el producto de los de los factores q interaccionan => 1 x 1 =1 => cada interacción tienen 1 gdl. En teoría tb se pueden estudiar las interacciones triples, tantas como subconjuntos de 3 factores podamos obtener: Interacciones triples gdl ABC 1 ABD 1 ACD 1 hay 4 posibles gdl asociados a las interacciones triples BCD 1 Incluso, se podrían estudiar las interacciones cuátuples: Interacciones cuátuples gdl ABCD 1 1 gdl 44 Esto supondría un total de 15 gdl, asociados a los efectos simples y a todas las interacciones hasta cuátuples. En el ANOVA es caro estudiar interacciones superiores a 2, pq son, en gral, cuando se dan, q es raro, pequeñas y despreciables. => quitando las interacciones triples y cuátuples, quedarían en lugar de 15, 10 gdl para estudiar la ANOVA. PREDICCIONES Según los resultados obtenidos, ¿cuál será la mejor combinación posible para el proceso? EC+ PR+ esto serían las condiciones operativas óptimas (no hay interacciones => es muy ES+ sencillo) En promedio, en esas condiciones, ¿qué respuesta (stonechip) vamos a tener? Partimos del resultado promedio del experimento (la media de las 8 pruebas) " lo q cabe esperar si trabajamos en condiciones promedio. Pero vamos a trabajar a niveles diferentes => añadiremos o restaremos a la media el efecto q tiene trabajar con ese factor a un cierto nivel: Media = 7´75 Media con EC+ EC+ (5´5 − 7´75)= −2´25 PR+ (5´5 − 7´75)= −2´25 ES+ (6 − 7´75) = −1´75 −6´25 en condiciones promedio tendríamos 7´5 de media. Por trabajar con: EC+ mejora 2´25 (mejora pq cuanto menor es la media en este problema mejor es) PR+ mejora 2´25 ES+ mejora 1´75 Como no hay interacción => el efecto conjunto de 2 o más factores es la suma de los efectos individuales de cada uno de ellos => Por trabajar en estas condiciones ótimas, el efecto conjunto será: La media general + los efectos individuales 7´5 + (−2´25)+(−2´25)+(−1´75) = 1´5 la predicción de la media será 1´5, en estas condiciones, en promedio, obtendremos este stonechip. Pero resulta q hacemos una prueba en estas condiciones y no obtenemos 1´5!! Y s q no tiene por qué salir 45 1´5, pq 1´5 será el valor q en promedio cabe esperar si se realizan muchas pruebas. Podemos obtener el residuo entre el valor obtenido en la prueba y el q cabría esperar en promedio, o para cualquier otra prueba q no emplee las condiciones óptimas. OTRO EJEMPLO CON OTROS MATICES: mejora del proceso de aditivado de un polímero: Cuando el experimento es 22 habrá q hacer 3 replicaciones por lo menos para poder obtener un mínimo de gdl residuales, pq si no serán 3 gdlT, y 1gdlr. De esta manera: Gdl Tot 11 RPM 1 TPO 1 RPMxTPO 1 RESIDUAL 8 El efecto simple se obtiene (p.8−24). Para las interacciones, todavía no sabemos calcular la SC. Los cálculos de la SC de las interacciones se pueden simplificar mucho en estudios de factores a dos niveles, pq se puede calcular como: La diferencia entre las pruebas a nivel + y las pruebas a nivel −. El cuadrado del efecto por el nº de datos del experimento y dividido por cuatro es la SC de ese efecto con 1gdl. MATIZ: si en una ANOVA los gdlr son pequeños, el ANOVA es poco potente (tiene poca capacidad de detectar como significativos factores q son importantes). La regla: los gdlr han de ser, como mínimo, 10 y ya ni de coña menor de 4. En el ejemplo, los gdlr serían 6 => son pocos. La práctica consiste en eliminar a posteriori , del ANOVA, los efectos q claramente no son significativos (según la F−ratio), especialmente las interacciones de mayor orden q tengamos => aumentará la SCT => aumentarán los gdlr (pq los gdl de las interacciones q hemos eliminado pasan al residuo). Ej: pto III2, pag.8−13) Para ver los efectos simples: media de las 4 pruebas media de las 4 pruebas Factor Con espesor alto : con espesor bajo: EC = − = −4´5 al aumentar el EC, en promedio, mejora el stonechip en 4´5ptos. 46 PRIMER = − = −4´5 ESMALTE= = −3´5 Propiedad fundamental: la estimación del efecto de un factor (libro) Para la estimación de interacciones dobles: se calculan como la mitad de la diferencia del efecto del factor cuando el otro está a nivel + y cuando está a nivel −. EcxPR + se calculan como la multiplicación de los signos correspondientes − a los factores individuales − + ECxPR = = 1´5 + − − + Auntoevaluación p.8−16 (la resuelva él: ) Con el ejemplo de 2 factores: B A − − + + 20 40 30 70 25 55 En promedio, cuando A(−), se obtendrá (20+30)/2 =25, y cuando A(+), (40+70)/2 =55=> en promedio, por pasar de A(−) a A(+), tenemos +30. Este sería el efecto simple de A (la diferencia entre las medias de las filas con A(+) y con A(−)) Para B: B A − − + 30 + 20 40 50 30 70 El efecto simple de B sería +20. (la diferencia entre las medias de las columnas). 47 Interacciones: BxA , q se define como la mitad de las diferencia entre el efecto de B cuando A(+) y el efecto de B cuando A(−). B − − + A + 20 40 30 70 Como el efecto de B es diferente si A(+) q si A(−) => hay una interacción BxA: BxA = = +10 +30 +10 Interacción AxB: B A − − + + 20 40 30 70 Como es diferente el efecto de A si B(−) q si B(+) => existe una interacción AxB: AxB= = ½(40 − 20) = +10 La interacción AxB = BxA!!! Pq se trata de la misma resta cambiando el orden de los miembros!! " media de los efectos AxB(+) y AxB(−). La diferencia entre las medias de: • Las columnas => da el efecto de B • Las filas => da el efecto de A • Las diagonales => de la interacción AxB Así obtenemos los efectos e interacciones, pero ahora vemos si son o no significativos " realizamos el análisis de la varianza. (tabla p.8−18)Esto es lo q pasaría en ppio (pq no podemos dejar una SCr con sólo 1 gdl => ♦ la SCT queda tal cual ♦ SCef = el doble del cuadrado de cada efecto simple, interacción doble,.. y se obtiene una SC para cada uno. Y se obtiene la tabla de la ANOVA como siempre: y comparamos ahora la Fratio: La Fratio es menor q el F1,1(0´05)= 161´4 de las tablas => sale q no es significativo ¿Por qué? Pq tenemos sólo 1 gdlr y nada es significativo para 1 gdlr (fila 1 de la tabla de F)=> eliminamos las interacciones dobles pq, en cualquier caso, son menor importantes => ganamos así gdlr (tabla ANOVA p.8−20): 48 Se obtiene entonces q sí es significativo pq: • F−ratio > F1,4(0´05) = 7´71 • P−value < 0´05 Como sólo hay dos variantes, no hay q hacer los intervalos LSD, sino q vemos si es significativo o no simplemente con la ANOVA. Efecto de RPM: Efecto del TPO: Interacción RPMxTPO: SCEF= Y llevando la SCef a la ANOVA: Autoevaluación (p8−28) • Si los factores no influyen sobre la varianza ("Si la varianza es la misma si el nivel es + o −) => el CMR de la ANOVA sería una estimación de la varianza del proceso. • Si los factores sí q influyen en la varianza => obtenemos los residuos2 y realizamos una ANOVA con los CMR como variable respuesta. => entonces la ANOVA es (p8−29). Uno de los factores, además de afectar a la media, afecta a la varianza (es significativo el efecto pq F−ratio es casi 6 >F1,8 = 5´32). La varianza es muy superior cuando el TPO es (+) que cuando es (−) (es 30 veces más grande). Y esto es lógico: al agitar más rápido, el centrifucgado afecta a la media, pero tb a la varianza (pq el producto queda irregularmente adosado a las paredes). Entonces, el proceso ideal es: TPO bajo => (−) VEL alta => (+) La media de los cuadrados de los residuos en las pruebas en que es bajo el tiempo de centrífuga (p.8−30). Tb, al igual q la media, la varianza se puede predecir: Es el mismo cálculo pero en base a la 2ª ANOVA: Media (residuos2) 0´265 Efecto TPO −0´247 Media prevista de residuos2 0´0178 (= 0´178−0´265) Para calcular la varianza aplicamos un coeficiente corrector (multiplicamos por el nº de datos y dividimos por los gdlr del ANOVA de los residuos): 49 = = 0´163 OJO!!! " residuos2, pq uno se divide por n (residuos2) y el otro por (n−1) (). GRÁFICO DE DANIEL Se basa en la representación en papel probabilístico normal de los resultados de una ANOVA. NO DE LOS DATOS, sino DE LOS EFECTOS Q PUEDEN CALCULARSE A PARTIR DE LOS DATOS. Estos, se ajustarán aproximadamente a una recta cuya media será cero (el cero caerá sobre la probabilidad del 50%) Si hay un valor de media diferente (de media 5 por ejemplo) no caerá alrededor del 0 sino sobre el 5. Si pasase que una interacción triple fuera muy importante (q no es frecuente), no lo veríamos pq su efecto se iría al residual => En un experimento con 4 factores a 2 niveles hay 24 = 16 pruebas, y podemos obtener los efectos. Si ningún factor influye => los efectos difieren de cero de manera puramente al azar. Pero si hay algún factor q influye (normalmente son efectos simples, mas q dobles, más q triples)o hay alguna interacción doble q no hemos visto, el efecto estimado no fluctuará alrededor de cero, sino de (por ejemplo 5). Los efectos correspondientes a efectos reales significativos se apartarán de la recta: • Por la esquina superior derecha si son positivos. • Por la esquina inferior izquierda si son negativos. El gráfico de Daniel pondrá de manifiesto efectos: ◊ Claramente no significativos => q están alrededor de la recta, ◊ Claramente significativos => q se van de la recta ◊ Dudosos => q se medio van de la recta Ej.p.8−33: Habrá.. dos efectos? Tantos como (nº de datos −1) " gdlT Si lo representamos (p.8−34), los efectos q caen sobre la recta no son significativos (¡Y son 26!). los demás sí lo serán: 2 significativos positivos 1 significativo negativo 1, si acaso dudoso, tb negativo bajo están los valores de los 31 efectos (p.8−35) El mayor de todos es el efecto simple de E (16´2063).... Como se ve, sólo una de las interacciones dobles, y poco, es algo significativa. Vemos las condiciones operativas óptimas y cuál es el rendimiento en tales condiciones: 50 Hallamos la media de las 32 pruebas: Media 28´4 Como A no es significativo, cuál es el nivel óptimo de A?, el más bajo, pq no influye y para la industria es mejor, por tpo o por dinero. B es significativo y es mejor a nivel (+). ¿cuánto vamos a mejorar? B(+) − B(−) = 3´14 => la diferencia entre B(+) y la media será 3,14 C(+) +11´35/2 D(−) + 4´24/2 OJO!! Es significativo y el nivel óptimo es el negativo, aunque tiene un efecto positivo. Q esté a nivel (−) no quiere decir q tenga efecto negativo, sino q simplemente trabajamos a nivel (−). CD(−) + 2´81/1 Para q la interacción sea menor, CD ha de estar a nivel (−) => si D(−), C ha de estar a nivel (+) (− += −). Si la interacción fuera mejor con otra combinación, habría q sacrificar el efecto simple de C o el efecto simple de D pq el de la interacción tiene más peso. E(+) + 16/2 47´3 sería finalmente el rendimiento medio previsto. UT 9. ESTUDIO SIMULTÁNEO DE VARIOS FACTORES. • Estudio simultáneo de varios factores. • Efectos simples. • Ortogonalidad. Estimación de efectos. • ANOVA con factores a mayores niveles. • Interés • Cálculo de la suma de cuadrados • Ejemplo. ESTUDIO SIMULTÁNEO DE VARIOS FACTORES. No necesariamente están a 2 niveles. (en temas anteriores sólo teníamos 2 niveles) Aunque los planes 2k en los q todos los datos se estudian a 2 niveles son muy útiles en la práctica industrial, existen ocasiones en los q para cada uno de los factores investigados es necesario o aconsejable ensayar más de 2 niveles o variantes. • Factores cualitativos => el nº de variantes a ensayar viene definido por el nº de alternativas disponibles y será, en algunos casos, mayor de 2. • Factores cuantitativo => en este caso, el nº de niveles a ensayar, así como los valores concretos de los mismos, se puede fijar libremente al diseñar el experimento. Aunque en la práctica industrial 51 raramente está justificado para estos factores el estudio de 4 o más niveles, sí q puede plantearse la elección entre trabajar a 2 o a 3 niveles. La duda está entre trabajar a 2 o a 3 niveles. Con 2 niveles es más sencillo, sabemos q no será mejor q a 3 niveles pero podemos saber el nivel óptimo y si un factor no tiene efecto, dará lo mismo trabajar a nivel (+) q (−). Pero puede ser q el efecto de ese factor sea: Y q el nivel óptimo sea el intermedio. Es nuy fácil q ocurra pq se cogen valores alrededor de nuestro valor medio, q será el óptimo. • Factores a 2 niveles => experimentos más sencillos q exigen menor nº de pruebas. Efectos simples e intyeracciones son fáciles de interprestar. No es posible determinar a partir de los resultados el nivel óptimo del factor. A veces puede parecer q un factor no tiene efecto pq el nivel óptimo sea intermedio entre los 2 ensayados. • Factores a 3 niveles => son experimentos más complicados q exigen mayor nº1 de pruebas. .... ANOVA EN DISEÑO CON FACTORES A MÁS DE 3 NIVELES. Si un factor tiene nf niveles o variantes => sus gdl en la ANOVA son: gdlf = nf −1 Dosis de abonado 1 2 X 3 X X X X X X X X X X X X X X X X X X X X X X X A variedad B C D La variabilidad total se descompondría, en este caso, en 4 términos: CS gdl Total 23 Variedad SCvaried 3 Dosis SCdosis 2 VarXdosis 6 (=3x2) Residual 12 (=23 −3−2−6) Sustraendo general (=total general2/nº total de datos) 52 ¿cómo hallamos la SCf? SCf = suma total de las nf observaciones en las q el factor está a nivel k. Hallamos la suma total de cada una de las columnas, las elevamos al cuadrado, dividimos por nf (q es 8) y le restamos el SG. La SC de las interacciones: Hallamos el total de los 2 datos de las dos parcelas de cada uno de los 12 tatamientos posibles. La SC T de cada casilla partido por el nº de datos de cada casilla (2), menos el SG y menos las SC de cada uno de los factores q interaccionan. La fórmula para obtener la SC asociada a una interacción entre, por ejemplo, los factores 1 y 2 es: SC1x2 = Siendo T12 el total de n' observaciones en las q el factor 1 está a nivel k y el factor 2 está a nivel k'. La interpretación de los efectos en el caso de q los factores sean cualitativos, se lleva a cabo mediante la obtención de los intervalos LSD para las medias de las variantes del factor (o de las combinaciones entre variantes de dos factores , si hay q interpretar la interacción). En el caso de factores cuantitativos, la interpretación de los efectos (simples o compuestos) debe llevarse a cabo mediante la técnica de descomponer en las componentes lineal, cuadrática,.. cada una con 1 gdl (contrates ortogonales). Ejemplo: Efectos del catalizador y del molde en el hinchamiento tras la extrusión (PEAD) (p.9−23) Los datos corresponden al pinzado en base de botellas fabricadas con PE obtenido con 3 catalizadores diferentes extrusionados en 2 tipos de molde (10 botellas por tratamiento). => se trata de un plan 2x3 replicado 10 veces. Tipo de catalizador => es un factor cualitativo con 3 variantes. Molde=> es un factor cualitativo a 2 niveles. (cálculos p.9−25) gdl F−ratio catxmolde 2 3´232 residual 54 para saber si la interacción es significativa => lo es si 3´232 es demasiado grande para ser 1 F con 2 y 54 gdl.En la tabla de F con 2gdl y entre 40 y 60 gdl sería " 3´2 F, • sí q es significativo, pero no mucho, ya q el valor q ha salido de F−ratio, la F calculada, no supera el valor del 1%, q sería aproximadamente (tabla) de 5´1. 53 La probabilidad de q una F de Fisher sea mayor q el valor de la F calculada, q F−ratio, es 0´047 Tabla de F) es de 0´047 , q es menor del 0´05. Vamos a hallar el intervalo LSD para saber entre los 3 catalizadores las diferencias: Intervalos LSD = Intervalos LSD para la media del catalizador 1: catalA = = 89´35 = 89´35 ±0´707 x 2´01 x 0´216 => • 89´35 ±0´31 => 89´04 89´66 de forma análoga hallaríamos los intervalos LSD para las medias de los catalizadores 2 y 3. Gráficas de los intervalos LSD: Con el catalizador 3 se tiene un pinzamiento más elevado q con el 1 o el 2. la causa sí q era el catalizador (análisis gráficos) Interacción catalizadorXmolde => ¿sabríamos hallar los intervalos LSD para la interacción (para cada una de las casillas) ? Hallaríamos la media de cada casilla y la dividiríamos por 10. (q es el nº de datos). A la vista del gráfico, ¿en qué consiste la interacción del catalizador y el molde? => el efecto de un factor es diferente según cómo esté el otro. Sin embargo, la diferencia entre el catalizador 1 y 2 es diferente según el molde. Entre el catalizador 3 y los demás hay diferencias independientemente del molde => el efecto del catalizador depende del molde.....? (tabla p.9−27) UT 10. FRACCIONES FACTORIALES. Los diseños 2k y aquellos con factores a más de dos niveles (pto 9.III−1) son fracciones factoriales. Hay variaos niveles cada uno y se estudian a la vez todos los factores. La ventaja de las fracciones factoriales es q si hacemos todas las combinaciones posibles todos los efectos son ortogonales, lo q permite analizar por separado cada efecto. . pero su pega es q si el nº de factores a estudiar es elevado, el nº de pruebas a realizar puede ser brutal y esto ocurre a menudo en problemas industriales (Ej. Repsol.) Habría q realizar 2048 pruebas! => o estudiamos sólo 4 factores en lugar de 11. o hacemos un diseño de experimentos q no suponga realizar todas las combinaciones posibles => lo q ll. Fracciones Factoriales. En ellas, nosotros elegimos las pruebas q son importantes, aunque han de ser tb ortogonales. Vemos q con 12 pruebas es suficiente. La importancia de las fracciones factoriales en la industria es, pues, enorme. Pero ¿cómo elegimos las pruebas q son importantes y q sean además ortogonales? 54 Ej: tenemos q estudiar 6 factores a dos niveles cada uno. Tendríamos q hacer un plan 26=64 pruebas, q supondrían quizá mucho dinero. Se obtendría, eso sí, mucha información: 6 efectos simples 15 interacciones dobles 20 interacciones triples pero las interacciones triples, cuadráticas,... no existen normalmente => por lo que podemos renunciar a ellas, quedándonos con los efectos simples y quizá alguna interacción doble importante, pues no interesa, no es necesario hallar las interacciones pequeñas. Entonces se puede emplear un plan mucho menor para estudiar sólo las interacciones simples y quizá alguna doble. Así la cosa cambia de, a lo mejor, tener un millón y pico de pruebas, a sólo 27. Ejemplo: queremos etudiar 4 factores a 2 niveles. El plan sería 24 = 16 combinaciones equilibrado (tabla). Podemos hacer sólo 8 pruebas en lugar de 16? Las 8 primeras pruebas imposible, hay que hacerlo de manera que cada factor está la mitad de veces a nivel (+) y la mitad a nivel (−) (veremos que además no arreglaría el problema). Hacemos las pruebas (tabla) 1, 4, 5, 8, 9, 12, 13 y 16. que, en principio están equilibradas, 4 veces con (−) y 4 con (+). Si queremos estudiar el efecto de A: Media del efecto a nivel (+) − media del efecto a nivel (−) Ef A = Así veremos si el efecto es importante o no. Y si lo hacemos con los demás factores: Ef B= media del efecto a nivel (+) − media del efecto a nivel (−) Si elegimos A y B como factores: Cada vez que A está a nivel (+), B también y cuando está a nivel (−), B también!!! => los efectos de A y B ESTÁN CONFUNDIDOS => veremos que el efecto suma de ambos efectos, cero si son opuestos y el doble si son de igual signo, es debido más a uno que al otro. =>> EL EXPERIMENTO ESTÁ MAL DISEÑADO. Es una mala solución. De las 16 posibilidades, hacemos: 1, 4, 6, 7, 10, 11, 13,y 16. ¿cómo las ha elegido? (luego lo veremos) ahora tb hay para cada factor, 4 a nivel (+) y 4 a nivel (−) . pero ahora, para hallar el efecto de A: ef A = Cómo se encuentra ahora el factor B?: 55 Ef B= + − − + − + + − Ahora, la diferencia en promedio no puede deberse al factor B. ¿y al factor D? Tampoco (tb está equilibrado) ¿Y al E? Tampoco. A pesar de q son sólo 8 pruebas, el efecto de A se mantiene ortogonal a B, B y D => el efecto de A no se deberá a ninguno de ellos, tampoco el efecto de A se confundirá con ninguna interacción doble. Podemos estudiar la interacción AB con esas 8 pruebas? Sí. ¿y la cuádruple ABCD (aunque no nos interese? NO, pero no pasa nada por ello. Y es que es así como hemos elegido las 8 pruebas: sacrificando las interacciones cuádruples. Hemos elegido el GENERADOR DE LA FRACCIÓN " las interacciones cuádruples que tienen signo (+). ¿y la interacción triple BCD, se puede estudiar? Respecto al efecto de A, la interacción BCD estaría (+ + + +)−(− − − −) => la interacción estará confundida con el efecto simple de A => cuando estudiamos el efecto simple de A, realmente estaremos estudiando el efecto simple de A más la interacción triple BCD, pero realmente la interacción no va a ser importante, si es que existe, luego lo aceptamos como el efecto de A. Esto, realmente, va a pasar con todos los efectos simples: • El efecto simple de A está confundido con BCD • El efecto simple de B está confundido con ACD • El efecto simple de C está confundido con ABD • El efecto simple de D está confundido con ABC Hay entonces ciertos efectos (los ll. GENERADORES DE LA FRACCIÓN, que suelen ser interacciones de grado elevado, que están confundidas entre sí, pero no es muy grave a partir de interacciones triples. En las interacciones dobles sí es más grave, pq hay siempre dos interacciones dobles confundidas => si alguna de ellas es importante, no sabremos cuál es. En principio, una buena fracción factorial NO DEBE confundir los efectos simples. Tb sería bueno que los efectos simples tp se confundieran, hay que evitarlo si se puede, con las interacciones dobles, y, puestos a pedir, que tampoco se confundieran las interacciones dobles entre sí. Esto es posible según el problema (en el ejemplo las interacciones dobles sí están confundidas entre sí). Terminología: 4 factores a dos niveles en 8 pruebas => se dice que: es una fracción factorial 2 4 − 1 • hay 4 factores • a 2 niveles • pero como hay la mitad de pruebas (8)de las que saldrían con 24, se dice que hay 24−1 (no restar el exponente, sirve para indicar que es una fracción factorial). 56 • Hay 1 generador Generador: Si el generador es una interacción cuádruple (ABCD) => se dice q : TIENE UNA RESOLUCIÓN IV (en nºs romanos) => • la interacción cuádruple NO se puede estudiar • las interacciones dobles estarán confundidas entre sí y • los efectos simples estarán confundidos con las interacciones triples. REGLA PRÁCTICA En general, para estudiar cómo están confundidos los efectos en una fracción factorial, sabiendo los generadores: La fracción fatorial 2 k − 1 tiene: • 1 solo generador, que siempre es la interacción de orden más elevado ej: 6 factores a 2 niveles an 16 pruebas 26=64 pruebas => sería un diseño 26−2 tendrá 2 generadores en ppio (no uno sólo) • LOS PLANES 2K−p TIENEN p GENERADORES • El efecto asociado al generador/generadores no se podrá estudiar nunca. (pq siempre están a nivel, y nunca tendremos el nivel (−) para comprar). • Y cualquier otro efecto o interacción está confundido con el que resulte de multiplicarlo por el generador y quitar los efectos que resulten al cuadrado. Ej: si ABCD es el generador : AB x ABCD = A2B2CD "CD => => AB estará confundido con CD podemos, así, ahorrar tiempo en el ejemplo de Repsol, ellos hicieron 32 pruebas (que supuso 2 meses). ¿qué hubiera ido un diseño de 5 factores a dos niveles en 16 pruebas (p. 8−33)? Elegimos todas aquellas pruebas cuyo producto de los factores den (+) y así podremos estudiar el efecto quíntuple, y además se confunden...(ver). Y cómo vemos si los efectos son significativos o no? Vamos a papel probabilístico (p.8−34) y vemos el gráfico de Daniel. Con sólo 16 pruebas hubiéramos llegado igualmente a las mismas conclusiones! Fracciones 2k−1 Permiten estudiar el efecto de k factores a 2 niveles haciendo la mitad de pruebas (2k−1) que exigía el plan 2k completo. Construcción de un plan 2k−1: 2 métodos equivalentes: Con los k−1 primeros factores escribimos las 8 pruebas del 23, alternando los signos como siempre. 57 Sólo faltará poner los signos del último factor (D en el ejemplo), y se hace de manera que el producto de su signo por el de los otros (3) factores sea igual a (+), es decir, que ha de tener el mismo signo que el de los otros multiplicados (que AxBxC) para que la multiplicación final dé (+). El generador, en el ejemplo, será ABCD => => cada efecto simple estará confundido con la interacción de los otros 3 factores: • A x ABCD = A2BCD " BCD => A está confundido con BCD • B x ABCD = AB2CD " ACD => B estará confundido con ACD. • C x ABCD = ABC2D " ABD => C está confundido con ABD. • D x ABCB = ABCD2 " ABC => D está confundido con ABC. => cada interacción doble estará confundida con la doble de los otros dos factores: • AB x ABCD = A2B2CD " CD • AC x ABCD = A2BC2D " BD • AD x ABCD = A2BCD2 " BC • BC x ABCD = AB2C2D " AD • BD x ABCD = AB2CD2 " AC • CD x ABCD = ABC2D2 " AB Ejemplo (ver): En el análisis, sin embargo, no hay nada nuevo. Tenemos 2 posibilidades: ♦ Hallar todos los efectos posibles y representar en el gráfico de Daniel (lo aconsejable) ♦ Hacer un análisis de la varianza (pero con cuidadín) Vemos cómo sería mediante el gráfico de Daniel (p10−12 y 10−13) A ojo, los efectos no significativos son "0 y los significativos son grandes. Construcción del gráfico de Daniel: ♦ Ordenamos los efectos de menor a mayor y los identificamos: (+ BCD) A => −5'75 (+ACD) B => −3'75 (+ ABD) C => −1'25 AD+BC => −0'25 AB + CD => 0'25 (+ABC) D => 0'75 AC+ BD => 0'75 Realmente, los efectos simples que vemos serían la confusión del efecto simple más la interacciónes triples , 58 pero ya suponemos que las interacciones triples no son importantes. ♦ obtenemos para cada valor el porcentaje de valores menores o iguales que él: nº de valores " que el valor del efecto de ese factor o interacción para lo del ajuste A x 100 = 7'1% Nº total de valores B 21'4% C 35'7% AD + BC 50% AB + CD 64'3% D 78'6% AC + BD 92'9% ♦ En el plot de Daniel, escribimos la escala de valores en las abcisas, y la escala logarítmica en las ordenadas: La escala logarítmica se hacía: ◊ Dividiendo en dos partes el eje de ordenadas ◊ El 50% es el medio ◊ Dividimos cada parte en 4 y escribimos, de arriba abajo: 99%, 95%, 80%, 50%, 20%, 5% y 1%. ⋅ Y representamos los puntos: (gráfico) ⋅ Y veremos que: • los efectos cercanos a cero, los no significativos, definen una recta • los significativos positivos se van por la esquina superior derecha y • los significativos negativos se van por la esquina inferior izquierda. Por tanto, A y B serán claramente significativos, C será dudoso. Las condiciones operativas óptimas serán aquellas que (en este ejemplo) maximizan el nº de horas que aguante sin descomponerse, por tanto: Si la media es 14'625 Con A(−), tenemos respecto a la media + (se mejora en la mitad de su efecto) Con B(−) ... 59 C es dudoso, que sea o no significativo es subjetivo => si lo admitiéramos como significativo, tb habría que ponerlo a nivel (−): Con C(−) Por tanto, la media prevista será: 20 Ahora vemos el análisi pero con la ANOVA (2ª opción). Pero ojo, que hay q tener cuidado (con el STAT) Te pone los diseños posibles: 24, ... y 24−1. seleccionaremos esta opción. Y la interpretación de la ANOVA es igual que hasta ahora. FRACCIONES 2k−p Si k es elevado, quizá (k−1) es aún un nº de pruebas demasiado elevado en ciertos contextos: Ej: si K=6 => 6−1=5 => 25 =32 pruebas, quiza son aún muchas pruebas. Para hacer, por ejemplo, sólo 16 pruebas, necesitaríamos un diseño 26−2. Para u diseño 26−2 necesitaré 2 generadores (en un diseño 2k−p hay p generadores). Pero ojo, que cuando hay más de un generador puede haber problemas: Si empleo dos generadores cualquiera, por ejemplo ABCDEF y ABCDE, y tomamos todas las pruebas en que ambas interacciones tengan signo (+), realmente, sin querer, estamos eligiendo 3 generadores, los dos elegidos y el producto de ambos tachando lo que salga al cuadrado: Ej: si elegimos ABCDEF y ABCDE: También estamos tomando ABCDEF x ABCDE = A2B2C2D2E2F " F F también será un generador => Entonces F ha de tener signo (+) por ser generador => y no podremos ver el efecto simple de F. La solución es tomar 2 generadores de manera que su producto tachando los cuadrados sea también de orden elevado. ¿cómo elegirlos? Mediante una tabla (p.10−17!). RESOLUCIÓN " nº de letras del generador mas corto cuando hay más de un generador (p.10−18) ej p 10−25: ¿cómo se detecta en un gráfico de Daniel la existencia de una observación anómala? Con datos normales, el gráfico será de la forma: Pero los efectos se calculan como Ef = => se notarán los datos anómalos cuando los efectos no significativos aparezcan como 2 rectas separadas justo en el efecto 0, en lugar de aparecer como una sola recta: Cuando aparezca así un gráfico de Daniel, es que existe un dato anómalo. ¿por qué aparece así? Pq están maximizados los efectos en que el datos está como (+) o minimizados los efectos en que el dato aparece como 60 (−). Para los datos significativos, esto no se aprecia, pero no pasa nada pq en los efectos no significativos sí se apreciará. Pero, ¿cómo vemos si un dato de los significativos es anómalo? Con STATGRAPHICS: • ANOVA, análisis de la varianza • Cogemos los efectos significativos • Obtenemos los residuos de esos efectos • Lo llevamos apapel probabilístico para ver cuál es anómalo. TAGUCHI (ORTHOGONAL ARRAYS) ORTOGONAL ARRAYS " son tablas para diseñar fraccioes factoriales. Hay varios diferentes, y se simbolizan como : L donde el subíndice simboliza el nº de pruebas. " layout OROTHOGONAL ARRRAY L8 L8 sirve para estudiar hasta 7 factores a dos niveles en 8 pruebas, sería un 27−4. Si queremos estudiar 5 factores, elegiremos 5 de las 7 columnas, pq son ortogonales. Tb se incluye una tabla de interacciones para ver quién se confunde con quién. (en las tablas, en lugar de (+) y (−) aparecen 1 y 2, pq no vamos a multiplicar signos para hallar las interacciones ya q también están tabuladas) Ej: utilizando el L8, diseñar un experimento de 8 pruebas que permita estudiar el efecto de 5 factores a 2 niveles y las interacciones dobles AC y AB, consideradas potencialmente importantes. Lo q tenemos que hacer e s asignar, a cada uno de los factores e interacciones a estudiar, una de las columnas del L8. Comenzamos al azar , para A la columna 1, Para B la columna 2, Si ahora tomamos la columna 3 para C, entonces la interacción AC ( que interesa estudiarla y por tanto que esté en una columna aparte) se encontrará en (ver tabla de las interacciones) la columna 2, es decir, se confundirá con lo que haya en esa columna y, como la columna 2 ya la hemos tomado para B, no la podemos tomar para AC pq si no no podremos estudiar esa interacción, ya que estaría confundida con el efecto simple de B. Por tanto, nos interesa que la interacción a estudiar ocupe una columna q no sea ocupada por ningún otro efecto. Si: tomamos, para C la columna 4 Entonces la interacción AC (ver tabla de interacciones entre 1 y 4) se confundirá con lo que haya en la columna 5 => no asignaremos nada a la columna 5 y así quedará reservada para el efecto de esa interacción : 61 Para AC, la columna 5 Continuando de esta forma, el diseño quedaría: (Columna) (Efecto) (1) A (2) B (4) C (6) D (3) E (5) AC (7) AD ¿será posible diseñar un experimento de 8 pruebas para estudiar 4 factores a 2 niveles y además las interacciones AB, AC, AD y BC? NO, pq hay una condición necesaria pero no suficiente: 8 pruebas tienen 8−1=7 gdl y estudiar 4 factores y 4 interacciones supone necesitar 8gdl=> nunca podremos estudiar 8 efectos (para ello necesitaríamos como mínimo tener 8 gdl y en este caso, con 8 pruebas, sólo tenemos (nº de pruebas −1) 7 gdl. y si queremos estudiar 4 factores y 3 interacciones con 8 pruebas? Sí podríamos. ¿cómo se diseñaría?: (tabla L8): (Columna) (Efecto) (1) A (2) B (4) C (6) D (3) AB (5) AC (7) AD FRACCIONES FACTORIALES A 3 NIVELES La teoría estadística es muy complicada y no la veremos. Vamos directamente al ORTHOGONAL ARRAY. La forma de proceder de Taguchi no es eliminar las causas que causan variabilidad en un proceso (es muy caro normalmente), sino diseñar el proceso de manera que esas causas no trasciendan al proceso, es decir, que el proceso sea robusto: Se basa en la no linealidad de la respuesta: Pero para hallar la no lienalidad es necesario trabajr a 3 niveles, de ahí el fundamento de Taguchi. Vemos los orthogonal arrays más empleados en la industria: L8 L18 L22 Lo que habrá que ver luego es cómo adaptarlos a los procesos de la industria. Cuestiones: ¿es posible en menos de 8 pruebas estudiar 4 factores a 3 niveles? NO, un factor a 3 niveles don 2 gdl => 4 factores son 8 gdl => necesitaremos como mínimo 9 pruebas: Ej : 8 pruebas, 4 factores a 2 niveles...No es posible asignar las columnas para estudiar A, B, C, D, AB y CD! 62 L16 Se pueden estudiar hasta 15 factores a 2 niveles. Es un diseño 215−11. Ej: diseñar 1 experimento de 16 pruebas que permiten estudiar 8 factores a 2 niveles que permita estudiar las interacciones: AB, AC, BC, DE, DF. Como queremos estudiar estos factores, con la tabla de interacciones obtenemos dónde van a estar las interacciones => no emplearemos esa columna para meter otro factor sino que la reservaremos para la interacción (NO ES POR CONFUSIONES). Las confusiones entre interacciones son como siempre. Si queremos estudiar sólo 3 factores elegiremos 3 columnas ¿cuáles? Taguchi dice que cualquiera de las 3. Rafael Romero dice que no da igual cualquiera, que puestos a elegir, elegiremos la 2, 3 y4. OJO! Para analizar los datos, ya no se puede hacer: • La ANOVA pq no hay gdl residuales • El gráfico de Daniel. Lo que se hace es: A partir de los 9 resultados de las 9 pruebas, para estudiar el efecto del 1er factor (A), podemos hallar la media de A a nivel 1, a nivel 2 y a nvel 3. Idemom para los demas factores. Podemos pues obtener 12 medias (4 factores a 3 niveles). Ej: sería = La media de estas medias es la media general en grupos de 3. Gráficamente, haremos el gráfico de medias: B tiene un efecto positivo grande y lineal y D un efecto negativo lineal.A y C no tienen mucho efecto. Con este gráfico no se puede analizar la significación pero se puede ver: • Si tiene efecto grande o no. • Si el efecto es positivo o negativo • Si el efecto es lineal o no L18 (Se emplea mucho) 18 pruebas tienen 17 gdl => podemos estudiar hasta 8 factores a 2 niveles, que se comen (8*2=16) 16 gdl y los 2 gdl que sobran están relacionados con la interacción entre 1 y 2 => se puede estudiar pq no está confundido con nadie. Es un diseño ortogonal como todos. La interacción 7 y 8 está confundida pero repartida a trozos entre las columnas (no está en una sola columna) => la ventaja es que no enmascara los efectos de 1er orden, pq está confundida con ellos pero a 63 trocitos y por tanto no les afecta. L27 Es posible estudiar 13 fatores a 3 niveles en sólo 27 pruebas? ¿por qué? Si, cabe justo, y además nos ahorramos hacer las 1594323 pruebas para el factorial completo!! SALE: Si un factor resulta que sólo tien 2 niveles, cómo introducirlo entre factores a 3 niveles? TRUCOS: Frecuentemente no se encuentra un orthogonal array estandar que se adapte exactamente a las necesidades de un experimento. En estos casos hay unos trucos para adaptar los orthogonal arrays a ellas manteniendo la ortogonalidad: ¡er TRUCO: • sustituir en una columna a 3 niveles, el nivel 3 por niveles 2, directamente, creando una nueva columna a partir de la original que tiene un porrón de doses: 1 2 1' 1 1 1 1 2 1 1 3 1 2 1 2 64 2 2 2 2 3 2 3 1 2' 3 2 2' 3 3 2' Parece una chapuza, pero no lo es! Pq resulta que el proceso es completamente ortogonal! De esta manera, si varía el proceso cuando la columna 2 varía de 1 a 3, no será pq la nueva columna 1' tenga valor 1 ó 2, ya que para cada uno de los 3 niveles de la columna 2, la colima 1' se encuentra igual: Col 2 1 2 3 Col 1' 1 1 1 2 2 2 2 2 2 Pero sí hay una tabla de interacciones dobles. La diferencia con los L18 es que un factor a 3 niveles tiene 2gdl => una interacción doble a 3 niveles tendrá 2*2=4 gdl => necesitamos 2 columnas. Ej: se desea diseñar 1 experimento con 6 factores: A, B, C, D, E y F a 3 niveles. Se desea tb poder estudiar las interacciones dobles AB, AC y BC (entre los 3 primeros fatores, pq se sospecha que son muy importantes y puede haber interacciones entre ellos) ¿es posible hacerlo en 27 pruebas? 6 factores * 2 gdl = 12 gdl 3 interacciones dobles * 4 gdl cada uno= 12 gdl 24 gdl => necesitamos un mínimo de 25 pruebas y tengo 27 => es perfectamente posible. El diseño sería: 65 => ya sabemos entonces, con esas columnas, las 27 pruebas que habríamos de hacer. (las interacciones dobles abarcan 2 columnas) TRUCO 2º En un diseño con factores a 2 niveles (L8 y L16), podemos introducir un factor a 4 niveles!: • Un factor a 4 niveles tiene 3 gdl => necesitaremos 3 columnas (dos cualquiera y su interacción) • Y luego ya los factores a 2 niveles ( con 1gdl cada uno) OJO!: en el L8, las 3 columnas por ejemplo serían 1 , 2 y la de su interacción, que es la columna 3, pero hemos de realizar una combinación de las 3 columnas: • elegimos las 3 columnas (dos y su interacción) • combinamos las 3 columnas de manera q obtenemos 4 tipos de combinaciones, 1 1 1 1, 1 2 2, 2 1 1, 2 2 1. • a cada tipo de combinación le asignaremos un nivel, de 1 a 4, obteniendo así a partir de 3 columnas a 2 niveles, una nueva a 4 niveles.: 1 2 3 1' 1 1 1 1 1 1 1 1 1 2 2 2 66 1 2 2 2 2 1 2 3 2 1 2 3 2 2 1 4 2 2 1 4 Ya NO podremos introducir un 2º factor a 4 niveles en un L8, por qué? OJO!: ◊ Gdl sí hay, de sobra ◊ PERO ya no hay en un L8 otra combinación de 2 columnas y la de su interacción LIBRES ¿sería posible en un L27 estudiar un factor a 9 niveles? Sí, tomando las columnas 1, 2, 3 y 4 y podríamos tomar aun.... TRUCO 3 En un diseño a 2 niveles, ¿podemos meter 1 factor a 3 niveles? Sí, empleando 1º el 2º truco y después el 1º. 67 Ej (p. ): La mejor prueba es la 14 => sus condiciones son las óptimas? Ojo, que es muy cara. Hemos hecho 18 pruebas de 1844 posibles => lo más probable es que no sea la óptima => lo que haremos es: • Analizar los efectos, • Ver los que influyen y • Los que no son importantes, los ponemos al nivel barato. • (con el STAT) introducimos los datos, con columnas como la tabla, tal cual, y hacemos una ANOVA. Como sólo quedan 4gdlresid y conviene tener más, eliminamos los factores simples no significativos (los que tienen P−value > 5%), y nos quedaremos así con sólo C, D, G y H. • Volvemos, con ellos, a hacer la ANOVA Vemos q C, D y G son significativos, y H no es significativo. Pero OJO!, cuando un factor es cuantitativo se debe descomponer en las componentes lineal y cuadrática => realizando tal descomposición se ve que la componente lineal sí es siginificativa estadísticamente. Condiciones óptimas=> C2, D3, G1 y H1 => esta prueba realmente no se ha hecho, pero es la óptima. La más parecida a ella era la prueba 14 y por eso era la que mejor daba, no por ser la óptima sino por ser la más parecida a la óptima. Obtenemos las medias en cada una de las condiciones: Media general 650 min Efecto C2 −65 D3 −197 G1 −84 H1 −54 • =>> lo que supone una mejora brutal sin realizar ninguna inversión, sin cambiar máquinas para eliminar factores q aumente la variabilidad, sino haciendo q esos factores se minimicen por trabajar en aquellas condiciones en q no afectan tanto. El único fallo de esto es que no se estudian las interacciones. El gráfico de medias sería: Donde se ven : • los efecto importantes, • si es positivo o negativo, • y las condiciones óptimas. TEMA 6 Inferencia respecto a una población normal • Calculamos la media y la varianza: • 68 • S2 = • Comprobamos q los datos se ajustan lo suficientemente a una distribución normal: ♦ Con un histograma (necesario un mínimo de 40−50 datos) ♦ Con papel probabilístico normal: ♦ Se ajusta a una recta => SI ♦ No se ajustan => NO • Usar los tests estadísticos formales (poco recomendable: respuesta correcta a pregunta equivocada) • Analizando CA y CC ◊ CA = ◊ CC = • Contrastar la hipótesis nula Ho: m=mo. • M = mo refleja tu conocimiento previo, lo q piensas a no ser q la muestra revele lo contrario. • Comprobar que P, tomando por defecto =0'05: ♦ Calculamos ♦ Buscamos en la tabla de t de student t(N−1)( ): ⋅ Entramos con gdl = N−1 ⋅ Entramos con /2 (pq da sólo el área de una cola (la drcha)) ◊ Si: ◊ < t(N−1)( ) de tablas => aceptamos Ho: m=mo ◊ > t(N−1)( ) de tablas => rechazamos la Ho: m=mo ♦ el error de primera especie será . ⋅ Hallamos los intervalos de confianza para m , con una confianza del ((1−)100)%: •: • 1− será el nivel de significación. • Calculamos • Buscamos en la tabla de t de student t(N−1)(): ♦ Entramos con gdl= N−1 ♦ Entramos con / 2 • Calculamos S • N es el tamaño de la MUESTRA • Calculamos , que son los límites del intervalo • Calculamos los intervalos de confianza para , con una confianza del ((1−)100)%: ◊ • N es al tamaño de MUESTRA • Calculamos S2 • Buscamos en la tabla de Gi−dos" , los valores de: ♦ (1−/2), pq la tabla expresa la probabilidad por una cola (la drcha): ◊ entramos con gdl = N−1 69 ♦ (/2) ◊ entramos con p= 1−/2 ◊ entramos con gdl= N−1 ◊ entramos con p= /2 • calculamos , el límite inferior del intervalo • calculamos , el límite superior del intervalo CON EL STAT: Intervalos de confianza para m y para : • sanpstats!! • OneSampleAnalysis • Data: (nombre de la variable) Comparación de dos poblaciones normales Comparación de varianzas de dos poblaciones normales. • Contrastar la hipótesis nula Ho: ♦ Calculas y y miras a ver cuál es mayor ♦ Divides el mayor de los dos por el otro, (será cercano a 1) ♦ Buscas en la tabla de F una FN1−1,N2−1 con una p= , por defecto = 0'05 ◊ El orden de los gdl es: 1º los de la muestra del numerador ◊ Con los 1ºs gdl, se entra por arriba en la tabla de F ◊ Con los 2os, por el lateral ◊ Hallas la media de los valores de la tabla para p= 0'01 y p= 0'05 (deberíamos buscar una p= 0'025 pq la tabla representa la probabilidad por una cola, la derecha, pero p= 0'025 no está, así que asumimos como tal la media entre el valor para p= 0'01 y p= 0'05) • Si : • < FN1−1,N2−1 de tablas => aceptamos la Ho: = • > FN1−1,N2−1 de tablas => rechazamos la Ho: = Comparación de medias de dos poblaciones normales. ♦ Contrastar la hipótesis nula Ho: m1=m2. ♦ Calculamos y ♦ Hallamos − (será cercano a 0) ♦ Estimamos : 70 ⋅ Si = => Una estimación de será : ⋅ Si N1=N2 =>> S2 = ⋅ Si N1"N2 =>> S2 = • Estimamos la varianza de − : ♦ S= • Calculamos la desviación típica (estimada): ◊ S= • Calculamos • Buscamos en la tabla de t de student tN1+N2(), por defecto es 0'05 ("5%): ◊ Entramos con gdl = (N1−1)+(N2−1) ◊ Entramos con p=/2 (pq la tabla expresa la probabilidad por una cola, la derecha) • Comparamos la tcalculada con la ttablas: • Si < tN1+N2() => aceptamos la Ho => m1=m2 • Si > tN1+N2() => rechazamos la Ho => m1"m2 Intervalo de confianza para m1−m2 ♦ Calculamos y ♦ Hallamos − ♦ Estimamos : ⋅ Si = (aunque no sean realmente iguales, se supone pq da una buena aproximación) => Una estimación de será S2 : ⋅ Si N1=N2 =>> S2 = ⋅ Si N1"N2 =>> S2 = • Estimamos la varianza 71 de −, S: • Calculamos la desviación típica (estimada) S: • Buscamos en la tabla de t de student tN1+N2(), por defecto es 0'05 ("5%): • Calculamos los intervalos de confianza para 72 m1−m2: • ¿es robusto el experimento? Mediante el STAT Comparación de poblaciones, de sus medias y de sus varianzas: 73 • sanpstats!! • TwoSampleC • Sample1: (nombre de la población1) Sample2: (nombre de la población2) Análisis de residuos • Hallamos los residuos de los datos de las muestras: Para averiguar la existencia de un dato anómalo: • hay algún residuo especialment elevado en valor absoluto? • Representam los residuos en papel probabilístic normal: • Si se ajustan a una 74 recta => no hay datos anómalos • Si no se ajusta alguno => es un dato anómalo Para averiguar si hay tendencias no aleatorias respecto al orden en que se realizaron las pruebas, que puedan sesgar conclusiones ♦ grafi los resid frent al orde de las prue Análisis de datos apareados 75 Si los datos de dos poblaciones están apareados: ♦ se crea una nuev varia d, la difer entre datos apare ♦ se calcu la S2d y md ♦ no hay ahor comp de varia ♦ la hipó nula es ahor Ho: md= 76 (p= / 2) 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96