ESTADISTICA ESPAÑOLA Vol. 36, Núm. 135, 1994, págs. 59 a 74 Sensibilidad frente a datos anómalos de tres estimadores de efectos de dispersión con datos no necesariamente replicados por ALBERTO J. FERRER y RAFAEL ROMERO Universidad Politécnica de Valencia Departamento de Estadística e I.O. RESUMEN Se estudia el efecto de la presencia de observaciones contaminantes sobre el sesgo y la varianza de tres estimadores de efectos de dispersión a partir de datos no replicados: 1) estimador de dos pasos (TSP); 2) estimador por minimos cuadrados ponderados iterados (MCPI), y 3) estimador máximo-verosírnif (MV). La influencia de la magnitud de la contaminación sobre el sesgo de los estimadores depende del valor real del efecto de dispersión a estimar. La varianza de los estimadores aumenta con dicha magnitud de contaminación. EI estimador más sencillo, TSP, es el menos sensible a la presencia de datos anómalos en situaciones anáiogas a las simuladas, para cualquier tamaño muestral. EI estimador MV es, por el contrario, el más sensible, incluso para tamañas grandes de muestra. Palabras Clave: Heterocedasticidad, datos anómalos, contral de calidad «Off-Line», mejora de la calidad y de 1a productivídad. Clasificación AMS: 62 F 11, 62 F35, 62 N 10, 65C05. f^^1?\[^Itil1c^1 E^til'^tit^t.^^ f^11 1. INTRODUCCION Los recientes avances en el área de !a ingeniería de calidad han provocado un gran interés en el análisis de efectos de dispersión, esto es, en el estudio de los efectos que una o más variables explicativas tienen sobre la dispersión de una variable respuesta. Para situaciones en que se dispone de replicaciones, se han propuesto diversos modefos y técnicas de estimación coma puede verse en Bartlett y Kendaff (1946); Box (1986}; Box y Ramírez (1986); León, Shoemaker y Kacker (1987); Nair y Pregibon (1986}, Taguchi y Wu (1980), y Tort-Martorell (1985}. Un estudio comparativo entre algunos de estos procedimientos puede encontrarse en Nair y Pregibon (1988). Box y Meyer (1986) propanen un método para estudiar e#ectos sobre la dispersión a partir de los resultados de fraccianes factariales no replicadas. Una desventaja de este método es que sólo resulta apficable directamente a planes o fraccíones factoriafes con factores a dos nivefes. Sin embarga, en la práctica industrial es necesario a menudo estudiar la existencia de efectos de dispersíón en condiciones mucho más generales. Este es ef cas0, por ejempfo, cuando los datos disponibles no son ef resultado de una experiencia diseñada, o cuando no se dispone de répficas para los diferentes valores de los factores o variables explicativas, y, particularmente, cuando algunas de las variabfes explicativas son continuas y toman valores no replicados en la muestra. Este tipo de datos retrospectivos suele ser muy frecuente encontrarfos hoy día en las industrias como consecuencia del uso masivo de los gráficos de control. En este tipo de situaciones la estimación efectiva de funciones de varianza a partir de modelos de regresión heterocedásticos puede ser muy recomendable ( Davidian y Carroll, 1987). De entre todas las posibles fun, ciones de varianza, diversos autores proponen utilizar el modelo logarítmico por razones de cálculo y físicas, dado que dichos autores consideran que es más frecuente encantrar efectos sobre varianzas muftiplicativos que ad'+tivos. Ver Aitkin (1987}, Sartlett y Kendall ( 1946), f3ox y Meyer (1986), Cook y Weisberg (1983), McCullagh y Nelder ( 1989), y Pignatiello y Ramberg (1985}. EI modefo de regresión lineaf can heterocedasticidad multiplicativa puede expresarse corno sigue (Aitkin, 1987): .^^j = ^^xj + uj 2, ..., N var (u^ ) = cs? = exp (a'z^ ) [1 J [2l donde z^ puede contener afgunas o todas las variables x^. Las u^ 's son perturbaciones aleatorias independientes y normalmente distribuidas con media nula, pero cuya varianza no es constante, pudiendo depender de los valores de las z^ a través de la expresión [2J. tif:NtifHll.Ill,A[,) F_kE:N`IE:.^ l)^lC):^ ;^N()^fAt.()^ [)F:7lZE:S F^"('Iti1.11)()Ft^:^, UF f F:f.(.'f^)^ (^F- 1^1.5F'F^.k.^l^)^ f^^ Los tres métodos analizados en este artículo permiten la estimación de los parámetros [3 y a del modelo expuesto a parti r de datos no necesariamente replicados. Sus propiedades asintóticas han sido estudiadas por diversos autores (Carroll y Rupert, 1988). Estos métodos se presentan a continuación: a) Método TSP: Harvey (1976) propone como estimador de efectos sobre la dispersión al obtenido mediante una regresión ordinaria sobre z^ utilizando como variable dependiente el logaritmo neperiano ^del cuadrado de los residuos, e^, estímados en la regresión ordinaria de y^ sobre x^. EI autor lo denomina método de estimación de dos pasos TSP . b) Método MCPI: EI método de mínimos cuadrados ponderados iterados --MCPI , propuesto por varios autores como Carroll y Rupert (1988) y Zúnica y Romero (1988), resulta ser una modificación del método anterior para tener en cuenta el carácter heterocedástico del modelo de efectos sobre medias. Es un procedimiento iterativo que estima oc mediante una regresión ordinaria de In (e?) sobre z^, donde e^ son los residuos estimados en la regresión par mínimos cuadrados ponderados de y sobre x^. Los mencionados autores utilizan el método TSP para obtener los estimadores iniciales. c) Método MV: Este método obtiene estimadores máximo verosímiles maximizando el logaritmo de la función de verosimilitud construida a partir de las hipótesis del modelo considerado en [1 ] y[2]. Harvey (1976) propone utilizar como estimadores iniciales los derivados de la aplicación del rnétoda TSP. Los autores del presente artículo estudian en un trabajo previo, Ferrer y Romero (1993), las propiedades de estos estimadares para diferentes tamaños de muestra, en el caso particular de una única variable explicativa distribuida uniformemente en su campo de variabilidad. Se observa que estas propiedades para el caso de muestras pequeñas difieren sensiblemente de las que cabría esperar a partír de su comportamiento asintótico. Así, los tres estimadores son sesgados, tendiendo el MV y el MCPI a amplificar el efecto de dispersión real, mientras que el estimador TSP tiende a reducirlo. Adicionalmente se obtiene que las expresiones asintóticas subestirnan notablemente las varianzas reales de los estimadores MCPI y MV. La conclusión más importante que se deriva de ese estudio es que con un número elevado de observaciones el estimador MV es preferible a los otros dos. Sin embargo, cuando el tamaño muestral es reducido, situación extremadamente frecuente en la práctica industrial, resulta más aconsejable la utilización del estirnador más sencillo, TSP, al tener menor error cuadrático medio. Las conclusiones anteriores se obtuvieron a partir de datos simulados que seguían exactamente el modelo [4] sin contaminación. En la práctica industrial es, sin embargo, muy frecuente la presencia de observaciones contaminantes debido a salidas de control de los procesos investigados. Para analizar la sensí- F-ti i,^C)t`^ I 1( ,> F-.tif'A!^(Ji.r+^ f>? bilidad de los métodos expuestos ante la presencia de observaciones anómalas, se ha planteado la presente investigación, cuya metodología y resultados se exponen a continuación. METODOLOGIA La comparación del comportamíento de los tres estimadores en presencia de datos contaminados se ha Ilevado a cabo mediante simulación Montecarlo y partiendo del siguiente modelo con heterocedasticidad multiplicativa: y^=40+6x^+ u^ j=1,2 [3] Se asume que las perturbaciones, u^, son valores independientes e idénticamente distribuidos de una distribución norma! contaminada según: t 1--p) N[0, cs? = exp (0.7 + cx, x^)] + pN (0, m2 cs? ) [4] siendo p el porcentaje de contaminación y m!a magnitud de contaminación. Se han considerado vaiores de x equiespaciados entre 0 y 10, y como valor del efecto de dispersión a estimar a^ = 0.322, lo que implica que la desviacíón típica de y cuand© x= 10 es cinco veces el valor cuando x= 0. En una fase posterior de la investigación se realizaron simulaciones con a1 =-0.322 y a, = 0. La gravedad de la contaminación se ha simulado modificando la magnitud de contaminación de las perturbaciones (m = 2, 4, 6) y variando, dado un m, el porcentaje de contaminación, p, desde un 10% a un 50%. Se han considerado tres tamaños de muestra, N= 11, 21 y 101. Como se observa en [4], el modelo de contaminación propuesto únicamente genera datos anómalos aislados en la variable respuesta. La razón de recurrir a este sencillo modelo de contaminación resíde en que constituye una aproximación razonable a los tipos de contaminación que con mayor frecuencia pueden aparecer en e! contexto industrial. En este sentido se ha desechado la posibilidad de simular observacíones atípicas en la variabie explicativa ( puntos de palanca}, ya que son bastante improbables en el contexto industrial, donde lo habitual es la realización de diseños de experimentos en los que las variables explicativas toman valores prefijados por el investigador o ingeniero (Harrison y 1990 , cap. 16). Por tanto, es de esperar que las posibles anoV1^adsworth malías se presenten, aisladas, en la variable respuesta, donde sí son frecuentes las safidas de control de los procesos. Para cada una de las combinaciones posibles del tamaño muestral, método de estimación, porcentaje de contaminación y rnagnitud de contaminación se han realizado 500 replicaciones, estimándose en cada caso oc^ , y efectuándose un total de 67.500 simulaciones. tif:NSIEiIL[L)A[) F^KE-:N^^^I^^E: A C)11^fOti ANC1Mr^l.U^ Uh: lKE•.5 E-5^t^1!^1;1UORE-.S t^f^^ f^^.Ff:(^^^I^^ti l>F^ I^i^l'f-k.tili^ati 6^ EI análisis de los resultados de las simulaciones se ha e#ectuado mediante un ANOVA considerando como factores el rnétodo de estimación ME (TSP, MCPI y MV), la magnitud de la contaminación MG (2, 4, 6), el porcentaje de contaminación PC (10%, 20%, 30%, 40%, 50%) y el tamaño muestral TM (11, 21, 101). Las variables dependientes han sido el sesgo y la varianza de a,, estimador del efecto de dispersión a1, que par tratarse de medias y varianzas muestrales de muestras de tamaño 500, pueden razonablemente considerarse normales. Se han incluido en el análisis todos los efectos, excepto la interacción cuádruple y la interacción triple en la que no interviene el factor método de estimación. La interpretación del ANOVA no se ha realizado atendiendo estrictamente a la significación estadística de los efectos, sino en función de la variabilidad total explicada por cada efecto (% Factor) . 3. EFECTO DE LA CONTAMINACION SOBRE EL SESGO DE LOS ESTIMADORES La tabla 1 presenta los resultados del ANOVA que estudia la posible influencia de los factores citados anteriormente sobre el sesgo del estimador de efectos de dispersión a^ . En ella se observa que éste viene afectado muy significativamente por el método de estimación y por su interacción con el tamaño muestral, explicando entre ambos el 84.3% de la suma de cuadrados total, SCT. Estos resultados ya han sido obtenidos por Ferrer y Romero ( 1993) para m= 1, es decir, en ausencia de contaminación. La magnitud de !a contaminación también aparece como factor muy significativo con un porcentaje explicado del Tabla 1 ANALISIS DE VARIANZA DE LOS EFECTOS DEL METODO DE ESTIMACION (ME), MAGNITUD DE CONTAMINACION (MC}, PORCENTAJE DE CONTAMINACION (PC} Y TAMAÑO MUESTRAL (TM) SOBRE EL SESGO DEL ESTIMADOR DE EFECTOS DE DISPERSION a1 ORIGEN SC ME .11139 MC PC TM MExMC g. I. CM Fcalc SC F' % Factor 2 . 05570 772.30 .1 1125 61.6 .01082 .00157 .00048 . 00190 2 4 2 4 .00541 .00039 . 00024 .00047 75.05 5.45 3.36 6.57 . 01068 . 00128 .00034 . 00161 5.9 .7 .2 .9 M ExTM . 04120 4 . 01030 142.82 . 04091 22.7 MCxPC MCxTM ERROR TOTAL . 00205 . 00365 . 00749 . 18056 8 4 104 134 . 00026 .00091 7.2E-5 -- 3.55 12.66 -- . 00147 . 00336 . 00966 - .8 1.9 5.3 - % Factor = porcentaje de variabilidad asignable a cada efecto. t^:ti l,^l )I.ti I I( A t• tiP:1ti( )l A f^^ 5.9%. Por el contrario, el porcenta^ e de contaminación no parece tener una influencia importante en el sesgo del estimador a^, ya que el aumento de dicho porcentaje influye no en el sentido de modificar la pendiente del modelo [2J, sino aumentando la variabilidad global estimada a través de ao, estimador de aa en el rnodelo [4]. Las figuras 1 y 2 muestran los valores de los sesgos de los estimadores a^ obtenidos mediante los tres métodos en función de la magnitud de la contaminación m, con tamaño muestra! N= 11 y N= 101, promediando para los diversos porcenta^ es de contamínacíón. Como ya se obtuvo en Ferrer y Romero (1993), cuando no hay datos contaminados, esto es, m = 1, los estimadores MCPI y MV tienen un sesgo positivo, mientras que el estirnador TSP lo tiene negativo. También vuelve a observarse cómo dicho sesgo disminuye conforme aumenta el tamaño muestral. EI hecho de que en el ANOVA no aparezca efecto simple del tamaño muestral sobre el valor medio del sesgo de a, se debe a que, como se deduce de su interacción con ei método y también se observa en las figuras 1 y 2, se produce una compensacíón de los sesgos resultando un sesgo promedio aproximadamente nulo. Dichas figuras tambíén muestran cómo en el caso de existir un efecto de dispersión positivo, a^ = Q.322, el valor medio de los estima- Figura 1 SESGO DEL ESTIMADOR a^ EN LOS METODOS TSP, MCPI Y MV EN FUNCION DE LA MA+GNITUD DE CONTAMINACION, m. N= 11 observacíones. a1 = 0.322 Sesgo a 1 0.1 - -------------------;-------..,_.......- ------......----.. --.-.---.---..__...;.......-------.-----;---._.......__..._.._ o.os 0.06 .,^.:.' Z n A n w w^^.y ti .-•-•--•-•-• .. .................. ....----'------•-- - .......__._..._... ._.......----•----.. 0.04 ................... . ......_..._. -..^._---------_________^--._.......-------- 0.02 .,^----------. .^ .........................................:....................:..................... 0 -- 0.02 - o.oa - O.o6 - o.os - o.^ 0 1 METODO TSP 2 s 4 3 5 Magnitud de contaminación (m) -^- METODO MCP! Alfa 1 pasitiva - 11 obs. --L-^ - METODO MV tiF-.ti^1K11.11);^I) t^Rf^:N^I^F. :^ I).^^^(^(^S .-^ti^)ti1r^l Oti [)F: ^^1^Itf=^`i F^S^^^Iti1.^I)t)kl S I^t^ }^F t t^^It)^, 1)f. ial^;E^I k^,l^ ^!^ Figura 2 SESGO DEL ESTIMADOR a^ EN LOS METODOS TSP, MCPI Y MV EN FUNCION DE LA MAGNITUD DE CONTAMINACION, m. N= 1 Q1 observaciones. a^ = 0.322 Sesgo a1 0.1 ----------------- ---------------------------------------- ...---._......._.. _._...__........._ ......_......----- .--.-..-.---....---- o.oa 0.06 0.04 0.02 a ^ I .................:....................;----------._....---- -----------^--...- ----._......------ --------------.._. ....__...__._._.._.. . . ^ ^ ....................;......_........--^^ - 0.02 - 0.04 - 0.06 - 0.08 - 0.1 0 1 METODO TSP 2 4 5 3 Magnitud de contaminación (m} -^4^- METODO MCPI 6 --r^ - 7 MEEODO MV Alfa 1 positivo - 101 obs. dores a1 tiende a disminuir cuando aumenta la magnitud de la contarninación m. Esto provoca un aumento del sesgo negativo del estimador TSP y una disminución del sesgo positivo de los estimadores MV y MCPI, que en este último Ilega a convertirse en negativo. La causa de esta modificación del sesgo radica en ta diferente forma en que un dato anómalo puede afectar a la varianza residual del modelo de regresión de efectos sobre medias según el valor de la variable explicativa X que le corresponda. EI método MCPI pondera los residuos de dicho rnodelo de forma inversamente proporcional a la desviación típica de las observaciones. Esto quiere decir que da más peso a aquellas observaciones con menor varianza, en este caso a observaciones correspondientes a valores pequeños de la variable X, puesto que a1 > 0. En ausencia de datos anómalos esto provoca un aumento de la pendiente del modelo logarítmico de varianzas, y por tanto un sesgo positivo en la estirnación de a1 (Ferrer y Romero, 1993). Sin embargo, en presencia de datos anórnalos se producen algunas modificaciones. Así, si un dato anómalo cae en la zona de alta varianza tiende a tomar valores mucho más alejados del resto de las observaciones que si cae en la zona de baja varianza, y aunque también tiende a t^ ti l Al )Iti I It ^^ #-:^ti?';^ti( )1.:^ aumentar la varianza de las observaciones en esa zona, el efecto conjunto puede resultar en que a pesar de estar en 1a zona de alta varianza, siga teniendo un peso importante en !a suma de cuadrados de los residuos del modelo de efectos sobre medias, SCR. Esto provocará que en el proceso de minimización de dicha suma, el modelo tienda a rninimizar tambi^én los residuos de la zona de alta varianza, subestirnando la variabilidad residual en esa zona, y reduciendo la pendiente del modelo logarítmico de varianzas incrementada por el prop'ro método de estimación, lo que provocará una disminución del sesgo positivo. La subestimación de la variabilidad residual en la zona de alta varianza puede Ilegar a ser tan grande si la magnitud de contamínación es elevada, que puede incluso superar a la disminución de la varianza resídual de la zona de baja varianza, propia de este método de estímacíón, provocando un sesgo negativo. En el método TSP en la estimación del modelo de efectos de posición se minimiza la surna de los cuadrados de !os residuos no ponderados. Esto implica que los residuos de la zona de alta varianza tienen una influencia muy importante en la minirr^ización de dicha suma, que lleva a una subestímacíón de la varianza residual en esa zona aun a costa de aumentar la varianza residual en la zona de baja varianza. Esto provoca una disminución en la pendiente del modelo logarítmico de varianzas, es decir, un sesgo negativo en la estimación de a1. En este caso, el efecto promedio de los datos anómalos, tal y como se ha explicado en el párrafo anterior, no hace más que reforzar esa subestimación de la variabilidad residual en la zona de alta varianza, y por tanto hacer más negatívo el sesgo del estimador de efectos de dispersión a1. Con el fin de comprobar esta hipótesis, se han realízado dos nuevas simulaciones, una considerando un efecto de dispersión nulo y la segunda tomando un efecto de dispersión negativo a1 =-0.322. En ambos casos se ha considerado sólo un tamaño de muestra pequeño, N= 11, dado que ésta es la sítuación en la que resalta más marcadamente ei efecto a estudiar. Los resultados se presentan en las figuras 3 y 4, y son coherentes con los que cabría esperar de la hipótesis avanzada. La figura 3 muestra que cuando no existe efecto de dispersión, es decir a, = o, coma no existen diferencias de varianzas entre zonas, la infiuencia de los datos anómalos es la misma en todas las zonas. Esto implica que !a pendiente del modelo sobre varianzas no cambie en promedio y por lo tanto el valor medio del estimador a1 no se ve afectado por la magnitud de la contaminación m de los datos anómalos. EI fenómeno contrario al ocurrido cuando a^ es positivo se presenta cuando el efecto de dispersión es negativo. En efecto, en la figura 4 se observa cómo cuando aumenta la magnitud de la contaminación de los datos anómalos, se produce también un aumento del valor medio del estimador ai . Es#e resultado es coherente con la hipótesis enunciada anteriormente, ya que en este caso la zona de alta varianza, que es ia más afectada por la presencia de los datos tif=NSlEi1^_IDAI.:)f^RE;N^(,E r^ I)A"I^(1^ r^ti(}!lqA(.()S U^-: 1'RF;.^ f^^`i.l!^1A1)t:>FZF-.^ E)f^ E-F=f:('1^)^ [)F^ l^itif'F k^lt>!ti fi! Figura 3 SESGO DEL ESTIMADOR a^ EN LOS METODOS TSP, MCPI Y MV EN FUNCION DE LA MAGNITUD DE CONTAMINACION, m. N= 11 observaciones. a1 = 0 Sesgo a 1 0.1 .................. ....---^----.._. 0.08 ..............._..- -^------....._..._ ..._......._..---- ---.-^---^----..._..;........_......--^--- 0.06 '^ 0.04 ^ ................ , .........._._..... , ------........---._ , ......._........._ , _...----.......... . ......_........... 0.02 ^ _.._..._._........ ^ .................^..............._....I.................... A...._...............\....................^....................J..................... - 0.02 ........--••---•-^ ....................^.......---------.... ...._...........,_.,._.........----•-•-^3••-•---.....-----.._;..._..........-----.. - 0.04 ................ ..-----........... ..-^-----...........;............------- -._....----^----.. - 0.06 '^-------------------^ ..__..........---- ^--..........._.... .._._...----^----- --.._...........---. --^---^-^------^---- 0 .................. .........--^-------;-^-------............ - 0.08 - 0.1 1 0 --^- 2 4 3 5 Magnitud de contaminación (m) METODO TSP -^}- METODO MCPI 6 7 - ^- METODO MV Alfa 1 nulo - 11 obs. Figura 4 SESGCJ DEL ESTIMADOR a1 EN LOS METC}DOS TSP, MCPI Y MV EN FUNCION DE LA MAGNITUD DE CONTAMINACION, m. N= 11 observaciones. oc^ _--0.322 Sesgo a1 0.1 ................ . .................. . .................. . .._...---------.-.-:----...... 0.08 0.06 0.04 0.02 0 - 0.02 ................^;------------------^----.... - 0.04 .................:................... . ................... ^ ---..._......----._, ....-^---....------. ........_......--- , -----........_..._._ ^ _____ -_- _ _ _ _ ^_ _.^. .^_ . . .^. . - - - - - - - - --d.----........._.... -------------- -^.--r----- -"- -"- --^`-^^-`. --^- - . . .±. - 0.06 --^ .................:....................;---------........_... - 0.08 - 0.1 0 -E^- 1 METODO TSP 2 3 4 5 Magnitud de contaminación (m} -8- METODO MCPI Alfa 1 negativo - 11 obs. 6 7 - 0- METODO MV 1`i?'i k^+l -11^Iti I Ii ^ F`,f':^^.^ )k.;^ anórnalos, corresponde a vaiores pequeños de X. Por lo tanto, (a subestimación de la varianza residual en esta zona hace disminuir la pendiente negativa del m©de(o Iogarítmico de varianzas, lo que implica hacer menos negativo el efecto de dispersión estimado a^ . En todas las figuras expuestas se observa claramente que el sesgo del estimador MV es el que menos se ve afectado por el aumento de la magnítud de la contaminación de 1os datos anórnalos. 4. EFECTO DE LA CONTAMINACIfJN SC)BRE L.A VARIANZA DE LQS ESTIMADORES La tabla 2 muestra los resultadas del ANOVA que estudia la posible influencia de los factores investigados sobre la varianza de! estimador a^ de efect©s de dispersión. Se observa que existe una clara influencia del tamaño muestral, del mptodo de estirnación y de ia interacción entre ambos, con un porcentaje de variabilidad explicado del 84.3, resultados ya obtenidos por Ferrer y Romero (1993) en ausencia de contaminación. También aparecen como efectos importantes la magnitud de contaminación y sus interacciones con el tamaño muestral y con el método de estimación, explicando un 12.1 % de la SCT. Por el contrario, el efecto dei porcentaje de contaminación, aunque significativo estadísticamente, tiene una importancia muy inferior al del resto de los efectos señalados, con Tabla 2 ANALISIS DE VARIANZA DE LOS EFECTOS DEL METODO DE ESTIMACION (ME), MAONITUD DE CONTAMINACION (MC), PORCENTAJE DE CONTAMlNACION (PC) Y TAMAÑO MUESTRAL (TM} SOBRE LA VARIANZA DEL ESTIMADOR DE EFECTOS DE DISPERSION a1 ORIGEN SC ME MC PC TM MExMC MExPC MExTM MCxPC MCxTM PCxTM MExMCxPC MExMCxTM ERROR SCT .01995 2 .02069 2 .00148 .20815 .00532 .00139 .02270 .00121 .01069 .00098 .00144 .00278 .00268 . 29945 4 2 4 8 4 $ 4 8 16 8 64 134 g. I. CM Fca^c SCF' % Factor .00997 .01034 .00037 237.38 246.19 8.81 2477.86 31.67 4. 05 135.24 3.57 63.57 2.86 2.14 8.33 .01987 .02061 .00131 .20807 .00515 .00105 .02253 .00087 .01052 .00064 .00077 .00244 .00562 6.6 6.9 .4 69.5 1.7 .4 7.5 .3 3.5 .2 .3 .8 1 .9 .10407 .00133 .00017 .00568 .00015 .00267 .00012 .00009 .00035 4.2E-5 % Factor - porcentaje de variabilidad asignable a cada efecto. SF-.Nti1^31LIllAL) F^ftHN"^f^ ^ 1),A"I^^U^ _^NOti1Al.OS l:)^^. "^I^F^kti E.S^I^11^1.A[)ORE-.ti U1^ t^.F-f-('^I(^ti ^7t^- I)I^Pt^:ktil(^!^ ^t) un 0.4% de variabilidad explicada. EI resto de los efectos no manifiestan una influencia importante sobre la varianza del estimador a^ . Las figuras 5 y 6 presentan para tamaños rnuestrales N= 11 y N= 101 la relación de la varianza de los tres estimadores a^ con la magnitud de contaminación m. Como cabía esperar, la varianza de los estimadores disminuye al aumentar el tamaño muestral. También se observa cómo a medida que aumenta la magnitud de ta contaminación, la varianza de los tres estimadores se va incrementando. Este hecho se explica ya que al aumentar m, se incrementa la varianza de los datos contaminados, y puesto que estos tienden a aumentar o disminuir la pendiente del rnodelo logarítrnico de varianzas según la posición donde caigan, dicha pendiente se ve afectada tanto más cuanto mayor sea la magnitud m de la contarninación, lo que provoca un aumento en la varianza de dichos estimadores. Sin embargo, este aumento es diferente según e! método de estimación utilizado, como recoge la existencia de una interacción MExMC irnportante. En la figura 7 se representa en función del tamaño muestral el cociente entre las varianzas de dichos estimadores cuando la magnitud del dato contaminado es m= 6 respecto a cuando m= 1. En ella se observa cómo este aumento es particularmente acusado en el estimador MV, que se muestra rnuy sensible, incluso para Figura 5 VARIANZA DEL ESTIMADOR a1 EN LOS METODOS TSP, MCPI Y MV EN FUNCION DE LA MAGNITUD DE CONTAMINACION, m. N= 11 observaciones Varianza a 1 0.2 0.18 o.1s 0.14 0.12 0.1 0.08 o.os 0.04 0.02 1 METODO TSP 2 4 3 5 Magnitud de cvntaminación (m) --8-- METODO MCPI 11 obs. 6 - ^- METODO MV F^.ti^í,^lllti"I^I(^;^ E-tiE';1ti^)L^^ Figur^ 6 VARIANZA DEL ESTIMADOR a, EN LOS METODOS TSP, MCPI Y MV EN FUNCION DE LA MAGNITUD DE CONTAMINACION, m. N= 101 observaciones Varian2a a1 0.016 0.014 0.012 o.o^ o.oos 0.006 0.004 0.002 1 0 E^- 2 -^-- METODO TSP 7 6 4 3 5 Magnítud de contaminacíón (m) METODO MCPI METODO MV 101 ©bs. Figura 7 RATIO ENTRE LA VARIANZA DEL ESTIMADOR a, CUANDO LA MAGNITUD DE CONTAMINACI©N ES ALTA, m= 6, FRENTE A CUANDO NO EXISTE CONTAMINACION, m= 1, EN FUNCION DEL TAMAÑO MUESTRAL, N Var a1 (m=6) / Var a1 {m=1) $ ...............^--- 7 6 ---------.._..._.._.- ---^-^--.__....------ -------------------... ----------------- -.^4----------------------_._._......._....-•--- •--------------•--- •;`----.........__...._,. .._ y + r_.-•--•--^- -._.._....---•--^------:._..--•------•------•--- 5 _...--•-----... _ ,,. .. t --• .................... { ..-------••------....._. + ._..........__..-•---__. F ........-•-•-•--------•- 4 'r-- .................r' . ---........._._._.....;._.._..._.....-•----.._.^............_._._.......f----_..__...----••------^--•---...---.......---., . . 3 ^...----._.,.'^, ..... ..................•--•<---....--------•---.... ---...._...-•--•----...;._._...--•----._...---- -.........._...----•--- I © . , . . . ----------------------^-------------------------------^-------------------------------------------------,--------------------2 ._.,...._._._.......- ----......---._._.-.--- -.^---------....------ ----.......----------- ---------^-----....._.. 1 I-------------------0 0 20 ^-- METODO TSP 40 60 Tamaño muestral -^-- METODO MCPI 100 80 -•LS - 120 METODO MV .tit=N^IFill.ll)AI) t^RE:N-i^f: A[)n"I^()^; ANc)ti1Al.C)S l)l^ "^Rf:S }^::5`I149.•^[)()RE^^ I)F-. h.F-E-('Ic)ti ()F. I^l^l'l-:ktil(^ti 71 tamaños grandes de muestra, a la presencia de datos anómalos muy contaminados, es decir, con una varianza muy superiar a la que cabría esperar según el modelo multiplicativo. Así, la varianza de este estimador cuando existen datos anómalos con una magnitud de contaminación alta (m = 6) Ilega a ser de más del doble cuando el tamaño muestral es pequeño, y hasta sie#e veces superior con tamaños muestrales grandes a la correspondiente cuando no existe contaminación ( m = 1). Por el contrario, las varianzas del estimador MCPI y especialmente la del estimador TSP se ven mucho menos afectadas por el aumento de la magnitud de la contaminación. La mayor sensibilidad de la varianza del estimador MV a la presencia de datos altamente contaminados, incluso con tamaños muestrales grandes, se produce principalmente cuando el porcentaje de datos contaminados es pequeño, situación que es la más probable en la práctica. Esto puede observarse en la tabla 3 donde se presentan los cocientes entre las varianzas de los estimadores cuando m = 6 respecto a cuando m= 1 con IV = 101 observaciones y para dos porcentajes de contaminación (10°l° y 50%). Tabla 3 RATIO ENTRE LA VARIANZA DEL ESTIMADOR a^ EN LOS METODOS TSP, MCPI Y MV CUANDO LA MAGNiTUD DEL DATO CONTAMINADO ES ALTA, m= 6, FRENTE A CUANDO NO EXISTE CONTAMINACION, m=1, CON DOS PORCENTAJES DE CONTAMINACION (p = 10% y 50%). N = 101 observaciones p TSP MCPI MV 10% 1.5 1.3 8.7 50% 1.7 1.8 2.3 La varianza del estimador MV si la magnitud del dato contaminado es alta y el porcentaje de contaminación es pequeño (p = 10%) Ilega a ser casi nueve veces superior a la carrespandiente en ei caso de no existir contaminación. Por el contrario, los estirnadores MCPI y TSP prácticamente no modifican su varianza, sobre todo si se compara con el aumento que se produce en el estimador MV. Sin embargo, cuando el porcentaje de contaminación es alto {p = 50%) las varianzas de los estimadores no se modifican sustancíalmente con el aumento de la magnitud de contaminación, aunque el estimador MV sigue comportándose como el más sensible de los tres. Dado que las magnitudes de los cuadrados de los sesgos de los estimadores son pequeñas en relación a sus varianzas, la comparación de la eficiencia de los estimadores a través de sus errores cuadráticos medios puede hacerse utilizando sus varianzas. f:ti ^ ^^ulti ^ !c ^^ F.^t^,^ti^ ^t. ^> 5. CONCLUSIONES Las conclusiones respecto a la sensibilidad frente a datos anómalos de los estimadores en el caso de muestras grandes obtenidas er. este trabajo son coherentes con los resultados asintóticos obtenidos por Davidian y Carroll (1987). Así, aunque asintóticarnente la utilización del estimador MCPI o TSP supone un 59% de pérdida de eficiencia respecta al ernplea del estimador MV, una pequeña fracción de datos contaminados es suficiente para acabar drásticamente con la superiaridad del estimador máximo-verosímil. De las consideraciones anteriores se deduce que 1a utilización del estimador máximo-verosímil en un contexto industrial puede ser cuestionable debido a la alta probabilidad de que en la práctica aparezcan datas anómalos en las observaciones, y a la extremada sensibiiídad que presenta el estimador MV a estas anomaiias y que es independiente del tamaño muestral con el que se trabaje. Por el contrario, el estimador TSP, más sencillo, constituye un método que puede funcionar razonablemente bien en los casos en los que exista una ligera contaminación en 1os valores de la variable respuesta. De todos modos, como se observa en las figuras presentadas, ningun0 de los tres estimadores analizados en este artículo puede considerarse estadísticamente robusto. De hecho, como ha puntualizada uno de los evaluadores, sus puntos de ruptura son 0 en los tres casos. Por ello, en contextos en los que quepa esperar magnitudes de contaminación elevadas será necesario recurrir a técnicas de diagnóstico de datos anómalos, o bien a la utilización de estimadores robustvs (Rousseeuw y Leroy, 1986). AGRADECIMIENTOS Los autores expresan su agradecimiento a ios evaluadores por todas las sugerencias y observaciones realizadas, que han contribuido a una mejor presentación del trabajo. BIBLIOGRAFIA AITKIN, M. (^ 987}: «Modeiing Variance Heterogeneity in Normal Regression Using GL111/I», Applied Statistics, 36, 332-339. BARTLETT, M. S., y KENDALL , D. G. (1946): <iThe Statistical Analysis of VarianceHeterogeneity and the Logarithmic Transformation», Journal of the Royal Statistical Society, B, 8, 128-138. tiF^:N^IEit!_It)AI) F^}2FN^ft^ A!):tT():^ AN(.)MAI.t)^ UE-. "IR^•.:^ t.5"IIti1^^[)()KF-^ I)t E^.F^t.( I()ti l)f 1)I^,1't F^^It ^ !^ Box, G. E. P. (1986): «Studies in Quality Irnprovement: Signal to Noise Ratios, Performance Criteria, and Statistical Analysis: Part I», University ofi Wisconsin-Madison, Center for Quality and Productivity Improvement, Report 11. Box, G. E. P., y MEYER, R. D. (1986): «Dispersion Effects From Fractional Designs», Technometrics, 28, 19-27. Box, G. E. P., y RAMÍREZ, J. (1986): «Studies in Quality Improvement: Signal to Noise Ratios, Performance Criteria and Statistical Analysis: Part II», University of Wisconsin-Madison, Center for Quality and Productivíty Improvement, Report 12. CARROLL , R. J., y RUPPERT, D. (1988): Transformations and Weíghtings in Regression, Nueva York, Ed. Chapman and Hall. CooK, R. D., y WEISBERG , S. (1983): «Diagnostics for Heterocedasticity in Re- gression», Biometrika, 74, 1-10. DAVIDIAN , M., y CARROLL , R. J. {1987): «Variance Function Estimation», Journal of the American Statistica/ Association, 82, 1079-1091. R. (1993): «Small samples estimation of dispersion effects from unreplicated data», Communications in Statistics: Simulation and FERRER , A., y ROMERO , Computation, 22, 4, 975-995. HAMPEL, F. R.; RONCHETTI, E. M.; ROUSSEEUW, P. J., y STAHEL, W. A . (1986): «RO- bust Statistics: The Approach Based on Influence Functions, Nueva York, John Wiley & Sons. I. (1990): Handbook of Statistical Methods for Engineers and Scientists, Nueva York, Ed. McGraw-Hill, Inc. HARRISON, M., y WADSWORTH , HARVEY, A. C. (1976): «Estimated Regression Models With Multiplicative Heteroscedasticity», Econometrica, 44, 3, 461-465. LEóN, R.; SHOEMAKER, A. C., y KACKER, R. (1987): «Performance Measures Independent of Adjustment: An Explanation and Extensíon of Taguchi's Signai-toNoise-Ratios (with response)» , Technometrics, 29, 253-265, 283-285. P., y NELDER , J. A. (1989): Generalized Linears Models, 2.^ ed., Londres, Chapman and Hall. MCCULLAG , y PREGIBON , D. (1986): «A Data Analysis Strategy for Quality Engineering Experiments», AT^T Technical Journal, 65, 73-84. NAIR , V. N., NAIR, V. N., y PREGIBON, D. (1988): «Analyzing Disperssion Effects From Replicated Factorial Experiments», Technometrics, 30, 247-257. PIGNATIELLO, J. J., y RAMBERG, J. S. (1985): « Discussion of Off-Line Quality Con- trol, Parameter Design and the Taguchi Method, by R. N. Kacker», Journal of Quality Techno/ogy, 17, 198-206. F^:!i'T,^^f)[^ 1 1('A E-:tiF'A!^t)t_,1 RoussEEUw, P. J., y LEROY, A. M. (1987): Robust Regression and Outlier Detectíon, Nueva York, Ed. John Wiley & Sons. TACUCHi, G., y Wu, Y. (1980): Introduction to Dff-Line Quality Control, Nagoya, Ed. Central Japan Quality Control Association. ToRT-MARTORELL, J. (1985): «Diseños factoriales fraccionaies. Aplicación al control de calidad mediante el diseño de productos y procesos», Tesis doctoral, Universidad Politécnica de óarcelona. ZÚNICA, L., y RonnERO, R. (1988): «Un modelo para el estudio de efectos sobre la dispersión en ausencia de replicaciones», Estadistica Españo/a, 116, 55-74. OUTLIERS INFLUENCE oN THREE ESTIMATORS OF DISPERSSION EFFECTS FROM UNREPLICATED DATA SUMMARY We study the influence of outliers on the bias and variance of three estimators of dispersion effects from unreplicated data: 1) Twostep estimator (TSP); 2) Iterated weighted least squares estimator (IWLS), and 3) Maximum likelihood estimator (ML). The influence of the severity of the contamination on the bias of estimators depends on the actual dispersion effect. As the severity of the contamination increases, the variance of estimators increases. The simpfest estimator, TSP, turns out as the least sensitive to outlíers in situations similar to the ones simulated, with whatever sample size. on the contrary, the ML estimator is the most sensitive even with large sample sizes. Key words: Heteroscedasticity, outliers, <COff-Line» quality control, Quality and productivíty improvement. AMS Classification: 62F ^ 1, 62F35, 62N 10, 65C05.