Estudio de efectos de dispersión en ausencia de replicaciones

Anuncio
ESTADÍSTICA ESPAÑOLA
Vol. 44, Núm.151, 2002, págs. 365 a 391
Estudio de efectos de dispersión en
ausencia de replicaciones: revisión del
estado del arte y perspectivas de futuro
por
ALBERTO FERRER
Departamento. Estadística e Investigación Operativa Aplicadas y Calidad
Universidad Politécnica de Valencia
RESUMEN
En este trabajo se presenta una revisión bibliográfica del estado
del arte en los métodos desarrollados para el estudio de los efectos
que una o más variables explicativas pueden tener sobre la variabilidad de la variable o variables respuesta analizadas, es decir, el estudio de efectos de dispersión, de vital importancia en el proceso de
mejora continua de la calidad y productividad de productos y procesos. El artículo se centra en las técnicas que permiten el análisis de
efectos de dispersión en ausencia de replicaciones, situación muy frecuente en la práctica y que ocurre cuando no existen réplicas en un
diseño, o cuando los datos disponibles no son el resultado de una experiencia diseñada y, muy especialmente, cuando algunas de las variables explicativas varían de forma continua en la muestra. Datos retrospectivos de este tipo se obtienen hoy día con mucha frecuencia en
las empresas a partir de la información histórica acumulada en bases
de datos. Se presentan técnicas desarrolladas para diseños experimentales sencillos con factores a dos niveles, así como modelos de
funciones de varianza aplicables en contextos mucho más generales.
366
ESTADÍSTICA ESPAÑOLA
Palabra clave: Diseño robusto, Efectos de dispersión, Funciones de
varianza, Heterocedasticidad, Mejora de la calidad.
Clasificación AMS: 62F11, 62J05, 62K05, 62N10
1.
INTRODUCCIÓN
En el marco de la importante contribución que los métodos estadísticos tienen
en la mejora continua de la calidad y de la productividad, desde la década de los
años 1980 está adquiriendo un interés creciente, sobre todo en la industria, el
estudio de los efectos que una o más variables explicativas pueden tener sobre la
dispersión de la variable o variables respuesta analizadas, es decir, el estudio de
efectos sobre la dispersión.
Es indudable que la raíz de este nuevo interés reside en el fuerte impulso originado por las aportaciones japonesas en el campo de la aplicación de técnicas
estadísticas para la mejora de la calidad y la productividad. En particular, los trabajos de Taguchi sobre Control de Calidad Off-Line y Diseño Robusto (Taguchi y Wu,
1980) han resaltado la importancia, con el fin de optimizar la capacidad de un
determinado proceso, de obtener las condiciones operativas que, manteniendo el
valor medio del output en el objetivo fijado, minimicen la varianza del mismo alrededor de dicho objetivo. De esta manera, se pueden diseñar procesos productivos y
productos robustos, es decir, poco sensibles, ante las causas de variabilidad que
provocan su mal funcionamiento, lo que conduce a productos de calidad, con lo que
se aumenta la satisfacción del cliente sin aumentar el coste.
Desde el punto de vista estadístico la clave de este enfoque radica en que el
énfasis ya no se pone exclusivamente en la media de la característica de calidad,
sino también en su dispersión.
Para situaciones en las que se dispone de replicaciones, se han propuesto diversos modelos y técnicas de estimación en las que se combinan la media y varianza muestral calculadas a partir de las replicaciones existentes en cada condición experimental, con la posibilidad de aplicar algún tipo de transformación a los
datos para conseguir modelos homocedásticos. Algunas referencias de estos
métodos pueden encontrarse en Bartlett y Kendall (1946); Box (1988); Leon,
Shoemaker y Kacker (1987); Nair y Pregibon (1986); Taguchi y Wu (1980); y TortMartorell (1985). Nair y Pregibon (1988) realizan un estudio comparativo entre
algunos de estos procedimientos en planes factoriales 2k replicados, concluyendo
que algunos de los estimadores obtenidos son máximo verosímiles bajo ciertas
hipótesis sobre el modelo ajustado.
ESTUDIO DE EFECTOS DE DISPERSIÓN EN AUSENCIA DE REPLICACIONES: REVISIÓN DEL ESTADO DEL ARTE Y …
367
Una limitación importante de estas técnicas la constituye el hecho de que sólo
pueden aplicarse si se dispone de réplicas para los diferentes valores de los factores o variables explicativas, lo que puede hacer inviable económicamente la experimentación, dado el elevado número de pruebas que se requeriría cuando el
número de factores a estudiar es grande, situación muy común en la industria en
las primeras fases exploratorias de los proyectos de mejora. Por tanto, el estudio de
técnicas que permitan el análisis de efectos sobre la dispersión en ausencia de
replicaciones constituye un campo de investigación importante, dada su enorme
repercusión en la práctica industrial.
2.
IDENTIFICACIÓN DE EFECTOS DE DISPERSIÓN EN DISEÑOS CON FACTORES A DOS NIVELES NO REPLICADOS
Motivados por el descubrimiento de un efecto de dispersión tras analizar cuidadosamente los resultados de un experimento estudiado inicialmente por Taguchi y
Wu (1980), Box y Meyer (1986) desarrollan un método que permite identificar los
efectos sobre la dispersión a partir de planes o fracciones factoriales 2k-p no replicados, bajo la suposición de que sólo unos pocos factores de los estudiados tienen un
efecto importante sobre la variable respuesta (effect sparsity).
Sean yj (j = 1,...,N) los valores de la variable respuesta obtenidos en los N tratamientos de un diseño factorial 2k = N, incluyendo la posibilidad que el diseño sea
una fracción factorial. Se supone que los datos siguen, posiblemente después de
haberles aplicado una transformación, el siguiente modelo:
yj = µj + σj εj
(1)
siendo µj y σj la media y la desviación típica correspondientes al j-ésimo tratamiento,
y εj las perturbaciones aleatorias que se suponen independientes e idénticamente
distribuidas según una Normal (0,1). A partir de este modelo, se considera el siguiente modelo que relaciona el vector de medias, µ, con el vector de efectos de
posición, β:
µ = Xβ
donde X=[x1,...,xr,...,xN] representa la matriz ortogonal N x N asociada al diseño 2k
constituida por los niveles correspondientes a los efectos simples e interacciones
en el orden de Yates, y siendo x1 una primera columna de unos.
Box y Meyer (1986) proponen un método en dos etapas en el que los efectos de
dispersión potenciales se identifican una vez que se han identificado los efectos de
368
ESTADÍSTICA ESPAÑOLA
posición más importantes y se ha eliminado su influencia mediante una modelización adecuada. Las dos etapas del método son:
a) A partir del modelo µ = Xβ se estiman por mínimos cuadrados los efectos de
posición más importantes βr mediante los estimadores b, los cuales se utilizan para
construir el modelo de predicción para las medias µ*= Xb. A continuación, se
obtienen para cada tratamiento j, los residuos del modelo ej = (yj - µj*). Estos residuos son una medida de la variabilidad de la variable respuesta no explicada por el
modelo de efectos de posición. Por tanto, cualquier pauta en esta variabilidad no
explicada puede indicar la existencia de factores que afectan a la dispersión de la
variable, es decir, efectos de dispersión.
b) A partir de esos residuos ej se calculan las varianzas muestrales de los residuos
correspondientes a los niveles + y - de la columna de la matriz de cálculo correspondiente al efecto r, xr. Una diferencia importante en el valor de dichas varianzas
muestrales revelará la existencia de un efecto de dispersión real asociado a dicha
columna. Para detectarlo, se construye el estadístico DrBM, estimador del posible
efecto de dispersión asociado a la columna xr del diseño:
2
sj+
1
BM 1
Dr = log
2 = log
2
s j2
∑ (ej-em+ )2
(N 2)-1
j+
∑ (ej − em− )2
(N 2)-1
r = 2,...,N
(2)
j-
donde N es el número total de pruebas del experimento; los subíndices j+ y j- indican sumatorios sobre los elementos que son positivos y negativos, respectivamente, en la columna xr del diseño (j+ = {j: xjr = +1} y j- = {j: xjr = -1}); y em+ y em- son las
medias de los residuos asociados con los elementos positivos y negativos de la
columna xr.
Box y Meyer (1986), utilizando argumentos asintóticos, sugieren que este estadístico, que no es más que una diferencia entre logaritmos de varianzas muestrales, se distribuye aproximadamente como una Normal (0,1) en el caso en que no
exista efecto de dispersión real asociado a la columna xr del diseño.
Los citados autores, sin embargo, no parecen ser los primeros que proponen un
método para el estudio de efectos sobre dispersión en ausencia de replicaciones.
Daniel (1976), probablemente más preocupado por contrastar la hipótesis de
homocedasticidad que por encontrar condiciones robustas, puede ser considerado
el primer autor en comentar cómo identificar efectos de dispersión en experimentos
factoriales a dos niveles. El método es semejante al de Box y Meyer (1986), y
consta de dos etapas: en primer lugar estima los efectos de posición sobre la
respuesta y elimina su efecto calculando los residuos del modelo; en segundo lugar
ESTUDIO DE EFECTOS DE DISPERSIÓN EN AUSENCIA DE REPLICACIONES: REVISIÓN DEL ESTADO DEL ARTE Y …
369
realiza el experimento usando como nueva variable respuesta el valor absoluto de
los residuos obtenidos en la primera etapa. El estadístico derivado a partir de la
idea de Daniel se puede expresar como:
D
Dr =

 ∑ ej − ∑ ej
N  j+
j−

1




r = 2,...,N
(3)
Wang (1989), aplicando los resultados de Cook y Weisberg (1983) al caso particular de un diseño ortogonal no replicado, propone utilizar el score de Fisher como
estadístico para contrastar la hipótesis de que todos los efectos de dispersión son
nulos. Wang obtiene que la distribución asintótica del estadístico propuesto para
contrastar la hipótesis nula de que el efecto de dispersión real asociado a la columna xr del diseño es nulo es χ12, asumiendo normalidad. En el caso de los diseños
2k-p este estadístico puede expresarse como:
+ 2
− 2
 (e j -em
)
(e j -em )
∑ −
∑
2N  j+
σ2
σ2
j−

1
W
Dr =




2
r = 2,...,N
(4)
donde σ 2 = N−1 ∑ (e j -em ) 2 es el estimador máximo verosímil de σ2 asumiendo
j
normalidad y homocedasticidad.
Miller y Wu (1993) utilizan un papel probabilístico seminormal para identificar
efectos de dispersión trabajando con el logaritmo del valor absoluto de los residuos
como variable respuesta, por lo que el estadístico derivado a partir de esta propuesta puede expresarse como:
D
Dr =
1


 ∑ log e j − ∑ log e j 

j−

N  j+

r = 2,...,N
(5)
Bergman y Hynén (1997) proponen una modificación del método de Box y Meyer para estudiar efectos de dispersión a partir de diseños 2k-p no replicados. Para
cada efecto de dispersión r a estudiar, en vez de calcular los residuos a partir del
modelo que contiene los efectos de posición importantes, aquellos se obtienen a
partir de un modelo expandido que contiene los efectos de posición importantes, el
efecto de posición r, y las interacciones dobles entre el efecto de posición r y cada
uno de los efectos de posición importantes. Sean ej* (j = 1, 2,... , N) los residuos
370
ESTADÍSTICA ESPAÑOLA
obtenidos tras ajustar el modelo expandido. Para cada efecto de dispersión,
Bergman y Hynén proponen el siguiente estadístico:
∑ (e*j − e*m )2
+
B−H
Dr
=
j+
r = 2,...,N
∑ (e*j − e*m )2
(6)
−
j−
y obtienen analíticamente que, bajo la hipótesis nula de que no existe efecto de
dispersión real, este estadístico sigue una distribución Fν,ν, donde los grados de
libertad dependen del modelo de efectos de posición expandido.
Todos los métodos expuestos anteriormente son no iterativos y pueden proporcionar unas primeras estimaciones útiles para identificar el modelo tentativo de
efectos de posición y dispersión. Sin embargo, este modelo tentativo puede refinarse, y las estimaciones pueden ser mejoradas aplicando métodos iterativos de
cálculo como los expuestos en los siguientes apartados.
Recientemente, Brenneman y Nair (2001) investigan las propiedades de estos
métodos y concluyen que todos sufren lo que denominan sesgo de estimación,
provocado por el hecho de que los efectos de dispersión se identifican a partir de
los residuos obtenidos tras el ajuste del modelo de efectos de posición. Esto provoca que, en el caso de que haya varios efectos de dispersión reales, los estimadores
de efectos de dispersión son sesgados, pudiendo aparecer como significativos
efectos que realmente no lo son, o viceversa. De hecho, la afirmación de Bergman
y Hynén (1997) sobre que su estadístico, DrB-H, bajo la hipótesis nula de que el
efecto de dispersión de la columna a constrastar, xr, es nulo, sigue una distribución
exacta F, sólo es cierta bajo la hipótesis nula mucho más restrictiva de que todos
los demás efectos de dispersión son también nulos. McGrath y Lin (2001) coinciden
con Brenneman y Nair (2001) respecto al carácter sesgado del método de Bergman
y Hynén (1997) cuando hay más de un efecto de dispersión real. Fuller (1998)
también llega a la misma conclusión estudiando el método de Box y Meyer (1986).
Este sesgo disminuye conforme aumenta el tamaño del diseño, N.
Aunque Box y Meyer (1986) no especifican cuál es el modelo de efectos de dispersión que asumen, el uso del ratio de las varianzas muestrales sugiere un modelo
multiplicativo (log-lineal) de efectos de dispersión por el que la varianza del modelo
(1) para cada tratamiento j depende de los factores del diseño según la expresión:
2
log σ j
= ∑ α r x jr
r
j = 1, ..., N
(7)
ESTUDIO DE EFECTOS DE DISPERSIÓN EN AUSENCIA DE REPLICACIONES: REVISIÓN DEL ESTADO DEL ARTE Y …
371
Brenneman y Nair (2001) prueban que, si el modelo de efectos de dispersión es
log-lineal, tanto el método de Box y Meyer, como el de Bergman y Hynén, también
sufren lo que denominan sesgo estructural. Esto provoca que, bajo el modelo loglineal, la definición de efecto de dispersión asociado a un factor r, ( σ 2+ / σ 2− )r, depende no sólo del coeficiente αr del factor r en el modelo de efectos de dispersión, sino
también de los coeficientes de los demás factores que realmente influyan sobre la
varianza, lo que es claramente indeseable. Además, este sesgo no es función del
número de pruebas del diseño, N, ni de los efectos de posición, y se presenta
incluso existiendo replicaciones.
El problema del estadístico propuesto por Wang (1989) es que su distribución
teórica asintótica bajo el supuesto de que no hay efecto de dispersión asociado a la
columna xr del diseño, está obtenida considerando que el resto de los demás
efectos de dispersión son también nulos, lo que es poco realista en experimentos
con muchos factores. Brenneman y Nair (2001) estudian la propuesta de Wang y
concluyen que cuando hay otros efectos de dispersión importantes, la distribución
teórica del estadístico de Wang no es razonable y su utilización puede comprometer seriamente la veracidad de las conclusiones.
En resumen, la limitación más importante de estos métodos no es sólo que únicamente resultan aplicables directamente a planes o fracciones factoriales con
factores a dos niveles, sino que, además, se debe cumplir el principio del effect
sparsity llevado a un extremo poco razonable en la práctica industrial: que sólo
exista un efecto de dispersión real, siendo el resto nulos. Con más de un efecto de
dispersión real, los estimadores resultan sesgados pudiendo inducir a error en las
conclusiones.
3. ESTIMACIÓN DE EFECTOS DE DISPERSIÓN MEDIANTE FUNCIONES DE
VARIANZA
3.1
Introducción: modelos de funciones de varianza
Frecuentemente, resulta necesario estudiar la existencia de efectos sobre la
dispersión en condiciones mucho más generales que las indicadas en los métodos
descritos anteriormente. Este es el caso, por ejemplo, cuando los datos disponibles
no son el resultado de una experiencia diseñada y, muy especialmente, cuando
algunas de las variables explicativas varían de forma continua en la muestra. Datos
retrospectivos de este tipo se obtienen hoy día con mucha frecuencia en las empresas a partir de la utilización masiva de los gráficos de control para el control on-line
de los procesos. Es indudable que el desarrollo de metodologías que permitan
extraer la información potencial generada por dichos procesos tiene un gran interés
desde el punto de vista práctico, dadas sus enormes repercusiones económicas.
372
ESTADÍSTICA ESPAÑOLA
Para poder abordar el estudio de efectos sobre la dispersión en situaciones como las apuntadas anteriormente es necesario recurrir a estimaciones eficientes de
funciones de varianza. Muchos son los métodos de estimación de funciones de
varianza que aparecen en la bibliografía. Davidian y Carroll (1987) y Carroll y
Rupert (1988) realizan un estudio exhaustivo de los métodos más comúnmente
referenciados sobre efectos de dispersión y funciones de varianza, comparando su
eficiencia y sensibilidad frente a datos anómalos. Estos modelos pueden escribirse
de un modo general como:
E(Yj) = µ j(β) = f(xi, β);
2
2
2
σ (Yj) = σ g (µj(β), zk, α),
siendo las Yj independientes (j = 1,...,J observaciones); β el vector de efectos de
posición; α el vector de efectos de dispersión; xi las variables que influyen sobre la
media de la variable respuesta; zk las variables que influyen sobre la dispersión; f
es la función de respuesta media; g es la función de varianza que expresa la heterocedasticidad; y σ es un parámetro de escala desconocido.
La estimación de funciones de varianza es una forma de regresión, aunque mucho menos estudiada que los modelos tradicionales homocedásticos de regresión
sobre medias. En la estimación de funciones de varianza se intenta entender la
estructura de las varianzas como una función de las variables regresoras. En este
sentido, los modelos de funciones de varianza no son más que modelos de regresión heterocedásticos que difieren precisamente en la forma en que se modeliza la
función de varianza.
Dentro del ámbito del estudio de modelos heterocedásticos, se han propuesto
diversas generalizaciones del modelo clásico que permiten considerar la posible
existencia de efectos sobre la dispersión mediante el uso de distintos modelos para
la varianza. En general, se buscan modelos sencillos que relacionen las variables
predictoras, entre las que puede estar la media de la variable respuesta, µ(β), con
la varianza de la misma.
Algunos autores sugieren que la varianza puede modelizarse como proporcional
a una potencia de la media:
2
σ (Yj) = (Σβi xji)θ, siendo µj(β) = (Σβi xji) > 0
o también en función de una potencia expandida de la media, es decir,
2
σ (Yj) = θ1 + θ2 (Σβi xji)θ3
ESTUDIO DE EFECTOS DE DISPERSIÓN EN AUSENCIA DE REPLICACIONES: REVISIÓN DEL ESTADO DEL ARTE Y …
373
También es posible considerar un modelo aditivo donde el posible efecto de las
variables explicativas sobre la varianza, o sobre la desviación típica, se modeliza
como combinación lineal de unas variables explicativas, que pueden coincidir total o
parcialmente con las variables regresoras del modelo sobre medias:
2
σ (Yj) = Σαk zjk
(8)
Otros modelos aditivos pueden construirse relacionando la inversa de la varianza o
de la desviación típica con una combinación lineal de las variables predictoras.
Otro gran grupo de modelos de funciones de varianza lo constituyen los modelos logarítmicos (también llamados log-lineales o multiplicativos) en los que el
logaritmo de las varianzas se modeliza como una función de la media, µ(β):
2
log(σ (Yj)) = θ0 + θ1 (Σßi xji)
o de su logaritmo:
2
log(σ (Yj)) = θ0 + θ1 log(Σßi xji)
o como una combinación lineal de posibles variables explicativas, zk:
2
log(σ (Yj)) = Σαk zjk
(9)
este modelo es equivalente al (7) expuesto en el apartado anterior.
Modelos como los anteriormente expuestos se aplican en campos tan diversos
como: (1) modelos farmacocinéticos, donde la variabilidad depende del tiempo; (2)
análisis de la estabilidad de medicamentos, donde la variabilidad depende del
tiempo y de la temperatura de almacenamiento; (3) cinética enzimática, donde la
variabilidad depende de la concentración; (4) cinética de reacciones químicas; (5)
econometría, donde la variabilidad depende de una serie de factores económicos;
(6) diseños de barrido (screening designs) en el control de calidad e ingeniería de
procesos y de diseño.
Ante tal diversidad de modelos se plantea la cuestión de cuál es el que se debería utilizar ante un determinado problema. Desgraciadamente, no existe una respuesta clara a este respecto. Nair y Pregibon (1988) comentan que en la práctica
cualquier función de varianza estrictamente monótona puede ser adecuada.
En el caso de disponer de replicaciones, si las varianzas muestrales son del
mismo orden de magnitud, cualquier modelo se puede aproximar razonablemente
bien mediante una función lineal. Así, aunque la estimación y, por tanto, la inter-
374
ESTADÍSTICA ESPAÑOLA
pretación de los efectos de dispersión puede cambiar en función del modelo utilizado, las conclusiones generales respecto a la identificación de los efectos importantes serán similares. Por el contrario, si las varianzas muestrales varían en varios
órdenes de magnitud, pueden aparecer diferencias importantes incluso en la fase
de identificación, pudiendo complicarse el modelo con interacciones según el
modelo de función de varianza elegido. En general, se elegirán funciones de varianza que conduzcan a modelos parsimoniosos, es decir, lo más simples posibles.
En el caso de que se disponga de muchas observaciones, es posible contrastar
si un modelo se ajusta o no a los datos, o incluso identificar la función de varianza a
partir de las observaciones disponibles utilizando técnicas gráficas. Sin embargo,
muchas veces en la práctica, y sobre todo en el contexto industrial, el número de
datos disponibles no es suficiente para poder utilizar estos procedimientos de
validación.
De entre todos los modelos de funciones de varianza referenciados en la bibliografía, los modelos logarítmicos, que asumen efectos multiplicativos sobre las
varianzas, presentan, entre otras, la ventaja de no permitir estimas negativas de las
varianzas. Estas y otras ventajas de cálculo hacen que estos modelos sean los más
comúnmente usados en la práctica, sobre todo en contextos industriales. Ver Aitkin
(1987); Bartlett y Kendall (1946); Box y Meyer (1986); Cook y Weisberg (1983);
McCullagh y Nelder (1989); McGrath y Lin (2001); y Pignatiello y Ramberg (1985).
3.2. Modelo logarítmico de efectos de dispersión
Sea yj (j = 1,...,J) el valor obtenido para una determinada variable Yj en la jésima observación, y sean xji (i = 1,...,I) los valores en la misma de I variables
explicativas X1,X2,...,XI, donde xj1=1 para todo j en el caso de incluirse una constante en los modelos. Se asume que las variables explicativas son no aleatorias,
pudiendo generalizarse los modelos al caso de regresores estocásticos de la forma
habitual.
Sean Z1, Z2, ..., ZK las variables cuyo efecto sobre la dispersión de la variable
dependiente Y se desea analizar, y sea zjk (k = 1,...,K) el valor en la j-ésima observación de la variable Zk. Se asume que las variables son no aleatorias y que las Zk
pueden coincidir total o parcialmente con las Xi.
El modelo de regresión lineal con heterocedasticidad multiplicativa puede expresarse como sigue (Aitkin, 1987):
yj
= ∑ βi x ji + uj
i
σ 2 (uj ) = σ 2j = e
∑α z
k
k
jk
j = 1, ..., N
(10)
ESTUDIO DE EFECTOS DE DISPERSIÓN EN AUSENCIA DE REPLICACIONES: REVISIÓN DEL ESTADO DEL ARTE Y …
375
siendo las Yj independientes entre sí y normalmente distribuidas. Esta es la formulación de un modelo lineal general (Generalized Linear Model, GLIM) en el que la
media de la variable respuesta depende linealmente de los efectos de posición, βi
mientras que el logaritmo de su varianza depende linealmente de los efectos de
dispersión, αk (modelo log-lineal de varianzas).
Matricialmente, denominando y al vector cuyas componentes son las yj, éste resulta ser el valor observado de una variable Y Normal J-dimensional cuyo vector
medio es Xβ y cuya matriz de varianzas-covarianzas es D(exp(Zα)),
Y ~ Normal (Xβ , D(exp(Zα)))
(11)
siendo X la matriz formada por las xji, β el vector de las βi, Z es la matriz de las zjk, α
es el vector de las αk, y D(exp(Zα)) es una matriz diagonal en la que el elemento
j-ésimo de la diagonal principal viene dado por (10), es decir, e elevado a la j-ésima
componente de Zα.
El modelo contiene en general una primera columna de unos en Z, es decir una
variable Z1 tal que zj1 = 1 para todo j, e incluye como caso particular el modelo
ordinario de regresión lineal sin más que hacer αk = 0 para k = 2,...,K.
3.3. Estimación del modelo logarítmico
En este apartado se considera el problema de la estimación de los vectores de
parámetros β y α, efectos de posición y dispersión del modelo (11), respectivamente. Se exponen tres procedimientos de estimación: uno muy sencillo que sólo
aplica mínimos cuadrados ordinarios en dos etapas; otro que recurre a los mínimos
cuadrados generalizados; y, por último, uno basado en la maximización mediante
un algoritmo numérico del logaritmo de la función de verosimilitud.
3.3.1. Método de dos pasos (TSP)
Las hipótesis del modelo multiplicativo implican que:
yj = Σβi xji + uj
(j = 1, ...,J)
donde las perturbaciones uj son Normales, tienen media nula y como varianzas:
2
σ j = exp(Σαk zjk)
En consecuencia u2j se distribuirá como σ2j χ12, siendo χ12 una distribución Gi-2
con un grado de libertad, y su logaritmo neperiano:
376
ESTADÍSTICA ESPAÑOLA
log (u j) ~ (Σαk zjk) + log χ1
2
2
(12)
Por tanto su media y varianza vendrán dadas por las siguientes expresiones:
E(log (u j)) = (Σαk zjk) + E(log χ1 ) = (Σαk zjk) - 1.27
2
2
σ (log (u j)) = σ (log χ1 ) = 4.93
2
2
2
2
(13)
(14)
al ser, respectivamente, -1.27 y 4.93 el valor medio y la varianza del logaritmo de
una χ12.
Si las uj fueran conocidas, las αk podrían estimarse a partir de una regresión de
los log(u2j) sobre las zjk, rectificando la ordenada en el origen obtenida en el ajuste,
restándole E(log χ12), o sea adicionándole 1.27, tal y como se deduce de (13). Los
estimadores a obtenidos de esta forma serían óptimos en el sentido de Markov,
dado que la expresión (12) define un modelo lineal homocedástico.
El método de dos pasos explota esta idea, pero sustituyendo el vector desconocido u por su estimador e = y – Xb, siendo b = (X'X)-1X'y el estimador mínimo
cuadrático ordinario de β.
Así, Harvey (1976) sugiere estimar el vector α mediante una regresión ordinaria
sobre las zjk, utilizando como variable dependiente el logaritmo neperiano del
cuadrado de los residuos estimados en la regresión ordinaria del vector y sobre las
xji. El autor bautiza este método como Two-Step Procedure y en adelante se utilizarán las siglas TSP para referirse al mismo.
El estimador propuesto es, en consecuencia:
-1
a = 1.27 + (Z'Z) Z' log e
2
(15)
donde log(e2) es el vector constituido por los log(e2j), y 1.27 es un vector cuyo
primer elemento es 1.27 y el resto son ceros. Esta corrección en la estimación de
α0 es necesaria para asegurar la consistencia del estimador a0. La consistencia del
estimador se deduce del hecho de que, bajo ciertas condiciones generales (Harvey,
1976), los residuos estimados ej convergen en probabilidad a las perturbaciones uj.
De las expresiones (14) y (15) se deduce que la matriz de varianzascovarianzas asintótica del vector a es:
Va = 4.93 (Z'Z)
-1
(16)
ESTUDIO DE EFECTOS DE DISPERSIÓN EN AUSENCIA DE REPLICACIONES: REVISIÓN DEL ESTADO DEL ARTE Y …
377
Hay que indicar, sin embargo, que la validez de los resultados anteriores para el
caso de muestras pequeñas es cuestionable. En consecuencia, y dado que en el
contexto industrial las observaciones de que se dispone suelen ser muy escasas,
resulta interesante estudiar las propiedades de este estimador de dos pasos, TSP,
en el caso de disponer de pocas observaciones.
3.3.2. Método de mínimos cuadrados ponderados iterados
Varios autores, como Zúnica y Romero (1988), proponen una modificación del
método anterior para tener en cuenta el carácter heterocedástico del modelo de
efectos sobre medias. En realidad se trata de una estimación por mínimos cuadrados generalizados descrita también en el Capítulo 3 de Carroll y Rupert (1988),
donde el vector de efectos de dispersión se estima mediante el segundo paso del
método TSP propuesto por Harvey (1976).
Este método constituye un procedimiento alternativo de estimación que sólo
exige la aplicación iterativa de una rutina ordinaria de mínimos cuadrados. En
adelante se hará referencia a este segundo método mediante las siglas MCPI
(mínimos cuadrados ponderados iterados). El razonamiento se expone a continuación.
Dado que el modelo y = Xß + u, a partir del que se estima b, es heterocedástico, y siendo Vu = D(exp(Zα)) la matriz de covarianzas de su vector de perturbaciones u, parece preferible estimarla mediante mínimos cuadrados ponderados,
utilizando alguna estimación V* de dicha matriz de varianzas-covarianzas. La ideal
más natural es utilizar:
V* = D(exp(Za))
(17)
siendo a una estimación previa de α. Esto conduce a un proceso iterativo que
puede esquematizarse en los siguientes pasos:
378
ESTADÍSTICA ESPAÑOLA
Paso 0
Hacer inicialmente t = 0, b(0) = (X'X)-1X'y
Paso 1
t = t + 1, e = Y - Xb(t-1)
Paso 2
a = (Z'Z)-1Z' log e2, corrigiendo a0 = a0 + 1.27
Paso 3
V* = D(exp(Za)),
Paso 4
Paso 5
-1
-1
b(t) = (X'V* X)-1X'V* y
Si |b(t)-b(t-1)| < δ, ir al paso 5; en caso contrario ir al paso 1
Fin de la estimación
Como se observa en el esquema anterior, el procedimiento está basado en la
aplicación iterativa de una rutina de mínimos cuadrados. El vector α se estima
mediante una regresión ordinaria sobre las zjk que utiliza como variable dependiente el logaritmo neperiano del cuadrado de los residuos estimados en la regresión por mínimos cuadrados ponderados del vector y sobre las xji. Este último
método de regresión utiliza como estimación de la matriz de covarianzas del vector
y la fórmula dada en (17). Los estimadores iniciales b(0) y a(0) se obtienen mediante la aplicación del método TSP. El procedimiento se aplica iterativamente, esti-1
-1
mando en cada ciclo b como b(t+1) = (X'V* X)-1X'V* y, siendo V* = D(exp(Za(t))), y
estimándose a(t) mediante una expresión análoga a (15):
-1
2
a (t) = 1.27 + (Z'Z) Z' log e (t), donde e (t) = y – Xb(t).
La estimación de la matriz de varianzas-covarianzas de b viene dada por la ex-1
presión (X'V* X)-1, donde V* es la estima de la matriz de covarianzas de u definida
en (17).
Puesto que log(e2j) converge en distribución a log(u2j), los estimadores a obtenidos gozan de las propiedades asintóticas de los estimadores mínimo cuadráticos
ordinarios. Una estimación aproximada de la matriz de covarianzas de a se puede
obtener mediante Va = s2 (Z'Z)-1, siendo s2 el cuadrado medio residual del modelo
de varianzas, ya que el modelo que estima efectos sobre dispersión es homocedástico. Alternativamente, puede utilizarse el valor teórico asintótico Va = 4.93(Z'Z)1
dado por (16), ya que al converger en probabilidad los log(e2j) a log(u2j), sus varianzas convergen al valor 4.93, tal y como aparece en (14).
Al igual que ocurre en el método de dos pasos, resulta en principio cuestionable
la aplicabilidad práctica en el contexto industrial de los resultados asintóticos cono-
ESTUDIO DE EFECTOS DE DISPERSIÓN EN AUSENCIA DE REPLICACIONES: REVISIÓN DEL ESTADO DEL ARTE Y …
379
cidos, puesto que se desconocen las propiedades de este estimador MCPI de
efectos de dispersión en muestras pequeñas.
Una ventaja importante de este método de estimación es que sólo exige realmente el recurso a una rutina estándar de mínimos cuadrados ordinarios. La estimación por mínimos cuadrados ponderados que aparece en el paso 3 del esquema
anterior puede llevarse a cabo aplicando mínimos cuadrados ordinarios a las
variables transformadas que resultan de dividir en cada observación las variables
dependientes e independientes por la correspondiente desviación típica, derivada
de la expresión (17).
Es aconsejable, muy especialmente en el caso de que el número de observaciones sea escaso en relación al de parámetros a estimar, ir eliminando a lo largo
del proceso de estimación de los dos submodelos (el de efectos de posición y el de
dispersión) aquellas variables que aparezcan como claramente no significativas,
con el fin de aumentar el número de grados de libertad residuales.
En la estimación del modelo mediante el algoritmo propuesto puede presentarse
el problema de que algunos de los ej estimados sean nulos, lo que no permite
calcular el log(e2j). Como regla heurística para abordar este problema, se propone
sustituir los residuos nulos, en el caso de que existan, por la mitad del menor valor
absoluto de los residuos no nulos.
Adicionalmente, puede presentarse otro problema si aparecen residuos muy
próximos a cero, ya que al elevarlos al cuadrado y tomar logaritmos, se induce la
aparición de valores anormalmente negativos, y por tanto outliers. Carroll y Ruppert
(1988) sugieren que en este caso se eliminen unos pocos de entre los residuos
más pequeños. Una solución alternativa más sencilla consiste simplemente en no
considerar un número excesivo de cifras significativas, y aplicar la regla heurística
descrita en el párrafo anterior.
Conviene señalar, por último, que ya en la primera iteración, que coincide simplemente con el resultado del método TSP, es posible obtener una información
valiosa sobre el orden de magnitud de los posibles efectos sobre la dispersión, sin
más que ajustar un modelo lineal ordinario utilizando como variable dependiente
log(e2), donde e es el vector de los residuos del modelo de regresión utilizado para
estimar efectos sobre las medias.
3.3.3. Método máximo-verosímil
A partir de las hipótesis del modelo multiplicativo (11), y considerando una
muestra de J observaciones independientes de la variable dependiente y, se deduce la expresión del logaritmo de la función de verosimilitud. El razonamiento se
expone a continuación.
380
ESTADÍSTICA ESPAÑOLA
La verosimilitud de una muestra observada y1,..., yJ de valores independientes
viene definida por la densidad de probabilidad correspondiente a priori a esa muestra:
2
L = f (y1,..., yJ, β, α) = Π ((1/exp(z'j α)) (1/√(2π)) exp( -(yj - x'j β) / 2(exp(z'j α))))
siendo xj y zj los vectores que contienen los valores de las variables explicativas en
la j-ésima observación, y donde el productorio Π se extiende desde j = 1 a j = J.
De la expresión anterior tomando logaritmos se deduce, tras una serie de operaciones aritméticas, la expresión del logaritmo de la función de verosimilitud:
2
log(L) = cte - 0.5 (Σz'j α + Σ(exp(-z'j α ))(yj - x'j β) )
(18)
extendiéndose los sumatorios para todas las observaciones (j = 1,..., J).
Para la maximización de la expresión anterior se utiliza el método de NewtonRaphson de optimización no lineal, n-dimensional y sin restricciones. Este algoritmo
conduce a un proceso iterativo de cálculo en el que, denominando Γ:
b 
 
Γ = ...
a 
 
al vector I+K dimensional cuyos elementos son los estimadores de los βi y de las αk,
su valor en la iteración t+1 viene dado por:
-1
Γ(t+1) = Γ(t) – Hess (t) g(t)
(19)
donde Hess(t) y g(t) son, respectivamente, la matriz hessiana y el vector gradiente
del logaritmo de la función de verosimilitud, log(L), evaluados en la iteración t.
En la práctica, por su menor complejidad computacional, se utiliza una ligera
modificación del procedimiento anterior, consistente en sustituir la matriz hessiana
por su esperanza matemática, que no es más que la matriz de información, cambiada de signo, relativa a los parámetros del modelo.
Esta matriz tiene una particular estructura diagonal en bloques que se muestra a
continuación utilizando la formulación matricial:
[
]
 − X'D −1X IxI
Hess) = 
[0]KxI

E(
[0]IxK


[− 0.5 Z' Z]KxK 
(20)
ESTUDIO DE EFECTOS DE DISPERSIÓN EN AUSENCIA DE REPLICACIONES: REVISIÓN DEL ESTADO DEL ARTE Y …
381
siendo D = Vu = D(exp(Zα)), matriz de covarianzas del vector de perturbaciones u
del modelo.
La estructura diagonal en bloques de la matriz de información cambiada de signo facilita el cálculo de su inversa, que es también una matriz diagonal, inversa de
la diagonal de E(Hess):
[E(Hess)]
-1
=
[
 − X' D−1X


[0] KxI

]


-1

[− 2 Z' Z] KxK

[0]
-1
IxI
IxK
(21)
lo que implica que en este caso cada iteración del método de Newton se descompone en dos fases, la primera de las cuales afecta a la reestimación de los efectos
de posición βi, y la segunda a la de los efectos de dispersión αk. En consecuencia,
las ecuaciones desarrolladas a partir de (19), cuya aplicación iterativa conducen a
la obtención de los estimadores máximo-verosímiles, son las siguientes:
-1
b(t+1) = b(t) + (X'D* X) g1*(t)
(22)
a(t+1) = a(t) + 2(Z'Z) g2*(t)
(23)
-1
-1
donde g1*(t) y g2*(t) son subvectores gradiente I y K.
Como estimadores iniciales b(0) y a(0), Harvey (1976) propone utilizar el estimador TSP definido en el apartado anterior, aplicando también la regla heurística a
los residuos nulos. El proceso iterativo de cálculo se esquematiza a continuación:
Paso 0
Hacer inicialmente t = 0,
b(0) = (X'X)-1X'y,
e = Y - Xb(0)
a(0) = (Z'Z) -1Z' log e2, corrigiendo a0 = a0 + 1.27
Paso 1
-1
t = t + 1,b(t+1) = b(t) + (X'D* X)-1 g1*(t)
a(t+1) = a(t) + 2(Z'Z)-1 g2*(t)
Paso 2
Si |b(t+1) - b(t)| < δ y |a(t+1) - a(t)| < δ ir al paso 3;
en caso contrario ir al paso 1
Paso 3
Fin de la estimación
382
ESTADÍSTICA ESPAÑOLA
De acuerdo con las propiedades generales de la estimación máximo-verosímil,
la matriz de covarianzas asintótica de los estimadores máximo-verosímiles no es
más que la inversa de la matriz de información, es decir, la inversa de la esperanza
matemática de la matriz hessiana cambiada de signo, y se deduce de (21):
[
]
 X' D−1X
VΓ = −[E(Hess)]-1 = 
 [0] KxI

-1
IxI


[2 Z' Z ] KxK 
[0]
IxK
-1
(24)
de donde se obtiene que la estimación de la matriz de covarianzas asintótica de b
-1
viene dada por Vb = (X'D* X)-1, siendo D*= D(exp(Za)), expresión en la que α se
sustituye por su estimador máximo-verosímil a.
De (24) también se obtiene la matriz de covarianzas asintótica del vector de las
estimaciones máximo-verosímiles de los efectos de dispersión, a:
Va = 2(Z'Z)
-1
(25)
En adelante se hará referencia a este tercer método mediante las siglas MV
(máximo-verosímil).
La relación entre la estimación por mínimos cuadrados ponderados iterados y la
obtenida por máxima verosimilitud es más estrecha de lo que pudiera parecer en un
análisis superficial. En efecto, la iteración sobre b indicada en el paso 3 del esquema de estimación por el método MCPI coincide con la realizada en el paso 1 en el
método MV, lo que se comprueba a continuación.
En el método MV, a partir de la expresión (22) y sustituyendo el subvector gra-1
diente g1*(t) por su expresión matricial g1*(t) = X'D* (Y - Xb(t)), se obtiene b(t+1) =
-1
-1
(X'D* X)-1 X'D* y, expresión que coincide con la estimación mínimo cuadrática de
β por el método MCPI, puesto que V*= D*= D(exp(Za)) es la estima de la matriz de
covarianzas de las perturbaciones u del modelo.
Conclusiones diferentes se obtienen respecto al estimador de efectos de dispersión a. En efecto, a diferencia de la estimación de b, la iteración sobre a es diferente en ambos métodos, lo que conduce a estimadores con distinta distribución.
Así, por ejemplo, la varianza asintótica del estimador aMCPI excede aproximadamente en un 250 por ciento a la del estimador aMV, tal y como se deduce de las
expresiones (16) y (25).
ESTUDIO DE EFECTOS DE DISPERSIÓN EN AUSENCIA DE REPLICACIONES: REVISIÓN DEL ESTADO DEL ARTE Y …
3.4.
383
Propiedades de los estimadores TSP, MCPI y MV en muestras pequeñas
Estos estimadores tienen un problema importante desde el punto de vista de su
utilización en la práctica. Esta limitación consiste en que en la bibliografía citada los
principales resultados obtenidos respecto a sus propiedades son, básicamente, de
carácter asintótico, y su validez, incluso como aproximaciones, puede ser muy
discutible en la práctica industrial donde el número de observaciones disponibles
suele ser limitado. Es por ello que el estudio de las propiedades de estos estimadores fuera del contexto asintótico es un campo de investigación de un gran interés
práctico, dada la falta de información que a este respecto existe en la bibliografía y
su gran relevancia en el contexto industrial.
Ferrer y Romero (1993) estudian las propiedades de los tres estimadores de
efectos de dispersión (TSP, MCPI y MV), asumiendo un modelo de varianzas
multiplicativo, en un contexto de pocas observaciones. Aunque restringen el estudio
a un modelo sencillo con una única variable explicativa tanto para el modelo de
posición como el de dispersión, obtienen unos resultados útiles desde el punto de
vista práctico. Las conclusiones más importantes se exponen a continuación.
Las propiedades en muestras pequeñas de los tres estimadores de efectos de
dispersión analizados difieren sensiblemente de las que cabría esperar a partir de
su comportamiento asintótico referenciado en la bibliografía (Ferrer 1991).
Aunque asintóticamente los tres estimadores son insesgados, sin embargo,
cuando el tamaño muestral es pequeño y existe efecto de dispersión real, los
estimadores son sesgados. El estimador MV y el MCPI tienden a amplificar el
efecto de dispersión real en valor absoluto, mientras que el TSP tiende a reducirlo,
también en valor absoluto, siendo éste último, por tanto, la solución más conservadora. El posible origen de estos sesgos radica en la diferente forma en que los
métodos ponderan los residuos al estimar el modelo de efectos de posición.
Los métodos MCPI y MV ponderan dichos residuos de forma inversamente proporcional a la desviación típica de las observaciones. Dada una serie de observaciones, cada una con varianza σ2j, el estimador máximo verosímil del efecto de
posición, bMV, es el estimador mínimo cuadrático con pesos 1/σ2j (Aitkin, 1987). Ello
implica que se da más peso a aquellos valores con menor varianza. Por ello, a la
hora de minimizar la suma de cuadrados de los residuos del modelo de efectos de
posición, SCR, el modelo tiende a minimizar los residuos de la zona con menor
varianza, subestimando su varianza residual y aumentando la diferencia de varianzas entre las zonas de alta y baja variabilidad. Esto provoca un incremento en la
pendiente del modelo logarítmico de varianzas, es decir, un sesgo positivo en valor
absoluto en la estimación del efecto de dispersión real.
384
ESTADÍSTICA ESPAÑOLA
Por el contrario, en la estimación del modelo de efectos de posición mediante el
método TSP se minimiza la SCR no ponderada. Dado que en la zona de mayor
varianza estos residuos son más elevados en valor absoluto y tienen un peso muy
superior en la SCR, el método ajusta la recta de regresión intentando minimizar los
residuos de esta zona, aún a costa de aumentarlos en la de menor varianza donde,
al ser menores (en valor absoluto), tienen una repercusión menor en dicha SCR. El
resultado es una subestimación de la varianza residual en la zona de alta varianza
y una sobreestimación de la misma en la zona de baja varianza, con lo que disminuye la pendiente del modelo de efectos de dispersión y se genera un sesgo negativo (en valor absoluto) en la estimación del efecto de dispersión real.
Al aumentar el tamaño de muestra y, dado que el estimador de efectos de posición, b, converge en los tres métodos a su valor real, β, los residuos estimados ej
convergen en distribución a las perturbaciones reales uj. Esto es coherente con el
insesgamiento asintótico de los tres métodos.
Por otra parte, cuando no existe efecto de dispersión real, como ya no existe
diferencia de varianzas entre zonas, los tres métodos resultan insesgados.
De la discusión del origen de este sesgo se deduce que éste también depende
de la pauta de distribución de los valores xi de la variable explicativa. Así, en particular, el sesgo resultará nulo si existe una única variable explicativa y ésta tiene
sólo dos valores posibles, como sucede con las variables dummy utilizadas frecuentemente en la modelización de problemas reales.
Las varianzas reales de los tres estimadores no parecen estar relacionadas con
el valor del efecto de dispersión a estimar, pero, como es lógico, dependen del
número de observaciones disponibles. Aunque para muestras grandes el estimador
MV es, como cabría esperar por sus buenas propiedades asintóticas, el de menor
varianza, el estimador TSP aparece como superior a los demás en este aspecto
para el caso de muestras pequeñas. Además, las fórmulas teóricas deducidas de
las aproximaciones asintóticas (16) y (25) subestiman notablemente las varianzas
reales en muestras pequeñas de los estimadores MV y MCPI, resultando, por el
contrario, una aproximación razonable del valor real en el caso del estimador TSP.
Desde el punto de vista del sesgo, Ferrer y Romero (1993) comprueban que los
estimadores de efectos de dispersión TSP y MV tienen comportamientos opuestos,
ya que sus sesgos son aproximadamente de la misma magnitud, pero de distinto
signo. Con el fin de obtener un estimador de efectos de dispersión insesgado,
proponen un nuevo estimador obtenido como media aritmética de los estimadores
TSP y MV. Los autores denominan a este nuevo estimador AVEMT y obtienen por
simulación que su sesgo no difiere significativamente de cero independientemente
del tamaño muestral y del efecto de dispersión real. En el caso de muestras pequeñas, su varianza es ligeramente inferior a la del estimador TSP.
ESTUDIO DE EFECTOS DE DISPERSIÓN EN AUSENCIA DE REPLICACIONES: REVISIÓN DEL ESTADO DEL ARTE Y …
385
En el caso de disponer de software apropiado, el estimador AVEMT resulta ser,
por tanto, incluso más eficiente que el TSP, debido a su carácter insesgado y su
ligera menor varianza. Ferrer y Romero (1993) proponen utilizar la varianza teórica
del TSP dada por la expresión (16) como una razonable aproximación a la varianza
del estimador AVEMT, y aplican los cuatro estimadores estudiados (TSP, MCPI,
MV y AVEMT) a diversos ejemplos industriales reales, unos tomados de la bibliografía (Pignatiello y Ramberg 1985; Taguchi y Wu 1979) y otro de la experiencia en
consultoría (Zúnica y Romero 1988), comparando los resultados obtenidos con los
referenciados en otros trabajos (Box y Meyer 1986; Nair y Pregibon 1988).
Ferrer y Romero (1994) estudian el efecto de la presencia de datos anómalos
(observaciones contaminantes) sobre el sesgo y la varianza de los tres estimadores
de efectos de dispersión TSP, MCPI y MV a partir de un modelo con heterocedasticidad multiplicativa no replicado con una única variable explicativa tanto para el
modelo de posición como el de dispersión, asumiendo que las perturbaciones uj son
valores independientes e idénticamente distribuidos de una distribución normal
contaminada según:



2
(1 − p)N 0, σ j
∑α z 
 + pN(0, m2σ2j )
=e


k
jk
k
siendo p el porcentaje de contaminación y m la magnitud de contaminación (varianza de los datos contaminados).
Este modelo de contaminación únicamente genera datos anómalos aislados en
la variable respuesta. Ferrer y Romero (1994) consideran que éste constituye una
razonable aproximación a los tipos de contaminación que con más frecuencia
pueden aparecer en el contexto industrial, como consecuencia, fundamentalmente,
de salidas de control de los procesos.
Los autores concluyen que los sesgos de los tres estimadores se ven afectados
por la magnitud de la contaminación de forma inversamente proporcional al efecto
de dispersión real. El motivo de este fenómeno puede explicarse por el hecho de
que si un dato anómalo cae en la zona de alta varianza tiende a tomar valores
mucho más alejados del resto de las observaciones que si cae en la zona de baja
varianza, lo que, independientemente del método de estimación, hace que tenga un
peso importante en la SCR del modelo de efectos sobre medias.
Por otra parte, las varianzas de los estimadores se ven incrementadas por el
aumento de la varianza de los datos contaminados (magnitud de contaminación),
aunque de forma diferente según el método utilizado. Así, este aumento es particularmente acusado en el método MV, que se muestra muy sensible, incluso para
386
ESTADÍSTICA ESPAÑOLA
tamaños grandes de muestra, a la presencia de datos anómalos muy contaminados, principalmente cuando el porcentaje de datos contaminados es pequeño,
situación que es la más probable en la práctica, provocando que su varianza sea
muy superior a la de los otros dos estimadores (MCPI y TSP) incluso para tamaños
de muestra grandes, donde, como se ha indicado anteriormente, en ausencia de
contaminación es el de mínima varianza.
Las conclusiones de este estudio para tamaños grandes de muestra son coherentes con los resultados asintóticos obtenidos por Davidian y Carroll (1987). Así,
aunque asintóticamente la utilización del estimador MCPI o TSP supone un 59% de
pérdida de eficiencia respecto al estimador MV, una pequeña fracción de datos
contaminados es suficiente para acabar drásticamente con la superioridad del
estimador MV.
Aunque ninguno de los tres estimadores estudiados (TSP, MCPI y MV) puede
considerarse estadísticamente robusto, pues sus puntos de ruptura (Yohay 1987)
son cero en los tres casos (basta una única observación anómala para sesgar en
proporciones considerables los estimadores), la varianza del estimador MCPI y, en
especial, la del TSP se ven mucho menos influidas en los casos en los que exista
una ligera contaminación en los valores de la variable respuesta. De todas formas,
como en cualquier modelo de regresión, una adecuada combinación de técnicas de
diagnóstico de datos anómalos (Cook y Weisberg 1982; Rousseeuw y Leroy 1986),
junto con métodos de estimación robusta (Rousseeuw y Leroy 1986), puede ser
necesario en la práctica.
En definitiva, de las consideraciones anteriores se deduce que el estimador más
sencillo, el TSP, es el más recomendable cuando sólo se dispone de pocas observaciones, situación, por otro lado, extremadamente frecuente en el contexto industrial. En efecto, en este caso, el estimador TSP une tres propiedades esenciales:
una mayor eficiencia fruto fundamentalmente de su menor variabilidad, siendo
también la solución más conservadora como se deduce de su sesgo; una menor
sensibilidad ante ligeras contaminaciones de los datos; y una extremada sencillez
de cálculo, al no necesitar nada más que la aplicación de mínimos cuadrados
ordinarios.
Aunque estos resultados han sido obtenidos con un modelo muy sencillo y es
necesario investigar su comportamiento en situaciones más complejas, sin embargo, el método de dos pasos, TSP, constituye una herramienta sencilla y, a la vez,
potente para la mejora de la calidad y de la productividad. De hecho, su aplicación
práctica en la resolución de problemas de calidad en diversas industrias ha dado
hasta la fecha resultados enormemente satisfactorios (Ferrer y Romero 1995;
Romero 2000; Zúnica y Romero 1988).
ESTUDIO DE EFECTOS DE DISPERSIÓN EN AUSENCIA DE REPLICACIONES: REVISIÓN DEL ESTADO DEL ARTE Y …
387
4. CONCLUSIONES Y LÍNEAS FUTURAS DE INVESTIGACIÓN
Es indudable que el interés por el estudio de efectos de dispersión en ausencia
de replicaciones sigue vigente hoy día. Prueba de ello son los trabajos que sobre
este tema recientemente han apareciendo en prestigiosas revistas científicas en el
campo de la estadística aplicada a la mejora de la calidad como Journal of Quality
Technology (McGrath y Lin 2001b) o Technometrics (Brenneman y Nair 2001;
McGrath y Lin 2001a; Pan 1999).
También es importante destacar que, de todos los métodos propuestos asumiendo un modelo log-lineal para las varianzas, el método en dos pasos de Harvey
(1976) (método TSP), estudiado por Ferrer y Romero (1993, 1994 y 1995) en
contextos de pocas observaciones, resulta ser uno de los preferidos. El método de
Harvey (1976) puede considerarse como una extensión natural del método de
Bartlett y Kendall (1946) al contexto no replicado, al tratarse de un análisis log-lineal
de los cuadrados de los residuos en vez de las varianzas muestrales. De hecho,
Brenneman y Nair (2001) en planes 2k-p proponen modificar el paso 1 del método
TSP (estimación del modelo de posición), obteniendo los residuos del ajuste al
modelo expandido propuesto por Bergman y Hynén (1997).
Una cuestión a estudiar es si la utilización de métodos iterativos como los mínimos cuadrados ponderados (MCPI) o la máxima verosimilitud (MV) resuelven el
problema del sesgo de estimación que sufren los estimadores en los planes 2k-p.
El estudio de las propiedades en muestras pequeñas de los estimadores TSP,
MCPI y MV se ha obtenido a partir de modelos muy sencillos con una única variable
explicativa distribuida uniformemente en su campo de variabilidad. Investigaciones
adicionales son necesarias para extender estos resultados a otros supuestos, así
como generalizarlos a modelos más complejos con más variables explicativas, y
también a modelos de regresión en fiabilidad.
Una idea para tratar de corregir el sesgo sería incorporar en el método TSP la
varianza de las perturbaciones del modelo de posición y utilizar como variable
respuesta del modelo de efectos de dispersión: log
e2j
, donde vjj es la fuerza de
1 − v jj
palanca (leverage) de la observación j del modelo.
Por último, no conviene olvidar que el análisis de efectos de posición y dispersión es intrínsecamente un problema difícil. En experimentos no replicados es
realmente un campo minado por el que se debe maniobrar con mucho cuidado. De
hecho en fracciones factoriales 2k-p no replicadas el problema es estimar los 2N
(N=2k-p) parámetros de posición y dispersión con sólo N observaciones, lo que sólo
puede hacerse bajo el supuesto de que unos pocos efectos existan realmente
388
ESTADÍSTICA ESPAÑOLA
(effect sparsity). George Box comparó una vez el problema de la identificación
conjunta de efectos de posición y dispersión en ausencia de replicaciones al proceso de “tratar de extraer hasta la última gota de agua de una toalla mojada; si se
escurre demasiado, el tejido puede empezar a romperse y uno puede acabar
llegando a conclusiones equivocadas” (Brenneman y Nair 2001).
REFERENCIAS
AITKIN, M. (1987). «Modelling Variance Heterogeneity in Normal Regression Using
GLIM». Applied Statistics 36, 332-339.
BARTLETT, M.S.; KENDALL, D.G. (1946). «The Statistical Analysis of VarianceHeterogeneity and the Logarithmic Transformation». Journal of the Royal Statistical Society B, 8, 128-138.
BERGMAN, B.; HYNÉN, A. (1997). «Dispersión Effects From Unreplicated Designs in
the 2k-p Series». Technometrics 39, (2), 191-198.
BOX, G.E.P. (1988). «Studies in Quality Improvement: Signal to Noise Ratios,
Performance Criteria, and Transformations (with discussion)». Technometrics
30, 1-40.
BOX, G.E.P.; MEYER, R.D. (1986). «Dispersion Effects From Fractional Designs».
Technometrics 28, 19-27.
BRENNEMAN, W.A.; Nair, V.J. (2001). «Methods for Identifying Dispersion Effects in
Unreplicated Factorial Experiments: A Critical Analysis and Proposed Strategies». Technometrics 43, (4), 388-405.
CARROLL, R.J.; RUPPERT, D. (1988). «Transformations and Weightings in Regression». Nueva York, Ed. Chapman and Hall.
COOK, R.D.; WEISBERG, S. (1982). «Residuals and Influence in Regression». Nueva
York. Chapman & Hall.
COOK, R.D.; WEISBERG, S. (1983). «Diagnostics for Heteroscedasticity in Regression». Biometrika 70, 1-10.
DANIEL, C. (1976). «Applications of Statistics to Industrial Experiments», Wiley.
DAVIDIAN, M.; CARROLL, R.J. (1987). «Variance Function Estimation». Journal of the
American Statistical Association 82,1079-1091.
ESTUDIO DE EFECTOS DE DISPERSIÓN EN AUSENCIA DE REPLICACIONES: REVISIÓN DEL ESTADO DEL ARTE Y …
389
FERRER, A. (1991). «Estimadores de efectos de dispersión con datos no necesariamente replicados: propiedades en muestras pequeñas. Tesis doctoral». Universidad Politécnica de Valencia, Dpto. Estadística e Investigación Operativa, Valencia, España.
FERRER, A.; ROMERO, R. (1993). «Small Samples Estimation of Dispersion Effects
from Unreplicated Data». Communications in Statistics: Simulation and Computation 22, (4), 975-995.
FERRER, A.; ROMERO, R. (1994). «Sensibilidad frente a datos anómalos de tres
estimadores de efectos de dispersión con datos no necesariamente replicados». Estadística Española 36, (135), 59-74.
FERRER, A.; ROMERO, R. (1995).«A Simple Way To Study Dispersion Effects From
Non-necessarily Replicated Data In Industrial Contexts». Quality Engineering 7,
(4), 747-755.
FULLER, H.T. (1998). «Analyzing Data In The Presence Of Heteroscedasticity».
Tesis Doctoral. University of Wisconsin-Madison, EE.UU.
HARVEY, A.C. (1976). «Estimating Regression Models With Multiplicative Heteroscedasticity». Econometrica 44, (3), 461-465.
LEÓN, R.; SHOEMAKER, A.C.; KACKER, R. (1987). «Performance Measures Independent of Adjustment: An Explanation and Extension of Taguchi´s Signal-to-NoiseRatios (with discussion)». Technometrics 29, 253-285.
MCCULLAG, P.; NELDER, J.A. (1989). «Generalized Linears Models, 2ª ed.», Londres,
Chapman & Hall.
MCGRATH, R.N.; LIN, D.K.J. (2001a). «Testing Multiple Dispersion Effects in Unreplicated Fractional Factorial Designs». Technometrics 43, (4), 406-414.
MCGRATH, R.N.; LIN, D.K.J. (2001b). «Confounding of Location and Dispersion
Effects in Unreplicated Fractional Factorials». Journal of Quality Technology 33,
(2), 129-139.
Nair, V.N.; Pregibon, D. (1986). «A Data Analysis Strategy for Quality Engineering
Experiments». AT&T Technical Journal 65, 73-84.
NAIR, V.N.; PREGIBON, D. (1988). «Analyzing Dispersion Effects From Replicated
Factorial Experiments». Technometrics 30, 247-257.
PAN, G. (1999).«The Impact of Unidentified Location Effects on Dispersion-Effects
Identification From Unreplicated Factorial Designs». Technometrics 41, (4),
313-326.
390
ESTADÍSTICA ESPAÑOLA
PIGNATIELLO, J.J.; RAMBERG, J.S. (1985). «Discussion of Off-Line Quality Control,
Parameter Design, and the Taguchi Method,» by R.N. Kackar. Journal of Quality Technology, 17, 198-206.
ROMERO, R. (2000). «Calidad Total, Estadística y Método Científico». Real Academia de Cultura Valenciana – Discursos nº 35, Valencia.
ROUSSEEUW, P.J.; LEROY, A.M. (1987). «Robust Regression and Outlier Detection»,
Nueva York, Wiley.
TAGUCHI, G.; W U, Y. (1980). «Introduction to Off-Line Quality» Control, Nagoya,
Central Japan Quality Control Association.
TORT-MARTORELL, J. (1985). «Diseños factoriales fraccionales. Aplicación al control
de calidad mediante el diseño de productos y procesos». Tesis doctoral, Universidad Politécnica de Cataluña.
W ANG, P.C. (1989). «Tests for Dispersion Effects From Orthogonal Arrays». Computational Statistics and Data Analysis 8, 109-117.
YOHAI, V. (1987). «High Breakdown Point and High Efficiency Robust Estimation for
Regression». Annals of Statistics 15, 642-656.
ZÚNICA, L.; ROMERO, R. (1988). «Un modelo para el estudio de efectos sobre la
dispersión en ausencias de replicaciones». Estadística Española, 116, 55-74.
ESTUDIO DE EFECTOS DE DISPERSIÓN EN AUSENCIA DE REPLICACIONES: REVISIÓN DEL ESTADO DEL ARTE Y …
DISPERSION EFFECTS FROM NON-REPLICATED DATA: REVIEW
OF THE STATE OF THE ART AND FUTURE PERSPECTIVES
SUMMARY
In this paper a review of the state of the art on the methods developed to study the likely effects of one or more explanatory variables on
the variability of the response variables analysed (dispersion effects) is
presented. The dispersion effects studies are of vital importance in the
quality and productivity improvement process. The paper focuses on
the techniques that allow dispersion effect analyses with no replications, what is quite common in practice, v.g. in unreplicated experimental designs, or when data come from a non-designed context and,
specially, when some of the explanatory variables varies in a continuous way in the sample. Retrospective data of this kind can be easily
obtained from historic information stored in data bases in many companies. The paper reviews several techniques for simple two-level experimental designs, and also variance functions models to be used in
broader contexts.
Key words: Dispersion Effects, Heteroscedasticity, Quality Improvement, Robust Design, Variance Functions.
AMS Classification: 62F11, 62J05, 62K05, 62N10
391
Descargar