Estimación robusta: una aplicación informática con fines didácticos

Anuncio
ESTADÍSTICA ESPAÑOLA
Vol. 43, Núm. 147, 2001, págs. 105 a 123
Estimación robusta: una aplicación
informática con fines didácticos
por
ALFREDO MÉNDEZ ALONSO
Departamento de Matemática Aplicada a la I.T. de Telecomunicación
Universidad Politécnica de Madrid
RESUMEN
Después de justificar la utilización de estimadores robustos, y no
paramétricos, como una parte importante en el aprendizaje de la Estadística, y en particular para realizar un examen inicial de un conjunto
de datos, y ante la falta de aplicaciones informáticas orientadas a la
enseñanza de la Estadística que permitan el cálculo de estimaciones
robustas, no paramétricas y la detección de observaciones anómalas,
presentamos una herramienta informática con algunos de estos elementos. En la aplicación, desarrollada exclusivamente con fines académicos, se incluyen varios estimadores de localización y de escala
paramétricos, no paramétricos y robustos. La aplicación también contiene intervalos de confianza, contrastes de normalidad y contrastes
para la determinación de observaciones anómalas, una tabla de frecuencias y gráficos adecuados.
Palabras clave: Estadísticos robustos, estimadores de localización,
estimadores de escala, intervalos de confianza, test normalidad,
test de outliers, análisis exploratorio de datos, software.
Clasificación AMS: 62-04; 62-07; 62G35
106
ESTADÍSTICA ESPAÑOLA
1. INTRODUCCIÓN
Antes de examinar cualquier conjunto de datos es fundamental formular el problema de una manera preliminar y clarificar los objetivos de la investigación. También se deben averiguar las características esenciales del problema de fondo, así
como disponer de una bibliografía adecuada, que nos permitirá formular el problema con mayor precisión, incluso cambiar completamente nuestra idea inicial. En el
caso ideal, que no es el más habitual, si se pudiera estar desde el comienzo de la
investigación se podría dirigir el diseño de la recogida de datos (ver Chatfield,
1985).
El análisis suele comenzar por asegurar la estructura de los datos, en donde se
establece el número de observaciones, el número y tipo de variables que intervienen, y la calidad de los datos, averiguando la forma en que han sido recogidos y
estudiando la presencia de errores, datos anómalos y observaciones desaparecidas. Con los procedimientos habituales de la Estadística Descriptiva y la amplia
variedad de gráficos que se incluyen en la mayoría del software que utiliza conceptos estadísticos, se pueden detectar tanto algunas observaciones sospechosas,
como agrupaciones del resto de los datos. Las herramientas informáticas también
incluyen la posibilidad de realizar transformaciones de los datos, posibilidad que
debe ser considerada a lo largo de todo el análisis puesto que una transformación
puede ayudar a descubrir una estructura en una serie de datos. Los métodos
robustos de estimación son útiles para obtener medidas de localización, dispersión,
forma, y para detectar observaciones sospechosas. Sin embargo, sólo alguno de
los mencionados programas informáticos incluyen unos pocos estimadores robustos, si bien estos procedimientos se van introduciendo poco a poco, quizás porque
se amplia el conocimiento de sus propiedades.
Los resúmenes estadísticos, que se deben calcular rutinariamente, tienen interés en si mismos, para tomar un primer contacto con los datos, y sirven como
preludio de análisis más profundo. Un examen inicial de los datos también debe
considerar la utilización de estimadores robustos, ya que son poco sensibles a la
forma de los datos y eliminan relativamente la influencia de las observaciones
extremas. Todos estos estimadores rechazan los datos extremos objetivamente,
aunque son más importantes los consejos de las personas entendidas en la materia
objeto de estudio, sin despreciar el instinto del analista para descubrir observaciones sospechosas. Los métodos robustos son especialmente útiles cuando la distribución subyacente es desconocida, sabiéndose que no es normal y que no es
posible una transformación que los convierta en normales. En el caso de disponer
de pocas observaciones los contrastes sobre normalidad son de dudosa validez y
los métodos robustos se convierten en unos utensilios esenciales (ver Rock, 1987).
ESTIMACIÓN ROBUSTA: UNA APLICACIÓN INFORMÁTICA CON FINES DIDÁCTICOS
107
Los cursos introductorios de Estadística que hemos impartido tenían una ve rtiente práctica, en un Aula informática cuando ha sido posible, y otra vertiente que
incluye alguna teoría y ciertas herramientas que necesitan ser aprendidas, puesto
que la Estadística no es una colección de recetas también tratamos de que los
estudiantes aprecien la estructura de los datos y de inculcar el razonamiento inductivo. Aspectos más avanzados, como la formulación de modelos en regresión,
deben enseñarse durante, o después del aprendizaje de la Inferencia, y observar la
forma de los datos con diagramas de dispersión, que son sencillos de aprender,
analizando su variabilidad y sus agrupamientos, debe servir para conocer la sensibilidad de las estimaciones, y emplearse de base para la formulación precisa del
modelo. La falta de base matemática y la utilización de estrategias basadas en una
gran cantidad de formulas que, además se deben aprender en un corto espacio de
tiempo, hace que los estudiantes de materias no relacionadas con la Estadística, se
sientan incómodos a la hora de enfrentarse con un conjunto de datos reales, no
obstante se sienten seguros ante las conclusiones que obtienen con sus “tablas”,
incluso cuando las conclusiones son de dudosa validez.
Los estudiantes parecen disfrutar particularmente por tener acceso a programas
informáticos sencillos, quizás por el atractivo que sienten los alumnos por la falta de
teoría, porque eliminan una gran cantidad de trabajo pesado y, porque incluyen
presentaciones gráficas, tablas y resúmenes. Sin embargo, debe evitarse el uso
indiscriminado de software en la enseñanza, es preferible, y más difícil, inculcar en
los alumnos que comprendan las características fundamentales de un conjunto de
datos basándose en el sentido común, a que utilicen las técnicas estadísticas sin
más. En los cursos de Estadística dirigidos a estudiantes no estadísticos, las prácticas comenzaban con algunas nociones de Estadística Descriptiva que son útiles
para que el alumno tome contacto con datos reales, son fáciles de asimilar y proporcionan una base para el estudio de la Inferencia. Las primeras prácticas son
muy dirigidas, y también se pretende inculcar al alumno lo arriesgado que puede
ser utilizar estas herramientas a ciegas. En estas prácticas hemos echado en falta
algunos métodos robustos y no paramétricos, ya que los únicos programas de los
que teníamos referencias y que contenían una amplia gama de estadísticos estaban programados en FORTRAN, y esto quitaba parte de la sencillez, y mucho del
atractivo que pretendíamos. Además, la explicación teórica requería una cantidad
de tiempo que no suele recogerse en los programas de las asignaturas. Para
subsanar estos contratiempos hemos diseñado una aplicación informática, basada
en dos Proyectos Fin de Carrera de la E.U.I.T. Telecomunicación de la U.P.M.,
“Estadísticos Robustos” (Hidalgo, 1998) y “Tratamiento Robusto de Datos” (Muñoz,
1998), cuyo Tutor es A. Méndez, en las que se recogían aspectos que no suelen
aparecer en los programas informáticos habituales. Aunque basados en las rutinas
de Andrews y otros (1972) y Rock (1987), las dos aplicaciones están programadas
108
ESTADÍSTICA ESPAÑOLA
en Visual Basic, y al ser aplicaciones Windows resultan más fáciles de manejar y
más atractivas para los alumnos que los mencionados programas en FORTRAN,
pero distan mucho de los sofisticados programas de software que están disponibles
en el mercado.
2. GUÍA DEL PROGRAMA
Nos referiremos a la última versión de la aplicación ya que, como hemos indicado, incorpora todos los elementos de la primera. En dichas aplicaciones se incluyen
estimadores de localización robustos y no robustos, estimadores no paramétricos
de escala, criterios para la determinación de observaciones anómalas y su posible
tratamiento, algunas transformaciones de los datos, tablas de frecuencias, intervalos de confianza y contrastes de normalidad. Se incluyen algunas capacidades
gráficas, pero estas son las características menos conseguidas.
Puesto que es una aplicación para el entorno Windows, se puede ejecutar con
Windows 95 y 98, su presentación contiene una barra de menús desplegables,
barra de herramientas, botones para las operaciones más habituales y un sistema
de ayuda. También permite el intercambio de datos, enlazar información y el trabajo
con múltiples documentos, de otras aplicaciones Windows.
Las estimaciones obtenidas se pueden guardar en ficheros con la extensión
“.est”, mientras que los contrastes para la determinación de outliers se guardan en
ficheros con extensión “.out”.
2.1.
Presentación de la pantalla principal
Después de haber instalado el programa, se inicia la aplicación con una pantalla
con una ventana de selección en la que determinaremos si deseamos comenzar
con un fichero de observaciones nuevo o con uno ya existente, seleccionando el
tipo aparece aparecerá la pantalla principal (Figura 1) dividida en cuatro partes.
En la primera fila aparece el nombre del programa y el nombre del fichero de
datos con el que estamos trabajando, la segunda fila es la barra de menús, a
continuación la barra de herramientas, en la cuarta fila están las funciones de
apoyo, y en la parte central los datos iniciales y los datos transformados, si es que
se ha seleccionado alguna transformación.
La barra de funciones de apoyo contiene funciones para mejorar la presentación
del programa pudiendo variar el tipo de letra, el tamaño de las mismas, el color
predefinido de la pantalla principal y el número de cifras decimales, que puede
estar entre 3 y 7, con lo que se puede redondear las cifras adecuadamente.
ESTIMACIÓN ROBUSTA: UNA APLICACIÓN INFORMÁTICA CON FINES DIDÁCTICOS
109
En la barra de herramientas se encuentran “botones” con las operaciones más
habituales que se realizan con los archivos (Nuevo, Abrir, Guardar, Cerrar e Imprimir), de edición (Cortar, Copiar, Pegar y Eliminar), dos botones para la ordenación
de las observaciones (ascendente y descendente), las estimaciones, gráficos,
transformaciones y el último que corresponde a la ayuda.
Figura 1
2.2.
Descripción de los menús
Describiremos brevemente el contenido de los menús que se incluyen en la
aplicación y, en la siguiente sección centraremos nuestra atención en los aspectos
teóricos relativos a estimadores robustos y datos anómalos.
El menú Archivo es análogo al de cualquier aplicación Windows permitiéndonos
abrir, guardar, cerrar e imprimir tanto los archivos de datos (con extensión .txt ,
.doc, ó .dat), como los archivos de estimaciones (con extensión .est) y de outliers
(con extensión .out).
El menú Edición, también es semejante al de otras aplicaciones Windows, contiene las tareas de edición típicas: cortar, copiar, pegar y eliminar.
En el menú Transformaciones aparecen algunas operaciones que se pueden
realizar sobre la totalidad de los datos. Las opciones de este menú son las operaciones:
110
ESTADÍSTICA ESPAÑOLA
− Desplazamiento
− Inversa y i =
y i = A + x i , con A ∈R
1
, si x i ≠ 0 ∀ i = 1,..., n
xi
− Potencial yi = ( x i ) p , con p ∈ (0, ∞)
x
− Exponencial y i = e i = exp(x i ) , ∀ i = 1,..., n
− Logarítmicas y i = ln( x i ) , si x i > 0 ∀ i = 1,..., n
y i = log10( x i ) , si x i > 0 ∀ i = 1,..., n
y i = ln( A + x i ) , si A + x i > 0 ∀ i = 1,..., n
− Estandarizada y i =
xi − x
, siendo x la media muestral y s la desviación típica
s
muestral.
− Escalar yi = λ ⋅ x i , con λ ∈R
Una vez realizada la transformación en los datos la aplicación trabaja con los
datos transformados. Sólo se perderán las observaciones originales si las transformadas se guardan en un fichero con el mismo nombre.
En el menú Estimaciones se presentan cinco opciones que describiremos a
continuación.
− Estimadores no robustos. Eligiendo esta opción el sistema proporciona parte de
los elementos que aparecen en cualquier resumen estadístico, como son el número
de observaciones, mínimo, máximo, suma de los datos, media aritmética, geométrica y armónica, rango y semirango.
− Estimadores robustos de localización. Con esta opción se obtienen algunos
estadísticos del orden (cuartiles y bisagras), L-estimadores (mediana, mediana de
Garswirth, trimedia, trimedias podadas, shorth y salto múltiple), w-estimadores
(Huber y JBT) y M-estimadores de Hampel.
− Estimadores de escala. El sistema proporciona la desviación típica, el estimador
de doble peso, el semirrango interbisagras y la media de las desviaciones de la
media y de la mediana, respectivamente.
− Tests de normalidad. Esta opción incluye los coeficientes de curtosis, asimetría
de Pearson y Geary, y los contrastes de normalidad basados en el estimador de
doble peso.
− Existe una quinta opción, Intervalos de confianza, que está inicializada pero no
desarrollada.
ESTIMACIÓN ROBUSTA: UNA APLICACIÓN INFORMÁTICA CON FINES DIDÁCTICOS
111
Con el menú Outliers se pueden determinar observaciones que son estadísticamente anómalas por su alejamiento del “centro” de los datos (Test de Grubbs,
Dixon, Harvey, Asimetría y Normalidad), así como la posibilidad de tomar decisiones sobre dichas observaciones mediante depuración, que consiste en eliminar
todos los outliers, winsorización, que “contrae” los datos extremos a la observación
“central” inmediatamente anterior, y con tratamiento manual, que permite depurar,
winsorizar, o ignorar las observaciones sospechosas determinadas.
En el menú Gráficos se han incluido tan sólo el gráfico Box-plot y el ajuste a
una distribución normal por cuantiles, donde la media estimada en la distribución
normal puede ser la media, o la mediana, muestral.
Eligiendo el menú Frecuencias aparece una ventana de diálogo que permite al
usuario elegir tanto el número de intervalos, como la amplitud de los mismos,
además el sistema proporciona la posibilidad de gráficos de puntos, líneas, áreas,
barras y sectores, de las diferentes frecuencias.
El último menú es el de Ayuda, con el que se pueden realizar consultas sobre el
manejo del programa y sobre cuestiones teóricas, que incluye la definición de los
estadísticos y contrastes incluidos en la aplicación.
Para ilustrar su manejo y resultados consideramos los datos que aparecen en
Hoaglin, Mosteller y Tukey (1983), en la variable “Rural”, y cuyos valores son: 800;
974; 500; 725; 812; 794; 765; 900; 826; 700; 850; 945; 850. Estos datos se guardan
en el archivo “Ejemplo.dat”.
3. DESCRIPCIÓN DE LOS ESTADÍSTICOS INCLUIDOS
En esta sección presentaremos brevemente las respuestas que proporciona el
sistema en algunas opciones de los menús, concretamente consideraremos la
opción de estimadores robustos de localización, estimadores de escala, contrastes
de normalidad y la determinación de outliers, dado que son los que echábamos en
falta en otras aplicaciones.
3.1.
Estimadores de localización
Los estimadores de localización proporcionan un estimador del centro de los
datos. La simetría de la distribución, o al menos la simetría en el centro de dichas
observaciones, se enfatiza para simplificar, clarificar y porque el centro de simetría
es el que mejor describe el centro de gravedad. Un parámetro, θ, es de localización
para la v.a. X si f ( x; θ, λ) , que es la función de probabilidad o densidad, se puede
escribir como función de x − θ , por lo que la v.a. X − θ no depende de θ. Los
112
ESTADÍSTICA ESPAÑOLA
estimadores robustos son aquellos que sufren pequeños cambios en la estimación
cuando existen cambios en la distribución de las observaciones.
De los estadísticos de localización disponibles hemos elegido algunos de los
que han sido recomendados para su utilización, después de haber sido analizados,
en Andrews y otros (1972), Hoaglin, Mosteller y Tukey (1983) y Hampel y otros
(1986), además estos autores realizan discusiones y recomendaciones de su uso.
Los resultados para los datos de “Ejemplo.dat” se pueden presentar como muestra
la Figura 2.
Figura 2
3.1.1. Estadísticos del orden
Como ya hemos comentado en esta opción se calculan algunos estadísticos del
orden, si X1,..., Xn es la muestra de tamaño n , las observaciones ordenadas
X (1) ≤ X ( 2) ≤ ... ≤ X( n) son los llamados estadísticos del orden. Se incluyen los cuartiles, que denotamos por C 1 y C3, y las bisagras, que denotamos por H1 y H2, definidas por Tukey, semejantes a los cuartiles y definidas por: si [λ] representa la parte
 n + 1
 2 +1

entera de λ y k = 
, entonces
2
H1 = X( k) y H2 = X (n+1−k ) , si k ∈ N
o bien H1 =
1
1
( X ( [k ]) + X ( [k ]+ 1) ) y H 2 = ( X ( [n+1−k ]) + X ( [n+1−k ]+ 1) ) si k∉ N
2
2
ESTIMACIÓN ROBUSTA: UNA APLICACIÓN INFORMÁTICA CON FINES DIDÁCTICOS
113
3.1.2. L-estimadores
Los L-estimadores son combinaciones lineales de estadísticos del orden, es decir T( x1,..., x n) =
n
∑ ai ⋅ x i
incluyéndose en esta clase la media muestral. Puesto que
i =1
se supone la simetría de la v.a. también se supone que los pesos son simétricos.
Los L-estimadores que figuran en la aplicación son:
1.- Las trimedias podadas de orden α , denotadas por T(α), que son estimadores que recortan el α% de las observaciones inferiores y el α% de las observaciones superiores, supuesto que los datos estén ordenados. Se definen como
n
T(α) = ∑ ai ⋅ X(i ) siendo los pesos
i =1
ai = 0
si i ≤ g
ó i ≥ n −g +1
ai =
1− r
si i = g + 1 ó i = n − g ,
n(1 − 2α)
ai =
1
si g + 2 ≤ i ≤ n − g − 1
n(1 − 2α)
con g = [α⋅n] y r = g − α ⋅ n
En el programa se consideran los valores 0´1, 0´2 y 0´25 basándonos en las indicaciones de Hoaglin, Mosteller y Tukey (1983), aunque otros L-estimadores que
figuran en la aplicación también se pueden considerar como trimedias podadas, en
particular la winsorización, que consiste en substituir el valor de la mayor observación, X(n), respectivamente la menor, X(1), por el valor de la observación inmediatamente anterior, X (n-1), respectivamente posterior, X (2).
2.- La mediana, que es el estadístico ordenado central si n es impar y la media
de los estadísticos ordenados centrales si n es par, se puede considerar como una
n −1
trimedia podada donde el orden depende del número de observaciones, α =
.
2n
Este estimador es resistente frente a la aparición de outliers, pero pierde sensibilidad respecto de muchos valores centrales.
1
1
1
Mediana + H1 + H 2 , donde
2
4
4
H1 y H2 son las bisagras, se considera por incluir información muestral más allá del
centro de los datos y todavía es resistente a la influencia de los datos alejados del
centro.
3.- La Trimedia, cuya definición es Trimedia =
4.- La Mediana de Garswirth, propuesta por Garswirth (1966), viene definida
4
3
3
Mediana +
T1 +
T3 , donde T1 y T3 son los
por Mediana de Garswirth =
10
10
10
terciles. Se propone por considerar más información muestral que la mediana y ser
114
ESTADÍSTICA ESPAÑOLA
más resistente que la Trimedia a la influencia de outliers, por lo que es una alternativa a la Trimedia.
5.- El estimador de Salto Múltiple, propuesto por Andrews y otros (1972), puede ser considerado como una trimedia podada, donde la proporción de datos
eliminados depende de los datos. En primer lugar se consideran, aproximadamente, los datos contenidos en las “patillas” de los gráficos Box-plot y posteriormente se
eliminan una proporción del número de datos excluidos, concretamente sea el
intervalo [H1 − 1,5(H2 − H1), H2 + 1,5(H2 − H1) ] , k el número de datos fuera del intervalo y L = min{max{1, 2 ⋅ k}, ( 0,6 ⋅ n − k )} . Entonces se eliminan L valores extremos a
cada lado del intervalo considerado, y se estima el parámetro como la media aritmética del resto de los valores.
6.- El estimador Shorth, considera la información contenida en, aproximadan
mente, la mitad de los datos “centrales”. Sea ML = , si n es par; o bien
2
n+1
ML =
, si n es impar, el número de observaciones que consideraremos es
2
ML+1. Elegimos k como el valor que verifica
(X(k+ML) − X(k) ) = min { X(i+ML) − X(i) \ i = 1,...,ML , si n es par, ML− 1 si n es impar }
La estimación es Sh =
1
( X ( k ) + ... +X (k +ML ) ) .
ML + 1
3.1.3. M-estimadores
Otra clase de estimadores de localización robustos son los M-estimadores, que
se obtienen como resultado de minimizar funciones objetivo más generales que la
suma de cuadrados de los residuos, denotadas por ρ(x; t) y cuyos resultados pueden ser estimadores de máxima verosimilitud. La naturaleza de la función elegida
determina las propiedades del estimador. La función ρ(x; t) se suele elegir continua
∂ ρ( x; t)
y derivable a trozos, con derivada Ψ( x; t ) =
, que suele utilizarse más, ya
∂t
que los posibles valores de la estimación son las raíces de la ecuación
∑ Ψ( X i ; t) = 0 , salvo constante múltiplicativa. Para que un estimador sea de localii
zación y escala equivariantes, debe cumplir que al multiplicar la muestra por una
constante no nula y sumar al resultado otra constante, el estimador de localzación
sufre cambios simultáneos, es decir T(bX1 + a,...,bXn + a) = b T(X1,...,X n ) + a , se necesita
incorporar alguna medida de la escala de la muestra, que denotaremos por Sn y
x −t
una constante de afinado c, por lo que se transforman los datos a ui = i
.
c Sn
ESTIMACIÓN ROBUSTA: UNA APLICACIÓN INFORMÁTICA CON FINES DIDÁCTICOS
115
En la aplicación hemos incluido los M-estimadores de Hampel , donde la función
x−T
Ψ ( x; t ) = Ψ (u) = f 
 , siendo MAD la mediana de las desviaciones respecto de
 MAD 
la mediana en valor absoluto, es un polígono definido por tres parámetros, A, B y C
(Figura 3).
Figura 3
Los valores seleccionados en la aplicación para (A, B, C) son (1`2, 3`5, 8), (1`7,
3`4, 8`5), (2`1, 4, 8`2) y (2`5, 4`5, 9`5), ya que restringen la influencia de datos
anómalos, estos datos se eliminan suavemente, y el resto son redondeados, agrupados y, los centrales se consideran íntegramente. Las raíces se hallan mediante el
Ψ (ui )
, donde la estimación inicial es
algoritmo de Newton-Raphson T k+1 = T k + ∑
Ψ
∑ `( ui )
la mediana.
3.1.4. w-estimadores
Los w-estimadores son estimaciones que se obtiene iterativamente comenzando
con la mediana como estimación inicial, en un sentido semejante a los estimadores
w(ui ) ⋅ X i
de Hampel explicados previamente, y siendo la estimación T * = ∑
, con w
∑ w(ui )
una función simétrica de pesos que usualmente vale 1 en cero y va decreciendo
progresivamente al alejarnos de cero. En la aplicación se hallan dos tipos de esta
clase de estimadores:
1.- Los w-estimadores de Huber basados en los cuantiles, seleccionan como
estimación inicial la mediana y luego se refina la estimación asignando nuevos
valores a observaciones extremas. En concreto, las observaciones que están más
T − T1
alejadas de la mediana más de k-veces un estimador de la escala k = k 1 3
,
1`3507
donde T1 y T3 son los terciles, se sustituyen por k, si el dato es mayor que la mediana, o por –k , si el dato es inferior a la mediana, mientras que las demás se
sustituyen por su diferencia con la mediana y se les asigna un peso que depende
116
ESTADÍSTICA ESPAÑOLA
del número de datos en el intervalo [Mediana − k, Mediana + k ] . Los posibles valores de k1 programados son 1`2, 1`5 y 2.
2.- El estimador JBT (trimedia adaptada), introducido por Johns (1974) elige
una trimedia podada de orden 0`25, o 0`33. Se elige la que minimice la varianza
winsorizada.
3.2.
Estimadores de escala
La aplicación proporciona cinco estimadores de escala, que para los datos considerados puede exponerse como muestra la Figura 4,
Figura 4
y que listados en orden creciente de robustez y eficiencia son:
1n
∑ | Xi − X | . Es una
n i =1
especie de híbrido entre la desviación típica y el estimador MAD, pero le hemos
incluido para confrontarle con el resto.
1.- La media de las desviaciones respecto de la media,
2.- La desviación típica , S =
1 n
∑ ( Xi − X)2 , como estimador habitual.
n − 1 i=1
3.- La mediana de las desviaciones absolutas respecto de la mediana, el
estimador MAD ya comentado, si Me = Mediana( X1,..., X n ) , entonces
MAD = Mediana(| X 1 − Me |,..., | Xn − Me |) . Es un estimador que por su naturaleza
parece ofrecer una razonable protección contra la influencia de observaciones
anómalas.
ESTIMACIÓN ROBUSTA: UNA APLICACIÓN INFORMÁTICA CON FINES DIDÁCTICOS
4.- El semirrango interbisagras, SRH =
117
1
(H 2 − H1 ) , que usualmente es pare2
cido al semirrango intercuatílico.
5.- El estimador de escala de Tukey, Sbi (ver Hoaglin, Mosteller y Tukey
(1983)), que está basado en un M-estimador de localización, no incluido en la
aplicación. Tiene mayor eficiencia que las medidas de escala convencionales en un
amplio tipo de distribuciones (ver Hampel (1974)).
n
Si ui =
X i − MAD
, entonces Sbi =
c ⋅ MAD
n ∑ ( Xi − MAD) 2 (1 − ui2 ) 2
i =1
n
.
∑ (1 − ui2 )(1− 5ui2 )
i =1
3.3.
Contrastes para la hipótesis nula de normalidad
Al elegir la opción de Test de Normalidad el sistema presenta tres coeficientes
de forma y dos contrastes, aunque como ya se ha comentado en el caso de disponer de pocas observaciones son poco valiosos. La inclusión de dichos contrastes
es para el análisis de la fiabilidad de los contrastes de normalidad basados en
estimadores paramétricos de localización y escala. Para su realización se hallan
diferentes coeficientes y se comparan con valores críticos calculados a partir de los
datos muestrales. Para los datos del ejemplo los coeficientes y contrastes son los
que aparecen en la Figura 5.
Figura 5
118
ESTADÍSTICA ESPAÑOLA
1.- Coeficiente de asimetría de Pearson, As2 = 3
X − Me
, que para una distriS
bución normal es cero.
n
2.- Coeficiente de curtosis, b 2 =
n ∑ ( X i − X) 4
i =1
n
2
 ∑ ( Xi − X ) 
 i =1

2
, que para una distribución
normal es 3.
n
∑ | Xi − X |
i =1
3.- Coeficiente de Geary, G =
n
, que para una distribución normal
n ∑ ( Xi − X) 2
i =1
2
= 0´7979 .
π
es
4.- Contraste basado en coeficiente de asimetría calculado a partir del
momento central de orden tres, b1 . El valor crítico para 1-α=99% es
2`3263⋅tmp, para 1-α=95% es 1`6449⋅tmp, y para 1-α=90% es 1`2816⋅tmp, con
6(n − 2)
tmp =
.
(n + 1)(n + 3)
5.- Contraste basado en el estimador de escala de doble peso. El estadístico
n
que se utiliza es I =
∑ ( X i − MAD)2
i =1
(n − 1) ⋅ S 2bi
, y si m = log10 (n − 1) los valores críticos son:
I90 = 0`982 + 10( 0`6376−1`535m+ 0`1266m ) , para 1-α=90%.
2
I95 = 0`982 + 10(1`9065− 2`5465m + 0`5652m ) , si n<50 y para 1-α=95%.
2
I95 = 0`982 + 10( 0`7824−1`1021m + 0`1021m ) , si n ≥ 50 y para 1-α=95%.
2
3.4.
Contrastes para detectar observaciones anómalas
El tratamiento de outliers es un amplio sector especializado de la Estadística
(Hampel y otros (1986); Barnett y Lewis (1994)). Distinguiendo la diferencia que
existe entre que una observación atípica sea una manifestación extrema de la
inherente variabilidad aleatoria de los datos (en cuyo caso, dicho valor debe mantenerse y procesarse de la misma manera que el resto de observaciones de la
muestra) y los outliers estadísticos (observaciones que bajo ciertas metodologías
ESTIMACIÓN ROBUSTA: UNA APLICACIÓN INFORMÁTICA CON FINES DIDÁCTICOS
119
se suponen incorrectos), en este caso, sería deseable realizar un estudio para
determinar las razones de la aparición de dichos valores atípicos, y sin son completamente erróneos eliminarlos. La aplicación permite la identificación estadística
de las observaciones anómalas mediante cinco contrastes, suponiendo que la
distribución subyacente es próxima a una normal. A partir de aquí es el juicio del
experimentador el que decide eliminar, ponderar o asumir como real, la observación
considerada.
En los contrastes de outliers consideramos la hipótesis nula de que la observación atípica a examen es outlier, después la observación bajo prueba se incluye en
el cálculo de un estadístico y luego, se compara con un valor crítico. Los niveles de
significación serán distintos para cada tipo de contraste y además variarán para
cada test según las tablas utilizadas e incluidas en el núcleo de la aplicación.
Aunque existen muchos contrastes para determinar si una observación proviene
de una distribución normal (ver Barnett y Lewis (1994) donde se presentan, se
discuten y se referencian 49), a modo de introducción hemos incluido cinco, unas
pantallas de este tipo de contrastes, considerando los datos de “Ejemplo.dat”, son
las que aparecen en la Figura 6.
Figura 6
Hemos incluido los siguientes contrastes:
1.- Test de Grubbs. Sirve para determinar si la observación mayor, o la menor,
X −X
X − X (1)
y T1 =
, respecties atípica. Los estadísticos utilizados son Tn = ( n)
S
S
vamente. Sirve para muestras de tamaño 149, a lo más, y los valores críticos están
determinados para el nivel 0,95 (Grubbs y Beck (1972)).
120
ESTADÍSTICA ESPAÑOLA
2.- Test de Harvey (Harvey (1975)), es una variación del test anterior, donde las
observaciones más alejadas del centro de los datos se compara con la media de
los resultados menos el dato bajo estudio, su mayor inconveniente es que está
programado únicamente para muestras de tamaño entre tres y ocho, por ser el
límite de disponibilidad de las tablas de valores críticos (0`99, 0`95 y 0`90). Para
1 n−1
X(n) −
∑X(i)
n−1 i=1
analizar la observación más alta se utiliza el estadístico Tn =
, para
Var(X(1) ,...,X(n−1) )
1 n
∑X(i) − X(1)
n −1i=2
la más baja es T1 =
.
Var(X(2) ,...,X(n) )
3.- Test de Dixon, r10 , Dixon (1951) , estudia las diferencias entre los valores
de los extremos comparándolos un estimador de escala diferente de la desviación
típica, usa el rango. Este test es únicamente válido para muestras de tamaños entre
5 y 26, y los valores críticos considerados son para niveles de confianza 0`99, 0`95
X − X( n−1)
X − X( 1)
y Dix1 = ( 2)
, para
y 0`90. Los estadísticos utilizados son Dixn = (n)
X( n) − X (1)
X (n) − X(1)
X(n) y X(1) respectivamente.
4.- Test de asimetría basado en el momento central de orden tres,
n
b1 =
n ∑ ( Xi − X)3
i =1
3

2
 ∑ ( Xi − X) 
 i =1

n
. Este coeficiente puede utilizarse para la detección de datos
2
anómalos. Los valores críticos del estimador están tabulados (ver Pearson y Hartley
(1966), tabla 34B), y estudia la naturaleza de las dos primeras y las dos últimas
observaciones de la muestra, si una de las dos observaciones extremas es outlier,
pasa al estudio del dato adyacente. Tiene características semejantes al contraste
de Grubbs. En la aplicación se ha considerado el nivel de confianza 0`95.
5.- Test basado en el coeficiente de curtosis, b2. Al igual que el contraste
precedente los valores críticos del estimador están tabulados (ver Pearson y Hartley (1966), tabla 34B), y estudia la naturaleza de las dos primeras y las dos últimas
observaciones de la muestra. En la aplicación se ha considerado el nivel de confianza 0`95.
ESTIMACIÓN ROBUSTA: UNA APLICACIÓN INFORMÁTICA CON FINES DIDÁCTICOS
3.5.
121
Nuevas inclusiones
Como ya hemos comentado anteriormente hemos querido incluir un menú con
la opción de Intervalos de confianza, para obtener intervalos de confianza para la
media y la mediana basados en la t de Student y en el Test de Signos.
También hemos querido incluir los terciles, T1 y T3, el estimador del grupo dominante, que es un L-estimador que se calcula mediante un procedimiento iterativo y
se discute en Ellis, Copelowitz y Steel (1977) y los w-estimadores de Huber basados en el estimador MAD.
Estas opciones están inicializadas en el último Proyecto Fin de Carrera, pero no
fueron desarrolladas por los plazos en que se debía presentar dicho Proyecto.
4. CONCLUSIONES
Una parcela, dentro del examen inicial de los datos, es la estimación robusta, y
en particular los estimadores robustos de localización, que aún no está contemplada suficientemente en el software utilizado para la enseñanza de la Estadística. La
aplicación informática presentada ha sido desarrollada, por Hidalgo (1998) y Muñoz
(1998) en sendos Proyectos Fin de Carrera, en entorno Windows. No tiene la
pretensión de ser exhaustiva, pero si mostrar elementos de la estimación robusta y
no paramétrica, así como incorporar características que se incluyen en el software
que se utiliza en cursos iniciales de Estadística.
Este software está disponible, para fines académicos únicamente, solicitándolo
a través de la dirección [email protected].
REFERENCIAS
ANDREWS , D.F., BICKEL, P.J., HAMPEL, F.R., HUBER, P.J., ROGERS , W.H., Y TUKEY ,
J.W. (1972): «Robust Estimates of location. Survey and Advances». Princenton
University Press.
BARNET, V., Y LEWIS , T. (1994): «Outliers in Statistical Data», 3ª ed. John Wiley &
Sons.
CHATFIELD, C. (1985): «The Initial Examination of Data». J.R. Statist. Soc. A 148,
214-253.
DIXON, W.J. (1951): «Ratios involving extreme values». Ann. Math. Statist., 22, 6878.
122
ESTADÍSTICA ESPAÑOLA
ELLIS , P.J., COPELOWITZ, I., Y STEEL, T.W. (1977): «Estimation of the mean by the
dominant cluster method». Geostandars Newsletter (International Working
Group, Association Nationale de la Récherche Téchnique, París), 3, 123-130.
GARSTWIRTH , J.L. (1966): «On robust procedures». J. Amer. Statist. Assn., 61, 929948.
GRUBBS , F.E., Y BECK , G. (1972): « Extension of Sample Size and Percentage
Points for Significance Test of Outlying Observations». Technometrics, 14, 847854.
HAMPEL, F.R. (1974): «The influence curve and its role in robust estimation». J.
Amer. Statist., 42, 1887-1896.
HAMPEL, F.R., ROUSSEEUW , P.J., RONCHETTI, E.M., Y STAHEL, W.A. (1986): «Robust
statistics: the approach based on influence functions». John Wiley & Sons.
HIDALGO, S. (1998): «Estadísticos robustos». Proyecto Fin de Carrera, Universidad
Politécnica de Madrid.
HARVEY, P.K. (1975): «The detection and correlation of outlying determinations that
may occur during geochemical analysis». Geochim. Cosmochim. Acta, vol 38,
5, 435-451.
HOAGLIN, D.C., MOSTELLER, F., Y TUKEY, J.W. (1983): «Understanding Robust and
Exploratory Data Analysis». John Wiley & Sons.
JOHNS , M.V. (1974): «Nonparametric estimation of location». Jour. Am. Stat. 69,
346, 453-460.
MUÑOZ, Mª. C. (1998): «Tratamiento robusto de datos». Proyecto Fin de Carrera,
Universidad Politécnica de Madrid.
PEARSON, E.S., Y HARTLEY, H.O. (EDS) (1976): «Biometrika Tables for Statisticians»,
Vol. 1 y Vol. 2. 3ª ed. Biometrika Trust.
ROCK , N.M.S. (1987): «ROBUST: An interactive FORTRAN-77 package for Exploratory Data Analysis using parametric, robust and nonparametric location and
scale estimates, data transformation, normality test, and outlier assessment».
Computers & Geosciences, Vol 13, nº 5, 463-494.
VELLEMAN, P.F., y Hoaglin, D.C. (1981): «Applications, Basic, and Computing of
Exploratory Data Analysis». Duxbury Press.
ESTIMACIÓN ROBUSTA: UNA APLICACIÓN INFORMÁTICA CON FINES DIDÁCTICOS
ROBUST ESTIMATION: A COMPUTER PACKAGE WITH DIDACTIC
PURPOSE
SUMMARY
After justifying the use of robust, and not parametric estimators, like an important part in the learning of the Statistic, and in particular to
carry out an initial examination of data, and because the lack of computer applications not guided to the teaching of the Statistic that will
allow the calculation of robust and nonparametric estimates and the
detection of outliers, we present a computer package with some of
these elements. In the application, developed exclusively with academic ends, are included several localization and scale estimates, parametric , not parametric and robust. The application also contains confidence intervals, normality tests, discordancy tests for normal samples, a table of frequencies and appropriate graphics.
Key words: Robust estimation, estimation of location, estimation of
scale, confidence intervals, normality test, discordancy tests for
outliers, exploratory data analysis, software.
AMS Classification: 62-04; 62-07; 62G35.
123
Descargar