ESTADÍSTICA ESPAÑOLA Vol. 43, Núm. 147, 2001, págs. 105 a 123 Estimación robusta: una aplicación informática con fines didácticos por ALFREDO MÉNDEZ ALONSO Departamento de Matemática Aplicada a la I.T. de Telecomunicación Universidad Politécnica de Madrid RESUMEN Después de justificar la utilización de estimadores robustos, y no paramétricos, como una parte importante en el aprendizaje de la Estadística, y en particular para realizar un examen inicial de un conjunto de datos, y ante la falta de aplicaciones informáticas orientadas a la enseñanza de la Estadística que permitan el cálculo de estimaciones robustas, no paramétricas y la detección de observaciones anómalas, presentamos una herramienta informática con algunos de estos elementos. En la aplicación, desarrollada exclusivamente con fines académicos, se incluyen varios estimadores de localización y de escala paramétricos, no paramétricos y robustos. La aplicación también contiene intervalos de confianza, contrastes de normalidad y contrastes para la determinación de observaciones anómalas, una tabla de frecuencias y gráficos adecuados. Palabras clave: Estadísticos robustos, estimadores de localización, estimadores de escala, intervalos de confianza, test normalidad, test de outliers, análisis exploratorio de datos, software. Clasificación AMS: 62-04; 62-07; 62G35 106 ESTADÍSTICA ESPAÑOLA 1. INTRODUCCIÓN Antes de examinar cualquier conjunto de datos es fundamental formular el problema de una manera preliminar y clarificar los objetivos de la investigación. También se deben averiguar las características esenciales del problema de fondo, así como disponer de una bibliografía adecuada, que nos permitirá formular el problema con mayor precisión, incluso cambiar completamente nuestra idea inicial. En el caso ideal, que no es el más habitual, si se pudiera estar desde el comienzo de la investigación se podría dirigir el diseño de la recogida de datos (ver Chatfield, 1985). El análisis suele comenzar por asegurar la estructura de los datos, en donde se establece el número de observaciones, el número y tipo de variables que intervienen, y la calidad de los datos, averiguando la forma en que han sido recogidos y estudiando la presencia de errores, datos anómalos y observaciones desaparecidas. Con los procedimientos habituales de la Estadística Descriptiva y la amplia variedad de gráficos que se incluyen en la mayoría del software que utiliza conceptos estadísticos, se pueden detectar tanto algunas observaciones sospechosas, como agrupaciones del resto de los datos. Las herramientas informáticas también incluyen la posibilidad de realizar transformaciones de los datos, posibilidad que debe ser considerada a lo largo de todo el análisis puesto que una transformación puede ayudar a descubrir una estructura en una serie de datos. Los métodos robustos de estimación son útiles para obtener medidas de localización, dispersión, forma, y para detectar observaciones sospechosas. Sin embargo, sólo alguno de los mencionados programas informáticos incluyen unos pocos estimadores robustos, si bien estos procedimientos se van introduciendo poco a poco, quizás porque se amplia el conocimiento de sus propiedades. Los resúmenes estadísticos, que se deben calcular rutinariamente, tienen interés en si mismos, para tomar un primer contacto con los datos, y sirven como preludio de análisis más profundo. Un examen inicial de los datos también debe considerar la utilización de estimadores robustos, ya que son poco sensibles a la forma de los datos y eliminan relativamente la influencia de las observaciones extremas. Todos estos estimadores rechazan los datos extremos objetivamente, aunque son más importantes los consejos de las personas entendidas en la materia objeto de estudio, sin despreciar el instinto del analista para descubrir observaciones sospechosas. Los métodos robustos son especialmente útiles cuando la distribución subyacente es desconocida, sabiéndose que no es normal y que no es posible una transformación que los convierta en normales. En el caso de disponer de pocas observaciones los contrastes sobre normalidad son de dudosa validez y los métodos robustos se convierten en unos utensilios esenciales (ver Rock, 1987). ESTIMACIÓN ROBUSTA: UNA APLICACIÓN INFORMÁTICA CON FINES DIDÁCTICOS 107 Los cursos introductorios de Estadística que hemos impartido tenían una ve rtiente práctica, en un Aula informática cuando ha sido posible, y otra vertiente que incluye alguna teoría y ciertas herramientas que necesitan ser aprendidas, puesto que la Estadística no es una colección de recetas también tratamos de que los estudiantes aprecien la estructura de los datos y de inculcar el razonamiento inductivo. Aspectos más avanzados, como la formulación de modelos en regresión, deben enseñarse durante, o después del aprendizaje de la Inferencia, y observar la forma de los datos con diagramas de dispersión, que son sencillos de aprender, analizando su variabilidad y sus agrupamientos, debe servir para conocer la sensibilidad de las estimaciones, y emplearse de base para la formulación precisa del modelo. La falta de base matemática y la utilización de estrategias basadas en una gran cantidad de formulas que, además se deben aprender en un corto espacio de tiempo, hace que los estudiantes de materias no relacionadas con la Estadística, se sientan incómodos a la hora de enfrentarse con un conjunto de datos reales, no obstante se sienten seguros ante las conclusiones que obtienen con sus “tablas”, incluso cuando las conclusiones son de dudosa validez. Los estudiantes parecen disfrutar particularmente por tener acceso a programas informáticos sencillos, quizás por el atractivo que sienten los alumnos por la falta de teoría, porque eliminan una gran cantidad de trabajo pesado y, porque incluyen presentaciones gráficas, tablas y resúmenes. Sin embargo, debe evitarse el uso indiscriminado de software en la enseñanza, es preferible, y más difícil, inculcar en los alumnos que comprendan las características fundamentales de un conjunto de datos basándose en el sentido común, a que utilicen las técnicas estadísticas sin más. En los cursos de Estadística dirigidos a estudiantes no estadísticos, las prácticas comenzaban con algunas nociones de Estadística Descriptiva que son útiles para que el alumno tome contacto con datos reales, son fáciles de asimilar y proporcionan una base para el estudio de la Inferencia. Las primeras prácticas son muy dirigidas, y también se pretende inculcar al alumno lo arriesgado que puede ser utilizar estas herramientas a ciegas. En estas prácticas hemos echado en falta algunos métodos robustos y no paramétricos, ya que los únicos programas de los que teníamos referencias y que contenían una amplia gama de estadísticos estaban programados en FORTRAN, y esto quitaba parte de la sencillez, y mucho del atractivo que pretendíamos. Además, la explicación teórica requería una cantidad de tiempo que no suele recogerse en los programas de las asignaturas. Para subsanar estos contratiempos hemos diseñado una aplicación informática, basada en dos Proyectos Fin de Carrera de la E.U.I.T. Telecomunicación de la U.P.M., “Estadísticos Robustos” (Hidalgo, 1998) y “Tratamiento Robusto de Datos” (Muñoz, 1998), cuyo Tutor es A. Méndez, en las que se recogían aspectos que no suelen aparecer en los programas informáticos habituales. Aunque basados en las rutinas de Andrews y otros (1972) y Rock (1987), las dos aplicaciones están programadas 108 ESTADÍSTICA ESPAÑOLA en Visual Basic, y al ser aplicaciones Windows resultan más fáciles de manejar y más atractivas para los alumnos que los mencionados programas en FORTRAN, pero distan mucho de los sofisticados programas de software que están disponibles en el mercado. 2. GUÍA DEL PROGRAMA Nos referiremos a la última versión de la aplicación ya que, como hemos indicado, incorpora todos los elementos de la primera. En dichas aplicaciones se incluyen estimadores de localización robustos y no robustos, estimadores no paramétricos de escala, criterios para la determinación de observaciones anómalas y su posible tratamiento, algunas transformaciones de los datos, tablas de frecuencias, intervalos de confianza y contrastes de normalidad. Se incluyen algunas capacidades gráficas, pero estas son las características menos conseguidas. Puesto que es una aplicación para el entorno Windows, se puede ejecutar con Windows 95 y 98, su presentación contiene una barra de menús desplegables, barra de herramientas, botones para las operaciones más habituales y un sistema de ayuda. También permite el intercambio de datos, enlazar información y el trabajo con múltiples documentos, de otras aplicaciones Windows. Las estimaciones obtenidas se pueden guardar en ficheros con la extensión “.est”, mientras que los contrastes para la determinación de outliers se guardan en ficheros con extensión “.out”. 2.1. Presentación de la pantalla principal Después de haber instalado el programa, se inicia la aplicación con una pantalla con una ventana de selección en la que determinaremos si deseamos comenzar con un fichero de observaciones nuevo o con uno ya existente, seleccionando el tipo aparece aparecerá la pantalla principal (Figura 1) dividida en cuatro partes. En la primera fila aparece el nombre del programa y el nombre del fichero de datos con el que estamos trabajando, la segunda fila es la barra de menús, a continuación la barra de herramientas, en la cuarta fila están las funciones de apoyo, y en la parte central los datos iniciales y los datos transformados, si es que se ha seleccionado alguna transformación. La barra de funciones de apoyo contiene funciones para mejorar la presentación del programa pudiendo variar el tipo de letra, el tamaño de las mismas, el color predefinido de la pantalla principal y el número de cifras decimales, que puede estar entre 3 y 7, con lo que se puede redondear las cifras adecuadamente. ESTIMACIÓN ROBUSTA: UNA APLICACIÓN INFORMÁTICA CON FINES DIDÁCTICOS 109 En la barra de herramientas se encuentran “botones” con las operaciones más habituales que se realizan con los archivos (Nuevo, Abrir, Guardar, Cerrar e Imprimir), de edición (Cortar, Copiar, Pegar y Eliminar), dos botones para la ordenación de las observaciones (ascendente y descendente), las estimaciones, gráficos, transformaciones y el último que corresponde a la ayuda. Figura 1 2.2. Descripción de los menús Describiremos brevemente el contenido de los menús que se incluyen en la aplicación y, en la siguiente sección centraremos nuestra atención en los aspectos teóricos relativos a estimadores robustos y datos anómalos. El menú Archivo es análogo al de cualquier aplicación Windows permitiéndonos abrir, guardar, cerrar e imprimir tanto los archivos de datos (con extensión .txt , .doc, ó .dat), como los archivos de estimaciones (con extensión .est) y de outliers (con extensión .out). El menú Edición, también es semejante al de otras aplicaciones Windows, contiene las tareas de edición típicas: cortar, copiar, pegar y eliminar. En el menú Transformaciones aparecen algunas operaciones que se pueden realizar sobre la totalidad de los datos. Las opciones de este menú son las operaciones: 110 ESTADÍSTICA ESPAÑOLA − Desplazamiento − Inversa y i = y i = A + x i , con A ∈R 1 , si x i ≠ 0 ∀ i = 1,..., n xi − Potencial yi = ( x i ) p , con p ∈ (0, ∞) x − Exponencial y i = e i = exp(x i ) , ∀ i = 1,..., n − Logarítmicas y i = ln( x i ) , si x i > 0 ∀ i = 1,..., n y i = log10( x i ) , si x i > 0 ∀ i = 1,..., n y i = ln( A + x i ) , si A + x i > 0 ∀ i = 1,..., n − Estandarizada y i = xi − x , siendo x la media muestral y s la desviación típica s muestral. − Escalar yi = λ ⋅ x i , con λ ∈R Una vez realizada la transformación en los datos la aplicación trabaja con los datos transformados. Sólo se perderán las observaciones originales si las transformadas se guardan en un fichero con el mismo nombre. En el menú Estimaciones se presentan cinco opciones que describiremos a continuación. − Estimadores no robustos. Eligiendo esta opción el sistema proporciona parte de los elementos que aparecen en cualquier resumen estadístico, como son el número de observaciones, mínimo, máximo, suma de los datos, media aritmética, geométrica y armónica, rango y semirango. − Estimadores robustos de localización. Con esta opción se obtienen algunos estadísticos del orden (cuartiles y bisagras), L-estimadores (mediana, mediana de Garswirth, trimedia, trimedias podadas, shorth y salto múltiple), w-estimadores (Huber y JBT) y M-estimadores de Hampel. − Estimadores de escala. El sistema proporciona la desviación típica, el estimador de doble peso, el semirrango interbisagras y la media de las desviaciones de la media y de la mediana, respectivamente. − Tests de normalidad. Esta opción incluye los coeficientes de curtosis, asimetría de Pearson y Geary, y los contrastes de normalidad basados en el estimador de doble peso. − Existe una quinta opción, Intervalos de confianza, que está inicializada pero no desarrollada. ESTIMACIÓN ROBUSTA: UNA APLICACIÓN INFORMÁTICA CON FINES DIDÁCTICOS 111 Con el menú Outliers se pueden determinar observaciones que son estadísticamente anómalas por su alejamiento del “centro” de los datos (Test de Grubbs, Dixon, Harvey, Asimetría y Normalidad), así como la posibilidad de tomar decisiones sobre dichas observaciones mediante depuración, que consiste en eliminar todos los outliers, winsorización, que “contrae” los datos extremos a la observación “central” inmediatamente anterior, y con tratamiento manual, que permite depurar, winsorizar, o ignorar las observaciones sospechosas determinadas. En el menú Gráficos se han incluido tan sólo el gráfico Box-plot y el ajuste a una distribución normal por cuantiles, donde la media estimada en la distribución normal puede ser la media, o la mediana, muestral. Eligiendo el menú Frecuencias aparece una ventana de diálogo que permite al usuario elegir tanto el número de intervalos, como la amplitud de los mismos, además el sistema proporciona la posibilidad de gráficos de puntos, líneas, áreas, barras y sectores, de las diferentes frecuencias. El último menú es el de Ayuda, con el que se pueden realizar consultas sobre el manejo del programa y sobre cuestiones teóricas, que incluye la definición de los estadísticos y contrastes incluidos en la aplicación. Para ilustrar su manejo y resultados consideramos los datos que aparecen en Hoaglin, Mosteller y Tukey (1983), en la variable “Rural”, y cuyos valores son: 800; 974; 500; 725; 812; 794; 765; 900; 826; 700; 850; 945; 850. Estos datos se guardan en el archivo “Ejemplo.dat”. 3. DESCRIPCIÓN DE LOS ESTADÍSTICOS INCLUIDOS En esta sección presentaremos brevemente las respuestas que proporciona el sistema en algunas opciones de los menús, concretamente consideraremos la opción de estimadores robustos de localización, estimadores de escala, contrastes de normalidad y la determinación de outliers, dado que son los que echábamos en falta en otras aplicaciones. 3.1. Estimadores de localización Los estimadores de localización proporcionan un estimador del centro de los datos. La simetría de la distribución, o al menos la simetría en el centro de dichas observaciones, se enfatiza para simplificar, clarificar y porque el centro de simetría es el que mejor describe el centro de gravedad. Un parámetro, θ, es de localización para la v.a. X si f ( x; θ, λ) , que es la función de probabilidad o densidad, se puede escribir como función de x − θ , por lo que la v.a. X − θ no depende de θ. Los 112 ESTADÍSTICA ESPAÑOLA estimadores robustos son aquellos que sufren pequeños cambios en la estimación cuando existen cambios en la distribución de las observaciones. De los estadísticos de localización disponibles hemos elegido algunos de los que han sido recomendados para su utilización, después de haber sido analizados, en Andrews y otros (1972), Hoaglin, Mosteller y Tukey (1983) y Hampel y otros (1986), además estos autores realizan discusiones y recomendaciones de su uso. Los resultados para los datos de “Ejemplo.dat” se pueden presentar como muestra la Figura 2. Figura 2 3.1.1. Estadísticos del orden Como ya hemos comentado en esta opción se calculan algunos estadísticos del orden, si X1,..., Xn es la muestra de tamaño n , las observaciones ordenadas X (1) ≤ X ( 2) ≤ ... ≤ X( n) son los llamados estadísticos del orden. Se incluyen los cuartiles, que denotamos por C 1 y C3, y las bisagras, que denotamos por H1 y H2, definidas por Tukey, semejantes a los cuartiles y definidas por: si [λ] representa la parte n + 1 2 +1 entera de λ y k = , entonces 2 H1 = X( k) y H2 = X (n+1−k ) , si k ∈ N o bien H1 = 1 1 ( X ( [k ]) + X ( [k ]+ 1) ) y H 2 = ( X ( [n+1−k ]) + X ( [n+1−k ]+ 1) ) si k∉ N 2 2 ESTIMACIÓN ROBUSTA: UNA APLICACIÓN INFORMÁTICA CON FINES DIDÁCTICOS 113 3.1.2. L-estimadores Los L-estimadores son combinaciones lineales de estadísticos del orden, es decir T( x1,..., x n) = n ∑ ai ⋅ x i incluyéndose en esta clase la media muestral. Puesto que i =1 se supone la simetría de la v.a. también se supone que los pesos son simétricos. Los L-estimadores que figuran en la aplicación son: 1.- Las trimedias podadas de orden α , denotadas por T(α), que son estimadores que recortan el α% de las observaciones inferiores y el α% de las observaciones superiores, supuesto que los datos estén ordenados. Se definen como n T(α) = ∑ ai ⋅ X(i ) siendo los pesos i =1 ai = 0 si i ≤ g ó i ≥ n −g +1 ai = 1− r si i = g + 1 ó i = n − g , n(1 − 2α) ai = 1 si g + 2 ≤ i ≤ n − g − 1 n(1 − 2α) con g = [α⋅n] y r = g − α ⋅ n En el programa se consideran los valores 0´1, 0´2 y 0´25 basándonos en las indicaciones de Hoaglin, Mosteller y Tukey (1983), aunque otros L-estimadores que figuran en la aplicación también se pueden considerar como trimedias podadas, en particular la winsorización, que consiste en substituir el valor de la mayor observación, X(n), respectivamente la menor, X(1), por el valor de la observación inmediatamente anterior, X (n-1), respectivamente posterior, X (2). 2.- La mediana, que es el estadístico ordenado central si n es impar y la media de los estadísticos ordenados centrales si n es par, se puede considerar como una n −1 trimedia podada donde el orden depende del número de observaciones, α = . 2n Este estimador es resistente frente a la aparición de outliers, pero pierde sensibilidad respecto de muchos valores centrales. 1 1 1 Mediana + H1 + H 2 , donde 2 4 4 H1 y H2 son las bisagras, se considera por incluir información muestral más allá del centro de los datos y todavía es resistente a la influencia de los datos alejados del centro. 3.- La Trimedia, cuya definición es Trimedia = 4.- La Mediana de Garswirth, propuesta por Garswirth (1966), viene definida 4 3 3 Mediana + T1 + T3 , donde T1 y T3 son los por Mediana de Garswirth = 10 10 10 terciles. Se propone por considerar más información muestral que la mediana y ser 114 ESTADÍSTICA ESPAÑOLA más resistente que la Trimedia a la influencia de outliers, por lo que es una alternativa a la Trimedia. 5.- El estimador de Salto Múltiple, propuesto por Andrews y otros (1972), puede ser considerado como una trimedia podada, donde la proporción de datos eliminados depende de los datos. En primer lugar se consideran, aproximadamente, los datos contenidos en las “patillas” de los gráficos Box-plot y posteriormente se eliminan una proporción del número de datos excluidos, concretamente sea el intervalo [H1 − 1,5(H2 − H1), H2 + 1,5(H2 − H1) ] , k el número de datos fuera del intervalo y L = min{max{1, 2 ⋅ k}, ( 0,6 ⋅ n − k )} . Entonces se eliminan L valores extremos a cada lado del intervalo considerado, y se estima el parámetro como la media aritmética del resto de los valores. 6.- El estimador Shorth, considera la información contenida en, aproximadan mente, la mitad de los datos “centrales”. Sea ML = , si n es par; o bien 2 n+1 ML = , si n es impar, el número de observaciones que consideraremos es 2 ML+1. Elegimos k como el valor que verifica (X(k+ML) − X(k) ) = min { X(i+ML) − X(i) \ i = 1,...,ML , si n es par, ML− 1 si n es impar } La estimación es Sh = 1 ( X ( k ) + ... +X (k +ML ) ) . ML + 1 3.1.3. M-estimadores Otra clase de estimadores de localización robustos son los M-estimadores, que se obtienen como resultado de minimizar funciones objetivo más generales que la suma de cuadrados de los residuos, denotadas por ρ(x; t) y cuyos resultados pueden ser estimadores de máxima verosimilitud. La naturaleza de la función elegida determina las propiedades del estimador. La función ρ(x; t) se suele elegir continua ∂ ρ( x; t) y derivable a trozos, con derivada Ψ( x; t ) = , que suele utilizarse más, ya ∂t que los posibles valores de la estimación son las raíces de la ecuación ∑ Ψ( X i ; t) = 0 , salvo constante múltiplicativa. Para que un estimador sea de localii zación y escala equivariantes, debe cumplir que al multiplicar la muestra por una constante no nula y sumar al resultado otra constante, el estimador de localzación sufre cambios simultáneos, es decir T(bX1 + a,...,bXn + a) = b T(X1,...,X n ) + a , se necesita incorporar alguna medida de la escala de la muestra, que denotaremos por Sn y x −t una constante de afinado c, por lo que se transforman los datos a ui = i . c Sn ESTIMACIÓN ROBUSTA: UNA APLICACIÓN INFORMÁTICA CON FINES DIDÁCTICOS 115 En la aplicación hemos incluido los M-estimadores de Hampel , donde la función x−T Ψ ( x; t ) = Ψ (u) = f , siendo MAD la mediana de las desviaciones respecto de MAD la mediana en valor absoluto, es un polígono definido por tres parámetros, A, B y C (Figura 3). Figura 3 Los valores seleccionados en la aplicación para (A, B, C) son (1`2, 3`5, 8), (1`7, 3`4, 8`5), (2`1, 4, 8`2) y (2`5, 4`5, 9`5), ya que restringen la influencia de datos anómalos, estos datos se eliminan suavemente, y el resto son redondeados, agrupados y, los centrales se consideran íntegramente. Las raíces se hallan mediante el Ψ (ui ) , donde la estimación inicial es algoritmo de Newton-Raphson T k+1 = T k + ∑ Ψ ∑ `( ui ) la mediana. 3.1.4. w-estimadores Los w-estimadores son estimaciones que se obtiene iterativamente comenzando con la mediana como estimación inicial, en un sentido semejante a los estimadores w(ui ) ⋅ X i de Hampel explicados previamente, y siendo la estimación T * = ∑ , con w ∑ w(ui ) una función simétrica de pesos que usualmente vale 1 en cero y va decreciendo progresivamente al alejarnos de cero. En la aplicación se hallan dos tipos de esta clase de estimadores: 1.- Los w-estimadores de Huber basados en los cuantiles, seleccionan como estimación inicial la mediana y luego se refina la estimación asignando nuevos valores a observaciones extremas. En concreto, las observaciones que están más T − T1 alejadas de la mediana más de k-veces un estimador de la escala k = k 1 3 , 1`3507 donde T1 y T3 son los terciles, se sustituyen por k, si el dato es mayor que la mediana, o por –k , si el dato es inferior a la mediana, mientras que las demás se sustituyen por su diferencia con la mediana y se les asigna un peso que depende 116 ESTADÍSTICA ESPAÑOLA del número de datos en el intervalo [Mediana − k, Mediana + k ] . Los posibles valores de k1 programados son 1`2, 1`5 y 2. 2.- El estimador JBT (trimedia adaptada), introducido por Johns (1974) elige una trimedia podada de orden 0`25, o 0`33. Se elige la que minimice la varianza winsorizada. 3.2. Estimadores de escala La aplicación proporciona cinco estimadores de escala, que para los datos considerados puede exponerse como muestra la Figura 4, Figura 4 y que listados en orden creciente de robustez y eficiencia son: 1n ∑ | Xi − X | . Es una n i =1 especie de híbrido entre la desviación típica y el estimador MAD, pero le hemos incluido para confrontarle con el resto. 1.- La media de las desviaciones respecto de la media, 2.- La desviación típica , S = 1 n ∑ ( Xi − X)2 , como estimador habitual. n − 1 i=1 3.- La mediana de las desviaciones absolutas respecto de la mediana, el estimador MAD ya comentado, si Me = Mediana( X1,..., X n ) , entonces MAD = Mediana(| X 1 − Me |,..., | Xn − Me |) . Es un estimador que por su naturaleza parece ofrecer una razonable protección contra la influencia de observaciones anómalas. ESTIMACIÓN ROBUSTA: UNA APLICACIÓN INFORMÁTICA CON FINES DIDÁCTICOS 4.- El semirrango interbisagras, SRH = 117 1 (H 2 − H1 ) , que usualmente es pare2 cido al semirrango intercuatílico. 5.- El estimador de escala de Tukey, Sbi (ver Hoaglin, Mosteller y Tukey (1983)), que está basado en un M-estimador de localización, no incluido en la aplicación. Tiene mayor eficiencia que las medidas de escala convencionales en un amplio tipo de distribuciones (ver Hampel (1974)). n Si ui = X i − MAD , entonces Sbi = c ⋅ MAD n ∑ ( Xi − MAD) 2 (1 − ui2 ) 2 i =1 n . ∑ (1 − ui2 )(1− 5ui2 ) i =1 3.3. Contrastes para la hipótesis nula de normalidad Al elegir la opción de Test de Normalidad el sistema presenta tres coeficientes de forma y dos contrastes, aunque como ya se ha comentado en el caso de disponer de pocas observaciones son poco valiosos. La inclusión de dichos contrastes es para el análisis de la fiabilidad de los contrastes de normalidad basados en estimadores paramétricos de localización y escala. Para su realización se hallan diferentes coeficientes y se comparan con valores críticos calculados a partir de los datos muestrales. Para los datos del ejemplo los coeficientes y contrastes son los que aparecen en la Figura 5. Figura 5 118 ESTADÍSTICA ESPAÑOLA 1.- Coeficiente de asimetría de Pearson, As2 = 3 X − Me , que para una distriS bución normal es cero. n 2.- Coeficiente de curtosis, b 2 = n ∑ ( X i − X) 4 i =1 n 2 ∑ ( Xi − X ) i =1 2 , que para una distribución normal es 3. n ∑ | Xi − X | i =1 3.- Coeficiente de Geary, G = n , que para una distribución normal n ∑ ( Xi − X) 2 i =1 2 = 0´7979 . π es 4.- Contraste basado en coeficiente de asimetría calculado a partir del momento central de orden tres, b1 . El valor crítico para 1-α=99% es 2`3263⋅tmp, para 1-α=95% es 1`6449⋅tmp, y para 1-α=90% es 1`2816⋅tmp, con 6(n − 2) tmp = . (n + 1)(n + 3) 5.- Contraste basado en el estimador de escala de doble peso. El estadístico n que se utiliza es I = ∑ ( X i − MAD)2 i =1 (n − 1) ⋅ S 2bi , y si m = log10 (n − 1) los valores críticos son: I90 = 0`982 + 10( 0`6376−1`535m+ 0`1266m ) , para 1-α=90%. 2 I95 = 0`982 + 10(1`9065− 2`5465m + 0`5652m ) , si n<50 y para 1-α=95%. 2 I95 = 0`982 + 10( 0`7824−1`1021m + 0`1021m ) , si n ≥ 50 y para 1-α=95%. 2 3.4. Contrastes para detectar observaciones anómalas El tratamiento de outliers es un amplio sector especializado de la Estadística (Hampel y otros (1986); Barnett y Lewis (1994)). Distinguiendo la diferencia que existe entre que una observación atípica sea una manifestación extrema de la inherente variabilidad aleatoria de los datos (en cuyo caso, dicho valor debe mantenerse y procesarse de la misma manera que el resto de observaciones de la muestra) y los outliers estadísticos (observaciones que bajo ciertas metodologías ESTIMACIÓN ROBUSTA: UNA APLICACIÓN INFORMÁTICA CON FINES DIDÁCTICOS 119 se suponen incorrectos), en este caso, sería deseable realizar un estudio para determinar las razones de la aparición de dichos valores atípicos, y sin son completamente erróneos eliminarlos. La aplicación permite la identificación estadística de las observaciones anómalas mediante cinco contrastes, suponiendo que la distribución subyacente es próxima a una normal. A partir de aquí es el juicio del experimentador el que decide eliminar, ponderar o asumir como real, la observación considerada. En los contrastes de outliers consideramos la hipótesis nula de que la observación atípica a examen es outlier, después la observación bajo prueba se incluye en el cálculo de un estadístico y luego, se compara con un valor crítico. Los niveles de significación serán distintos para cada tipo de contraste y además variarán para cada test según las tablas utilizadas e incluidas en el núcleo de la aplicación. Aunque existen muchos contrastes para determinar si una observación proviene de una distribución normal (ver Barnett y Lewis (1994) donde se presentan, se discuten y se referencian 49), a modo de introducción hemos incluido cinco, unas pantallas de este tipo de contrastes, considerando los datos de “Ejemplo.dat”, son las que aparecen en la Figura 6. Figura 6 Hemos incluido los siguientes contrastes: 1.- Test de Grubbs. Sirve para determinar si la observación mayor, o la menor, X −X X − X (1) y T1 = , respecties atípica. Los estadísticos utilizados son Tn = ( n) S S vamente. Sirve para muestras de tamaño 149, a lo más, y los valores críticos están determinados para el nivel 0,95 (Grubbs y Beck (1972)). 120 ESTADÍSTICA ESPAÑOLA 2.- Test de Harvey (Harvey (1975)), es una variación del test anterior, donde las observaciones más alejadas del centro de los datos se compara con la media de los resultados menos el dato bajo estudio, su mayor inconveniente es que está programado únicamente para muestras de tamaño entre tres y ocho, por ser el límite de disponibilidad de las tablas de valores críticos (0`99, 0`95 y 0`90). Para 1 n−1 X(n) − ∑X(i) n−1 i=1 analizar la observación más alta se utiliza el estadístico Tn = , para Var(X(1) ,...,X(n−1) ) 1 n ∑X(i) − X(1) n −1i=2 la más baja es T1 = . Var(X(2) ,...,X(n) ) 3.- Test de Dixon, r10 , Dixon (1951) , estudia las diferencias entre los valores de los extremos comparándolos un estimador de escala diferente de la desviación típica, usa el rango. Este test es únicamente válido para muestras de tamaños entre 5 y 26, y los valores críticos considerados son para niveles de confianza 0`99, 0`95 X − X( n−1) X − X( 1) y Dix1 = ( 2) , para y 0`90. Los estadísticos utilizados son Dixn = (n) X( n) − X (1) X (n) − X(1) X(n) y X(1) respectivamente. 4.- Test de asimetría basado en el momento central de orden tres, n b1 = n ∑ ( Xi − X)3 i =1 3 2 ∑ ( Xi − X) i =1 n . Este coeficiente puede utilizarse para la detección de datos 2 anómalos. Los valores críticos del estimador están tabulados (ver Pearson y Hartley (1966), tabla 34B), y estudia la naturaleza de las dos primeras y las dos últimas observaciones de la muestra, si una de las dos observaciones extremas es outlier, pasa al estudio del dato adyacente. Tiene características semejantes al contraste de Grubbs. En la aplicación se ha considerado el nivel de confianza 0`95. 5.- Test basado en el coeficiente de curtosis, b2. Al igual que el contraste precedente los valores críticos del estimador están tabulados (ver Pearson y Hartley (1966), tabla 34B), y estudia la naturaleza de las dos primeras y las dos últimas observaciones de la muestra. En la aplicación se ha considerado el nivel de confianza 0`95. ESTIMACIÓN ROBUSTA: UNA APLICACIÓN INFORMÁTICA CON FINES DIDÁCTICOS 3.5. 121 Nuevas inclusiones Como ya hemos comentado anteriormente hemos querido incluir un menú con la opción de Intervalos de confianza, para obtener intervalos de confianza para la media y la mediana basados en la t de Student y en el Test de Signos. También hemos querido incluir los terciles, T1 y T3, el estimador del grupo dominante, que es un L-estimador que se calcula mediante un procedimiento iterativo y se discute en Ellis, Copelowitz y Steel (1977) y los w-estimadores de Huber basados en el estimador MAD. Estas opciones están inicializadas en el último Proyecto Fin de Carrera, pero no fueron desarrolladas por los plazos en que se debía presentar dicho Proyecto. 4. CONCLUSIONES Una parcela, dentro del examen inicial de los datos, es la estimación robusta, y en particular los estimadores robustos de localización, que aún no está contemplada suficientemente en el software utilizado para la enseñanza de la Estadística. La aplicación informática presentada ha sido desarrollada, por Hidalgo (1998) y Muñoz (1998) en sendos Proyectos Fin de Carrera, en entorno Windows. No tiene la pretensión de ser exhaustiva, pero si mostrar elementos de la estimación robusta y no paramétrica, así como incorporar características que se incluyen en el software que se utiliza en cursos iniciales de Estadística. Este software está disponible, para fines académicos únicamente, solicitándolo a través de la dirección [email protected]. REFERENCIAS ANDREWS , D.F., BICKEL, P.J., HAMPEL, F.R., HUBER, P.J., ROGERS , W.H., Y TUKEY , J.W. (1972): «Robust Estimates of location. Survey and Advances». Princenton University Press. BARNET, V., Y LEWIS , T. (1994): «Outliers in Statistical Data», 3ª ed. John Wiley & Sons. CHATFIELD, C. (1985): «The Initial Examination of Data». J.R. Statist. Soc. A 148, 214-253. DIXON, W.J. (1951): «Ratios involving extreme values». Ann. Math. Statist., 22, 6878. 122 ESTADÍSTICA ESPAÑOLA ELLIS , P.J., COPELOWITZ, I., Y STEEL, T.W. (1977): «Estimation of the mean by the dominant cluster method». Geostandars Newsletter (International Working Group, Association Nationale de la Récherche Téchnique, París), 3, 123-130. GARSTWIRTH , J.L. (1966): «On robust procedures». J. Amer. Statist. Assn., 61, 929948. GRUBBS , F.E., Y BECK , G. (1972): « Extension of Sample Size and Percentage Points for Significance Test of Outlying Observations». Technometrics, 14, 847854. HAMPEL, F.R. (1974): «The influence curve and its role in robust estimation». J. Amer. Statist., 42, 1887-1896. HAMPEL, F.R., ROUSSEEUW , P.J., RONCHETTI, E.M., Y STAHEL, W.A. (1986): «Robust statistics: the approach based on influence functions». John Wiley & Sons. HIDALGO, S. (1998): «Estadísticos robustos». Proyecto Fin de Carrera, Universidad Politécnica de Madrid. HARVEY, P.K. (1975): «The detection and correlation of outlying determinations that may occur during geochemical analysis». Geochim. Cosmochim. Acta, vol 38, 5, 435-451. HOAGLIN, D.C., MOSTELLER, F., Y TUKEY, J.W. (1983): «Understanding Robust and Exploratory Data Analysis». John Wiley & Sons. JOHNS , M.V. (1974): «Nonparametric estimation of location». Jour. Am. Stat. 69, 346, 453-460. MUÑOZ, Mª. C. (1998): «Tratamiento robusto de datos». Proyecto Fin de Carrera, Universidad Politécnica de Madrid. PEARSON, E.S., Y HARTLEY, H.O. (EDS) (1976): «Biometrika Tables for Statisticians», Vol. 1 y Vol. 2. 3ª ed. Biometrika Trust. ROCK , N.M.S. (1987): «ROBUST: An interactive FORTRAN-77 package for Exploratory Data Analysis using parametric, robust and nonparametric location and scale estimates, data transformation, normality test, and outlier assessment». Computers & Geosciences, Vol 13, nº 5, 463-494. VELLEMAN, P.F., y Hoaglin, D.C. (1981): «Applications, Basic, and Computing of Exploratory Data Analysis». Duxbury Press. ESTIMACIÓN ROBUSTA: UNA APLICACIÓN INFORMÁTICA CON FINES DIDÁCTICOS ROBUST ESTIMATION: A COMPUTER PACKAGE WITH DIDACTIC PURPOSE SUMMARY After justifying the use of robust, and not parametric estimators, like an important part in the learning of the Statistic, and in particular to carry out an initial examination of data, and because the lack of computer applications not guided to the teaching of the Statistic that will allow the calculation of robust and nonparametric estimates and the detection of outliers, we present a computer package with some of these elements. In the application, developed exclusively with academic ends, are included several localization and scale estimates, parametric , not parametric and robust. The application also contains confidence intervals, normality tests, discordancy tests for normal samples, a table of frequencies and appropriate graphics. Key words: Robust estimation, estimation of location, estimation of scale, confidence intervals, normality test, discordancy tests for outliers, exploratory data analysis, software. AMS Classification: 62-04; 62-07; 62G35. 123