El paquete estadistico Statgraphics.

Anuncio
ESTADISTICA ESPAÑOLA
Vol. 30, Núm. 1 19, 1989, págs. 491 a 498
CRITICA D E P R OG R A M AS D E O RD ENADO R
EI paquete estadístico STATGRAPHICS
Por
IGNACIO ESTEVEZ CANO
CARLOS PAULOGORRAN CABEZAS
Ilnstituto Nacional de Estadística)
lNTRODUCCION
EI software estadístico ha ido evolucionando a través del tiempo, desde
la complejidad de los primeros programas, sólo aptos para expertos informáticos, a aplicaciones cada vei más sencillas orientadas a usuarios de la
estadística no necesariamente conocedores de las técnicas inforrnáticas.
Con este fin, y recientemente, la campañía norteamericana STSC ha
diseñado y comercializado STATG RAPH I CS, programa que pretende acercar las posibilidades de la microinformática a especialistas de la estadística
sin conocimientos informáticos.
En el presente escrito pretendemos describir las posibilidades que ofrece
este paquete y al final resumir !o que, a nuestro juicio, ofrece como ventajas e inconvenientes.
EI hardware más conveniente para optimizar su funcionamiento consiste
en :
Un procesador 80286/80386, pues en los correspondientes a un XT
(8088/8086) las ejecuciones son sumamente lentas.
Coprocesador aritmético, ya que reconoce y aprovecha su instalaci©n.
.
EI máximo de memoria interna disponible (hasta 640K).
4y2
ESTAbIST1C'A ESPA VCiLA
Es deseabfe la tarjeta gráfica E.G.A.- color (a V.G.A.^, con objeto de
aprovechar a1 máximo ta resolución de su variedad de gráficos, así camo
coadyuvar adecuadamente al análisis primario a partir de una representa^
cíón del fenámeno a estudiar.
A continuación se rnuestra el menú principal del pr©grama.
STA^TGRAPHICS Statistical G^aphics Syster^n
DATA MANAC3EIilAENT AND SYSTEM UTILiT1ES
A. Data management
B. System Environment
C. Report Writer and Graphics Raplay
D. Graphics Attributes
TIME SERIES PROCEDURES
L._ Forecasting
M. C]uality Control
N. Smoothing
O. Time Series Anafysis
PLOTTiNG AND OESCRIPTfVE STATISTICS
E. Plotting Functions
F. Descriptive Methods
G. Estimation and Testing
H. Distribution Functions
I. Expforatory Data Analysís
ADVANCED PRQCEDURES
P. Categorical Data Anafysis
Q. Muitivariate Methods
R. Nonparametric Methods
S. Sampling
T. Experim®ntal Design
ANOVA AND REGRESSION ANAI.YSiS
J. Anafysis of Variance
K. Regression Anafysis
MATiiEMATICAL AND USER PROCEDURES
U. Mathematical Functions
V. Suplementary Operations
Pasamos a comentar, brevemente, los seis grandes apartados en que se
estructura.
1. DATA MANAG EM E NT AN D SYSTEM UTI LITI ES incorpora tos ctásicos aspectos relativos a ta creación de ficheros internos, propios (de
extensián ASF^, ya sea tecleando los datos o importándolos a partir de
ficheras DBASE, LCITUS, Dt t=, o ASCt t(detimitado por blancos, comas o
bien indicando las anchuras de cada campo). La exportacián, obvíamente,
es totalmente similar.
Está dotado de un procesador de textos capaz de integrar las tablas
creadas en ios procedimientas, asi carno los gráficos (estos últirnos referenciando los ficheros que los contienen; es decir, no se ven dentro del
informe sino al ser impresos).
Se pueden representar hasta nueve gr^ificos en una sota pantalla y por
tanto imprimir y/o satvar a disco como fichero "imagen'". También es
posibte superponer hasta cuatro gréficos en ta misma zona de pantalla con
tat de que tengan el mismo escalamiento.
2. EI ap^ artado PLOTT!l1iG AND DESCRIPTIVE STATISTICS posibilita
la generación de gr^ficos de líneas/puntos (de dos o tres dímensiones),
C`RITICA DE PR(X;RAMAS DE ORDE,IA[7nR
49 ^
barras (con sus diversas opciones de agrupamiento, barras apiladas y en
porcentaje), sectores, así como histogramas tridimensionales.
Ofrece también una pantalla de diecisiete medidas de centralización,
dispersión, simetría y kurtosis para cada variable seleccionada, asi como la
tabulación de frecuencias absolutas/relativas, acumuladas o no.
-- Contraste de hipótesis de normalidad de una población a partir del
estudio de la media y la varianza (en el caso de una sola muestra) o de la
diferencia de medias y cociente de varianzas (en el caso de disponer de
dos muestras).
En este contexto es posible generar, rápidamente, sendos gráficos Ide
función de distribución acumulada y de "barras colgantes") en los que se
compara la muestra con la correspondiente población normal de la misma
media y varianza que la de la muestra.
Se ofrecen dieciocho distintas funciones de distribución de variables
aleatorias ( binomial,Poisson, ^, F, t, normal...) para representar directamente, o bien para ajustar a una distribución empírica. Se acompañan de las
distribuciones deducidas ( función de supervivencia, de azar..), así como de
los valores críticos y los correspondientes estadísticos de ajuste (chicuadrado, Kolmogorov-Smirnov...).
En aras de seguir analizando interactivamente una distribución de
frecuencias experimental se dispone también de gráficos como el de "raíz
suspendida" o Ios clásicos " box-and-whisker" que ilustran, de forma intuitiva, el fenómeno que se está considerando.
3. Concerniente al apartado ANOVA AND REGRESSIQN ANALYSIS,
citar, respecto del análisis de la varianza, que se trata de contrastar la
presunta igualdad de medias I,u;) de poblaciones Cde las que se han extraído varias muestras) y de las que se supone se distribuyen N(,u;, c^), para así
poder inferir que las muestras proceden de poblaciones similares (o incluso
de la misma población).
Se muestra el cuadro del análisis, el estadístico Fisher resultante, así
como la posibilidad de contrastar la homocedasticidad (Cochran, Barlett...1.
Se pueden tabular y graficar las medias muestrales como estimaciones
de las correspondientes medias poblacionales (errores standard), ver y/o
salvar los residuos, etc.
Este procedimiento ANOVA puede ser simple ( un sólo factor influyente
en la variable respuesta), rnúltiple ( varios factores) o con diseño anidado
(jerarquizado) en los datos.
^9^
ESTADISTICA ESPA!VOLA
Finalmente, cuando no se puede establecer una hipótesis sobre la normalidad de las poblaciones, se acude a los tests por rangos de Kruskal- Wallis,
para el caso de muestras independientes, o bien de Friedman, para e! caso
de muestras reiacionadas.
Respecto al Análisis de la Regresión contempla los procedimientos de
regresión lineal símpte (lineal, multiplicativa, exponencial y recíproca), regresión lineal múltiple y regresión no lineal. Ofrece, por tanto, los cuadros
resuitantes de la estimación de los parámetros correspondientes así como
los errores standard, estadísticos {Fisher, Student), coeficientes de correlacián, determinación ,etc.
Grafica el ajuste, la banda de confianza, los residuos y permite la predicción interactiva, así como la desconsideración de !os valores extremales. Se
pueden salvar en ficheros todas fas saiidas de tabias, coeficientes resultantes, estimaciones y gráfícos.
Respecto a la regresión no linea! utiliza el algoritmo de Marquardt para
determinar la estimación de ios párametros que minimizan la suma de
cuadrados de ios residuos a partir de una función usuario.
4. EI cuarto gran apartado, referido a series temporales, TIME SERIES
PR^CEDURES, se subdivide en Predicción, Controi de calidad, Suavización y Análisis de series temporales.
La prediccrór^ la realiza utitizando procedimientos de suavización simple,
lineal o cuadrática con una, dos o tres constantes. Además, este apartado
incluye el análisis de la tendencia (lineal, cuadrática, exponencial o tipo S^ y
descomposición de la serie tempora! por medias móviles utilizando ios
clásicos métodos aditivo y multiplicativo.
E! epígrafe contro/ de calidad posibilita construir límites de control para la
variabilidad, utifizando como medida de ésta la media, rango o desviación
típica muestraf. También construye ^ímites y gráficos de control basados en
distintos procedimientos y genera gráficos de barras que ídentifican los
defectuosos de cada clase.
En cuanto al apartado suavizacíán de series, comentar que incluye los
métodos de medias móviles, simples y ponderadas, y ajuste polinómico de
hasta noveno orden. Construye gráficas, abiertas o cerradas, interpolando
un polinomio de quinto arden, y estima fa tasa de ocurrencia de ciertos
sucesos a lo largo del tiempo, dada una sucesión de instantes en los que
dichos sucesos ocurrieron.
EI extenso menú Análisis de seríes tempora/es permite:
CRtTICA DE PROC;RAMAS DE ORDENADOR
49S
Crear un gráfico lineal de hasta doce variables temporales, admitiendo
en unidades de tiempo índices, meses, días y días laborables.
Series temporales por períodos, representando cada grupo por una
línea horizontal (media del período) y líneas verticales (observaciones con
relación a la media).
Calcular coeficientes de autocorrelación para series temporales vectoriales y retardos del mismo vector.
Estimar el número de términos en un modelo autorregresivo y calcular
los coeficientes de correlación parcial.
Estimar la correlación entre una serie temporal en el instante k y una
segunda serie en el instante t+k como función del retardo k.
Restar series temporales en dos períodos consecutivos.
Sustraer una tendencia polinómica estimada de un vector de series
temporales.
Transformación Box - Cox, que intenta estabilizar la varianza o conseguir una distribución más próxima a la normal.
Estimar el espectro de frecuencias descomponiendo la varianza de los
datos en contribuciones a lo largo del rango de frecuencias.
Verificar si los datos de una serie ternporal son aleatorios.
Suavizar las colas aplicando la función coseno.
Representar gráficamente los resultados de una determinada operación en función de las frecuencias de Fourier.
Estimación y predicción en modelos utilizando la metodologia Box Jenkins.
Representación tridimensional de matrices de correlación para un determinado número de series temporales.
5. Llegamos al apartado ADVANCED PROCEDURES. En cuanto al análisis de datas a partir de "'categorías" se pueden generar autométicamente
las tablas como cruce de dos o más variables (siempre y cuando no
excedan de rnil celdas) y los estadísticos que miden la asociación entre las
variables (ya sean estas ordinales o tan solo nominales) a saber: x2, contingencia, Cramer, ^, t, Sommer, etc.
Tarnbién se puede aplicar el modelo logarítmico-lineal a las frecuencias
de la tabla y así analizar escalonadamente los efectos fila-columna de la
misma.
Ayb
ESTA[^[STIC'A ESPAÑt)LA
La creación de nuevas variables, tiene aqui fácil implementación, recodificando antiguas, ya sea para restringir su ámbito o simplemente para pasar
los códigos a literales para rnejor presentación.
Posteriormente se puede acceder a distintas técnicas de análisis multivariante a partir del estudio de correfaciones y covarianzas entre las distintas
variables a interaccionar.
Se pretende reducir el número de variables a considerar, con unas nuevas variables que serán combinación tineal de las primeras, en función de la
cantidad de variabilidad que explican (componentes principales y análisis
factorial), o de la información intr^nseca de los datos y las variables para
separar {análisis discriminantel O agrupar (análisis de clustersl las unidades
observadas.
^
Compfementariamente a la visualizacián usual de +gráficos de componentes o clusters, se dispone de gráficos específicos como el Star Symbo/ P/ot
o el Sun Ray P/ot (en e1 que cada dato se representa en función de la
potencía de cada variable}; también, el £3raftsman o Casement P/ots en los
que se pueden elaborar distintas ventanas {en la misma pantalla} resultante
del cruce de las distintas variables tdos a dos} conteniendo la dispersión
correspondiente, y haciendo uso o no de restricciones en los datos.
También en este epígrafe tienen cabida otros tests no paramétricos {es
decir, se desconoce ia distribución poblacional -sus parámetros--} por lo
que se introducen técnicas de aproximación según el "rango"' que ocupa el
dato (y no el dato en sí mismo} como las de Kendall © Spearman, o bien
basadas en la máxima diferencia entre fas funciones de distribución empírica y la que intuitivarnente mejar podría ajustarse {Kolmogorov- Smirnov^.
6. EI último apartado MATHEMATICA^ AND USER PROCEDURES
comprende funciones matemáticas y operaciones suplernentarias.
Las funciones matemáticas disponibles son las siguientes:
G raficar derivadas de hasta cuarto orden.
Calcular integrales definidas por ei procedimient0 de Gauss.
Calcular raíces de una función por el método de Newton - Raphson,
Resolver sistemas de ecuaciones lineales.
Calcular autovalores y autovectores de matrices simétricas.
Transformada de Fourier para variables con valores igualmente espaciados.
'
Descomposíción de números (menores de 5404} en sus fact©res
primos.
CRITI(`A DE PRO(;RAMAS DE C)RDE^JA[^OR
497
Generación de números primos, con límite 5000.
Resolución de problemas de programación lineal, limitados a siete
variables y dieciséis restricciones.
EI epígrafe Operaciones suplementarias está destinado a operadores y
funciones poco utilizados, por lo que se cargan en rnemoria y se borran una
vez usados. Añade métodos descriptivos, funciones de distribución, gr^ificos, funciones matemáticas, cálculo matricial, p/otting, regresión y series
temporales.
CONCLUSION FINAL
Como aspecto más favorable de este programa, cabe señalar su facilidad
de manejo, al trabajar a base de menús y no requerir conocimientos de
programación como el resto del software estadístico.
Otra ventaja de que dispone es su alta capacidad gráfica, ya que prácticamente en cada procedimiento es posible visualizar gráficamente el resultado final.
Permite mejorar un gráfico, añadiendo, modificando o suprimiendo texta
ilustrativo del mismo.
Es compatible, en cuanto a importación o exportación, con el software
más implantado en el mercado.
Posibilita, en cualquier procedimiento, una rápida visión de los estadísticos más usuales.
En todo momento puede accederse a una pantalla de ayuda pulsando la
tecla de función F1.
EI inconveniente principal estriba en que la información a tratar en cualquier procedimiento no debe exceder de 64K. Así pues, aunque los ficheros
que contienen toda la información pueden ser mayores, las variables intervinientes no podrán exceder dicha cifra.
De aquí se deduce que este programa, si bien abarca grandes áreas
estadísticas, los datos han de ser lo más agregadas posibles.
Por todo ello, este producto se recomienda a estudiantes, postgraduados
y profesionales de la empresa pública ^o privada, con objeto de coadyuvar
de una manera rápida, interactiva y flexible a la toma de decisiones, a partir
de una primera exploración y ulterior análisis estadístico de la información
disponible en soporte magnético.
498
ESTADtSTiCA ESPAÑOLA
BIBLIOGRAFlA
-STATGRAPHlCS ^Statistical Graphics System. User's Guide (1986)
-STATG RAPH ICS ^ Statistical G raphics System. Tutorial (1986)
Descargar