Esta obra está bajo una licencia Reconocimiento-No comercial 2.5 Colombia de Creative Commons. Para ver una copia de esta licencia, visite http://creativecommons.org/licenses/bync/2.5/co/ o envie una carta a Creative Commons, 171 Second Street, Suite 300, San Francisco, California 94105, USA. PSPP Autores: ANGELA MARIA ARAUJO FANDIÑO CARLOS HERNÁN PORRAS MEDINA Director Unidad Informática: Henry Martínez Sarmiento Tutor Investigación: Daniel Alejandro Ardila Montes Luís Alfonso Nieto Ramos Leidi Diana Rincón Rincón Coordinadores: Daniel Alejandro Ardila Montes Luís Alfonso Nieto Ramos Leidi Diana Rincón Rincón Coordinador Servicios Web: Miguel Ibáñez Analista de Infraestructura y Comunicaciones: Carlos José Acuña Daza Analista de Sistemas de Información: Álvaro Enrique Palacios Villamil UNIVERSIDAD NACIONAL COLOMBIA FACULTAD DE CIENCIAS ECONÓMICAS UNIDAD DE INFORMÁTICA Y COMUNICACIONES BOGOTÁ D.C. JUNIO 2007 pspp Director Unidad Informática: Henry Martínez Sarmiento Tutor Investigación: Daniel Alejandro Ardila Montes Luís Alfonso Nieto Ramos Leidi Diana Rincón Rincón Auxiliares de Investigación: ALEJANDRA TÉLLEZ MALDONADO JORGE ALEXANDER CERON SÁNCHEZ ALVARO ESNEIDER RONCANCIO GUEVARA JUAN CAMILO ROJAS MATIZ ANDREA PATRICIA GARZÓN ORJUELA JURLEY SOSA CAMACHO ÁNGELA MARIA ARAUJO FANDIÑO KAREN LORENA GUTIÉRREZ GONZÁLEZ ANGELA NIETO GÓMEZ LEIDY CAROLINA RINCON OCHOA ANGÉLICA RODRÍGUEZ TRIANA MIGUEL ÁNGEL VALDERRAMA GÓMEZ BRAYAN RICARDO ROJAS ORMAZA NATALIA CUESTAS MONDRAGÓN CARLOS HERNÁN PORRAS MEDINA PABLO ANDRÉS TOBAR RUIZ CRISTIAN CAMILO IBAÑEZ ALDANA PAULA ALEJANDRA RODRÍGUEZ ÁLVAREZ DANIEL HERNÁN SANTIAGO ROMERO ROBERTO MAURICIO SANCHEZ TORRES DIANA KATHERINE SANCHEZ CASTELLANOS RODRIGO ACOSTA SARMIENTO DIEGO ARMANDO RODRIGUEZ SANDRA LILIANA BARRIOS PRIETO EDSON DIRCEU RODRÍGUEZ URIBE SANDRA MILENA GÓMEZ SANDOVAL ELKIN GIOVANNI CALDERÓN CÁRDENAS SANDRA MILENA SALAMANCA RICO ERIKA ZULEY GUERRERO CORTÉS SERGIO FERNANDO GARZÒN RINCON GUSTAVO ALEJANDRO OSPINA ALDANA TATIANA BRAVO JÍMENEZ JAVIER MAURICIO NIÑO RAVELO VÍCTOR FERNANDO CASAS MELO JONATHAN DAVID BALCAZAR HERNANDEZ YELITZA BARBOSA Este trabajo es resultado del esfuerzo de todo el equipo perteneciente a la Unidad de Informática. Se prohíbe la reproducción parcial o total de este documento, por cualquier tipo de método fotomecánico y/o electrónico, sin previa autorización de la Universidad Nacional de Colombia. UNIVERSIDAD NACIONAL COLOMBIA FACULTAD DE CIENCIAS ECONÓMICAS UNIDAD DE INFORMÁTICA Y COMUNICACIONES BOGOTÁ D.C. JUNIO 2007 PSPP TABLA DE CONTENIDO TABLA DE CONTENIDO....................................................................................................................3 TABLA DE ILUSTRACIONES..............................................................................................................5 1. RESUMEN..............................................................................................................................................5 2. ABSTRACT............................................................................................................................................5 3. INTRODUCCIÓN..............................................................................................................................6 4. OBJETIVO GENERAL.........................................................................................................................7 5. OBJETIVOS ESPECÍFICOS.................................................................................................................7 6. INSTALACION DE PSPP...................................................................................................................8 6.1. CONOCIENDO PSPP................................................................................................................8 6.2. DERECHOS Y OBLIGACIONES.............................................................................................8 6.3. INSTALACION DE PSPP EN WINDOWS...........................................................................8 6.3.1. CYGWIN...............................................................................................................................9 6.3.1.1. INSTALACION Y ACTUALIZACION DE CYGWIN.....................................10 6.3.1.2. CONFIGURACIÓÓN...................................................................................27 UNIVERSIDAD NACIONAL COLOMBIA FACULTAD DE CIENCIAS ECONÓMICAS UNIDAD DE INFORMÁTICA Y COMUNICACIONES 3 PSPP 8.5. OPCIONES INPUT Y OUTPUT ..........................................................................................28 8.6. LENGUAJE Y CONTROL DE OPCIONES........................................................................29 8.7. OPCIONES DE INFORMACIÓvsÓMICAS UNIDAD DE INFORMÁTICA Y COMUNICACIONES 4 PSPP TABLA DE ILUSTRACIONES Ilustración 1 Pantalla de Inicio de la Instalación..............................................................................11 Ilustración 2 Selección del Origen de la Instalación.......................................................................11 Ilustración 3 Directorio de Instalación..............................................................................................11 Ilustración 4 Selección del directorio local de paquetes..............................................................12 Ilustración 5 Selección del tipo de Conexión a Internet..............................................................12 Ilustración 6 Proceso de Conexión a los mirrors..........................................................................13 Ilustración 7 Selección del mirrors desde el cual va a realizar la instalación.......................... 13 Ilustración 8 Configuración de Paquetes a Instalar........................................................................14 Ilustración 9 Aspecto de la consola al ejecutar PSPP....................................................................21 Ilustración 10 Mensaje NO WARRANTY de PSPP.......................................................................21 Ilustración 11 Pantalla de Bienvenida Instalación PSPPire............................................................24 Ilustración 12 Licencia GNU................................................................................................................24 Ilustración 13 Ubicación de la Instalación........................................................................................25 Ilustración 14 Interfaz Grafica PSPP...................................................................................................25 1. RESUMEN 2. ABSTRACT UNIVERSIDAD NACIONAL COLOMBIA FACULTAD DE CIENCIAS ECONÓMICAS UNIDAD DE INFORMÁTICA Y COMUNICACIONES 5 PSPP 3. INTRODUCCIÓN PSPP es una herramienta de análisis estadístico desarrollado como un proyecto de Software libre. En principio PSPP es un programa con funcionalidades en el campo de la estadística descriptiva, lee y genera archivos de sintaxis que facilitan la recopilación de la información ya analizada y produce salidas en diferentes formatos compatibles con aplicaciones Web. PSPP maneja un lenguaje similar al trabajado por SPSS lo que permite interactuar con dicho programa de licencia privada y gran uso a nivel mundial. La versión mas actual de PSPP es la 0.4.0, lanzada a principios del presente año luego de una estancación del proyecto por cerca de 3 años, PSPP aun no cuenta con una interfaz gráfica completa para su manejo, sin embargo pretendemos analizar su funcionalidad desde una consola de comandos UNIX. Nuestro objetivo al realizar este documento no es presentar de una manera exhaustiva el manejo y funcionamiento de PSPP. Buscamos mostrar de una manera global el funcionamiento del software explorando globalmente su funcionamiento y el manejo de archivos con el fin de poder comprar su funcionalidad con el software de análisis estadístico SPSS, viéndolo como una herramienta alternativa al momento de realizar análisis de Estadística descriptiva. Para la realización del presente documento nos hemos apoyado en la poca documentación que se encuentra del proyecto, pero que nos ha permitido explorar de una manera apropiada esta herramienta. Esperamos que nuestra investigación brinde un apoyo a aquellas personas interesadas en el campo de la estadística y que vean en el software libre un apoyo fundamental para realizar sus labores. No pretendemos mostrar a PSPP como una maravilla en el campo de la estadística pero si puede ser un apoyo importante en el manejo de Estadística descriptiva. UNIVERSIDAD NACIONAL COLOMBIA FACULTAD DE CIENCIAS ECONÓMICAS UNIDAD DE INFORMÁTICA Y COMUNICACIONES 6 PSPP 4. OBJETIVO GENERAL Conocer las funcionalidades básicas de PSPP, su proceso de instalación y manejo. De tal manera que podamos evaluar su funcionalidad, comparado con un software similar, para este caso SPSS. De tal manera que podamos formular un juicio apropiado sobre su utilización o no, dentro de la Unidad de Informática de la Facultad de Ciencias Económicas. 5. OBJETIVOS ESPECÍFICOS 5.1. Documentar el proceso de instalación de PSPP tanto para un entorno Windows utilizando Cygwin, como en Linux. 5.2. Conocer el estado actual de desarrollo del proyecto GNU PSPP, analizando su funcionalidad. 5.3. Presentar un pequeño manual sobre el funcionamiento de los comandos primordiales dentro del entorno Linux y PSPP. 5.4. Realizar una evaluación objetiva sobre la funcionalidad del software, comparándolo con programas similares, en este caso con SPSS. 5.5. Realizar sugerencias sobre alternativas libres para realizar análisis estadísticos básicos, como una forma de evitar el pago de licencias de programas en esta rama de la Ciencias Económicas. UNIVERSIDAD NACIONAL COLOMBIA FACULTAD DE CIENCIAS ECONÓMICAS UNIDAD DE INFORMÁTICA Y COMUNICACIONES 7 PSPP 6. INSTALACION DE PSPP 6.1.CONOCIENDO PSPP PSPP es una herramienta para el análisis estadístico de datos muestreados. Lee archivos de sintaxis y archivos de datos, además analiza los datos y da resultados a un archivo de lista o de salida estándar. El lenguaje que acepta PSPP es similar al trabajado en SPSS. Los detalles del lenguaje PSPP serán mostrados mas adelante dentro de este informe. PSPP produce salidas de dos maneras: tablas y cartas (charts). Ambos pueden ser escritos en muchos formatos; actualmente ASCII, PostScript, y HTML están habilitados. En el futuro, se espera desarrollar el programa para que también trabajo con PCL y en sistemas Windows. Por ahora GhostScript esta disponible de En la pagina GNU para que pueda ser usado para convertir salidas de PostScript a otros formatos. La versión actual de PSPP, 0.4.0, es lamentablemente incompleta en términos de soporte a procedimientos estadísticos. PSPP es un proyecto actualmente en desarrollo y con una estancación de aproximadamente 3 años lo que ha dificultado crear una comunidad grande de usuarios que ayuden a documentar los procesos desarrollados. 6.2.DERECHOS Y OBLIGACIONES PSPP no está en de dominio público; tiene copyrighted y existen restricciones para su distribución, pero estas restricciones están diseñadas para permitir todo aquellos que los usuarios deseen hacer bajo el concepto de cooperación en el desarrollo del programa. Específicamente, lo que se busca con estas restricciones es brindar seguridad a los usuarios PSPP, de tal manera que si usted recibe un código fuente este sea seguro y pueda modificarlo o usarlo en otros programas de la manera que mas le convenga. Para estar seguros que estos objetivos se cumplan PSPP prohíbe crear restricciones sobre los derechos de los usuarios dentro del marco de Software Libre. Si un usuario logra mejorar el programa esta en la obligación de compartir dicha mejora con toda la comunidad. 6.3.INSTALACION DE PSPP EN WINDOWS Aun cuando PSPP es un programa que funciona sobre sistemas que cumplen la UNIVERSIDAD NACIONAL COLOMBIA FACULTAD DE CIENCIAS ECONÓMICAS UNIDAD DE INFORMÁTICA Y COMUNICACIONES 8 PSPP 1 especificación POSIX (por ejemplo LINUX) podremos instalarlo y ejecutarlo en sistemas MS Windows. El proceso de instalación será un poco más complejo hasta cierto punto, pues requiere una instalación y configuración previa del software CYGWIN. (que emula un sistema Linux sobre un equipo con MS Windows). Requisitos Previos: Cygwin sobre MS Windows Es necesario instalar Cygwin en el equipo: 6.3.1.CYGWIN Cygwin es un emulador de sistemas UNIX para ambientes Microsoft Windows. Consiste en dos paquetes: • Un DLL (cygwin1.dll) Una biblioteca de enlaces dinámicos que actúa como capa de la emulación de Linux que proporciona toda la funcionalidad de Linux. • Una colección de herramientas que proporcionan un entorno Linux. El paquete Cygwin DLL es relativamente reciente, comercialmente ha lanzado versiones para x86 32 bit y 64 bit con excepción de Windows CE 2. Es importante resaltar que la ayuda oficial para Windows 95, Windows 98, y Windows Me será suspendida con la versión siguiente (1.7.0) de Cygwin. 3 QUE NO ES CYGWIN Cygwin no es una manera de correr aplicaciones nativas de Linux en Windows. Tendrías que reconstruir el código fuente si quisieras que funcionara en Windows. Cygwin no es 1 POSIX es el acrónimo de Portable Operating System Interface; la X viene de UNIX como seña de identidad de la API. El término POSIX fue sugerido por Richard Stallman en respuesta a la demanda de la IEEE, que buscaba un nombre fácil de recordar. Una traducción aproximada de la sigla podría ser "Interfaz de Sistema Operativo Portable basado en UNIX". 2 Es el sistema operativo de Microsoft incrustado modular de tiempo real para dispositivos móviles de 32-bits inteligentes y conectados. 3 Cygwin, www.cygwin.com. Traducción realizada de la página oficial del proyecto. UNIVERSIDAD NACIONAL COLOMBIA FACULTAD DE CIENCIAS ECONÓMICAS UNIDAD DE INFORMÁTICA Y COMUNICACIONES 9 PSPP una manera mágica de hacer que las aplicaciones nativas de Windows corran sobre plataformas UNIX, tendrías que reconstruir el código fuente si deseas aprovechar la funcionalidad de Cygwin.4 6.3.1.1.INSTALACION Y ACTUALIZACION DE CYGWIN La versión mas reciente de Cygwin es 1.5.24-2. Desde la pagina http://cygwin.com, el numero de Versión hace referencia a Cygwin DLL5 los paquetes individuales se distribuyen independientemente de DLL. El setup.exe se encarga de reunir las versiones mas recientes de todos l0os paquetes necesarios para la instalación y proporciona el mecanismo mas adecuado para la instalación, a través del setup.exe también se realiza la actualización de los módulos de Cygwin 6 Descarga del instalador El tamaño de la instalación de Cygwin depende de la cantidad de paquetes y librerías que instales, ésta puede ocupar hasta 800 MBytes, pero si escogemos bien los paquetes que necesitemos la instalación será mucho menor. Desde la página principal de Cygwin http://www.cygwin.com se descarga un archivo instalador (Using setup.exe) que descarga los módulos deseados durante su ejecución. Es aconsejable renombrar el nombre predeterminado (setup.exe) a otro más significativo que nos indique que es ese archivo ya que se pueden generar confusiones con otros archivos Setup.exe que encuentres en tu equipo. La instalación descrita en este documento requiere de conexión a Internet ya que Cygwin descarga durante la instalación los módulos que seleccionamos para instalar. Ejecución del instalador Al ejecutar el instalador anterior, comenzará preguntando varios datos, de los que se proponen los siguientes valores recomendados: 4 Ibidem 5 DLL es el acrónimo de Dynamic Linking Library (Bibliotecas de Enlace Dinámico), término con el que se refiere a los archivos con código ejecutable que se cargan bajo demanda del programa por parte del sistema operativo. Esta denominación se refiere a los sistemas operativos Windows siendo la extensión con la que se identifican los ficheros, aunque el concepto existe en prácticamente todos los sistemas operativos modernos. 6 Op. Cit. UNIVERSIDAD NACIONAL COLOMBIA FACULTAD DE CIENCIAS ECONÓMICAS UNIDAD DE INFORMÁTICA Y COMUNICACIONES 10 PSPP Ilustración 1 Pantalla de Inicio de la Instalación • Origen de la instalación: Descargar desde Internet (Download from Internet). Si deseas que las descargas que realices queden guardadas en el equipo seleccione Install from Local Directory, de esta manera la próxima vez que necesites instalar tendrás los módulos descargados. Ilustración 2 Selección del Origen de la Instalación • Directorio raíz de instalación: Por defecto aparece C:\cygwin. Ilustración 3 Directorio de Instalación En esta misma pantalla seleccionamos para que usuarios instalamos el programa si UNIVERSIDAD NACIONAL COLOMBIA FACULTAD DE CIENCIAS ECONÓMICAS UNIDAD DE INFORMÁTICA Y COMUNICACIONES 11 PSPP para todos (all User) o solo para el usuario actual (Just Me). Además seleccionamos el tipo de archivos de texto predeterminados (Unix). • Directorio local de paquetes: C:\cygwin\packages. Ilustración 4 Selección del directorio local de paquetes • Tipo de conexión a Internet: depende de cada caso, pero en entornos domésticos normalmente será Direct Connection. Que indica que se conectara directamente a Internet para el caso de la universidad seleccionamos “Use HTTP/FTP Proxy Ilustración 5 Selección del tipo de Conexión a Internet Seguido de esto el instalador conectará a Internet para recuperar la lista de mirrors (servidores desde los que nos permitirá descargar los módulos de instalación). UNIVERSIDAD NACIONAL COLOMBIA FACULTAD DE CIENCIAS ECONÓMICAS UNIDAD DE INFORMÁTICA Y COMUNICACIONES 12 PSPP Ilustración 6 Proceso de Conexión a los mirrors • Seleccionar mirror: Cualquiera que funcione, y permita realizar la descarga, pero es buena idea usar ftp://ftp.rediris.es.7 Ilustración 7 Selección del mirrors desde el cual va a realizar la instalación Una vez seleccionado el mirror, el instalador recuperará la lista de paquetes disponibles y nos dejará seleccionarlos en una pantalla con un mecanismo muy similar al de los gestores de paquetes para Linux, organizando los paquetes en grupos. Instalación de Cygwin tomado de http://www.proyectonave.es/docs/cygwin_inst.php el día 05 de marzo de 2007. 7 UNIVERSIDAD NACIONAL COLOMBIA FACULTAD DE CIENCIAS ECONÓMICAS UNIDAD DE INFORMÁTICA Y COMUNICACIONES 13 PSPP Ilustración 8 Configuración de Paquetes a Instalar • Columna Category: Contiene los grupos de paquetes, que se despliegan y contraen al hacer clic sobre ellos. • Columna Bin?: Nos indica si el paquete está seleccionado para ser descargado. • Columna Package: contiene los paquetes, que contendrán un solo archivo, varios archivos correspondientes a una única utilidad, o varias utilidades, dependiendo del paquete concreto. La tabla 1 contiene los imprescindibles para que PSPP pueda correr. Tabla 1 Paquetes necesarios para poder ejecutar PSPP Categoría Módulo ▪automake 1.9 (1.9.6-1) DEVEL ▪gcc-core: C compiler (3.4.41) ▪gcc-g77 ▪make (3.80-1) LIBS ▪gsl (1.7-1) ▪perl-Win32 (1.02-1) UNIVERSIDAD NACIONAL COLOMBIA FACULTAD DE CIENCIAS ECONÓMICAS UNIDAD DE INFORMÁTICA Y COMUNICACIONES 14 PSPP ▪perl-libwin32 (0.26-1) INTERPRETERS GRAPHICS ▪perl (5.8.7-4) ▪plotutils(2.4.1-1) ▪plotutils-devel(2.4.1-1) Sin embargo también debemos revisar que los paquetes descritos en la siguiente tabla se encuentren seleccionados para realizar la instalación, ya que sin estos módulos no funcionará la infraestructura de traducción de extensiones en entorno Windows. “Para instalar un paquete, hay que hacer clic una sola vez sobre el texto "Skip" para que aparezca la versión disponible más reciente. El tamaño de la descarga es ligeramente superior a 17 MBytes. El tamaño de la instalación en disco de Cygwin depende del sistema de archivos, pero oscilará entre 78 y 120 MBytes (incluyendo los 17 Mbytes anteriores de los paquetes descargados).”8 GRUPO Admin Archive Base Devel Doc Editors Tabla 2 Paquetes Básicos de CYGWIN9 PAQUETE OBSERVACIONES cygrunsrv Opcional; de utilidad sólo en Windows NT/2000/XP Necesarios para crear y descomprimir los archivos ZIP, unzip, zip JAR y XPI de las extensiones Todos Paquetes básicos de Cygwin Los preseleccionados Los preseleccionados Es muy conveniente disponer de al menos un editor nativo. nano es el más simple y pequeño (la descarga es de 200 KBytes), pero también el que resulta más fácil de usar si no se conoce ningún editor Unix. La descarga de nano, vim, Vim ocupa 3 MBytes. Emacs precisa una descarga de emacs... unos 9 MBytes y tiene fama de ser muy complejo, aunque también el más potente. Si decides instalar Midnight Commander (Utils -> mc), éste incluye un editor de texto integrado que puede 8 Ibidem. 9 Op. Cit. UNIVERSIDAD NACIONAL COLOMBIA FACULTAD DE CIENCIAS ECONÓMICAS UNIDAD DE INFORMÁTICA Y COMUNICACIONES 15 PSPP sustituir perfectamente a nano. Interpreters Libs Shells System Text Los preseleccionados Los preseleccionados Los preseleccionados Los preseleccionados Los preseleccionados mc es opcional. Se trata de un clon de Norton Commander, una utilidad muy usada en los tiempos de MS-DOS. Permite moverse con facilidad por los directorios del disco y llevar a cabo operaciones típicas mc + los Utils con los archivos (mover, copiar, borrar, crear enlaces preseleccionados simbólicos, editar archivos de texto, modificar permisos...). Si no quieres tener que estar escribiendo órdenes Unix con sus parámetros, puedes preferir usar en su lugar mc. Los _PostInstallLast preseleccionados Luego de esto iniciará el proceso de descarga e instalación de los paquetes seleccionados. La última ventana que aparece nos indicará si deseamos poner accesos directos en el menú de inicio y el escritorio. 6.3.1.2.CONFIGURACIÓN Debido a que Cygwin trabaja bajo entorno Linux, sobre Windows es necesario modificar la variable de Entorno de tal manera que pueda tomar los diferentes comandos propios de Linux Antes de correr el Bash10 debemos configurar algunas variables de entorno, dentro del archivo .bat localizado en el directorio raíz especificado en la instalación, se encuentran las correcciones necesarias para las variables de entorno, es necesario corregir la variable PATH en Windows dándole la ruta donde se encuentran los comandos propios de Linux, de lo contrario cygwin no reconocerá ninguna orden que le demos utilizando comandos Bash es un shell o intérprete de comandos de Unix, escrito para el proyecto GNU. Su nombre es un acrónimo de bourne-again shell. 10 UNIVERSIDAD NACIONAL COLOMBIA FACULTAD DE CIENCIAS ECONÓMICAS UNIDAD DE INFORMÁTICA Y COMUNICACIONES 16 PSPP Linux. Ya que esta variable es utilizada para especificar la trayectoria donde Cygwin encontrará los comandos de Linux. La corrección necesaria es la siguiente: %SystemRoot%\system32;%SystemRoot%;%SystemRoot%\System32\Wbem;C:\cygwin\bin; C:\cygwin\usr\sbin Debemos tener en cuenta que para Cygwin el disco corresponde al a carpeta Cygwin localizada en C, por lo tanto cualquier referencia dentro de la consola de comando al disco se debe hacer hacia esa carpeta. La Variable HOME es utilizada por muchos programas para determinar la localización de sus directorios, esta variable tambiés es tomada por Cygwin de Windows, revisemos que se encuentre dirigida a la carpeta de documentos. La variable TERM especifica el tipo de Terminal, se fija automáticamente en Cygwin La variable LD_LIBRARY_PATH es utilizada por la función de Cygwin dlopen como lista de directorios para cargar librerias .dll, esta variable se convierte de Windows a Unix cuando corremos el programa, la mayoría de procesos ejecutados en Cygwin no hacen uso de esta variable. Es necesario ser usuario root para ejecutar la instalación de un programa en Cygwin, la ventaja es que la sesión que instala Cygwin en Windows automáticamente se convierte en administrador del sistema y no necesita crear ni ejecutar otro usuario root. Finalizada la instalación y configuración de Cygwin se procederá a instalar y configurar PSPP 6.3.2.INSTALACION DE PSPP ¿Qué es PSPP? PSPP es un programa de análisis estadístico de datos muestrales. PSPP interpreta comandos de lenguaje SPSS, y produce información tabulada en ASCII, PostScrip o formato HTML. Una meta del proyecto PSPP es compatibilidad con el lenguaje de SPSS. Actualmente posee las siguientes características: Formato de salida de alta calidad: Presentación en tablas de excelente calidad y presentación las cuales se pueden exportar UNIVERSIDAD NACIONAL COLOMBIA FACULTAD DE CIENCIAS ECONÓMICAS UNIDAD DE INFORMÁTICA Y COMUNICACIONES 17 PSPP para presentaciones e imprimir. Esto se puede realizar por medio del lenguaje PostScript11, también es posible obtener nuestro trabajo expuesto en formato HTML o imprimirlos a través de otros terminales como impresoras de matriz de punto. PSPP posee un compilador de C ANSI, lo que permite su ejecución en cualquier sistema operativo Unix, ¿Qué puede hacer en PSPP? PSPP puede hacer bastante o poco dependiendo de cómo se mire, PSPP apoya la mayoría de transformaciones y utilidades, pero apoya solamente algunos procedimientos de análisis estadístico. Actualmente PSPP se encuentra en desarrollo por lo que se panea suplir esta carencia en futuras versiones, dentro de este manual encontraremos los comandos apoyados actualmente por PSPP ¿Qué se necesita para poder instalar y ejecutar adecuadamente PSPP? Cuando se vaya a instalar PSPP se necesita contar con los siguientes prerrequisitos: • Un compilador ANSI de C y sus herramientas • La librería GNU Cientific Library (GSL) versión 1.6 o superior, que incluye la librería ibgslcblas descargable desde http://www.gnu.org/software/gsl/ • Perl, versión 5.005_03 o superior, (Perl es requerido solo durante la instalación) descargable desde http://www.perl.com/download.csp • pkg-config (Únicamente si necesita regenerar la configuración después de modificado configure.ac descargable desde http://pkgconfig.freedesktop.org/releases/ • Opcional: Libncurse, si no esta instalado PSPP asumirá que esta corriendo en un equipo 80*25, http://www.gnu.org/software/ncurses/ 11 PostScript es un Lenguaje de Descripción de Página (en inglés PDL, Page Description Language), utilizado en muchas impresoras y como formato de transporte de archivos gráficos en talleres de impresión profesional. UNIVERSIDAD NACIONAL COLOMBIA FACULTAD DE CIENCIAS ECONÓMICAS UNIDAD DE INFORMÁTICA Y COMUNICACIONES 18 PSPP • Opcional: libreadline y libhistory. Sin estas dos librerías los comandos interactivos y el historial estarán deshabilitados. • Opcional: Libplot, (de GNU plotutils). Sin esta librería las características graficas no trabajaran y debe configurar PSPP para que trabaje son Libplot. http://ftp.gnu.org/pub/gnu/plotutils/plotutils-2.4.1.tar.gz • Opcional: GTK+ versión 2.6.0 o superior. Mas Libglade 2.0 o superior, sin ellos GUI12 no funcionará y debe configurar PSPP para que funcione sin GUI. http://www.gtk.org/download/ i386 Debian GNU/Linux fue la primera plataforma sobre la que se desarrollo PSPP, sin embargo no tiene ningún problema en instalarse sobre cualquier sistema Unix. ¿Dónde se puede conseguir PSPP? PSPP se puede descargar de la pagina: ftp://ftp.gnu.org/pub/gnu/pspp/. ftp://alpha.gnu.org/gnu/pspp/. http://savannah.gnu.org/projects/pspp. ¿Cómo se instala PSPP? • Descargue PSPP • Guarde el programa en un directorio accesible desde el entorno Cygwin • Ejecutamos Cygwin • Desde una consola de Cygwin seguiremos las instrucciones de instalación: Para descomprimir e instalar la versión disponible de PSPP debe ejecutar los siguientes comandos en la consola, estando en el directorio donde se encuentra la carpeta comprimida de PSPP: tar -xzf pspp-0.4.0.tar.gz cd pspp-0.4.0 ./configure 12 Interfaz gráfica de Usuario. UNIVERSIDAD NACIONAL COLOMBIA FACULTAD DE CIENCIAS ECONÓMICAS UNIDAD DE INFORMÁTICA Y COMUNICACIONES 19 PSPP make make check make install13 Podemos verificar que todos los paquetes que son prerrequisito para instalar PSPP están instalados y actualizados ejecutando los siguientes comandos: $sudo apt-get install autoconf automake1.9 gnulib gettext gettextbase texinfo smake build-essential pkg-config subversion subversionhelper-scripts subversion-tools libgsl0 libgsl0-dbg libgsl0-dev libperl5.8 perl perl-base perl-modules libncurses5 libncurses5-dbg libncurses5dev libreadline5 libreadline5-dbg libreadline5-dev libplot2c2 libplotdev libplotutils libgtk2.0-dev libgtk+2.0-directfb-dev libglade2-dev cvs libcvsservice0 gcvs14 Este comando verifica que se encuentren actualizados los paquetes necesarios para instalar correctamente PSPP, y si no lo están los actualiza automáticamente desde Internet. PSPP es muy versátil y existen diversos tipos de análisis disponibles para su ejecución, es necesario conocer los diferentes comandos para manejar de una manera apropiada PSPP y obtener el mayor provecho de este programa. 7. ASPECTO DE PSPP 7.1. PSPP Una vez finalizada la instalación de PSPP, para correr el programa desde la consola de Cygwin o Linux es necesario ejecutar el comando $PSPP, seguidamente aparece un mensaje de bienvenida al programa, la fecha, la hora, y PSPP queda listo para recibir órdenes. El mensaje de Bienvenida que aparece es el siguiente: 13 Universidad de Barcelona, http://www.ub.es/ci_seac/documents/pspp_windows.pdf consultado el 12 de Marzo de 2007 14 Mi Mundo Libre, http://tobalin-cristobal.blogspot.com/2006/12/cmo-instalar-psppire.html consultado el 28 de Abril de 2007 UNIVERSIDAD NACIONAL COLOMBIA FACULTAD DE CIENCIAS ECONÓMICAS UNIDAD DE INFORMÁTICA Y COMUNICACIONES 20 PSPP “PSPP es software libre y usted es bienvenido a distribuir copias de él, bajo ciertas condiciones; teclee "Show Copying”. Para ver las condiciones. No hay NINGUNA GARANTÍA ABSOLUTA para PSPP; teclee "Show Warrantly”, para ver mas detalles.” Ilustración 9 Aspecto de la consola al ejecutar PSPP Si ingresamos esos dos comandos que se presentan en el mensaje de Bienvenida podremos ver la licencia de PSPP y un mensaje de No garantía de PSPP. Ilustración 10 Mensaje NO WARRANTY de PSPP. UNIVERSIDAD NACIONAL COLOMBIA FACULTAD DE CIENCIAS ECONÓMICAS UNIDAD DE INFORMÁTICA Y COMUNICACIONES 21 PSPP Para salir de PSPP lo podemos hacer con el Comando QUIT o con la tecla ctrl.+C. A continuación vamos a conocer las principales funciones de PSPP en la rama de la Estadística Descriptiva, PSPP no tiene funciones econométricas, no permite hacer regresiones y esto es una limitación que evaluaremos mas adelante. TRANSFORMACIÓN DE DATOS: Es posible transformar los datos aplicando diferentes funciones que permitan un análisis posterior, con datos transformados que faciliten su análisis Estadístico, para realizar dichas transformaciones se utilizan comandos como COMPUTE, COUNT o dependiendo de la transformación que se desee aplicar es necesario conocer el comando y su utilización. SELECCIÓN DE DATOS PARA ANALIZAR: La selección de los datos también es un proceso que PSPP puede realizar, dependiendo del comando de selección que se utilice PSPP realiza una selección aleatoria, o condicionada, toma muestras o analiza la totalidad de los datos. SALVAR LOS DATOS: PSPP ofrece múltiples opciones para salvar los datos, es posible guardar una sintaxis que luego pueda ser importada a SPSS, se pueden guardar los datos en formato html, como archivo de texto, entre otros formatos disponibles. ESTADISTICAS ELEMENTALES: DESCRIPTIVAS: por medio del comando DESCRIPTIVE utilizado de la manera adecuada, PSPP devuelve las estadísticas descriptivas solicitadas. FREQUENCES: devuelve cuadros de frecuencia, además puede hallar también estadísticas descriptivas. EXAMINE: Este comando devuelve estadísticas descriptivas y gráficos CROSSTABS: Es utilizado para fijar tablas de contingencia. T-TEST: Realiza la prueba de comparación de medias con un valor fijado. ONEWAY: Realiza prueba de hipótesis de igualdad de medias. EXPRESIONES MATEMATICAS: Es posible utilizar PSPP para realizar cálculos matemáticos, como sumas, multiplicaciones, operaciones de relación, funciones aritméticas, trigonométricas entre otras. Esto es a grandes rasgos, los diferentes módulos estadísticos de PSPP. UNIVERSIDAD NACIONAL COLOMBIA FACULTAD DE CIENCIAS ECONÓMICAS UNIDAD DE INFORMÁTICA Y COMUNICACIONES 22 PSPP 7.2.PSPPIRE PSPPire es la interfaz grafica de PSPP, se encuentra actualmente en desarrollo, hasta marzo del presente año fue publicado como Software pre-alpha, estos software son publicados antes de lanzar una versión ALPHA o BETA, en contraste con las versiones ALPHA o BETA, en este software los diseñadores todavía se encuentran definiendo las funcionalidades que debe tener el producto. El software Alpha es la primera versión con características completas, es la primera versión que se publica para ser probada, también se utiliza este término para productos que todavía son inestables. La versión Beta representa generalmente la primera versión completa del software, es probable que sea inestable pero funcional.15 El software Pre-alpha de PSPP es demasiado inestable, no permite explorar ninguna herramienta, solo fue posible observar que su interfaz tiene similitud con el programa SPSS. Manejará igualmente dos ventanas, la vista de variables y de datos. Pero en este momento no es posible evaluar su funcionalidad ya que no permite realizar ninguna prueba. INSTALACIÓN de PSPPire: PSPPire para Windows se descarga como archivo .exe, es un ejecutable que con solo un click permite iniciar la instalación. 15 www.wikipedia.org UNIVERSIDAD NACIONAL COLOMBIA FACULTAD DE CIENCIAS ECONÓMICAS UNIDAD DE INFORMÁTICA Y COMUNICACIONES 23 PSPP Ilustración 11 Pantalla de Bienvenida Instalación PSPPire. Como cualquier otro programa para Windows presenta una pantalla de bienvenida, dentro del asistente para la instalación. Los pasos para realizar dicha instalación es simplemente leer los cuadros de dialogo y aprobar cada una de las ventanas. Ilustración 12 Licencia GNU La segunda ventana presenta la Licencia Publica General GNU, que presenta el software como libre. UNIVERSIDAD NACIONAL COLOMBIA FACULTAD DE CIENCIAS ECONÓMICAS UNIDAD DE INFORMÁTICA Y COMUNICACIONES 24 PSPP Ilustración 13 Ubicación de la Instalación. Finalmente una ventana antes de iniciar la instalación, señala la localización donde se va a instalar el programa y se inicia el proceso de instalación. Ilustración 14 Interfaz Grafica PSPP Concluido el proceso de instalación podemos apreciar la interfaz grafica todavía en desarrollo de PSPP, se pueden observar las dos vistas que también maneja SPSS, la vista de datos y la de variables en la cual se puede definir las diferentes propiedades de los datos. UNIVERSIDAD NACIONAL COLOMBIA FACULTAD DE CIENCIAS ECONÓMICAS UNIDAD DE INFORMÁTICA Y COMUNICACIONES 25 PSPP 8. CONOCIMIENTOS BASICOS DE PSPP 8.1.COMANDOS BASICOS LINUX Es muy importante tener un conocimiento básico en comandos de Linux, ya que sea por medio de Cygwin o directamente en Linux para poder instalar y ejecutar PSPP es necesario usar algunos comandos elementales, con soltura. Es importante aprendernos estos comandos que son muy básicos en un sistema Unix. $ man <Nombre del Comando>: Muestra para que sirve el comando que se referencia. Ej: $ man ls: señala las diferentes funciones del comando ls y como usarlo $ Cd <Nombre de la Carpeta>: permite ingresar a la carpeta referenciada. Ej: $ cd /home/Carlos Hernan/: Nos lleva a la carpeta Carlos Hernán dentro del directorio Home. $ ls <Nombre de la carpeta>: Muestra en pantalla el contenido del directorio señalado. $ pwd: Imprime el nombre del directorio en el que nos encontramos localizados. $ mkdir <Nombre del directorio>: Crea una carpeta o directorio en donde nos encontramos. $ mv <Nombre del Archivo /Nombredeldirectorio Nuevonombre>: Renombrar un archivo. $ mv <Nombredelarchivo /Nombredeldirectorio Nuevodirectorio>: Mover un archivo. $ ln <Nombredelarchivo Nuevonombre>: Crear una nueva referencia para un archivo. 8.2.COMO INICIAR PSPP PSPP funciona a través de líneas de comando en la consola Linux, así que este pequeño manual pretende mostrar como utilizar de una manera apropiada las diferentes funciones de PSPP. Para abrir el programa simplemente escribimos en la consola de Linux $ PSPP, seguido a esto PSPP nos da la bienvenida al programa y queda listo para recibir ordenes. $PSPP> UNIVERSIDAD NACIONAL COLOMBIA FACULTAD DE CIENCIAS ECONÓMICAS UNIDAD DE INFORMÁTICA Y COMUNICACIONES 26 PSPP 8.3.ARGUMENTOS DE OPCIONES Los archivos de sintaxis y los dispositivos de salida pueden ser especificados en lineas de comando de PSPP: file Un archivo en la línea de comando puede será ejecutado como un archivo de sintaxis. PSPP termina después de que el archivo de sintaxis se ejecuta, a menos que la opción -i or –interactive esté dada file1 file2 Cuando dos o más archivos están dados en la linea de comando, el primer archivo de sintaxis es ejcutado, entonces el diccionario de PSPP es despejado y alli el segundo archivo de sintaxis es ejecutado. file1 + file2 Si los archivos de sintaxis estan delimitados por un signo de suma ('+'), entonces el diccionario de PSPP no esta claro entre estas ejecuciones, como si estos estuvieran concatenados juntos en un solo archivo. Key=value Este comando define un dispositivo macro de salida, key que expande a value, por eliminación ninguna macro tiene la misma key definida en el archivo de configuración. Aquí hay otra forma de especificar un archivo de sintaxis, si el sitema operativo que usted maneja lo soporta. Si tiene un archivo de sintaxis 'foobar.stat, ponga la siguiente notación: #! /usr/local/bin/pspp Al principio y marque el archivo ejecutable con: chmod +x foobar.stat. (Si PSPP no tiene instalado en '/usr/local/bin', entonces inserte su actual directorio de instalación dentro del archivo de sintaxis). Ahora usted debe poder invocar el archivo de sintaxis escribiendo su nombre. Usted puede incluir cualquier opción en la linea de comando. PSPP ignora por completo cualquier línea que empiece con '#!. 8.4.OPCIONES DE CONFIGURACIÓN Las opciones de configuración son usadas para cambiar la configuración de PSPP para la actual ejecución. Las opciones de configuración son: -a {compatible|enhanced} UNIVERSIDAD NACIONAL COLOMBIA FACULTAD DE CIENCIAS ECONÓMICAS UNIDAD DE INFORMÁTICA Y COMUNICACIONES 27 PSPP --algorithm={compatible|enhanced} Si usted elige compatible, entonces PSPP usará los mismos algoritmos que a usado con algunas propiedades estadísticas determinadas en paquetes de análisis. Esto no es recomendado, ya que como estos algoritmos son inferiores. Por defecto se ajusta Enhanced. Algunos comandos tienen subcomandos los cuales le permiten invalidar este ajuste por un comando base. -B dir --config-dir=dir Fija la configuración del directorio dir. -o device --device=device Selecciones la salida con nombre device. Si esta opción esta dad mas de una vez, entonces todos los dispositivos mencionados son seleccionados. Esta opción deshabilita todos los dispositivos además son mencionados en la línea de comando. -d var[=value] --define=var[=value] Define un ‘entorno variable’ llamado var., teniendo la opción value value especificada. -u var --undef=var Quita la definición del entorno variable llamado var. 8.5.OPCIONES INPUT Y OUTPUT Las opciones Input y Output afectan como PSPP lee las entradas y escibe las salidas. Estas son las opciones input y output: -f file --out-file=file Esto elimina la salida del nombre de archivo para dispositivos designados como listado de dispositivos. Si un nombre es llamado file ya existe, este es sobrescrito. -p UNIVERSIDAD NACIONAL COLOMBIA FACULTAD DE CIENCIAS ECONÓMICAS UNIDAD DE INFORMÁTICA Y COMUNICACIONES 28 PSPP --pipe Permite a PSPP usar como filtro causando que el archivo de sintaxis sea leído desde stdin y output para ser escrito a stdout -I--no-include Limpia toods los directories incluido path. Esto incluye todos los directorios incluidos en path por defecto. -I dir --include=dir Añade el directorio dir a la trayectoria buscada para incluir en PSPP archivos de sintaxis. -c command --command=command Ejecuta el comando literal command. El comando es ejecutado antes de arrancar los archivos de sintaxis. --testing-mode Invoca heurística para asistencia y prueba de PSPP. Para usar ‘make check’ y escrituras similares. 8.6.LENGUAJE Y CONTROL DE OPCIONES El lenguaje de control de opciones, controla como los archivos de sintaxis de PSPP son analizados e interpretados. Los lenguajes de control disponibles son: -i --interactive Cuando un archive de sintaxis es especificado en la línea de comando, PSPP termina después de procesarlo. Dada esta opción PSPP traerá un aviso de comando después del procesamiento del archivo de sintaxis. En suma, los archivos de sintaxis son interpretados en modo interactivo, mejor que por defecto en modo ‘batch’. -n UNIVERSIDAD NACIONAL COLOMBIA FACULTAD DE CIENCIAS ECONÓMICAS UNIDAD DE INFORMÁTICA Y COMUNICACIONES 29 PSPP --edit --dry-run --just-print --recon Sólo la sintaxis de cualquier archivo de sintaxis específico o de comandos ejecutados en la línea de comandos son chequeados. Las transformaciones no son realizadas, procesadas ni ejecutadas. Todavía no implementadas. -r --no-statrc Previene la ejecución del arranque de archivos de sintaxis de PSPP. Todavía no están implementados para inicio de estos archivos. -s --safer Inhabilita de forma segura operaciones inseguras. Esto incluye los comandos ERASE y HOST, así como el uso de archivos input y output. 8.7.OPCIONES DE INFORMACIÓN Las opciones de información brindan información sobre PSPP para ser escritas en el terminal. Aquí hay las opciones disponibles: -h --help Imprime un mensaje describiendo la sintaxis de la línea de comando de PSPP y las clases de drivers disponibles. -l --list Lista de los driver y dispositivos disponibles. -x {compatible|enhanced} --syntax={compatible|enhanced} Si usted elige ‘compatible’, entonces PSPP solo aceptará comandos de sintaxis compatibles UNIVERSIDAD NACIONAL COLOMBIA FACULTAD DE CIENCIAS ECONÓMICAS UNIDAD DE INFORMÁTICA Y COMUNICACIONES 30 PSPP con las propiedades del programa SPSS. Si usted elige ‘enhanced` entonces sintaxis adicional estará disponible. Por defecto esta ‘enhanced`. -V --version Imprime un mensaje que de lista de las versiones de PSPP, usted no tiene garantías, derechos de copia y dirección de correo para reportar daños. -v --verbose Incrementa el nivel de idioma de PSPP. Un alto nivel causa que PSPP exhiba mayor cantidad de información sobre las labores que este realizando. A menudo es útil para eliminar configuración de PSPP. Esta opción puede darle múltiples formas para fijar el nivel de idioma para evaluar. El nivel de idioma configurado por defecto es 0, en el cual no se despliegan mensajes de información. Un nivel alto de de idioma causa el despliegue de mensajes cada vez que cada evento ejecutado tenga lugar. 1. Iniciación de driver o subsistemas. 2. Iniciación completa de driver. 3. Anuncio de cierre de driver 4. Archivos buscados para; sucesos buscados para 5. directorios individuales incluidos en los archivos de búsqueda. 8.8.LENGUAJE PSPP Este capitulo discute elementos comunes en muchos comandos de PSPP. En capitulos posteriores se describirán los estos comandos en detalle. 8.9.SIMBOLOS PSPP divide la mayoría de sus archivos de sintaxis dentro de series de pequeños pedazos llamados símbolos. Estos símbolos son agrupados en forma de comandos, cada uno de los cuales da a PSPP alguna acción (leer un dato, escribir un dato, realizar un procedimiento estadístico etc.). Cada tipo de símbolo se describe a continuación. Identificadores UNIVERSIDAD NACIONAL COLOMBIA FACULTAD DE CIENCIAS ECONÓMICAS UNIDAD DE INFORMÁTICA Y COMUNICACIONES 31 PSPP Son llamados identificadores variables típicas específicas, comandos o subcomandos. El primer carácter en un identificador debe ser una letra, ‘#’ o '@'. Los caracteres restantes en el identificador deben ser letras, digitos o uno de los siguientes caracteres especiales: ._$#@ Los identificadores pueden ser de cualquier longitud, pero solo los primeros 64 bytes son significativos. Los identificadores no son sensibles a diferentes formas de escritura de un caso: foobar, Foobar, FooBar, FOOBAR, and FoObaR son diferentes representaciones del mismo identificador. Algunos identificadores son reservados, estos no puende ser usados en cualquier contexto, además esos son descritos explícitamente en este manual. Los identificadores reservados son: ALL AND BY EQ GE GT LE LT NE NOT OR TO WITH Palabras claves Las palabras claves son subclases de identificadores que forman una parte fija de un comando de sintaxis. Por ejemplo, comando y subcomandos son llamados palabras claves, éstas pueden ser abreviadas a sus primeros tres caracteres, si su abreviación es es ambigua. (La única abreviación de más de tres caracteres también aceptada: 'FRE', 'FREQ', y 'FREQUENCIES' son equivalentes cuando la última es una palabra clave.). Los identificadores reservados son utilizados siempre como palabras claves. Otros identificadores pueden ser usados de ambas formas. Números Los números son expresados en decimales. El punto del decimal es opcional. Los números pueden ser expresados en notación científica adicionado 'e' y la base de exponente -10. de modo que '1.234e3'tiene valor de 1234. aquí hay algunos ejemplos de números validos: -5 3.14159265359 1e100 -.707 8945. Números negativos son expresados con el prefijo ‘-‘. Sin embargo, en situaciones donde el símbolo literal ‘-‘es esperado, que parezca ser un numero negativo tratado como ‘-‘seguido por un número positivo. El espacio en blanco entre los símbolos numéricos no es permitido, excepto espacios en blanco horizontales entre ‘-‘y el resto del numero. Por ejemplo , ‘8945.’ Será interpretado como dos símbolos, ‘8945’ y ‘.’, si este es el ultimo símbolo en la línea. Secuencias UNIVERSIDAD NACIONAL COLOMBIA FACULTAD DE CIENCIAS ECONÓMICAS UNIDAD DE INFORMÁTICA Y COMUNICACIONES 32 PSPP Son secuencias de caracteres incluidos en pares de comillas sencillas (“'”) o comillas dobles ('"'). Para incluir el carácter usado por paréntesis en la secuencia se duplica por ejemplo ''it''s an apostrophe''. Espacios en blanco y letras van dentro de las secuencias. Las secuencias pueden ser concatenadas usando ‘+’, así como '"a" + 'b' + 'c''es equivalente a ''abc''. La concatenación es útil para separar una sencilla secuencia a través de múltiples fuentes de línea. La máxima longitud de una secuencia, luego de la concatenación, es de 255 caracteres. Las secuencias también pueden ser expresadas como hexadecimal, octavos o caracteres binarios por prefijo inicial 'X', 'O', o 'B' o su equivalentes. Cada par, trío u octeto de caracteres, de acuerdo con la raíz, es transformado dentro de un carácter simple con el valor dado. Si existe un grupo incompleto de caracteres, la parte final de los dígitos son asumidos como '0’. Tales formas de secuencias no son portables ya que los valores numéricos están asociados con diferentes caracteres por diferentes sistemas de operaciones. Por lo tanto, su uso debe restringirse a los archivos de sintaxis que no son distribuidos. El carácter con valor 00 es reservado para uso interno de PSPP. Su uso en las secuencias causa un error y el reemplazarlo por un carácter de espacio. Puntuación y Operadores Estos símbolos son puntuaciones y operadores La mayoría de éstos aparecen dentro de comandos de sintaxis, pero el la puntuación (‘.’) es usado solo al final del comando. Es una puntuación solo como el último carácter de la línea (a excepción del espacio en blanco). Cuando es el último no-espacio en la línea. Un periodo no es tratado como parte de otro símbolo, aunque si de otra forma es parte de un identificador o un numero seguido de coma. Actualmente el carácter que finaliza un comando puede ser cambiado con el subcomando SET’s ENDCMD, pero no se recomienda. A través del resto de este manual asumiremos por defecto los ajustes como un efecto. 8.10.FORMANDO COMANDOS DE SIMBOLOS Muchos de los comandos que maneja PSPP comparten un estructura común. Un comando empieza con un comando de nombre, así como FREQUENCIES, DATA LIST, o N OF CASES. El comando de nombre puede ser abreviado a su primera palabra, y cada palabra dentro del comando puede ser a su vez abreviado a sus tres primeros (o más) caracteres, donde estas abreviaciones son ambiguas. El comando de nombre puede ser seguido por uno o más subcomandos. Cada UNIVERSIDAD NACIONAL COLOMBIA FACULTAD DE CIENCIAS ECONÓMICAS UNIDAD DE INFORMÁTICA Y COMUNICACIONES 33 PSPP subcomando empieza con un subcomando de nombre, el cual puede ser abreviado a sus tres primeros caracteres. Algunos subcomandos aceptan series de una o más especificaciones, los cuales son seguidos de subcomandos de nombre, separados opcionalmente por un signo de igualdad (‘=’). Las especificaciones pueden ser separadas a su vez unas de otras por comas o espacios. Cada subcomando debe ser separado del siguiente por un (‘/’). Hay muchas formas de marcar el final de un comando. La forma mas común de hacerlo es al final de la última línea del comando con el periodo (‘.’) como ya se describió en la anterior sección. Una línea en blanco, o una que consista solo en un espacio en blanco o comentarios, o también que terminen en un comando por defecto, aunque usted puede usar el subcomando NULLINE de SET para deshabilitar esta característica. Solo en modo batch, cuando se están leyendo comandos de un archivo en lugar de un usuario interactivo, cualquier línea que contenga un carácter no-espacio en la columna del lado izquierdo da inicio a un nuevo comando. Así, cada comando consiste en una línea flush-left seguida de cualquier número de líneas al margen izquierdo. En este modo u signo de suma, resta o un periodo (‘+’, ‘-‘, o ‘.’) como primer carácter en una línea, es ignorado y provoca que dicha línea empiece un nuevo comando. A veces, se encuentra archivos de sintaxis que son interpretados en modo interactivo mejor que en modo batch. Cuando esto ocurre, usar el comando ‘-i’ en la linea de comandos conlleva una interpretación en modo interactivo. 8.11.TIPOS DE COMANDOS Los comandos en PSPP están divididos en seis categorías: Comandos de utilidad Sistematiza o exhibe varias opciones globales que afectan las operaciones de PSPP. Puede aparecer en cualquier lugar dentro del archivo de sintaxis. Comandos de definición de archivos Da instrucciones para lectura de daros desde archivos de texto o desde un sistema especial de archivos binarios, muchos de estos comandos reemplazan cualquier dato o variable previa por una nueva. Por lo menos un comando de definición de archivo debe aparecer antes del primer comando en cualquiera de las categorías que siguen. Comandos de entrada de programa Aunque es raramente utilizado, este proporciona herramientas para la lectura de archivos de datos en texto arbitrario o formato binario. Transformaciones UNIVERSIDAD NACIONAL COLOMBIA FACULTAD DE CIENCIAS ECONÓMICAS UNIDAD DE INFORMÁTICA Y COMUNICACIONES 34 PSPP Realiza operaciones sobre datos y los escribe en archivos de salida. Las transformaciones no son realizadas sino hasta que un procedimiento es ejecutado. Transformaciones restringidas Son transformaciones que no pueden aparecer en ciertos contextos. Procedimientos Analiza datos, escribe resultados de análisis de una lista de archivos. Causa transformaciones específicas en los archivos procesados. En un sentido mas general, un procedimiento es un comando que causa que la fila activa (los datos) sea leída. 8.12. ORDEN DE COMANDOS PSPP no pone muchas restricciones en orden de comandos. La mayoría de restricciones es que las variables deben ser definidas antes de otra manera se referenciaran. Esta sección describe los detalles de los comandos de orden, pero muchos usuarios no tendrán necesidad de esta referencia. PSPP posee 5 estados internos, llamados INITIAL, INPUT PROGRAM, FILE TYPE, TRANSFORMACION Y ESTADOS DE PROCEDIMIENTOS. (Por favor tenga en cuenta la distinción entre los comandos de INPUT PROGRAM y FILE TYPE, y los estados de los mismos). PSPP inicia en el ESTADO INICIAL. Cada comando acertado puede causar un estado de transición. Cada tipo de comando tiene sus propias reglas para el estado de transición. COMANDOS DE UTILIDAD - validos en cualquier estado. No causan estados de transición. Excepción: cuando N OF CASES es ejecutado en el estado de procedimiento, esto provoca una transición al estado de transformación. LISTA DE DATOS -válidos en cualquier estado -cuando son ejecutados en el estado de procedimiento inicial, se provoca una transición al estado de transformación. -limpia la fila activa ARCHIVOS TIPO UNIVERSIDAD NACIONAL COLOMBIA FACULTAD DE CIENCIAS ECONÓMICAS UNIDAD DE INFORMÁTICA Y COMUNICACIONES 35 PSPP -inválido en INPUT PROGRAM y estados de FILE TYPE -provoca transición al estado FILE TYPE -limpia la fila activa Otras definiciones de archivos de comando -Inválido en INPUT PROGRAM y estados de FILE TYPE - provoca transición al estado de transformación -Limpia el archivo activo, excepto ADD FILES, MATCH FILES y UPDATE. Transformaciones - inválido en estados iniciales de FILE TYPE provoca transición al estado de transformación Transformaciones Restringidas - Inválida en inicio, INPUT PROGRAM y estados de FILE TYPE provoca transición al estado de transformación Procedimientos - Inválida en inicio, INPUT PROGRAM y estados de FILE TYPE Provoca transición al estado de procedimiento 8.13.MANEJO DE OBSERVACIONES FALTANTES PSPP incluye un soporte especial para valores de datos desconocidos. Las observaciones faltantes son asignadas con un valor especial, llamado el sistema de valores faltantes. Este “valor” actualmente indica la ausencia de valor; esto significa que el valor de esa variable es desconocido. Procedimientos automáticos excluyen del análisis esas observaciones o casos que tengan valores desconocidos. Detalles de la exclusión de valores depende del procedimiento y puede a veces ser controlado por el usuario. El sistema de valores perdidos existe solo para variables numéricas. Las secuencias de variables tienen un valor definido, aunque este es solo una secuencia de espacios. Las variables numéricas o las secuencias, pueden tener designado user-missing values. Cada user-missing value es un valor actual para esa variable. Sin embrago, la mayoria de veces user-missing values es tratado en la misma forma en q lo es el system-missing value. Secuencias de variables mayores a 8 caracteres, no pueden tener user-missing value. UNIVERSIDAD NACIONAL COLOMBIA FACULTAD DE CIENCIAS ECONÓMICAS UNIDAD DE INFORMÁTICA Y COMUNICACIONES 36 PSPP 8.14.VARIABLES Las variables son la unidad básica de almacenamiento de datos en PSPP. Todas las variables en un archivo toman cualquier dato asociado, se dice de un diccionario. Algunos detalles de las variables son descritas en las siguientes secciones. Atributos de las Variables Cada variable tiene un número de atributos, incluyendo: Nombre Un identificador, de más de 64 bytes de largo. Cada variable debe tener un nombre diferente. Algunos nombres para los sistemas de variables empiezan con ‘$’ pero no todas deben empezar así. El carácter final en el nombre de una variable puede no ser ‘.’, porque un identificador puede no ser interpretado cuando es el símbolo final en una línea: FOO, será dividido en dos símbolos separados, ‘FOO’ y ‘,’, indicando el final del comando. El carácter final en el nombre de una variable no puede ser ‘_’, porque algunos identificadores son usados para propósitos especiales en los procedimientos de PSPP. Asi con todos los identificadores de PSPP, los nombres de las variables no son casosensible. PSPP capitaliza los nombres de las variables sobre las salidas de la misma manera en que son capitalizadas en las entradas de la definición. Type Número o secuencia Extensión (sólo secuencias de variables) las secuencias de variables con una extensión de 8 caracteres o menos son llamados cadenas cortas de variables. Secuencias cortas de variables pueden ser usadas en muchos procedimientos donde cadenas largas de variables (aquellas con mas de 8 caracteres) no son permitidas. Algunos sistemas pueden ser considerados secuencias de mas de 8 caracteres como cadenas cortas. Ocho caracteres representan una mínima figura para la máxima longitud de cadenas cortas. Posición Las variables en el diccionario son organizadas en un orden específico. DISPLAY puede ser UNIVERSIDAD NACIONAL COLOMBIA FACULTAD DE CIENCIAS ECONÓMICAS UNIDAD DE INFORMÁTICA Y COMUNICACIONES 37 PSPP usado para mostrar este orden. Inicio Cualquier reinicio a 0 espacios para cada caso. Valores faltantes Opcionalmente, mas de tres valores, o rango de valores, o un valor especifico y un rango, pueden ser especificados como user-missing values. Esto también es un system-missing Value que es asignado a una observación cuando no hay otro valor obvio para esa observación. Las observaciones con valores faltantes son automáticamente excluidas del análisis. User-missing values son actuales valores de daros, mientras el sistema no tiene un valor. Etiqueta de variable Una secuencia que describe la variable. Etiqueta de valor Opcionalmente, esta asociada a cada posible valor de la variable con secuencia. Formato de impresión Exhibe la extensión, el formato y (para variables numéricas) números decimales. Este atributo no afecta la forma en que los datos son almacenados, solo como son exhibidos. Formato de escritura Similar al formato de impresión pero usado para ciertos comandos que son designados para escritura en archivos binarios. Variables Definidas Automáticamente por PSPP Existen siete sistemas de variables. Estas no son variables ordinarias porque el sistemas no siempre las almacena. Ellas pueden ser usadas solo en expresiones. Este sistema de variables, estos valores y los formatos de salida pueden ser modificados como se describe a continuación. $CASENUM: Caso numero del caso en el momento. Estos cambios son de carácter aleatorio $DATE: La fecha en PSPP en procesada al inicio, en formato A9, siguiendo el patrón DD MM YY. $JDATE: Numero de días entre el 15 Oct de 1582 y el momento en el que inicio el proceso de PSPP UNIVERSIDAD NACIONAL COLOMBIA FACULTAD DE CIENCIAS ECONÓMICAS UNIDAD DE INFORMÁTICA Y COMUNICACIONES 38 PSPP $LENGTH:Longitud de página, en líneas, en formato F11. $SYSMIS: Sistema de valores faltantes, en formato F1 $TIME: Numero de segundo entre la medianoche del 14 Oct de 1582 y el momento en que el archivo activo es leído, en formato F20 $WIDTH: Extensión de página, en caracteres, en formato F3 Lista de nombres de variables Para referirse a un sistema de variables, la lista de sus nombres se da después de otro sistema. Opcionalmente, sus nombres pueden ser separados por comas. Para incluir un rango de variables desde el diccionario en la lista, se escribe el nombre de la primera y la ultima variable del rango, separados por TO. Para el caso, en el que el diccionario contenga seis variables con los nombres ID, X1, X2, GOAL, MET, y NEXTGOAL, en ese orden, entonces X2 TO MET deberá incluir las variables X2, GOAL, and MET. Comandos que definan las variables, así como DATA LIST, dan a TO un significado alternativo. Con estos comandos, TO define secuencias de variables las cuales sus nombres finales en números enteros consecutivos. La sintaxis son dos identificadores que comienzan con la misma raíz y finalizan con números separados por TO. La sintaxis X1 TO X5 define 5 variables, llamadas X1, X2, X3, X4, y X5. La sintaxis ITEM0008 TO ITEM0013 define seis variables, llamadas ITEM0008, ITEM0009, ITEM0010, ITEM0011, ITEM0012, y ITEM00013. La sintaxis QUES001 TO QUES9 y QUES6 TO QUES3 es inválida. Luego de que un conjunto de variables ha sido definido con DATA LIST u otro comando con este método, el mismo conjunto puede ser referenciados sobre comandos que utilicen la misma sintaxis. Formatos de entrada y salida Los datos de entrada y salida de PSPP deben tener un número de formatos. Estos formatos son descritos, en general, por un formato de especificaciones de la forma NAMEw.d, donde name es el formato de nombre y w es la extensión del campo, d es el numero opcional deseado de posiciones decimales. Si d no es incluido entonces se asume como si fuera 0. Algunos formatos no permiten que d sea especificado. Cuando DATA LIST u otro comando que especifica un formato de entrada, ese formato es convertido en un formato de salida para propósitos del comando PRINT u otros comandos de datos de salida. Para más propósitos, los formatos de entrada y salida son los mismos; las diferencias son descritas a continuación. En la siguiente parte son enumerados los formatos de entrada y salida que maneja PSPP. Cada formato tiene un límite de extensión definido de entrada (iw) y salida (ow). UNIVERSIDAD NACIONAL COLOMBIA FACULTAD DE CIENCIAS ECONÓMICAS UNIDAD DE INFORMÁTICA Y COMUNICACIONES 39 PSPP El estándar numérico de formatos de entrada y salida se da en la siguiente tabla: Fw.d: 1 <= Formato decimal con d espacios decimales. Si el numero es muy iw,ow <= 40 largo para caber dentro del campo de extensión, es expresado en notación científica (1.2+34) if w >= 6, siempre por lo menos con dos dígitos en el exponente. Cuando es usado como un formato de salida, la notación científica es permitida pero una E o una F debe ser usada para introducir el exponente. el formato de salida por defecto es el mismo que el de entrada, excepto si d >1. en ese caso la salida w siempre es al menos 2+d. Ew.d: 1 <= iw Para entrada el formato F es equivalente excepto cuando E o F es <= 40; 6 <= requerido para introducir el exponente. Para salidas, se produce ow <= 40 notación científica en la forma 1.2+34. Siempre hay por lo menos dos dígitos dados en el exponente. La salida w por defecto es mas larga que la entrada w, la salida d+7, y 10. la salida d por defecto es la entrada, pero al menos 3. COMMAw.d: <= iw,ow 40 1 Equivalente al formato F, excepto grupos de tres dígitos donde son <= separados por comas 9. CONTRASTE PSPP vs. SPSS Actualmente la versión 0.4.0 de PSPP se encuentra incompleta, motivo por le cual actualmente es un software bastante básico en el análisis estadístico, PSPP puede ser utilizado para análisis estadísticos elementales, es posible preparar informes de los resultados obtenidos de los datos, transformarlos y analizarlos. Proceso de instalación: El proceso de instalación si lo comparamos con el de cualquier aplicación que corra sobre Microsoft Windows podríamos decir que es mucho mas complicada, debido a que requiere conocimientos básicos en sistemas Unix, sumado a que PSPP se apoya en varias librerías que en algunas ocasiones no se encuentran disponibles en las instalaciones de Linux y es necesario realizarlas antes de instalar PSPP lo que UNIVERSIDAD NACIONAL COLOMBIA FACULTAD DE CIENCIAS ECONÓMICAS UNIDAD DE INFORMÁTICA Y COMUNICACIONES 40 PSPP dificulta en cierta medida este proceso. Otro inconveniente para la implementación de PSPP como una alternativa de software estadístico, es que no corre bajo sistemas Windows directamente, se requiere la instalación de Cygwin, que también resulta bastante demorada. Manejo de Comandos Unix: Es sustancialmente necesario que el usuario que decida implementar PSPP como herramienta de análisis estadístico tenga conocimientos básicos de los comandos Unix para el manejo de la consola. Aspecto que dificulta la interacción con usuarios acostumbrados a ambientes Windows, sin embargo no es un impedimento para trabajar la herramienta. El programa SPSS es una potente herramienta de análisis estadístico, SPSS funciona mediante menús desplegables y cuadros de diálogo lo que permite realizar de una manera muy sencilla análisis bastante completos. La interfaz grafica de SPSS es muy similar a una hoja de cálculo, esta ventana se llama “El editor de datos” y es la ventana principal del programa, pero no es la única existen ocho tipos de ventanas que facilitan el proceso de análisis de los datos. El Visor de resultados: Recoge toda la información, estadísticos, tablas, gráficos, etc.… Editor de Tablas: Brinda la posibilidad de editar los resultados de tablas Editor de Gráficos: Permite modificar colores, tipo de letra, etiquetas de un gráfico. Editor de Texto: Permite modificar los diferentes atributos de los resultados tipo texto. Borrador del Visor de Resultados: ofrece la misma información del visor de resultados pero en formato texto y sin la posibilidad de edición del visor normal. Editor de Sintaxis: Permite utilizar las posibilidades de programación de SPSS para realizar los mismos procedimientos que en el entorno gráfico. Editor de Procesos: Permite personalizar y automatizar algunas tareas de SPSS.16 Actualmente SPSS es muy usado en las ciencias sociales y en la investigación de mercados SPSS posee además de los módulos de Estadística descriptiva algunos módulos adicionales 16 http://www2.uca.es/serv/ai/formacion/spss/Pantalla/01estruc.pdf UNIVERSIDAD NACIONAL COLOMBIA FACULTAD DE CIENCIAS ECONÓMICAS UNIDAD DE INFORMÁTICA Y COMUNICACIONES 41 PSPP que complementan sus funciones: Modelos de Regresión Modelos Avanzados o “Reducción de datos: Permite crear variables sintéticas a partir de variables colineales por medio del Análisis Factorial. o Clasificación: Permite realizar agrupaciones de observaciones o de variables (cluster analysis) mediante tres algoritmos distintos. o Pruebas no paramétricas: Permite realizar distintas pruebas estadísticas especializadas en distribuciones no normales. • Tablas: Permite al usuario dar un formato especial a las salidas de los datos para su uso posterior. Existe una cierta tendencia dentro de los usuarios y de los desarrolladores del software por dejar de lado el sistema original de TABLES para hacer uso más extensivo de las llamadas CUSTOM TABLES. • Tendencias • Categorías: Permite realizar análisis multivariados de variables normalmente categorías. También se pueden usar variables métricas siempre que se realice el proceso de recodificación adecuado de las mismas. • Análisis Conjunto: Permite realizar el análisis de datos recogidos para este tipo especifico de pruebas estadísticas. • Mapas: Permite la representación geográfica de la información contenida en un fichero. • Pruebas Exactas: Permite realizar pruebas estadísticas en muestras pequeñas. • Análisis de Valores Perdidos: Regresión simple basada en imputaciones sobre los valores ausentes. • Muestras Complejas: Permite trabajar para la creación de muestras estratificadas, por conglomerados u otros tipos de muestras. • SamplePower (cálculo de tamaños muestrales) • Árboles de Clasificación: Permite formular árboles de clasificación y/o decisión con lo cual se puede identificar la conformación de grupos y predecir la conducta de sus miembros. • Validación de Datos: Permite al usuario realizar revisiones lógicas de la información contenida en un fichero .sav. y obtener reportes de los valores considerados extraños. Es similar al uso de sintaxis o scripts para realizar revisiones de los ficheros. De la misma forma que estos mecanismos es posterior a la digitalización de los datos. UNIVERSIDAD NACIONAL COLOMBIA FACULTAD DE CIENCIAS ECONÓMICAS UNIDAD DE INFORMÁTICA Y COMUNICACIONES 42 PSPP • SPSS Programmability Extension (SPSS 14). Permite utilizar el lenguaje de programación Python para un mejor control de diversos procesos dentro del programa que hasta ahora eran realizados principalmente mediante scripts (con el lenguaje SAX Basic)”. 17 Esta pequeña introducción al manejo entorno SPSS nos deja ver que es un programa muy potente y completo, PSPP es un proyecto que busca equipararse con SPSS, esperamos que pronto llegue a ser un poco similar ya que resulta muy complicado acceder a SPSS por problemas de licencia, que resulta demasiado costosa para un usuario, es por esto que se usa mucho en grandes industrias pero a nivel personal no es muy usado. Ubicándonos en el marco del Software libre quisiera presentar el proyecto R como una alternativa a SPSS, R es un lenguaje y entorno de programación para análisis estadístico y gráfico. Se trata de un proyecto de software libre, resultado de la implementación GNU del premiado lenguaje S. R y S-Plus -versión comercial de S- son, probablemente, los dos lenguajes más utilizados en investigación por la comunidad estadística, siendo además muy populares en el campo de la investigación biomédica y en la bioinformática.18 La utilización del software R para los cálculos estadísticos es compatible con la utilización de PSPP, que puede efectuar operaciones de gestión de datos menos accesibles con R. es por esto que podemos presentarlo como una alternativa mucho mas eficaz al Software comercial SPSS. Por los problemas señalados anteriormente con PSPP. 17 http://es.wikipedia.org/wiki/Statistical_Product_and_Service_Solutions 18 Wikipedia, http://es.wikipedia.org/wiki/Lenguaje_R UNIVERSIDAD NACIONAL COLOMBIA FACULTAD DE CIENCIAS ECONÓMICAS UNIDAD DE INFORMÁTICA Y COMUNICACIONES 43 PSPP 10. CONCLUSIONES 10.1 PSPP es una herramienta de análisis estadístico que no corre directamente sobre sistemas Windows, lo que dificulta en cierta medida su utilización por los usuarios acostumbrados a trabajar en este entorno. Se han dado algunos desarrollos de PSPP para Sistemas Windows pero están en una etapa muy básica, por lo tanto considero que es importante esperar un poco mas para ver que futuros desarrollos serán aportados a esta herramienta. 10.2. El lenguaje de línea de comandos mediante el cual funcionan las versiones estables de PSPP es un poco difícil de manejar y no resulta atractivo para un usuario acostumbrado a trabajar con interfaz gráfica el hecho de tener que recordar demasiados comandos. 10.3. El proceso de instalación de PSPP si bien no resulta complicado para alguien que conozca algunos aspectos básicos de sistemas Operativos Unix, es demasiado engorroso para quienes están acostumbrados a instalar programas en Windows, donde solo se ejecuta un Setup y se sigue guiado por un asistente. 10.4. Cygwin es una herramienta bastante interesante para iniciarnos en el mundo del software libre, ya que nos permite conocer el funcionamiento de un sistema Unix sin necesidad de instalarlo en nuestro equipo y poder explorarlo, hasta el momento en que consideremos podremos defendernos adecuadamente en estos Sistemas operativos. 10.5. PSPP es un proyecto aun muy básico dentro del campo de la estadística, se encuentra todavía en desarrollo y se había estancado por algunos años, por lo cual la comunidad de desarrolladores y usuarios es muy pequeña, lo que dificulta encontrar bibliografía sobre este programa y retrasó un poco esta investigación. UNIVERSIDAD NACIONAL COLOMBIA FACULTAD DE CIENCIAS ECONÓMICAS UNIDAD DE INFORMÁTICA Y COMUNICACIONES 44 PSPP 11. BIBLIOGRAFIA 1. Pagina Oficial del Proyecto PSPP. http://www.gnu.org/software/pspp/ 2. Pagina Oficial de Cygwin, www.cygwin.com. 3. Proyecto NAVE, http://www.proyectonave.es/docs/cygwin_inst.php Universidad de Barcelona, http://www.ub.es/ci_seac/documents/pspp_windows.pdf consultado el 12 de Marzo de 2007 4. Mi Mundo Libre, Blog dedicado a Linux-Ubuntu. cristobal.blogspot.com/2006/12/cmo-instalar-psppire.html http://tobalin- 5. Sitio Web central para el Desarrollo, distribución y mantenimiento de Software libre. http://savannah.gnu.org/ 6. Centre Interuniversitaire de Calcul de Toulouse, http://cict.fr/~stpierre/docpspp.pdf 7. Lideres en Analíticos Predictivos SPSS. Fundamentos de SPSS para Windows. 8. R Estadístico, Investigación Unidad de Informática Facultad de Ciencias Económicas. Universidad Nacional de Colombia. Septiembre de 2006. 9. SPSS Guía de Análisis http://www2.uca.es/serv/ai/formacion/spss/Inicio.pdf de UNIVERSIDAD NACIONAL COLOMBIA FACULTAD DE CIENCIAS ECONÓMICAS UNIDAD DE INFORMÁTICA Y COMUNICACIONES 45 datos.