Bases computacionales para el análisis estadístico

©Manuel Miguel Ramos Álvarez Recursos metodológicos y estadísticos II-1 UNIVERSIDAD DE JAÉN Material del curso “Recursos metodológicos y estadísticos para la docencia e investigación” Manuel Miguel Ramos Álvarez Índice M A A O T S M E E P R S U T A A L C O N A L E S MA AT “B BA AS CO OM ” TE SE MP ER ES PU RIIIA SC UT TA AL AC L IIII “ CIIIO ON NA AL LE ES S” Bases informáticas para el análisis estadístico ..................................................... 2 2.1. 2.1.1. Programas de utilidad según la etapa de análisis ............................................ 3 2.1.2. Focalización en el programa SPSS ................................................................ 5 2.1.2.1. Ventanas básicas del programa SPSS......................................................... 6 2.1.2.2. Sistema de Menús en el programa SPSS................................................... 10 • Generales .................................................................................................... 10 • Procesamiento de Datos ................................................................................. 10 • Analizar ....................................................................................................... 11 • Gráficos ....................................................................................................... 18 • Utilidades (Herramientas automatización) ......................................................... 19 • Ayudas ........................................................................................................ 19 2.1.3. El programa Statistica .............................................................................. 20 2.1.3.1. Ventanas básicas del programa Statistica ................................................. 20 2.1.3.2. Sistema de Menús en el programa Statistica ............................................. 24 • Generales .................................................................................................... 24 • Procesamiento de Datos ................................................................................. 25 • Analizar ....................................................................................................... 26 • Gráficos ....................................................................................................... 34 • Utilidades (Herramientas automatización) ......................................................... 35 • Ayudas ........................................................................................................ 35 2.1.4. El entorno R............................................................................................ 36 2.1.4.1. Ventanas básicas del programa R ............................................................ 36 2.1.4.2. Bases del programa R............................................................................ 37 2.1.4.3. Mejoras del programa R para los usuarios de Windows ............................... 38 2.2. Procesamiento inicial de los datos para una primera comprensión de los mismos.... 40 2.2.1. Introducción a la Codificación de variables................................................... 41 2.2.2. Estructura del fichero de datos .................................................................. 43 2.2.3. Ejemplificación de la introducción de datos a partir del Supuesto 2 mediante el programa Excel.................................................................................................... 44 2.2.4. Ejemplificación de la introducción de datos a partir del Supuesto 1 mediante programas de Análisis estadístico ........................................................................... 48 2.2.5. Ejemplificación de la introducción de datos a partir del Supuesto 3 mediante programas de Análisis estadístico ........................................................................... 50 2.2.6. Almacenamiento y edición de los ficheros de datos ....................................... 51 2.2.7. Importación de ficheros de datos a partir del Supuesto 2............................... 53 2.2.8. Incorporación de nueva información a partir de los datos básicos ................... 57 2.2.9. Selección de información (aplicación de un filtro de datos)............................. 62 2.2.10. Manipulación de ficheros en el Entorno R .................................................. 67 2.3. Casos prácticos ............................................................................................. 69 1 ©Manuel Miguel Ramos Álvarez Recursos metodológicos y estadísticos II-2 2.1. Bases informáticas para el análisis estadístico o o Programas de utilidad según la etapa de análisis. Focalización en el programa SPSS. 2 ©Manuel Miguel Ramos Álvarez Recursos metodológicos y estadísticos 2.1.1. • • • II-3 Programas de utilidad según la etapa de análisis Una de las contribuciones más importantes de los ordenadores a la ciencia en general: el gran impulso a la difusión de las técnicas de análisis de datos. El crecimiento de los paquetes estadísticos y su abaratamiento ha tenido consecuencias beneficiosas en cuanto a la ampliación del número de técnicas de análisis disponibles Un inconveniente: los paquetes estadísticos han impuesto unas determinadas maneras de realizar los análisis. Por ejemplo, algunos paquetes, como SPSS no permiten realizar pruebas no planeadas en variables manipuladas intra-sujetos. Guía de los Programas de Análisis Programa Excel Ámbito Procesam. inicial datos Información http://www.microsoft.com/spain/support/ BMDP Win General http://www.statsol.ie/bmdp/bmdp.htm ------- SAS General, Salud http://www.sas.com/technologies/analytics/statistics/ ------- SPSS General, Educativa General, Experimen. EDA, Educativa http://www.spss.com/ Sí http://www.statsoft.com/ Sí- http://www.systat.com/ ------- Sí SAS/JMP (SAS/INSIGHT*) Statistica SYSTAT Autosignal Peakfit TableCurve 2D, 3D Sigmaplot Dispon. Sí http://www.ujaen.es/sci/invdoc/soft/microinf/acuespe/officeXP/officeXP.html STAT-GRAPHICS General, Experimen. http://www.statgraphics.com S-Plus No Lineal-EDA, Economía ModelizaciónEDA Propósito general Ecuaciones estructurales Ecuaciones estructurales y Modelos Jerárquicos Series Temporales Series Temporales Programación matemática/ estadística Programación estadística y análisis especilizados www.insightful.com Sí- www.minitab.com Sí- http://www.stata.com/ ------- http://www.mvsoft.com/products.htm ------- http://www.ssicentral.com/sp.html ------- http://www.estima.com/ ------- http://www.tspintl.com/ ------- http://www.aptech.com/ ------- http://www.r-project.org/ Sí (gratis) Minitab Stata EQS LISREL HLM RATS TSP GAUSS R http://www.ujaen.es/sci/invdoc/soft/microinf/acuespe/statg/statg5esp.html http://cran.es.r-project.org/bin/windows/base/R-2.8.1win32.exe 3 ©Manuel Miguel Ramos Álvarez Recursos metodológicos y estadísticos II-4 Especialmente recomendables: • http://www.statsoft.com/textbook/stathome.html • http://www.stat.ucla.edu/textbook/ • Documentación de Software estadístico para programación, de libre distribución: http://www.r-project.org/ • Páginas Web de autores destacados, que incluyen la implementación de pruebas específicas mediante programas gratuitos. o Meta-análisis: http://www.powerandprecision.com/ o Potencia estadística: http://www.mvsoft.com/ o Rand Wilcox, Professor of Psychology at USC, has developed a set of S-Plus (as well as R) macros to accompany his book (and the upcoming new edition): Introduction To Robust Estimation and Hypothesis Testing Academic Press, 2005 and other. Los Macros: http://www-rcf.usc.edu/~rwilcox/ Enfocados en el análisis cualitativo: ¾ Se puede acceder a los mismos a través de una de las siguientes direcciones: www.provalisresearch.com ó http://socserv.mcmaster.ca/w3virtsoclib/software.htm • Annotape. Is a system for recording, analysing and transcribing audio data for qualitative research • ATLAS/ti. Is a software product for qualitative data analysis • CAQDAS. Is the Computer Assisted Qualitative Data Analysis Software Networking Project • HyperResearch. Is qualitative data analysis software package enabling you to code and retrieve, build theories, and conduct analyses of your data • ITALASSI. Interaction Viewer for Regression Models • Leximancer. Identifies key themes, concepts and ideas from unstructured text • LOGISTIC. Logistic regression program (DOS) • MVSP. Multivariate statistical analysis package • ORIANA. Circular data statistical software • PRACTICEMILL. Authoring and Testing Tool for Teachers and Trainers • QDA MINER. Text management and qualitative analysis program • QSR International offer three software products for qualitative data analysis. One of these is the most widely used QDA software product called NUD*IST (or N6), another is NVivo. • Qualrus. Is a general-purpose qualitative analysis program which supports text and multimedia sources • SIMSTAT. Statistical Analysis software • TextAnalyst. Is a system for semantic text analysis and navigation. • The Ethnograph. Is the second most widely used software for qualitative data analysis in the world. • WordStat. Is a content analysis / qualitative analysis software product. Content Analysis & Text Mining module for Simstat or QDA Miner. 4 ©Manuel Miguel Ramos Álvarez Recursos metodológicos y estadísticos 2.1.2. II-5 Focalización en el programa SPSS 1. Sin duda uno de los paquetes que más amplia aceptación tiene es SPSS, un paquete cuyo interfaz de usuario ha mejorado considerablemente en las últimas versiones. 2. Sus ventajas fundamentales son incuestionables: o Facilidad de manejo, marcos y ventanas cuya organización facilita la comprensión del análisis y su gran abanico de técnicas estadísticas. En la mayoría de los temas nuestra exposición viene acompañada por los comandos de SPSS que son necesarios para lograr los objetivos de análisis, acompañados por la salida que ofrece. o Además se ha impuesto en el mercado, lo que contribuye a la unificación (comparable a Windows como sistema operativo) y la continua actualización. o Unido a lo anterior, es previsible que proporcione cobertura técnica a los usuarios en el futuro y que depure las ayudas y documentación. 3. Desventajas: o La organización de las técnicas de análisis y de las opciones gráficas deja que desear puesto que mezcla la aproximación estadística clásica con la más modera, lo que desemboca en un gran solapamiento de las opciones y técnicas. o Impone estilos de análisis que no están justificados en la literatura estadística especializada, como por ejemplo para los diseños de medidas repetidas o para el cálculo de errores globales en el análisis detallado tipo ANOVA. o Su elevado coste. La licencia básica es muy costosa y además expira en un año. o Unido a lo anterior, gran cantidad de técnicas de análisis especializados hay que adquirirlas con un coste adicional que sigue siendo elevado. o Desde el punto de vista del software resulta un programa pobre, puesto que es lento en muchas ocasiones y además aborta los procesos con elevada frecuencia. 4. Disponibilidad en la Universidad Jaén: http://www.ujaen.es/sci/invdoc/soft/microinf/acuespe/spss/spss11.html http://www.ujaen.es/sci/invdoc/soft/microinf/acuespe/spss/amos50.html Donde por un coste muy bajo se puede adquirir una licencia para ordenador personal y renovar los códigos todos los años, gracias a la cobertura del servicio central de informática. 5. Menús de ayuda y tutoriales: C:\Archivos de programa\SPSS\tutorial\spsstut\introtut2.htm 5 ©Manuel Miguel Ramos Álvarez Recursos metodológicos y estadísticos 2.1.2.1. II-6 Ventanas básicas del programa SPSS Ventana Inicial del Programa 6 ©Manuel Miguel Ramos Álvarez Recursos metodológicos y estadísticos II-7 Ventana Principal del Programa Título Menús Herramientas Edición Área Datos: Matricial Desplazamientos Opciones Datos Barra Estado 7 ©Manuel Miguel Ramos Álvarez Recursos metodológicos y estadísticos II-8 Ventana Análisis Prototípica del Programa Área Variables Disponibles Área Definición Variables Área Comandos y Opciones del Módulo análisis Área Comandos y Opciones generales 8 ©Manuel Miguel Ramos Álvarez Recursos metodológicos y estadísticos II-9 Ventana Resultados Prototípica del Programa Área Títulos Área Resultados según título elegido Área Opciones Edición 9 ©Manuel Miguel Ramos Álvarez Recursos metodológicos y estadísticos 2.1.2.2. Sistema de Menús en el programa SPSS • Generales II-10 Menús: Archivo, Edición y Ver • Procesamiento de Datos Menús: Datos y Transformar 10 ©Manuel Miguel Ramos Álvarez Recursos metodológicos y estadísticos • II-11 Analizar A) Resumen de la información: Análisis descriptivo-exploratorio Para Ayudar en la creación de tablas resumen del apartado de resultados, cuando se desea tantear los resultados con la lógica de ANOVA. La Opción de Resumen Descriptivo más importante. • Para Distribución de Frecuencias (aprox. clásica), • la opción de descripción, • EDA, • Tablas de Contingencia para Diseños Categóricos • Análisis especializados de escala de medida fuerte (Tipo Razón). Generación más sofisticada de Tablas de Contingencia. 11 ©Manuel Miguel Ramos Álvarez Recursos metodológicos y estadísticos II-12 Para Ayudar nuevamente en la creación de tablas resumen del apartado de resultados, pero cuando interesa agrupar según muchas categorías más que tantear los resultados. 12 ©Manuel Miguel Ramos Álvarez Recursos metodológicos y estadísticos II-13 B) Análisis inferencial básico: Modelo Lineal General: ANOVA y Regresión Contraste de Hipótesis sobre la Media (Lineal-ANOVA) con enfoque clásico. Análisis del Modelo Lineal General. • Una única variable Dependiente. • Más de una variable dependiente. • Diseños Intrasujetos o de medidas repetidas. • Diseños especializados de Efectos Mixtos (algunas vv, independientes son de efectos fijos y algunas de efectos aleatorios). Análisis del Modelo Lineal General para diseños especializados como por ejemplo Covariados o Factoriales Mixtos Complejos. 13 ©Manuel Miguel Ramos Álvarez Recursos metodológicos y estadísticos II-14 Análisis de tipo Regresión con enfoque clásico. • Dos variables • Controlando el influjo de terceras variables. • Distancias que intervienen en cálculos de residuales y sobre todo del tipo Multivariado (como la Distancia Euclídea). Análisis de tipo Regresión según el enfoque del Modelo Lineal para diseños correlaciones (Cuadrante 1º) pero mezcla también el Modelo Lineal Generalizado para diseños categóricos espacialmente para regresión logística (Cuadrantes 2º y 4º), así como opciones No Lineales (Cuadrante 3º). 14 ©Manuel Miguel Ramos Álvarez Recursos metodológicos y estadísticos II-15 C) Análisis de los supuestos del Modelo y pruebas alternativas No Paramétricas Compendio de pruebas No paramétricas con distinta finalidad (ver el cuadro clasificatorio de pruebas No Paramétricas). D) Generalización al diseño categórico Análisis de diseños categóricos desde el punto de vista del enfoque del Modelo Lineal, permitiendo obtener el Modelo Óptimo que mejor ajusta a los datos. 15 ©Manuel Miguel Ramos Álvarez Recursos metodológicos y estadísticos II-16 E) Análisis avanzado: Técnicas Multivariantes Análisis del tipo Clúster y Discriminante para clasificar datos según los casos o las variables. Por ejemplo se extraen 5 agrupaciones a partir de insectos de diferentes tipos. Análisis del Factorial con un objetivo descriptivo avanzado. Por ejemplo, un conjunto de 100 indicadores de calidad se resume (reduce) a partir de 6 factores. Análisis de escalas de utilidad en Ciencias de corte comportamental, social y educativo Por ejemplo, análisis de la fiabilidad o exactitud de una medida. 16 ©Manuel Miguel Ramos Álvarez Recursos metodológicos y estadísticos II-17 Análisis de series temporales (muchas medidas a través del tiempo), especialmente con aproximación ARIMA basada en autorregresión. Por ejemplo abstraer el modelo que subyace al patrón de las medidas de una sustancia contaminante a través de los registros de todo un año. Análisis de supervivencia, de aplicación en el ámbito de Ciencias de la Salud en el que interesa estudiar los datos que van quedando con el transcurso del tiempo o tras la aplicación de programas de tratamiento. 17 ©Manuel Miguel Ramos Álvarez Recursos metodológicos y estadísticos • II-18 Gráficos Los tipos de representaciones Gráficas en SPSS A D B A B E C E B E A F F E F A) Tipo Histograma (Barras-Columnas-Histograma, Pareto) B) Tipo Polígono Frecuencias (Líneas, Secuencia, Superficie) C) Tipo Diagrama Simbólico (Sectores, Iconos, Imágenes) D) Tipo Diagrama Dispersión E) Tipo EDA (Max-Min, Cajas, P-P y Q-Q Normal) F) Fines Específicos: Para Series Temporales (Autocorrelaciones, Correlaciones Cruzadas, Espectral), Barras de Error –Rangos- o para Control Calidad. 18 ©Manuel Miguel Ramos Álvarez Recursos metodológicos y estadísticos II-19 • Utilidades (Herramientas automatización) • Ayudas Volver Principio 19 ©Manuel Miguel Ramos Álvarez Recursos metodológicos y estadísticos 2.1.3. II-20 El programa Statistica Teniendo en cuenta los pros y contras que se expusieron respecto al programa SPSS, el programa Statistica de la compañía StatSsoft quizás constituye una de las mejores opciones alternativas puesto que aventaja al primero en la mayoría de los inconvenientes expuestos. Recientemente se ha adaptado al castellano, aunque cuesta bastante obtenerla. Un inconveniente es su precio, que ha incrementado considerablemente en el último año. 2.1.3.1. Ventanas básicas del programa Statistica Ventana Inicial del Programa 20 ©Manuel Miguel Ramos Álvarez Recursos metodológicos y estadísticos II-21 Ventana Principal del Programa Título Menús Herramientas Desplazamientos Área Datos: Matricial Accesos Directos a tareas Barra Estado Para Editar las propiedades de los Datos 21 ©Manuel Miguel Ramos Álvarez Recursos metodológicos y estadísticos II-22 Ventana Análisis Prototípica del Programa ¾ La lógica es la contraria a la del programa SPSS puesto que en Statistica, primero se le indica al programa cuál es el diseño para un tipo particular de opción analítica y posteriormente es cuando se pueden plantear los cálculos adicionales relevantes al módulo analítico en cuestión. 2.1.Área Variables Disponibles [1] Área Comandos y Opciones generales [2] Definir Diseño 2.3. Parámetros Diseño estadístico 2.2.Área Definición Variables [3] Área Comandos y Opciones del Módulo análisis 3.1. Opciones adicionales del Módulo análisis 22 ©Manuel Miguel Ramos Álvarez Recursos metodológicos y estadísticos II-23 Ventana Resultados Prototípica del Programa Área Títulos Área Resultados según título elegido Área Opciones Edición Botón de retorno al análisis que se está efectuando Pestañas para seleccionar resultados consultados recientemente 23 ©Manuel Miguel Ramos Álvarez Recursos metodológicos y estadísticos 2.1.3.2. Sistema de Menús en el programa Statistica • Generales II-24 Menús: File, Edit, View y Window 24 ©Manuel Miguel Ramos Álvarez Recursos metodológicos y estadísticos • II-25 Procesamiento de Datos Menús: Insert, Format y Data 25 ©Manuel Miguel Ramos Álvarez Recursos metodológicos y estadísticos • II-26 Analizar En general: 26 ©Manuel Miguel Ramos Álvarez Recursos metodológicos y estadísticos II-27 A) Resumen de la información: Análisis descriptivo-exploratorio Incluye varias opciones. • Estadísticos descriptivos básicos variable a variable tanto clásicos como robustos (con EDA). • Descriptivos en el contexto de estudios correlacionales/ covariacionales. • Descriptivos para diseños Entregrupos tanto simples como factoriales como anidados • Para Distribución de Frecuencias y Tablas de Contingencia tanto en Diseños Categóricos simples como factoriales (múltiples). 27 ©Manuel Miguel Ramos Álvarez Recursos metodológicos y estadísticos II-28 B) Análisis inferencial básico: Modelo Lineal General: ANOVA y Regresión Contraste de Hipótesis sobre la Media (Lineal-ANOVA), sobre la Correlación (Lineal-Regresion) y sobre las Proporciones, con enfoque clásico y para diseños simples. Análisis de tipo Regresión con enfoque clásico. • Dos variables • Controlando el influjo de terceras variables. • Distancias que intervienen en cálculos de residuales y sobre todo del tipo Multivariado (como la Distancia Euclídea). Análisis de tipo ANOVA con enfoque clásico. • Diseños Entregrupos ya unifactoriales (one-way) o Factoriales (Factorial). • Diseños Intrasujetos o de medidas repetidas (repeated measures). • Diseños Factoriales Mixtos que incluyen ambos tipos de manipulación (repeated measures). 28 ©Manuel Miguel Ramos Álvarez Recursos metodológicos y estadísticos II-29 Análisis del Modelo Lineal General. • Ya en el contexto de regresión (continuous). • Ya en el contexto ANOVA (cetegoriacal). • Más de una variable dependiente (Multivariate) versus Intrasujetos (within Effects). • Diseños especializados: de Efectos Mixtos (algunas vv, independientes son de efectos fijos y algunas de efectos aleatorios), Covariados o Factoriales Mixtos Complejos, Anidados o Jerárquicos, etc. Análisis de tipo Regresión No Lineal (i.e. curva de crecimiento exponencial o regresión regional - piecewise regression models-). 29 ©Manuel Miguel Ramos Álvarez Recursos metodológicos y estadísticos II-30 C) Análisis de los supuestos del Modelo y pruebas alternativas No Paramétricas Compendio de pruebas No paramétricas con distinta finalidad (ver el cuadro clasificatorio de pruebas No Paramétricas). Hay un módulo especializado en el ajuste de Modelos de distribución, de gran utilidad en cuanto al análisis de los supuestos y otro para estimar probabilidades directamente a partir de diferentes modelos de distribución. D) Generalización al diseño categórico ¾ ¾ Análisis de diseños categóricos desde el punto de vista del enfoque del Modelo Lineal, permitiendo obtener el Modelo Óptimo que mejor ajusta a los datos. Dentro del contexto de Análisis de tipo Regresión según el enfoque del Modelo Lineal para diseños correlaciones pero mezcla también el Modelo Lineal Generalizado para diseños categóricos espacialmente para regresión logística. 30 ©Manuel Miguel Ramos Álvarez Recursos metodológicos y estadísticos II-31 E) Análisis avanzado: Técnicas Multivariantes ¾ ¾ ¾ Análisis del tipo Clúster y Discriminante para clasificar datos según los casos o las variables. Por ejemplo se extraen 5 agrupaciones a partir de insectos de diferentes tipos. Análisis Factorial, con un objetivo descriptivo avanzado. Por ejemplo, un conjunto de 100 indicadores de calidad se resume (reduce) a partir de 6 factores. Análisis de escalas de utilidad en Ciencias de corte comportamental, social y educativo Por ejemplo, análisis de la fiabilidad o exactitud de una medida. Análisis de supervivencia, de aplicación en el ámbito de Ciencias de la Salud en el que interesa estudiar los datos que van quedando con el transcurso del tiempo o tras la aplicación de programas de tratamiento. Análisis de ecuaciones estructurales (relaciones de predicción secuenciales en las que se pone a prueba una cadena causal de acontecimientos). Por ejemplo intentar predecir la inteligencia general (medida con las Matrices Progresivas de Raven), a partir de la capacidad de memoria operativa. Análisis de series temporales (muchas medidas a través del tiempo), especialmente con aproximación ARIMA basada en autorregresión. Por ejemplo abstraer el modelo que subyace al patrón de las medidas de una sustancia contaminante a través de los registros de todo un año. 31 ©Manuel Miguel Ramos Álvarez Recursos metodológicos y estadísticos II-32 F) Análisis avanzado: Técnicas Específicas El programa incluye módulos especializados (que se comercializan de manera individual y que no se incluyen en la licencia básica del programa), los cuales permiten implementar análisis estadísticos bastante sofisticados, la mayoría relacionados con modelización: ¾ ¾ Análisis de control de calidad. Cuando la salida de un proceso (i.e. gráfico) tiene que reflejar cambios inmediatos de manera dinámica. Teoría matemática de optimización de diseños (DOE). Para deducir diseños óptimos cuando se desea simplificar el modelo (i.e. está justificado que se prescinda de las interacciones complejas, como en los diseños anidados o jerárquicos). Módulo especializado para estimaciones relacionadas con la potencia estadística y el tamaño del efecto del tratamiento. Módulo especializado para la modelización de redes neuronales, como las del tipo conexionista (i.e. Regla LMR de aprendizaje). 32 ©Manuel Miguel Ramos Álvarez Recursos metodológicos y estadísticos II-33 Módulo especializado (“Data mining”) para abstraer patrones, modelar grandes masas de datos y hacer predicciones, donde destaca la aplicación de Control de Calidad (Quality Control), algunas de las cuales sirven para el análisis de datos en diseños del tipo cualitativo. Módulo especializado para la para el análisis cualitativo de textos. 33 ©Manuel Miguel Ramos Álvarez Recursos metodológicos y estadísticos • II-34 Gráficos Los tipos de representaciones Gráficas en Statistica A E F D F C B Mezcla E C A B E C E A) Tipo Histograma (Barras-Columnas-Histograma, Pareto) B) Tipo Polígono Frecuencias (Líneas, Secuencia, Superficie) C) Tipo Diagrama Simbólico (Sectores, Iconos, Imágenes) D) Tipo Diagrama Dispersión E) Tipo EDA (Max-Min, Cajas, P-P y Q-Q Normal) F) Fines Específicos: Para Series Temporales (Autocorrelaciones, Correlaciones Cruzadas, Espectral), Barras de Error –Rangos- o para Control Calidad 34 ©Manuel Miguel Ramos Álvarez Recursos metodológicos y estadísticos ¾ II-35 • Utilidades (Herramientas automatización) • Ayudas Especialmente recomendable la opción “Electronic Statistics Textbook” Volver Principio 35 ©Manuel Miguel Ramos Álvarez Recursos metodológicos y estadísticos 2.1.4. II-36 El entorno R Hoy por hoy, este entorno constituye una de las mejores opciones de análisis estadístico especializado, básicamente porque su coste es cero y además la calidad técnica de los análisis supura con creces a la de los programas comerciales. Esto es así ya que se trata de un programa de libre distribución bajo licencia GNU y además porque el número de librerías especializadas va creciendo exponencialmente en los últimos años. El inconveniente más importante es que el investigador tiene que programar los análisis, de manera que en realidad el programa no incluye ningún tipo de menú que guíe los análisis. De hecho no siquiera está pensado para el sistema operativo Windows, aunque veremos como manejarlo desde el mismo a través de una consola de interacción. 2.1.4.1. Ventanas básicas del programa R Para interactuar con este entorno a través de Windows tenemos que efectuar la instalación oportuna del mismo (ver la página Web: http://cran.es.r-project.org/bin/windows/base/R-2.8.1win32.exe). Ventana Principal del Programa Título Menús Herramientas Desplazamientos Área Interacción Línea de Comandos (>) Y de resultados [1] 36 ©Manuel Miguel Ramos Álvarez Recursos metodológicos y estadísticos 2.1.4.2. II-37 Bases del programa R Y eso es todo. Es decir, introduciríamos nuestras instrucciones en la línea de comandos y tras pulsar [Enter], el programa ofrece el resultado de las mismas. Para facilitar su manejo se proponen algunas consideraciones. A) Comandos básicos X1 <- c(3, 4, 5, 7); X1 [Enter] Verificación objeto rm() help() ? “” B) Tipos de datos Vectores Factores Series Matrices Marcos serie temporal listas Asignación, definición y verificación básica de variables (“;” para incluir más de un cmd misma línea). Teclear su nombre Borra objetos en memoria. Obtención de ayuda Para invocar var según caracteres x <- c(3,4,2) Para variables categóricas array (data_vector, dim_vector), de dimensión k matrix(0, n, b), como series pero para k=2 data.frame, Marco o base de datos que permite diferentes tipos de información asociados a una variable ts() cualquier tipo de mezclas de datos C) Lectura/Escritura de datos a partir de ficheros read.table, read.fwf, scan Leer data.frames en ASCII write.table Almacenarlos D) Sistema de Ayudas A partir de linea cmd A partir del Menú Ayuda Documentación Web actualizada en diversos idiomas help(mean) http://cran.es.r-project.org/manuals.html E) Ampliación de posibilidades de análisis cargando paquetes de librerías A partir del servidor http://cran.es.r-project.org/web/packages/ A partir de direcciones propias de autores o Æhttp://www-rcf.usc.edu/~rwilcox/ Æhttp://brm.psychonomicde revistas científicas journals.org/content/38/3/532/suppl/DC1 F) Aportaciones técnicas Se pueden aportar librerías, siguiendo el estándar de programación (ver ), así como documentos técnicos (ver ) y artículos concretos (ver ). G) Opcional. Creación de un script para la introducción de comandos: [Archivo Æ Nuevo script Æ le damos un nombre y lo almacenamos]. De esta manera tenemos un sencillo editor en el que emplear las funciones del portapapeles de Windows y para ejecutar partes concretas, la seleccionamos y pulsamos [Crtl + R]. 37 ©Manuel Miguel Ramos Álvarez Recursos metodológicos y estadísticos 2.1.4.3. II-38 Mejoras del programa R para los usuarios de Windows A) Mejoras para la introducción de comandos y la programación 1. Descargar e instalar el Editor XEmacs: http://ftp.xemacs.org/pub/xemacs/binaries/win32/InnoSetup/XEmacs_Setup_21.4.21.exe 2. Descargar la última versión de ESS: http://ess.r-project.org/downloads/ess/ess-5.3.11.zip 3. Descomprimir los contenidos de ESS en el directorio por defecto donde se instaló XEmacs: c:\Archivos de Programa\XEmacs\site-packages\ 4. Crear el subdirectory “.xemacs” en el directorio principal de Windows que se cargará por defecto al entrar en la ventana de comandos: [Inicio Æ Ejecutar Æ cmd Æ Enter Æ mkdir .xemacs Æ Enter]. 5. Copiar el fichero de configuración de J. Fox (“init.el”) en el directorio creado en el paso anterior: http://socserv.socsci.mcmaster.ca/jfox/Books/Companion/ESS/init.el 6. Iniciar el programa XEmacs, esperar hasta que cargue por completo y entonces en la ventana superior creamos un nuevo scratch de tipo R: [File Æ New Æ Scratch.R Æ Intro], y el resultado será del siguiente tipo: • • Más información se puede obtener en la guía breve de J. Fox, An Introduction to ESS + XEmacs for Windows Users of R: http://socserv.mcmaster.ca/jfox/Books/Companion/ESS/ess-xemacs.pdf En el menú superior podremos programar y en el inferior se obtienen los resultados del programa R. 38 ©Manuel Miguel Ramos Álvarez Recursos metodológicos y estadísticos II-39 B) Mejoras en la salida del programa A través del paquete R2HTML se puede lograr una salida que se asemeja al visor de resultados de los programas comerciales. A continuación se propone un fragmento de código que sirve para conseguir este tipo de salida con formato. library(R2HTML) HTMLStart(outdir = "c:/",filename="BrainTrain",echo=FALSE) as.title("Este es el visor del estudio de BarinTraining en HTML") Memoria <- c(9,8,7,8,5,5,7,7,8,1,8,7) NivGrupos <- c("BrainT", "VideoJ", "RepVideoJ") gl(3, 4, label=NivGrupos) Grupos <- gl(3, 4, label=NivGrupos) BrainTrain <- data.frame(Grupos, Memoria) tapply(Memoria, Grupos, mean) modelo <- lm(Memoria ~ Grupos) summary(modelo) anova(modelo) HTMLStop() #En versiones posteriores a la 2.6.x hay que cargar el paquete expresamente: #Paquetes Æ Instalar paquetes Æ seleccionar un CRAN mirror Æ Aceptar Æ ¾ Para más información se puede consultar: http://www.stat.ucl.ac.be/ISdidactique/Rhelp/library/R2HTML/doc/R2HTML.pdf 39 ©Manuel Miguel Ramos Álvarez Recursos metodológicos y estadísticos 2.2. Procesamiento inicial de comprensión de los mismos o o II-40 los datos para una primera Creación de ficheros de datos: codificación de variables, gestión, importación, almacenamiento Incorporación de nueva información a partir de los datos básicos ¾ ¾ ¾ Antes de comenzar sería conveniente que almacenase los ficheros con los que va a trabajar en alguna carpeta personal. Si intenta abrir ficheros de SPSS o de Excel directamente a través de un Navegador (i.e. Explorer), el enlace al programa puede que funcione inadecuadamente. Es preferible que abra el programa (i.e. SPSS) y desde él acceda al fichero concreto. Los ficheros están todos incluidos en un fichero comprimido de la plataforma que se denomina “RMEDI_Supuestos.zip”. Tenga presente que hay 3 supuestos que servirán para ejemplificar los contenidos de este tema, así como de los dos temas que vienen a continuación: análisis descriptivo y análisis basado en Diferencias mediante ANOVA. Puede trabajar de dos maneras, o bien divide la pantalla en dos mitades, de manera que en una de ellas tenga el tutorial y en la otra el programa informático para ir aplicando los comandos. o Otra opción es imprimir el tutorial y así poder dedicar la ventana completa del PC al manejo del programa informático. 40 ©Manuel Miguel Ramos Álvarez Recursos metodológicos y estadísticos 2.2.1. • • • • • • • II-41 Introducción a la Codificación de variables La medición de variables métricas o cuantitativas requiere fundamentalmente de la asignación de códigos (casi siempre numéricos) que reflejen los cambios cuantitativos. En comparación, cuando se mide una variable categórica el proceso no es tan directo puesto que tenemos que codificar dicha variable mediante valores numéricos, aunque la codificación no puede ser cualquiera. Puede utilizarse cualquier esquema de codificación siempre que se emplee de manera sistemática. El esquema es una cuestión realmente arbitraria. Sin embargo, hay esquemas que son preferibles, puesto que facilitan la comprensión de los datos, evitan errores interpretativos y además son más sólidos a efectos del cálculo numérico. Se han impuesto tres sistemas de codificación: sistema de efectos, ficticio (dummy) y de contrastes. Hay autores que manifiestan sus preferencias por el de contrastes (v.gr. los manuales enfocados a regresión), otros por el de efectos (v.gr. enfocados al ANOVA) y otros al sistema ficticio (v.gr. los que tienen un enfoque al análisis categórico). El sistema no afectará a los estadísticos finales del análisis inferencial pero sí a la interpretación de los parámetros. Principios generales que nos serán de utilidad: o La suma de los coeficientes adjudicados tiene que ser cero. o El sistema incluirá tantos contrastes como grados de libertad tenga la variable a codificar, es decir número de niveles menos uno. o Para la interacción basta con multiplicar entre sí los coeficientes adjudicados a cada una de las variables implicadas en la configuración. Ejemplos destacados: o Si tenemos un grupo de control que deseamos comparar con el resto entonces podríamos decantarnos por el sistema ficticio, de forma que la categoría de referencia coincida precisamente con el nivel neutral. o El mejor sistema (y el único) para abordar el análisis de tendencias o funciones polinómicas es el de contrastes. 41 ©Manuel Miguel Ramos Álvarez Recursos metodológicos y estadísticos II-42 Sistema de Efectos El cambio de cada nivel con respecto a la gran media del diseño. Se fija un nivel y se le asigna el coeficiente unitario. Posteriormente vamos comparando dicha categoría con las restantes una a una, asignando a la otra categoría el valor -1. En consecuencia habrá siempre un nivel con el valor cero y por lo tanto su efecto se puede deducir a partir de los otros. Sistema ficticio (dummy) El cambio de cada nivel con respecto a alguno que se fija como punto de referencia. Se fija un nivel y se le asigna el coeficiente nulo. Posteriormente vamos asignando el coeficiente unitario a los niveles restantes. De nuevo habrá siempre un nivel con el valor cero y por lo tanto su efecto se puede deducir a partir de los otros. Dos Niveles Dos Niveles φA φA Sistema de contrastes Descomponer las variables de manera ortogonal. Se ha impuesto el de Helmert, tomando nuevamente como punto de referencia el primer nivel de la variable. Obtenemos comparabilidad directa entre los niveles pero de manera que en algunos contrastes se promedian diferentes niveles. Nuevamente, si deseamos deshacer dichas agrupaciones entonces tenemos que ir sumando contrastes para deducir unos a partir de los otros. Dos Niveles φA a1 1 a1 0 a1 1 a2 -1 a2 1 a2 -1 Tres Niveles φA1 φA2 a1 1 1 a2 -1 0 a3 0 -1 Tres Niveles φA1 φA2 a1 0 0 a2 1 0 a3 0 1 Tres Niveles φA1 φA2 a1 2 0 a2 -1 1 a3 -1 -1 42 ©Manuel Miguel Ramos Álvarez Recursos metodológicos y estadísticos 2.2.2. • • • • II-43 Estructura del fichero de datos Los datos se deben de organizar según una estructura particular que es la que actualmente emplean la mayoría de los programas de análisis estadístico. En general, cada unidad de análisis (sujetos, casos) ocupa una fila diferente y sólo una. Los valores que se han medido en las variables dependientes se introducen en sendas columnas. o Además, las variables manipuladas Entregrupos (caso de muestras independientes) se codifican en columnas, una por cada variable. o Finalmente los niveles de las variables manipuladas Intrasujetos (caso de muestras relacionadas) ocupan diferentes columnas, una por cada nivel de dicha variable y en ellas aparecerán los valores medidos en las variables dependientes. De manera equivalente, si se mide en más de una variable dependiente, entonces cada una de las mismas se corresponde con una columna. Supuesto-1 Supuesto-2 Supuesto-3 43 ©Manuel Miguel Ramos Álvarez Recursos metodológicos y estadísticos II-44 2.2.3. Ejemplificación de la introducción de datos a partir del Supuesto 2 mediante el programa Excel Columna A: Var.Indep Mes Columna B: Var.Indep Tipo Columna C: Var. Dep Frecuencia Columnas D a F: Codifica Mes Columna G: Codifica Tipo Columnas H a J: Codifica Interacc Casos en filas La Interacción se refiere al efecto conjunto de las dos variables independientes 44 ©Manuel Miguel Ramos Álvarez Recursos metodológicos y estadísticos • II-45 Supongamos que alternativamente hubiéramos introducido los datos con SPSS y el resultado fuera el que se muestra a continuación: O bien en Statistica: 45 ©Manuel Miguel Ramos Álvarez Recursos metodológicos y estadísticos • II-46 Ahora el objetivo es definir el significado de la codificación de una variable nominal como es el caso del “mes”. Para ello podemos cambiar la definición de variables pulsando sobre la pestaña inferior [Vista de variables], entonces indicamos que la variable mes es del tipo Numérico y procedemos a definir el significado de las etiquetas nominales, lo que nos llevaría a la ventana en SPSS: o Así procederíamos con lo 4 valores e iríamos añadiendo hasta obtener: En Statistica: Data Æ Text/Labels Editor: 46 ©Manuel Miguel Ramos Álvarez Recursos metodológicos y estadísticos • II-47 Finalmente indicar que en la ventana principal de Edición de datos existe un botón de ) que nos permite visualizar los códigos o bien sus etiquetas y que herramienta ( aparecía indicado con una flecha en las imágenes precedentes. 47 ©Manuel Miguel Ramos Álvarez Recursos metodológicos y estadísticos II-48 2.2.4. Ejemplificación de la introducción de datos a partir del Supuesto 1 mediante programas de Análisis estadístico • En la ventana del editor de datos procedemos como en Excel, de manera matricial y el resultado quedaría como sigue: En Statistica: 48 ©Manuel Miguel Ramos Álvarez Recursos metodológicos y estadísticos II-49 • Además, si pulsamos en la pestaña inferior de Vista de variables (o elegimos DataÆAll Variable Specs), podemos definir las características de las mismas, tal y como en la imagen: Ejemplo para Humanidades: Ejemplo para Ciencias: • Fundamentalmente resaltar las opciones de valores y Medida. La última hace referencia a la escala de medida según la taxonomía de Stevens y el campo de valores nos permite definir la significación de los códigos numéricos empleados para la codificación, como en el ejemplo del apartado precedente. Las variables y la escala de medida (CUADRO 2.5. Esquema resumen del proceso de medición, tomado de Ramos et al., 2004) NOMINAL DEFINICIÓN PROPIEDAD O TIPO DE RELACIÓN EJEMPLOS ORDINAL INTERVALO Comparación de Intervalos (agrupaciones de la misma longitud) o distancia que existe entre las ordenaciones. Exige un valor de referencia o cero relativo (arbitrario). RAZÓN Comparación entre razones, lo que exige la existencia de un cero real o absoluto. Esquema clasificación Ordenación Igualdad/ Desigualdad Mayor que/ Menor que Diferencia / Suma Multiplicación/ División Diagnóstico en Psicopatología Sexo Rasgo Personalidad Dureza minerales Inteligencia en Z. Temperatura (ºC-F) Tiempo Reacción Longitud 49 ©Manuel Miguel Ramos Álvarez Recursos metodológicos y estadísticos II-50 2.2.5. Ejemplificación de la introducción de datos a partir del Supuesto 3 mediante programas de Análisis estadístico • En la ventana del editor de datos procedemos como en los dos supuestos precedente y el resultado quedaría ahora como sigue: • De nuevo editamos la vista de variables y obtenemos lo siguiente: Ejemplo para Humanidades: Ejemplo para Ciencias: • En el campo dedicado a las etiquetas hemos introducido el significado de las mismas, 80 vs 90 vs 100. 50 ©Manuel Miguel Ramos Álvarez Recursos metodológicos y estadísticos 2.2.6. II-51 Almacenamiento y edición de los ficheros de datos • Una vez introducidos los datos y definidas las variables, procedemos a almacenarlas en un fichero tal y como se haría en cualquier programa del entorno Windows: [Archivo|Guardar (File|Save)] o bien [Archivo|Guardar como…(File|Save As …)]. En el ejemplo los ficheros se han denominado “CADIPI1_Sup*.sav” (“CADIPI1_Sup*1.sta”), es decir: o CADIPI1_Sup1E.sav, CADIPI1_Sup1E.sta, CADIPI1_Sup1C.sav ó CADIPI1_Sup1C.sta, o CADIPI1_Sup2E.sav, CADIPI1_Sup2E.sta, CADIPI1_Sup2C.sav ó CADIPI1_Sup2C.sta,. o CADIPI1_Sup3E.sav, CADIPI1_Sup3E.sta, CADIPI1_Sup3C.sav ó CADIPI1_Sup3C.sta, o CADIPI1_Sup4.sav, CADIPI1_Sup4.sta. • Por otro lado, podemos añadir casos en filas o variables en columnas en cualquier momento que lo deseemos, basta con seleccionar con el ratón la fila o columna correspondiente y pulsar el botón secundario del ratón. Por ejemplo para intercalar añadir un caso: Y para intercalar una variable: 51 ©Manuel Miguel Ramos Álvarez Recursos metodológicos y estadísticos En Statistica: Por ejemplo para intercalar un caso: II-52 Y para intercalar una variable: 52 ©Manuel Miguel Ramos Álvarez Recursos metodológicos y estadísticos 2.2.7. • • • II-53 Importación de ficheros de datos a partir del Supuesto 2 Una buena costumbre es trabajar en un programa de propósito general, como por ejemplo Excel, para introducir los datos y poder inspeccionarlos. Entonces posteriormente se llevarán al programa SPSS mediante la opción de importación automática de la que dispone. Puesto que los datos del fichero para el supuesto 2 se crearon en Excel, nos servirá como ejemplo. El fichero de Excel se llama “CADIPI1_Sup.xls” y contiene en realidad cuatro hojas de cálculo, de las cuales ahora únicamente nos interesa la del 2º supuesto. Con el editor de datos del programa de análisis (bien SPSS bien Statistica) en blanco, pulsamos [Archivo|Abrir|Datos ó File|Open], entonces especificamos el tipo de datos para Excel y el nombre del fichero: Especificar aquí que es del tipo Excel • Posteriormente seleccionamos la hoja de trabajo y le indicamos que lea el nombre de las variables en el primera fila de datos: 53 ©Manuel Miguel Ramos Álvarez Recursos metodológicos y estadísticos II-54 En Statistica: • Con el editor de datos del programa de análisis (bien SPSS bien Statistica) en blanco, pulsamos [File|Open], entonces especificamos el tipo de datos para Excel y el nombre del fichero: • Posteriormente le indicamos que importe el fichero como una Hoja, seleccionamos la hoja de trabajo que nos interesa y le indicamos que lea el nombre de las variables en el primera fila de datos: 54 ©Manuel Miguel Ramos Álvarez Recursos metodológicos y estadísticos • II-55 Alternativamente, supongamos que los datos en realidad se encontraban en un fichero de texto sencillo tipo ASCII (que se puede editar meramente con el Bloc de Notas de Windows) y además con los datos divididos en dos ficheros: “CADIPI1_Sup2a.txt” y “CADIPI1_Sup2b.txt”, uno por cada tipo de riachuelo. Pues bien, empezamos importando el primero de los ficheros como antes, lo único que cambia es el formato (ahora texto) y el hecho de que los datos se encuentran separados mediante el carácter “;” pero evidentemente podríamos haber elegido otro tipo de separador. En definitiva: 55 ©Manuel Miguel Ramos Álvarez Recursos metodológicos y estadísticos • • • II-56 Y ya podemos pulsar en el comando [Finalizar]. Guardamos el fichero resultante con formato de SPSS y realizamos exactamente la misma operación con el otro fichero de texto que contiene la segunda parte de los datos, con lo cual llegamos a los ficheros “CADIPI1_Sup2a.sav” y “CADIPI1_Sup2b.sav”. Ahora procedemos a la fusión, mediante el comando [Datos|Fundir archivos|Añadir casos…]. Entonces, si teníamos activo el fichero “CADIPI1_Sup2b.sav”, le decimos al programa que fusione el otro fichero, es decir “CADIPI1_Sup2a.sav”. Obviamente también se puede efectuar a la inversa. Lo más importante es especificar (si las hubiera) cuáles son las variables que no coinciden en ambos ficheros. El resultado: Æ En Statistica se hace de manera muy similar y por este motivo no se especifican los detalles. 56 ©Manuel Miguel Ramos Álvarez Recursos metodológicos y estadísticos II-57 2.2.8. Incorporación de nueva información a partir de los datos básicos • • • Aunque hemos simplificado tremendamente las opciones de gestión de ficheros, centrando lo más importante, se ha indicado lo más relevante para poder tener una base razonable. Hasta aquí hemos vistos todo lo que atañe a los datos originales, pero con frecuencia es necesario incluir nuevas variables que surgen a partir de otras originales, mediante alguna transformación. En lo que sigue ejemplificaremos esta tarea para el Supuesto 1. Supongamos que nuestro objetivo es transformar la variable X1 en otra nueva que corresponda con su inversa, es decir queremos aplicar la transformación: X 1' = • 1 1 ; InvX 1 = X1 X1 Pues bien, con el fichero oportuno “CADIPI1_Sup1.sav” activo, primero creamos una nueva variable y le damos incluso un nombre, “InvX1”, entonces pulsamos [Transformar|Calcular…] y nos aparece la ventana principal de transformaciones que constituye un asistente: Ejemplo para Humanidades: 57 ©Manuel Miguel Ramos Álvarez Recursos metodológicos y estadísticos II-58 Ejemplo para Ciencias: • • A la izquierda se expresa la variable destino y a la derecha la expresión adecuada. Esta opción es bastante poderosa y el investigador debe familiarizarse con ella. Tenemos operadores algebraicos básicos, operadores lógicos por ejemplo para aplicar una transformación únicamente a una parte de los datos (i.e. a un solo grupo), así como funciones estadísticas y matemáticas bastante sofisticadas (en la parte derecha bajo funciones). En los módulos posteriores, al hablar de las transformaciones de los datos volveremos sobre esta opción. 58 ©Manuel Miguel Ramos Álvarez Recursos metodológicos y estadísticos II-59 En Statistica: • Con el fichero oportuno “CADIPI1_Sup1.sta” activo, primero creamos una nueva variable y le damos incluso un nombre, “InvX1”, entonces pulsamos con el botón secundario del ratón sobre la variable recién creada y entonces introducimos la función en la ventana inferior o bien activamos el asistente de funciones en el menú [Data|Batch Transfomrmation Formulas…] y nos aparece la ventana principal de transformaciones que constituye un asistente (Botón Functions): • También en este programa, esta opción es bastante poderosa. Tenemos operadores algebraicos básicos, operadores lógicos por ejemplo para aplicar una transformación únicamente a una parte de los datos (i.e. a un solo grupo), así como funciones estadísticas y matemáticas bastante sofisticadas (en la parte derecha bajo funciones). En los módulos posteriores, al hablar de las transformaciones de los datos volveremos sobre esta opción. 59 ©Manuel Miguel Ramos Álvarez Recursos metodológicos y estadísticos II-60 Recodificación de diversas variables en una única variable. En ocasiones puede interesarnos juntar los niveles de diversas variables en una única variable. Por ejemplo, si tenemos un diseño factorial de 2 variables del tipo 4x2, podríamos crear una nueva variable con 8 niveles. Lo ilustraremos a partir del supuesto 2. En SPSS: • Con el fichero oportuno (MEFCS.Sup2.sta) elegimos como antes, primero creamos una nueva variable y le damos un nombre, “Combina”, entonces pulsamos [Transformar|Calcular…] y nos aparece la ventana principal de transformaciones: • Entonces, en la ventana inferior para establecer una condición (“Si …”) vamos definiendo cada nuevo valor a partir de la combinación de las variables que deseamos recodificar, i.e. el valor 1 de “Combina” se corresponde con Estrategia=1 (ó v1=1) y Genero=1 (ó v2=1), y así sucesivamente hasta completar los seis valores. 60 ©Manuel Miguel Ramos Álvarez Recursos metodológicos y estadísticos II-61 En Statistica • Con el fichero oportuno (CADIPI1.Sup2E.sta) elegimos el menú Data/Recode. • Entonces vamos definiendo cada nuevo valor a partir de la combinación de las variables que deseamos recodificar, i.e. el valor 1 de “NewVar” se corresponde con mes=1 (ó v1=1) y tipo=1 (ó v2=1), y así sucesivamente hasta completar los ocho valores. 61 ©Manuel Miguel Ramos Álvarez Recursos metodológicos y estadísticos 2.2.9. • II-62 Selección de información (aplicación de un filtro de datos) Finalmente, dada la tremenda utilidad, expondremos la forma de seleccionar un determinado conjunto de datos a partir del fichero completo de los mismos. Por ejemplo, volviendo al Supuesto 2, supongamos que en este momento únicamente nos interesa analizar los datos del primero de los meses (Valor de la variable = 1 y Etiqueta = “Diciembre”) y obviar el resto. Ejemplo para Humanidades: • Volvemos al fichero relevante, “CADIPI1_Sup2C.sav” y pulsamos [Datos|Seleccionar casos …] 62 ©Manuel Miguel Ramos Álvarez Recursos metodológicos y estadísticos II-63 • En la ventana que se despliega indicamos la opción [Si se satisface la condición] y pulsamos el botón [Sí…], para pasar a definir el condicional que nos permite aplicar el filtro deseado (“mes = 1”), lo que quedaría de la siguiente manera: • Pulsamos [Continuar] y de vuelta a la ventana previa [Aceptar], veremos que el programa es muy gráfico pues nos tacha los casos excluidos en cada etiqueta de casos por filas. Hay que tener cuidado pues todos los análisis se efectúan únicamente con los casos seleccionados. 63 ©Manuel Miguel Ramos Álvarez Recursos metodológicos y estadísticos II-64 Ejemplo para Ciencias: • Volvemos al fichero relevante, “CADIPI1_Sup2E.sav” y pulsamos [Datos|Seleccionar casos …] 64 ©Manuel Miguel Ramos Álvarez Recursos metodológicos y estadísticos II-65 • En la ventana que se despliega indicamos la opción [Si se satisface la condición] y pulsamos el botón [Sí…], para pasar a definir el condicional que nos permite aplicar el filtro deseado (“mes = 1”), lo que quedaría de la siguiente manera: • Pulsamos [Continuar] y de vuelta a la ventana previa [Aceptar], veremos que el programa es muy gráfico pues nos tacha los casos excluidos en cada etiqueta de casos por filas. Hay que tener cuidado pues todos los análisis se efectúan únicamente con los casos seleccionados. 65 ©Manuel Miguel Ramos Álvarez Recursos metodológicos y estadísticos II-66 En Statistica: • Volvemos al fichero relevante, “CADIPI1_Sup2C.sta” y pulsamos [Tools|Selection Conditions | Edit …] • En la ventana que se despliega indicamos la opción [Enable Selection Conditions] y pulsamos el botón [Specific, selected by:], para pasar a definir el condicional que nos permite aplicar el filtro deseado (“v1 = 1”), lo que quedaría de la siguiente manera: • Pulsamos [Aceptar] y confirmamos la activación del filtro de vuelta a la ventana previa [Aceptar], veremos que existe la opción de visualizar [Display] la selección efectuada (i.e. por defecto el programa pone en itálica los casos seleccionados). Hay que tener cuidado pues todos los análisis se efectúan únicamente con los casos seleccionados. Dos son las herramientas asociadas a las selecciones de este tipo: • Editar Filtro • Activa/Desactiva Filtro También se puede acceder al filtro pulsando sobre el botón “Select Cases” que figura en la parte Inferior Derecha de los módulos especializados de análisis, de manera que se defina a posteriori, una vez que se ha iniciado el análisis. 66 ©Manuel Miguel Ramos Álvarez Recursos metodológicos y estadísticos 2.2.10. II-67 Manipulación de ficheros en el Entorno R 1. El procesamiento inicial de datos se realizará en una hoja de cálculo, con objeto de poder manipular los datos con facilidad y de forma que después se puedan manipular o analizar con cualquier tipo de programa especializado de análisis. 1.1. Crear un fichero en Microsoft Office Excel ® con la estructura estándar de casos-en-filas y variables-en-columnas, incluyendo el nombre de las variables: En el ejemplo, la primera columna codifica el grupo, la segunda columna los valores medidos en una primera variable dependiente y la tercera columna los que se han medido en una segunda variable dependiente. La muestra está constituida por un total de 8 sujetos, de los cuales cada uno de los grupos tiene asignados 4 sujetos. Una vez introducidos los datos, los almacenamos en un fichero de Excel, en el ejemplo le llamamos “EjemR.xls” y estará ubicado en la raíz del disco duro C. 1.2. También es conveniente almacenar los datos en un fichero de texto, que únicamente contendrá caracteres ASCII. Para ello, se almacena el fichero del apartado precedente con el formato de texto, invocando en Excel los comandos: [Archivo Æ Guardar Como Æ Nombre de archivo: EjemR, Guardar como tipo: Texto (MS-DOS) Æ Guardar Æ Aceptar Æ Sí Æ Archivo Æ Salir]. 2. En el entorno R-Software, se puede programar directamente en la Consola de comandos pero es mucho más cómodo abrir un script independiente en el que podemos escribir como en cualquier editor sencillo de texto y entonces ejecutar partes concretas del mismo seleccionándolas y pulsando [Ctrl+R]. Para hacer esto, ejecutamos los comandos: [Archivo Æ Nuevo script]. Para más comodidad las Ventanas se pueden organizar en forma de título. 3. Además, dicho script se puede almacenar para futuros análisis, mediante [Archivo Æ Guardar como Æ Nombre: ComandEjem, Tipo: R files (*.R) Æ Guardar], al que se puede acceder con [Archivo Æ Abrir script Æ Nombre: ComandEjem, Tipo: R files (*.R) Æ Abrir]. 4. Vistos los preliminares, nos centramos ahora en la definición de los datos en el entorno S. Para ello disponemos de multitud de opciones, de las cuales optaremos por la que nos permite mantener mayor uniformidad con otros entornos estadísticos. Trabajaremos con objetos del tipo Data.Frame y además rellenándolo a partir de la importación del fichero de texto del tipo definido en los apartados precedentes. Para esto vinclulamos un nombre, i.e. DataEjem, a toda la información mediante el comando: [DataEjem <read.table("c:/EjemR.txt", header=T). el comando header sirve para procesar las cabeceras de los datos, es decir los nombres de las variables, las cuales estaban incluidas en nuestro ejemplo (Grupo, VarDep1 y VarDep2). 67 ©Manuel Miguel Ramos Álvarez Recursos metodológicos y estadísticos II-68 4.1.Alternativamente, R incorpora algunos paquetes para facilitar la interacción con ficheros de Excel (i.e. RODBC, RexcelInstaller). En el ejemplo siguiente se empleará RODBC: #-----------------------------------------------------------------#Ejemplo 1 .- Brain Training a partir de Excel library(RODBC) canal <- odbcConnectExcel("c:/ModGeneralAnalisis.xls") ActivFisXls <- sqlFetch(canal, "ASCII1") odbcCloseAll() ActivFisXls #En versiones posteriores a la 2.6.x hay que cargar el paquete expresamente: #Paquetes Æ Instalar paquetes Æ seleccionar un CRAN mirror Æ Aceptar Æ RODBC #-----------------------------------------------------------------5. También es recomendable enlazar los nombres de las columnas del fichero, es decir los nombres de las variables, con objeto de acceder a la información con mayor comodidad: [attach(DataEjem)]. 6. A partir de aquí se pueden seleccionar fragmentos de los datos a través de los valores y los nombres de las variables. Por ejemplo: Grupo1 <- DataEjem[Grupo == 1, "VarDep1"] 68 ©Manuel Miguel Ramos Álvarez Recursos metodológicos y estadísticos II-69 2.3. Casos prácticos 1. A continuación figura un nuevo supuesto de prácticas sobre el que podrá aplicar los principales conceptos aprendidos en este tema. Enunciado: El objetivo de esta investigación fue evaluar los efectos de la Dieta tipo Mediterránea en la prevención de la enfermedad cardiovascular (ver un ejemplo en la dirección: http://www.med-estetica.com/Cientifica/Revista/n16/dietamediterranea.html), para lo cual se formaron al azar grupos de intervención con dieta mediterránea suplementada con aceite de oliva, frutos secos, o con vino, respectivamente. Además, un cuarto grupo sirvió como control. En los grupos de intervención, las cantidades se equilibraron con objeto de optimizar los efectos saludables sobre la dieta. A continuación se presentan los datos sobre la concentración sérica de los marcadores de inflamación vascular relacionados con la aparición y desarrollo de la arteriosclerosis, como marcador de trastornos cardiovasculares, para los individuos del estudio y según el grupo de pertenencia. Oliva 7 9 19 1 18 15 F.Secos 19 27 104 39 14 54 Vino 62 77 90 58 57 1 Control 124 51 63 81 83 106 Preguntas: 1.1. Introduzca los datos mediante el programa Excel y almacénelos en el fichero llamado “PracticaT2.xls”. 1.2. En el programa SPSS, importe los datos a partir del fichero del apartado anterior, defina adecuadamente las variables y entonces almacénelo en el fichero “PracticaT2.sav”. 1.3. Introduzca una transformación de la variable dependiente a partir de su inversa, en una nueva variable que se llamará “InvInflama” y con el resultado, cree un nuevo fichero que se llamará PracticaT2Transf.sav 1.4. ¿Cómo se haría la codificación de la variable Grupo mediante el sistema de contrastes de tipo Helmert? 1.5. Intente obtener la media exclusivamente del Grupo de Control, para lo cual tendrá que seleccionar dicho grupo mediante un filtro y después obtener la media mediante los comandos [Analizar][Estadísticos Descritivos][Descriptivos][Variables: Inflamacion]. Volver Principio 69

Bases computacionales para el análisis estadístico

Documentos relacionados

Productos

Apoyo

Bases computacionales para el análisis estadístico

Documentos relacionados

Añadir este documento a la recogida (s)

Añadir a este documento guardado

Sugiéranos cómo mejorar StudyLib