Bases computacionales para el análisis estadístico

Anuncio
©Manuel Miguel Ramos Álvarez
Recursos metodológicos y estadísticos
II-1
UNIVERSIDAD DE JAÉN
Material del curso “Recursos metodológicos y estadísticos para la
docencia e investigación”
Manuel Miguel Ramos Álvarez
Índice
M
A
A
O
T
S
M
E
E
P
R
S
U
T
A
A
L
C
O
N
A
L
E
S
MA
AT
“B
BA
AS
CO
OM
”
TE
SE
MP
ER
ES
PU
RIIIA
SC
UT
TA
AL
AC
L IIII “
CIIIO
ON
NA
AL
LE
ES
S”
Bases informáticas para el análisis estadístico ..................................................... 2
2.1.
2.1.1.
Programas de utilidad según la etapa de análisis ............................................ 3
2.1.2.
Focalización en el programa SPSS ................................................................ 5
2.1.2.1.
Ventanas básicas del programa SPSS......................................................... 6
2.1.2.2.
Sistema de Menús en el programa SPSS................................................... 10
•
Generales .................................................................................................... 10
•
Procesamiento de Datos ................................................................................. 10
•
Analizar ....................................................................................................... 11
•
Gráficos ....................................................................................................... 18
•
Utilidades (Herramientas automatización) ......................................................... 19
•
Ayudas ........................................................................................................ 19
2.1.3.
El programa Statistica .............................................................................. 20
2.1.3.1.
Ventanas básicas del programa Statistica ................................................. 20
2.1.3.2.
Sistema de Menús en el programa Statistica ............................................. 24
•
Generales .................................................................................................... 24
•
Procesamiento de Datos ................................................................................. 25
•
Analizar ....................................................................................................... 26
•
Gráficos ....................................................................................................... 34
•
Utilidades (Herramientas automatización) ......................................................... 35
•
Ayudas ........................................................................................................ 35
2.1.4.
El entorno R............................................................................................ 36
2.1.4.1.
Ventanas básicas del programa R ............................................................ 36
2.1.4.2.
Bases del programa R............................................................................ 37
2.1.4.3.
Mejoras del programa R para los usuarios de Windows ............................... 38
2.2.
Procesamiento inicial de los datos para una primera comprensión de los mismos.... 40
2.2.1.
Introducción a la Codificación de variables................................................... 41
2.2.2.
Estructura del fichero de datos .................................................................. 43
2.2.3.
Ejemplificación de la introducción de datos a partir del Supuesto 2 mediante el
programa Excel.................................................................................................... 44
2.2.4.
Ejemplificación de la introducción de datos a partir del Supuesto 1 mediante
programas de Análisis estadístico ........................................................................... 48
2.2.5.
Ejemplificación de la introducción de datos a partir del Supuesto 3 mediante
programas de Análisis estadístico ........................................................................... 50
2.2.6.
Almacenamiento y edición de los ficheros de datos ....................................... 51
2.2.7.
Importación de ficheros de datos a partir del Supuesto 2............................... 53
2.2.8.
Incorporación de nueva información a partir de los datos básicos ................... 57
2.2.9.
Selección de información (aplicación de un filtro de datos)............................. 62
2.2.10.
Manipulación de ficheros en el Entorno R .................................................. 67
2.3.
Casos prácticos ............................................................................................. 69
1
©Manuel Miguel Ramos Álvarez
Recursos metodológicos y estadísticos
II-2
2.1. Bases informáticas para el análisis estadístico
o
o
Programas de utilidad según la etapa de análisis.
Focalización en el programa SPSS.
2
©Manuel Miguel Ramos Álvarez
Recursos metodológicos y estadísticos
2.1.1.
•
•
•
II-3
Programas de utilidad según la etapa de análisis
Una de las contribuciones más importantes de los ordenadores a la ciencia en general: el
gran impulso a la difusión de las técnicas de análisis de datos.
El crecimiento de los paquetes estadísticos y su abaratamiento ha tenido consecuencias
beneficiosas en cuanto a la ampliación del número de técnicas de análisis disponibles
Un inconveniente: los paquetes estadísticos han impuesto unas determinadas maneras
de realizar los análisis. Por ejemplo, algunos paquetes, como SPSS no permiten realizar
pruebas no planeadas en variables manipuladas intra-sujetos.
Guía de los Programas de Análisis
Programa
Excel
Ámbito
Procesam.
inicial datos
Información
http://www.microsoft.com/spain/support/
BMDP Win
General
http://www.statsol.ie/bmdp/bmdp.htm
-------
SAS
General,
Salud
http://www.sas.com/technologies/analytics/statistics/
-------
SPSS
General,
Educativa
General,
Experimen.
EDA,
Educativa
http://www.spss.com/
Sí
http://www.statsoft.com/
Sí-
http://www.systat.com/
-------
Sí
SAS/JMP
(SAS/INSIGHT*)
Statistica
SYSTAT
Autosignal
Peakfit
TableCurve
2D, 3D
Sigmaplot
Dispon.
Sí
http://www.ujaen.es/sci/invdoc/soft/microinf/acuespe/officeXP/officeXP.html
STAT-GRAPHICS
General,
Experimen.
http://www.statgraphics.com
S-Plus
No Lineal-EDA,
Economía
ModelizaciónEDA
Propósito
general
Ecuaciones
estructurales
Ecuaciones
estructurales
y
Modelos
Jerárquicos
Series
Temporales
Series
Temporales
Programación
matemática/
estadística
Programación
estadística
y
análisis
especilizados
www.insightful.com
Sí-
www.minitab.com
Sí-
http://www.stata.com/
-------
http://www.mvsoft.com/products.htm
-------
http://www.ssicentral.com/sp.html
-------
http://www.estima.com/
-------
http://www.tspintl.com/
-------
http://www.aptech.com/
-------
http://www.r-project.org/
Sí (gratis)
Minitab
Stata
EQS
LISREL
HLM
RATS
TSP
GAUSS
R
http://www.ujaen.es/sci/invdoc/soft/microinf/acuespe/statg/statg5esp.html
http://cran.es.r-project.org/bin/windows/base/R-2.8.1win32.exe
3
©Manuel Miguel Ramos Álvarez
Recursos metodológicos y estadísticos
II-4
Especialmente recomendables:
• http://www.statsoft.com/textbook/stathome.html
• http://www.stat.ucla.edu/textbook/
• Documentación de Software estadístico para programación, de libre distribución:
http://www.r-project.org/
• Páginas Web de autores destacados, que incluyen la implementación de pruebas
específicas mediante programas gratuitos.
o Meta-análisis: http://www.powerandprecision.com/
o Potencia estadística: http://www.mvsoft.com/
o Rand Wilcox, Professor of Psychology at USC, has developed a set of S-Plus (as
well as R) macros to accompany his book (and the upcoming new edition):
Introduction
To
Robust
Estimation
and
Hypothesis
Testing
Academic Press, 2005 and other.
Los Macros: http://www-rcf.usc.edu/~rwilcox/
Enfocados en el análisis cualitativo:
¾ Se puede acceder a los mismos a través de una de las siguientes direcciones:
www.provalisresearch.com ó http://socserv.mcmaster.ca/w3virtsoclib/software.htm
• Annotape. Is a system for recording, analysing and transcribing audio data for
qualitative research
• ATLAS/ti. Is a software product for qualitative data analysis
• CAQDAS. Is the Computer Assisted Qualitative Data Analysis Software Networking
Project
• HyperResearch. Is qualitative data analysis software package enabling you to code and
retrieve, build theories, and conduct analyses of your data
• ITALASSI. Interaction Viewer for Regression Models
• Leximancer. Identifies key themes, concepts and ideas from unstructured text
• LOGISTIC. Logistic regression program (DOS)
• MVSP. Multivariate statistical analysis package
• ORIANA. Circular data statistical software
• PRACTICEMILL. Authoring and Testing Tool for Teachers and Trainers
• QDA MINER. Text management and qualitative analysis program
• QSR International offer three software products for qualitative data analysis. One of
these is the most widely used QDA software product called NUD*IST (or N6), another
is NVivo.
• Qualrus. Is a general-purpose qualitative analysis program which supports text and
multimedia sources
• SIMSTAT. Statistical Analysis software
• TextAnalyst. Is a system for semantic text analysis and navigation.
• The Ethnograph. Is the second most widely used software for qualitative data analysis
in the world.
• WordStat. Is a content analysis / qualitative analysis software product. Content
Analysis & Text Mining module for Simstat or QDA Miner.
4
©Manuel Miguel Ramos Álvarez
Recursos metodológicos y estadísticos
2.1.2.
II-5
Focalización en el programa SPSS
1. Sin duda uno de los paquetes que más amplia aceptación tiene es SPSS, un paquete
cuyo interfaz de usuario ha mejorado considerablemente en las últimas versiones.
2. Sus ventajas fundamentales son incuestionables:
o Facilidad de manejo, marcos y ventanas cuya organización facilita la comprensión
del análisis y su gran abanico de técnicas estadísticas. En la mayoría de los
temas nuestra exposición viene acompañada por los comandos de SPSS que son
necesarios para lograr los objetivos de análisis, acompañados por la salida que
ofrece.
o Además se ha impuesto en el mercado, lo que contribuye a la unificación
(comparable a Windows como sistema operativo) y la continua actualización.
o Unido a lo anterior, es previsible que proporcione cobertura técnica a los usuarios
en el futuro y que depure las ayudas y documentación.
3. Desventajas:
o La organización de las técnicas de análisis y de las opciones gráficas deja que
desear puesto que mezcla la aproximación estadística clásica con la más modera,
lo que desemboca en un gran solapamiento de las opciones y técnicas.
o Impone estilos de análisis que no están justificados en la literatura estadística
especializada, como por ejemplo para los diseños de medidas repetidas o para el
cálculo de errores globales en el análisis detallado tipo ANOVA.
o Su elevado coste. La licencia básica es muy costosa y además expira en un año.
o Unido a lo anterior, gran cantidad de técnicas de análisis especializados hay que
adquirirlas con un coste adicional que sigue siendo elevado.
o Desde el punto de vista del software resulta un programa pobre, puesto que es
lento en muchas ocasiones y además aborta los procesos con elevada frecuencia.
4. Disponibilidad en la Universidad Jaén:
http://www.ujaen.es/sci/invdoc/soft/microinf/acuespe/spss/spss11.html
http://www.ujaen.es/sci/invdoc/soft/microinf/acuespe/spss/amos50.html
Donde por un coste muy bajo se puede adquirir una licencia para ordenador personal y
renovar los códigos todos los años, gracias a la cobertura del servicio central de
informática.
5. Menús de ayuda y tutoriales:
C:\Archivos de programa\SPSS\tutorial\spsstut\introtut2.htm
5
©Manuel Miguel Ramos Álvarez
Recursos metodológicos y estadísticos
2.1.2.1.
II-6
Ventanas básicas del programa SPSS
Ventana Inicial del Programa
6
©Manuel Miguel Ramos Álvarez
Recursos metodológicos y estadísticos
II-7
Ventana Principal del Programa
Título
Menús
Herramientas
Edición
Área Datos:
Matricial
Desplazamientos
Opciones
Datos
Barra
Estado
7
©Manuel Miguel Ramos Álvarez
Recursos metodológicos y estadísticos
II-8
Ventana Análisis Prototípica del Programa
Área
Variables
Disponibles
Área
Definición
Variables
Área Comandos y
Opciones del
Módulo análisis
Área Comandos y
Opciones generales
8
©Manuel Miguel Ramos Álvarez
Recursos metodológicos y estadísticos
II-9
Ventana Resultados Prototípica del Programa
Área Títulos
Área Resultados
según título
elegido
Área
Opciones
Edición
9
©Manuel Miguel Ramos Álvarez
Recursos metodológicos y estadísticos
2.1.2.2.
Sistema de Menús en el programa SPSS
•
Generales
II-10
Menús: Archivo, Edición y Ver
•
Procesamiento de Datos
Menús: Datos y Transformar
10
©Manuel Miguel Ramos Álvarez
Recursos metodológicos y estadísticos
•
II-11
Analizar
A) Resumen de la información: Análisis descriptivo-exploratorio
Para Ayudar en la creación de
tablas resumen del apartado de
resultados, cuando se desea
tantear los resultados con la
lógica de ANOVA.
La
Opción
de
Resumen
Descriptivo más importante.
•
Para
Distribución
de
Frecuencias (aprox. clásica),
•
la opción de descripción,
•
EDA,
•
Tablas de Contingencia para
Diseños Categóricos
•
Análisis especializados de
escala de medida fuerte
(Tipo Razón).
Generación más sofisticada de
Tablas de Contingencia.
11
©Manuel Miguel Ramos Álvarez
Recursos metodológicos y estadísticos
II-12
Para Ayudar nuevamente en la
creación de tablas resumen del
apartado de resultados, pero
cuando interesa agrupar según
muchas categorías más que
tantear los resultados.
12
©Manuel Miguel Ramos Álvarez
Recursos metodológicos y estadísticos
II-13
B) Análisis inferencial básico: Modelo Lineal General: ANOVA y Regresión
Contraste de Hipótesis sobre la
Media
(Lineal-ANOVA)
con
enfoque clásico.
Análisis
del
Modelo
Lineal
General.
•
Una
única
variable
Dependiente.
•
Más
de
una
variable
dependiente.
•
Diseños Intrasujetos o de
medidas repetidas.
•
Diseños especializados de
Efectos Mixtos (algunas vv,
independientes
son
de
efectos fijos y algunas de
efectos aleatorios).
Análisis
del
Modelo
Lineal
General
para
diseños
especializados como por ejemplo
Covariados o Factoriales Mixtos
Complejos.
13
©Manuel Miguel Ramos Álvarez
Recursos metodológicos y estadísticos
II-14
Análisis de tipo Regresión con
enfoque clásico.
•
Dos variables
•
Controlando el influjo de
terceras variables.
•
Distancias que intervienen en
cálculos de residuales y
sobre
todo
del
tipo
Multivariado
(como
la
Distancia Euclídea).
Análisis de tipo Regresión según
el enfoque del Modelo Lineal para
diseños correlaciones (Cuadrante
1º) pero mezcla también el
Modelo Lineal Generalizado para
diseños
categóricos
espacialmente para regresión
logística (Cuadrantes 2º y 4º),
así como opciones No Lineales
(Cuadrante 3º).
14
©Manuel Miguel Ramos Álvarez
Recursos metodológicos y estadísticos
II-15
C) Análisis de los supuestos del Modelo y pruebas alternativas No Paramétricas
Compendio
de
pruebas
No
paramétricas
con
distinta
finalidad
(ver
el
cuadro
clasificatorio de pruebas No
Paramétricas).
D) Generalización al diseño categórico
Análisis de diseños categóricos
desde el punto de vista del
enfoque
del
Modelo
Lineal,
permitiendo obtener el Modelo
Óptimo que mejor ajusta a los
datos.
15
©Manuel Miguel Ramos Álvarez
Recursos metodológicos y estadísticos
II-16
E) Análisis avanzado: Técnicas Multivariantes
Análisis del tipo Clúster y
Discriminante
para
clasificar
datos según los casos o las
variables. Por ejemplo se extraen
5 agrupaciones a partir de
insectos de diferentes tipos.
Análisis del Factorial con un
objetivo descriptivo avanzado.
Por ejemplo, un conjunto de 100
indicadores de calidad se resume
(reduce) a partir de 6 factores.
Análisis de escalas de utilidad en
Ciencias
de
corte
comportamental,
social
y
educativo Por ejemplo, análisis
de la fiabilidad o exactitud de
una medida.
16
©Manuel Miguel Ramos Álvarez
Recursos metodológicos y estadísticos
II-17
Análisis de series temporales
(muchas medidas a través del
tiempo),
especialmente
con
aproximación ARIMA basada en
autorregresión.
Por
ejemplo
abstraer el modelo que subyace
al patrón de las medidas de una
sustancia contaminante a través
de los registros de todo un año.
Análisis de supervivencia, de
aplicación en el ámbito de
Ciencias de la Salud en el que
interesa estudiar los datos que
van quedando con el transcurso
del tiempo o tras la aplicación de
programas de tratamiento.
17
©Manuel Miguel Ramos Álvarez
Recursos metodológicos y estadísticos
•
II-18
Gráficos
Los tipos de representaciones Gráficas en SPSS
A
D
B
A
B
E
C
E
B
E
A
F
F
E
F
A) Tipo Histograma (Barras-Columnas-Histograma, Pareto)
B) Tipo Polígono Frecuencias (Líneas, Secuencia, Superficie)
C) Tipo Diagrama Simbólico (Sectores, Iconos, Imágenes)
D) Tipo Diagrama Dispersión
E) Tipo EDA (Max-Min, Cajas, P-P y Q-Q Normal)
F) Fines Específicos: Para Series Temporales
(Autocorrelaciones, Correlaciones Cruzadas, Espectral),
Barras de Error –Rangos- o para Control Calidad.
18
©Manuel Miguel Ramos Álvarez
Recursos metodológicos y estadísticos
II-19
•
Utilidades (Herramientas automatización)
•
Ayudas
Volver Principio
19
©Manuel Miguel Ramos Álvarez
Recursos metodológicos y estadísticos
2.1.3.
II-20
El programa Statistica
Teniendo en cuenta los pros y contras que se expusieron respecto al programa SPSS, el
programa Statistica de la compañía StatSsoft quizás constituye una de las mejores opciones
alternativas puesto que aventaja al primero en la mayoría de los inconvenientes expuestos.
Recientemente se ha adaptado al castellano, aunque cuesta bastante obtenerla. Un
inconveniente es su precio, que ha incrementado considerablemente en el último año.
2.1.3.1.
Ventanas básicas del programa Statistica
Ventana Inicial del Programa
20
©Manuel Miguel Ramos Álvarez
Recursos metodológicos y estadísticos
II-21
Ventana Principal del Programa
Título
Menús
Herramientas
Desplazamientos
Área Datos:
Matricial
Accesos
Directos a
tareas
Barra
Estado
Para Editar las propiedades de los Datos
21
©Manuel Miguel Ramos Álvarez
Recursos metodológicos y estadísticos
II-22
Ventana Análisis Prototípica del Programa
¾
La lógica es la contraria a la del programa SPSS puesto que en Statistica, primero se le
indica al programa cuál es el diseño para un tipo particular de opción analítica y
posteriormente es cuando se pueden plantear los cálculos adicionales relevantes al
módulo analítico en cuestión.
2.1.Área
Variables
Disponibles
[1] Área Comandos
y Opciones generales
[2] Definir Diseño
2.3. Parámetros
Diseño estadístico
2.2.Área
Definición
Variables
[3] Área Comandos
y Opciones del
Módulo análisis
3.1. Opciones
adicionales del
Módulo análisis
22
©Manuel Miguel Ramos Álvarez
Recursos metodológicos y estadísticos
II-23
Ventana Resultados Prototípica del Programa
Área Títulos
Área Resultados
según título
elegido
Área
Opciones
Edición
Botón de retorno al
análisis que se
está efectuando
Pestañas para
seleccionar resultados
consultados
recientemente
23
©Manuel Miguel Ramos Álvarez
Recursos metodológicos y estadísticos
2.1.3.2.
Sistema de Menús en el programa Statistica
•
Generales
II-24
Menús: File, Edit, View y Window
24
©Manuel Miguel Ramos Álvarez
Recursos metodológicos y estadísticos
•
II-25
Procesamiento de Datos
Menús: Insert, Format y Data
25
©Manuel Miguel Ramos Álvarez
Recursos metodológicos y estadísticos
•
II-26
Analizar
En general:
26
©Manuel Miguel Ramos Álvarez
Recursos metodológicos y estadísticos
II-27
A) Resumen de la información: Análisis descriptivo-exploratorio
Incluye varias opciones.
•
Estadísticos
descriptivos
básicos variable a variable
tanto clásicos como robustos
(con EDA).
•
Descriptivos en el contexto
de estudios correlacionales/
covariacionales.
•
Descriptivos para diseños
Entregrupos tanto simples
como
factoriales
como
anidados
•
Para
Distribución
de
Frecuencias y Tablas de
Contingencia
tanto
en
Diseños Categóricos simples
como factoriales (múltiples).
27
©Manuel Miguel Ramos Álvarez
Recursos metodológicos y estadísticos
II-28
B) Análisis inferencial básico: Modelo Lineal General: ANOVA y Regresión
Contraste de Hipótesis sobre la
Media (Lineal-ANOVA), sobre la
Correlación
(Lineal-Regresion)
y sobre las Proporciones, con
enfoque clásico y para diseños
simples.
Análisis de tipo Regresión con
enfoque clásico.
•
Dos variables
•
Controlando el influjo de
terceras variables.
•
Distancias que intervienen en
cálculos de residuales y
sobre
todo
del
tipo
Multivariado
(como
la
Distancia Euclídea).
Análisis de tipo ANOVA con
enfoque clásico.
•
Diseños
Entregrupos
ya
unifactoriales (one-way) o
Factoriales (Factorial).
•
Diseños Intrasujetos o de
medidas repetidas (repeated
measures).
•
Diseños Factoriales Mixtos
que incluyen ambos tipos de
manipulación
(repeated
measures).
28
©Manuel Miguel Ramos Álvarez
Recursos metodológicos y estadísticos
II-29
Análisis
del
Modelo
Lineal
General.
•
Ya
en
el
contexto
de
regresión (continuous).
•
Ya en el contexto ANOVA
(cetegoriacal).
•
Más
de
una
variable
dependiente
(Multivariate)
versus Intrasujetos (within
Effects).
•
Diseños especializados: de
Efectos Mixtos (algunas vv,
independientes
son
de
efectos fijos y algunas de
efectos
aleatorios),
Covariados
o
Factoriales
Mixtos Complejos, Anidados
o Jerárquicos, etc.
Análisis de tipo Regresión No
Lineal (i.e. curva de crecimiento
exponencial o regresión regional
- piecewise regression models-).
29
©Manuel Miguel Ramos Álvarez
Recursos metodológicos y estadísticos
II-30
C) Análisis de los supuestos del Modelo y pruebas alternativas No Paramétricas
Compendio
de
pruebas
No
paramétricas
con
distinta
finalidad
(ver
el
cuadro
clasificatorio de pruebas No
Paramétricas). Hay un módulo
especializado en el ajuste de
Modelos de distribución, de gran
utilidad en cuanto al análisis de
los supuestos y otro para estimar
probabilidades directamente a
partir de diferentes modelos de
distribución.
D) Generalización al diseño categórico
¾
¾
Análisis
de
diseños
categóricos desde el punto
de vista del enfoque del
Modelo Lineal, permitiendo
obtener el Modelo Óptimo
que mejor ajusta a los datos.
Dentro del contexto de
Análisis de tipo Regresión
según el enfoque del Modelo
Lineal
para
diseños
correlaciones pero mezcla
también el Modelo Lineal
Generalizado para diseños
categóricos espacialmente
para regresión logística.
30
©Manuel Miguel Ramos Álvarez
Recursos metodológicos y estadísticos
II-31
E) Análisis avanzado: Técnicas Multivariantes
¾
¾
¾
Análisis del tipo Clúster y
Discriminante para clasificar
datos según los casos o las
variables. Por ejemplo se
extraen 5 agrupaciones a
partir
de
insectos
de
diferentes tipos.
Análisis Factorial, con un
objetivo
descriptivo
avanzado. Por ejemplo, un
conjunto de 100 indicadores
de
calidad
se
resume
(reduce) a partir de 6
factores.
Análisis
de
escalas
de
utilidad en Ciencias de corte
comportamental, social y
educativo
Por
ejemplo,
análisis de la fiabilidad o
exactitud de una medida.
Análisis de supervivencia, de
aplicación en el ámbito de
Ciencias de la Salud en el que
interesa estudiar los datos que
van quedando con el transcurso
del tiempo o tras la aplicación de
programas de tratamiento.
Análisis
de
ecuaciones
estructurales (relaciones de
predicción secuenciales en las
que se pone a prueba una
cadena
causal
de
acontecimientos). Por ejemplo
intentar predecir la inteligencia
general (medida con las Matrices
Progresivas de Raven), a partir
de la capacidad de memoria
operativa.
Análisis de series temporales
(muchas medidas a través del
tiempo),
especialmente
con
aproximación ARIMA basada en
autorregresión.
Por
ejemplo
abstraer el modelo que subyace
al patrón de las medidas de una
sustancia contaminante a través
de los registros de todo un año.
31
©Manuel Miguel Ramos Álvarez
Recursos metodológicos y estadísticos
II-32
F) Análisis avanzado: Técnicas Específicas
El programa incluye módulos especializados (que se comercializan de manera individual
y que no se incluyen en la licencia básica del programa), los cuales permiten implementar
análisis estadísticos bastante sofisticados, la mayoría relacionados con modelización:
¾
¾
Análisis
de
control
de
calidad. Cuando la salida de
un proceso (i.e. gráfico)
tiene que reflejar cambios
inmediatos
de
manera
dinámica.
Teoría
matemática
de
optimización de diseños
(DOE). Para deducir diseños
óptimos cuando se desea
simplificar el modelo (i.e.
está
justificado
que
se
prescinda
de
las
interacciones
complejas,
como
en
los
diseños
anidados o jerárquicos).
Módulo
especializado
para
estimaciones relacionadas con la
potencia estadística y el tamaño
del efecto del tratamiento.
Módulo especializado para la
modelización
de
redes
neuronales, como las del tipo
conexionista (i.e. Regla LMR de
aprendizaje).
32
©Manuel Miguel Ramos Álvarez
Recursos metodológicos y estadísticos
II-33
Módulo especializado (“Data mining”)
para abstraer patrones, modelar
grandes masas de datos y hacer
predicciones,
donde
destaca
la
aplicación de Control de Calidad
(Quality Control), algunas de las
cuales sirven para el análisis de datos
en diseños del tipo cualitativo.
Módulo
especializado
para
la
para el análisis cualitativo de
textos.
33
©Manuel Miguel Ramos Álvarez
Recursos metodológicos y estadísticos
•
II-34
Gráficos
Los tipos de representaciones Gráficas en Statistica
A
E
F
D
F
C
B
Mezcla
E
C
A
B
E
C
E
A) Tipo Histograma (Barras-Columnas-Histograma, Pareto)
B) Tipo Polígono Frecuencias (Líneas, Secuencia, Superficie)
C) Tipo Diagrama Simbólico (Sectores, Iconos, Imágenes)
D) Tipo Diagrama Dispersión
E) Tipo EDA (Max-Min, Cajas, P-P y Q-Q Normal)
F) Fines Específicos: Para Series Temporales
(Autocorrelaciones, Correlaciones Cruzadas, Espectral),
Barras de Error –Rangos- o para Control Calidad
34
©Manuel Miguel Ramos Álvarez
Recursos metodológicos y estadísticos
¾
II-35
•
Utilidades (Herramientas automatización)
•
Ayudas
Especialmente recomendable la opción “Electronic Statistics Textbook”
Volver Principio
35
©Manuel Miguel Ramos Álvarez
Recursos metodológicos y estadísticos
2.1.4.
II-36
El entorno R
Hoy por hoy, este entorno constituye una de las mejores opciones de análisis estadístico
especializado, básicamente porque su coste es cero y además la calidad técnica de los análisis
supura con creces a la de los programas comerciales. Esto es así ya que se trata de un
programa de libre distribución bajo licencia GNU y además porque el número de librerías
especializadas va creciendo exponencialmente en los últimos años. El inconveniente más
importante es que el investigador tiene que programar los análisis, de manera que en realidad
el programa no incluye ningún tipo de menú que guíe los análisis. De hecho no siquiera está
pensado para el sistema operativo Windows, aunque veremos como manejarlo desde el mismo
a través de una consola de interacción.
2.1.4.1.
Ventanas básicas del programa R
Para interactuar con este entorno a través de Windows tenemos que efectuar la instalación
oportuna del mismo (ver la página Web: http://cran.es.r-project.org/bin/windows/base/R-2.8.1win32.exe).
Ventana Principal del Programa
Título
Menús
Herramientas
Desplazamientos
Área
Interacción
Línea de Comandos (>)
Y de resultados [1]
36
©Manuel Miguel Ramos Álvarez
Recursos metodológicos y estadísticos
2.1.4.2.
II-37
Bases del programa R
Y eso es todo. Es decir, introduciríamos nuestras instrucciones en la línea de comandos y tras
pulsar [Enter], el programa ofrece el resultado de las mismas. Para facilitar su manejo se
proponen algunas consideraciones.
A) Comandos básicos
X1 <- c(3, 4, 5, 7); X1 [Enter]
Verificación objeto
rm()
help()
?
“”
B) Tipos de datos
Vectores
Factores
Series
Matrices
Marcos
serie temporal
listas
Asignación, definición y verificación básica
de variables (“;” para incluir más de un cmd
misma línea).
Teclear su nombre
Borra objetos en memoria.
Obtención de ayuda
Para invocar var según caracteres
x <- c(3,4,2)
Para variables categóricas
array
(data_vector,
dim_vector),
de
dimensión k
matrix(0, n, b), como series pero para k=2
data.frame, Marco o base de datos que
permite diferentes tipos de información
asociados a una variable
ts()
cualquier tipo de mezclas de datos
C) Lectura/Escritura de datos a partir de ficheros
read.table, read.fwf, scan
Leer data.frames en ASCII
write.table
Almacenarlos
D) Sistema de Ayudas
A partir de linea cmd
A partir del Menú Ayuda
Documentación Web actualizada en diversos
idiomas
help(mean)
http://cran.es.r-project.org/manuals.html
E) Ampliación de posibilidades de análisis cargando paquetes de librerías
A partir del servidor
http://cran.es.r-project.org/web/packages/
A partir de direcciones propias de autores o Æhttp://www-rcf.usc.edu/~rwilcox/
Æhttp://brm.psychonomicde revistas científicas
journals.org/content/38/3/532/suppl/DC1
F) Aportaciones técnicas
Se pueden aportar librerías, siguiendo el estándar de programación (ver ), así como documentos técnicos
(ver ) y artículos concretos (ver ).
G) Opcional. Creación de un script para la introducción de comandos:
[Archivo Æ Nuevo script Æ le damos un nombre y lo almacenamos].
De esta manera tenemos un sencillo editor en el que emplear las funciones del portapapeles de Windows y
para ejecutar partes concretas, la seleccionamos y pulsamos [Crtl + R].
37
©Manuel Miguel Ramos Álvarez
Recursos metodológicos y estadísticos
2.1.4.3.
II-38
Mejoras del programa R para los usuarios de Windows
A) Mejoras para la introducción de comandos y la programación
1.
Descargar e instalar el Editor XEmacs:
http://ftp.xemacs.org/pub/xemacs/binaries/win32/InnoSetup/XEmacs_Setup_21.4.21.exe
2. Descargar la última versión de ESS:
http://ess.r-project.org/downloads/ess/ess-5.3.11.zip
3. Descomprimir los contenidos de ESS en el directorio por defecto donde se instaló XEmacs:
c:\Archivos de Programa\XEmacs\site-packages\
4. Crear el subdirectory “.xemacs” en el directorio principal de Windows que se cargará por defecto al
entrar en la ventana de comandos:
[Inicio Æ Ejecutar Æ cmd Æ Enter Æ mkdir .xemacs Æ Enter].
5. Copiar el fichero de configuración de J. Fox (“init.el”) en el directorio creado en el paso
anterior:
http://socserv.socsci.mcmaster.ca/jfox/Books/Companion/ESS/init.el
6. Iniciar el programa XEmacs, esperar hasta que cargue por completo y entonces en la
ventana superior creamos un nuevo scratch de tipo R:
[File Æ New Æ Scratch.R Æ Intro], y el resultado será del siguiente tipo:
•
•
Más información se puede obtener en la guía breve de J. Fox, An Introduction to ESS +
XEmacs for Windows Users of R:
http://socserv.mcmaster.ca/jfox/Books/Companion/ESS/ess-xemacs.pdf
En el menú superior podremos programar y en el inferior se obtienen los resultados del
programa R.
38
©Manuel Miguel Ramos Álvarez
Recursos metodológicos y estadísticos
II-39
B) Mejoras en la salida del programa
A través del paquete R2HTML se puede lograr una salida que se asemeja al visor de resultados
de los programas comerciales.
A continuación se propone un fragmento de código que sirve para conseguir este tipo de salida
con formato.
library(R2HTML)
HTMLStart(outdir = "c:/",filename="BrainTrain",echo=FALSE)
as.title("Este es el visor del estudio de BarinTraining en HTML")
Memoria <- c(9,8,7,8,5,5,7,7,8,1,8,7)
NivGrupos <- c("BrainT", "VideoJ", "RepVideoJ")
gl(3, 4, label=NivGrupos)
Grupos <- gl(3, 4, label=NivGrupos)
BrainTrain <- data.frame(Grupos, Memoria)
tapply(Memoria, Grupos, mean)
modelo <- lm(Memoria ~ Grupos)
summary(modelo)
anova(modelo)
HTMLStop()
#En versiones posteriores a la 2.6.x hay que cargar el paquete expresamente:
#Paquetes Æ Instalar paquetes Æ seleccionar un CRAN mirror Æ Aceptar Æ
¾
Para más información se puede consultar:
http://www.stat.ucl.ac.be/ISdidactique/Rhelp/library/R2HTML/doc/R2HTML.pdf
39
©Manuel Miguel Ramos Álvarez
Recursos metodológicos y estadísticos
2.2. Procesamiento inicial de
comprensión de los mismos
o
o
II-40
los
datos
para
una
primera
Creación de ficheros de datos: codificación de variables, gestión, importación,
almacenamiento
Incorporación de nueva información a partir de los datos básicos
¾
¾
¾
Antes de comenzar sería conveniente que almacenase los
ficheros con los que va a trabajar en alguna carpeta personal.
Si intenta abrir ficheros de SPSS o de Excel directamente a
través de un Navegador (i.e. Explorer), el enlace al programa
puede que funcione inadecuadamente. Es preferible que abra
el programa (i.e. SPSS) y desde él acceda al fichero concreto.
Los ficheros están todos incluidos en un fichero comprimido de
la plataforma que se denomina “RMEDI_Supuestos.zip”.
Tenga presente que hay 3 supuestos que servirán para
ejemplificar los contenidos de este tema, así como de los dos
temas que vienen a continuación: análisis descriptivo y
análisis basado en Diferencias mediante ANOVA.
Puede trabajar de dos maneras,
o bien divide la pantalla en dos mitades, de manera que
en una de ellas tenga el tutorial y en la otra el
programa informático para ir aplicando los comandos.
o Otra opción es imprimir el tutorial y así poder dedicar
la ventana completa del PC al manejo del programa
informático.
40
©Manuel Miguel Ramos Álvarez
Recursos metodológicos y estadísticos
2.2.1.
•
•
•
•
•
•
•
II-41
Introducción a la Codificación de variables
La medición de variables métricas o cuantitativas requiere fundamentalmente de la
asignación de códigos (casi siempre numéricos) que reflejen los cambios cuantitativos.
En comparación, cuando se mide una variable categórica el proceso no es tan directo
puesto que tenemos que codificar dicha variable mediante valores numéricos, aunque la
codificación no puede ser cualquiera.
Puede utilizarse cualquier esquema de codificación siempre que se emplee de manera
sistemática. El esquema es una cuestión realmente arbitraria. Sin embargo, hay
esquemas que son preferibles, puesto que facilitan la comprensión de los datos, evitan
errores interpretativos y además son más sólidos a efectos del cálculo numérico.
Se han impuesto tres sistemas de codificación: sistema de efectos, ficticio (dummy) y de
contrastes. Hay autores que manifiestan sus preferencias por el de contrastes (v.gr. los
manuales enfocados a regresión), otros por el de efectos (v.gr. enfocados al ANOVA) y
otros al sistema ficticio (v.gr. los que tienen un enfoque al análisis categórico).
El sistema no afectará a los estadísticos finales del análisis inferencial pero sí a la
interpretación de los parámetros.
Principios generales que nos serán de utilidad:
o La suma de los coeficientes adjudicados tiene que ser cero.
o El sistema incluirá tantos contrastes como grados de libertad tenga la variable a
codificar, es decir número de niveles menos uno.
o Para la interacción basta con multiplicar entre sí los coeficientes adjudicados a
cada una de las variables implicadas en la configuración.
Ejemplos destacados:
o Si tenemos un grupo de control que deseamos comparar con el resto entonces
podríamos decantarnos por el sistema ficticio, de forma que la categoría de
referencia coincida precisamente con el nivel neutral.
o El mejor sistema (y el único) para abordar el análisis de tendencias o funciones
polinómicas es el de contrastes.
41
©Manuel Miguel Ramos Álvarez
Recursos metodológicos y estadísticos
II-42
Sistema de Efectos
El cambio de cada nivel con respecto
a la gran media del diseño.
Se fija un nivel y se le asigna el
coeficiente unitario. Posteriormente
vamos comparando dicha categoría
con las restantes una a una,
asignando a la otra categoría el valor
-1. En consecuencia habrá siempre
un nivel con el valor cero y por lo
tanto su efecto se puede deducir a
partir de los otros.
Sistema ficticio (dummy)
El cambio de cada nivel con respecto
a alguno que se fija como punto de
referencia.
Se fija un nivel y se le asigna el
coeficiente
nulo.
Posteriormente
vamos
asignando
el
coeficiente
unitario a los niveles restantes. De
nuevo habrá siempre un nivel con el
valor cero y por lo tanto su efecto se
puede deducir a partir de los otros.
Dos Niveles
Dos Niveles
φA
φA
Sistema de contrastes
Descomponer
las
variables
de
manera ortogonal. Se ha impuesto el
de Helmert, tomando nuevamente
como punto de referencia el primer
nivel de la variable.
Obtenemos comparabilidad directa
entre los niveles pero de manera que
en algunos contrastes se promedian
diferentes niveles. Nuevamente, si
deseamos
deshacer
dichas
agrupaciones entonces tenemos que
ir sumando contrastes para deducir
unos a partir de los otros.
Dos Niveles
φA
a1
1
a1
0
a1
1
a2
-1
a2
1
a2
-1
Tres Niveles
φA1
φA2
a1
1
1
a2
-1
0
a3
0
-1
Tres Niveles
φA1
φA2
a1
0
0
a2
1
0
a3
0
1
Tres Niveles
φA1
φA2
a1
2
0
a2
-1
1
a3
-1
-1
42
©Manuel Miguel Ramos Álvarez
Recursos metodológicos y estadísticos
2.2.2.
•
•
•
•
II-43
Estructura del fichero de datos
Los datos se deben de organizar según una estructura particular que es la que
actualmente emplean la mayoría de los programas de análisis estadístico.
En general, cada unidad de análisis (sujetos, casos) ocupa una fila diferente y
sólo una.
Los valores que se han medido en las variables dependientes se introducen en
sendas columnas.
o Además, las variables manipuladas Entregrupos (caso de muestras
independientes) se codifican en columnas, una por cada variable.
o Finalmente los niveles de las variables manipuladas Intrasujetos (caso de
muestras relacionadas) ocupan diferentes columnas, una por cada nivel
de dicha variable y en ellas aparecerán los valores medidos en las
variables dependientes.
De manera equivalente, si se mide en más de una variable dependiente,
entonces cada una de las mismas se corresponde con una columna.
Supuesto-1
Supuesto-2
Supuesto-3
43
©Manuel Miguel Ramos Álvarez
Recursos metodológicos y estadísticos
II-44
2.2.3.
Ejemplificación de la introducción de datos a partir del
Supuesto 2 mediante el programa Excel
Columna A:
Var.Indep Mes
Columna B:
Var.Indep Tipo
Columna C:
Var. Dep
Frecuencia
Columnas D a F:
Codifica Mes
Columna G:
Codifica Tipo
Columnas H a J:
Codifica Interacc
Casos en
filas
La Interacción se
refiere al efecto
conjunto de las dos
variables
independientes
44
©Manuel Miguel Ramos Álvarez
Recursos metodológicos y estadísticos
•
II-45
Supongamos que alternativamente hubiéramos introducido los datos con SPSS y el
resultado fuera el que se muestra a continuación:
O bien en Statistica:
45
©Manuel Miguel Ramos Álvarez
Recursos metodológicos y estadísticos
•
II-46
Ahora el objetivo es definir el significado de la codificación de una variable
nominal como es el caso del “mes”. Para ello podemos cambiar la definición de
variables pulsando sobre la pestaña inferior [Vista de variables], entonces indicamos
que la variable mes es del tipo Numérico y procedemos a definir el significado de las
etiquetas nominales, lo que nos llevaría a la ventana en SPSS:
o
Así procederíamos con lo 4 valores e iríamos añadiendo hasta obtener:
En Statistica:
Data Æ Text/Labels Editor:
46
©Manuel Miguel Ramos Álvarez
Recursos metodológicos y estadísticos
•
II-47
Finalmente indicar que en la ventana principal de Edición de datos existe un botón de
) que nos permite visualizar los códigos o bien sus etiquetas y que
herramienta (
aparecía indicado con una flecha en las imágenes precedentes.
47
©Manuel Miguel Ramos Álvarez
Recursos metodológicos y estadísticos
II-48
2.2.4.
Ejemplificación de la introducción de datos a partir del
Supuesto 1 mediante programas de Análisis estadístico
•
En la ventana del editor de datos procedemos como en Excel, de manera matricial y el
resultado quedaría como sigue:
En Statistica:
48
©Manuel Miguel Ramos Álvarez
Recursos metodológicos y estadísticos
II-49
•
Además, si pulsamos en la pestaña inferior de Vista de variables (o elegimos DataÆAll
Variable Specs), podemos definir las características de las mismas, tal y como en la
imagen:
Ejemplo para Humanidades:
Ejemplo para Ciencias:
•
Fundamentalmente resaltar las opciones de valores y Medida. La última hace referencia
a la escala de medida según la taxonomía de Stevens y el campo de valores nos permite
definir la significación de los códigos numéricos empleados para la codificación, como en
el ejemplo del apartado precedente.
Las variables y la escala de medida
(CUADRO 2.5. Esquema resumen del proceso de medición, tomado de Ramos et al., 2004)
NOMINAL
DEFINICIÓN
PROPIEDAD O
TIPO DE RELACIÓN
EJEMPLOS
ORDINAL
INTERVALO
Comparación de
Intervalos
(agrupaciones de la
misma longitud) o
distancia que existe
entre las ordenaciones.
Exige un valor de
referencia o cero
relativo (arbitrario).
RAZÓN
Comparación
entre razones, lo
que exige la
existencia de un
cero real o
absoluto.
Esquema
clasificación
Ordenación
Igualdad/
Desigualdad
Mayor que/
Menor que
Diferencia / Suma
Multiplicación/
División
Diagnóstico
en
Psicopatología
Sexo
Rasgo
Personalidad
Dureza
minerales
Inteligencia en Z.
Temperatura (ºC-F)
Tiempo Reacción
Longitud
49
©Manuel Miguel Ramos Álvarez
Recursos metodológicos y estadísticos
II-50
2.2.5.
Ejemplificación de la introducción de datos a partir del
Supuesto 3 mediante programas de Análisis estadístico
•
En la ventana del editor de datos procedemos como en los dos supuestos precedente y
el resultado quedaría ahora como sigue:
• De nuevo editamos la vista de variables y obtenemos lo siguiente:
Ejemplo para Humanidades:
Ejemplo para Ciencias:
•
En el campo dedicado a las etiquetas hemos introducido el significado de las mismas, 80
vs 90 vs 100.
50
©Manuel Miguel Ramos Álvarez
Recursos metodológicos y estadísticos
2.2.6.
II-51
Almacenamiento y edición de los ficheros de datos
•
Una vez introducidos los datos y definidas las variables, procedemos a almacenarlas en
un fichero tal y como se haría en cualquier programa del entorno Windows:
[Archivo|Guardar (File|Save)] o bien [Archivo|Guardar como…(File|Save As
…)]. En el ejemplo los ficheros se han denominado “CADIPI1_Sup*.sav”
(“CADIPI1_Sup*1.sta”), es decir:
o CADIPI1_Sup1E.sav,
CADIPI1_Sup1E.sta,
CADIPI1_Sup1C.sav
ó
CADIPI1_Sup1C.sta,
o CADIPI1_Sup2E.sav,
CADIPI1_Sup2E.sta,
CADIPI1_Sup2C.sav
ó
CADIPI1_Sup2C.sta,.
o CADIPI1_Sup3E.sav,
CADIPI1_Sup3E.sta,
CADIPI1_Sup3C.sav
ó
CADIPI1_Sup3C.sta,
o CADIPI1_Sup4.sav, CADIPI1_Sup4.sta.
•
Por otro lado, podemos añadir casos en filas o variables en columnas en cualquier
momento que lo deseemos, basta con seleccionar con el ratón la fila o columna
correspondiente y pulsar el botón secundario del ratón.
Por ejemplo para intercalar añadir un caso:
Y para intercalar una variable:
51
©Manuel Miguel Ramos Álvarez
Recursos metodológicos y estadísticos
En Statistica:
Por ejemplo para intercalar un caso:
II-52
Y para intercalar una variable:
52
©Manuel Miguel Ramos Álvarez
Recursos metodológicos y estadísticos
2.2.7.
•
•
•
II-53
Importación de ficheros de datos a partir del Supuesto 2
Una buena costumbre es trabajar en un programa de propósito general, como por
ejemplo Excel, para introducir los datos y poder inspeccionarlos. Entonces
posteriormente se llevarán al programa SPSS mediante la opción de importación
automática de la que dispone.
Puesto que los datos del fichero para el supuesto 2 se crearon en Excel, nos servirá
como ejemplo. El fichero de Excel se llama “CADIPI1_Sup.xls” y contiene en realidad
cuatro hojas de cálculo, de las cuales ahora únicamente nos interesa la del 2º supuesto.
Con el editor de datos del programa de análisis (bien SPSS bien Statistica) en blanco,
pulsamos [Archivo|Abrir|Datos ó File|Open], entonces especificamos el tipo de
datos para Excel y el nombre del fichero:
Especificar aquí que
es del tipo Excel
•
Posteriormente seleccionamos la hoja de trabajo y le indicamos que lea el nombre de las
variables en el primera fila de datos:
53
©Manuel Miguel Ramos Álvarez
Recursos metodológicos y estadísticos
II-54
En Statistica:
• Con el editor de datos del programa de análisis (bien SPSS bien Statistica) en blanco,
pulsamos [File|Open], entonces especificamos el tipo de datos para Excel y el nombre
del fichero:
•
Posteriormente le indicamos que importe el fichero como una Hoja, seleccionamos la
hoja de trabajo que nos interesa y le indicamos que lea el nombre de las variables en el
primera fila de datos:
54
©Manuel Miguel Ramos Álvarez
Recursos metodológicos y estadísticos
•
II-55
Alternativamente, supongamos que los datos en realidad se encontraban en un fichero
de texto sencillo tipo ASCII (que se puede editar meramente con el Bloc de Notas de
Windows) y además con los datos divididos en dos ficheros: “CADIPI1_Sup2a.txt” y
“CADIPI1_Sup2b.txt”, uno por cada tipo de riachuelo. Pues bien, empezamos
importando el primero de los ficheros como antes, lo único que cambia es el formato
(ahora texto) y el hecho de que los datos se encuentran separados mediante el carácter
“;” pero evidentemente podríamos haber elegido otro tipo de separador. En definitiva:
55
©Manuel Miguel Ramos Álvarez
Recursos metodológicos y estadísticos
•
•
•
II-56
Y ya podemos pulsar en el comando [Finalizar].
Guardamos el fichero resultante con formato de SPSS y realizamos exactamente la
misma operación con el otro fichero de texto que contiene la segunda parte de los datos,
con lo cual llegamos a los ficheros “CADIPI1_Sup2a.sav” y “CADIPI1_Sup2b.sav”. Ahora
procedemos a la fusión, mediante el comando [Datos|Fundir archivos|Añadir
casos…].
Entonces, si teníamos activo el fichero “CADIPI1_Sup2b.sav”, le decimos al programa
que fusione el otro fichero, es decir “CADIPI1_Sup2a.sav”. Obviamente también se
puede efectuar a la inversa. Lo más importante es especificar (si las hubiera) cuáles son
las variables que no coinciden en ambos ficheros. El resultado:
Æ En Statistica se hace de manera muy similar y por este motivo no se especifican los detalles.
56
©Manuel Miguel Ramos Álvarez
Recursos metodológicos y estadísticos
II-57
2.2.8.
Incorporación de nueva información a partir de los datos
básicos
•
•
•
Aunque hemos simplificado tremendamente las opciones de gestión de ficheros,
centrando lo más importante, se ha indicado lo más relevante para poder tener una base
razonable.
Hasta aquí hemos vistos todo lo que atañe a los datos originales, pero con frecuencia es
necesario incluir nuevas variables que surgen a partir de otras originales, mediante
alguna transformación.
En lo que sigue ejemplificaremos esta tarea para el Supuesto 1. Supongamos que
nuestro objetivo es transformar la variable X1 en otra nueva que corresponda con su
inversa, es decir queremos aplicar la transformación:
X 1' =
•
1
1
; InvX 1 =
X1
X1
Pues bien, con el fichero oportuno “CADIPI1_Sup1.sav” activo, primero creamos una
nueva variable y le damos incluso un nombre, “InvX1”, entonces pulsamos
[Transformar|Calcular…] y nos aparece la ventana principal de transformaciones que
constituye un asistente:
Ejemplo para Humanidades:
57
©Manuel Miguel Ramos Álvarez
Recursos metodológicos y estadísticos
II-58
Ejemplo para Ciencias:
•
•
A la izquierda se expresa la variable destino y a la derecha la expresión adecuada.
Esta opción es bastante poderosa y el investigador debe familiarizarse con ella. Tenemos
operadores algebraicos básicos, operadores lógicos por ejemplo para aplicar una
transformación únicamente a una parte de los datos (i.e. a un solo grupo), así como
funciones estadísticas y matemáticas bastante sofisticadas (en la parte derecha bajo
funciones). En los módulos posteriores, al hablar de las transformaciones de los datos
volveremos sobre esta opción.
58
©Manuel Miguel Ramos Álvarez
Recursos metodológicos y estadísticos
II-59
En Statistica:
• Con el fichero oportuno “CADIPI1_Sup1.sta” activo, primero creamos una nueva variable
y le damos incluso un nombre, “InvX1”, entonces pulsamos con el botón secundario del
ratón sobre la variable recién creada y entonces introducimos la función en la ventana
inferior o bien activamos el asistente de funciones en el menú [Data|Batch
Transfomrmation Formulas…] y nos aparece la ventana principal de
transformaciones que constituye un asistente (Botón Functions):
•
También en este programa, esta opción es bastante poderosa. Tenemos operadores
algebraicos básicos, operadores lógicos por ejemplo para aplicar una transformación
únicamente a una parte de los datos (i.e. a un solo grupo), así como funciones
estadísticas y matemáticas bastante sofisticadas (en la parte derecha bajo funciones).
En los módulos posteriores, al hablar de las transformaciones de los datos volveremos
sobre esta opción.
59
©Manuel Miguel Ramos Álvarez
Recursos metodológicos y estadísticos
II-60
Recodificación de diversas variables en una única variable.
En ocasiones puede interesarnos juntar los niveles de diversas variables en una única variable.
Por ejemplo, si tenemos un diseño factorial de 2 variables del tipo 4x2, podríamos crear una
nueva variable con 8 niveles. Lo ilustraremos a partir del supuesto 2.
En SPSS:
• Con el fichero oportuno (MEFCS.Sup2.sta) elegimos como antes, primero creamos una
nueva variable y le damos un nombre, “Combina”, entonces pulsamos
[Transformar|Calcular…] y nos aparece la ventana principal de transformaciones:
• Entonces, en la ventana inferior para establecer una condición (“Si …”) vamos definiendo
cada nuevo valor a partir de la combinación de las variables que deseamos recodificar,
i.e. el valor 1 de “Combina” se corresponde con Estrategia=1 (ó v1=1) y Genero=1 (ó
v2=1), y así sucesivamente hasta completar los seis valores.
60
©Manuel Miguel Ramos Álvarez
Recursos metodológicos y estadísticos
II-61
En Statistica
• Con el fichero oportuno (CADIPI1.Sup2E.sta) elegimos el menú Data/Recode.
• Entonces vamos definiendo cada nuevo valor a partir de la combinación de las variables
que deseamos recodificar, i.e. el valor 1 de “NewVar” se corresponde con mes=1 (ó
v1=1) y tipo=1 (ó v2=1), y así sucesivamente hasta completar los ocho valores.
61
©Manuel Miguel Ramos Álvarez
Recursos metodológicos y estadísticos
2.2.9.
•
II-62
Selección de información (aplicación de un filtro de datos)
Finalmente, dada la tremenda utilidad, expondremos la forma de seleccionar un
determinado conjunto de datos a partir del fichero completo de los mismos. Por ejemplo,
volviendo al Supuesto 2, supongamos que en este momento únicamente nos interesa
analizar los datos del primero de los meses (Valor de la variable = 1 y Etiqueta =
“Diciembre”) y obviar el resto.
Ejemplo para Humanidades:
• Volvemos al fichero relevante, “CADIPI1_Sup2C.sav” y pulsamos [Datos|Seleccionar
casos …]
62
©Manuel Miguel Ramos Álvarez
Recursos metodológicos y estadísticos
II-63
•
En la ventana que se despliega indicamos la opción [Si se satisface la condición] y
pulsamos el botón [Sí…], para pasar a definir el condicional que nos permite aplicar el
filtro deseado (“mes = 1”), lo que quedaría de la siguiente manera:
•
Pulsamos [Continuar] y de vuelta a la ventana previa [Aceptar], veremos que el
programa es muy gráfico pues nos tacha los casos excluidos en cada etiqueta de casos
por filas. Hay que tener cuidado pues todos los análisis se efectúan únicamente con los
casos seleccionados.
63
©Manuel Miguel Ramos Álvarez
Recursos metodológicos y estadísticos
II-64
Ejemplo para Ciencias:
• Volvemos al fichero relevante, “CADIPI1_Sup2E.sav” y pulsamos [Datos|Seleccionar
casos …]
64
©Manuel Miguel Ramos Álvarez
Recursos metodológicos y estadísticos
II-65
•
En la ventana que se despliega indicamos la opción [Si se satisface la condición] y
pulsamos el botón [Sí…], para pasar a definir el condicional que nos permite aplicar el
filtro deseado (“mes = 1”), lo que quedaría de la siguiente manera:
•
Pulsamos [Continuar] y de vuelta a la ventana previa [Aceptar], veremos que el
programa es muy gráfico pues nos tacha los casos excluidos en cada etiqueta de casos
por filas. Hay que tener cuidado pues todos los análisis se efectúan únicamente con los
casos seleccionados.
65
©Manuel Miguel Ramos Álvarez
Recursos metodológicos y estadísticos
II-66
En Statistica:
• Volvemos al fichero relevante, “CADIPI1_Sup2C.sta” y pulsamos [Tools|Selection
Conditions | Edit …]
•
En la ventana que se despliega indicamos la opción [Enable Selection Conditions] y
pulsamos el botón [Specific, selected by:], para pasar a definir el condicional que nos
permite aplicar el filtro deseado (“v1 = 1”), lo que quedaría de la siguiente manera:
•
Pulsamos [Aceptar] y confirmamos la activación del filtro de vuelta a la ventana previa
[Aceptar], veremos que existe la opción de visualizar [Display] la selección efectuada
(i.e. por defecto el programa pone en itálica los casos seleccionados). Hay que tener
cuidado pues todos los análisis se efectúan únicamente con los casos seleccionados.
Dos son las herramientas asociadas a las selecciones de este tipo:
•
Editar Filtro
•
Activa/Desactiva Filtro
También se puede acceder al filtro pulsando sobre el botón “Select Cases” que figura en
la parte Inferior Derecha de los módulos especializados de análisis, de manera que se
defina a posteriori, una vez que se ha iniciado el análisis.
66
©Manuel Miguel Ramos Álvarez
Recursos metodológicos y estadísticos
2.2.10.
II-67
Manipulación de ficheros en el Entorno R
1. El procesamiento inicial de datos se realizará en una hoja de cálculo, con objeto de poder
manipular los datos con facilidad y de forma que después se puedan manipular o analizar
con cualquier tipo de programa especializado de análisis.
1.1. Crear un fichero en Microsoft Office Excel ® con la estructura estándar de casos-en-filas
y variables-en-columnas, incluyendo el nombre de las variables:
En el ejemplo, la primera columna
codifica el grupo, la segunda columna
los valores medidos en una primera
variable dependiente y la tercera
columna los que se han medido en una
segunda
variable
dependiente.
La
muestra está constituida por un total de
8 sujetos, de los cuales cada uno de los
grupos tiene asignados 4 sujetos. Una
vez
introducidos
los
datos,
los
almacenamos en un fichero de Excel, en
el ejemplo le llamamos “EjemR.xls” y
estará ubicado en la raíz del disco duro
C.
1.2. También es conveniente almacenar los datos en un fichero de texto, que únicamente
contendrá caracteres ASCII. Para ello, se almacena el fichero del apartado precedente
con el formato de texto, invocando en Excel los comandos: [Archivo Æ Guardar Como
Æ Nombre de archivo: EjemR, Guardar como tipo: Texto (MS-DOS) Æ Guardar Æ
Aceptar Æ Sí Æ Archivo Æ Salir].
2. En el entorno R-Software, se puede programar directamente en la Consola de comandos
pero es mucho más cómodo abrir un script independiente en el que podemos escribir como
en cualquier editor sencillo de texto y entonces ejecutar partes concretas del mismo
seleccionándolas y pulsando [Ctrl+R]. Para hacer esto, ejecutamos los comandos: [Archivo
Æ Nuevo script]. Para más comodidad las Ventanas se pueden organizar en forma de título.
3. Además, dicho script se puede almacenar para futuros análisis, mediante [Archivo Æ
Guardar como Æ Nombre: ComandEjem, Tipo: R files (*.R) Æ Guardar], al que se puede
acceder con [Archivo Æ Abrir script Æ Nombre: ComandEjem, Tipo: R files (*.R) Æ Abrir].
4. Vistos los preliminares, nos centramos ahora en la definición de los datos en el entorno S.
Para ello disponemos de multitud de opciones, de las cuales optaremos por la que nos
permite mantener mayor uniformidad con otros entornos estadísticos. Trabajaremos con
objetos del tipo Data.Frame y además rellenándolo a partir de la importación del fichero de
texto del tipo definido en los apartados precedentes. Para esto vinclulamos un nombre, i.e.
DataEjem,
a
toda
la
información
mediante
el
comando:
[DataEjem
<read.table("c:/EjemR.txt", header=T). el comando header sirve para procesar las cabeceras
de los datos, es decir los nombres de las variables, las cuales estaban incluidas en nuestro
ejemplo (Grupo, VarDep1 y VarDep2).
67
©Manuel Miguel Ramos Álvarez
Recursos metodológicos y estadísticos
II-68
4.1.Alternativamente, R incorpora algunos paquetes para facilitar la interacción con ficheros
de Excel (i.e. RODBC, RexcelInstaller). En el ejemplo siguiente se empleará RODBC:
#-----------------------------------------------------------------#Ejemplo 1 .- Brain Training a partir de Excel
library(RODBC)
canal <- odbcConnectExcel("c:/ModGeneralAnalisis.xls")
ActivFisXls <- sqlFetch(canal, "ASCII1")
odbcCloseAll()
ActivFisXls
#En versiones posteriores a la 2.6.x hay que cargar el paquete expresamente:
#Paquetes Æ Instalar paquetes Æ seleccionar un CRAN mirror Æ Aceptar Æ RODBC
#-----------------------------------------------------------------5. También es recomendable enlazar los nombres de las columnas del fichero, es decir los
nombres de las variables, con objeto de acceder a la información con mayor comodidad:
[attach(DataEjem)].
6. A partir de aquí se pueden seleccionar fragmentos de los datos a través de los valores y los
nombres de las variables. Por ejemplo:
Grupo1 <- DataEjem[Grupo == 1, "VarDep1"]
68
©Manuel Miguel Ramos Álvarez
Recursos metodológicos y estadísticos
II-69
2.3. Casos prácticos
1. A continuación figura un nuevo supuesto de prácticas sobre el que podrá aplicar los
principales conceptos aprendidos en este tema.
Enunciado:
El objetivo de esta investigación fue evaluar los efectos de la Dieta tipo Mediterránea en
la prevención de la enfermedad cardiovascular (ver un ejemplo en la dirección:
http://www.med-estetica.com/Cientifica/Revista/n16/dietamediterranea.html), para lo
cual se formaron al azar grupos de intervención con dieta mediterránea suplementada
con aceite de oliva, frutos secos, o con vino, respectivamente. Además, un cuarto grupo
sirvió como control. En los grupos de intervención, las cantidades se equilibraron con
objeto de optimizar los efectos saludables sobre la dieta. A continuación se presentan los
datos sobre la concentración sérica de los marcadores de inflamación vascular
relacionados con la aparición y desarrollo de la arteriosclerosis, como marcador de
trastornos cardiovasculares, para los individuos del estudio y según el grupo de
pertenencia.
Oliva
7
9
19
1
18
15
F.Secos
19
27
104
39
14
54
Vino
62
77
90
58
57
1
Control
124
51
63
81
83
106
Preguntas:
1.1.
Introduzca los datos mediante el programa Excel y almacénelos en el fichero llamado
“PracticaT2.xls”.
1.2.
En el programa SPSS, importe los datos a partir del fichero del apartado anterior, defina
adecuadamente las variables y entonces almacénelo en el fichero “PracticaT2.sav”.
1.3.
Introduzca una transformación de la variable dependiente a partir de su inversa, en una
nueva variable que se llamará “InvInflama” y con el resultado, cree un nuevo fichero que se
llamará PracticaT2Transf.sav
1.4.
¿Cómo se haría la codificación de la variable Grupo mediante el sistema de contrastes de
tipo Helmert?
1.5.
Intente obtener la media exclusivamente del Grupo de Control, para lo cual tendrá que
seleccionar dicho grupo mediante un filtro y después obtener la media mediante los
comandos [Analizar][Estadísticos Descritivos][Descriptivos][Variables: Inflamacion].
Volver Principio
69
Descargar