Práctica 3 - OCW - Universidad de Murcia

Anuncio
M. Iniesta
Grado en Ciencia y Tecnología de los Alimentos
Universidad de Murcia
Práctica 3:
Descripción bidimensional de datos
1.
Cualitativa
vs
Cualitativa
R-Commander dispone de la opción para construir tablas de doble entrada para
una pareja de variables cualitativas, además de poder construir las distribuciones de
frecuencias condicionadas por las o por columnas. Las opciones se encuentran en Tabla
de doble entrada
del menú Tabla
de contingencia
Práctica 1.1 (Tabla de contingencia)
de Estadísticos.
1. Usando el chero Pulse.TXT convierte
las variables Sex y Activity en factores mediante la opción Convertir
variable
numérica en factor del menú modificar variables del conjunto de datos
activo.
2. Realizar la tabla de doble entrada que se encuentra en el menú
Tablas de contingencia
Estadísticos, usando Sex como variable la y Activity como variable columna. Señala la opción Porcentajes totales. Observa las frecuencias conjuntas e
de
interpreta su signicado.
3. Observa el valor del estadístico Chi-Cuadrado (X-Squared). Esta es una medida
del grado de relación entre ambas variables pero que no está acotada. Una medida acotada en el intervalo [0,1) y por tanto de más fácil interpretación es el
Coeficiente de Contingencia que viene dado por
s
χ − Squared
χ − Squared + n
donde
n
la expresión:
es el tamaño muestral. Un valor alto del estadístico indicará un grado alto
de asociación entre las variables en juego. Calcula el Coeciente de Contingencia
en el presente ejemplo.
Práctica 1.2 (Grado de relación entre dos variables cualitativas)
Como hemos
dicho anteriormente el Coeciente de Contingencia puede ser usado para medir el grado
de intensidad entre dos variables cuantitativas y puede ser calculado a partir del estadístico
χ − Squared.
1. Descarga el chero CARCASA.TXT que contiene datos sobre fallos de fabricación
de carcasas. Realiza las tablas de frecuencias conjuntas, marginales y condicionadas,
así como los correspondientes grácos de la variable
y de la variable
Defecto
en función de
Maquina.
Defecto
en función de
Turno
Aprende a interpretar tablas y
grácos.
Práctica 3
Curso 2010-11
Página: 1
M. Iniesta
Grado en Ciencia y Tecnología de los Alimentos
Universidad de Murcia
2. Calcula el coeciente de contingencia en ambos casos y aprecia la diferencia entre
las dos situaciones. Pero dicho coeciente no es comparable en la mayoría de las
situaciones, salvo en aquellas situaciones donde la tabla tenga el mismo número
de las que de columnas. Interpretamos, sin embargo, que a mayor valor de dicho
coeciente mayor grado de asociación entre dichas variables.
Para describir una pareja de variables cualitativas
en los vectores
x, y ,
la función
table(x,y)
X, Y ,
cuyos datos se encuentran
construye la tabla de frecuencias absolutas
tabla<-table(x,y), funciones como las
tabla.
conjuntas o tabla de doble entrada. Si hacemos
siguientes pueden ser aplicadas al objeto
prop.table(tabla)
prop.table(tabla,1)
prop.table(tabla,2)
Distribución de frecuencias conjuntas
Distribuciones de frecuencias condicionadas por las
Distribuciones de frecuencias condicionadas por columnas
pie(tabla)
Gráco de sectores de la distribución de frecuencias conjuntas (no es práctico si la tabla tiene más de 6 casillas)
barplot(table(x,y))
Gráco en forma de barras (proporciones de valores de
x para cada valor de y)
barplot(table(y,x))
Gráco en forma de barras (proporciones de valores de
y para cada valor de x)
Práctica 1.3 (Aprendiendo R)
Describe la pareja de variables Sex y Activity del
chero Pulse.TXT mediante las funciones de R y la ventana de instrucciones de RCommander.
2.
Cuantitativa Continua
vs
Cualitativa
Pasamos directamente a este caso más frecuente porque si la variable dependiente
fuera cuantitativa discreta con pocos valores observados diferentes podremos describirla
como el caso anterior. La diferencia esencial es que si la variable dependiente
Y
es contin-
ua es posible calcular estadísticos mientras que en la situación anterior sólo proporciones
y grácos. Cuando es numérica discreta también es posible algunos estadísticos básicos
como la moda, la mediana o el recorrido de la variable.
En general, cuando trabajamos con variables condicionadas
Y |x, como variables uni-
variantes, el tipo de tratamiento estadístico es el mismo que para la variable marginal
Y.
La diferencia es que nos interesa tratar todas las variables
comportamiento depende del valor
X=x
Y |x
para analizar si su
(variables dependientes) o por el contrario en
el comportamiento de todas las variables condicionadas
Y |x no hay diferencias signica-
tivas (variables independientes).
Como ya dijimos, un resumen descriptivo de una variable cuantitativa puede venir
dado mediante el
diagrama de caja y bigotes, pues éste recoge para ser interpretadas
las características de centralización, localización, dispersión y forma de la distribución
de frecuencias. Por ello, como herramienta básica para analizar la dependencia entre una
variable cuantitativa y una cualitativa vamos a usar este gráco.
Práctica 3
Curso 2010-11
Página: 2
M. Iniesta
Grado en Ciencia y Tecnología de los Alimentos
Universidad de Murcia
Práctica 2.1 (Diagrama de caja y bigotes por grupos)
1. Vamos a construir
el diagrama de caja y bigotes de la variable Pulse2 para cada tipo de actividad. La
opción la podemos encontrar en diagrama de caja del menú Grácas y seleccionando la opción Gráca por grupos. Discute las características de cada una de las
tres muestras comparándolas entre ellas. En la opción Tabla de estadísticas del
menú Resúmenes en Estadísticos podemos obtener algunos estadísticos básicos
de las distribuciones condicionadas.
2. La función
summary(Var1), by=Factor1)
en la ventana de instrucciones aporta
los valores de los estadísticos básicos de la variable cuantitativa
modalidad del factor
Factor1
Var1
para cada
que se han representado en el diagrama de caja y
bigotes. Este gráco puede ser obtenido haciendo
boxplot(Var1 Factor1).
Real-
iza la práctica anterior mediante los comandos citados.
3. Describe la diferencia de pulsaciones entre antes y después de hacer ejercicio físico
en relación a sexo.
Práctica 2.2 (Grácas de medias)
La gráca de medias representa a las medias y
sd
las desviaciones típicas (sd) o los errores típicos ( √ ), también conocido por Error de
n
la media. Esta última medida es la desviación típica de la media, considerada ésta como
uno de los posibles valores al tomar toda las posibles muestras de tamaño
Representa las medias de la variable
variable
Activity.
Práctica 2.3 (Serie temporal)
Pulso2
n.
para cada actividad (modalidades de la
La gráca de medias puede ser usada para analizar
cómo evoluciona una variable, en término medio, a lo largo del tiempo y en distintos
periodos, cuando se dispone de una colección de datos del mismo periodo, por ejemplo:
temperaturas mensuales, precipitaciones anuales, valores bursátiles diarios, etc.
Descargar el chero clima.rda y representar las medias de las temperaturas me-
dias mensuales de Murcia (T-Med-M). Ordena los niveles mediante la opción Reordenar
niveles de un factor del menú Modificar variables del conjunto de datos activo.
Haz lo mismo, ahora por años y previamente convirtiendo a factor la variable Año.
3.
Cuantitativa Continua
vs
Cuantitativa Continua
Cuando estudiamos la posible relación entre dos variables cuantitativas continuas es
necesario en primer lugar intuir tanto la forma como la intensidad de la relación. Ello
podemos llevarlo a cabo mediante un gráco llamado
Diagrama de dispersión que
(xi , yi ), desde i = 1, 2, ...., n.
representa en el plano bidimensional las parejas de valores
Si la forma de la nube de puntos sugiere un ajuste lineal como el mejor de todos los
posibles, podemos obtener los parámetros de la recta de mínimos cuadrados mediante
la opción Regresión
lineal
También, mediante la opción
del menú Ajustes
de modelos en Estadísticos.
Matriz de correlaciones del menú Resúmenes en
Estadísticos podremos obtener el valor del coeciente de correlación de Pearson. La
opción gráca del diagrama de dispersión también permite dibujar la recta de regresión
e incluso clasicar los puntos de la nube según las modalidades de cierto factor.
Práctica 3
Curso 2010-11
Página: 3
M. Iniesta
Grado en Ciencia y Tecnología de los Alimentos
Universidad de Murcia
Práctica 3.1 (Matriz de diagramas de dispersión)
Lleva a cabo la
Gráficas,
Usando el chero
matriz de diagramas de dispersión
coches.dat
que se usa en el menú de
usando todas las variables cuantitativa. Interpreta la forma de los grácos
que se obtienen en términos de posibles relaciones entre variables. Intenta intuir tanto
la forma como la intensidad de la relación.
Práctica 3.2 (Matriz de correlaciones)
Usando el chero
coches.dat
Lleva a cabo la matriz de correlaciones de Pearson, que se encuentra en la opción
Matriz de Correlaciones
del menú
Resúmenes
de
Estadísticos,
usando todas las
variables cuantitativa anteriores. Observa el valor de una correlación concreta junto con
la forma de la nube de puntos correspondiente.
Práctica 3.3 (Ajustes lineales 1)
Mediante el chero
coches.dat
realiza las sigu-
ientes prácticas:
1. Diagrama de dispersión de la variable
CONSUMO
en función de la variable
CV.
2. Obtención e interpretación de los parámetros de la recta de regresión, mediante la
opción Regresión
lineal
del menú Ajustes
de modelos
en Estadísticos.
3. Valor del coeciente de correlación de Pearson.
CONSUMO en función
linea de regresión.
4. Diagrama de dispersión de la variable
lando únicamente la opción de
de la variable
CV,
5. Realiza los apartados anteriores para analizar la relación de la variable
función de la variable
CONSUMO.
Práctica 3.4 (Ajustes lineales 2)
Mediante el chero
seña-
ACEL
en
Pulse.TXT realiza las siguientes
prácticas:
1. Diagrama de dispersión de la variable
Height
en función de la variable
Weight.
2. Obtención e interpretación de los parámetros de la recta de regresión.
3. Valor del coeciente de correlación de Pearson.
Height en función de
linea de regresión.
4. Diagrama de dispersión de la variable
señalando únicamente la opción de
la variable
Weight,
Height en función de la variable Weight,
de regresión y clasicando los puntos en función
5. Diagrama de dispersión de la variable
señalando la opción de linea
del sexo. Interpreta los resultados.
4.
Bibliografía
Capítulo 3 del texto Estadística Básica con R y R-Commander . Autores: A. J.
Arriaga y otros (En SUMA)
Práctica 3
Curso 2010-11
Página: 4
Descargar