M. Iniesta Grado en Ciencia y Tecnología de los Alimentos Universidad de Murcia Práctica 3: Descripción bidimensional de datos 1. Cualitativa vs Cualitativa R-Commander dispone de la opción para construir tablas de doble entrada para una pareja de variables cualitativas, además de poder construir las distribuciones de frecuencias condicionadas por las o por columnas. Las opciones se encuentran en Tabla de doble entrada del menú Tabla de contingencia Práctica 1.1 (Tabla de contingencia) de Estadísticos. 1. Usando el chero Pulse.TXT convierte las variables Sex y Activity en factores mediante la opción Convertir variable numérica en factor del menú modificar variables del conjunto de datos activo. 2. Realizar la tabla de doble entrada que se encuentra en el menú Tablas de contingencia Estadísticos, usando Sex como variable la y Activity como variable columna. Señala la opción Porcentajes totales. Observa las frecuencias conjuntas e de interpreta su signicado. 3. Observa el valor del estadístico Chi-Cuadrado (X-Squared). Esta es una medida del grado de relación entre ambas variables pero que no está acotada. Una medida acotada en el intervalo [0,1) y por tanto de más fácil interpretación es el Coeficiente de Contingencia que viene dado por s χ − Squared χ − Squared + n donde n la expresión: es el tamaño muestral. Un valor alto del estadístico indicará un grado alto de asociación entre las variables en juego. Calcula el Coeciente de Contingencia en el presente ejemplo. Práctica 1.2 (Grado de relación entre dos variables cualitativas) Como hemos dicho anteriormente el Coeciente de Contingencia puede ser usado para medir el grado de intensidad entre dos variables cuantitativas y puede ser calculado a partir del estadístico χ − Squared. 1. Descarga el chero CARCASA.TXT que contiene datos sobre fallos de fabricación de carcasas. Realiza las tablas de frecuencias conjuntas, marginales y condicionadas, así como los correspondientes grácos de la variable y de la variable Defecto en función de Maquina. Defecto en función de Turno Aprende a interpretar tablas y grácos. Práctica 3 Curso 2010-11 Página: 1 M. Iniesta Grado en Ciencia y Tecnología de los Alimentos Universidad de Murcia 2. Calcula el coeciente de contingencia en ambos casos y aprecia la diferencia entre las dos situaciones. Pero dicho coeciente no es comparable en la mayoría de las situaciones, salvo en aquellas situaciones donde la tabla tenga el mismo número de las que de columnas. Interpretamos, sin embargo, que a mayor valor de dicho coeciente mayor grado de asociación entre dichas variables. Para describir una pareja de variables cualitativas en los vectores x, y , la función table(x,y) X, Y , cuyos datos se encuentran construye la tabla de frecuencias absolutas tabla<-table(x,y), funciones como las tabla. conjuntas o tabla de doble entrada. Si hacemos siguientes pueden ser aplicadas al objeto prop.table(tabla) prop.table(tabla,1) prop.table(tabla,2) Distribución de frecuencias conjuntas Distribuciones de frecuencias condicionadas por las Distribuciones de frecuencias condicionadas por columnas pie(tabla) Gráco de sectores de la distribución de frecuencias conjuntas (no es práctico si la tabla tiene más de 6 casillas) barplot(table(x,y)) Gráco en forma de barras (proporciones de valores de x para cada valor de y) barplot(table(y,x)) Gráco en forma de barras (proporciones de valores de y para cada valor de x) Práctica 1.3 (Aprendiendo R) Describe la pareja de variables Sex y Activity del chero Pulse.TXT mediante las funciones de R y la ventana de instrucciones de RCommander. 2. Cuantitativa Continua vs Cualitativa Pasamos directamente a este caso más frecuente porque si la variable dependiente fuera cuantitativa discreta con pocos valores observados diferentes podremos describirla como el caso anterior. La diferencia esencial es que si la variable dependiente Y es contin- ua es posible calcular estadísticos mientras que en la situación anterior sólo proporciones y grácos. Cuando es numérica discreta también es posible algunos estadísticos básicos como la moda, la mediana o el recorrido de la variable. En general, cuando trabajamos con variables condicionadas Y |x, como variables uni- variantes, el tipo de tratamiento estadístico es el mismo que para la variable marginal Y. La diferencia es que nos interesa tratar todas las variables comportamiento depende del valor X=x Y |x para analizar si su (variables dependientes) o por el contrario en el comportamiento de todas las variables condicionadas Y |x no hay diferencias signica- tivas (variables independientes). Como ya dijimos, un resumen descriptivo de una variable cuantitativa puede venir dado mediante el diagrama de caja y bigotes, pues éste recoge para ser interpretadas las características de centralización, localización, dispersión y forma de la distribución de frecuencias. Por ello, como herramienta básica para analizar la dependencia entre una variable cuantitativa y una cualitativa vamos a usar este gráco. Práctica 3 Curso 2010-11 Página: 2 M. Iniesta Grado en Ciencia y Tecnología de los Alimentos Universidad de Murcia Práctica 2.1 (Diagrama de caja y bigotes por grupos) 1. Vamos a construir el diagrama de caja y bigotes de la variable Pulse2 para cada tipo de actividad. La opción la podemos encontrar en diagrama de caja del menú Grácas y seleccionando la opción Gráca por grupos. Discute las características de cada una de las tres muestras comparándolas entre ellas. En la opción Tabla de estadísticas del menú Resúmenes en Estadísticos podemos obtener algunos estadísticos básicos de las distribuciones condicionadas. 2. La función summary(Var1), by=Factor1) en la ventana de instrucciones aporta los valores de los estadísticos básicos de la variable cuantitativa modalidad del factor Factor1 Var1 para cada que se han representado en el diagrama de caja y bigotes. Este gráco puede ser obtenido haciendo boxplot(Var1 Factor1). Real- iza la práctica anterior mediante los comandos citados. 3. Describe la diferencia de pulsaciones entre antes y después de hacer ejercicio físico en relación a sexo. Práctica 2.2 (Grácas de medias) La gráca de medias representa a las medias y sd las desviaciones típicas (sd) o los errores típicos ( √ ), también conocido por Error de n la media. Esta última medida es la desviación típica de la media, considerada ésta como uno de los posibles valores al tomar toda las posibles muestras de tamaño Representa las medias de la variable variable Activity. Práctica 2.3 (Serie temporal) Pulso2 n. para cada actividad (modalidades de la La gráca de medias puede ser usada para analizar cómo evoluciona una variable, en término medio, a lo largo del tiempo y en distintos periodos, cuando se dispone de una colección de datos del mismo periodo, por ejemplo: temperaturas mensuales, precipitaciones anuales, valores bursátiles diarios, etc. Descargar el chero clima.rda y representar las medias de las temperaturas me- dias mensuales de Murcia (T-Med-M). Ordena los niveles mediante la opción Reordenar niveles de un factor del menú Modificar variables del conjunto de datos activo. Haz lo mismo, ahora por años y previamente convirtiendo a factor la variable Año. 3. Cuantitativa Continua vs Cuantitativa Continua Cuando estudiamos la posible relación entre dos variables cuantitativas continuas es necesario en primer lugar intuir tanto la forma como la intensidad de la relación. Ello podemos llevarlo a cabo mediante un gráco llamado Diagrama de dispersión que (xi , yi ), desde i = 1, 2, ...., n. representa en el plano bidimensional las parejas de valores Si la forma de la nube de puntos sugiere un ajuste lineal como el mejor de todos los posibles, podemos obtener los parámetros de la recta de mínimos cuadrados mediante la opción Regresión lineal También, mediante la opción del menú Ajustes de modelos en Estadísticos. Matriz de correlaciones del menú Resúmenes en Estadísticos podremos obtener el valor del coeciente de correlación de Pearson. La opción gráca del diagrama de dispersión también permite dibujar la recta de regresión e incluso clasicar los puntos de la nube según las modalidades de cierto factor. Práctica 3 Curso 2010-11 Página: 3 M. Iniesta Grado en Ciencia y Tecnología de los Alimentos Universidad de Murcia Práctica 3.1 (Matriz de diagramas de dispersión) Lleva a cabo la Gráficas, Usando el chero matriz de diagramas de dispersión coches.dat que se usa en el menú de usando todas las variables cuantitativa. Interpreta la forma de los grácos que se obtienen en términos de posibles relaciones entre variables. Intenta intuir tanto la forma como la intensidad de la relación. Práctica 3.2 (Matriz de correlaciones) Usando el chero coches.dat Lleva a cabo la matriz de correlaciones de Pearson, que se encuentra en la opción Matriz de Correlaciones del menú Resúmenes de Estadísticos, usando todas las variables cuantitativa anteriores. Observa el valor de una correlación concreta junto con la forma de la nube de puntos correspondiente. Práctica 3.3 (Ajustes lineales 1) Mediante el chero coches.dat realiza las sigu- ientes prácticas: 1. Diagrama de dispersión de la variable CONSUMO en función de la variable CV. 2. Obtención e interpretación de los parámetros de la recta de regresión, mediante la opción Regresión lineal del menú Ajustes de modelos en Estadísticos. 3. Valor del coeciente de correlación de Pearson. CONSUMO en función linea de regresión. 4. Diagrama de dispersión de la variable lando únicamente la opción de de la variable CV, 5. Realiza los apartados anteriores para analizar la relación de la variable función de la variable CONSUMO. Práctica 3.4 (Ajustes lineales 2) Mediante el chero seña- ACEL en Pulse.TXT realiza las siguientes prácticas: 1. Diagrama de dispersión de la variable Height en función de la variable Weight. 2. Obtención e interpretación de los parámetros de la recta de regresión. 3. Valor del coeciente de correlación de Pearson. Height en función de linea de regresión. 4. Diagrama de dispersión de la variable señalando únicamente la opción de la variable Weight, Height en función de la variable Weight, de regresión y clasicando los puntos en función 5. Diagrama de dispersión de la variable señalando la opción de linea del sexo. Interpreta los resultados. 4. Bibliografía Capítulo 3 del texto Estadística Básica con R y R-Commander . Autores: A. J. Arriaga y otros (En SUMA) Práctica 3 Curso 2010-11 Página: 4