M. Iniesta VI Curso de Introducción a la Docencia Universitaria Universidad de Murcia Práctica docente en Estadística Aplicada con R y R-Commander Objetivos 1. Ofrecer una panorámica de la docencia de la Estadística Aplicada en los tiempos actuales. 2. Mostrar cómo las nuevas tecnologías actúan de aliadas en la práctica de la Estadística. 3. Realizar un recorrido por las técnicas estadísticas básicas mediante ejemplos concretos resueltos con R-Commander. 1. Introducción a la Estadística La Estadística es una ciencia aliada a la investigación experimental pues reúne una batería de recursos por los cuales podemos recolectar, organizar, resumir, presentar y analizar datos que provienen de un conjunto de observaciones. La Estadística es por tanto un potente auxiliar en muchas ciencias y actividades humanas, pues es un lenguaje basado en resultados cuantitativos y grácos que permite comunicar información, resolver problemas de diseño experimental y ayudar a la toma de decisiones, en base al análisis de la información muestral y en situaciones de incertidumbre. Los procedimientos estadísticos se clasican, atendiendo al objetivo que resuelve y al tipo de resultados que produce en: 1. Técnicas Exploratorias: El objetivo es sintetizar, ordenar y/o clasicar el conjunto de datos que provienen de la observación de una o más características en un conjunto de individuos en estudio. 2. Técnicas Explicativas o de Inferencia Estadística: A partir de hipótesis planteadas en la etapa anterior, el objetivo de estas técnicas es inferir o extrapolar a la población las propiedades observadas en el conjunto de individuos en estudio con determinado margen de conanza. El puente entre una técnica exploratoria y el uso de los resultados que ésta produce para inferir el comportamiento de la población se construye mediante la teoría de la probabilidad. CIDU-6 Página: 1 M. Iniesta VI Curso de Introducción a la Docencia Universitaria 2. Universidad de Murcia Breve recorrido por R y R-Commander Las herramientas informáticas de computación estadística son aliadas de la Estadística Aplicada, pues implementan procedimientos que pueden ser ejecutados sobre grandes bases de datos. es software libre y puede ser obtenido en CRAN (Comprehensive R Archive Network) (sitio al que también se puede acceder desde la página http://www.r-project. org/) . Es una implementación libre del lenguaje S, muy similar al popular programa comercial S-PLUS, y se distribuye bajo los términos GNU (General Public License). Es un riquísimo entorno estadístico que incluye un lenguaje de programación, un intérprete interactivo y una extensa capacidad para mostrar grácos. Y lo que es más importante, R viene con una espectacular colección de funciones para manipulaciones matemáticas y estadísticas y todavía hay más posibilidades si se hace uso de los paquetes opcionales. Además, ofrece la posibilidad tanto de usar rutinas o métodos preexistentes como de modicar métodos existentes, e implementar y desarrollar nuevos métodos. R-Commander es una Interfaz Gráca de Usuario que permite acceder a muchas capacidades del entorno estadístico R sin que el usuario tenga que conocer la sintaxis de comandos propio de este entorno, por lo que le convierte en una herramienta muy importante para impartir docencia en Estadística al alumnado que no disponga de destrezas básicas en el uso de lenguajes de programación. 2.1. Inicio de sesión con R-Commander Tras arrancar R aparece una ventana titulada Consola R con una barra de menús entre los que se encuentra el denominado Paquetes. Dentro de este menú seleccionamos Cargar paquete y a continuación cargamos R-Commander mediante la opción Rcmdr. Aparece entonces una interfaz gráca que permite acceder a muchas de las órdenes de gestión y análisis de datos del lenguaje R. Las partes de la ventana de R-Commander son: Menús En la parte superior de la ventana de consta de una serie de menús (Archivo, R-Commander aparece una barra que Editar, Datos, Estadísticos, Grácas, Mo- delos, Distribuciones, Herramientas, Ayuda ), cada uno de los cuales contiene a su vez una serie de opciones para cargar datos, hacer grácas, realizar análisis estadísticos, etc. Banco de datos activo Se encuentra justo debajo de los menús y nos muestra el nombre del banco de datos activo y el que R-Commander usará por defecto. Ventana de instrucciones Muestra los comandos correspondientes a las órdenes que hemos ido ejecutando a través de los menús. También permite introducir órdenes para ser ejecutadas mediante los comandos de R. Ventana de resultados Muestra los resultados de las órdenes que hemos ejecutado. Mensajes Muestra determinados mensajes relacionados con la ejecución de comandos, como errores, etc. CIDU-6 Página: 2 M. Iniesta VI Curso de Introducción a la Docencia Universitaria Práctica 2.1 (R en R-Commander) Universidad de Murcia En esta práctica vamos a ver cómo podríamos usar R-Commander si conociéramos el lenguaje de comandos de R. Como éste no es el objetivo del curso, únicamente se verán ejemplos muy sencillos. A continuación se citan algunas órdenes muy básicas. Escribe la primera de ellas en la ventana de instrucciones y a continuación pincha con el ratón en el botón Ejecutar. El resultado de dicha orden se verá en la ventana de resultados. Continúa haciendo lo mismo con el resto de órdenes. 2+3 # R puede ejercer de simple calculadora x<-c(1,1,1,2,2,2,2,2,3,3,3,3,3,3,3,3,4,4,4,4,4,5,5,5,5) # Guarda en el objeto x los valores indicados entre los paréntesis y separados con comas. x+7 # Suma 7 a cada dato guardado en el objeto x table(x) # Obtiene la tabla de frecuencias de los datos guardados en barplot(table(x)) x # Obtiene el diagrama de barras de los datos guardados en x 2.2. Manejo de datos El menú de Datos nos ofrece una serie de opciones para leer, manejar y almacenar los datos necesarios en un determinado análisis. Práctica 2.2 (Importar datos en formato texto) Se trata de activar un chero de datos con R-Commander para realizar algunas prácticas. Vamos a importar un chero llamado Coches.dat siguiendo los siguientes pasos: 1. Descargar el chero Coches.dat del directorio Datos de la página Prácticas en el espacio de la asignatura Estadística del Grado en Ciencia y Tecnología de los Alimentos del portal OCW de la Universidad de Murcia. Guardarlo en Documentos. 2. Usar la opción Mis Datos⇒ Importar datos ⇒ desde archivo de texto o portapapeles. 3. Damos nombre al chero (por ejemplo Coches) y aceptamos. 4. Mediante el símbolo de subir directorio buscamos la ubicación de y seleccionamos el chero Coches.dat. Mis Documentos Coches.dat se habrá cargado correctamente si en la ventana de mensajes de R-Commander aparece la siguiente NOTA: El conjunto de datos Coches tiene 406 filas y 7 columnas. 5. El chero 6. Mediante la opción Visualizar conjunto de datos podemos ver el contenido del chero. Las variables que contiene el chero tienen el siguiente signicado: CONSUMO: Consumo medio, en litros de carburante, a los 100 kilómetros. CIDU-6 Página: 3 M. Iniesta VI Curso de Introducción a la Docencia Universitaria Universidad de Murcia MOTOR: Cilindrada (en cc) CV: Caballos de vapor PESO: Peso en kilos ACEL: Tiempo, en segundos, que emplea en pasar de 0 a 100 km/h. ORIGEN: Origen del coche CILINDR: Nº de cilindros 2.3. Organización de la información En general se dispondrá de un conjunto de k características medidas (variables cuantitativas) u observadas (si son cualitativas) en un conjunto de n individuos que constituye la muestra. La forma común de disponer la información para ser tratada estadísticamente es mediante una matriz de datos denominada matriz de casos por variables. En esta matriz las las van a representar a los casos o individuos de la muestra y las columnas van a representar a las variables. Lo anterior signica que todos los datos de una determinada la pertenecen a un mismo individuo y todos los datos de una determinada columna es el conjunto de valores observados de una determinada variable. Práctica 2.3 (Construcción de una matriz de datos) Cinco laboratorios diferen- tes: A, B, C, D y E que usan métodos de análisis diferentes realizaron seis determinaciones cada uno de ellos a 6 muestras de cierto alimento a distintos tiempos de cocinado, en minutos, para medir la cantidad de cierta sustancia. Las determinaciones se hallan en la siguiente tabla: Lab. 1 m. 5 m. 10 m. 20 m. 40 m. 60 m. A 52.5 45.6 42.1 41.9 41.1 42.2 B 48.8 53.6 42.1 40.1 43.9 41.9 C 53.5 52.8 43.8 43.1 42.7 43.3 D 47.5 53.1 41.1 40.5 36.8 42.2 E 52.5 51.6 42.1 41.8 41.7 39.4 Denir las variables en juego, decir de qué tipo son y construir la correspondiente matriz de datos. 3. Objetivos y técnicas de Estadística Descriptiva El objetivo fundamental de la Estadística Descriptiva es el de sintetizar, resumir, ordenar o clasicar la información contenida en un gran volumen de datos. Los métodos de Estadística Descriptiva pueden ser de tabulación (construcción de tablas) grácos y cálculo de estadísticos. Sin embargo hay motivos por los cuales esta clase de nivel básico se basará en la construcción e interpretación de grácos: primero porque es mucho más CIDU-6 Página: 4 M. Iniesta VI Curso de Introducción a la Docencia Universitaria Universidad de Murcia elegante presentar unos resultados mediante un gráco que mediante una retahíla de números y segundo porque, sobre todo a las personas con conocimientos escasos en esta materia, resulta más sencillo aprender a interpretar un gráco que conocer una función e interpretar un valor numérico de la misma. La Estadística Descriptiva dispone de un abanico de procedimientos que deben ser usados según el objetivo que tengamos y la naturaleza de la variable que ha generado los datos de la muestra. Una clasicación sintética de estos procedimientos aparece en la siguiente tabla. Tipo de variable Cualitativa Tablas Tabla de Frecuencias absolutas y relativas NO acumuladas de las modalidades observadas Cuantitativa Tabla con todas las frediscreta cuencias de valores aislados Cuantitativa Tabla con todas las frecontinua cuencias de valores agrupados en clases de intervalo Procedimientos Grácos Estadísticos Diagrama de sectores Moda y medidas porcentuales Diagramas de barras y Diagrama de Tallo y Hojas Histogramas y Diagrama de Caja y bigotes Mediana, cuantiles, rango y rango intercuartílico Todos los estadísticos 3.1. Construcción de grácos Los grácos en Estadística descriptiva son una potente herramienta pues permite visualizar las características más elocuentes de una distribución de frecuencias. Saber interpretar un gráco en Estadística es esencial por la información que ellos contienen sobre la muestra en estudio y por la elegancia y simplicidad que supone poder informar acerca de determinado fenómeno mediante representaciones de sus características en vez de usar informes cuantitativos mediante cálculo de estadísticos, si bien estos últimos son necesarios en estudios más exhaustivos. Como hemos comentado anteriormente, el tipo de gráco viene determinado por el tipo de datos a tratar. Práctica 3.1 Llevar a cabo los siguientes grácos, interpretando las características que se representan 1. Diagrama de sectores para la variable ORIGEN 2. Diagrama de barras para la variable CILINDR 3. Diagrama de Tallo y hojas para la variable CV 4. Histograma de la variable ACEL 5. Diagrama de Caja y bigotes para la variable ACEL 6. Diagrama de Caja y bigotes para la variable ACEL según la variable ORIGEN CIDU-6 Página: 5 M. Iniesta VI Curso de Introducción a la Docencia Universitaria 4. Universidad de Murcia Teoría de la probabilidad: por qué y para qué en Estadística Aplicada Los procedimientos inferenciales hacen uso de ciertas hipótesis respecto al tipo de modelo de probabilidad que ha generado los datos de la muestra. Estos modelos permitirán establecer un margen de conanza cuando queramos extrapolar las propiedades analizadas en el ámbito de una muestra al contexto de la población. Por ejemplo, si a partir de una encuesta predecimos que el candidato A ganará las elecciones ¾con qué margen de conanza (probabilidad) se llevará a cabo el pronóstico anterior?. La probabilidad, en general, asigna un grado de credibilidad a ciertas hipótesis que se formulen en el contexto de la población a partir de los resultados obtenidos en una muestra de ella. La Distribución Normal es el modelo probabilístico más usado en problemas de inferencia estadística, pues el comportamiento de muchos fenómenos reales tiende a parecerse a éste. Es decir, hay muchas variables asociadas a fenómenos naturales que siguen el modelo de la normal, como los siguientes: Caracteres morfológicos de individuos (personas, animales, plantas,...) de una especie, por ejemplo: tallas, pesos, envergaduras, diámetros, perímetros,... Caracteres siológicos, por ejemplo: efecto de una dosis de un fármaco, o de una cantidad de abono. Caracteres sociológicos, por ejemplo: consumo de cierto producto por un grupo de individuos, puntuaciones de examen. Caracteres psicológicos, por ejemplo: coeciente intelectual, grado de adaptación a un medio,... Los errores cometidos al medir ciertas magnitudes. Los valores de ciertas funciones de la muestra, como la media. Otras distribuciones se comportan de forma aproximada como una Normal. Práctica 4.1 Supongamos que los valores de ACEL de la muestra provienen de una distribución Normal de media 15 y desviación típica 2.5 1. Representa grácamente la densidad del modelo Normal de media 15 y desviación típica 2.5 y discutir las propiedades más elocuentes de dicha población. 2. Lleva a cabo la gráfica de comparación de cuantiles para los datos de la va- riable ACEL. Aprende a interpretar la gráca. 3. Calcula el porcentaje de coches de la población cuyo valor de ACEL es menor o igual a 17. 4. Calcular los estadísticos básicos de la muestra de la variable ACEL (mediante Estadísticos ⇒ Resúmenes ⇒ Resúmenes numéricos ⇒ y compara el valor an- terior con el cuartil 75. ½OJO!: aunque la muestra siga un comportamiento normal, siempre existirán discrepancias entre el modelo teórico y los datos muestrales. CIDU-6 Página: 6 M. Iniesta VI Curso de Introducción a la Docencia Universitaria 5. Universidad de Murcia Objetivos y técnicas en Estadística Inferencial La Estadística Inferencial tiene por objetivo fundamental obtener conclusiones acerca de un fenómeno en estudio a partir de una muestra de datos experimentales y usando la teoría de la probabilidad para establecer un nivel de conanza acerca de dichas conclusiones. Las técnicas más importantes de inferencia estadística son el intervalo de conanza y el test de hipótesis, aunque aquí sólo haremos alusión a la primera. En el caso que desconozcamos un parámetro de la población, por ejemplo la media, la técnica de intervalo de conanza construye, a partir de la media muestral, un intervalo de valores entre los cuales tenemos una probabilidad alta de que se encuentre el valor de la media poblacional desconocida. Otras veces los fenómenos u objetivos de estudio tienen que ver con el análisis de relaciones entre variables: Por ejemplo, pueden ser objetivos de estudio: Estudiar si existe relación entre el consumo (CONSUMO) y el origen del coches. Por ejemplo, ¾consumen más combustible, en media, los coches americanos que los europeos o los asiáticos? ¾Depende el tiempo para pasar de 0 a 100 km/h (ACEL) del número de cilindros del coche?. ¾Son los coches más pesados los que tienen mayor cilindrada? Práctica 5.1 Realiza las siguientes dos grácas: Diagrama de caja y bigotes para la variable CONSUMO por grupos según la variable ORIGEN. Gráca de medias (Intervalos de conanza) de la variable CONSUMO, según el factor ORIGEN. Aprende a interpretar ambas grácas. Lo que más las diferencia es que la primera representa las características de la muestra y la segunda permite inferir si dos medias muestrales son o no signicativamente distintas. A la vista de los intervalos de conanza, el consumo medio de los coches americanos es signicativamente mayor que los europeos o los asiáticos, mientras que no existen diferencias signicativas entre el consumo medio de los coches europeos y asiáticos. A esta misma conclusión podríamos haber llegado mediante el gráco que representa la diferencia de dos medias, usando la Estadísticos ⇒ Medias ⇒ ANOVA de un factor marcando las señalando la opción Comparaciones dos a dos de las medias. secuencia de opciones: variables en juego y Podemos hacer lo mismo para la pareja de variables ACEL y CILINDR y apreciar que el tiempo medio de aceleración de pasar de 0 a 100 no es signicativamente distinto en los coches de 4 y 6 cilindros, pero si es signicativamente menor el d los coches que tienen 8 cilindros. Cuando las dos variables en juego son cuantitativas continuas, el diagrama de dispersión representa la nube de puntos de valores bidimensionales. La forma de esta nube puede sugerir tanto la forma como la intensidad de la relación. CIDU-6 Página: 7 M. Iniesta VI Curso de Introducción a la Docencia Universitaria Práctica 5.2 Universidad de Murcia Realiza la gráca de dispersión de la pareja de variables (MOTOR, PE- SO). A partir de dicha gráca interpreta la forma de la relación y la intensidad de la relación. Compara los aspectos anteriores para el caso de la pareja de variables (MOTOR, ACEL) 6. Evaluación La evaluación debe medir las destrezas adquiridas en los siguientes aspectos: 1. Elección de la técnica adecuada según objetivo de estudio y tipos de variables en juego. 2. Ejecución correcta del procedimiento e interpretación de resultados. 3. Manejo del software estadístico Examen parcial de Estadística Descriptiva (14-10-09) en el Grado de Ciencia y Tecnología de los Alimentos Instrucciones para la realización del examen: 1. Descarga el chero comprimido coches.dat del directorio Datos en Documentos de SUMA. Esos son los datos para la realización de la prueba. 2. Ejecuta R y a continuación carga el paquete Rcmdr. Desde la opción Importar datos del menú Datos carga el chero de texto coches.dat. Apartados a resolver: Para describir cada una de las siguientes muestras usa los procedimientos que creas oportunos e interpreta los resultados que consideres más elocuentes: 1. Origen de los coches de la muestra (ORIGEN) 2. Consumo a los 100 Km. (CONSUMO) a ) Considerando todos los individuos de la muestra b ) Clasicando dichos individuos según el origen 3. Tiempo de aceleración (ACEL) en función de la cilindrada (MOTOR) a ) Nube de puntos b ) Intensidad de la relación lineal y Recta de regresión Instrucciones para presentar el examen 1. Guarda el chero de resultados de R-Commander y los grácos que hayas realizado en Mis Documentos. 2. Entra a SUMA y en la asignatura de Estadística, usa la opción de Administrar Contenidos. Crea un directorio que se llame Parcial1. Sube desde Mis Documentos al directorio Parcial1 todos los cheros que hayas guardado relativos a esta prueba. CIDU-6 Página: 8 M. Iniesta VI Curso de Introducción a la Docencia Universitaria 7. Universidad de Murcia Bibliografía Estadística Básica con R y R-Commander. Autores: A. J. Arriaga Gómez y otros Introducción al uso de R-Commander. Autor: Angelo Santana CIDU-6 Página: 9