Objetivos 1. Introducción a la Estadística

Anuncio
M. Iniesta
VI Curso de Introducción a la Docencia Universitaria
Universidad de Murcia
Práctica docente en Estadística Aplicada
con R y R-Commander
Objetivos
1. Ofrecer una panorámica de la docencia de la Estadística Aplicada en los tiempos
actuales.
2. Mostrar cómo las nuevas tecnologías actúan de aliadas en la práctica de la Estadística.
3. Realizar un recorrido por las técnicas estadísticas básicas mediante ejemplos concretos resueltos con R-Commander.
1.
Introducción a la Estadística
La Estadística es una ciencia aliada a la investigación experimental pues reúne una
batería de recursos por los cuales podemos recolectar, organizar, resumir, presentar y
analizar datos que provienen de un conjunto de observaciones.
La Estadística es por tanto un potente auxiliar en muchas ciencias y actividades humanas, pues es un lenguaje basado en resultados cuantitativos y grácos que permite
comunicar información, resolver problemas de diseño experimental y ayudar a la toma
de decisiones, en base al análisis de la información muestral y en situaciones de incertidumbre.
Los procedimientos estadísticos se clasican, atendiendo al objetivo que resuelve y
al tipo de resultados que produce en:
1. Técnicas Exploratorias: El objetivo es sintetizar, ordenar y/o clasicar el conjunto de datos que provienen de la observación de una o más características en un
conjunto de individuos en estudio.
2. Técnicas Explicativas o de Inferencia Estadística: A partir de hipótesis
planteadas en la etapa anterior, el objetivo de estas técnicas es inferir o extrapolar
a la población las propiedades observadas en el conjunto de individuos en estudio
con determinado margen de conanza. El puente entre una técnica exploratoria
y el uso de los resultados que ésta produce para inferir el comportamiento de la
población se construye mediante la teoría de la probabilidad.
CIDU-6
Página: 1
M. Iniesta
VI Curso de Introducción a la Docencia Universitaria
2.
Universidad de Murcia
Breve recorrido por R y R-Commander
Las herramientas informáticas de computación estadística son aliadas de la Estadística Aplicada, pues implementan procedimientos que pueden ser ejecutados sobre grandes
bases de datos.
es software libre y puede ser obtenido en CRAN (Comprehensive R Archive Network) (sitio al que también se puede acceder desde la página http://www.r-project.
org/) . Es una implementación libre del lenguaje S, muy similar al popular programa
comercial S-PLUS, y se distribuye bajo los términos GNU (General Public License).
Es un riquísimo entorno estadístico que incluye un lenguaje de programación, un
intérprete interactivo y una extensa capacidad para mostrar grácos. Y lo que es más
importante, R viene con una espectacular colección de funciones para manipulaciones
matemáticas y estadísticas y todavía hay más posibilidades si se hace uso de los paquetes
opcionales. Además, ofrece la posibilidad tanto de usar rutinas o métodos preexistentes
como de modicar métodos existentes, e implementar y desarrollar nuevos métodos.
R-Commander es una Interfaz Gráca de Usuario que permite acceder a muchas
capacidades del entorno estadístico R sin que el usuario tenga que conocer la sintaxis de
comandos propio de este entorno, por lo que le convierte en una herramienta muy importante para impartir docencia en Estadística al alumnado que no disponga de destrezas
básicas en el uso de lenguajes de programación.
2.1. Inicio de sesión con R-Commander
Tras arrancar R aparece una ventana titulada Consola R con una barra de menús
entre los que se encuentra el denominado Paquetes. Dentro de este menú seleccionamos
Cargar paquete y a continuación cargamos R-Commander mediante la opción Rcmdr.
Aparece entonces una interfaz gráca que permite acceder a muchas de las órdenes de
gestión y análisis de datos del lenguaje R. Las partes de la ventana de R-Commander
son:
Menús En la parte superior de la ventana de
consta de una serie de menús (Archivo,
R-Commander
aparece una barra que
Editar, Datos, Estadísticos, Grácas, Mo-
delos, Distribuciones, Herramientas, Ayuda ),
cada uno de los cuales contiene a
su vez una serie de opciones para cargar datos, hacer grácas, realizar análisis
estadísticos, etc.
Banco de datos activo Se encuentra justo debajo de los menús y nos muestra el nombre del banco de datos activo y el que R-Commander usará por defecto.
Ventana de instrucciones Muestra los comandos correspondientes a las órdenes que
hemos ido ejecutando a través de los menús. También permite introducir órdenes
para ser ejecutadas mediante los comandos de R.
Ventana de resultados Muestra los resultados de las órdenes que hemos ejecutado.
Mensajes Muestra determinados mensajes relacionados con la ejecución de comandos,
como errores, etc.
CIDU-6
Página: 2
M. Iniesta
VI Curso de Introducción a la Docencia Universitaria
Práctica 2.1 (R en R-Commander)
Universidad de Murcia
En esta práctica vamos a ver cómo podríamos
usar R-Commander si conociéramos el lenguaje de comandos de R. Como éste no es el
objetivo del curso, únicamente se verán ejemplos muy sencillos.
A continuación se citan algunas órdenes muy básicas. Escribe la primera de ellas en
la ventana de instrucciones y a continuación pincha con el ratón en el botón Ejecutar.
El resultado de dicha orden se verá en la ventana de resultados. Continúa haciendo lo
mismo con el resto de órdenes.
2+3
# R puede ejercer de simple calculadora
x<-c(1,1,1,2,2,2,2,2,3,3,3,3,3,3,3,3,4,4,4,4,4,5,5,5,5)
# Guarda en el objeto x los
valores indicados entre los paréntesis y separados con comas.
x+7
# Suma 7 a cada dato guardado en el objeto x
table(x)
# Obtiene la tabla de frecuencias de los datos guardados en
barplot(table(x))
x
# Obtiene el diagrama de barras de los datos guardados en
x
2.2. Manejo de datos
El menú de Datos nos ofrece una serie de opciones para leer, manejar y almacenar
los datos necesarios en un determinado análisis.
Práctica 2.2 (Importar datos en formato texto)
Se trata de activar un chero de
datos con R-Commander para realizar algunas prácticas. Vamos a importar un chero
llamado
Coches.dat
siguiendo los siguientes pasos:
1. Descargar el chero
Coches.dat
del directorio Datos de la página Prácticas
en el espacio de la asignatura Estadística del Grado en Ciencia y Tecnología de
los Alimentos del portal OCW de la Universidad de Murcia. Guardarlo en
Documentos.
2. Usar la opción
Mis
Datos⇒ Importar datos ⇒ desde archivo de texto o portapapeles.
3. Damos nombre al chero (por ejemplo
Coches)
y aceptamos.
4. Mediante el símbolo de subir directorio buscamos la ubicación de
y seleccionamos el chero
Coches.dat.
Mis Documentos
Coches.dat se habrá cargado correctamente si en la ventana de mensajes de R-Commander aparece la siguiente NOTA: El conjunto de datos Coches
tiene 406 filas y 7 columnas.
5. El chero
6. Mediante la opción
Visualizar conjunto de datos podemos ver el contenido del
chero.
Las variables que contiene el chero tienen el siguiente signicado:
CONSUMO: Consumo medio, en litros de carburante, a los 100 kilómetros.
CIDU-6
Página: 3
M. Iniesta
VI Curso de Introducción a la Docencia Universitaria
Universidad de Murcia
MOTOR: Cilindrada (en cc)
CV: Caballos de vapor
PESO: Peso en kilos
ACEL: Tiempo, en segundos, que emplea en pasar de 0 a 100 km/h.
ORIGEN: Origen del coche
CILINDR: Nº de cilindros
2.3. Organización de la información
En general se dispondrá de un conjunto de k características medidas (variables cuantitativas) u observadas (si son cualitativas) en un conjunto de n individuos que constituye
la muestra.
La forma común de disponer la información para ser tratada estadísticamente es
mediante una matriz de datos denominada matriz de casos por variables. En esta matriz
las las van a representar a los casos o individuos de la muestra y las columnas van a
representar a las variables. Lo anterior signica que todos los datos de una determinada
la pertenecen a un mismo individuo y todos los datos de una determinada columna es
el conjunto de valores observados de una determinada variable.
Práctica 2.3 (Construcción de una matriz de datos)
Cinco laboratorios diferen-
tes: A, B, C, D y E que usan métodos de análisis diferentes realizaron seis determinaciones cada uno de ellos a 6 muestras de cierto alimento a distintos tiempos de cocinado,
en minutos, para medir la cantidad de cierta sustancia. Las determinaciones se hallan
en la siguiente tabla:
Lab.
1 m.
5 m.
10 m.
20 m.
40 m.
60 m.
A
52.5
45.6
42.1
41.9
41.1
42.2
B
48.8
53.6
42.1
40.1
43.9
41.9
C
53.5
52.8
43.8
43.1
42.7
43.3
D
47.5
53.1
41.1
40.5
36.8
42.2
E
52.5
51.6
42.1
41.8
41.7
39.4
Denir las variables en juego, decir de qué tipo son y construir la correspondiente
matriz de datos.
3.
Objetivos y técnicas de Estadística Descriptiva
El objetivo fundamental de la Estadística Descriptiva es el de sintetizar, resumir,
ordenar o clasicar la información contenida en un gran volumen de datos. Los métodos
de Estadística Descriptiva pueden ser de tabulación (construcción de tablas) grácos y
cálculo de estadísticos. Sin embargo hay motivos por los cuales esta clase de nivel básico
se basará en la construcción e interpretación de grácos: primero porque es mucho más
CIDU-6
Página: 4
M. Iniesta
VI Curso de Introducción a la Docencia Universitaria
Universidad de Murcia
elegante presentar unos resultados mediante un gráco que mediante una retahíla de
números y segundo porque, sobre todo a las personas con conocimientos escasos en esta
materia, resulta más sencillo aprender a interpretar un gráco que conocer una función
e interpretar un valor numérico de la misma.
La Estadística Descriptiva dispone de un abanico de procedimientos que deben ser
usados según el objetivo que tengamos y la naturaleza de la variable que ha generado
los datos de la muestra. Una clasicación sintética de estos procedimientos aparece en
la siguiente tabla.
Tipo de
variable
Cualitativa
Tablas
Tabla de Frecuencias absolutas y relativas NO
acumuladas de las modalidades observadas
Cuantitativa Tabla con todas las frediscreta
cuencias de valores aislados
Cuantitativa Tabla con todas las frecontinua
cuencias de valores agrupados en clases de intervalo
Procedimientos
Grácos
Estadísticos
Diagrama de sectores
Moda y medidas porcentuales
Diagramas de barras y
Diagrama de Tallo y
Hojas
Histogramas y Diagrama de Caja y bigotes
Mediana,
cuantiles, rango y rango
intercuartílico
Todos los estadísticos
3.1. Construcción de grácos
Los grácos en Estadística descriptiva son una potente herramienta pues permite
visualizar las características más elocuentes de una distribución de frecuencias. Saber
interpretar un gráco en Estadística es esencial por la información que ellos contienen
sobre la muestra en estudio y por la elegancia y simplicidad que supone poder informar
acerca de determinado fenómeno mediante representaciones de sus características en vez
de usar informes cuantitativos mediante cálculo de estadísticos, si bien estos últimos son
necesarios en estudios más exhaustivos.
Como hemos comentado anteriormente, el tipo de gráco viene determinado por el
tipo de datos a tratar.
Práctica 3.1
Llevar a cabo los siguientes grácos, interpretando las características que
se representan
1. Diagrama de sectores para la variable ORIGEN
2. Diagrama de barras para la variable CILINDR
3. Diagrama de Tallo y hojas para la variable CV
4. Histograma de la variable ACEL
5. Diagrama de Caja y bigotes para la variable ACEL
6. Diagrama de Caja y bigotes para la variable ACEL según la variable ORIGEN
CIDU-6
Página: 5
M. Iniesta
VI Curso de Introducción a la Docencia Universitaria
4.
Universidad de Murcia
Teoría de la probabilidad: por qué y para qué en
Estadística Aplicada
Los procedimientos inferenciales hacen uso de ciertas hipótesis respecto al tipo de
modelo de probabilidad que ha generado los datos de la muestra. Estos modelos permitirán establecer un margen de conanza cuando queramos extrapolar las propiedades
analizadas en el ámbito de una muestra al contexto de la población. Por ejemplo, si a
partir de una encuesta predecimos que el candidato A ganará las elecciones ¾con qué
margen de conanza (probabilidad) se llevará a cabo el pronóstico anterior?. La probabilidad, en general, asigna un grado de credibilidad a ciertas hipótesis que se formulen
en el contexto de la población a partir de los resultados obtenidos en una muestra de
ella.
La Distribución Normal es el modelo probabilístico más usado en problemas de inferencia estadística, pues el comportamiento de muchos fenómenos reales tiende a parecerse a éste. Es decir, hay muchas variables asociadas a fenómenos naturales que siguen
el modelo de la normal, como los siguientes:
Caracteres morfológicos de individuos (personas, animales, plantas,...) de una especie, por ejemplo: tallas, pesos, envergaduras, diámetros, perímetros,...
Caracteres siológicos, por ejemplo: efecto de una dosis de un fármaco, o de una
cantidad de abono.
Caracteres sociológicos, por ejemplo: consumo de cierto producto por un grupo de
individuos, puntuaciones de examen.
Caracteres psicológicos, por ejemplo: coeciente intelectual, grado de adaptación
a un medio,...
Los errores cometidos al medir ciertas magnitudes.
Los valores de ciertas funciones de la muestra, como la media.
Otras distribuciones se comportan de forma aproximada como una Normal.
Práctica 4.1
Supongamos que los valores de ACEL de la muestra provienen de una
distribución Normal de media 15 y desviación típica 2.5
1. Representa grácamente la densidad del modelo Normal de media 15 y desviación
típica 2.5 y discutir las propiedades más elocuentes de dicha población.
2. Lleva a cabo la
gráfica de comparación de cuantiles
para los datos de la va-
riable ACEL. Aprende a interpretar la gráca.
3. Calcula el porcentaje de coches de la población cuyo valor de ACEL es menor o
igual a 17.
4. Calcular los estadísticos básicos de la muestra de la variable ACEL (mediante
Estadísticos ⇒ Resúmenes ⇒ Resúmenes numéricos ⇒
y compara el valor an-
terior con el cuartil 75. ½OJO!: aunque la muestra siga un comportamiento normal,
siempre existirán discrepancias entre el modelo teórico y los datos muestrales.
CIDU-6
Página: 6
M. Iniesta
VI Curso de Introducción a la Docencia Universitaria
5.
Universidad de Murcia
Objetivos y técnicas en Estadística Inferencial
La Estadística Inferencial tiene por objetivo fundamental obtener conclusiones acerca
de un fenómeno en estudio a partir de una muestra de datos experimentales y usando
la teoría de la probabilidad para establecer un nivel de conanza acerca de dichas conclusiones.
Las técnicas más importantes de inferencia estadística son el intervalo de conanza
y el test de hipótesis, aunque aquí sólo haremos alusión a la primera.
En el caso que desconozcamos un parámetro de la población, por ejemplo la media,
la técnica de intervalo de conanza construye, a partir de la media muestral, un intervalo
de valores entre los cuales tenemos una probabilidad alta de que se encuentre el valor
de la media poblacional desconocida.
Otras veces los fenómenos u objetivos de estudio tienen que ver con el análisis de
relaciones entre variables:
Por ejemplo, pueden ser objetivos de estudio:
Estudiar si existe relación entre el consumo (CONSUMO) y el origen del coches.
Por ejemplo, ¾consumen más combustible, en media, los coches americanos que los
europeos o los asiáticos?
¾Depende el tiempo para pasar de 0 a 100 km/h (ACEL) del número de cilindros
del coche?.
¾Son los coches más pesados los que tienen mayor cilindrada?
Práctica 5.1
Realiza las siguientes dos grácas:
Diagrama de caja y bigotes para la variable CONSUMO por grupos según la variable
ORIGEN.
Gráca de medias (Intervalos de conanza) de la variable CONSUMO, según el
factor ORIGEN.
Aprende a interpretar ambas grácas. Lo que más las diferencia es que la primera
representa las características de la muestra y la segunda permite inferir si dos medias
muestrales son o no
signicativamente distintas.
A la vista de los intervalos de
conanza, el consumo medio de los coches americanos es signicativamente mayor que
los europeos o los asiáticos, mientras que no existen diferencias signicativas entre el
consumo medio de los coches europeos y asiáticos. A esta misma conclusión podríamos
haber llegado mediante el gráco que representa la diferencia de dos medias, usando la
Estadísticos ⇒ Medias ⇒ ANOVA de un factor marcando las
señalando la opción Comparaciones dos a dos de las medias.
secuencia de opciones:
variables en juego y
Podemos hacer lo mismo para la pareja de variables ACEL y CILINDR y apreciar
que el tiempo medio de aceleración de pasar de 0 a 100 no es signicativamente distinto
en los coches de 4 y 6 cilindros, pero si es signicativamente menor el d los coches que
tienen 8 cilindros.
Cuando las dos variables en juego son cuantitativas continuas, el diagrama de dispersión representa la nube de puntos de valores bidimensionales. La forma de esta nube
puede sugerir tanto la forma como la intensidad de la relación.
CIDU-6
Página: 7
M. Iniesta
VI Curso de Introducción a la Docencia Universitaria
Práctica 5.2
Universidad de Murcia
Realiza la gráca de dispersión de la pareja de variables (MOTOR, PE-
SO). A partir de dicha gráca interpreta la forma de la relación y la intensidad de la
relación. Compara los aspectos anteriores para el caso de la pareja de variables (MOTOR, ACEL)
6.
Evaluación
La evaluación debe medir las destrezas adquiridas en los siguientes aspectos:
1. Elección de la técnica adecuada según objetivo de estudio y tipos de variables en
juego.
2. Ejecución correcta del procedimiento e interpretación de resultados.
3. Manejo del software estadístico
Examen parcial de Estadística Descriptiva (14-10-09)
en el Grado de Ciencia y Tecnología de los Alimentos
Instrucciones para la realización del examen:
1. Descarga el chero comprimido coches.dat del directorio Datos en Documentos de SUMA. Esos son los datos para la realización de la prueba.
2. Ejecuta R y a continuación carga el paquete Rcmdr. Desde la opción Importar
datos del menú Datos carga el chero de texto coches.dat.
Apartados a resolver: Para describir cada una de las siguientes muestras usa los procedimientos que creas oportunos e interpreta los resultados que consideres más
elocuentes:
1. Origen de los coches de la muestra (ORIGEN)
2. Consumo a los 100 Km. (CONSUMO)
a ) Considerando todos los individuos de la muestra
b ) Clasicando dichos individuos según el origen
3. Tiempo de aceleración (ACEL) en función de la cilindrada (MOTOR)
a ) Nube de puntos
b ) Intensidad de la relación lineal y Recta de regresión
Instrucciones para presentar el examen
1. Guarda el chero de resultados de R-Commander y los grácos que hayas
realizado en Mis Documentos.
2. Entra a SUMA y en la asignatura de Estadística, usa la opción de Administrar
Contenidos. Crea un directorio que se llame Parcial1. Sube desde Mis Documentos al directorio Parcial1 todos los cheros que hayas guardado relativos
a esta prueba.
CIDU-6
Página: 8
M. Iniesta
VI Curso de Introducción a la Docencia Universitaria
7.
Universidad de Murcia
Bibliografía
Estadística Básica con R y R-Commander. Autores: A. J. Arriaga Gómez y otros
Introducción al uso de R-Commander. Autor: Angelo Santana
CIDU-6
Página: 9
Descargar