PRÁCTICA ESTADÍSTICA 1. I.I. 08/09 Introducción al Excel y Estadística Descriptiva. En la práctica diaria de la Estadística se trabaja con decenas, centenas y hasta miles de datos, esto hace imposible la práctica de la misma sin una herramienta que facilite todo el cálculo que requieren los análisis que se realizan. La herramienta que ha venido a ayudar en este campo no es otra que el ordenador. Estas máquinas tienen una gran capacidad de cálculo, que unida a la velocidad y exactitud en los mismos hacen que sean irrenunciables en muchos campos. La Estadística es uno de esos campos y por ello para que la enseñanza sea completa y el alumno sea capaz de llevar a cabo los procedimientos vistos en clase, se van a realizar prácticas en las que se aprenderá cómo hacerlos con estas herramientas. La oferta en cuanto a aplicaciones informáticas capaces de realizar los cálculos necesarios es amplia, existiendo varias específicas para el campo estadístico y otras muchas de carácter más general que sin embargo pueden igualmente realizar los procedimientos estadísticos requeridos. En las aplicaciones específicas para la estadística, también llamados paquetes estadísticos, los estudios se hacen sin tener que saber más que el procedimiento que se quiere realizar, el programa lo lleva a cabo y presenta los resultados al usuario. Las de carácter más general también sirven para hacer los análisis requeridos en Estadística, además se pueden realizar de una manera más manual, en la que el usuario utiliza las funciones básicas para construir otras más complejas que son las que forman parte de los procedimientos estadísticos. Se está pensando en las aplicaciones conocidas como hojas de cálculo. Otra característica que se ha tenido en cuenta es la posibilidad de que las herramientas usadas sean accesibles al alumnado en cualquier momento, en cualquier ordenador y al menor coste posible, esto ha hecho que la decisión se haya decantado por un programa Excel. Esta aplicación es una suite ofimática que ofrece en un solo programa varias soluciones, Procesador de Textos, Hoja de Cálculo, Base de Datos, Navegador de Internet, Correo Electrónico, Diseño Gráfico, Presentaciones, ... Guión de la Práctica I: Estadística Descriptiva y Regresión. Introducción. En esta práctica se intenta que el alumno se familiarice con la hoja de cálculo, aprendiendo los procedimientos básicos con ficheros y funciones. Además se realizarán los primeros procedimientos estadísticos, como tablas de frecuencias, resúmenes estadísticos (obtención de varios estadísticos a partir de la muestra), así como a obtener las principales representaciones gráficas con la hoja de cálculo. A grosso modo se aprenderá a: – Insertar datos en una hoja de cálculo. – Ordenar datos crecientes y decrecientes. – Operar sobre columnas de datos, haciendo cuadrados de los mismos, sumas, ... – Escribir fórmulas para obtener estadísticos, así como calcular directamente los que ya ofrece programados la hoja. – Representar gráficamente los datos (Diagramas de barras e Histogramas). – Representar diagramas de dispersión y líneas de tendencia. – Calcular la recta de regresión y los coeficientes asociados. 0 I. Estadística Descriptiva. Detalle paso a paso de la práctica. 1. Crear una carpeta en el disco duro para guardar los trabajos del alumno. 2. Abrir la Hoja de Cálculo. Escribir los datos en la Columna A. 3. La hoja de cálculo proporciona un análisis estadístico básico: se obtiene en HERRAMIENTAS →ANÁLISIS DE DATOS→ ESTADÍSTICA DESCRIPTIVA. El cuadro de diálogo pregunta por el rango de entrada (esto es, dónde están los datos que hay que analizar) que es A:A (la columna A en Excel) y el de salida (donde se han de escribir los resultados) que podemos hacer D1. Además no hay que olvidar marcar la opción RESUMEN DE ESTADÍSTICAS. Dar al botón. Media =PROMEDIO(A1:A32000) Error típico Error típico Mediana =MEDIANA(A1:A32000) Moda =MODA(A1:A32000) Desviación estándar =DESVESTP(A1:A32000) Varianza de la muestra =VARP(A1:A32000) Curtosis =CURTOSIS(A1:A32000) Coeficiente de asimetría =COEFICIENTE.ASIMETRIA(A1:A3200 Rango =MAX -MIN Mínimo =MÍN(A1:A32000) Máximo =MAX(A1:A32000) Suma =SUMA(A1:A32000) Cuenta =CONTAR(A1:A32000) (Error típico es una desviación típica de la media muestral entendida como variable aleatoria (se verá en el tema 5 de Estimación)). Observación: Los parámetros que calcula Excel se pueden hacer por separado (en la Ayuda se puede ver cómo se hacen los cálculos y cada función). i) La Varianza es la obtenida utilizando la función VAR(A:A) (Insertar→ función → VAR …) y corresponde a la Varianza muestral corregida. Si queremos la varianza sin corregir la función estadística corresponde a VARP(A:A). Igual con la Desviación Estándar. DESVEST y DESVESTP (sin corregir). ii) Igual sucede con el Coeficiente de Asimetría y la Curtosis: Excel corrige estos coeficientes y en cambio nosotros utilizamos las formulas 3 4 1 n ⎛ xi − x ⎞ 1 n ⎛ xi − x ⎞ ⎟ ,y ⎟ ∑⎜ ∑⎜ n i =1⎝ S ⎠ n i =1⎝ S ⎠ 4. Ahora calculemos algunos parámetros insertando las funciones adecuadas. Escribir en B1, y de ahí hacia abajo, los siguientes nombres de estadísticos en las celdas y en la columna C utilizar las funciones correspondientes (insertando o escribiéndolas directamente) Contar datos Sumar datos MEDIA MAX MIN Recorrido =CONTAR(A:A) =SUMA(A:A) =C3−C2 (o PROMEDIO(A2:A31) =MAX(A:A) =MAX(A:A) =C5 −C6 (o MAX − MIN 1 5. Calculemos ahora de modo “artesanal” la varianza (Ejercicio calcular el coeficiente de asimetría y de curtosis) programando las fórmulas en algunas casillas, y obteniendo los pasos intermedios en otras columnas. Esto se hace de la siguiente manera. 5.1 Insertar una nueva Hoja y copiar los datos en la Columna A. Reservemos la columna B para los nombres de los parámetros MEDIA Y Nº DE DATOS y en la columna C los calculamos (o los copiamos de la Hoja 1). 5.2. En D1 escribir Desv. Media. Obtener en la columna E las desviaciones a la media. Escribir en E1 la función =A1-C$1 y “estirar” ésta hasta E100. Escribir en F1 Cuadrados y calcular en la columna G los cuadrados (^2) de esas desviaciones con la función =E1^2 y estirar hasta G100. (Para el Ejercicio: Obtener en H los cubos y en I los valores de las desviaciones elevados a la cuarta con =E1^3 y =E1^4 respectivamente). 5.3 Escribir en B4 SUMA y en C4 =SUMA(G1:G30). Escribir en B5 VARIANZA y en C5 =C4/C2. Escribir en B6 VARIANZA y en C6 =VARP(A1:A30). 5.4 Escribir en B7 CALCULAR el Coeficiente de asimetría y en B8 la curtosis. II/ Tablas de frecuencias e histogramas. Ahora veremos cómo podemos usar la hoja de cálculo para construir tablas de frecuencias e histogramas. 1. Insertamos una nueva hoja y pegamos en la columna A los 30 datos anteriores. En la columna C ponemos los posibles valores de los datos 0, 1, 2,…,8 y calculamos sus frecuencias en la columna D con la función =CONTAR.SI(A:A;C1) y “estiramos” . Ahora INSERTAR → GRÁFICO → COLUMNAS (SIGUIENTE). En el cuadro de diálogo tomamos en RANGO DE DATOS LOS DE LA COLUMNA D (las frecuencias que van en el eje OY y los datos van el eje OX) y finalizar. La gráfica se puede “retocar” clicando sobre el grafico o cualquiera de sus elementos y se puede volver a los datos clicando con el lado derecho del ratón en la gráfica. 1.2. Una vez que se tiene el diagrama de barras se pueden juntar los rectángulos del diagrama de barras para obtener el histograma. Esto se hace clicando dos veces en una de esas barras, seleccionar propiedades del objeto y, en la pestaña opciones (clicar en la palabra opciones“) bajar la medida de espacio a cero. Realmente a los datos estudiados no les corresponde un Histograma, sino un diagrama de rectángulos pues los datos no se han agrupado, sin embargo se ha realizado un Histograma, juntando los rectángulos para que se aprenda el procedimiento. Para obtener el Histograma directamente: Seleccionamos HERRAMIENTAS → ANÁLISIS DE DATOS → HISTOGRAMA. En el cuadro de diálogo hacemos RANGO DE ENTRADA → A:A (o bien A1:A30), en RANGO DE CLASES → VACÍO y en RANGO DE SALIDA → H1 y activamos PORCENTAJE ACUMULADO Y CREAR GRÁFICO y le damos al botón. 2. EJEMPLO DE AGRUPACIÓN DE DATOS. Primero necesitamos unos datos. Generemos 100 datos que simulan el número de llamadas en una centralita en 100 días con 10 llamadas de media (Variable aleatoria de Poisson de media λ=10). 2.1. Para generar los datos seleccionamos HERRAMIENTAS → ANÁLISIS DE DATOS→ GENERACIÓN DE NÚMEROS ALEATORIOS. En el cuadro de diálogo tomamos NÚMERO DE VARIABLES → 1, CANTIDAD DE Nº ALEATORIOS → 100, DISTRIBUCIÓN POISSON →10, dejamos en blanco INICIAR COM, y hacemos RANGO DE SALIDA →A1. 2 2.2. Ahora haremos las clases, para esto necesitamos el Rango o Recorrido. En la columna B ponemos Max, Min, Rango y nº de clases (√100 ≈10 o 11 clases) y en la columna C los calculamos (=MAX(A:A), =MIN(A:A), =C1−C2 ). Haremos una tabla de frecuencias y un histograma con los datos. Seleccionamos HERRAMIENTAS → ANÁLISIS DE DATOS → HISTOGRAMA. En el cuadro de diálogo hacemos RANGO DE ENTRADA → A:A (o bien A1:A100), en RANGO DE CLASES → D1:D10 en RANGO DE SALIDA → D1 y activamos PORCENTAJE ACUMULADO Y CREAR GRÁFICO y le damos al botón. III/ Regresión y correlación. En esta parte de la práctica se verá cómo utilizar la hoja de cálculo para obtener la información relacionada con un análisis de Regresión y Correlación. El Objetivo principal es representar los datos, las líneas de tendencias y calcular las medidas relacionadas con este tema, a partir de los datos o las tablas. Los pasos a realizar en esta práctica son los siguientes: 1. Introducir en A1 y de ahí hacia abajo los números 1, 2, 3, ..., hasta el 20. Nota: Se puede introducir sólo el 1 y estirar1 hacia abajo, hasta el 20. la hoja interpreta que son los números naturales los que se desean en esas celdas. Introducir en B1 y de ahí hacia abajo los números, 0, 1, 5, 7, 3, 5, 8, 5, 10, 7, 17, 11, 14, 12, 17, 15, 19, 16, 18, 21. 2. Añadir una fila encima (o debajo) de los datos para poder poner un título a las columnas y así identificar los datos que contienen. Esto se hace pinchando con el puntero en el número 1 que identifica la fila 1, con esto se selecciona la fila 1 entera. Pinchar ahora con el botón derecho del ratón en ese mismo sitio, esto proporciona un menú de opciones entre las que aparece INSERTAR FILA,. Tomar esta opción para insertar la fila deseada. Todo se desplaza hacia abajo y ahora hay una fila en blanco al comienzo. Poner nombre a las variables en las celdas A1 y B1, por ejemplo, “X” e “Y” (o ponerlas al final en A21 y B21). 3. Una vez que se tienen los datos se puede pasar a representarlos en un Diagrama de Dispersión. Para obtener este diagrama hay que seleccionar previamente la zona donde están los datos (en este caso las columnas A y B) y escoger la opción INSERTAR de la barra de menús, dentro de ésta hay que seleccionar la opción GRÁFICO (en algunas versiones la opción es DIAGRAMA). Se abre ahora una ventana de diálogo que ofrece varios gráficos posibles de realizar. Seleccione entre ellos el que representa el Diagrama de DISPERSIÓN(XY). La ventana siguiente indica la ubicación de los datos para el diagrama y FINALIZAR. 4. Ahora realizamos el AJUSTE LINEAL por mínimos cuadrados. Sobre un punto del Diagrama hacemos Clic con la parte derecha del ratón y sale un cuadro de diálogo: Hacer clic en AGREGAR LÍNEA DE TENDENCIA. Ahora elegir la tendencia deseada Lineal, polinomial,… y pasar a OPCIONES y seleccionar PRESENTAR ECUACIÓN EN EL GRÁFICO y PRESENTAR EL VALOR DE R CUADRADO EN EL GRÁFICO. Para calcular el Resumen de los datos de Regresión seleccionar: HERRAMIENTAS → ANÁLISIS DE DATOS → REGRESIÓN. También se pueden calcular los estadísticos de la regresión y correlación, esto es, la pendiente y la ordenada en el origen de la ecuación Y=a+bX, la covarianza, el coeficiente de correlación y el de determinación, se usan las funciones apropiadas de la hoja de cálculo: PENDIENTE, INTERSECCIÓN.EJE, COVAR, COEF.DE.CORREL y COEFICIENTE.R2. 3