Práctica nº 1 Estadística Descriptiva

Anuncio
PRÁCTICA ESTADÍSTICA 1. I.I. 08/09
Introducción al Excel y Estadística Descriptiva.
En la práctica diaria de la Estadística se trabaja con decenas, centenas y hasta miles de
datos, esto hace imposible la práctica de la misma sin una herramienta que facilite todo el
cálculo que requieren los análisis que se realizan. La herramienta que ha venido a ayudar en
este campo no es otra que el ordenador. Estas máquinas tienen una gran capacidad de cálculo,
que unida a la velocidad y exactitud en los mismos hacen que sean irrenunciables en muchos
campos. La Estadística es uno de esos campos y por ello para que la enseñanza sea completa y
el alumno sea capaz de llevar a cabo los procedimientos vistos en clase, se van a realizar
prácticas en las que se aprenderá cómo hacerlos con estas herramientas.
La oferta en cuanto a aplicaciones informáticas capaces de realizar los cálculos
necesarios es amplia, existiendo varias específicas para el campo estadístico y otras muchas de
carácter más general que sin embargo pueden igualmente realizar los procedimientos
estadísticos requeridos. En las aplicaciones específicas para la estadística, también llamados
paquetes estadísticos, los estudios se hacen sin tener que saber más que el procedimiento que
se quiere realizar, el programa lo lleva a cabo y presenta los resultados al usuario. Las de
carácter más general también sirven para hacer los análisis requeridos en Estadística, además
se pueden realizar de una manera más manual, en la que el usuario utiliza las funciones básicas
para construir otras más complejas que son las que forman parte de los procedimientos
estadísticos. Se está pensando en las aplicaciones conocidas como hojas de cálculo.
Otra característica que se ha tenido en cuenta es la posibilidad de que las herramientas
usadas sean accesibles al alumnado en cualquier momento, en cualquier ordenador y al menor
coste posible, esto ha hecho que la decisión se haya decantado por un programa Excel. Esta
aplicación es una suite ofimática que ofrece en un solo programa varias soluciones, Procesador
de Textos, Hoja de Cálculo, Base de Datos, Navegador de Internet, Correo Electrónico, Diseño
Gráfico, Presentaciones, ...
Guión de la Práctica I: Estadística Descriptiva y Regresión.
Introducción.
En esta práctica se intenta que el alumno se familiarice con la hoja de cálculo, aprendiendo los
procedimientos básicos con ficheros y funciones. Además se realizarán los primeros
procedimientos estadísticos, como tablas de frecuencias, resúmenes estadísticos (obtención de
varios estadísticos a partir de la muestra), así como a obtener las principales representaciones
gráficas con la hoja de cálculo.
A grosso modo se aprenderá a:
– Insertar datos en una hoja de cálculo.
– Ordenar datos crecientes y decrecientes.
– Operar sobre columnas de datos, haciendo cuadrados de los mismos, sumas, ...
– Escribir fórmulas para obtener estadísticos, así como calcular directamente los que ya
ofrece programados la hoja.
– Representar gráficamente los datos (Diagramas de barras e Histogramas).
– Representar diagramas de dispersión y líneas de tendencia.
– Calcular la recta de regresión y los coeficientes asociados.
0
I. Estadística Descriptiva.
Detalle paso a paso de la práctica.
1. Crear una carpeta en el disco duro para guardar los trabajos del alumno.
2. Abrir la Hoja de Cálculo. Escribir los datos en la Columna A.
3. La hoja de cálculo proporciona un análisis estadístico básico: se obtiene en
HERRAMIENTAS →ANÁLISIS DE DATOS→ ESTADÍSTICA DESCRIPTIVA.
El cuadro de diálogo pregunta por el rango de entrada (esto es, dónde están los datos que
hay que analizar) que es A:A (la columna A en Excel) y el de salida (donde se han de escribir
los resultados) que podemos hacer D1. Además no hay que olvidar marcar la opción
RESUMEN DE ESTADÍSTICAS. Dar al botón.
Media
=PROMEDIO(A1:A32000)
Error típico
Error típico
Mediana
=MEDIANA(A1:A32000)
Moda
=MODA(A1:A32000)
Desviación estándar
=DESVESTP(A1:A32000)
Varianza de la muestra
=VARP(A1:A32000)
Curtosis
=CURTOSIS(A1:A32000)
Coeficiente de asimetría
=COEFICIENTE.ASIMETRIA(A1:A3200
Rango
=MAX -MIN
Mínimo
=MÍN(A1:A32000)
Máximo
=MAX(A1:A32000)
Suma
=SUMA(A1:A32000)
Cuenta
=CONTAR(A1:A32000)
(Error típico es una desviación típica de la media muestral entendida como variable aleatoria
(se verá en el tema 5 de Estimación)).
Observación: Los parámetros que calcula Excel se pueden hacer por separado (en la Ayuda se
puede ver cómo se hacen los cálculos y cada función).
i) La Varianza es la obtenida utilizando la función VAR(A:A) (Insertar→ función → VAR
…) y corresponde a la Varianza muestral corregida. Si queremos la varianza sin corregir
la función estadística corresponde a VARP(A:A). Igual con la Desviación Estándar.
DESVEST y DESVESTP (sin corregir).
ii) Igual sucede con el Coeficiente de Asimetría y la Curtosis: Excel corrige estos
coeficientes y en cambio nosotros utilizamos las formulas
3
4
1 n ⎛ xi − x ⎞
1 n ⎛ xi − x ⎞
⎟ ,y
⎟
∑⎜
∑⎜
n i =1⎝ S ⎠
n i =1⎝ S ⎠
4. Ahora calculemos algunos parámetros insertando las funciones adecuadas. Escribir en B1, y
de ahí hacia abajo, los siguientes nombres de estadísticos en las celdas y en la columna C
utilizar las funciones correspondientes (insertando o escribiéndolas directamente)
Contar datos
Sumar datos
MEDIA
MAX
MIN
Recorrido
=CONTAR(A:A)
=SUMA(A:A)
=C3−C2 (o PROMEDIO(A2:A31)
=MAX(A:A)
=MAX(A:A)
=C5 −C6 (o MAX − MIN
1
5. Calculemos ahora de modo “artesanal” la varianza (Ejercicio calcular el coeficiente de
asimetría y de curtosis) programando las fórmulas en algunas casillas, y obteniendo los pasos
intermedios en otras columnas. Esto se hace de la siguiente manera.
5.1 Insertar una nueva Hoja y copiar los datos en la Columna A. Reservemos la columna B
para los nombres de los parámetros MEDIA Y Nº DE DATOS y en la columna C los
calculamos (o los copiamos de la Hoja 1).
5.2. En D1 escribir Desv. Media. Obtener en la columna E las desviaciones a la media.
Escribir en E1 la función =A1-C$1 y “estirar” ésta hasta E100. Escribir en F1 Cuadrados y
calcular en la columna G los cuadrados (^2) de esas desviaciones con la función =E1^2 y
estirar hasta G100. (Para el Ejercicio: Obtener en H los cubos y en I los valores de las
desviaciones elevados a la cuarta con =E1^3 y =E1^4 respectivamente).
5.3 Escribir en B4 SUMA y en C4
=SUMA(G1:G30).
Escribir en B5 VARIANZA y en C5 =C4/C2.
Escribir en B6 VARIANZA y en C6 =VARP(A1:A30).
5.4 Escribir en B7 CALCULAR el Coeficiente de asimetría y en B8 la curtosis.
II/ Tablas de frecuencias e histogramas.
Ahora veremos cómo podemos usar la hoja de cálculo para construir tablas de frecuencias e
histogramas.
1. Insertamos una nueva hoja y pegamos en la columna A los 30 datos anteriores. En la
columna C ponemos los posibles valores de los datos 0, 1, 2,…,8 y calculamos sus frecuencias
en la columna D con la función =CONTAR.SI(A:A;C1) y “estiramos” .
Ahora INSERTAR → GRÁFICO → COLUMNAS (SIGUIENTE). En el cuadro de
diálogo tomamos en RANGO DE DATOS LOS DE LA COLUMNA D (las frecuencias que
van en el eje OY y los datos van el eje OX) y finalizar.
La gráfica se puede “retocar” clicando sobre el grafico o cualquiera de sus elementos y se
puede volver a los datos clicando con el lado derecho del ratón en la gráfica.
1.2. Una vez que se tiene el diagrama de barras se pueden juntar los rectángulos del diagrama
de barras para obtener el histograma. Esto se hace clicando dos veces en una de esas barras,
seleccionar propiedades del objeto y, en la pestaña opciones (clicar en la palabra opciones“)
bajar la medida de espacio a cero. Realmente a los datos estudiados no les corresponde un
Histograma, sino un diagrama de rectángulos pues los datos no se han agrupado, sin embargo
se ha realizado un Histograma, juntando los rectángulos para que se aprenda el procedimiento.
Para obtener el Histograma directamente: Seleccionamos HERRAMIENTAS →
ANÁLISIS DE DATOS → HISTOGRAMA. En el cuadro de diálogo hacemos RANGO DE
ENTRADA → A:A (o bien A1:A30), en RANGO DE CLASES → VACÍO y en RANGO DE
SALIDA → H1 y activamos PORCENTAJE ACUMULADO Y CREAR GRÁFICO y le
damos al botón.
2. EJEMPLO DE AGRUPACIÓN DE DATOS. Primero necesitamos unos datos. Generemos
100 datos que simulan el número de llamadas en una centralita en 100 días con 10 llamadas de
media (Variable aleatoria de Poisson de media λ=10).
2.1. Para generar los datos seleccionamos HERRAMIENTAS → ANÁLISIS DE DATOS→
GENERACIÓN DE NÚMEROS ALEATORIOS. En el cuadro de diálogo tomamos NÚMERO
DE VARIABLES → 1, CANTIDAD DE Nº ALEATORIOS → 100, DISTRIBUCIÓN
POISSON →10, dejamos en blanco INICIAR COM, y hacemos RANGO DE SALIDA →A1.
2
2.2. Ahora haremos las clases, para esto necesitamos el Rango o Recorrido. En la columna B
ponemos Max, Min, Rango y nº de clases (√100 ≈10 o 11 clases) y en la columna C los
calculamos (=MAX(A:A), =MIN(A:A), =C1−C2 ).
Haremos una tabla de frecuencias y un histograma con los datos. Seleccionamos
HERRAMIENTAS → ANÁLISIS DE DATOS → HISTOGRAMA. En el cuadro de diálogo
hacemos RANGO DE ENTRADA → A:A (o bien A1:A100), en RANGO DE CLASES →
D1:D10 en RANGO DE SALIDA → D1 y activamos PORCENTAJE ACUMULADO Y
CREAR GRÁFICO y le damos al botón.
III/ Regresión y correlación.
En esta parte de la práctica se verá cómo utilizar la hoja de cálculo para obtener la información
relacionada con un análisis de Regresión y Correlación. El Objetivo principal es representar los
datos, las líneas de tendencias y calcular las medidas relacionadas con este tema, a partir de los
datos o las tablas.
Los pasos a realizar en esta práctica son los siguientes:
1. Introducir en A1 y de ahí hacia abajo los números 1, 2, 3, ..., hasta el 20. Nota: Se puede
introducir sólo el 1 y estirar1 hacia abajo, hasta el 20. la hoja interpreta que son los números
naturales los que se desean en esas celdas. Introducir en B1 y de ahí hacia abajo los números,
0, 1, 5, 7, 3, 5, 8, 5, 10, 7, 17, 11, 14, 12, 17, 15, 19, 16, 18, 21.
2. Añadir una fila encima (o debajo) de los datos para poder poner un título a las columnas y
así identificar los datos que contienen. Esto se hace pinchando con el puntero en el número 1
que identifica la fila 1, con esto se selecciona la fila 1 entera. Pinchar ahora con el botón
derecho del ratón en ese mismo sitio, esto proporciona un menú de opciones entre las que
aparece INSERTAR FILA,. Tomar esta opción para insertar la fila deseada. Todo se desplaza
hacia abajo y ahora hay una fila en blanco al comienzo. Poner nombre a las variables en las
celdas A1 y B1, por ejemplo, “X” e “Y” (o ponerlas al final en A21 y B21).
3. Una vez que se tienen los datos se puede pasar a representarlos en un Diagrama de
Dispersión. Para obtener este diagrama hay que seleccionar previamente la zona donde están
los datos (en este caso las columnas A y B) y escoger la opción INSERTAR de la barra de
menús, dentro de ésta hay que seleccionar la opción GRÁFICO (en algunas versiones la
opción es DIAGRAMA). Se abre ahora una ventana de diálogo que ofrece varios gráficos
posibles de realizar. Seleccione entre ellos el que representa el Diagrama de
DISPERSIÓN(XY). La ventana siguiente indica la ubicación de los datos para el diagrama y
FINALIZAR.
4. Ahora realizamos el AJUSTE LINEAL por mínimos cuadrados.
Sobre un punto del Diagrama hacemos Clic con la parte derecha del ratón y sale un cuadro
de diálogo: Hacer clic en AGREGAR LÍNEA DE TENDENCIA. Ahora elegir la tendencia
deseada Lineal, polinomial,… y pasar a OPCIONES y seleccionar PRESENTAR ECUACIÓN
EN EL GRÁFICO y PRESENTAR EL VALOR DE R CUADRADO EN EL GRÁFICO.
Para calcular el Resumen de los datos de Regresión seleccionar:
HERRAMIENTAS → ANÁLISIS DE DATOS → REGRESIÓN.
También se pueden calcular los estadísticos de la regresión y correlación, esto es, la pendiente
y la ordenada en el origen de la ecuación Y=a+bX, la covarianza, el coeficiente de correlación
y el de determinación, se usan las funciones apropiadas de la hoja de cálculo: PENDIENTE,
INTERSECCIÓN.EJE, COVAR, COEF.DE.CORREL y COEFICIENTE.R2.
3
Descargar