PRÁCTICA No. 1 ESTADÍSTICA DESCRIPTIVA PARTE I Objetivos: Al finalizar esta práctica, el alumno ¾ podrá utilizar de manera más eficiente diversas funciones de Excel que le faciliten el cálculo de los principales parámetros numéricos descriptivos de una muestra. ¾ tendrá la capacidad de utilizar diversas funciones de Excel que ayudan al cálculo de parámetros numéricos de conjuntos de datos que se encuentren agrupados en una tabla de distribución de frecuencias. ¾ conocerá el manejo de la opción de Estadística Descriptiva, proporcionada por la herramienta “Análisis de Datos” de Excel. Antecedentes: ¾ Medidas de tendencia central: Media, mediana y moda. ¾ Medidas de dispersión: Varianza y desviación estándar. ¾ Parámetros de forma: Coeficiente de sesgo ¾ Tabla de distribución de frecuencias (TDF) Desarrollo: Actividad 1 Una de las herramientas más útiles en Excel son las funciones, las cuales son rutinas que llevan a cabo ciertas tareas específicas, muy útiles para el análisis de datos en la Estadística. Para empezar a familiarizarse con las funciones en Microsoft Excel lleve a cabo los siguientes pasos: Uso de funciones en Microsoft® Excel. [--Insertar una función vía menú--] 1. Seleccionar el menú <Insertar> y a continuación elegir la opción <Función>. [--Insertar una función vía barra de herramientas--] situado en la barra de 1. Dar clic en el icono de <pegar función> herramientas estándar. Si la barra de herramientas no está habilitarla, puede habilitarla dando clic en la opción <Barra de herramientas-Estándar>, del menú <Ver>. 2. Aparecerá el cuadro de diálogo con las funciones disponibles. Autor: M. en I. Isabel Patricia Aguilar Juárez 1 Ahora que conoce cómo insertar funciones en Excel, podrá obtener parámetros numéricos como media, mediana, moda, desviación estándar, entre otras. Para ello realice la actividad que se describe a continuación. Obtención de Parámetros Numéricos de un conjunto de datos usando funciones en Microsoft® Excel. Actividad 2 ¾ Cree una nueva hoja electrónica de Excel mediante el menú [Archivo]>>[Nuevo...] o bien presione las teclas Control+U. Si ya se encuentra en una hoja nueva no es necesario realizar este paso. ¾ Coloque el conjunto de datos a analizar en una columna o renglón (dependiendo del formato que desee utilizar). ¾ A partir de un conjunto de datos, realice el siguiente procedimiento para obtener sus parámetros numéricos. 1. Seleccione una celda vacía en la hoja de Excel(en ésta aparecerán el o los resultados que devuelve la función). 2. Abra el cuadro de diálogo <Pegar función> y seleccione la función que se va a evaluar de acuerdo a las tablas que se muestran a continuación y dé clic en <Aceptar> para continuar. Medidas de tendencia central: media, mediana y moda de un conjunto de datos sin agrupar. [--Función a insertar vía cuadro de diálogo--] PARÁMETRO MEDIA MEDIANA FUNCIÓN A INSERTAR PROMEDIO(Rango de celdas que contienen los datos) MEDIANA(Rango de celdas que contienen los datos) MODA MODA(Rango de celdas que contienen los datos) [--Función a insertar vía barra de fórmulas--] Ejemplo: PARÁMETRO MEDIA FUNCIÓN A INSERTAR =PROMEDIO(celdas que contienen el conjunto de datos) Autor: M. en I. Isabel Patricia Aguilar Juárez 2 MEDIANA MODA =MEDIANA(celdas que contienen el conjunto de datos) =MODA(celdas que contienen el conjunto de datos) Medidas de dispersión: desviación estándar y varianza de un conjunto de datos sin agrupar. [--Función a insertar vía cuadro de diálogo--] PARÁMETRO DESVIACIÓN ESTÁNDAR VARIANZA FUNCIÓN A INSERTAR DESVEST(Rango de celdas que contienen los datos) VAR(Rango de celdas que contienen los datos) [--Función a insertar vía barra de fórmulas--] PARÁMETRO DESVIACIÓN ESTÁNDAR VARIANZA FUNCIÓN A INSERTAR =DESVEST(celdas que contienen el conjunto de datos) =VAR(celdas que contienen el conjunto de datos) Otros parámetros importantes para distribuciones de frecuencias [--Función a insertar vía cuadro de diálogo--] PARÁMETRO VALOR MÍNIMO VALOR MÁXIMO TOTAL DE DATOS FUNCIÓN A INSERTAR MIN(Rango de celdas que contienen los datos) MAX(Rango de celdas que contienen los datos) CONTAR(Rango de celdas que contienen los datos) [--Función a insertar vía barra de fórmulas--] PARÁMETRO VALOR MÍNIMO VALOR MÁXIMO TOTAL DE DATOS FUNCIÓN A INSERTAR =MIN(celdas que contienen el conjunto de datos) =MAX(celdas que contienen el conjunto de datos) =CONTAR(celdas que contienen el conjunto de datos) Cálculo de Parámetros Numéricos a partir de una tabla de distribución de frecuencias con Microsoft® Excel. Autor: M. en I. Isabel Patricia Aguilar Juárez 3 Como se sabe, a partir de una tabla de distribución de frecuencias se pueden obtener parámetros numéricos, tales como las medidas de tendencia central y las medidas de dispersión de un conjunto de datos agrupados. Para Excel dispone de funciones que simplifican el cálculo con el uso correcto de las funciones y la barra de fórmulas. La siguiente actividad es realizar el cálculo de parámetros numéricos de un conjunto de datos agrupados en una tabla de distribución de frecuencias (TDF), pera ello deberá de tener presentes los conceptos investigados en el cuestionario previo. Actividad 3 Usando las herramientas de Microsoft® Excel siga el procedimiento para obtener los parámetros de una TDF(Tabla de Distribución de Frecuencias): 1. Parta de una TDF 2. Calcule la Media de acuerdo a lo siguiente: En una celda vacía inserte la función SUMAPRODUCTO() y especifique las columnas “Marca de clase” y “Frecuencia” como parámetros a evaluar. A continuación divida el resultado entre la suma de las frecuencias; es decir, n. 3. Calcule la mediana usando la fórmula de la mediana (Interpolación en la Ojiva). En la TDF, la columna de frecuencias acumuladas relativas significa la proporción de los datos en una muestra, acumulados hasta el límite superior de cada clase, por ello, buscamos la clase en que se alcanza o se rebasa por primera vez el 50% de los datos(en la columna de frecuencias acumuladas relativas) y se realiza una interpolación lineal, usando los límites de la clase mediana, las frecuencias acumuladas de dicha clase y de la anterior a ésta. La fórmula para la mediana es la siguiente: (l − l i )(n / 2 − Fi ) ~ x = i +1 + li Fi +1 − Fi donde: li+1 = Límite superior de clase cuya frecuencia acumulada relativa es por primera vez mayor al 50% de los datos(clase mediana). li = Límite inferior de la clase mediana. n = Tamaño de la muestra Fi+1 = Frecuencia acumulada hasta li+1. Fi = Frecuencia acumulada hasta li. Autor: M. en I. Isabel Patricia Aguilar Juárez 4 4. Calcule la mediana mediante el uso de la función tendencia(). La función TENDENCIA() es muy útil para el cálculo de la mediana, ya que a partir de un conjunto de datos x y y, la fórmula realiza una interpolación lineal en cierto valor del conjunto y. La expresión a realizar para el cálculo de la mediana es la siguiente: MEDIANA=TENDENCIA(conocidos_x, conocidos_y, yi) Donde: Conocidos_x = valores de límites inferior y superior de la clase mediana(li+1 y li). Conocidos_y = valores de Fi+1 y Fi del paso anterior. yi = n/2 (La mitad del tamaño de la muestra) 5. Calcule la moda, entendiéndola como la marca de clase con mayor frecuencia, para ello seleccione una celda en blanco y busque aquella clase que cumpla con ello, haga referencia a ella. 6. Calcule la moda de acuerdo con la definición. Realice el siguiente procedimiento: a. Identifique la clase que contenga la mayor frecuencia y llame al límite inferior L1 y al límite superior U1. b. Llame ∆1 a la diferencia de la mayor frecuencia y la correspondiente frecuencia de la marca de clase anterior. c. Llame ∆2 a la diferencia de la mayor frecuencia y la correspondiente frecuencia de la marca de clase posterior. d. Aplique en una celda vacía la fórmula: Xˆ = ∆ 1U 1 + ∆ 2 L1 ∆1 + ∆ 2 7. Calcule la varianza. El cálculo de la varianza en una TDF es un poco más laborioso que cuando se calcula con todos los datos. Para ello nos auxiliamos de una nueva columna que creamos a un lado de la TDF, a ésta le llamaremos “cuadrados” o cualquier otro que le sirva para identificarla. La nueva columna (“cuadrados”) contendrá en cada celda la siguiente sintaxis: (Celda con marca de clase – Celda con valor de la media)^2 (Nota: El símbolo “^” indica potencia, y el ^2 indica “2 elevado al cuadrado”). Autor: M. en I. Isabel Patricia Aguilar Juárez 5 A continuación, a una celda vacía aplicamos la función SUMAPRODUCTO() con parámetros: columna de frecuencias y la columna “cuadrados”, recién creada. El resultado lo dividimos entre el tamaño de la muestra (suma de las frecuencias) menos 1; esto es: [VARIANZA] = SUMAPRODUCTO(Parámetros)/(n-1) 8. Calcule la desviación estándar usando la función RAIZ(). La desviación estándar se define como la raíz cuadrada de la varianza, de tal modo que ésta se puede calcular usando la función RAIZ(). En una celda vacía aplique la siguiente fórmula: [DESV. EST. ] =RAIZ(número) En número colocamos el valor de la varianza. 9. Calcule el coeficiente de sesgo. Para el cálculo del coeficiente se sesgo seguimos el mismo procedimiento que con la varianza, creamos una nueva columna con el nombre “cubos” y a cada celda de ésta aplicamos la sintaxis siguiente: (Celda con marca de clase – Celda con valor de la media)^3 donde “^3” indica “elevado al cubo” . A continuación aplicamos la función SUMAPRODUCTO() con parámetros: columna de frecuencias y la columna “cubos”, recién creada. El resultado lo dividimos entre la celda que contiene la suma de las frecuencias(tamaño de la muestra); esto es: [Tercer momento respecto a la media] = SUMAPRODUCTO(Parámetros)/n Finalmente, Sesgo = Tercer momento respecto a la media / (s^3) donde s^3 es la desviación estándar elevada al cubo. Uso de la herramienta “Análisis de datos” de Microsoft Excel1. Además de las funciones, Excel puede generar un informe estadístico de un conjunto de datos correspondientes a una variable, utilizando la herramienta de análisis: Análisis de datos, opción Estadística Descriptiva. El informe resultante Para acceder a la herramienta debe estar instalado el complemento de Microsoft® Excel Herramientas de análisis. 1 Autor: M. en I. Isabel Patricia Aguilar Juárez 6 proporciona información acerca de los Parámetros numéricos de dicho conjunto, tales como: 1. Medidas de tendencia central: Media, mediana y moda. 2. Medidas de dispersión: Desviación estándar, Varianza de la muestra, Rango. 3. Parámetros de forma: Curtosis, coeficiente de asimetría (sesgo). 4. Otros: Error típico (de la media), Valor mínimo y máximo (de la muestra), el número total de datos y la suma de éstos; así como el nivel de confianza para la media. Actividad 4 Para generar un informe, seleccione del menú Herramientas la opción Análisis de datos..., aparecerá una ventana con una lista de funciones de análisis, seleccione Estadística descriptiva y de clic en Aceptar. Aparecerá entonces un cuadro de diálogo en el cual se deben definir los siguientes parámetros: 1. Rango de entrada: Es la referencia a las celdas que contienen todos los datos de la muestra que además deberá tener un tamaño mayor o igual a dos, organizados en filas o columnas. 2. Agrupado por: Especifica si el rango de entrada se encuentra organizado por fila o por columna. 3. Rótulos en la primera fila o en la primera columna: Si dentro del rango de entrada se encuentra el título de la variable, se deberá activar la casilla, si no deberá estar desactivada. 4. Opciones de salida: Se deberá seleccionar una opción de las siguientes: a. Rango de salida: Especifica la referencia a la celda superior izquierda del informe conformado por dos columnas, una de rótulos y otra de resultados. b. En una hoja nueva: Especifica que el informe debe darse en una hoja nueva dentro del mismo libro. Si se desea darle un nombre al informe deberá escribirse en el cuadro. Autor: M. en I. Isabel Patricia Aguilar Juárez 7 c. En un libro nuevo: Especifica si el informe debe darse en un nuevo libro de Excel. 5. Por último active la casilla Resumen de estadísticas, con esto le indicamos al programa que genere un informe con todos los parámetros numéricos antes mencionados. 6. Si se desea además obtener en el resumen: el nivel de confianza, el valor mayor y el valor menor de los datos, deberán activarse las casillas correspondientes, indicando en cada caso los valores deseados. En el caso del k-ésimo mayor y el k-ésimo menor, se deberá escribir un valor de 1 en el cuadro de texto para indicar que se quiere el valor más chico y/o el más grande de todo el conjunto de datos. Una vez especificadas los parámetros, dé clic en Aceptar. Dependiendo de dónde indicamos la salida de los datos, obtendremos una tabla formada por dos columnas, el título aparecerá en la primera fila y las correspondientes a partir de la tercera fila como lo indica la siguiente figura. Título Resumen de estadísticas Actividad 5 Finalmente analice los datos obtenidos en esta práctica y concluya acerca de los métodos aprendidos. Autor: M. en I. Isabel Patricia Aguilar Juárez 8 CUESTIONARIO PREVIO ESTADÍSTICA DESCRIPTIVA (PARTE 1) 1. ¿Qué son las medidas de tendencia central?. Explique por qué son importantes. 2. Indique la forma de calcular la media aritmética cuando se dispone de todos los datos de la muestra y la forma de hacerlo cuando los datos se encuentran agrupados en una tabla de distribución de frecuencias. 3. Escriba la definición de la moda. Explique la forma de determinar la moda a partir de todos los datos que conforman una muestra. Indique dos métodos diferentes para calcular la moda a partir de los datos dados por una distribución de frecuencias. 4. Defina la mediana de una muestra. Desarrolle una expresión para el cálculo de la mediana de un conjunto de datos agrupados en una Tabla de Distribución de Frecuencias a partir de una interpolación en la ojiva. Muéstrelo gráficamente. 5. ¿Qué son y cómo se calculan la varianza y la desviación estándar?. 6. ¿Qué es y cómo se calcula el coeficiente de sesgo de una muestra?. BIBLIOGRAFÍA: MURRAY, SPIEGEL // ESTADÍSTICA McGraw-Hill // 1ª Edición // México 1970 pp. 45-98 APUNTES DE ESTADÍSTICA DESCRIPTIVA M. en I. Isabel Patricia Aguilar Juárez Facultad de Ingeniería Autor: M. en I. Isabel Patricia Aguilar Juárez 9 Ejercicio extra-clase Los datos mostrados a continuación representan el costo de electricidad durante el mes de julio de 2001 de una muestra aleatoria de 50 departamentos en una ciudad. Datos de la Utilidad Bruta del precio ($) 96 102 157 111 141 128 95 143 108 171 153 185 148 149 144 163 187 119 202 197 90 213 206 168 150 166 183 178 127 116 130 175 109 154 139 151 147 82 172 165 123 167 130 149 114 135 191 137 129 158 a) A partir de todo el conjunto de datos calcule: media, mediana, moda, varianza, desviación estándar y coeficiente de sesgo. b) A partir de la tabla de distribución de frecuencias mostrada a continuación, obtenga: media, mediana, moda, varianza, desviación estándar y coeficiente de sesgo. a 81 100 119 138 157 176 195 b 100 119 138 157 176 195 214 xi 90.50 109.50 128.50 147.50 166.50 185.50 204.50 f 4 7 8 13 9 5 4 50 f* 0.08 0.14 0.16 0.26 0.18 0.10 0.08 1.00 F 4 11 19 32 41 46 50 F* 0.080 0.220 0.380 0.640 0.820 0.920 1.000 c) Compare los resultados obtenidos en los incisos a y b. ¿Qué concluye?. d) Del conjunto de datos, use la herramienta “Análisis de datos...” para obtener un informa estadístico de la muestra, compare los resultados obtenidos de este inciso con los obtenidos en el inciso a). Autor: M. en I. Isabel Patricia Aguilar Juárez 10