1 ANÁLISIS DE DATOS CON INFOSTAT CRA. MARIANA GONZALEZ INTRODUCCIÓN InfoStat es un software estadístico desarrollado por el Grupo InfoStat, un equipo de trabajo conformado por docentes – investigadores de las asignaturas de Estadística y Biometría y de Diseño de experimentos de la Facultad de Ciencias Agropecuarias de la Universidad Nacional de Córdoba ([email protected]). MANEJO DE DATOS InfoStat procesa la información proveniente de una tabla. Una tabla se conceptualiza como un agrupamiento de datos dispuestos en filas y columnas. Las columnas representan a las variables y las filas a las observaciones. a) Nueva tabla. Menú ARCHIVO → NUEVA TABLA, permite introducir los datos en el programa. b) Guardar tabla Menú ARCHIVO → GUARDAR TABLA, permite guardar la tabla en formato InfoStat. Luego de una sesión de trabajo sólo pueden guardarse las tablas. InfoStat no permite guardar gráficos o salidas del programa. Deberá copiarlos a Word para poder guardarlos. b) Etiqueta Menú DATOS → ETIQUETAS, permite colocar el nombre a una columna. c) Tipo de dato Menú DATOS → TIPO DE DATO, permite aclarar el tipo de dato contenido en una columna (entero, real o categórico). d) Insertar una columna Menú DATOS → NUEVA COLUMNA, permite agregar una columna al final de la tabla. Se deberá aclarar el tipo de dato (entero, real o categórico). UNIDAD 1: OBTENCIÓN Y TRATAMIENTO DE DATOS 1- Distribuciones de frecuencias- Tablas Menú ESTADISTICAS → TABLAS DE FRECUENCIA Como primer paso debe ingresarse la variable de interés en la solapa Variables y presionar ACEPTAR. La solapa Opciones de la tabla de frecuencias permite agrupar los datos en intervalos de clase. El número de intervalos puede calcularse automáticamente (Cálculo automático) o ser indicado por el usuario (Personalizado) en el caso de variables continuas. Cuando los valores de la variable fueron definidos como enteros (variable discreta), InfoStat muestra las frecuencias de todos los valores enteros entre el máximo y el mínimo. Para poder trabajar una variable discreta en intervalos deberá definir el Tipo de dato como Real. En el caso de variables categóricas, la 2 ANÁLISIS DE DATOS CON INFOSTAT CRA. MARIANA GONZALEZ personalización no es aceptada y la tabla de frecuencias presentará tantas clases como categorías tenga la variable. La tabla de frecuencias puede contener los límites inferiores (LI), límites superiores (LS), marca de clase (MC) de los intervalos, frecuencias absolutas (FA), frecuencias relativas (FR), frecuencias absolutas acumuladas (FAA) y las frecuencias relativas acumuladas (FRA). Para generar la tabla active las casillas correspondientes a la información de interés. La ventana Resultados mostrará una tabla con la información solicitada. La solapa Ajustes permite obtener pruebas de bondad de ajuste que veremos en la materia Instrumentos Estadísticos. A continuación se presenta la tabla de distribución de frecuencias para la Actividad de Proceso Nº 11 (pág. 35) de la Guía. Salida Nº1 Tabla de Distribución de Frecuencias Variable Clase LI LS MC ESPESOR 1 0.49 0.51 0.50 ESPESOR 2 0.51 0.53 0.52 ESPESOR 3 0.53 0.55 0.54 ESPESOR 4 0.55 0.57 0.56 ESPESOR 5 0.57 0.60 0.59 ESPESOR 6 0.60 0.62 0.61 FA 5 15 19 16 10 10 FR 0.07 0.20 0.25 0.21 0.13 0.13 FAA 5 20 39 55 65 75 FRA 0.07 0.27 0.52 0.73 0.87 1.00 En este caso se trabajó con 6 intervalos de clase. ACTIVIDAD Realice el punto 8-d de las Actividades de Autoevaluación de la Guía- Unidad 1 2- Distribuciones de frecuencias- Gráficos Menú GRÁFICOS→ Debe seleccionar el tipo de gráfico que desea realizar. La ventana de HERRAMIENTAS GRÁFICAS aparece con la generación de un gráfico. Contiene opciones que permiten modificar los aspectos de los elementos del gráfico y/o agregar otros elementos. Para ello presenta los siguientes rótulos: SERIES: los nombres de las series aparecen en el cuadro superior. Las series se identifican con el nombre de la variable representada en el eje Y. Para introducir cambios o agregados, Ud. debe hacer clic sobre el nombre de la serie de interés. Apriete el botón derecho del ratón, aparecerá un menú con las siguientes opciones: 3 ANÁLISIS DE DATOS CON INFOSTAT CRA. MARIANA GONZALEZ Editar: permite cambiar el nombre de la serie. En la ventana de diálogo ingrese el nombre deseado. Tipo: permite cambiar el tipo de gráfico. Color: permite cambiar el color del gráfico EJE X: permite modificar la escala de valores de la variable graficada. EJE Y: permite modificar la escala graficada en el eje Y. 2.1Histograma Menú GRÁFICOS→HISTOGRAMAS. Luego de ingresar la variable a graficar, presione ACEPTAR. Aparecen dos solapas: La solapa GENERAL permite seleccionar las frecuencias a graficar (Absolutas, Relativas, Absolutas Acumuladas, Relativas Acumuladas) y el número de intervalos (debe seleccionarse la misma cantidad que para la tabla de frecuencias). Esta solapa permite también graficar el polígono de frecuencias La solapa AJUSTE permite, seleccionando Normal, ver si la distribución es simétrica o asimétrica. A continuación se presenta el Histograma con el Polígono de Frecuencia para la Actividad de Proceso Nº 11 (pág. 35) de la Guía. Gráfico Nº 1 HISTOGRAMA FRECUENCIAS RELATIVAS 0.27 0.20 0.14 0.07 0.00 0.49 0.51 0.53 0.55 0.56 0.58 0.60 0.62 ESPESOR ACTIVIDAD Realice el punto 8-e de las Actividades de Autoevaluación de la Guía para la variable “diámetro”- Unidad 1 2.2- Diagrama de caja (Box-Plot) Menú GRÁFICOS→ GRAFICO DE CAJAS (BOX-PLOT) 4 ANÁLISIS DE DATOS CON INFOSTAT CRA. MARIANA GONZALEZ En la Solapa VARIABLES deberá ingresar: Eje Y: la variable que desea graficar (siempre debe tratarse de una variable cuantitativa). Eje X: los grupos para los cuales desea graficar la variable (variable cualitativa). A continuación se presenta el Box- Plot correspondiente a Actividad de Proceso Nº 11 (pág. 35) de la Guía. Gráfico Nº 2 0.626 ESPESOR 0.589 0.552 0.516 0.479 PINTURA ACTIVIDAD En base a los datos del punto 8-e de las Actividades de Autoevaluación de la Guía para la variable “diámetro”- Unidad 1 elabore el Box-Plot. Compare por “tipo de terminación” 2.3- Diagrama de Tortas Menú GRÁFICOS→ DIAGRAMA DE TORTAS Para generar este gráfico deberá crear, en la tabla, una columna donde coloque cada categoría de la variable cualitativa y otra donde ingrese su frecuencia de presentación. Luego ingresa a DIAGRAMA DE TORTAS→ CATEGORÍAS EN FILAS. En Clases debe ingresar la columna donde colocó las clases y en Frecuencia, las frecuencias de presentación. A continuación se presenta el gráfico correspondiente al Ejemplo de la pág. 27 de la Guía. 5 ANÁLISIS DE DATOS CON INFOSTAT CRA. MARIANA GONZALEZ Gráfico Nº 3 CAUSA DEL RECLAMO Altura Carga Dureza Diámetro Defectos ACTIVIDAD En base a los datos del punto 8-f de las Actividades de Autoevaluación de la Guía para la variable “terminación”- Unidad 1 elabore el Gráfico de torta. 3-Caracterización de las Distribuciones de frecuencias- Medidas analíticas Menú ESTADISTICAS → MEDIDAS RESÚMENES Luego de ingresar la variable y presionar ACEPTAR, aparece la ventana ESTADÍSTICA DESCRIPTIVA que permite seleccionar las medidas a calcular. Las medidas más usadas son: Medidas de Posición Media aritmética (media) Mediana Cuartiles (Q1 y Q3) Medidas de Dispersión Varianza (Var [n-1]) Desviación estándar (D.E.) Coeficiente de variación (CV) Si aprieta el botón derecho del ratón sobre la salida podrá modificar la cantidad de decimales. A continuación se presenta la tabla de distribución de frecuencias para la Actividad de Proceso Nº 12 (pág. 44) de la Guía. 6 ANÁLISIS DE DATOS CON INFOSTAT Salida Nº2 CRA. MARIANA GONZALEZ Estadística Descriptiva Resumen ESPESOR n 75.000 Media 0.5528 D.E. 0.0326 Var(n-1) 0.0011 CV 5.8919 Mín 0.4860 Máx 0.6190 Mediana 0.5500 En este caso se trabajó con los datos sin agrupar. Esa es justamente la ventaja de los paquetes estadísticos, permiten obtener una mayor precisión al realizar los cálculos. ACTIVIDAD Realice el punto 8-i de las Actividades de Autoevaluación de la Guía - Unidad 1 UNIDAD 3: DISTRIBUCIONES DE PROBABILIDAD InfoStat provee un calculador para obtener probabilidades de valores menores o iguales que un valor especificado previamente, para numerosos modelos de probabilidad (Binomial, Pisson, Exponencial y Normal). Para cada modelo deben especificarse el o los valores de sus parámetros. 1- Modelos para variables aleatorias discretas 1.1Distribución Binomial Menú ESTADÍSTICAS→ PROBABILIDADES Y CUANTILES. Al seleccionar Binomial se le pide que ingrese el valor de los parámetros n y p. Luego deberá ingresar el valor para el cual desea calcular la probabilidad acumulada. Presionando CALCULAR podrá leer en el casillero Prob. (X ≤ x) la probabilidad de ocurrencia de valores menores o iguales al valor de x, bajo el modelo seleccionado. Para la Actividad de Proceso Nº 1 punto d (pág. 92) de la Guía deberá ingresar n=15, p=0,25 y valor de x =3. En el casillero Prob. (X ≤ x) aparece 0,4612869 1.2Distribución Poisson Menú ESTADÍSTICAS→ PROBABILIDADES Y CUANTILES. 7 ANÁLISIS DE DATOS CON INFOSTAT CRA. MARIANA GONZALEZ Al seleccionar Poisson se le pide que ingrese el valor del parámetro lambda. Luego deberá ingresar el valor para el cual desea calcular la probabilidad acumulada. Presionando CALCULAR podrá leer en el casillero Prob. (X ≤ x) la probabilidad de ocurrencia de valores menores o iguales al valor de x, bajo el modelo seleccionado. 2- Modelos para variables aleatorias continuas 2.1Distribución Normal Menú ESTADÍSTICAS→ PROBABILIDADES Y CUANTILES. Al seleccionar Normal se le pide que ingrese el valor de los parámetros m (media) y v (varianza). Luego deberá ingresar el valor para el cual desea calcular la probabilidad acumulada. Presionando CALCULAR podrá leer en el casillero Prob. (X ≤ x) la probabilidad de ocurrencia de valores menores o iguales al valor de x, bajo el modelo seleccionado. Para la Actividad de Proceso Nº 3 punto b (pág. 99) de la Guía deberá ingresar m=240, v=3600 y valor de x =200. En el casillero Prob. (X ≤ x) aparece 0,2524928 2.2- Distribución Exponencial Menú ESTADÍSTICAS→ PROBABILIDADES Y CUANTILES. Al seleccionar Pisson se le pide que ingrese el valor del parámetro lambda. Luego deberá ingresar el valor para el cual desea calcular la probabilidad acumulada. Presionando CALCULAR podrá leer en el casillero Prob. (X ≤ x) la probabilidad de ocurrencia de valores menores o iguales al valor de x, bajo el modelo seleccionado. Para la Actividad de Proceso Nº 4 punto a (pág. 102) de la Guía deberá ingresar lambda=8, y valor de x =4. En el casillero Prob. (X ≤ x) aparece 0,3934693 UNIDAD 4: INFERENCIA ESTADÍSTICA 1- Estimación de parámetros 1.1- Estimación puntual Menú ESTADISTICAS → MEDIDAS RESÚMENES Luego de ingresar la variable y presionar ACEPTAR, aparece la ventana ESTADÍSTICA DESCRIPTIVA que permite seleccionar las medidas a calcular. Las medidas más usadas son: Estimador insesgado de la media poblacional Media aritmética (media) Estimador insesgado de la varianza poblacional Varianza (Var [n-1]) A continuación se presentan los estimadores puntuales para la Actividad de Proceso Nº 8 (pág. 135) de la Guía. 8 ANÁLISIS DE DATOS CON INFOSTAT CRA. MARIANA GONZALEZ Salida Nº3 Estadística Descriptiva Resumen CONTENIDO Media 501.73 Var(n-1) 4.14 1.2- Estimación por intervalos Menú ESTADISTICAS → INFERENCIAS INTERVALOS DE CONFIANZA BASADAS EN UNA MUESTRA→ InfoStat permite seleccionar el parámetro para el cual se construirá el intervalo de confianza (en esta materia trabajaremos sólo con la media) y el nivel de confianza. A continuación se presenta el intervalo de confianza del 90% para el verdadero contenido medio de los paquetes de la Actividad de Proceso Nº 8 (pág. 135) de la Guía. Salida Nº4 Intervalos de confianza Bilateral Estimación paramétrica Variable CONTENIDO Parámetro Media Estimación 501.73 E.E. 0.64 n 10 LI(90%) 500.55 LS(90%) 502.91 Podemos decir que con una confianza del 90% el intervalo (500,55 ; 502,91) contendrá al verdadero contenido medio de los paquetes. ACTIVIDAD Realice el punto 31 de las Actividades de Autoevaluación de la Guía - Unidad 4