I. Estadística Descriptiva de una variable Objetivo: Organizar un conjunto de datos para extraer el máximo posible de información Herramientas: A. Estadísticos: Media, Varianza, moda, etc B. Representaciones gráficas: Diagrama de tallos y hojas etc Guión • I.1 Tipos de Variables • I.2 Notación básica • I.3 Estadísticos Medidas de dispersión Medidas de Centralización • I.4 Representaciones gráficas I.4.1 Diagramas de cajas y bigotes I.4.2 Diagramas de tallos y hojas I.4.3 Histogramas 1 Tipos de Variables respuesta (Carácteristicas, propiedades de una población (muestra) a) Explicativas (No Numéricas) b) • Discretas: Conjunto finito de valores (numero de descencientes) Cuantitativas: (valores numéricos) • Continuas: Cualquier valor en un intervalo (longitud, altura) 2 Notación básica Datos discretos n = Tamaño de la muestra x1,..... xn = n valores de la variable respuesta Datos agrupados Los datos pueden venir dados en una serie de intervalos o clases A1,......, Ak = k clases de la variable respuesta x1,..... xk = k representantes de la variable respuesta n1,....., nk f 1,..... fk = frecuencias absolutas de las clases = frecuencias relativas de las clases fi ni n 3 Estadisticos 3.1 Medidas de centralizacion Buscan el mejor valor que representa los datos (Media Muestral): Es la media arítmética de los datos V Discreta 1 n Datos agrupados x 1 n k k nixi i 1 fixi i 1 n Xi i 1 3.1 Medidas de centralizacion 2 Mediana Muestral m : Es el valor central de los datos V Discreta Datos agrupados Paso 1: Se escoge el intervalo mediano Paso 2: Se interpola P:¿Si alguien introduce un valor falso muy grande en los datos quien es mas sensible? Nota 1: La mediana es mas robusta que la media P: ¿Cual es más facil de calcular? Nota 2: La mediana exige un esfuerzo computacional mas alto 3.2 Medidas de Dispersión: V Discreta • Mínima • 1 Cuartil Q1: Es el valor que deja el 25% de los datos debajo de el (La mediana de la primera mitad de los datos) • 2 Cuartil Q2: Mediana • 3 Cuartil Q3:Es el valor que deja el 75 % de los datos debajo de el. • Máxima • Percentil p: Es el valor que deja el p% de los datos debajo de el. Agrupados: Se argumenta como en el caso de la mediana Nota 3: El cálculo de los cuartiles es ligeramente distinto en cada software Medidas de dispersión 2 V Discreta • Varianza: • Desviacion típica: Nota 4 • • • • En diversos textos se divide por n-1. Razon N-1 grados de libertad Los cuadrados se hacen para que si s=0 no hay dispersion La desviación típica no es robusta La formula sencilla se deduce del binomio de Newton Agrupados: Se supone que existen n_i copias de x_i como en el caso de la media 4 Representaciones gráficas 4.1 Diagrama de tallos y hojas 1. Se redondean los datos a un número conveniente de cifras significativas 2.Colocan en una tabla con dos columnas separadas por una linea de la Siguiente forma a) Todas las cifras menos la ultima se escriben a la izquierda de la linea (tallo) b) La ultima cifra se escribe a la derecha (es la hoja) 3. Cada tallo define una clase. El numero de hojas representa la frecuencia de Dicha clase 4 Representaciones gráficas 4.2 Diagrama de cajas y bigotes (box-plot) (Simple) 1 Un rectángulo vertical (caja) que comienza en Q1 y termina en Q3 y tiene una linea central en M 2 Dos lineas que unen la caja con el mínimo y el máximo (Bigotes) 4.2 Con Datos atípicos Rango Intercuartílico = R.I= Q3-Q1 Límite admisible inferior = L.I= Q1-1.5 (R.I) Límite admisible superior = L.S=Q3+1.5 (R.I) Datos atipicos: Los que están fuera del intervalo (L.I, L.S) 2’ Dos lineas que unen la caja con el mínimo y el maximo en (L.I,L.S) 3. Se señalan los datos atípicos 4 Representaciones gráficas 4.3 Histogramas Disponemos los datos agrupados en k intervalos cada uno con anchura a_i, i=1….j. El histograma consiste en construir sobre cada intervalo un Rectangulo cuya area represente la frecuencia (absoluta o relativa) de dicho Intervalo. De este modo si pensamos por ejemplo en frecuencias absolutas, la altura h_i de cada rectangulo seria Area ni hi aihi ni ai ¿Qué observar de una distribución? • • • • • Variabilidad Datos atípicos Simetría Modalidad (Histogramas) Normalidad