Estadística descriptiva 1. Concepto de variable aleatoria 1. Concepto de variable aleatoria y tipos de variables 2. Cálculo de medidas resumen para variables cuantitativas: - de tendencia central: media, mediana, moda - de dispersi ón: rango, variancia, desviaci ón típica Es una aplicación que a cada suceso elemental le hace corresponder un número real Formalización matemática de las variables reales que estamos habituados a tratar - de posici ón: cuartiles, percentiles 3. Representaciones gráficas Variables cuantitativas: diagrama de puntos, diagrama de caja, histograma Variables cualitativas: Sexo 1. Hombre 2. Mujer Estudios 1.Sin estudios 2.Primarios 3.Secundarios 4.Universitarios Temperatura 35 Cº 128 F Peso, Talla 60 kilos 175 cm tabulaci ón, diagrama de barras, diagrama de sectores 4. Introducción al SPSS 1. Tipos de variables - Cualitativas: estudian una cualidad de las unidades de la población, como por ejemplo: sexo, color de los ojos, estado civil, clase de fertilizante... - Cuantitativas: estudian una característica de la población que puede ser cuantificada, como por ejemplo: temperatura, humedad, número de especies de una determinada zona... - Discretas: solo pueden tomar unos determinados valores, por ejemplo: número de hijos - Continuas: pueden tomar cualquier valor dentro de un intervalo, por ejemplo: temperatura 1. Tipos de variables Ejercicio Sea la siguiente encuesta. Decidir, para cada una de las preguntas o variables, el tipo al que pertenecen: NOMINALES CUALITATIVAS ORDINALES Variables estadísticas DISCRETAS CUANTITATIVAS CONTINUAS 1. 2. 3. 4. Edad en años Sexo (1= hombre, 2= mujer) Número de hermanos (incluido uno mismo) Lugar de nacimiento (1= Catalunya, 2= resto de España, 3= extranjero 5. Bronquitis crónica (1= si, 2= no) 6. Número de cigarrillos que fuma al día 7. Número de tazas de caf é que toma al día 8. Tiene dolores de cabeza (1= nunca, 2= a veces, 3= muchas veces, 4= siempre) 9. Peso en kilogramos 10. Talla en cent ímetros 1 2. Cálculo de medidas resumen 2. Cálculo de medidas resumen Tendencia central: media n Medidas de tendencia central: x= ∑x i i =1 n media: x = x 1 + x 2 + x3 + ... + x n n Ejemplo: calcular la media de los siguientes datos mediana: md 4, 2, 7, 1, 9 moda x= 4+2+7+1+9 = 4,6 5 0 2. Cálculo de medidas resumen 1 2 3 4 5 6 7 8 9 10 2. Cálculo de medidas resumen Tendencia central: media Tendencia central: media Alguna observaci ón a la izquierda con mucho peso • Indica el “centro de gravedad” de la distribuci ón • Tiene presente el valor de todos los datos de la distribuci ón • Es un estad ístico muy sensible (poco robusto) en presencia de datos atípicos o extremos. Por esta raz ón podemos calcular también la media truncada que se obtiene calculando la media de la variable despu és de suprimir el 5% de los valores superiores y el 5% de los inferiores (u otro porcentage). De esta forma, la media que se obtiene es más robusta ante la posible presencia de datos atípicos. Si los valores obtinidos son diferentes, es senyal de presencia de datos atípicos. Si son iguales puede o no haver datos atípicos. 2. Cálculo de medidas resumen Tendencia central: mediana Alguna observaci ón a la derecha con mucho peso No hay observaciones atípicas 2. Cálculo de medidas resumen Tendencia central: mediana Es el punto medio de los datos ordenados; es el valor que tiene por enzima i per debajo el 50% de los datos ordenados Ordena los valores de pequeño a más grande Número impar de datos: Valor que queda en medio Número par de datos: Promedio de los 2 centrales • No tiene en cuenta el valor de las observaciones • Es un estadístico robusto en presencia de datos atípicos Ejemplo: Calcular la mediana de: 4, 2, 7, 1, 9 Los ordenamos de menor a mayor: • Indica el “centro” de la distribución 1, 2, 4, 7, 9 md Mediana 0 1 2 3 4 5 6 7 8 9 10 2 2. Cálculo de medidas resumen Tendencia central: moda Es el valor más frecuente de la distribución de los datos. No tiene fórmula • Podemos tener más de una moda • Cuando todas las observaciones de una muestra tienen la misma frecuencia decimos que la muestra no tiene moda EJERCICIO: Para poder calcular los rendimientos médicos (horas trabajadas/horas contratadas), decidimos averiguar los tiempos de las primeras visitas de Medicina Interna en las consultas externas de un hospital rea lizadas durante el día de hoy. Como primera información, decidimos llamar a recepción y pedir que tomen los tiempos y se los den a Estadística para que calculen la media, la mediana y la moda. Estadística contesta: n=6, media=62’ moda=30’ mediana=45’ • Tiene sentido para variables categóricas ¿Cuál de estos tres valores utilizaría como medida de tendencia central? 2. Cálculo de medidas resumen 2. Cálculo de medidas resumen CENTRO Y SIMETRÍA: CENTRO Y SIMETRÍA: Distribución de datos simétrica Distribuci ón de datos simétrica x= Md Distribución de datos sesgada a la derecha Distribución de datos sesgada a la izquierda x > Md x < Md Distribuci ón de datos sesgada a la derecha Distribuci ón de datos sesgada a la izquierda 2. Cálculo de medidas resumen Medidas de dispersión: 2. Cálculo de medidas resumen Dispersión: rango o amplitud Rango = valor máximo – valor mínimo rango o amplitud: R, A variancia: s 2 • Fácil de utilizar pero poco informativo (especialmente si se dispone de muchos datos) desviación típica: s • Muy influenciable en presencia de valores extremos R=8 0 1 2 3 4 5 6 7 8 9 10 3 2. Cálculo de medidas resumen Dispersión: variancia 2. Cálculo de medidas resumen Dispersión: variancia “Promedio ” del cuadrado de las distancias de cada valor a la media (9 – 4,6) 2 + (7 – 4,6) 2 + (4 – 4,6) 2 + (2 – 4,6) 2 + (1 – 4,6) s2 = n ∑( x-x ) 2 i s2 = i = 1 = (4,4) 2 + (2,4) 2+ (- 0,6) 2+ (- 2,6) 2 + (- 3,6) 2 = 11,3 4 n-1 0,6 2,4 2,6 La variancia mide el grado de dispersi ón (variabilidad ) de los datos alrededor de la media. 2 = 5-1 3,6 4,4 x 0 1 2 3 4 5 6 7 8 9 10 4,6 2. Cálculo de medidas resumen 2. Cálculo de medidas resumen Dispersión: desviación típica s = s2 • Medida de dispersi ón de uso más cuotidiano Medidas de posición: percentiles: Pq • Mismas unidades que los datos • Orden de magnitud comparable a los datos cuartiles: Q1, Q2 , Q 3 Ejemplo: Pesos de 4 personas (en kg): 65, 94, 81, 72 Variancia: s2 = 156,67 kg 2 (!) Desviación t ípica: s = 12,52 kg Pero la desviaci ón típica no tiene las propiedades matemáticas de la variancia 2. Cálculo de medidas resumen 2. Cálculo de medidas resumen Posición: percentiles Posición: percentiles Son los valores que dividen una serie ordenada de datos en 100 partes iguales, se representan por P1, P 2 ... P 99 q Ejemplo: calcular el percentil del 10% de los siguientes datos: El primer percentil, P1 , es el valor que tiene por debajo el 1% de los datos ordenados; el segundo percentil, P2 , es el valor que tiene por debajo el 2% de los datos ordenados... Ordenamos los datos: 3, 2, 5, 5, 2, 7, 1, 10, 7, 9, 14, 12, 13, 14, 10 1, 2, 2, 3, 5, 5, 7, 7, 9, 10, 10, 12, 13, 14, 14 Lugar que ocupa el P10 : 10x15/100 =1.5 •El lugar que ocupa el primer percentil es el N/100 •El lugar que ocupa el segundo percentil es el 2N/100 •El lugar que ocupa el percentil 99 es el 99N/100 Cogemos el dato de la segunda posici ón: 1, 2, 2, 3, 5, 5, 7, 7, 9, 10, 10, 12, 13, 14, 14 P10 4 2. Cálculo de medidas resumen 2. Cálculo de medidas resumen 50 52 57 58 59 60 61 61 61 64 68 69 71 72 73 78 78 80 81 82 82 84 86 90 92 93 94 95 98 100 Menor Posición: cuartiles • El percentil 25 (P 25) representa el 1r cuartil (Q1) • El percentil 50 (P 50) es la Mediana (Md) o 2do cuartil (Q 2) Datos ordenados de menos a m ás • El percentil 75 (P 75) representa el 3r cuartil (Q3) Mayor 25 % Q1 = 61: Primer cuartil 75 % 50 % 75,5 Mediana 50 % 75 % Q3 = 86: Tercer cuartil 25 % 3. Representaciones gráficas Para variables cuantitativas: Vamos a recoger datos de nuestra función pulmonar Diagrama de puntos (dot plot) Diagrama de caja (box plot) Tabla de frecuencias: histograma 3. Representaciones gráficas Diagrama de puntos: dot plot 3. Representaciones gráficas Diagrama de caja: box plot Fija la atenci ón en las medidas de posici ón y en los valores extremos Representa cada dato como un punto encima de un eje Cuando tenemos pocos datos, un diagrama de puntos es mejor que Orden: 1 un histograma 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 5, 7, 7, 9, 9, 9, 9, 9, 9, 9, 10, 11, 11, 11, 11, 11, 14, 15, 16, 18 Q1 Mediana Q3 Ejemplo. Diagrama de puntos con los datos: 1, 2, 4, 7, 9 Últimos valores antes de entrar en zona de outliers 0 1 2 3 4 5 6 7 8 9 10 Zona outliers extremos Zona outliers moderados Q1 1,5*IQR Ejemplo. Diagrama de puntos con los datos: 1, 2, 4, 7, 7, 9 1,5*IQR Zona outliers moderados Q3 IQR 1,5*IQR 1,5*IQR * 0 1 2 3 4 5 6 7 8 9 * 10 3 4 5 6 7 8 9 10 11 12 13 Zona outliers extremos 14 15 o * 16 17 18 5 3. Representaciones gráficas 3. Representaciones gráficas Box plot: ejemplos Tabla de frecuencias : Histograma Ejemplo : Peso en funci ón del sexo en un grupo de 92 participantes en un estudio de obesidad Evoluci ón de la humedad de un producto fabricado en una semana 10 Hu med ad Weig ht 200 150 100 9 8 1 2 Lunes Martes Miér coles J ueves Sex 3. Representaciones gráficas Vier nes TABLA 1: Longitud (cm) de 90 plantas 3. Representaciones gráficas Tabla de frecuencias : Histograma Tabla de frecuencias : Histograma Necesitamos una solución mejor, cuando tenemos muchos datos distintos Ejemplo : AGRUPAR LOS DATOS EN INTERVALOS!! TABLA 1 bis: Longitud (cm) de 90 plantas (lista ordenada) 3. Representaciones gráficas Tabla de frecuencias : Histograma 3. Representaciones gráficas Tabla de frecuencias : Histograma NÚMERO DE INTERVALOS: Tabla de frecuencias: 10 intervalos de clase 6 3. Representaciones gráficas 3. Representaciones gráficas Tipos de histogramas (según distintos datos ): Tabla de frecuencias : Histograma 200 120 200 150 150 80 100 100 40 50 50 0 0 30 35 40 45 50 55 60 65 70 0 25 30 35 40 45 50 Variabilidad natural 55 60 65 70 75 0 Bimodal 200 200 150 150 150 100 100 100 50 50 30 35 40 45 50 55 60 65 70 Censurado 10 15 20 25 200 50 0 0 0 5 Sesgado a la derecha 35 40 45 50 55 60 35 65 70 75 80 85 90 40 45 50 55 60 65 70 75 80 85 90 Con outliers, errores, etc, 3. Representaciones gráficas 3. Representaciones gráficas Tipos de histogramas (según distintos datos ): Petit superposament Superposament mitjà 50 50 50 0 0 95 1 05 Tabulación 0 90 1 15 Para variables cualitativas: 1 00 Freq üè n ci a Fre q üè n ci a Freq üè n ci a Superposament gran 100 100 1 00 110 95 10 0 105 11 0 100 Diagrama de barras (bar chart) 90 1 00 80 50 70 Freq üè n ci a Fre q üè n ci a Freq üè n ci a 100 60 50 40 30 Diagrama de sectores (pie chart) 50 20 10 0 0 95 1 05 100 1 00 110 95 Fre q üè n ci a 50 50 0 0 95 1 05 1 15 10 0 105 11 0 150 10 0 Fre q üè n ci a Fre q üè n ci a 0 90 1 15 100 50 0 90 10 0 110 95 1 00 105 110 3. Representaciones gráficas 3. Representaciones gráficas Tabulación: No tiene en cuenta los missings en los cálculos Tabulación: • Frecuencia absoluta: nk • Frecuencia absoluta acumulada: Nk Autovaloración estado de salud • Frecuencia relativa: fk – fk= nk / N , donde N = número total de casos Valid • Frecuencia relativa acumulada: Fk – Fk= Nk / N Sexo nk Nk fk Fk Hombre Mujer 57 35 57 92 0,62 (=57/92) 0,62 0,38 (=35/92) 1 Excelente Muy buena Buena Regular Mala Total Frequency 7 30 89 34 6 166 Percent 4,2 18,1 53,6 20,5 3,6 100,0 Valid Percent 4,2 18,1 53,6 20,5 3,6 100,0 Frecuencia Frecuencia absoluta Relativa (nk) (fk ) *100 Cumulative Percent 4,2 22,3 75,9 96,4 100,0 Frecuencia relativa Acumulada (Fk) *100 SPSS porcentua 7 3. Representaciones gráficas • Diagrama de barras – Eje horizontal: valores discretos de la variable – Eje vertical: frecuencia absoluta o relativa Sobre cada valor de la variable se dibuja una barra con altura igual a su nk o fk 3. Representaciones gráficas • Diagrama de sectores – Cada sector representa un valor de la variable – El área del sector representa su frecuencia relativa (360º * fk) Distribuci ón sexo 38% Distribución sexo 100 80 62% 62 60 38 40 20 Hombres 0 Hombres Mujeres Mujeres INTRODUCCIÓN SPSS 8