NOCIONES DE ESTADÍSTICA CURSO PRÁCTICO DE CLIMATOLOGÍA – 2011 CÓMO CARACTERIZAR UNA SERIE DE DATOS? POSICIÓN- dividen un conjunto ordenado de datos en grupos con la misma cantidad de individuos CENTRALIZACIÓN- indican valores con respecto a los cuales los datos parecen agruparse DISPERSIÓN- indican mayor o menor concentración de los datos con respecto a las medidas de centralización SIMETRÍA- cómo están distribuidos los datos respecto al valor central MEDIDAS DE POSICIÓN: PERCENTILES Ejemplo: busco el percentil 0.25 de la muestra (cuartil): 13 3 7 2 9 10 2 6 4 0 9 1 5 . Es decir, quiero un valor “A” tal que, tengo 0.25 de probabilidad de que un valor al azar sea menor que A y 0.75 de que sea mayor. Pasos: 1 - Ordeno la muestra de manera ascendente 2 - d=(n/(1/0.25)) 3 - si d no es natural, e=primer natural mayor a “d” El valor que se encuentra en la posición d de la muestra ordenada es el primer cuartil, el que se encuentra en posición 2d el segundo… Si d es natural, el primer cuartil es el promedio entre el valor en posición d y el de d+1, el segundo cuartil es el promedio entre el valor en posición 2d y 2d+1… 4 - Repetir para la muestra: 3 7 2 9 10 2 6 4 0 9 1 5 ALGUNAS DEFINICIONES Distribución: función que nos dice cuál es la probabilidad de que cada suceso (valor) ocurra. Ej: distribución normal Distribución continua: para valores cercanos se producen variaciones de probabilidad de ocurrencia pequeñas MEDIDAS DE CENTRALIZACIÓN: media, mediana y moda Este tipo de medidas nos permiten identificar y ubicar el valor alrededor del cual se tienden a reunir los datos (“Punto central”). MEDIA (promedio): suma de todos los valores dividido entre la cantidad de valores MEDIANA: valor que cumple que la mitad de los datos son mayores al mismo y la mitad son menores. Posición de la mediana= (n+1)/2 MODA: valor que más veces se repite dentro de los datos. Si los que más se repiten son 2 valores, se llama bimodal, si son varios, multimodal. MEDIDAS DE CENTRALIZACIÓN: media, mediana y moda En conclusión, las Medidas de tendencia central, nos permiten identificar los valores más representativos de los datos. • La Media nos indica el promedio de los datos; es decir, nos informa el valor que obtendría cada uno de Los individuos si se distribuyeran los valores en partes iguales. • La Mediana nos informa el valor que separa los datos en dos partes iguales, cada una de las cuales cuenta con el 50 % de los datos. • la Moda nos indica el valor que más se repite dentro de los datos. MEDIA vs. MEDIANA Coinciden si la distribución es simétrica Si no coinciden, es preferible la mediana (por ser mas resistente, es decir, poco sensible a datos atípicos) La media siempre es única (a diferencia de la mediana) EJEMPLO: PUESTO CANT. DE EMPLEADOS SUELDO repartidor 3 300 capataz 1 450 encargado 1 750 administrativo 1 900 gerente 1 6000 Sólo un valor supera la media!!!! MEDIDAS DE DISPERSIÓN Nos dicen hasta qué punto las medidas de tendencia central son representativas VARIANZA- promedio del cuadrado de las distancias entre cada valor y la media DESVIACIÓN ESTÁNDAR O TÍPICA- raíz cuadrada de la varianza MEDIDAS DE ASIMETRÍA Una medida es simétrica cuando su mediana, su media y su moda coinciden Coeficiente de asimetría de la muestra: VISUALIZACIÓN HISTOGRAMAS CARACTERÍSTICAS DE UN TEST Robustez-sensibilidad a suposiciones sobre la naturaleza de los datos. Un método es robusto cuando los resultados no dependen de la distribución de los datos. Resistencia- sensibilidad a datos atípicos. Un método es resistente si es poco sensible a datos atípicos. TEST DE HIPÓTESIS Es el procedimiento estadístico mediante el cuál se investiga la verdad o falsedad de una hipótesis acerca de una serie de datos. TESTS NO PARAMÉTRICOS- no suponemos conocida la “forma” de la distribución muestral y solo suponemos alguna hipótesis cualitativa (no suponemos que los datos son gaussianos o exponenciales etc pero sí suponemos, por ejemplo, que siguen una distribución continua (distribución: probabilidad de una variable de tomar ciertos valores) TESTS PARAMÉTRICOS- suponemos distribución conocida