NOCIONES DE ESTADISTICA

Anuncio
NOCIONES DE ESTADÍSTICA
CURSO PRÁCTICO DE CLIMATOLOGÍA – 2011
CÓMO CARACTERIZAR UNA SERIE DE
DATOS?
POSICIÓN- dividen un conjunto ordenado de datos en
grupos con la misma cantidad de individuos
CENTRALIZACIÓN- indican valores con respecto a los
cuales los datos parecen agruparse
DISPERSIÓN- indican mayor o menor concentración de los
datos con respecto a las medidas de centralización
SIMETRÍA- cómo están distribuidos los datos respecto al
valor central
MEDIDAS DE POSICIÓN: PERCENTILES
Ejemplo: busco el percentil 0.25 de la muestra (cuartil): 13 3 7 2 9 10
2 6 4 0 9 1 5 . Es decir, quiero un valor “A” tal que, tengo 0.25 de
probabilidad de que un valor al azar sea menor que A y 0.75 de que sea
mayor.
Pasos:
1 - Ordeno la muestra de manera ascendente
2 - d=(n/(1/0.25))
3 - si d no es natural, e=primer natural mayor a “d”
El valor que se encuentra en la posición d de la muestra ordenada es el
primer cuartil, el que se encuentra en posición 2d el segundo…
Si d es natural, el primer cuartil es el promedio entre el valor en posición
d y el de d+1, el segundo cuartil es el promedio entre el valor en
posición 2d y 2d+1…
4 - Repetir para la muestra: 3 7 2 9 10 2 6 4 0 9 1 5
ALGUNAS DEFINICIONES
Distribución: función que nos dice cuál es la probabilidad de
que cada suceso (valor) ocurra. Ej: distribución normal
Distribución continua: para valores cercanos se producen
variaciones de probabilidad de ocurrencia pequeñas
MEDIDAS DE CENTRALIZACIÓN: media,
mediana y moda
Este tipo de medidas nos permiten identificar y ubicar el valor
alrededor del cual se tienden a reunir los datos (“Punto central”).
MEDIA (promedio): suma de todos los valores dividido entre la
cantidad de valores
MEDIANA: valor que cumple que la mitad de los datos son mayores al
mismo y la mitad son menores. Posición de la mediana= (n+1)/2
MODA: valor que más veces se repite dentro de los datos. Si los que
más se repiten son 2 valores, se llama bimodal, si son varios,
multimodal.
MEDIDAS DE CENTRALIZACIÓN: media,
mediana y moda
En conclusión, las Medidas de tendencia central, nos
permiten identificar los valores más representativos de
los datos.
• La Media nos indica el promedio de los datos; es
decir, nos informa el valor que obtendría cada uno de
Los individuos si se distribuyeran los valores en partes
iguales.
• La Mediana nos informa el valor que separa los datos
en dos partes iguales, cada una de las cuales cuenta
con el 50 % de los datos.
• la Moda nos indica el valor que más se repite dentro
de los datos.
MEDIA vs. MEDIANA
Coinciden si la distribución es simétrica
Si no coinciden, es preferible la mediana (por ser mas resistente, es
decir, poco sensible a datos atípicos)
La media siempre es única (a diferencia de la mediana)
EJEMPLO:
PUESTO
CANT. DE EMPLEADOS
SUELDO
repartidor
3
300
capataz
1
450
encargado
1
750
administrativo
1
900
gerente
1
6000
Sólo un valor supera la media!!!!
MEDIDAS DE DISPERSIÓN
Nos dicen hasta qué punto las medidas de
tendencia central son representativas
VARIANZA- promedio del cuadrado de las distancias entre
cada valor y la media
DESVIACIÓN ESTÁNDAR O TÍPICA- raíz cuadrada de la
varianza
MEDIDAS DE ASIMETRÍA
Una medida es simétrica cuando su
mediana, su media y su moda coinciden
Coeficiente de
asimetría de
la muestra:
VISUALIZACIÓN
HISTOGRAMAS
CARACTERÍSTICAS DE UN TEST
Robustez-sensibilidad a suposiciones sobre la naturaleza de
los datos. Un método es robusto cuando los resultados no
dependen de la distribución de los datos.
Resistencia- sensibilidad a datos atípicos. Un método es
resistente si es poco sensible a datos atípicos.
TEST DE HIPÓTESIS
Es el procedimiento estadístico mediante
el cuál se investiga la verdad o falsedad de
una hipótesis acerca de una serie de
datos.
TESTS NO PARAMÉTRICOS- no suponemos conocida la “forma”
de la distribución muestral y solo suponemos alguna hipótesis
cualitativa (no suponemos que los datos son gaussianos o
exponenciales etc pero sí suponemos, por ejemplo, que siguen una
distribución continua (distribución: probabilidad de una variable
de tomar ciertos valores)
TESTS PARAMÉTRICOS- suponemos distribución conocida
Descargar