NOCIONES DE ESTADISTICA[1].

Anuncio
NOCIONES DE ESTADÍSTICA
CURSO PRÁCTICO DE CLIMATOLOGÍA – 2012
Matilde Ungerovich-
[email protected]
DEFINICIÓN PREVIA:
Distribución: función que nos dice cuál es la probabilidad de
que cada suceso (valor) ocurra. Ej: distribución normal
Distribución continua: para valores cercanos se producen
variaciones de probabilidad de ocurrencia pequeñas
QUÉ ES LA ESTADÍSTICA?
Estadística descriptiva: técnicas o procedimientos para
recolectar, ordenar y resumir la información (ej: tablas,
gráficos, promedios, etc)
Estadística inferencial: técnicas para generalizar a una
población entera con la información obtenida de unos pocos
datos
EDA: Exploratory Data Analysis
Da sentido a las series de datos
Nos puede dar idea de cuál es el proceso que está ocurriendo
Los gráficos son una forma de resumir y entender datos
Características de EDA
La robustez y resistencia son medidas de insensibilidad a suposiciones
sobre la naturaleza de los datos.
Resistencia- sensibilidad a datos atípicos. Un método es resistente
si es poco sensible a datos atípicos.
Robustez- sensibilidad a la suposición de que los datos tienen una
distribución dada. Por ejemplo, el promedio es una muy buena
caracterización de una serie de datos si estos tienen una
distribución Gaussiana, pero no si tienen distribución exponencial
(el promedio no es robusto).
No es mejor o peor “globalmente” , depende de lo que estemos
evaluando
CÓMO CARACTERIZAR UNA SERIE DE
DATOS?
POSICIÓN- dividen un conjunto ordenado de datos en
grupos con la misma cantidad de individuos
CENTRALIZACIÓN- indican valores con respecto a los
cuales los datos parecen agruparse
DISPERSIÓN- indican mayor o menor concentración de los
datos con respecto a las medidas de centralización
SIMETRÍA- cómo están distribuidos los datos respecto al
valor central
MEDIDAS DE POSICIÓN: PERCENTILES
Se llama Pr (percentil r) a un valor tal que el r% de las observaciones son iguales
o menores que él y el 100%-r% de las observaciones son mayores a él.
ALGUNOS PERCENTILES IMPORTANTES:
• Mediana = P50 separa al 50% de los valores menores del 50% de las
observaciones mayores.
Sea x la muestra ordenada de manera creciente:
• Cuartiles: el primero es P25, el segundo o mediana es P50, el tercero es P75.
Se para al conjunto ordenado de observaciones en 4 partes iguales , cada una de
ellas formada por un 25% de los valores.
El primer cuartil es “la mediana de la mediana”.
Ejemplo
Tengo la siguiente muestra: [13 3 7 2 9 10 2 6 4 0 9 1 5 ]
1- Buscar el percentil 0.25 de la muestra (primer cuartil)
2- Buscar la mediana de la muestra
Repetir para [100 3 7 2 9 10 2 6 4 0 9 1 5 ]
Es la mediana resistente?
MEDIDAS DE CENTRALIZACIÓN: media,
mediana y moda
Este tipo de medidas nos permiten identificar y ubicar el valor
alrededor del cual se tienden a reunir los datos (“Punto central”).
MEDIA (promedio): suma de todos los valores dividido entre la
cantidad de valores. Es decir, nos informa el valor que obtendría cada
uno de los individuos si se distribuyeran los valores en partes iguales.
MEDIANA: valor que cumple que la mitad de los datos son mayores al
mismo y la mitad son menores.
MODA: valor que más veces se repite dentro de los datos. Si los que
más se repiten son 2 valores, se llama bimodal, si son varios,
multimodal.
Ejemplo
Tengo las siguiente muestra:
[30 20 27 22 21 18 18 25 26 20]
[0 20 27 22 21 18 18 25 26 20]
Buscar media y moda
Son estas medidas resistentes?
MEDIA vs. MEDIANA
Coinciden si la distribución es simétrica
Si no coinciden, es preferible la mediana (por ser mas resistente, es decir, poco
sensible a datos atípicos)
La media siempre es única (a diferencia de la mediana)
La media es muy representativa si la distribución es Gaussiana, pero inútil en otro
tipo de distribuciones. Por ejemplo, es representativa de la temperatura media pero
no de la precipitación acumulada.
EJEMPLO:
PUESTO
CANT. DE EMPLEADOS
SUELDO
repartidor
3
300
capataz
1
450
encargado
1
750
administrativo
1
900
gerente
1
6000
Sólo un valor supera la media!!!!
MEDIDAS DE DISPERSIÓN
Nos dicen en qué medida las observaciones difieren entre sí.
RANGO- mayor valor-menor valor
RANGO INTERCUARTÍLICO (IQR)- es la distancia entre el primer y tercer cuartil
RI=P75-P25
VARIANZA- promedio del cuadrado de las distancias entre cada valor y la media
Siendo
la media y N la cantidad de valores
DESVIACIÓN ESTÁNDAR O TÍPICA-
- raíz cuadrada de la varianza
COEFICIENTE DE VARIACIÓN- es la desviacióno estándar del conjunto de valores
expresada como un porcentaje de la media
EJEMPLO 1
Para las series:
[11 12 13 14 15 16 17 18 19]
[11 12 13 14 15 16 17 18 91]
Calcular IQR y desviación estándar. Cuál es más resistente y
por qué?
EJEMPLO 2
7
SERIE 1
serie 1
serie 2
6
5
4
3
2
1
1
2
3
4
5
6
7
8
SERIE 2
1,3
1
1,5
3
1,7
5
1,9
7
1,9
7
1,7
5
1,5
3
1,3
1
MEDIDAS DE ASIMETRÍA O SESGO
Una medida es simétrica cuando su mediana, su media y su
moda coinciden
PERIODICIDAD
También es importante darse cuenta si existe algún tipo de
oscilación periódica.
En el siguiente gráfico se muestran las temperaturas medias
en Paso de los Toros en el año 2000
30,0
25,0
20,0
15,0
Series1
10,0
5,0
0,0
1
2
3
4
5
6
7
8
9
10
11
12
ANOMALÍAS
Cuando en meteorología estudiamos una variable en un
período en particular es importante saber cuál es la anomalía
con respecto a los valores climatológicos .
La climatología para la estación de Paso de los Toros es
E
F
24,47
M
23,56
A
21,8
M
17,89
J
14,69
J
11,6
A
11,3
S
12,65
O
14,36
N
17,35
D
20,07
23,07
Los datos para el año 1999 son:
E
F
22,9
M
23,3
A
23,6
M
16,5
J
13,7
J
11,0
A
11,4
S
13,5
O
15,7
N
17,7
D
20,7
23,6
ANOMALÍA
La anomalía se es la diferencia, mes a mes, de los datos de ese
año en particular y la climatología (climatología-año
particular).
En este caso es:
E
F
1,57
M
0,31
A
-1,8
M
1,39
J
1,04
J
0,65
A
-0,05
S
-0,8
O
-1,29
N
-0,3
D
-0,63
Obs: el promedio de las anomalías suma siempre cero
-0,53
VISUALIZACIÓN DE SERIES
HISTOGRAMAS
La superficie de cada barra es proporcional a la cantidad de
veces que aparece cada valor
Histograma para la serie:
1
3
4
5
4
4
2
10
3
1
0
6
3
2.5
2
1.5
1
0.5
0
1
2
3
4
5
6
7
8
9
10
VISUALIZACIÓN DE SERIES
GRÁFICO DE LÍNEA (para la misma serie)
10
9
8
7
6
5
4
3
2
1
1
2
3
4
5
6
7
8
9
10
11
EJEMPLO
Realizar un gráfico de línea y un histograma para la segunda
mitad de la serie de temperaturas mínimas en Paso de los
Toros.
P. Toros
61-80
81-00
Ene
7,6
8,2
Feb
7,2
9,5
Mar
4,6
6,8
Abr
1,4
0,6
May
0,1
-2,3
Jun
-3,3
-3,5
Jul
-3,2
-3,2
Ago
-2
-2,4
Set
0
-1,2
Oct
1,7
0,5
Nov
5,8
3,1
Dic
8,1
8
Descargar