Clase 1 Estadística Laguna 2016

Anuncio
ESTADÍSTICA
Prof. Enrique Sandoval
Instituto Universitario de Formosa
2016
Contenidos
Análisis exploratorio de datos
Análisis de regresión y correlación
Probabilidad y variable aleatoria
Modelos probabilísticos
Distribución de estadísticos muestrales
Estimación de parámetros
Prueba de hipótesis
Comparación de dos poblaciones
Análisis de la varianza y diseño de experimentos
Sitio web de la Cátedra
www.funcionestadistica.jimdo.com
Requisitos para regularizar
• Aprobar dos parciales prácticos con derecho a un recuperatorio.
Requisitos para aprobar la materia
En condición de regular
• Desarrollar correctamente tres temas en forma teórica a
elección del tribunal.
En condición de alumno libre:
• Aprobar un examen práctico
• Desarrollar correctamente tres temas en forma teórica a
elección del tribunal
Material bibliográfico
• Balzarini, M. et al (2012) “Estadística y Biometría”
• Navarro, J. (2003) “Estadística Aplicada”
Material informático
• Software estadístico INFOSTAT
• Microsoft Excel ®
®
Descarga de INFOSTAT
Ingresar a
www.infostat.com.ar
¿Qué es la biometría?
• En Agronomía muchos experimentos se
llevan a cabo para decidir cuáles prácticas
de manejo son más favorables para una
determinada producción
• ¿Qué tipo de dieta produce mayor engorde en
cerdos criollos?
• ¿Cuál es el contenido promedio de biomasa por
metro cuadrado en un campo destinado a pastura?
• ¿Qué porcentaje de los animales de una granja
están infectados?
• ¿Existe algún tipo de relación entre el contenido de
potasio del suelo y la biomasa?
• ¿Qué candidato tiene más posibilidades de ganar
una elección?
• ¿Existe algún tipo de relación entre la presión
arterial y la frecuencia cardíaca?
• ¿Es efectivo el uso de una marca de plaguicida
comparado con la que utilizaba anteriormente?
ANÁLISIS EXPLORATORIO DE DATOS
Población
• El universo de objetos real o virtual sobre los que es posible
observar la variable de interés. Es el conjunto de individuos
que poseen al menos una característica en común y es de
nuestro interés.
• Examinar todos los objetos de este universo es, en la
práctica inaccesible, de allí que la estadística examina una
parte de él (muestra) para inferir sobre la totalidad
Muestra
• La muestra es una parte representativa de la
población, es la parte que será analizada unidad
por unidad para finalmente inferir o especular el
comportamiento de la variable de interés en la
población. Por lo tanto, es importante conseguir
una buena muestra.
¿QUÉ ES ESTADÍSTICA?
RECOPILAR
ORGANIZAR
PRESENTAR
ANALIZAR
INTERPRETAR
RECOPILACIÓN
POBLACIÓN
MUESTRA
UNIDAD DE ANÁLISIS
VARIABLES
POBLACIÓN
MUESTRA
UNIDAD EXPERIMENTAL O
UNIDAD DE OBSERVACIÓN
CUALITATIVAS
O CATEGÓRICAS
VARIABLES
CUANTITATIVAS
O NUMÉRICAS
DISCRETAS
CONTINUAS
Tipos de variables
Cuantitativas
Cualitativas
Variables cuantitativas
Discreta
Conteos
Continuas
Mediciones
Ejemplo variables discretas
cantidad de frutos por planta,
número de árboles por hectárea,
cantidad de insectos por trampa
número de crías por parto
Variables cualitativas
Ordinales
Nominales
Ejemplo variables cualitativas
Ordinales
“severidad de una enfermedad”
(leve=1, moderada=2, alta=3)
“nivel de ataque de insectos en lotes”
(debajo del umbral económico=1 y por
encima del umbral=2)
Ejemplo variables cualitativas
Nominales
“estación de concentración de partos”
(Verano, otoño, invierno y primavera)
“resultado del tacto” que se realiza a una vaca
(preñada/vacía)
“tenencia de la tierra”
(alquilada, prestada, propia, ocupación precaria, otras)
Ejemplo variables continuas
rendimiento de soja en qq/ha,
longitud de espigas de trigo en cm,
aumento de peso en Kg,
diámetro de granos de maíz en mm,
temperatura máxima diaria en °C
Tipos de muestreo
• Muestreo aleatorio simple
• Muestreo sistemático
• Muestreo por conglomerados
• Muestreo estratificado
• Proporcional
• No proporcional
Organización de datos
Tablas
• Tabla de frecuencias
Organiza los datos de manera tal que en una columna de la
tabla aparecen los valores de la variable,
y en sucesivas columnas se muestran diferentes tipos de
frecuencias
•
•
•
•
frecuencias
frecuencias
frecuencias
frecuencias
absolutas
relativa
absolutas acumuladas
relativas acumuladas
Tabla de frecuencias
distribución de
frecuencias de 50
datos de una variable
cuantitativa discreta
“número de años de
agricultura continua
en 50 lotes extraídos
al azar de una
población de lotes en
producción agrícola
para una región en un
año particular”
Tabla de frecuencias
Frecuencias para 707 datos de una variable
continua: “pesos de cabezas de ajo blanco”
Cómo construir una tabla de
distribución de frecuencias con
intervalos
Los siguientes datos corresponden a los casos
notificados de enfermedades vinculadas a
adiciones en distintos centros de salud.
5
9
9
10
6
5
7
10
7
7
7
9
5
5
6
8
6 12 6
6 7 8
7 7 11
8 5 7
¿Cuál es la población?¿Cuál es la
muestra?
¿Cuál es la unidad de observación?
¿Cuál es la variable de estudio?
¿Cómo es esa variable?
Valores de la variable
Ordenamos estos datos en una tabla de distribución de
frecuencias simple
Xi
5
6
7
8
9
10
11
12
fi
fa
fr
fra
Frecuencia acumulada
Frecuencia absoluta
n
Frecuencia relativa acumulada
Frecuencia relativa
Xi
fi
fa
fr
fra
5
6
7
8
9
10
11
12
5
5
8
3
3
2
1
1
28
5
10
18
21
24
26
27
28
0,18
0,18
0,29
0,11
0,11
0,07
0,04
0,04
1
0,18
0,36
0,64
0,75
0,86
0,93
0,96
1
• Frecuencia acumulada:
fa = fi + fa – 1
• Frecuencia relativa:
fr = fi/n
• Frecuencia relativa acumulada:
fra = fr + fra-1
Tablas de distribución de
frecuencias
Def:
Una
tabla
de
distribución
de
frecuencias es aquella en la cual a cada
valor de la variable se le asigna el
número de veces en que se presenta en
la distribución (FRECUENCIA).
Tabla de distribución de frecuencias
con intervalos de clase
Clases
(años)
5 - 10
10 - 15
15 - 20
20 - 25
25 - 30
30 - 35
35 - 40
fi
fa
fr
fra
2
1
5
9
14
18
21
70
2
3
8
17
31
49
70
0,03
0,01
0,07
0,13
0,20
0,26
0,30
1
0,03
0,04
0,11
0,24
0,44
0,70
1,00
Cómo construir una tabla con intervalos
1. Decidir la cantidad de intervalos a construir (k)
5 < k < 15
2. Calcular el rango (R)
R=Xmax – Xmin
3. Calcular la amplitud de cada intervalo (h)
h = R/k
(redondeado al entero inmediato superior)
Ejemplo: Los siguientes valores corresponden a las
edades de las personas que sufrieron lesiones en
accidentes de tránsito en el último año.
2
24
19
10
14
5
6
24
18
14
10
6
10
20
3
14
14
7
16
20
2
13
13
29
20
21
12
12
11
28
26
17
12
5
10
31
27 29
16 16
10 10
9 5
9 8
30 5
Tablas de frecuencias
Variable
Clase
LI
LS
MC
FA
FR
FAA
Edad
1
[
2,00
7,00 )
4,50
9
0,19
9
Edad
2
[
7,00 12,00 )
9,50
11
0,23
20
Edad
3
[ 12,00 17,00 )
14,50
12
0,25
32
Edad
4
[ 17,00 22,00 )
19,50
7
0,15
39
Edad
5
[ 22,00 27,00 )
24,50
3
0,06
42
Edad
6
[ 27,00 32,00 ]
29,50
6
0,13
48
Tablas de distribución
de frecuencias
Simple
Variable discreta
Variable continua
Con intervalos
Variable discreta de
gran recorrido
Histogramas
14
frecuencia absoluta
12
10
8
6
4
2
0
-3
2
7
12
17
Edad
22
27
32
37
Histograma y polígono de frecuencia
14
frecuencia absoluta
12
10
8
6
4
2
0
-3
2
7
12
17
Edad
22
27
32
37
50
frec. abs. acumulada
43
36
29
22
14
7
0
-3
2
7
12
17
Edad
22
27
32
37
Histogramas y polígonos de
frecuencias
Histogramas y polígonos para
el peso (en gr) de cabezas de
ajo blanco
(a)frecuencias absolutas
(b)frecuencias absolutas
acumuladas
(c)frecuencias relativas
(d) frecuencias relativas
acumuladas
Medidas resumen
• Para resumir la distribución de un conjunto de
datos de naturaleza cuantitativa se calculan
medidas de posición y de variación de los mismos
• La obtención de estas medidas permite
complementar y acompañar a la información
contenida en una tabla de frecuencias o a la
distribución mostrada en un gráfico
Medidas de posición
Media aritmética
• “Centro de gravedad” de los datos.
• Se obtiene por el cociente entre la suma de todos
los datos y la cantidad total de datos.
Fórmula para datos simples
𝑥=
𝑛
𝑥
𝑖=1 𝑖
𝑛
Fórmula para datos agrupados
𝑥=
𝑛
𝑥
𝑖=1 𝑖.𝑓𝑖
𝑛
Mediana
• Hay valores que se ubican en el centro de la
distribución, o cercanos a éste, y otros que se
encuentran en los extremos. Aquel valor que ocupa
exactamente el centro de la distribución, de modo
que la mitad de los datos son valores menores o
iguales que éste y la otra mitad son valores que lo
superan, se denomina mediana.
Forma de cálculo
𝑥 = 𝑥(𝑛+1)/2
𝑥=
𝑥 𝑛 +𝑥 𝑛
( +1)
2
2
2
si n es impar
si n es par
Modo o moda
• Todos los valores de una variable no están
igualmente distribuidos dentro del rango de
variación; esto es, los valores se presentan con
diferentes frecuencias. Al valor que aparece con
mayor frecuencia se lo denomina modo o moda.
Una distribución puede tener más de un valor
modal
Modo o moda
Es el valor (o la categoría) de la variable que tiene la
mayor frecuencia
𝑥
• Percentiles
Un percentil es una valor de la variable que deja un
porcentaje de los datos por debajo de ese valor y el
resto por encima, por ejemplo, el percentil 23 deja
por debajo suyo al 23% de los datos y por encima
suyo queda el 77% restante.
Cabe aclarar que para calcular estas medidas, el
conjunto de datos debe estar ordenado de menor a
mayor.
Forma de cálculo
𝑃𝑘 = 𝑋 𝑘𝑛
100
Propiedades de la media aritmética
1. 𝑥 ± 𝑎 = 𝑥 ± 𝑎
2. 𝑥. 𝑎 = 𝑥. 𝑎
3. 𝑥: 𝑎 = 𝑥: 𝑎 (𝑎 ≠ 0)
𝑛
4.
𝑥𝑖 − 𝑥 = 0
𝑖=1
𝑛
5.
𝑛
𝑥𝑖 − 𝑥
𝑖=1
2
<
𝑥𝑖 − 𝑎
𝑖=1
2
(𝑎 ≠ 𝑥)
Ejemplos y ejercicios de aplicación
Descargar