Part 1

Anuncio
Chapter 6: Introduction to statistical inference
(Part 1)
1. Outline and objectives
2. Statistics and sampling distribution
Sampling and simple random samples
The sampling distribution of the mean
The distribution of the variance
3. Point estimators
4. Interval estimation
Recommended reading:
Chapters 19 to 21 of Peña y Romo (1997).
INTRODUCTION
In many cases we wish to obtain statistical information about large
populations
• Employment situation of people of working age in Spain
• Annual rainfall in the Comunidad de Madrid
It is often impossible (because of lack of resources or time) to get all
the information for everyone in the population
We study a representative sample of the population
• a subset of the population that allows us to obtain reliable
information about the whole population
How to choose a sample
• Small size
• Absence of bias
• Ease of defining the sample
• The conclusions obtained from the sample are valid for the
population
Best method: Simple
random samples
• Each member of the population has the same chance of being
included
• Easy to define the sample
• The selection is carried out independently: The selection of
one individual does not effect the selection of the remainder
• In practice, selection is based on random numbers
Outline and objectives
Descriptive Statistics: la edad media de una muestra de 20 votantes
del PP es de 55 con desviación típica 5.
Probabilstic model: La edad de un votante del PP sigue una
distribución normal N( , 2)
Inference: Predecimos que
< 50.
= 55. Rechazamos la posibilidad de que
Inference
Starting from the definition of a random variable in the
sample
Obtain information about the distribution of this variable in
the population
Values of interest: calculation of statistics for the mean
variance and proportions
Example
Population of 24 individuals
Variable of interest: Time taken to complete a medical
consultation.
Data in the population 5,1 1,0 0,9 3,8 10,2 2,1 9,5 4,5
1,0 2,2 1,5 4,8 1,6 8,8 4,3 1,0
9,0 5,1 0,2 2,3 0,8 7,8 7,7 1,5
Mean in the population: 4,0
Sample 1
Sample size 7:
Sample 3,8 9,5 4,8 1,6 0,2 0,8 1,5
Statistic of interest: sample mean = 3,1
Relative error: (4,0 − 3,1)/4,0 = 0,225
Changes in the sample
Different ways of choosing the sample
Making the sample size larger
Changing the sample size
If we add new data to the previous sample, the sample
mean changes
As the sample gets larger, the sample mean gets closer to
the population mean
Example of a sample
Si seleccionamos las primeras 7 observaciones obtenemos un
promedio de la muestra igual a 5,8:
Muestra 5,1 1,0 0,9 3,8 18,2 2,1 9,5
Si consideramos todas las selecciones posibles de 7
observaciones (346104 posibilidades)
Each possible sample of size 7 has its
own mean
The mean is a variable
The average (the mean) of them all is 4, equal to the
population mean
Estadística Aplicada al Periodismo
Statistics and the sampling distribution
Distintas muestras tienen distintas
medias. Antes de obtener la
muestra, la media es una variable.
La media y varianza de la media
son
Si N es suficientemente grande,
la distribución de la media es
Normal
Para ver como varia la media de distintas muestras:
http://www.stat.tamu.edu/~west/ph/sampledist.html
The expected value of the sample mean is the
population mean
We can estimate the population mean using the sample mean
The variance of the sample mean
The variance of the sample mean tells us about the size of our
prediction error
The variance gets smaller if the sample size increases
We can reduce the error by increasing the sample size
Distribution of the sample mean
The Central Limit Theorem
Distribución de la media muestral
Si cumple ciertas condiciones
Dada una muestra aleatoria simple, de tamaño n, obtenida de una
variable aleatoria X, no necesariamente normal, con media y
varianza conocida, se cumple que
La distribución de la media muestral se parece a una distribución
Normal para muestras grandes
Point estimators
We use X as an estimator of the population mean .
Given the sample, the value of the sample mean is an
estimation of the population mean .
Good statistical properties: unbiased, efficient, etc.
Equally S2 (quasivariace) is a reasonable estimator of the
population variance.
Interval estimators
We want to calculate an interval which we are fairly sure will contain the
true mean
Wide interval:
very imprecise
Small interval:
más probabilidad de cometer un error.
Indicate a range of values ebetween which we have a certain degree of
confidence that the true parameter will be. This is the idea behind the
confidence interval.
We can use the sample data to calculate the confidence interval
Interpretation
Si construimos muchos intervalos con el mismo método y el
mismo nivel de confianza del 95%, la probabilidad de que el
intervalo contenga al parámetro expresa la proporción de
intervalos que efectivamente incluyen al parámetro: 95 de los
100 construidos
Si hemos construido un solo intervalo de 95% de confianza, no es
correcto decir que la probabilidad de que esté
95%.
dentro, es de
A 95% confidence interval for the mean of a normal
population (known variance)
Dada una muestra, x1,…xN, un intervalo de 95% de confianza para m es
¿De dónde viene 1.96?
¿Cómo sería un
intervalo de 90% de
confianza?
Ejemplos
1. En una muestra de 20 catalanes, su sueldo medio era de €
2000 mensuales. Suponiendo que la desviación típica de los
sueldos en Cataluña es de € 500, hallar un intervalo de 95% de
confianza para el sueldo medio en Cataluña.
2. En una muestra de 10 estudiantes universitarios, la altura
media era de 170cm. Suponiendo que la desviación típica de
las alturas de los españoles es de 5cm, hallar un intervalo de
99% de confianza para la altura media.
A 95% confidence interval for a proportion
Given a sample of size N with true proportion p
with sample proportion
Ejemplos
3. En una muestra aleatoria de 100 votantes, 45 de ellos votaron al PSOE
en las últimas elecciones. Usar esta información para estimar la
proporción de los votantes en España que votaron al PSOE. Dar una
estimación puntual y un intervalo de confianza de 95%.
4. 20 personas en una muestra de 30 americanos están a favor de la
pena de muerte. Estimar la proporción de la población americana que
esté a favor y dar un intervalo de 90%.
Other useful confidence intervals
1. A 95% confidence interval for the mean of a normal population
(unknown variance)
2. A 95% confidence interval for the difference in the means of two normal
populations (known variances)
3. A 95% confidence interval for the difference in the means of two normal
populations (equal but unknown variances)
4. A 95% confidence interval for the difference in the means of two normal
populations (unknown variances)
Descargar