Chapter 6: Introduction to statistical inference (Part 1) 1. Outline and objectives 2. Statistics and sampling distribution Sampling and simple random samples The sampling distribution of the mean The distribution of the variance 3. Point estimators 4. Interval estimation Recommended reading: Chapters 19 to 21 of Peña y Romo (1997). INTRODUCTION In many cases we wish to obtain statistical information about large populations • Employment situation of people of working age in Spain • Annual rainfall in the Comunidad de Madrid It is often impossible (because of lack of resources or time) to get all the information for everyone in the population We study a representative sample of the population • a subset of the population that allows us to obtain reliable information about the whole population How to choose a sample • Small size • Absence of bias • Ease of defining the sample • The conclusions obtained from the sample are valid for the population Best method: Simple random samples • Each member of the population has the same chance of being included • Easy to define the sample • The selection is carried out independently: The selection of one individual does not effect the selection of the remainder • In practice, selection is based on random numbers Outline and objectives Descriptive Statistics: la edad media de una muestra de 20 votantes del PP es de 55 con desviación típica 5. Probabilstic model: La edad de un votante del PP sigue una distribución normal N( , 2) Inference: Predecimos que < 50. = 55. Rechazamos la posibilidad de que Inference Starting from the definition of a random variable in the sample Obtain information about the distribution of this variable in the population Values of interest: calculation of statistics for the mean variance and proportions Example Population of 24 individuals Variable of interest: Time taken to complete a medical consultation. Data in the population 5,1 1,0 0,9 3,8 10,2 2,1 9,5 4,5 1,0 2,2 1,5 4,8 1,6 8,8 4,3 1,0 9,0 5,1 0,2 2,3 0,8 7,8 7,7 1,5 Mean in the population: 4,0 Sample 1 Sample size 7: Sample 3,8 9,5 4,8 1,6 0,2 0,8 1,5 Statistic of interest: sample mean = 3,1 Relative error: (4,0 − 3,1)/4,0 = 0,225 Changes in the sample Different ways of choosing the sample Making the sample size larger Changing the sample size If we add new data to the previous sample, the sample mean changes As the sample gets larger, the sample mean gets closer to the population mean Example of a sample Si seleccionamos las primeras 7 observaciones obtenemos un promedio de la muestra igual a 5,8: Muestra 5,1 1,0 0,9 3,8 18,2 2,1 9,5 Si consideramos todas las selecciones posibles de 7 observaciones (346104 posibilidades) Each possible sample of size 7 has its own mean The mean is a variable The average (the mean) of them all is 4, equal to the population mean Estadística Aplicada al Periodismo Statistics and the sampling distribution Distintas muestras tienen distintas medias. Antes de obtener la muestra, la media es una variable. La media y varianza de la media son Si N es suficientemente grande, la distribución de la media es Normal Para ver como varia la media de distintas muestras: http://www.stat.tamu.edu/~west/ph/sampledist.html The expected value of the sample mean is the population mean We can estimate the population mean using the sample mean The variance of the sample mean The variance of the sample mean tells us about the size of our prediction error The variance gets smaller if the sample size increases We can reduce the error by increasing the sample size Distribution of the sample mean The Central Limit Theorem Distribución de la media muestral Si cumple ciertas condiciones Dada una muestra aleatoria simple, de tamaño n, obtenida de una variable aleatoria X, no necesariamente normal, con media y varianza conocida, se cumple que La distribución de la media muestral se parece a una distribución Normal para muestras grandes Point estimators We use X as an estimator of the population mean . Given the sample, the value of the sample mean is an estimation of the population mean . Good statistical properties: unbiased, efficient, etc. Equally S2 (quasivariace) is a reasonable estimator of the population variance. Interval estimators We want to calculate an interval which we are fairly sure will contain the true mean Wide interval: very imprecise Small interval: más probabilidad de cometer un error. Indicate a range of values ebetween which we have a certain degree of confidence that the true parameter will be. This is the idea behind the confidence interval. We can use the sample data to calculate the confidence interval Interpretation Si construimos muchos intervalos con el mismo método y el mismo nivel de confianza del 95%, la probabilidad de que el intervalo contenga al parámetro expresa la proporción de intervalos que efectivamente incluyen al parámetro: 95 de los 100 construidos Si hemos construido un solo intervalo de 95% de confianza, no es correcto decir que la probabilidad de que esté 95%. dentro, es de A 95% confidence interval for the mean of a normal population (known variance) Dada una muestra, x1,…xN, un intervalo de 95% de confianza para m es ¿De dónde viene 1.96? ¿Cómo sería un intervalo de 90% de confianza? Ejemplos 1. En una muestra de 20 catalanes, su sueldo medio era de € 2000 mensuales. Suponiendo que la desviación típica de los sueldos en Cataluña es de € 500, hallar un intervalo de 95% de confianza para el sueldo medio en Cataluña. 2. En una muestra de 10 estudiantes universitarios, la altura media era de 170cm. Suponiendo que la desviación típica de las alturas de los españoles es de 5cm, hallar un intervalo de 99% de confianza para la altura media. A 95% confidence interval for a proportion Given a sample of size N with true proportion p with sample proportion Ejemplos 3. En una muestra aleatoria de 100 votantes, 45 de ellos votaron al PSOE en las últimas elecciones. Usar esta información para estimar la proporción de los votantes en España que votaron al PSOE. Dar una estimación puntual y un intervalo de confianza de 95%. 4. 20 personas en una muestra de 30 americanos están a favor de la pena de muerte. Estimar la proporción de la población americana que esté a favor y dar un intervalo de 90%. Other useful confidence intervals 1. A 95% confidence interval for the mean of a normal population (unknown variance) 2. A 95% confidence interval for the difference in the means of two normal populations (known variances) 3. A 95% confidence interval for the difference in the means of two normal populations (equal but unknown variances) 4. A 95% confidence interval for the difference in the means of two normal populations (unknown variances)