UNIVERSIDAD ALONSO DE OJEDA ESTADISTICA II UNIDAD I MUESTREO Y ESTIMACION DE PARAMETROS (GUIA DE ESTUDIO) DR. DENY GONZALEZ MAYO 2016 UNIDAD I. MUESTREO Y ESTIMACION DE PARAMETROS La Estadística …… “es un conjunto de métodos para la toma de decisiones en condiciones de incertidumbre”. (Harnett y Murphy, 1987 ) “incluye la recopilación, presentación y caracterización de la información a fin de que auxilie tanto en el análisis de datos como en el proceso de toma de decisiones”. (Berenson y Levine, 1992). DESCRIPTIVA: Métodos que incluyen la recolección, presentación y caracterización de un conjunto de datos con el fin de describir apropiadamente las diversas características de ese conjunto de datos. INFERENCIAL: Métodos que hacen posible la estimación de una característica de una población o la toma de una decisión referente a una población, basándose sólo en los resultados de la muestra. UNIDAD I. MUESTREO Y ESTIMACION DE PARAMETROS Población Muestra Muestreo Aleatorio Herramientas Estadísticas n xi Media Muestral Mediana Muestral Moda x i 1 n (n 1) / 2 ; n es impar (n / 2) ((n / 2) 1) ; n es par 2 1,2,3,4,4,4,5,6,7 n ( xi x ) 2 Varianza Muestral S 2 i 1 n 1 𝑠2 = 1 𝑛−1 Desviación estándar muestral (S) Media Poblacional x1 x2 ... x N xi N N 𝑛 𝑋𝑖 2 − 𝑛(𝑋)2 𝑖=1 UNIDAD I. MUESTREO Y ESTIMACION DE PARAMETROS Ejemplo: El número de respuestas incorrectas en una prueba de competencia de falso o verdadero para una muestra aleatoria de 15 estudiantes fueron los siguientes: 2,1,3,0,1,3,6,0,3,3,5,2,1,4 y 2. Encuentre: a) la media, b) la mediana c) la moda, d) varianza y desviación estándar. Ordenar datos: 0,0,1,1,1,2,2,2,3,3,3,3,4,5,6 k n a) x x i 1 i n b) Es impar x 36 2 .4 15 (n 1) / 2 xi * fi x i 1 e) S = 1.7237 n x(15+1)/2 = x8 = 2 c) 0,0,1,1,1,2,2,2,3,3,3,3,4,5,6 k 2 n * xi * fi xi * fi i 1 i 1 2 S n * (n 1) k d) 2 2 2 (15 *128) (36) S 2.9714 15* (15 1) 𝑠2 = 1 𝑛−1 𝑛 𝑋𝑖 2 − 𝑛(𝑋)2 𝑖=1 (1/14)(128-15*2.42)=2.9714 x f x2 x2 *f 0 2 0 0 0 1 3 1 3 3 2 3 4 12 6 3 4 9 36 12 4 1 16 16 4 5 1 25 25 5 6 1 36 36 6 15 91 128 36 x*f UNIDAD I. MUESTREO Y ESTIMACION DE PARAMETROS DISTRIBUCIÓN DE FRECUENCIAS Cuando se trabaja con conjuntos grandes de datos, es útil organizarlos y resumirlos por medio de la construcción de una tabla que liste los distintos valores posibles de los datos, individual o por grupos, junto con el número de veces que se presentan dichos valores. (frecuencias) Diferencia entre ordenamiento de datos y frecuencia Ordenamiento de notas en Estadística Clase Frecuencia 9 9 10 11 11 9 - 11 6 11 12 12 13 13 12 - 14 9 13 14 14 14 14 15 - 17 3 16 17 17 19 20 18 - 20 2 UNIDAD I. MUESTREO Y ESTIMACION DE PARAMETROS DISTRIBUCIÓN DE FRECUENCIAS Si se agrupan en intervalos de clase y se cuenta el número de individuos que pertenece a cada intervalo. Es necesario primero determinar el número óptimo de clases o categorías (k) y luego construirlos. Regla de Spiegel: Se construyen entre 5 y 20 clases. Regla de Sturgess: El número de clases viene dado por el valor de k, donde: k 1 3,322 log n ( n 500) Regla Empírica: El número de clases viene dado por: k n UNIDAD I. MUESTREO Y ESTIMACION DE PARAMETROS DISTRIBUCIÓN DE FRECUENCIAS Regla de Spiegel: 5 clases Regla de Sturgess: k=1+3.322*log(20) = 5.322 Se selecciona k=5 Regla Empírica: K=raíz(20) = 4.47 Rango (20-9)/5 = 2.75 aprox 3 K Calcula los límites superiores sumándole al límite inferior el ancho de clase menos una unidad, una décima o una centésima, según sea el caso para evitar que los límites de un intervalo y el siguiente tengan los mismos valores. Ejemplo 3-1=2 Ancho de Clase = Ordenamiento de notas en Estadística Clase Frecuencia 9 9 10 11 11 7 - 9 2 11 12 12 13 13 10 - 12 6 13 14 14 14 14 13 - 15 7 16 17 17 19 20 16 - 18 3 19 - 21 2 UNIDAD I. MUESTREO Y ESTIMACION DE PARAMETROS ESTIMADOR Un estimador de un parámetro poblacional es una función de los datos muestrales. En pocas palabras, es una fórmula que depende de los valores obtenidos de una muestra, para realizar estimaciones. Por ejemplo, un estimador de la media poblacional, μ, sería la media muestral, , según la siguiente fórmula: Donde (x1, x2, ..., xn) sería el conjunto de datos de la muestra. TIPOS DE MUESTRA MUESTREOS PROBABILISTICOS MUESTREO NO PROBABILISTICOS Muestreo aleatorio simple Muestreo por cuotas Muestreo aleatorio sistematico Muestreo intencional o por conveniencia Muestreo aleatorio estratificado Bola de nieve. UNIDAD I. MUESTREO Y ESTIMACION DE PARAMETROS MUESTRA ALEATORIA Y TAMAÑO DE LA MUETRA (n). Una colección de n variables aleatorias. Todas con la misma distribución. Todas independientes. Si la población es finita, es decir conocemos el total de la población y deseásemos saber cuántos del total tendremos que estudiar la respuesta seria: Donde: N = Total de la población Za2 = 1.962 (si la seguridad es del 95%) p = proporción esperada (en este caso 5% = 0.05) q = 1 – p (en este caso 1-0.05 = 0.95) d = precisión (en este caso deseamos un Ejemplo 1%, 2,% o 3%). Fuente:https://www.fisterra.com/mbe/investiga/9muestras/9muestras2.asp UNIDAD I. MUESTREO Y ESTIMACION DE PARAMETROS ESTIMACION DE TAMAÑO DE MUESTREO ¿A cuántas personas tendría que estudiar de una población de 15.000 habitantes para conocer la prevalencia de diabetes? Seguridad = 95%; Precisión = 3%; proporción esperada = asumamos que puede ser próxima al 5% ; si no tuviese ninguna idea de dicha proporción utilizaríamos el valor p = 0.5 (50%) que maximiza el tamaño muestral. Donde: N = Total de la población Za2 = 1.962 (si la seguridad es del 95%) p = proporción esperada (en este caso 5% = 0.05) q = 1 – p (en este caso 1-0.05 = 0.95) d = precisión (en este caso deseamos un 3%). Fuente:https://www.fisterra.com/mbe/investiga/9muestras/9muestras2.asp UNIDAD I. MUESTREO Y ESTIMACION DE PARAMETROS ESTIMACION DE TAMAÑO DE MUESTREO Si la población es finita, también podemos aplicar la siguiente ecuación Donde, S2 varianza de la población Según diferentes seguridades el coeficiente de Z(α/2) varía, así: Para un intervalo de confianza del 90% el coeficiente Z(α/2) sería 1.645 Para un intervalo de confianza del 95% el coeficiente Z(α/2) sería 1.96 Para un intervalo de confianza del 97.5% el coeficiente Z(α/2) sería 2.24 Para un intervalo de confianza del 99% el coeficiente Z(α/2) sería 2.576 Para un intervalo de confianza del 99.7% el coeficiente Z(α/2) sería 3 UNIDAD I. MUESTREO Y ESTIMACION DE PARAMETROS INTERVALO DE CONFIANZA Para encontrar un intervalo de confianza con cualquier nivel de confianza deseado, sea α un numero entre 0 y 1, y 100(1- α)% el nivel de confianza requerido. Se define el área a Z(α/2) como puntaje z que corta un área α /2 en la cola del lado derecho Con el propósito de determinar un intervalo de confianza de 85%, 100(1- α)=85 1- α =0.85 α =1-0.85 = 0.15, como α /2 = 0.075 Buscamos en la tabla Z(0.075) = 1.44 aproximado UNIDAD I. MUESTREO Y ESTIMACION DE PARAMETROS Definición. Sea X1,…, Xn una muestra aleatoria grande (n > 30) de una población con media µ y desviación estándar σ, por lo que X es aproximadamente normal. Entonces su intervalo de confianza 100(1- α)%. Cuando el valor de σ es desconocido, se puede sustituir por la desviación estándar muestral s. UNIDAD I. MUESTREO Y ESTIMACION DE PARAMETROS Solución, Para un intervalo de confianza del 95% el coeficiente Z(α/2) sería 1.96 y del 99% el coeficiente Z(α/2) sería 2.576 a) b) UNIDAD I. MUESTREO Y ESTIMACION DE PARAMETROS Ejemplo 2. Una muestra aleatoria de 100 baterías producidas por cierto método, el promedio de tiempo de vida fue de 150 horas y la desviación estándar de 25 horas. a) Determine un intervalo de confianza de 95% para la media del tiempo de vida de las baterías producidas por este método. b) Un ingeniero afirma que la media del tiempo de vida esta entre 147 y 153 horas. Con que nivel de confianza se puede hacer esta afirmación? a) 150 – 1.96*(25/√100) < µ < 150 +1.96*(25/√100) 145.1 < µ < 154.9 b) 150 + X*(25/√100) = 153 X*(25/√100) = 3 ; X = 1.2 Por tabla Z α /2 = 0.1151 ; Z α = 0.2304 1- α =0.2304 ; α = 1-0.2304 = 0.7696 (76.96%) UNIDAD I. MUESTREO Y ESTIMACION DE PARAMETROS INTERVALOS DE CONFIANZA PARA LA MEDIA POBLACIONAL CON MUESTRAS PEQUEÑAS. Sea X1,…, Xn una muestra pequeña (por ejemplo n < 30) de una población normal con media o, entonces la cantidad Tiene una distribución t Student con n-1 grados de libertad, denotada por t(n-1). Cuando n es grande, la distribución es muy cercana a la distribución normal, de esta forma la curva normal puede usarse en lugar de la de t Student. UNIDAD I. MUESTREO Y ESTIMACION DE PARAMETROS 100(1-α)=95% 1- α =0.95 α =0.05 α /2=0.025 Por tabla t(6,0.025) = 2.447 n xi x i 1 n 1 𝑠2 = 𝑛−1 10 – 2.447*(0.2828/√7) < µ < 10 + 2.447*(0.2828/√7) X=70 / 7 = 10 𝑛 𝑋𝑖 2 − 𝑛(𝑋)2 𝑖=1 S2=(1/6)*(700,48-7(10) 2) = 0.08 S = 0.2828 9.7387 < µ < 10.2615 UNIDAD I. MUESTREO Y ESTIMACION DE PARAMETROS Ejemplo 2. Se presentan las mediciones de la fuerza nominal de corte (Kn) para una muestra de 15 vigas de concreto. Los resultados son; 580 – 400 – 428 – 825 – 850 875 - 920 – 550 – 575 – 750 636 – 360 – 590 – 735 - 950 , se desea estimar el intervalo de confianza para un 99%, para la media de la fuerza de corte. X= 668.27 S = 192.0891 100(1-α)=99% 1- α =0.99 α =0.01 α /2=0.005 Por tabla t(14,0.005) = 2.977 668.27 – 2.977*(192.0891/√15) < µ < 668.27 + 2.977*(192.0891/√15) 520.61 < µ < 815.92 UNIDAD I. MUESTREO Y ESTIMACION DE PARAMETROS EJERCICIOS PROPUESTOS UNIDAD I. MUESTREO Y ESTIMACION DE PARAMETROS EJERCICIOS PROPUESTOS