Programa AHORA Estadística 555 Facilitadora: Sylvia Y. Cosme Montalvo Taller dos Objetivos esenciales Al finalizar el taller cada estudiante podrá: 1. Obtener las medidas de tendencia central para datos agrupados. 2. Resolver situaciones prácticas utilizando las distribuciones discretas Poisson, Binomial y la distribución continua Gaussiana (normal, campana). I. Medidas de tendencia central para datos agrupados (se usan cuando n 30 ) n 1. Media = X fm i i 1 en donde n = tamaño de la muestra, m = marca de clase y , f = n frecuencia de representada por la marca de clase. 2. Moda = Mo = Li d1 c en donde Li es el límite inferior de la clase modal, d1 es la d1 d 2 diferencia entre la frecuencia de la clase modal y la frecuencia de la clase que antecede, d2 es la diferencia de frecuencia de la clase modal y la subsiguiente, y c es la contante sobre el ancho del intervalo 3. Mediana = Me = n Fi 1 Li 2 c fi en donde Li es el límite inferior de la clase mediana, n/2 es la mitad de la cantidad de datos calculada para propósitos de poder ubicar la clase mediana, Fi-1 es la frecuencia acumulada anterior a la clase mediana, fi es la frecuencia absoluta de la clase mediana y c es la contante sobre el ancho del intervalo II. Pasos a seguir al agrupar datos: 1. Calcular # de intervalos, utilizando estimador de Sturges k = 1 + 3.322log 10(n) o n mayor menor 2. Determinar longitud de los intervalos. l k 3. Construir tabla de distribución de frecuencias. La tabla de distribución de frecuencias debe incluir las siguientes columnas Clase Intervalo Marca de Clase F=fracuencia F=frecuencia absoluta acumulada f/n = frecuencia F/n = frecuencia absoluta relativa acumulada relativa III. Otras medidas de posición no central 1. Q1 = cuartila 1. Hasta donde acumula el 25% de los datos en la distribución. n Fi 1 Q1 Li 4 c fi 2. Q3 = cuartila 3. Hasta donde acumula el 75% de los datos en la distribución. 3n Fi 1 4 Q3 Li c fi IV. Medidas de variación mayormente utilizadas 1. Rango = X mayor – X menor 2 n 2. Varianza de la muestra= s 2 (x i 1 i x) n 1 n 3. Desviación estándar de la muestra = s ( xi x ) 2 i 1 n 1 s 4. Coeficiente de variación = CV= *100 x 5. Rango Intercuartil = Q3 – Q1 Definiciones de Probabilidad y Distribuciones 1. Probabilidad de ocurrencia = X/T, en donde X es el # de veces que ocurre un evento y T = cantidad total de resultados posibles. 2. Evento simple = se describe por una sola característica. 3. Complemento de un evento = todos los eventos que no forman parte del evento original. 4. Evento conjunto = tiene dos o más características. 5. Probabilidad simple o marginal = posibilidad de ocurrencia de un evento simple. El número total de éxitos del evento se puede obtener a partir del margen adecuado de una tabla de contingencia. 6. Probabilidad conjunta = posibilidad de fenómenos que contienen dos o más eventos. 7. Regla de suma = La probabilidad de A 0 B es igual a la probabilidad de A + la probabilidad de B menos la probabilidad de A y B. P(A o B) = P(A) +P(B) – P(A y B). 8. Distribución Binomial = P( X ) n! p x (1 p) n x X !(n X )! Propiedades: a) Cada observación se selecciona a partir de una población finita o a partir de una población con reemplazo. b) Cada observación se puede clasificar como éxito o fracaso. c) La probabilidad de que una observación se clasifique como éxito, p, es constante entre una observación y otra. El fracaso = 1-p. d) El resultado de cualquier observación es independiente del resultado de cualquiera otra observación. Media de la distribución binomial = np 9. Distribución de Poisson = P( X ) e X! Desviación estándar = np(1 p) x Propiedades: 1. La probabilidad de observar exactamente un éxito en el intervalo es constante. 2. La probabilidad de observar más de un éxito en el intervalo es cero. 3. La probabilidad de observar un éxito en cualquier otro intervalo es estadísticamente independiente de la de cualquier otro intervalo. Distribución Normal: f ( X ) 1 ( )[( X / ) 2 1 e 2 2 e = constante aproximada por 2.71828, = constante aproximada 3.14159, = media de la población, =desviación estándar de la población, X es cualquier valor de la variable continua en donde (-∞<X<∞) Propiedades: a) Tiene forma acampanada, por tanto es simétrica en apariencia. b) Sus medidas de tendencia central (media, moda y mediana) son idénticas. c) Su dispersión media es igual a 1.33 desviaciones estándar. Esto significa que el rango Intercuartil se encuentra dentro del intervalo de 2/3 desviaciones estándar bajo la media y 2/3 desviaciones estándar sobre la media. d) La variable aleatoria asociada tiene un rango infinito (-∞<X<∞) Fórmula de transformación: Z Fórmula Estandarizada: X f (Z ) 1 ( ) Z 2 1 e 2 2 Distribución de Muestreo de la Media: 1. La media aritmética se dice que es no sesgada ya que el promedio de todas las posibles medias de la muestra de tamaño n serán igual a la media de la población, . N 2. Media de la población: X i 1 i N N 3. Desviación estándar de la población: 4. Error estándar de la media X (X i 1 )2 N n 5. Z para la media de la distribución de muestreo 6. Valor inferior de X Z i Z X x X X n n 7. Teorema del límite central: a medida que el tamaño de la muestra aumenta, la media de la distribución de muestreo puede aproximarse por la distribución normal. Ejercicio explicativo integral de todos medidas de tendencia central Una de las mayores medidas de calidad del servicio provistas por muchas organizaciones, es la rapidez con la cual se atienden los reclamos de los clientes. Un negocio familiar local que se dedica a la venta de servicios de mejoras al hogar, se ha expandido agresivamente en los pasados años. Particularmente, el segmento de instalación de aires acondicionados ha crecido vertiginosamente y se ha incrementado su personal de servicios de sólo dos instaladores a un supervisor, un especialista y 15 instaladores. Recientemente, se tomó una muestra aleatoria de 50 reclamos relacionados a la instalación de mini splits. Los siguientes datos, representan los días entre el recibo del reclamo y la solución de la situación. 5 19 15 27 5 16 32 4 35 11 29 52 17 11 28 30 31 29 29 22 27 61 26 36 15 35 25 26 2 9 1 20 13 31 14 23 8 26 13 33 7 5 13 68 7 12 10 11 4 5 1. Desarrolle una tabla de distribución de frecuencias 2. Obtenga las medidas de tendencia central, de posición y de dispersión 3. A base de los cálculos obtenidos, ¿qué puede decir del servicio? Ejemplos: 1. Probabilidad marginal simple. Utilizando los resultados de una encuesta en la cual se le preguntó a 300 entrevistados que compraron una tableta, si la misma es Windows y si también compraron el programado MS Office en los pasados 12 meses la tabla siguiente se desglosa: Compró MS Office Compra tableta Windows Otro Sistema Total Sí 38 70 108 No 42 150 192 Total 80 220 300 Encuentre la probabilidad de que si un encuestado que compró una tableta se selecciona aleatoriamente, también fue Windows. Resultado: P(Windows) = 80/300=0.267 2. Probabilidad Conjunta: La tabla a continuación presenta los resultados de una encuesta a 1,000 dueños de pequeños negocios sobre la intención de compra de un sistema de cámaras de seguridad Compró Planifica Comprar Sí No Total Sí 200 100 300 No 50 650 700 Total 250 750 1,000 Encuentre la probabilidad de ocurrencia de aquellos individuos que planificaron comprar y que compraron el sistema de seguridad. Resultado: P(planificó y compró) = 200 0.20 1,000 3. Regla general de la suma: Utilizando la tabla del ejemplo #2, encuentre la probabilidad del individuo que planificó comprar o que actualmente compró. Resultado: P(planificó o compró)= 200 100 50 350 0.350 1,000 1,000 1,000 1,000 4. Probabilidad Condicional: Utilizando la tabla del ejercicio #1, De los encuestados que compraran una tableta, ¿cuál es la probabilidad de que también compraran MS Office? Resultado: P(compraronMSOffice comprarontableta) 38 0.475 80 5. Distribución binomial: Cuando un cliente requiere una orden en línea a Home Depot, un sistema de contabilidad computarizada (AIS) automáticamente corrobora y valida que el cliente no se haya excedido de su línea de crédito. Records pasados indican que la probabilidad de que los clientes excedan la línea de crédito es 0.05. Suponga que en un día, 20 clientes solicitaron órdenes. Presuma que el número de clientes que el sistema detecta habiendo excedido el límite de crédito está distribuido como una variable aleatoria binomial. a. Calcule la media y la desviación estándar del número de clientes que exceden su límite de crédito i. Resultado: np 20 * 0.05 1 (media) np(1 p) (20)(0.05)(1 0.05) 0.9746794 b. ¿Cuál es la probabilidad de que ningún cliente exceda su límite de crédito? n! 20! i. Resultado P(X=0) p X (1 p) n X (0.05) 0 (1 0.05) 200 0.3585 X !(n X )! 0!(20 0)! c. ¿Cuál es la probabilidad de que un cliente exceda su límite de crédito? n! 20! i. Resultado P(X=1) p X (1 p) n X (0.05)1 (1 0.05) 201 0.3774 X !(n X )! 1!(20 1)! d. ¿Cuál es la probabilidad de que 2 o más clientes excedan su límite de crédito? i. Resultado: P( X 2) 1 P( X 0) P( X 1) 1 0.3585 0.3774 0.2641 6. Distribución Poisson: La cantidad de reclamaciones por falta de conexión a Internet para un provvedor en la zona Metropolitana promedia 9 cada media hora. ¿Cuál es la probabilidad de que en una media hora seleccionada habrá e X a. Menos de tres reclamaciones? P( X ) X! e 9 90 e 9 91 e 9 92 i. Resultado P( X 3) P( X 0) P( X 1) P( X 2) 0! 1! 2! 0.0001 0.0011 0.0050 0.0062 b. Exactamente tres reclamaciones? e 9 9 3 0.0150 i. Resultado: P(X=3) = 3! c. Tres o más reclamaciones? i. Resultado: P( X 3) 1 P( X 3) 1 0.0062 0.9938 d. Más de tres reclamaciones? i. Resultado: P(X>3)=1-P(X<3)-P(X=3)=1-0.0062-0.0150=0.9788 7. Distribución Normal: Un análisis estadístico de 1,000 llamadas telefónicas a las oficinas centrales de un banco local, indica que el tiempo de estas llamadas está normalmente distribuido con 240 segundos y 40 segundos. a. ¿Qué porciento de estas llamadas duró menos de 180 segundos? 180 240 1.5 Por valor extrapolado de la tabla 40 de distribución estandarizada desde la media hasta Z es 0.4332. Por lo tanto P(X<180) = 0.5-0.4332=0.0668 b. ¿Cuál es la probabilidad de que una llamada particular dure entre 189 y 300 segundos? 300 240 189 240 1.5 i. Resultado: 189 P( X ) 300 Z 1.275 Z 40 40 Por los valores extrapolados de la tabla de distribución estandarizada desde la media hasta Z para Z=-1.275 y Z=1.5 los resultados respectivos son 0.3997 y 0.4332. La suma de ambas cantidades es 0.8329 Z i. Resultado: P(X<180) 8. Distribución de muestreo de la media: El tiempo transcurrido por sesión utilizando el correo electrónico está normalmente distribuido con 8 minutos, 2 minutos. Si se selecciona una muestra aleatoria de 25 sesiones, a. ¿Qué proporción de las medias de las muestras estaría entre 7.8 y 8.2 minutos? i. Resultado: Z X x X X n 7.8 8 0.5 2 25 8.2 8 0.5 2 25 Por los valores extrapolados de la tabla de distribución estandarizada desde la media hasta Z para Z=-0.5 y Z=0.5 los resultados respectivos son 0.1915 y 0.1915. La suma de ambas cantidades es 0.3830 b. ¿Qué proporción de las medias de las muestras estaría entre 7.8 y 8.0 minutos? X x X 7 .8 8 0 .5 i. Resultado: Z = 2 X n 25 Por valor extrapolado de la tabla de distribución estandarizada desde la media hasta Z es 0.1915. Por lo tanto la proporción de las medias de las muestras entre 7.8 y 8.0 minutos es de 19.15% c. Si se seleccionan muestras aleatorias de 100 sesiones, ¿qué proporción de la media de las muestras estaría entre 7.8 y 8.2 minutos? 7 .8 8 8.2 8 1 .0 X x X 1.0 2 Z 2 i. Resultado 100 100 n X Por los valores extrapolados de la tabla de distribución estandarizada desde la media hasta Z para Z=-1.0 y Z=1.0 los resultados respectivos son 0.3413 y 0.3413. La suma de ambas cantidades es 0.6826 Ejercicios Individuales para entregar en el taller 4 1. Los siguientes datos presentan el gasto de compra de alimentos en una base semanal para una muestra de entrevistados que acudieron a un supermercado en el Área Metropolitana $271 $199 $335 $342 a) b) $363 $177 $116 $279 $159 $162 $100 $235 $ 76 $232 $151 $434 $227 $303 $ 240 $123 $337 $192 $ 474 $ 325 $295 $181 $ 297 $337 $319 $321 $170 $480 $250 $ 309 $188 $603 $279 $246 $320 $231 $205 $278 $429 $134 $279 $150 $294 $90 $266 $141 $570 $427 Determine las medidas de tendencia central, de posición y de variación. A base de los cálculos obtenidos, ¿qué puede decir del gasto en compra semanal? 2. Un técnico de mantenimiento de una empresa repara una media de 3 máquinas al día. ¿Cuál es la probabilidad de que en el día de hoy tenga que reparar al menos dos? 3. En un laboratorio farmacológico se prueba un nuevo antigripal, el cual hace efecto a los 5 minutos de haberse administrado al paciente. Para esto se seleccionan al azar a 20 personas enfermas del virus más común de la gripe y se les administra el novedoso medicamento. Tras los 5 minutos se observa que en 13 de los 20 pacientes el nuevo medicamento tuvo éxito. En base a estos resultados, a. ¿en cuántas personas se espera que tenga éxito el medicamento, de 100 observadas? b. ¿Cuál es la probabilidad de que al menos a 13 de 15 personas les haga efecto el medicamento? 4. En una empresa había 9 personas candidatas para un ascenso, de las cuales 4 eran mujeres. Tres de los 9 recibieron su ascenso, pero sólo una de ellos era mujer. Las otras 3 mujeres demandaron a la compañía por discriminación de género. Si los ascensos hubieran sido asignados por el puro azar, ¿cuál será la probabilidad de que no más de uno de los 3 ascensos hubiese sido asignado a una mujer?, es decir, ¿había evidencia suficiente de discriminación? 5. Una máquina debe introducir 375 gramos de cereales en cajas de envasado. La cantidad introducida es una variable aleatoria que se distribuye normalmente con media 375 gramos y desviación estándar de 20 gramos. Para comprobar que el peso medio de cada caja se mantiene en 375 gramos, se toman periódicamente muestras aleatorias de 25 cajas y se pesan sus contenidos. El encargado tiene orden de parar el proceso y ajustar la máquina cada vez que el promedio obtenido sea menor que 365 o mayor que 385 gramos. ¿Cuál es la probabilidad de tener que detener el proceso cada vez que se toma una muestra? 6. Se ha tomado una muestra de los precios de un mismo producto alimenticio en 16 comercios elegidos al azar en un barrio de una ciudad, y se han encontrado los siguientes precios: 0.95, 1.08, 0.97, 1.12, 0.99, 1.06, 1.05, 1.00, 0.99, 0.98, 1.04, 1.10, 1.07, 1.11, 1.03, 1.10. Suponiendo que los precios de este producto se distribuyen según una ley normal de varianza 25 y media desconocida: a. ¿Cuál es la distribución de la media muestral? b. Determine el intervalo de confianza, al 95 %, para la media poblacional.