taller dos stat 555 - resumen medidas tendencia central y dispersin distribuciones discretas y normal

Anuncio
Programa AHORA
Estadística 555
Facilitadora: Sylvia Y. Cosme Montalvo
Taller dos
Objetivos esenciales
Al finalizar el taller cada estudiante podrá:
1. Obtener las medidas de tendencia central para datos agrupados.
2. Resolver situaciones prácticas utilizando las distribuciones discretas Poisson, Binomial y la
distribución continua Gaussiana (normal, campana).
I. Medidas de tendencia central para datos agrupados (se usan cuando n  30 )
n
1. Media = X 
 fm
i
i 1
en donde n = tamaño de la muestra, m = marca de clase y , f =
n
frecuencia de representada por la marca de clase.
2. Moda = Mo = Li 
d1
c en donde Li es el límite inferior de la clase modal, d1 es la
d1  d 2
diferencia entre la frecuencia de la clase modal y la frecuencia de la clase que antecede,
d2 es la diferencia de frecuencia de la clase modal y la subsiguiente, y c es la contante
sobre el ancho del intervalo
3. Mediana = Me =
n
 Fi 1
Li  2
c
fi
en donde Li es el límite inferior de la clase mediana, n/2
es la mitad de la cantidad de datos calculada para propósitos de poder ubicar la clase
mediana, Fi-1 es la frecuencia acumulada anterior a la clase mediana, fi es la frecuencia
absoluta de la clase mediana y c es la contante sobre el ancho del intervalo
II. Pasos a seguir al agrupar datos:
1. Calcular # de intervalos, utilizando estimador de Sturges k = 1 + 3.322log 10(n) o n
mayor  menor
2. Determinar longitud de los intervalos. l 
k
3. Construir tabla de distribución de frecuencias. La tabla de distribución de frecuencias
debe incluir las siguientes columnas
Clase Intervalo Marca
de Clase
F=fracuencia F=frecuencia
absoluta
acumulada
f/n = frecuencia F/n = frecuencia
absoluta relativa acumulada
relativa
III. Otras medidas de posición no central
1. Q1 = cuartila 1. Hasta donde acumula el 25% de los datos en la distribución.
n
 Fi 1
Q1  Li  4
c
fi
2. Q3 = cuartila 3. Hasta donde acumula el 75% de los datos en la distribución.
3n
 Fi 1
4
Q3  Li 
c
fi
IV. Medidas de variación mayormente utilizadas
1. Rango = X mayor – X menor
2
n
2. Varianza de la muestra= s 
2
 (x
i 1
i
 x)
n 1
n
3. Desviación estándar de la muestra = s 
 ( xi  x )
2
i 1
n 1
s
4. Coeficiente de variación = CV=   *100
 x
5. Rango Intercuartil = Q3 – Q1
Definiciones de Probabilidad y Distribuciones
1. Probabilidad de ocurrencia = X/T, en donde X es el # de veces que ocurre un evento y
T = cantidad total de resultados posibles.
2. Evento simple = se describe por una sola característica.
3. Complemento de un evento = todos los eventos que no forman parte del evento original.
4. Evento conjunto = tiene dos o más características.
5. Probabilidad simple o marginal = posibilidad de ocurrencia de un evento simple. El número total
de éxitos del evento se puede obtener a partir del margen adecuado de una tabla de contingencia.
6. Probabilidad conjunta = posibilidad de fenómenos que contienen dos o más eventos.
7. Regla de suma = La probabilidad de A 0 B es igual a la probabilidad de A + la probabilidad de B
menos la probabilidad de A y B. P(A o B) = P(A) +P(B) – P(A y B).
8. Distribución Binomial = P( X ) 
n!
p x (1  p) n  x
X !(n  X )!
Propiedades:
a) Cada observación se selecciona a partir de una población finita o a partir de una población con
reemplazo.
b) Cada observación se puede clasificar como éxito o fracaso.
c) La probabilidad de que una observación se clasifique como éxito, p, es constante entre una
observación y otra. El fracaso = 1-p.
d) El resultado de cualquier observación es independiente del resultado de cualquiera otra
observación.
Media de la distribución binomial = np
9. Distribución de Poisson = P( X ) 

e 
X!
Desviación estándar =
np(1  p)
x
Propiedades:
1. La probabilidad de observar exactamente un éxito en el intervalo es constante.
2. La probabilidad de observar más de un éxito en el intervalo es cero.
3. La probabilidad de observar un éxito en cualquier otro intervalo es estadísticamente
independiente de la de cualquier otro intervalo.
Distribución Normal: f ( X ) 
1
( )[( X   /  ) 2
1
e 2
2
e = constante aproximada por 2.71828,  = constante aproximada 3.14159,  = media
de la población,  =desviación estándar de la población, X es cualquier valor de la variable
continua en donde (-∞<X<∞)
Propiedades:
a) Tiene forma acampanada, por tanto es simétrica en apariencia.
b) Sus medidas de tendencia central (media, moda y mediana) son idénticas.
c) Su dispersión media es igual a 1.33 desviaciones estándar. Esto significa que el rango
Intercuartil se encuentra dentro del intervalo de 2/3 desviaciones estándar bajo la
media y 2/3 desviaciones estándar sobre la media.
d) La variable aleatoria asociada tiene un rango infinito (-∞<X<∞)
Fórmula de transformación:
Z
Fórmula Estandarizada:
X 
f (Z ) 

1
( ) Z 2
1
e 2
2
Distribución de Muestreo de la Media:
1. La media aritmética se dice que es no sesgada ya que el promedio de todas las
posibles medias de la muestra de tamaño n serán igual a la media de la
población,  .
N
2. Media de la población:  
X
i 1
i
N
N
3. Desviación estándar de la población:  
4. Error estándar de la media 
X

(X
i 1

 )2
N

n
5. Z para la media de la distribución de muestreo
6. Valor inferior de X    Z
i
Z
X  x


X 

X
n
n
7. Teorema del límite central: a medida que el tamaño de la muestra aumenta, la
media de la distribución de muestreo puede aproximarse por la distribución
normal.
Ejercicio explicativo integral de todos medidas de tendencia central
Una de las mayores medidas de calidad del servicio provistas por muchas organizaciones, es la
rapidez con la cual se atienden los reclamos de los clientes. Un negocio familiar local que se
dedica a la venta de servicios de mejoras al hogar, se ha expandido agresivamente en los pasados
años. Particularmente, el segmento de instalación de aires acondicionados ha crecido
vertiginosamente y se ha incrementado su personal de servicios de sólo dos instaladores a un
supervisor, un especialista y 15 instaladores. Recientemente, se tomó una muestra aleatoria de
50 reclamos relacionados a la instalación de mini splits. Los siguientes datos, representan los días
entre el recibo del reclamo y la solución de la situación.
5
19
15
27
5
16
32
4
35
11
29
52
17
11
28
30
31
29
29
22
27
61
26
36
15
35
25
26
2
9
1
20
13
31
14
23
8
26
13
33
7
5
13
68
7
12
10
11
4
5
1. Desarrolle una tabla de distribución de frecuencias
2. Obtenga las medidas de tendencia central, de posición y de dispersión
3. A base de los cálculos obtenidos, ¿qué puede decir del servicio?
Ejemplos:
1. Probabilidad marginal simple. Utilizando los resultados de una encuesta en la cual se le
preguntó a 300 entrevistados que compraron una tableta, si la misma es Windows y si
también compraron el programado MS Office en los pasados 12 meses la tabla siguiente se
desglosa:
Compró MS Office
Compra tableta
Windows
Otro Sistema
Total
Sí
38
70
108
No
42
150
192
Total
80
220
300
Encuentre la probabilidad de que si un encuestado que compró una tableta se selecciona
aleatoriamente, también fue Windows. Resultado: P(Windows) = 80/300=0.267
2. Probabilidad Conjunta: La tabla a continuación presenta los resultados de una encuesta a
1,000 dueños de pequeños negocios sobre la intención de compra de un sistema de cámaras
de seguridad
Compró
Planifica Comprar
Sí
No
Total
Sí
200
100
300
No
50
650
700
Total
250
750
1,000
Encuentre la probabilidad de ocurrencia de aquellos individuos que planificaron comprar y que
compraron el sistema de seguridad. Resultado: P(planificó y compró) = 200  0.20
1,000
3. Regla general de la suma: Utilizando la tabla del ejemplo #2, encuentre la probabilidad del
individuo que planificó comprar o que actualmente compró.
Resultado: P(planificó o compró)=
200
100
50
350



 0.350
1,000 1,000 1,000 1,000
4. Probabilidad Condicional: Utilizando la tabla del ejercicio #1, De los encuestados que
compraran una tableta, ¿cuál es la probabilidad de que también compraran MS Office?
Resultado:
P(compraronMSOffice comprarontableta) 
38
 0.475
80
5. Distribución binomial: Cuando un cliente requiere una orden en línea a Home Depot, un
sistema de contabilidad computarizada (AIS) automáticamente corrobora y valida que el
cliente no se haya excedido de su línea de crédito. Records pasados indican que la
probabilidad de que los clientes excedan la línea de crédito es 0.05. Suponga que en un día,
20 clientes solicitaron órdenes. Presuma que el número de clientes que el sistema detecta
habiendo excedido el límite de crédito está distribuido como una variable aleatoria binomial.
a. Calcule la media y la desviación estándar del número de clientes que exceden su límite de
crédito
i. Resultado:   np  20 * 0.05  1 (media)
  np(1  p)  (20)(0.05)(1  0.05)  0.9746794
b. ¿Cuál es la probabilidad de que ningún cliente exceda su límite de crédito?
n!
20!
i. Resultado P(X=0)
p X (1  p) n X 
(0.05) 0 (1  0.05) 200  0.3585
X !(n  X )!
0!(20  0)!
c. ¿Cuál es la probabilidad de que un cliente exceda su límite de crédito?
n!
20!
i. Resultado P(X=1)
p X (1  p) n X 
(0.05)1 (1  0.05) 201  0.3774
X !(n  X )!
1!(20  1)!
d. ¿Cuál es la probabilidad de que 2 o más clientes excedan su límite de crédito?
i. Resultado: P( X  2)  1  P( X  0)  P( X  1)  1  0.3585  0.3774  0.2641
6. Distribución Poisson: La cantidad de reclamaciones por falta de conexión a Internet para un
provvedor en la zona Metropolitana promedia 9 cada media hora. ¿Cuál es la probabilidad de
que en una media hora seleccionada habrá
e   X
a. Menos de tres reclamaciones? P( X ) 
X!
e 9 90 e 9 91 e 9 92
i. Resultado P( X  3)  P( X  0)  P( X  1)  P( X  2)  0!  1!  2!  0.0001  0.0011  0.0050  0.0062
b. Exactamente tres reclamaciones?
e 9 9 3
 0.0150
i. Resultado: P(X=3) =
3!
c. Tres o más reclamaciones?
i. Resultado: P( X  3)  1  P( X  3)  1  0.0062  0.9938
d. Más de tres reclamaciones?
i. Resultado: P(X>3)=1-P(X<3)-P(X=3)=1-0.0062-0.0150=0.9788
7. Distribución Normal: Un análisis estadístico de 1,000 llamadas telefónicas a las oficinas
centrales de un banco local, indica que el tiempo de estas llamadas está normalmente
distribuido con   240 segundos y   40 segundos.
a. ¿Qué porciento de estas llamadas duró menos de 180 segundos?
180  240
 1.5 Por valor extrapolado de la tabla
40
de distribución estandarizada desde la media hasta Z es 0.4332. Por lo tanto
P(X<180) = 0.5-0.4332=0.0668
b. ¿Cuál es la probabilidad de que una llamada particular dure entre 189 y 300 segundos?
300  240
189  240
 1.5
i. Resultado: 189  P( X )  300 Z 
 1.275 Z 
40
40
Por los valores extrapolados de la tabla de distribución estandarizada desde la
media hasta Z para Z=-1.275 y Z=1.5 los resultados respectivos son 0.3997 y
0.4332. La suma de ambas cantidades es 0.8329
Z
i. Resultado: P(X<180)
8. Distribución de muestreo de la media: El tiempo transcurrido por sesión utilizando el correo
electrónico está normalmente distribuido con   8 minutos,   2 minutos. Si se selecciona
una muestra aleatoria de 25 sesiones,
a. ¿Qué proporción de las medias de las muestras estaría entre 7.8 y 8.2 minutos?
i. Resultado:
Z
X  x


X 

X
n
7.8  8
 0.5
2
25
8.2  8
 0.5
2
25
Por los valores extrapolados de la tabla de distribución estandarizada desde la media hasta Z para
Z=-0.5 y Z=0.5 los resultados respectivos son 0.1915 y 0.1915. La suma de ambas cantidades es
0.3830
b. ¿Qué proporción de las medias de las muestras estaría entre 7.8 y 8.0 minutos?
X  x X  
7 .8  8
  0 .5
i. Resultado: Z 
=


2

X
n
25
Por valor extrapolado de la tabla de distribución estandarizada desde la media hasta Z es 0.1915.
Por lo tanto la proporción de las medias de las muestras entre 7.8 y 8.0 minutos es de 19.15%
c. Si se seleccionan muestras aleatorias de 100 sesiones, ¿qué proporción de la media de las
muestras estaría entre 7.8 y 8.2 minutos?
7 .8  8
8.2  8
  1 .0
X  x X  
 1.0
2
Z


2
i. Resultado


100
100
n
X
Por los valores extrapolados de la tabla de distribución estandarizada desde la media hasta Z para
Z=-1.0 y Z=1.0 los resultados respectivos son 0.3413 y 0.3413. La suma de ambas cantidades es
0.6826
Ejercicios Individuales para entregar en el taller 4
1. Los siguientes datos presentan el gasto de compra de alimentos en una base semanal para
una muestra de entrevistados que acudieron a un supermercado en el Área Metropolitana
$271
$199
$335
$342
a)
b)
$363
$177
$116
$279
$159
$162
$100
$235
$ 76
$232
$151
$434
$227
$303
$ 240
$123
$337
$192
$ 474
$ 325
$295
$181
$ 297
$337
$319
$321
$170
$480
$250
$ 309
$188
$603
$279
$246
$320
$231
$205
$278
$429
$134
$279
$150
$294
$90
$266
$141
$570
$427
Determine las medidas de tendencia central, de posición y de variación.
A base de los cálculos obtenidos, ¿qué puede decir del gasto en compra semanal?
2. Un técnico de mantenimiento de una empresa repara una media de 3 máquinas al día. ¿Cuál
es la probabilidad de que en el día de hoy tenga que reparar al menos dos?
3. En un laboratorio farmacológico se prueba un nuevo antigripal, el cual hace efecto a los 5
minutos de haberse administrado al paciente. Para esto se seleccionan al azar a 20 personas
enfermas del virus más común de la gripe y se les administra el novedoso medicamento. Tras
los 5 minutos se observa que en 13 de los 20 pacientes el nuevo medicamento tuvo éxito. En
base a estos resultados,
a. ¿en cuántas personas se espera que tenga éxito el medicamento, de 100
observadas?
b. ¿Cuál es la probabilidad de que al menos a 13 de 15 personas les haga efecto el
medicamento?
4. En una empresa había 9 personas candidatas para un ascenso, de las cuales 4 eran
mujeres. Tres de los 9 recibieron su ascenso, pero sólo una de ellos era mujer. Las otras 3
mujeres demandaron a la compañía por discriminación de género. Si los ascensos
hubieran sido asignados por el puro azar, ¿cuál será la probabilidad de que no más de uno
de los 3 ascensos hubiese sido asignado a una mujer?, es decir, ¿había evidencia
suficiente de discriminación?
5. Una máquina debe introducir 375 gramos de cereales en cajas de envasado. La cantidad
introducida es una variable aleatoria que se distribuye normalmente con media 375
gramos y desviación estándar de 20 gramos. Para comprobar que el peso medio de cada
caja se mantiene en 375 gramos, se toman periódicamente muestras aleatorias de 25
cajas y se pesan sus contenidos. El encargado tiene orden de parar el proceso y ajustar la
máquina cada vez que el promedio obtenido sea menor que 365 o mayor que 385
gramos. ¿Cuál es la probabilidad de tener que detener el proceso cada vez que se toma
una muestra?
6. Se ha tomado una muestra de los precios de un mismo producto alimenticio en 16
comercios elegidos al azar en un barrio de una ciudad, y se han encontrado los siguientes
precios: 0.95, 1.08, 0.97, 1.12, 0.99, 1.06, 1.05, 1.00, 0.99, 0.98, 1.04, 1.10, 1.07, 1.11,
1.03, 1.10. Suponiendo que los precios de este producto se distribuyen según una ley
normal de varianza 25 y media desconocida:
a. ¿Cuál es la distribución de la media muestral?
b. Determine el intervalo de confianza, al 95 %, para la media poblacional.
Descargar