Formulario. Estadística Administrativa Módulo 1. Introducción al

Anuncio
Formulario. Estadística Administrativa
Módulo 1. Introducción al análisis estadístico
Histogramas
El número de intervalos de clase, k, se elige de tal forma que el valor
2k sea menor (pero el valor más aproximado) al número de
observaciones.
Criterio de Sturges: k= 1+3.3log(n)
Ancho de clase =
Media aritmética (media
muestral)
Media aritmética
(muestral) para datos
agrupados
fi = frecuencia absoluta de la clase i
mi= es el punto medio de la clase i
k = # Intervalos de clase
Si n es impar,
Mediana (muestral)
Si n es par,
es la observación ordenada
es el promedio las observaciones ordenadas
y
Moda (muestral)
Es el valor que más se repite
Varianza muestral
Varianza muestral para
datos agrupados
Desviación estándar
muestral
Coeficiente de variación
muestral
fi = frecuencia absoluta de la clase i
mi= es el punto medio de la clase i
k = # Intervalos de clase
Es la media muestral
agrupada
Percentil P
0< P < 100
Diagrama de caja
Es la observación ordenada
1.
2.
3.
4.
5.
Observación mínima no considerada extrema = Q1 - 1.5*fs
Primer cuartil (Percentil 25, Q1)
Mediana (Percentil 50, Q2)
Tercer cuartil (Percentil 75, Q3)
Observación máxima no considerada extrema = Q3 + 1.5*fs
Rango intercuartílico = fs= Q3 – Q1
Puntos extremos del lado izquierdo < Q1 - 1.5*fs
Puntos extremos del lado derecho > Q3 + 1.5*fs
Módulo 2. Teoría de Probabilidad
Probabilidad marginal
Regla del complemento
Probabilidad conjunta
Regla de la adición para eventos mutuamente
excluyentes
Regla de la adición para eventos con elementos
en común
Regla de la multiplicación para eventos
independientes
Regla de la multiplicación para eventos
dependientes
Probabilidad condicional para eventos
independientes
Probabilidad condicional para eventos
dependientes
Regla de producto para pares ordenados
Regla de producto para arreglos ordenados de
k elementos
Permutaciones
P(A)
P(Ac) = 1 – P(A)
P(A ∩ B)
P(A
B)= P(A) + P(B)
P(A
B) = P(A) + P(B) – P(A ∩ B)
P(A ∩ B) = P(A)P(B)
P(A ∩ B) = P(A/B)P(B)
P(A ∩ B) = P(B/A)P(A)
P(A/B) = P(A)
P(A/B) =
T = n1*n2
Tk = n1*n2*……*nk
En la selección: Importa el orden y la selección
es sin reemplazo.
Combinaciones
En la selección: No importa el orden y la
selección es sin reemplazo.
;
n
Cx
;
P(B/A) = P(B)
; P(B/A) =
Módulo 3. Modelación de mediciones aleatorias
Distribución de probabilidad de una variable
aleatoria discreta
Distribución de probabilidad acumulada de
una variable aleatoria discreta
Valor esperado de una variable aleatoria
discreta
para todos los valores de X
para todos los valores de X
donde,
Varianza de una variables aleatoria discreta
Distribución de probabilidad Binomial
X = # de éxitos en n pruebas idénticas
Valor esperado y varianza de una variable
aleatoria Binomial
Distribución de probabilidad Poisson
X = # de éxitos en un intervalo de tiempo
Valor esperado y varianza de una variable
aleatoria Poisson
Función de densidad de probabilidad
P(X = x) = nCx
Para x = 0,1,2,3,...,n
µ = E(X) = np
σ 2 = V(X) = np(1-p)
P(X = x) =
x = 0,1,2,3,………
E(X) = µ
V(X) = µ
f(x) para variables aleatorias continuas
Distribución de probabilidad acumulada de
una variable aleatoria continua
Valores esperados para variables aleatorias
continuas
donde,
Varianza de una variable aleatoria continua
Propiedades del valor esperado
Propiedad de la varianza
Función de densidad de probabilidad normal
E(aX + b) = aE(X) + b
V(aX + b) = a2V(X)
Si X ~ Normal con E(X) = µ y V(X) = σ 2
Entonces
~ Normal Estándar con
E(Z) = 0 y V(Z) = 1
Función de densidad de probabilidad de una
variable aleatoria exponencial
Función de distribución acumulada de una
variable aleatoria exponencial
para
Módulo 4. Distribuciones de muestreo y estimación de parámetros
Distribuciones de muestreo
Escenario
Estadístico Distribución
Población normal
Normal
Parámetros
y
Población desconocida
Aproximadamente
Normal
y
Aproximadamente
normal
y
Intervalos de confianza estimados de 100*(1-α)%
Escenario
Intervalo
Caso 1. Intervalo para µ
σ
x ± zα 2
Distribución poblacional de X normal
n
Varianza conocida, σ2
Caso 2. Intervalo para µ con muestras pequeñas
Distribución poblacional de X normal
Varianza desconocida
Caso 3. Intervalo para σ 2
Distribución poblacional de X normal
LIC
LSC
Caso 4. Intervalo para p
;
(Nivel de confianza aproximado)
;
Tamaños de muestra
Para estimar un intervalo para µ para el Caso 1
(Población infinita)
E = Error máximo permisible
Para estimar un intervalo para µ para el Caso 1
(Población finita)
N= Tamaño de la población
D=
Para estimar un intervalo para P para el Caso 5
E = Error máximo permisible
Módulo 5. Pruebas de hipótesis paramétricas y no paramétricas
Pruebas de hipótesis con un nivel de significancia de α para una población
Escenario
Hipótesis
Estadístico
Regiones de rechazo
Caso 1. Prueba para µ
Distribución de X normal
Varianza conocida, σ2
H0 : µ = µ0
Ha : µ > µ0
Ha : µ < µ0
Ha : µ ≠ µ0
Z
z
zα
z - zα
- zα/2 ó z
zα/2
H0 : µ = µ0
Caso 2. Prueba para µ
Distribución de X normal
Varianza desconocida
Ha : µ > µ0
t
tα,n-1
Ha : µ < µ0
t
- tα, n-1
Ha : µ ≠ µ0
Caso 3. Prueba para σ 2
Distribución de X normal
Caso 4. Prueba para p
(nivel de significancia aproximado)
;
;
t
- tα/2, n-1 ó
t
tα/2, n-1
H 0 : σ2 = σ2 0
H a : σ2 > σ2 0
χ2
H a : σ2 < σ2 0
H a : σ 2 ≠ σ2 0
χ2
χ2
χ2α, n-1
χ21-α, n-1
χ21-α/2, n-1 ó χ2 >= χ2α/2, n-1
H0: p = p0
Ha: p > p0
z
zα
Ha: p < p0
z
- zα
Ha: p ≠ p0
z
- zα/2 ó
z
Pruebas de hipótesis con un nivel de significancia de α para dos poblaciones
zα/2
Escenario
Caso 1. Prueba para
µ1 − µ2
Distribuciones normales.
Varianzas conocidas (σ12,σ22)
Muestras independientes.
Hipótesis
Estadístico
Regiones de
rechazo
H0: µ1 − µ2 = Δ0
Ha: µ1 − µ2 > Δ0
Ha: µ1 − µ2 < Δ0
z
z
zα
- zα
z - zα/2 ó
z zα/2
Ha: µ1 − µ2 ≠ Δ0
Ha: µ1 − µ2 > Δ0
z
zα
Ha: µ1 − µ2 < Δ0
z
- zα
z
Ha: µ1 − µ2 ≠ Δ0
- zα/2 ó
z zα/2
Caso 2. Prueba para µ 1 − µ 2
H0: µ1 − µ2 = Δ0
Escenario 1
Distribuciones normales.
Muestras independientes.
Ha: µ1 − µ2 > Δ0
t
tα, (n + n2) -2
Ha: µ1 − µ2 < Δ0
t
- tα, (n1+ n2) -2
Varianzas desconocidas, pero
asumidas iguales.
σ1 2 = σ2 2
Escenario 2
Distribuciones normales.
Muestras independientes.
Varianzas desconocidas, pero
asumidas diferentes.
σ1 2 ≠ σ2 2
1
t - tα/2, (n1+ n2) -2
ó t tα/2,( n1+ n2) -2
Ha: µ1 − µ2 ≠ Δ0
H0: µ1 − µ2 = Δ0
Ha: µ1 − µ2 > Δ0
T
tα, ν
Ha: µ1 − µ2 < Δ0
T
- tα, ν
t - tα/2, ν
ó t tα/2,
Ha: µ1 − µ2 ≠ Δ0
Caso 3. Prueba para σ 12/σ 22
H0: σ12/σ22 = 1
Distribuciones normales
Ha: σ12/σ22 > 1
ν
ν1=n1-1
ν2=n2-1
F
Fα,ν1,ν2
Muestras independientes
Ha: σ12/σ22 < 1
F
F
Ha: σ12/σ22 ≠ 1
Donde,
Caso 4. Prueba para p1 − p 2
F1-α,ν1,ν2
F1-α/2,ν1,ν2 ó
F fα/2,ν1,ν2
y
H0: p1 − p 2 = 0
(nivel de significancia aproximado)
Escenario 1
Muestras independientes
Δ0 = 0
y
Ha: p1 − p 2 > 0
z
zα
Ha: p1 − p 2 < 0
z
- zα
Ha: p1 − p 2 ≠ 0
;
z
- zα/2 ó
z zα/2
i = 1, 2
H0: p1 − p 2 = 0
Escenario 2
Muestras independientes
Δ0 ≠ 0
y
;
Ha: p1 − p 2 > 0
z
zα
Ha: p1 − p 2 < 0
z
- zα
Ha: p1 − p 2 ≠ 0
i = 1, 2
z
- zα/2 ó
z zα/2
Valor P para una prueba Z
Valor P = 1 – P(Z < z calculada)
para una prueba de cola superior
Valor P = P(Z < - z calculada)
para una prueba de cola inferior
Valor P = 2*[1 - P(Z < |z calculada|)]
para una prueba de dos colas
Si,
Valor P
Valor P
Rechazar H0 al nivel α
No rechazar H0 al nivel α
Análisis de Varianza, ANOVA, de un factor
Hipótesis
Supuestos
Región de rechazo
H0 = µ1 = µ2 = …= µi = ... = µk
Ha = al menos dos de las µi son diferentes
Las poblaciones tienen distribuciones normales
Las poblaciones tienen desviaciones estándar poblacionales iguales.
Las muestras se seleccionan de manera independiente
Rechazar H0 si
F >= Fα, k – 1, n – k
Tabla ANOVA
Fuente de
Variación
Suma de Cuadrados
G. de L.
Entre
tratamientos
Cuadrados Medios
Estadístico
k-1
Dentro de
tratamientos
SCE = SC(Total) - SCT
Total
n-k
n-1
Donde,
Ti
ni
Es la suma total de los valores x en la muestra i
Es el número de observaciones en la muestra i
Es la suma de los valores de x en todas las muestras
Son los valores de x en todas las muestras elevados al cuadrado y luego sumados
N
K
es el número total de observaciones n = n1 + n2 + ….+ ni + … + nk
El número de niveles (poblaciones o tratamientos) del factor
Aplicaciones:
Pruebas de la bondad de ajuste
Hipótesis
Estadístico
Frecuencias esperadas
iguales o diferentes
H0: las frecuencias observadas
son iguales a las esperadas
Normalidad
Ha: Son diferentes
H0: las variables categóricas
son independientes
Tablas de contingencia
Ha: Son dependientes
k = clases o celdas
ei = n*pi
r = # renglones
c = # columnas
Regiones de
rechazo
Niveles de confianza más utilizados para estimar intervalos que involucran Z
α
α/2
1-α
z α/2
0.90
0.1
0.05
z 0.05 = 1.645
0.95
0.05
0.025
z 0.025 = 1.96
0.98
0.02
0.01
z 0.01 = 2.33
0.99
0.01
0.005
z 0.005 = 2.575
Regiones de rechazo más utilizadas para pruebas Z con un nivel de significancia de α
Prueba de cola inferior
α
z
- zα
Prueba de cola superior
z
zα
Prueba de dos colas
z
- zα ó
z
zα
0.1
-z 0.1 = -1.282
z 0.1 = 1.282
-z0.05 = -1.645 ó
z0.05 = 1.645
0.05
-z 0.05 = -1.645
z 0.05 = 1.645
-z0.025 = -1.96 ó
z0.025 = 1.96
0.02
-z 0.02 = -2.054
z 0.02 = 2.054
0.01
-z 0.01 = -2.326
z 0.01 = 2.326
-z0.01 = -2.33 ó
z0.01 = 2.33
-z0.005 = -2.575 ó z0.005 = 2.575
Descargar