antologia-de-estadistica-23

Anuncio
ANTOLOGIA PARA LA MATERIA DE ESTADISTICA II
Contenido
Unidad I Inferencia estadística o inductiva ............................................................................................................................. 3
Introducción ........................................................................................................................................................................ 3
Campos de aplicación ......................................................................................................................................................... 3
Unidad II Teoría elemental del muestreo ............................................................................................................................... 3
Distribuciones de muestreo ................................................................................................................................................ 4
Distribución de muestreo de medias .............................................................................................................................. 4
Distribución de muestreo de proporciones .................................................................................................................... 6
Distribución de muestreo de diferencias y sumas .......................................................................................................... 7
Unidad III Teoría de la estimación estadística ........................................................................................................................ 9
Estimaciones sin sesgo ........................................................................................................................................................ 9
Estimaciones de intervalo de confianza para parámetros de población ............................................................................ 9
Intervalo de confianza para las medias........................................................................................................................... 9
Intervalos de confianza para proporciones. ................................................................................................................. 10
Intervalos de confianza para diferencias y sumas ........................................................................................................ 11
Unidad IV Teoría estadística de las decisiones ..................................................................................................................... 12
Hipótesis Nula: .................................................................................................................................................................. 12
Hipótesis Alternativa: ........................................................................................................................................................ 12
Contraste de hipótesis y significación o reglas de decisión .............................................................................................. 12
Errores de tipo I y de tipo II............................................................................................................................................... 12
Nivel de significación......................................................................................................................................................... 12
Contrastes mediante la distribución normal .................................................................................................................... 13
Contrastes de una y dos colas ....................................................................................................................................... 13
Curvas de operación características, potencia de un contraste ....................................................................................... 14
Unidad V Test de Ji-Cuadrada ........................................................................................................................................... 14
Definición de χ2 ................................................................................................................................................................. 15
El test de χ2 para la bondad de ajuste ............................................................................................................................... 15
Tablas de contingencia...................................................................................................................................................... 15
Unidad VI Ajuste de curvas y el método de mínimo cuadrados ........................................................................................... 17
Ajuste de curvas ................................................................................................................................................................ 17
El método de mínimos cuadrados .................................................................................................................................... 18
Recta de mínimos cuadrados ........................................................................................................................................ 18
Parábola de mínimos cuadrados ................................................................................................................................... 19
Unidad VII Teoría de la correlación ....................................................................................................................................... 20
Correlación y regresión ..................................................................................................................................................... 20
Correlación lineal .............................................................................................................................................................. 20
La recta de regresión de mínimos cuadrados ................................................................................................................... 21
Unidad VIII Análisis de varianza ............................................................................................................................................ 22
Experimentos de factor único ........................................................................................................................................... 22
Variación total, variación dentro de los tratamientos y variación entre tratamientos .................................................... 22
Unidad I Inferencia estadística o inductiva
Introducción
Comprende aquellas técnicas por medio de las cuales se toman decisiones sobre una población estadística basadas en
una muestra o en juicios de los administradores. Debido a que esas decisiones se toman en condiciones de
incertidumbre, se requiere el uso de conceptos de probabilidad. Considerando que las características medidas en una
muestra se denominan estadísticas muéstrales, las características medidas en una población estadística o universo, se
llaman parámetros poblacionales.
Ningún método estadístico puede corregir los defectos por una inadecuada selección del problema que se investiga, o
por una mala recolección de datos. Una investigación que empieza mal, con seguridad termina mal.
Con datos de mala calidad no será posible dar una respuesta adecuada a un problema científico.
Campos de aplicación
La inferencia estadística es ampliamente utilizada en diversas áreas, a continuación se mencionan unas pocas.






En las ciencias naturales: se emplea en la descripción de modelos termodinámicos complejos
(mecánica estadística), en física cuántica, en mecánica de fluidos o en la teoría cinética de los gases,
entre otros muchos campos.
En las ciencias sociales y económicas: es un pilar básico del desarrollo de la demografía y la sociología
aplicada.
En economía: suministra los valores que ayudan a descubrir interrelaciones entre
múltiples parámetros macro y microeconómicos.
En las ciencias médicas: permite establecer pautas sobre la evolución de las enfermedades y los
enfermos, los índices de mortalidad asociados a procesos morbosos, el grado de eficacia de un
medicamento, etcétera.
Entre otras.
Unidad II Teoría elemental del muestreo
La teoría del muestreo estudia la relación entre una población y las muestras tomadas de ella. Es de gran utilidad en
muchos campos. Por ejemplo para estimar magnitudes desconocidas de una población, tales como media y varianza,
llamadas a menudo parámetros, a partir del conocimiento de esas magnitudes sobre muestras, que se llaman
estadísticos. También es útil para determinar si las diferencias observadas entre 2 muestras son debidas a variaciones
fortuitas o si son realmente significativas. Por ejemplo cuando se estudia el resultado de una medicina como
tratamiento de cierta enfermad, o al decidir si un proceso de producción es mejor que otro.
Distribuciones de muestreo
Si consideramos todas las posibles muestras de tamaño n en una población, para cada muestra podemos calcular un
estadístico (como la media o desviación estándar) que variara de muestra a muestra. De esta manera obtenemos una
distribución de muestreo. Tenemos diferentes tipos de distribución de muestreo que más adelante veremos.
Distribución de muestreo de medias
Supongamos que se toman todas las posibles muestras de tamaño n, sin reposición de una población finita de tamaño
N. Si denotamos la media y la desviación estándar de la distribución de muestreo de medias por 𝜇𝑥̅ 𝑦 𝜎𝑥̅ y las de la
población 𝜇 𝜎, respectivamente entonces
𝜇𝑥̅ = 𝜇
𝜎𝑥̅ =
𝜎
𝑁−𝑛
√
√𝑛 𝑁 − 1
Ecuación 1 Formulas de media y desviación estándar de distribución de muestreo de medias con población finita o sin reposición
Donde:
N es el tamaño de la población
n es el tamaño de la muestra
Si la población es infinita o si el muestreo es con reposición, los resultados anteriores se reducen a
𝜇𝑥̅ = 𝜇
𝜎𝑥̅ =
𝜎
√𝑛
Ecuación 2 Formulas de media y desviación estándar de distribución de muestreo de medias con población infinita o con reposición
Por ejemplo:
Las alturas de 3000 estudiantes varones de una universidad están normalmente distribuidos con media 68 pulgadas y
una desviación estándar de 3 pulgadas. Si se toman 80 muestras de 25 estudiantes cada una. ¿Cuáles serán la media y la
desviación estándar esperadas de la resultante distribución de muestreo de medias, si el muestre se hizo a) con
reposición y b) sin reposición.
a)
𝜇𝑥̅ = 68
𝜎𝑥̅ =
3
√25
b)
𝜇𝑥̅ = 68
= 0.6
𝜎𝑥̅ =
3
3000 − 25
√
= 0.5975
√25 3000 − 1
Como la diferencia es menor se considera para efectos prácticos la misma que en muestre con reposición.
En cuántas muestras esperaríamos encontrar una media de a) 66.8 y 68.3 pulgadas y b) menor que 66.4
a)
𝑍=
𝑋 − 𝜇𝑥̅
𝜎𝑥̅
𝑍=
66.8 − 68.0
= −2.0
0.6
𝑍=
68.3 − 68.0
= 0.5
0.6
0.4772+0.1915=0.6687
0.6687*80=53.496 o 53 muestras
b)
66.4 − 68.0
= −2.67
0.6
0.5-0.4962=0.0038 0.0038*80=0.304 o cero
𝑍=
500 esferas tienen un peso medio de 5.02 gramos y una desviación estándar de 0.30 g. Hallar la probabilidad de que una
muestra al azar de 100 esferas de ese conjunto tengan un peso total a) entre 496 y 500 g y b) más de 510g
𝜇𝑥̅ = 5.02
𝜎𝑥̅ =
0.30
500 − 100
= 0.0268
√100 500 − 1
√
a) El peso total estaría entre 496 y 500 si el peso medio de las 100 bolas está entre 4.96 y 5 g
𝑍=
4.96 − 5.02
= −2.23
0.0268
𝑍=
5 − 5.02
= −0.74
0.0268
*Entre –z a –z se restan
*Entre +z a +z se restan
*Si la variable es = a la media, se suma 0.5
0.4871-0.2704=0.2167
b) El peso total excederá los 510g si el peso medio de las 100 bolas excede 5.10 g
𝑍=
5.10 − 5.02
= 2.98
0.0268
0.5-0.4986=0.0014
Distribución de muestreo de proporciones
Supongamos que una población es infinita y que la probabilidad de ocurrencia de un suceso (su éxito) es p, mientras la
probabilidad de que no ocurra es q=1-p. Por ejemplo una población puede ser todos los posibles lanzamientos de una
moneda, en la que la probabilidad de éxito es ½. Consideremos todas las posibles muestras de tamaño n de tal
población, y para cada una de ellas determinaremos la proporción de éxitos P. En el caso de una moneda, P sería la
proporción de soles en n tiradas. Obtenemos así una distribución de muestreo de proporciones cuya media 𝜇𝑝 y cuya
desviación típica 𝜎𝑝 vienen dadas por
𝜇𝑝 = 𝑝
𝜎𝑝 = √
𝑝𝑞
𝑝(1 − 𝑝)
=√
𝑛
𝑛
Ecuación 3 Formulas de media y desviación estándar de distribución de muestreo de proporciones con muestreo con reposición
Esta fórmula es válida para poblaciones finitas realizadas con muestreo con reposición. Para poblaciones finitas con
muestreo sin reposición se usa:Y
𝜇𝑝 = 𝑝
𝜎𝑝 = √𝑝𝑞
Ecuación 4 Formulas de media y desviación estándar de distribución de muestreo de proporciones sin muestreo con reposición
Cada persona de un grupo de 500 lanza una moneda 120 veces. ¿Cuántas personas se espera que a) Saquen entre 40%
y 60% de soles y b) 5/8 de sus lanzamientos o más de soles
𝜇𝑝 =
1
= 0.5
2
11
√2 2
𝜎𝑝 =
= 0.0456
120
1
Como la proporción es una variable discreta, hay que hacer una corrección, si la variable es menor a la media se resta 2𝑛
1
y si la variable es mayor o igual a la media se suma 2𝑛
𝑍=
0.4 − 0.0041 − 0.5
= −2.28
0.0456
𝑍=
0.6 + 0.0041 − 0.5
= 2.28
0.0456
0.4857+0.4857=0.9714
500*0.9714=489 muestras
b)
𝑍=
0.625 − 0.0041 − 0.5
= 2.83
0.0456
0.4977
0.5-0.4977=0.0023 500*0.0023= 1 personas.
Se ha encontrado que el 2% de las piezas fabricadas en una cierta máquina son defectuosas ¿Cuál es la probabilidad de
que en un envío de 400 piezas a) el 3% o más b)2% o menos, sean defectuosas?
𝜇𝑝 = 0.02
0.02 ∗ 0.98
𝜎𝑝 = √
= 0.007
400
a)
1/2N=1/800=0.0012
𝑍=
0.03 + 0.0012 − 0.02
= 1.25
0.007
0.5-0.3944=0.1056
b)
𝑍=
0.02 + 0.0012 − 0.02
= 0.18
0.007
0.5+0.0714=0.5714
Distribución de muestreo de diferencias y sumas
Sean dadas dos poblaciones. Para cada muestra de tamaño n1 de la primera, calculamos un estadístico S1; eso da una
distribución de muestreo para S1, cuya media y desviación estándar denotaremos por µs1 y σs1. Del mismo modo, para
cada muestra de tamaño n2 de la segunda población, calculamos un estadístico S2; eso nos da un distribución de
muestreo para S2 cuya media y desviación estándar denotaremos con µs2 y σs2. Si tenemos medias muéstrales de ambas
poblaciones, la distribución de muestreo de las diferencias de medias viene dada para poblaciones infinitas o con
muestreo con reposición con medias y desviaciones estándar por:
𝜇𝑥̅ 1−𝑥̅ 2 = 𝜇𝑥̅ 1 − 𝜇𝑥̅ 2 = 𝜇1 − 𝜇2
𝜎12 𝜎22
𝜎𝑥̅ 1−𝑥̅ 2 = √𝜎𝑥̅21 + 𝜎𝑥̅22 = √ +
𝑛1 𝑛2
Ecuación 5 Formulas de media y desviación estándar de distribución de muestreo de diferencias de medias.
Se puede usar la misma fórmula para poblaciones finitas o muestreo sin reposición.
Para suma se utiliza:
𝜇𝑥̅ 1+𝑥̅ 2 = 𝜇𝑥̅ 1 + 𝜇𝑥̅ 2 = 𝜇1 + 𝜇2
𝜎12 𝜎22
𝜎𝑥̅ 1+𝑥̅ 2 = √𝜎𝑥̅21 + 𝜎𝑥̅22 = √ +
𝑛1 𝑛2
Ecuación 6 Formulas de mZedia y desviación estándar de distribución de muestreo de sumas de medias.
En caso que se hablen de proporciones se usa:
𝜇𝑝1−𝑝2 = 𝜇𝑝1 − 𝜇𝑝2 = 𝑝1 − 𝑝2
𝑝1 𝑞1 𝑝2 𝑞2
2
2
𝜎𝑝1−𝑝2 = √𝜎𝑝1
+ 𝜎𝑝2
=√
+
𝑛1
𝑛2
Ecuación 7 Formulas de media y desviación estándar de distribución de muestreo de diferencias de proporciones.
Ejemplo:
Las bolas de rodamientos de cierto fabricante pesan 0.50 g de media, con desviación ESTANDÁR de 0.02 g. ¿Cuál es la
probabilidad de que dos lotes de 1000 bolas cada uno difieran en peso en más de 2 g?
𝜇𝑥̅ 1−𝑥̅ 2 = 𝜇1 − 𝜇2 = 0.5 − 0.5 = 0
(0.02)2 (0.02)2
𝜎𝑥̅ 1−𝑥̅ 2 = √
+
= 0.0008
1000
1000
𝑍=
(𝑥
̅̅̅1 − ̅̅̅)
𝑥2 − 0
= 0.18
0.0008
La diferencia entre ambos debe ser de 2g, por lo que 2/1000=0.002 g, asi que
−0.002 − 0
𝑍=
= 2.23
0.0008
𝑍=
0.002 − 0
= −2.23
0.0008
2.23=0.4871
-2.23
2.23
0
Ilustración 1 Área bajo la curva que se busca para P≥2.23 o P≤-2.23
Como se busca la probabilidad de que P≥2.23 o P≤-2.23 entonces (0.5-0.4871)+(0.5-0.4871)=0.0258
Unidad III Teoría de la estimación estadística
Desde un punto de vista práctico, suele resultar más importante ser capaz de inferir información sobre la población a
partir de muestras. Con tal situación trata la inferencia estadística, que usa los principios de la teoría del muestreo.
Estimaciones sin sesgo
Si un estadístico de muestreo es igual al que le corresponde en la población, se dice que el estadístico es un estimador
sin sesgo, si no, se llama estimador sesgado. La media de las distribuciones de muestreo viene siendo un estimador sin
sesgo ya que siempre es igual a la media de la población, cosa contraria con la varianza y desviación estándar que si
varían y por lo tanto son estimación sesgadas.
Estimaciones de intervalo de confianza para parámetros de población
Se llama intervalo de confianza en estadística a un intervalo de valores alrededor de un parámetro muestral en los que,
con una probabilidad o nivel de confianza determinado, se situará el parámetro poblacional a estimar.
Nivel de
99.73%
confianza
zc
3.00
99%
98%
96%
95.45%
95%
90%
80%
68.27%
50%
2.58
2.05
2.05
2.00
1.96
1.645
1.28
1.00
0.6745
Tabla 1 Valores de Zc correspondientes a varios niveles de confianza.
Intervalo de confianza para las medias.
Si la población es infinita o de una finita con reposición.
𝑋̅ ± 𝑍𝐶
𝜎
√𝑛
Ecuación 8 Intervalo de confianza para medias cuando es infinita o con reposición
Si la población es finita sin reposición
𝑋̅ ± 𝑍𝐶
𝜎
𝑁−𝑛
√𝑛 𝑁 − 1
√
Ecuación 9 Intervalo de confianza para medias cuando la población es finita sin reposición
Donde X es la media de la muestra.
Ejemplo:
Supongamos que las alturas de 100 estudiantes varones de una universidad representan una muestra aleatoria de
estudiantes de esa universidad. La media muestral es de 67.45 pulgadas y la desviación estándar muestral es de 2.93
pulgadas. Hallar los intervalos de confianza a) 95% y b)99% para estimar la altura media de los estudiantes.
a) 67.45 ± 1.96
2.93
√100
= 67.45 ± 0.5742
Esto significa que 66.88 < µ < 68.02 o en otras palabras podemos decir que la probabilidad de que la altura
media de la población esté entre 66.88 y 68.02 pulgadas es del 95%. Equivale a decir que tenemos el 95% de
confianza que la media de la población está entre 66.88 y 68.02.
b) 67.45 ± 2.58
2.93
√100
= 67.45 ± 0.76
Esto significa que 66.69 < µ < 68.21 o en otras palabras podemos decir que la probabilidad de que la altura
media de la población esté entre 66.69 y 68.21 pulgadas es del 99%. Equivale a decir que tenemos el 99% de
confianza que la media de la población está entre 66.69 y 68.21.
Actividad en clase: Realizar ejercicio 9.6 de la página 214 del libro Estadística Segunda Edición.
Intervalos de confianza para proporciones.
Si la población es infinita o de una finita con reposición.
𝑝𝑞
𝑛
𝑝 ± 𝑍𝐶 √
Ecuación 10 Intervalo de confianza para proporciones cuando la población es infinita o con reposición
Si la población es finita sin reposición
𝑝𝑞 𝑁 − 𝑛
√
𝑛 𝑁−1
𝑝 ± 𝑍𝐶 √
Ecuación 11 Intervalo de confianza para proporciones cuando la población es finita sin reposición
Ejemplo:
Un sondeo de 100 votantes elegidos al azar en un distrito indica que el 55% de ellos estaban a favor de un cierto
candidato. Hallar los límites de confianza a) 95% b) 99% y c) 99.73% para la proporción de todos los votantes favorables
a ese candidato.
a) 0.55 ± 1.96√
(0.55)(0.45)
b) 0.55 ± 2.58√
(0.55)(0.45)
100
100
(0.55)(0.45)
c) 0.55 ± 3√
100
= 0.55 ± 0.10
= 0.55 ± 0.13
= 0.55 ± 0.15
Intervalos de confianza para diferencias y sumas
Medias
𝜎12 𝜎22
𝑋̅1 − 𝑋̅2 ± 𝑍𝐶 √ +
𝑛1 𝑛2
Ecuación 12 Intervalos de confianza para diferencias y sumas de Medias
Ejemplo:
Una muestra de 150 lámparas del tipo A ha dado una vida media de 1400 horas y una desviación estándar de 120h. Una
muestra de 100 lámparas del tipo B dan vida media de 1200 h y desviación estándar de 80h. Hallar los límites de
confianza a) 95% b) 99% para la diferencia de las vidas medias de las poblaciones de ambos tipos.
a) 1400 − 1200 ± 1.96√
(120)2
b) 1400 − 1200 ± 2.58√
(120)2
150
150
+
+
(80)2
100
(80)2
100
= 200 ± 24.8
= 200 ± 32.6
Proporciones
𝑝1 𝑞1 𝑝2 𝑞2
𝑃1 − 𝑃2 ± 𝑍𝐶 √
+
𝑛1
𝑛2
Ecuación 13 Intervalos de confianza para diferencias y sumas de Proporciones
Ejemplo:
En una muestra aleatoria de 400 adultos y 600 jóvenes que vieron un cierto programa de televisión 100 adultos y 300
jóvenes reconocieron que les había gustado. Determinar los límites de confianza a) 95% y b) 99% para la diferencia en
proporciones de todos los adultos y jóvenes que vieron con agrado el programa. 300/600=0.5 400/100=0.25
(0.5)(0.5)
a) 0.5 − 0.25 ± 1.96√
600
(0.5)(0.5)
b) 0.5 − 0.25 ± 2.58√
600
+
(0.25)(0.75)
+
(0.25)(0.75)
400
400
= 0.25 ± 0.006
= 0.25 ± 0.008
Unidad IV Teoría estadística de las decisiones
En la práctica nos vemos obligados con frecuencia tomar decisiones relativas a una población sobre la base de
información proveniente de muestras. Tales decisiones se llaman decisiones estadísticas. Por ejemplo podemos decidir
basados en datos muéstrales, si un método pedagógico es mejor que otro o si una moneda esta trucada o no.
Al intentar alcanzar una decisión, es útil hacer hipótesis sobre la población implicada. Tales hipótesis, que pueden ser o
no ciertas, se llaman hipótesis estadísticas.
Hipótesis Nula:
En muchos casos se formulan hipótesis estadística con el único propósito de rechazarla o invalidarla. Así, si queremos
decidir si una moneda está trucada, formulamos la hipótesis de que la moneda es buena (o sea p=0.5). Esta hipótesis se
le llama hipótesis nula y se detona por Ho.
Hipótesis Alternativa:
Es toda hipótesis que difiera de una ya dada. Por ejemplo, si una hipótesis es p=0.5, las alternativas pueden ser p=0.7,
p≠0.5 o p>0.5. Se denota por H1.
Contraste de hipótesis y significación o reglas de decisión
Si suponemos que una hipótesis particular es cierta pero vemos que los resultados hallados en su muestra aleatoria
difieren notablemente de los esperados bajo tal hipótesis, entonces diremos que las diferencias observadas son
significativas y nos veríamos obligados a rechazar la hipótesis. Por ejemplo en 20 lanzamientos de una moneda salen 16
caras, estaríamos obligados a rechazar la hipótesis de que la moneda es buena, aunque hay posibilidad de equivocarnos.
Los procedimientos para determinar si las muestras observadas difieren significativamente de los resultados esperados
se llaman contrastes (o tests) de hipótesis o de significación o reglas de decisión.
Errores de tipo I y de tipo II
Si rechazamos una hipótesis cuando debiera ser aceptada, diremos que se ha cometido un error de tipo I. Por otra parte
si aceptamos una hipótesis que debiera ser rechazada, diremos que se ha cometido un error de tipo II. En ambos casos,
se ha producido un juicio erróneo.
Nivel de significación
Al contrastar una cierta hipótesis la máxima probabilidad con la que estamos dispuestos a correr el riesgo de cometer un
error de Tipo I se llama nivel de significación del contraste. Esta probabilidad denotada a menudo por α se especifica
antes de tomar la muestra. En la práctica es frecuente usar un nivel de significación de 0.05 ó 0.01. , por ejemplo si se
usa 0.05 (5%) hay 5 oportunidades de 100 de rechazar la hipótesis, es decir tenemos un 95% de confianza de que hemos
adoptado la decisión correcta y un 5% de que nos hemos equivocado.
Nivel de significación α
Valores críticos de z
para tests unilaterales
Valores críticos de z
para tests bilaterales
0.10
-1.28 o 1.28
-1.645 y 1.645
0.05
-1,645 o
1.645
-1.96 y 1.96
0.01
-2.33 o 2.33
0.005
-2.58 o 2.58
0.02
-2.88 o 2.88
-2.58 y 2.58
-2.81 y 2.81
-3.08 y 3.08
Tabla 2 Tabla de nivel de significación
Contrastes mediante la distribución normal
Supongamos que bajo cierta hipótesis y su distribución de muestreo estadístico S con una media µs y desviación típica
σs.
Región
crítica 0.025
-1.96
Región
crítica 0.025
0.95
1.96
Ilustración 2 Distribución normal canónica con un 95% de confianza de que la hipótesis es verdadera
Como se ve en la ilustración 2, podemos tener 95% de confianza que la hipótesis es verdadera, para que esto sea cierto
el valor de z debe estar entre -1.96 y 1.96. Si no se encuentra, debemos concluir que tal suceso podría ocurrir con una
probabilidad de 0.05 si la hipótesis fuera cierta. Entonces tendremos que rechazar la hipótesis.
El área total sombreada 0.05 es el nivel de significación del contraste. Representa la probabilidad de equivocarnos al
rechazar una hipótesis (probabilidad de erro tipo I).
El conjunto de z fuera de rango -1.96 a 1.96 (en este ejemplo) se le conoce como región critica de la hipótesis o región
de rechazo de la hipótesis o región de significación.
El conjunto de z dentro del rango se le conoce como región de aceptación de la hipótesis o región de no significación.
Contrastes de una y dos colas
En el contraste anterior se buscaba los valores extremos del estadístico S. A este tipo de contrastes se les llama de 2
colas o bilaterales.
Si estamos interesados en valores extremos a un lado de la media, como por ejemplo cuando se contrasta una hipótesis
de que un proceso es mejor que otro, tales contrastes se llaman unilaterales o de una cola.
Ejemplos:
En un experimento sobre percepción extrasensorial (PES), un individuo en una habitación es invitado a adivinar el color
(rojo o azul) de una carta elegida de un mazo de 50 cartas bien mezcladas por otro individuo en otra habitación. El no
sabe cuántas rojas y cuantas azules hay en el mazo. Si el sujeto identifica 32 cartas correctamente, determinar si el
resultado es significativo al nivel de a) 0.005 y b) 0.001
H0:p=0.5 y el sujeto está simplemente diciendo colores al azar.
H1:p>0.5 y el sujeto tiene poderes de PES
Como estamos interesados en saber que adivine 32 o más entonces se utiliza un contraste de una sola cola y es hacia la
derecha.
𝜇 = 𝑁𝑝 = 50(0.5) = 25
𝜎 = √𝑁𝑝𝑞 = √50(0.5)(0.5) = 3.54
a) para 0.05 utilizamos z=1.645 ya que es un contraste de una sola cola y es hacia la derecha. Si es mayor que se
valor tiene poderes PES si no es al azar
𝑧=
32 − 25
= 1.98
3.54
Entonces el individuo tiene poderes PES
b) para 0.01 utilizamos z=2.33. Como z=1.98 y no es mayor a 2.33 entonces el individuo no tiene poderes PES
Cuando suceden estos caso que en 0.05 se cumple pero en 0.01 no decimos que es probable que suceda, así que es
mejor hacer más investigación o pruebas.
Curvas de operación características, potencia de un contraste
Es posible evitar el riesgo de cometer un error de Tipo II simplemente no aceptando nunca la hipótesis, pero en muchas
aplicaciones prácticas esto es inviable. En tales casos se suele recurrir a curvas de operación características o curvas OC,
que son gráficos que muestran las probabilidades de error de Tipo II bajo diversas hipótesis. Proporcionan indicaciones
de hasta qué punto un contraste dado nos permitirá evitar un error de Tipo II; es decir, nos indicará la potencia de un
contraste a la hora de prevenir decisiones erróneas. Son útiles en el diseño de experimentos porque sugieren entre otras
cosas el tamaño de muestras a manejar.
Unidad V Test de Ji-Cuadrada
Los resultados obtenidos por muestreo no siempre coinciden exactamente con los esperados teóricamente de acuerdo
con las leyes de las probabilidades, por ejemplo, aunque consideraciones teóricas conducen a esperar 50 soles y 50
águilas en 100 lanzamientos de una moneda (buena), es raro que eso ocurra exactamente. Entonces podemos tener
sucesos posibles (E1, E2, E3…) y se observa que ocurren con frecuencias o1, o2, o3… llamados frecuencia observada pero
esperábamos que sucedieran con frecuencia e1, e2, e3… llamada frecuencia esperada.
A menudo deseamos saber si las frecuencias observadas difieren significativamente de las esperadas.
Suceso
Frecuencia observada o
Frecuencia esperada e
E1
o1
e1
E2
o2
e2
Tabla 3 Tabla de contingencia
Definición de χ2
Una medida de la discrepancia existente entre las frecuencias observadas y esperadas viene proporcionada por el
estadístico χ2 dado por:
𝑘
2
𝜒 =∑
𝑗=1
(𝑜𝑗 − 𝑒𝑗 )2
𝑒𝑗
Ecuación 14 Formula de χ2
El test de χ2 para la bondad de ajuste
χ2 puede utilizarse para determinar la calidad del ajuste mediante distribuciones teóricas (como la binomial o normal)
de distribuciones empíricas (las obtenidas de las muestras).
Tablas de contingencia
La tabla 3, se le suelen denominar tablas de contingencia, en la cual podemos ver las frecuencias esperadas y las
frecuencias esperadas.
El estadístico χ2 necesita de grados libertad, v, para podernos dar un resultado correcto. El grado de libertad se calcula
𝑣 = 𝑘−1
Ecuación 15 Formula para calcular los grados de libertad
Donde k=al número de eventos o sucesos.
Los grados de libertad, más los niveles de significación se utilizaran con la siguiente tabla
Ilustración 3 Valores Percentiles de χ2
Ejemplo
En 200 tiradas de una moneda, han salido 115 soles y 85 águilas. Contrastar la hipótesis de que la moneda es buena, con
nivel de significación a)0.005 y b) 0.001
Suceso
Frecuencia observada o
E1 Soles
115
E2 Águilas
85
Frecuencia esperada e
100
100
Entonces:
(115 − 100)2 (85 − 100)2
𝜒 =
+
= 4.5
100
100
2
Ya que k=2 entonces v=k-1=2-1=1
2
a) el valor critico de 𝜒0.95
para 1 grado de libertad es 3.84. Asi pues como 4.50>3.84 rechazamos la hipótesis de
que la moneda es buena al nivel de significación de 0.05
2
b) el valor critico de 𝜒0.99
para 1 grado de libertad es 6.63. Asi pues como 4.50<6.63 no podemos rechazar la
hipótesis de que la moneda es buena al nivel de significación de 0.01
Como sucedió antes es necesario hacer más pruebas ya que es probable que suceda pero no se tiene la certeza.
Unidad VI Ajuste de curvas y el método de mínimo cuadrados
Por lo general encontramos que existen relaciones entre dos o más variables, como por ejemplo los pesos de las
personas dependen en cierta medida de sus alturas, la presión de una masa de gas dada depende de su volumen y de su
temperatura. Suele ser deseable expresar tales relaciones en forma matemática determinando una ecuación que
conecte a las variables.
Ajuste de curvas
Para hallar una ecuación que relacione las variables, el primer paso es recoger datos que muestren valores
correspondientes de las variables bajo consideración. Así por ejemplo, supongamos que X e Y denotan,
respectivamente, la altura y el peso de personas adultas; entonces una muestra de N individuos revelaría las alturas X 1,
X2…Xn y los pesos Y1, Y2…Yn
El próximo paso es marcar los puntos sobre un sistema de coordenadas rectangulares. El conjunto de puntos resultante
se llama diagrama de dispersión. A partir de dicho diagrama de dispersión es posible, visualizar una curva suave que
aproxime los datos. Tal curva se llama una curva aproximante. El problema general de hallar ecuaciones aproximantes
que se ajusten a un conjunto de datos se llama ajuste de curvas.
Ilustración 4 Diagrama de dispersión que se aproxima a una línea recta.
Ilustración 5 Diagrama de dispersión que no es lineal y se dice que es una relación no lineal
El método de mínimos cuadrados
Para evitar juicios subjetivos al construir rectas, parábolas u otras curvas aproximantes de ajuste de datos, es necesario
acordar una definición de recta de mejor ajuste, parábola de mejor ajuste, etc. Entonces se debe usar el método de
mínimos cuadradas.
Recta de mínimos cuadrados
La recta de mínimos cuadrados está dada por la ecuación:
𝑌 = 𝑎0 + 𝑎1 𝑋
Ecuación 16 Recta de mínimos cuadrados
Donde a0 y a1 se calculan
𝑎0 =
∑ 𝑌 ∑ 𝑋 2 − ∑ 𝑋 ∑ 𝑋𝑌
𝑁 ∑ 𝑋 2 − (∑ 𝑋)2
𝑎1 =
𝑁 ∑ 𝑋𝑌 − ∑ 𝑥 ∑ 𝑦
𝑁 ∑ 𝑥 2 − (∑ 𝑥)2
Ecuación 17 Ecuaciones para calcular a0 y a1 para recta de mínimos cuadrados
Ejemplo
Ajustar una recta de mínimos cuadrados a los datos siguientes
X
Y
1 3
1 2
4
4
6
4
8
5
9
7
11 14
8 9
𝑌 = 𝑎0 + 𝑎1 𝑋
Entonces tabulamos los valores
X
1
3
4
6
8
9
11
14
Y
1
2
4
4
5
7
8
9
X2
1
9
16
36
64
81
121
196
XY
1
6
16
24
40
63
88
126
Y2
1
4
16
16
25
49
64
81
∑ 𝑋 = 56
∑ 𝑌 = 40
∑ 𝑋 2 = 524
∑ 𝑋𝑌 = 364
∑ 𝑌 2 = 256
Entonces
𝑎0 =
(40)(524) − (56)(364)
= 0.545
8(524) − (56)2
𝑎1 =
8(364) − (56)(40)
= 0.636
8(524) − (56)2
𝑌 = 0.545 + 0.636𝑋
Parábola de mínimos cuadrados
La parábola de mínimos cuadrados está dada por la ecuación:
𝑌 = 𝑎0 + 𝑎1 𝑋 + 𝑎2 𝑋 2
Ecuación 18 Parábola de mínimos cuadrados
Unidad VII Teoría de la correlación
Correlación y regresión
Si todos los valores de las variables satisfacen una ecuación exactamente, decimos que las variables están
perfectamente correlacionadas o que hay correlación perfecta entre ellas. Si se lanzan dos dados 100 veces, no hay
relación entre las puntuaciones de ambos dados (a menos que estén trucados), es decir, no están en correlación.
Variables tales como el peso y la altura tienen una cierta correlación. Cuando sólo están en juego dos variables,
hablamos de correlación simple y regresión simple. En otro caso, se habla de correlación múltiple y regresión múltiple.
Correlación lineal
Si X e Y son dos variables en cuestión un diagrama de dispersión muestra la localización de los puntos (X, Y) sobre un
sistema rectangular de coordenadas. Si todos los puntos del diagrama parecen estar en una recta como en la ilustración
6 y 7 la correlación se llama lineal. Si Y tiende a crecer cuando X crece en como en la ilustración 6 se dice que es positiva.
Si Y tiende a decrecer cuando X crece como en la ilustración 7 , se dice que es negativa. Si todos los puntos parecen estar
sobre una cierta curva, la correlación no es lineal. Si no hay relación entre las variables decimos que no hay correlación
entre ellas.
Ilustración 6 Correlación lineal positiva
Ilustración 7 Correlación lineal negativa
Ilustración 8 Sin correlación
La recta de regresión de mínimos cuadrados
La recta de regresión de Y sobre X es:
𝑌 = 𝑎0 + 𝑎1 𝑋
Ecuación 19 recta de regresión Y sobre X
Donde a0 y a1 se calculan
𝑎0 =
∑ 𝑌 ∑ 𝑋 2 − ∑ 𝑋 ∑ 𝑋𝑌
𝑁 ∑ 𝑋 2 − (∑ 𝑋)2
𝑎1 =
𝑁 ∑ 𝑋𝑌 − ∑ 𝑥 ∑ 𝑦
𝑁 ∑ 𝑥 2 − (∑ 𝑥)2
Ecuación 20 Ecuaciones para calcular a0 y a1 para recta de regresión
La recta de regresión de X sobre Y es
𝑋 = 𝑏0 + 𝑏1 𝑌
Ecuación 21 Recta de regresión X sobre Y
Donde b0 y b1 se calculan
∑ 𝑋 ∑ 𝑌 2 − ∑ 𝑌 ∑ 𝑋𝑌
𝑏0 =
𝑁 ∑ 𝑌 2 − (∑ 𝑌)2
𝑏1 =
𝑁 ∑ 𝑋𝑌 − ∑ 𝑋 ∑ 𝑌
𝑁 ∑ 𝑌 2 − (∑ 𝑌)2
Ecuación 22 Ecuaciones para calcular b0 y b1 para recta de regresión
Ejemplo:
Altura X del
padre
Altura Y del
hijo
65
63
67
64 68
62
70
66
68
67
69
71
68
66
68
65 69
66
68
65
71
67
68
70
a) Construir un diagrama de dispersión
b) Hallar la recta de regresión de mínimos cuadrados de Y sobre X
c) Hallar la recta de regresión de mínimos cuadrados de X sobre Y
B) Y=35.82+0.476X
C) X=-3.38+1.036Y
Unidad VIII Análisis de varianza
Ya se ha visto como contrastar las diferencias entre dos medias muéstrales, en el supuesto de que las dos poblaciones
de las que se tomaban las muestras tenían la misma varianza. En muchas situaciones es necesario hacer eso mismo con
tres o más medias muéstrales, ósea, equivalentemente, contrastar la hipótesis de que todas las medias son iguales.
Experimentos de factor único
En un experimento de un factor, las medidas (u observaciones) se obtienen para grupos independientes de muestras,
donde el número de medidas en cada grupo es b. Hablamos de a tratamientos, cada uno de los cuales tiene b
repeticiones.
Denotaremos por 𝑋̅𝑗 la media de las medidas en fila j-ésima. Entonces tenemos
𝑏
𝑋̅𝑗 =
1
∑ 𝑋𝑗𝑘 𝑗 = 1,2 … 𝑎
𝑏
𝑘=1
El punto en 𝑋̅𝑗 se usa para anunciar que el índice k se ha sumado. Los valores se llaman medias de grupo, medias de
tratamiento o medias de filas. La media global se calcula
𝑎
𝑏
1
𝑋̅ =
∑ ∑ 𝑋𝑗𝑘
𝑎𝑏
𝑗=1 𝑘=1
Variación total, variación dentro de los tratamientos y variación entre tratamientos
La variación total denotada por V, se calcula con:
𝑉 = ∑(𝑋𝑗𝑘 − 𝑋̅)2
𝑗,𝑘
Ecuación 23 Variación Total
La variación dentro de los tratamientos se calcula con:
𝑉𝑊 = ∑(𝑋𝑗𝑘 − 𝑋̅𝑗 )2
𝑗,𝑘
Ecuación 24 Variación dentro de los tratamientos
La variación entre los tratamientos se calcula con:
𝑉𝐵 = 𝑏 ∑(𝑋𝑗 − 𝑋̅)2
𝑗
Ecuación 25 Variación entre los tratamientos
Por lo tanto V la podemos calcular también con:
𝑉 = 𝑉𝑊 + 𝑉𝐵
En la práctica es conveniente restar alguna cantidad fija de todos los datos de la tabla para simplicar los cálculos; tal
operación no tiene efecto alguno sobre el resultado final.
Ejemplo
La siguiente tabla da las producciones por acre de una cierta variedad de trigo que crece en terrenos tratados con
fertilizantes A, B y C. Hallar a) las producciones medias para los diferentes tratamientos, b) la media global para todos los
tratamientos c) la variación total d) la variación entre tratamientos e) la variación dentro de los tratamientos.
A
B
C
48
47
49
49
49
51
50
48
50
49
48
50
Para hacer mejor el cálculo podemos restar 45 a todos los datos y queda la tabla
3
2
4
4
4
6
5
3
5
4
3
5
a)
1
̅̅̅
𝑋1 = (3 + 4 + 5 + 4) = 4
4
1
̅̅̅
𝑋2 = (2 + 4 + 3 + 3) = 3
4
1
̅̅̅
𝑋3 = (4 + 6 + 5 + 5) = 5
4
b)
𝑋̅ =
1
(3 + 4 + 5 + 4 + 2 + 4 + 3 + 3 + 4 + 6 + 5 + 5) = 4
12
c)
𝑉 = ∑(𝑋𝑗𝑘 − 𝑋̅)2 = (3 − 4)2 + (4 − 4)2 + (5 − 4)2 + (4 − 4)2 + (2 − 4)2 + (4 − 4)2 + (3 − 4)2 + (3 − 4)2
𝑗,𝑘
+ (4 − 4)2 + (6 − 4)2 + (5 − 4)2 + (5 − 4)2 = 14
d)
𝑉𝐵 = 𝑏 ∑(𝑋𝑗 − 𝑋̅)2 = 4[(4 − 4)2 + (3 − 4)2 +(5 − 4)2 ] = 8
𝑗
e)
𝑉𝑊 = 𝑉 − 𝑉𝐵 = 14 − 8 = 6
Métodos Abreviados
2
𝑉 = ∑ 𝑋𝑗,𝑘
−
𝑗,𝑘
𝑉𝐵 =
𝑇2
𝑎𝑏
1
𝑇2
∑ 𝑇𝑗2 −
𝑏
𝑎𝑏
𝑗
𝑉𝑊 = 𝑉 − 𝑉𝐵
Ecuación 26 Métodos Abreviados para experimento de un factor.
Donde T es el total de valores 𝑋𝑗𝑘 y Tj es el total de valores en el tratamiento j-ésimo.
𝑇 = ∑ 𝑋𝑗𝑘
𝑗,𝑘
𝑇𝑗 = ∑ 𝑋𝑗𝑘
𝑘
Experimentos de Dos factores
El tratamiento de dos factores es como si fuera una matriz, a continuación se muestran las formulas.
𝑉 = ∑(𝑋𝑗𝑘 − 𝑋̅)2
𝑗,𝑘
Ecuación 27 Variación total de dos factores
Variación debida a error o azar
𝑉𝐸 = ∑(𝑋𝑗𝑘 − 𝑋̅𝑗 − ̅𝑋̅̅𝑘̅ + 𝑋̅)2
𝑗𝑘
Ecuación 28 Variación debida a error
Variación entre filas
𝑎
𝑉𝑅 = 𝑏 ∑(𝑋𝑗 − 𝑋̅)2
𝑗=1
Ecuación 29 Variación entre filas
Variación entre columnas
𝑏
𝑉𝐶 = 𝑎 ∑(𝑋𝑘 − 𝑋̅)2
𝑗=1
Ecuación 30 Variación entre columnas
Formas abreviadas
2
𝑉 = ∑ 𝑋𝑗,𝑘
−
𝑗,𝑘
𝑇2
𝑎𝑏
𝑎
1
𝑇2
2
𝑉𝑅 = ∑ 𝑇𝑗 −
𝑏
𝑎𝑏
𝑗=1
𝑏
1
𝑇2
𝑉𝐶 = ∑ 𝑇𝑘2 −
𝑎
𝑎𝑏
𝑗=1
𝑉𝐸 = 𝑉 − 𝑉𝑅− 𝑉𝑐
Ecuación 31 Métodos Abreviados para experimento de 2 factores
Bibliografía
Unidad I Estadística Aplicada, Julian de la Horra Navarro, Mc Graw Hill. Página 84.
Unidad II Estadística Segunda Edición, Spiegel, Mc Graw Hill. Páginas 186-207
Unidad III Estadística Segunda Edición, Spiegel, Mc Graw Hill. Páginas 208-222
Unidad IV Estadística Segunda Edición, Spiegel, Mc Graw Hill. Páginas 223-240
Unidad V Estadística Segunda Edición, Spiegel, Mc Graw Hill. Páginas 268-284
Unidad VI Estadística Segunda Edición, Spiegel, Mc Graw Hill. Páginas 289-309
Unidad VII Estadística Segunda Edición, Spiegel, Mc Graw Hill. Páginas 322-348
Unidad VIII Estadística Segunda Edición, Spiegel, Mc Graw Hill. Páginas 375-396
Descargar